首页 理论教育 爬取并利用Excel进行小样本数据分析:以支付宝电子支付服务质量为例

爬取并利用Excel进行小样本数据分析:以支付宝电子支付服务质量为例

时间:2023-05-19 理论教育 版权反馈
【摘要】:对数据量不大的广大小型企业来说,可以利用Excel这一常用办公软件来进行数据管理和数据分析。Excel相比其他数据处理和分析软件,具有操作简单、便捷的特点,同时也基本可以完成像SAS等专业统计软件所能完成的数据分析功能。鉴于最终得到的数据数量为小样本,我们选用Excel作为数据分析软件,辅以词云,研究支付宝电子支付功能顾客感知服务质量。在所爬取的数据中,我们选择了时间、用户名、评价等级和评价内容这四个字段来分析。

爬取并利用Excel进行小样本数据分析:以支付宝电子支付服务质量为例

我们从360官方软件下载平台中的支付宝版面爬取了2017年8月2日至2017年12月6日期间用户关于支付宝使用情况的评论,共8 123条。经对数据的初步处理,即删除所有由于技术操作等外部原因导致的完全重复的评论,最终剩余390条有研究价值的评论。

在大数据时代,人们开始了解并意识到数据以及数据分析的潜在魅力和益处,数据建设逐渐成为信息化建设的核心,是数据分析和知识挖掘等决策支持的基础。大型企业采用大型数据库管理系统进行数据管理,采用专业的数据分析软件如SPSS和SAS等进行数据管理,从海量数据中提取有用的知识,为决策提供支持。对数据量不大的广大小型企业来说,可以利用Excel这一常用办公软件来进行数据管理和数据分析。Excel相比其他数据处理和分析软件,具有操作简单、便捷的特点,同时也基本可以完成像SAS等专业统计软件所能完成的数据分析功能。

目前常见的用于数据分析的方法有:描述性统计、概率统计、概率分布、均值推断、线性回归、非线性回归、逻辑回归、多元回归、时间序列等。其中描述性统计方法和概率统计方法通常用于汇总数据,其与线性回归、非线性回归、逻辑回归、多元回归统称为传统的统计分析方法,时间序列分析则为相对非传统统计分析方法。Excel具有绝大部分传统统计分析方法的功能。

在数据处理方法上,通常利用Excel中的“筛选”“排序”“自动填充”等功能以及“函数”功能处理数据,使数据达到可进行分析的标准。而数据分析方法,则通常利用Excel中数据透视表、数据透视图、各类图表(柱形图、条形图、折线图、饼图、散点图等)、描述性统计、概率统计和回归模型功能分析数据,通过分析数据进而探究各种活动规律和行为。

鉴于最终得到的数据数量为小样本,我们选用Excel作为数据分析软件,辅以词云,研究支付宝电子支付功能顾客感知服务质量。其中,“词云”就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。在所爬取的数据中,我们选择了时间、用户名、评价等级和评价内容这四个字段来分析。评价等级一共分为好评、中评和差评三等。对评价等级做数据透视分析和公式计算可得,好评一共213条,占总数54.62%;中评一共62条,占总数15.9%;差评一共115条,占总数29.49%。总体来看,超过三分之一的用户对支付宝电子支付功能持不差的态度,说明支付宝基本得到了大众的认可。

对所有390条评论内容进行词频分析得到如图10.2所示的词性统计。

图10.2 词性统计

把所有得到的词语生成词云,如图10.3所示。

图10.3 词云1(www.xing528.com)

从图10.3可知,用户对于支付宝的使用反馈总体为“很好”,但是其他词语不太显著,因此仅选择名词生成词云得到图10.4。由图10.4,我们不仅可以知道用户对服务质量的感知情况,包括“很好”“方便”“挺好”“垃圾”等,同时还能了解到用户关注的重点何在,如“信用”“红包”等。

图10.4 词云2

在Excel中,采用筛选功能对数据进行关键字段统计分析,首先选取“方便”二字,共得到33条相关评论;“不错”,共得到17条相关评论;关于“好”,一共得到130条相关记录,去除其中语义相反的11条评论,一共得到119条;关于“好用”,一共得到44条相关评论,去除其中语义相反表示“不好用”的2条评论,共得到42条评论。关于“不好”,一共得到9条相关评论;关于“满意”,一共5条相关评论。关于“棒”,一共得到8条记录;关于“差”,一共“8”条相关结论;关于“可以”,一共17条相关结论;关于“一般”,一共3条结论。具体排列如表10.14所示,与词云相互印证。

表10.14 关键字段统计数据

另外,我们构建的关键时刻如表10.15所示。关键时刻是指在这个特定的时间和地点,企业才真正有机会向顾客展示自己产品和服务的质量。一旦时机过去,顾客离开,企业很难再用其他办法改变顾客对产品和服务质量的感知。

表10.15 关键时刻表

根据质量问题提取得到的相关字段如表10.16所示。可以知道,我们构建的关键时刻还不完整,用户关注度最高的是蚂蚁花呗和红包,也体现了新时代下人们重视消费水平的提升和提高购买能力。其次,安全问题也是用户非常关注的。

表10.16 根据质量问题提取的相关字段统计数据

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈