首页 理论教育 大数据爬取评价:应用三大短租网站评论数据进行分析

大数据爬取评价:应用三大短租网站评论数据进行分析

时间:2023-05-20 理论教育 版权反馈
【摘要】:为了弥补遗漏,增强研究结果的准确性和科学性,我们接下来进行了评价大数据的爬取。(一)评论大数据的爬取我们选用八爪鱼软件爬取了国内目前应用较为广泛的Airbnb、蚂蚁短租和途家三家短租网站的评论数据,考虑到小城市目前短租行业发展还很微弱,网站涉及内容较少或几乎没有,因此我们每家网站都选择了北京、上海、成都、南京四大城市,且都覆盖了高价位和低价位两种类型,以增强数据普遍性。

大数据爬取评价:应用三大短租网站评论数据进行分析

由于该研究的主要内容是短租用户的感知服务质量,因此研究的关键在于搜集现有用户对于短租网站及房东的评价。前文中已经设计问卷并进行了发放回收,但该种数据收集方式有一定的局限性。例如我们的问卷覆盖范围以北京高校的学生群体为主,因此会遗漏其余年龄阶层、社会阶层、地域阶层;而且问卷只能从SERVEQUAL评价模型的角度去评判短租行业的某项服务目前处于怎样的一个水平,涉及的问答一般都只有固定的几个选项,所以无法得到用户的详细感知或是某些细节评价。

为了弥补遗漏,增强研究结果的准确性和科学性,我们接下来进行了评价大数据的爬取。数据爬取这种方式也具有一定局限性,例如多人同时使用一家短租房,最终使用完毕后在网站上评论的人肯定只会是当初订房的那一个人,而且有些人可能使用后也不会进行评价,因此这种方式刚好可以与问卷收集得到的数据在一定程度上进行互相补漏。

(一)评论大数据的爬取

我们选用八爪鱼软件爬取了国内目前应用较为广泛的Airbnb、蚂蚁短租和途家三家短租网站的评论数据,考虑到小城市目前短租行业发展还很微弱,网站涉及内容较少或几乎没有,因此我们每家网站都选择了北京、上海、成都、南京四大城市,且都覆盖了高价位(300以上)和低价位(200以下)两种类型,以增强数据普遍性。

数据爬取工作流程设计如图10.20所示,即选择的每家网站都循环翻页采集所有评论信息。爬取的字段包括评论时间和评论内容,导出到Excel列表如图10.21所示。

图10.20 数据爬取工作流程设计

图10.21 导出评价

通过整理,我们发现爬取到的网站评论信息几乎全部都是好评,但是这显然与问卷得到的结果和现实中我们的短租房体验感知不相匹配,不可能所有房源都做到无可挑剔,因此我们认为出现这种情况可能有以下两点原因。一是网站处理了用户评论信息,筛选掉了较为不好的评价;二是因为在短租房使用过程中,房东和租客可以进行充分的线下接触,因此用户可以将体验及时反馈给房东,并进行沟通交流,这样在后期进行线上评价的时候就可能不会再填写不好的信息。

此外,在整理数据后我们发现,Airbnb的评论信息只有评论区域的第一页显示了用户评论时间,后续页面都没有显示时间,途家网则是同样的日期出现好几次,且时间都不连续,每个房源都是这种情况,我们对这一点很疑惑,这很难不让我们去质疑它的真实性。而且,评论时间对还未入住过想要订房的用户来说是很重要的一项参考信息,没有评论时间会在一定程度上降低用户的满意度,如图10.22所示。

图10.22 用户评论时间(www.xing528.com)

(二)分词及词频统计

鉴于这种数据情况,我们无法通过数据的爬取提出改进建议,因此将研究重点放在用户在这些详细评论中所体现的他们对于短租房服务的重点关注点。我们选用R软件进行了分词和词频统计,选取词频在20以上的词,并去除语言表达中常用的与我们调查对象非关联的词组,最后得到了如表10.23所示的70组词。

表10.23 词频统计结果

续表

通过表10.23中的词频统计结果,我们进一步进行了词语所属类别的分析,主要分为了以下四类。一是硬件环境,主要包括对房源所属地理位置、周围的交通是否便利以及周围环境如何等类似评价的词语;二是房源情况,主要包括对房源本身及内部各项设施的评价词语;三是房东情况,主要包括对房东及房东的服务态度等方面评价的词语;四是用户的具体感受体验,主要包括各类感性描述词语,例如房子是否整洁干净、房东是否热情用心等,如图10.23所示。

图10.23 词语类别分析

通过排序我们可以发现:硬件环境方面,用户使用度最高的词语主要是位置、地铁、交通、价格、环境、吃以及设施等,由此可以看出用户对于短租房的位置及周边环境尤为看重;房源情况方面,用户使用度最高的词语是房间、房子、家、床以及厨房等,除房间、房子和家这三个整体性词语之外,可以看出用户在进入短租房之后的关注点主要集中在床和厨房这两方面;房东情况方面,与房源类似,剔除整体性词语之外,用户经常使用的词语就是服务以及态度,可以看出房东的服务在整个短租房使用过程中也是很重要的;感受体验方面,用户使用度最高的词语是入住、方便、干净、舒服、热情以及温馨等,这方面的描述性词语特别多,覆盖内容也较为广泛,但最主要的方面就是入住是否方便舒服,其余词语都是进一步地对房东的服务以及房源情况的描述。

将这四个方面整合为一个整体来看,用户使用度最高的词语是入住、房东、方便、房间、干净、位置等,由此可以看出用户对于短租房最关注的就是房东服务态度怎么样、房间是否干净以及房源的地理位置是否方便。这个结果可以在一定程度上代表目前用户对于短租房的主要关注点以及要求,这对于后续加强短租房行业服务质量及提出改进建议具有很强的参考意义。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈