网络舆情信息数量级巨大,必须借助计算机工具进行分析。这类工具可以分为搜索引擎和专业的网络舆情分析平台。搜索引擎平台虽然不是专业的舆情监测平台,但这类工具简单、方便、易掌握、无成本,是一款大众化的网络舆情分析工具。除了搜索引擎不断在开发网络舆情分析功能以外,不少互联网技术公司也顺应潮流开发出不少可供政府、企业使用的专业网络舆情分析平台。下面我们将详细介绍怎样使用百度舆情、百度人工智能开放平台、“两微”数据抓取平台、云众大数据平台进行网络舆情分析。
(一)百度网络舆情
百度舆情分析系统于2014年8月18日上线,是国内首款免费开放的舆情工具。该系统依托百度强大的网页内容挖掘能力与领先的中文语义分析技术,挖掘与分析互联网舆情数据,能够实现主体提取、趋势分析、舆情预警等多种功能。百度舆情分为个人版、政企版、API版三种版本。个人版服务于舆情分析师、学生、教师等个人用户,可以免费开通账号,按模块购买使用,提供舆情监控、舆情分析、相关搜索词分析、受众画像、简报导出等功能。政企版服务于政府、企业等大型客户,可申请开通试用权限,正式版按年付费使用,提供舆情监控、舆情分析、相关搜索词分析、受众画像、简报、对比分析报告等功能。API版服务于有定制化需求的政府或企业客户。提供数据订阅、地域风向标等数百个数据接口,打包大数据平台工具,提供定制化解决方案。这里我们将主要介绍免费开放的个人版本如何进行网络舆情分析。
在百度舆情的个人版操作台(图8-5)上,左侧的“系统监控任务”显示的是目前正在监控的舆情事件。“自定义监控任务”处可以添加新增加的需要监控的舆情事件。
图8-5 百度舆情平台网络舆情示意图一
确定了需要监控的舆情事件后,实时舆情项目栏将显示抓取到的舆情信息。包括标题、来源、媒体属性、舆情类型、发布时间、关联度等相关信息。我们可以通过设置抓取时间、抓取地域、媒体类型、舆情属性是负面还是正面对抓取的舆情信息进行筛选,并最终导出我们所需要的舆情信息。导出的舆情信息将以.csv格式得以储存。图8-6为2020年1月1日至3月31日,三个月间与医疗卫生相关的166 206条网络舆情信息。
图8-6 百度舆情平台网络舆情示意图二
在舆情分析栏,我们可以看到对“医疗卫生”方面网络舆情信息的分析结果。图8-7为1月1日到3月31日,三个月间网络舆情的总体趋势图。我们可以看到1月21日,医疗卫生领域出现了罕见的峰值。随后武汉因新型冠状肺炎宣布封城的23日,网络舆情又出现了一个小峰值。
图8-7 百度舆情平台网络舆情示意图三
百度舆情平台能够实现多种网络舆情分析功能,其中最有特色的功能为依托中国最大的搜索引擎平台完成的搜索词分析。图8-8展示了2020年3月20日至4月18日间,医疗卫生方面网络舆情的搜索词分析结果。
图8-8 百度舆情平台网络舆情示意图四
百度舆情的媒体分布功能是统计抓取到的舆情信息的来源。受众分析是对该舆情事件的信息发布者属性进行的分析,包括性别、地域、兴趣爱好、所属行业。由于百度并未公布百度舆情的观点分析功能的具体算法,我们无法判断其合理性,故此处不做介绍。图8-9展示了网络舆情的传播分析功能。该功能首先提取出抓取到的舆情信息中的微博数据,然后对微博信息的情感倾向、转发情况进行分析。
图8-9 百度舆情平台网络舆情示意图五
事件分析会对舆论事件的事件热度、起始时间、结束时间、事件状态进行分析。图8-10为2020年1月1日至3月31日,三个月间医疗卫生方面网络舆情信息的事件分析结果。
图8-10 百度舆情平台网络舆情示意图六
(二)百度人工智能开放平台
百度舆情只能针对用户设定的舆情事件抓取网络舆情信息,用户也只能依赖百度舆情抓取信息。有的时候,我们需要分析某些特定网站的网络舆情信息,或者分析某个产品品牌的论坛上的产品评论信息。这就需要我们自行抓取网络舆情信息再进行分析。在这种方式中,网络舆情信息的来源可以多种多样,可以是企业内部的数据库,也可以是通过Java编写的爬虫程序或八爪鱼抓取到的网络舆情信息。总的来说,信息的来源不再局限于百度舆情的自我抓取。
在拥有了网络舆情数据之后,可以使用百度人工智能开放平台进行网络舆情的信息分析。图8-11显示了百度人工智能开放平台提供了网络舆情分析所需要的词向量、情感分析、文本分类等多项技术的免费使用权限。接下来,我们将大致介绍如何使用AI平台进行网络舆情分析。
图8-11 百度人工智能开放平台操作功能
点击进入百度人工智能开放平台的词法分析板块,选择立即使用,进入如图8-12所示的操作页面,点击“创建应用”进入网络舆情信息的分析页面。
图8-12 百度人工智能开放平台分析舆情信息示例一
在“创建应用”页面,输入你的应用名称、应用类型和应用描述。如图8-13所示,由于我们进入的是词法分块这一自然语言处理的板块,所以在接口选择中“自然语言处理”中相应的分词、词性标注、向量表示、情感分析、观点抽取、文本分类等是默认勾选且不能消除的。但是如果你的网络舆情信息中还包括图片等数据,可以在接口选择中加选文字识别、图像识别等功能接口。(www.xing528.com)
图8-13 百度人工智能开放平台分析舆情信息示例二
创建应用成功后,我们将得到该应用的API Key和Secret Key,如图8-14所示。随后我们可以使用Python代码调用百度AI开放平台的自然语言处理功能对抓取到的网络舆论评论数据进行分析。用户只需在百度AI开放平台复制Python代码,并将其中的API Key和Secret Key代换成自己设置的应用中显示的即可。
图8-14 百度人工智能开放平台分析舆情信息示例三
(三)“双微”数据采集平台
腾讯发布的《2018微信公众平台政务、媒体类账号发展报告》及《2018年网络谣言治理报告》显示,2018年政务及媒体类公众号粉丝总量达到35亿,相当于平均每个微信用户关注2.3个政务号和1个媒体号。此外,腾讯微信平台2018年全年共拦截谣言8.4万多条,辟谣文章阅读量近11亿次。可见,微信已成为各类信息宣传及舆论聚焦的主阵地之一。不管是企业还是政务单位,几乎都有开通自己的微信公众号。随着微信公众平台用户数量的增长,其信息传播范围和平台影响力都在不断加强,这也加速了微信公众号舆情的频繁突发,也促使其成为当下舆情舆论诱发的主平台。除了微信平台以外,微博也是网络舆情产生和传播的主要途径。据微博高级副总编曹增辉在“2020V影响力峰会”上介绍,2020年年初,微博月活跃用户已达5.23亿,每天活跃用户2.29亿,每个舆情事件的评论动辄上万条。
因此,对微博和微信公众号舆情信息进行抓取、统计、分析的工具在近两年也不断面世。这里我们将介绍主要对微博、微信“两微”数据的采集平台。
图8-15显示了2014年6月9日搜狗搜索上线的微信公众号数据搜索平台。登录搜狗搜索,选择微信,输入关键词,即可实现一批针对关键词的微信公众号数据抓取,从而实现对所关注的舆情事件的微信公众号信息的统计。
图8-15 搜狗搜索抓取微信公众号信息示例
微博中的数据为开放数据,有网络舆情分析需求的个人和组织可以登录相应的微博平台进行舆情信息抓取。图8-16以新浪微博为例,点击进入新浪微博的高级搜索页面,通过关键词、数据类型、发布时间、发布地点等限定获取特定网络舆情的微博评论。
图8-16 新浪微博搜索评论数据示例
(四)众云大数据平台
众云大数据平台(http://zy.peopleyun.cn)是人民在线、人民网舆情监测室历时十年打造的国内首款基于大数据挖掘技术,集监测、预警、分析等功能于一体的自助式开放大数据工具型平台,目前已经广泛应用于国内政府机构和企业。其对外开放的大数据抓取平台,完全能满足一般分析人员、包括职业舆情分析师对舆情数据进行个性监测、广域抓取、时时预警、一键图表、自动报告等的需求,目前可以通过申请,免费入驻。
首先,在众云大数据平台添加需要监测的舆情任务。例如监测2020年新冠肺炎爆发期间,有关“停课不停学”的网络舆情。在输入任务名称后,输入与该舆情事件相关的“主体词”“辅助词”等关键词。接着,选择需要监测的网络舆情来源,例如数字报刊、网络媒体、政府机构、论坛、博客、微博、微信、资讯、客户端等。众云大数据平台将根据设置开始抓取相关的网络舆情信息,图8-17所示为2020年4月20日抓取到的7天内有关“新型冠状肺炎”的7 814条全网舆情数据。需要注意的是,众云大数据平台最多只能抓取30天内的网络舆情。
图8-17 众云大数据平台网络舆情分析示例一
抓取到舆情事件的网络舆情信息之后,众云大数据平台能自动完成情感分析(计算敏感舆情信息占比)、报道趋势分析、报道渠道分析,如图8-18所示。
图8-18 众云大数据平台网络舆情分析示例二
此外,众云大数据平台将专业媒体和网民的网络舆情信息进行分类。如图8-19所示,分别分析媒体和网络对舆情事件的关注重点。
图8-19 众云大数据平台网络舆情分析示例三
值得一提的是,众云大数据在线平台对敏感舆情单独汇报,如图8-20所示,该部分是舆情预警分析的重要分析来源。
图8-20 众云大数据平台网络舆情分析示例四
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。