首先,建立“CSSCI原始数据集”。本书以“舆情”关键词为例,在南京大学CSSCI数据库进行检索,检索篇名包含“舆情”关键词,检索时间为2010—2019年,检索二级学科为情报学,得到96篇文章。将这96篇文章以南京大学CSSCI检索的默认引文格式导出,保存的文件名为“DataSet(CSSCI).txt”。“DataSet(CSSCI).txt”是本书的原始数据集,称为“CSSCI原始数据集”。
为了对“CSSCI原始数据集”进行统计和分析,需要对一篇文章的唯一标识(即主键)进行定义。由于本书选取的情报学领域,基于篇名和第一作者便可以区分不同文章,因此,篇名和第一作者名称联合构成主键。为了描述方便,对相关简称进行定义,见表5-22。
表5-22 名词缩写定义表
然后,对“CSSCI原始数据集”进行处理,建立知网数据集(以下称“CNKI数据集”),整个技术流程图,如图5-63所示。
图5-63 数据获取与清洗原理图
根据上图,对数据集进行处理的主要技术流程分为以下步骤。
①EAA模块。该模块对“CSSCI原始数据集”进行抽取,提取第一作者和关键词,得到96篇文章的主键列表,保存文件名为“cnki.txt”。输出的样例数据以5条数据为例,见表5-23。
表5-23 EAA模块输出表
②SP模块。该模块的输入是EAA模块输出的“cnki.txt”,采用Selenium浏览器自动化搜索技术逐行读取“cnki.txt”并解析。在知网上采用第一作者和篇名进行联合搜索,结果存储为“cnki-rc-dc.txt”,输出的样例数据,见表5-24。
表5-24 SP模块输出表
③FIX模块。该模块是对SP模块输出的数据进行数据修复。SP模块在对96篇文章进行自动化搜索时,发现3篇《情报学报》的文章没有被知网检索,但是却可以在CSSCI数据库中查到,这3篇文章,见表5-25。
表5-25 FIX模块异常文献表
为了使程序处理数据保持整齐,对这3这篇文章的知网下载次数和被引次数均定义为0。对于知网不显示被引次数的也标记次数为0。修复后的样本数据文件保存为“cnki-rcdc.txt”,输出的样例数据,见表5-26。
表5-26 FIX模块输出表(www.xing528.com)
以上便完成了数据获取与清洗过程,接着,为了研究的方便,需要对“CNKI数据集”进行处理,建立关键词库,整个技术流程图,如图5-64所示。
图5-64 关键词库建立流程图
根据上图,建立关键词库的主要技术流程分为以下步骤。
①KW模块。该模块是对“CSSCI原始数据集”进行抽取,提取关键词,结果保存为“cnki-kw.txt”,输出的样本数据,见表5-27。
表5-27 KW模块输出表
②DICT模块。该模块以“cnki-kw.txt”为种子文件,基于“CSSCI原始数据集”进行关键词词频统计,结果保存为“cnki-kw-diy.txt”,输出的样本数据,见表5-28。
表5-28 DICT模块输出表
③DC模块。该模块以“cnki-kw.txt”为种子文件,基于联合查询“CNKI数据集”进行下载次数统计,结果保存为“cnki-kw-dc.txt”。例如,“网络舆情知识库”关键词,只有AID为0的文章《基于本体的突发事件舆情》包含该关键词,因此,该关键词下载量为《基于本体的突发事件舆情》的下载量,429次。而对于“本体”关键词,由于AID为0的《基于本体的突发事件舆情》和AID为20的《面向政府决策需求的社会舆情信息语义组织研究》均包含该关键词,而《面向政府决策需求的社会舆情信息语义组织研究》的下载量为266次,因此下载次数为两篇文章的下载量之和,695次,输出的样本数据,见表5-29。
表5-29 DC模块输出表
④RC模块。该模块以“cnki-kw.txt”为种子文件,基于联合查询“CNKI数据集”进行被引次数统计,结果保存为“cnki-kw-rc.txt”。RC模块的计算原理同DC模块,输出的样本数据,见表5-30。
表5-30 RC模块输出表
通过以上步骤便完成了数据获取清洗工作和关键词库建立工作,本书的数据库检索时间为2020年2月26日,所有工程代码和数据文件可以在Github[55]免费获取。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。