首页 理论教育 大数据时代图书馆信息系统分析设计及实践

大数据时代图书馆信息系统分析设计及实践

时间:2023-07-31 理论教育 版权反馈
【摘要】:代表了这35大学1998年1月1日至2017年12月31日的所有国家自然科学基金立项项目。表5-13停用词然后,删除停用词,见表5-13。表5-13停用词特别需要注意的是,一个基金中的全英文词组间的空格不视作分隔符,全中文词组间的空格视作分隔符。表5-172017年“双一流”大学13169项自然科学基金关键词维度统计结果从表5-17中可以看到,2017年98.50%的自然科学基金的关键词包含3项。

大数据时代图书馆信息系统分析设计及实践

数据采集完成后会存到数据库,并清空关键词,设置其为空数据。本书所有的数据和实验代码可以在Github下载。

“35所大学国家自然科学基金立项表”(1998年1月1日—2017年12月31日)文件共有132899条记录,其中第一条为表头。代表了这35大学1998年1月1日至2017年12月31日的所有国家自然科学基金立项项目。以一条数据演示为例,其中字段见表5-10。

表5-10 35所大学国家自然科学基金立项表数据演示

表5-10中的YEAR为立项时间,grantNo为国家自然科学基金委员会分配的基金编号,orgn为基金依托单位,orgnid为基金依托单位对应的编码,Projectkeyword为基金关键词。为了方便MATLAB处理,基金标题和基金关键词为非结构化数据,需要将文本变为向量。以基金依托单位编码代表基金依托单位,删除grantNo字段,可以直接利用MATLAB进行处理,得到数据结果见表5-11。

表5-11 35所大学国家自然科学基金立项简化表

需要对表5-11中的数据字段进行数据清洗,建立自然科学基金的主题词库。先将表5-11的Projectkeyword保存为文本文件3.txt,然后利用分隔符对Projectkeyword字段直接进行拆分,拆分主要分隔符的主要规则见表5-12。

表5-12 分隔符

然后,删除停用词,见表5-13。

表5-13 停用词

特别需要注意的是,一个基金中的全英文词组间的空格不视作分隔符,全中文词组间的空格视作分隔符。最后得到Projectkeyword生成的清洗词库文件,共有230001条词典记录,生成的清洗词库见表5-14。

表5-14 清洗词库

然后,用“清洗词库”对“35所大学国家自然科学基金立项简化表”的数据文件进行文档向量化,向量化之后的文件和“35所大学国家自然科学基金立项简化表”文件进行对比,合并得到“35所大学国家自然科学基金立项简化清洗表”,此处,132899条记录中仅有一条记录异常,并对其进行了跟踪(序号为第2条),考虑到异常数据占全部数据的比例很低,因此,删除了第三条数据,确保数据的一致性,示例数据见表5-15。

表5-15 35所大学国家自然科学基金立项简化清洗表

接下来,需要对表5-15中的数据进行可视化绘制和试验,每次筛选的实验数据为二维数据结构,实验的标签变量为时间(YEAR)或依托单位编码(orgnid),实验的数据变量为关键词对应字典编码。

国家自然科学基金的系统存储的数据也在不断完善和规范化,为了判断关键词,选取关键词列数。由于2017年是实验数据中最新的年份,以2017年作为关键词维度选取关键词数量。

基于2017年的不同“双一流”大学的基金项目关键词,根据表5-15的数据筛选得到“2017年35所大学国家自然科学基金立项简化清洗表”文件,见表5-16(只显示其中7个关键词),共13170项(包含表头)。

表5-16 2017年35所大学国家自然科学基金立项简化清洗表

本书对“2017年35所大学国家自然科学基金立项简化清洗表”的数据进行数据筛选,发现了以下结果,见表5-17。

表5-17 2017年“双一流”大学13169项自然科学基金关键词维度统计结果

从表5-17中可以看到,2017年98.50%的自然科学基金的关键词包含3项。采用同样办法筛选1998年的数据,和2017年的数据进行对比,其结果见表5-18。

表5-18 1998年“双一流”大学1772项自然科学基金关键词维度统计结果

从表5-17和表5-18的对比可以看出,过去20年,自然科学基金立项的关键词数量从3个升至4个。如果从1998年的自然科学基金数据中选取4个关键词建立矩阵,则矩阵过于稀疏。但是从2017年的自然科学基金数据中选取4个关键词,则不满足条件的不到10%。相关学者如果研究当年的数据,尤其是最近几年的数据,可以选取4个关键词。

为了考虑数据的兼容性,本书在实验中通过将1998年和2017年的数据进行对比,对每个立项基金采用3个关键词标签。(www.xing528.com)

另一方面,词库文件共有230001条数据,如果直接将1998年和2017年的数据进行转化,每一条记录代表在一个230001维度的向量投影,如果该记录包含词典顺序为N的关键词,则该向量在N维度的内容为1,反之则为0。但是即便这样,对于2017年的关键词数据是一个[13169*230001]的矩阵,如果包含标签和表头,则是一个[13170*230002]的矩阵,并且该矩阵相当稀疏。

为了简化实验,在原理不变的前提下对词库文件进行优化,减少关键词数量,来降低维度。统计词库,发现共有230001个关键词,共出现582148次,即平均每个词出现2.53次,得出以下统计结果,见表5-19。

表5-19 “双一流”大学自然科学基金关键词维度统计结果

从表5-19中可以发现,前20000的关键词出现次数占自然科学基金关键词总数一半以上,但是前20000的关键词条数占总词库条数的比例不到10%,因此,选取词频高的关键词进行降维有利于降低矩阵的维度。

基于前20000的关键词,对“35所大学国家自然科学基金立项简化清洗表”的数据进行降维,如果每个科研基金包含前20000的关键词,则保留记录,对于完全不包含前20000的关键词的科研基金,本书暂不研究。经程序处理后得到文件“包含前20000关键词的35所大学国家自然科学基金立项简化清洗表”,简称“包含前20000关键词的数据文件”。该文件共包含7162项科研基金。由于该文件中只保留前20000关键词的向量列表,因此会因为没有处理前20000关键词外的关键词而导致重复序列,删除重复序列后得到6958项(不含表头)科研基金。这6958项科研基金来自前20000的关键词,得到的文件为“1998—2017年所有基于前20000关键词的实验数据”,见表5-20。

表5-20 1998—2017年所有基于前20000关键词的实验数据

本书主要对6958项数据进行分布研究。

为了方便描述,本书将YEAR和orgnid称为label,并且标记label,具体分为label(YEAR)和label(orgnid)。同时,将keyword列表标记为变量因子factor,其中factor(1)表示keyword1;factor(1,2)表示keyword1和keyword2;factor(1,2,3)代表keyword1、keyword2和keyword3。

对这6958项实验数据主要分两类进行分析:第一种分析维度是基于时间分析过去20年基金的总成果,建立label(YEAR)和factor(1,2,3)的关系并可视化;另一种分析维度是基于单位角度分析过去20年不同机构的总成果,建立label(orgnid)和factor(1,2,3)的关系并可视化。无论是基于时间角度分析,还是基于单位角度分析,其目的都是为了对高维数据进行降维,在二维空间进行更清晰、直观的可视化,并寻找其中隐藏的规律。

对label的分析又分为两种分析策略:①对角矩阵,如果只包含keyword1,则构成label(YEAR)和factor(1)的对角矩阵或者label(orgnid)和factor(1)的对角矩阵,对于对角矩阵的分析可以直接进行Excel的统计分析,这类分析最为简单,但是最直观;②非对角矩阵,如果分析label和factor(1,2)的关系,或者label和factor(1,2,3)的关系,则需要将keyword映射到dict-20000.txt的高维空间,然后进行降维。以上两种分析策略生成不同的分析目标文件,见表5-21。

表5-21 不同分析策略的分析文件

其中序列3为序列2的真子集,序列2为序列1的真子集,同时,序列6为序列5的真子集,序列5为序列4的真子集,但是,由于删除了重复项,因此,序列1和序列4的数据条数最少。

如表5-21所示,对于“二维关键词时间文件”“三维关键词时间文件”“二维关键词机构文件”“三维关键词机构文件”这些数据文件,根据“前20000关键词库”进行投影,并且生成维度为20000的向量,得到矩阵文件,去掉重复项之后,分别为表5-21中所示的“向量化后的二维关键词时间文件”“向量化后的三维关键词时间文件”“向量化后的二维关键词机构文件”“向量化后的三维关键词机构文件”。本书暂不分析对角矩阵的情况,对角矩阵指“一维关键词时间文件”和“一维关键词机构文件”的数据。

用t-SNE算法对二维关键词时间文件”进行二维分析,如图5-59所示。

图5-59 二维关键词时间文件分析结果

图5-59中反映了过去20年的自然科学基金立项数据投影到二维关键词的分布,每个点代表一个基金,不同年份采用不同颜色,即label(YEAR)~factor(1,2)分布关系。

需要注意的是,本书采用的t-SNE算法并不能用于聚类的研究,也不能用于推演预测的研究,不同点之间的距离并不反应聚类关系。图5-59的意义在于,一方面,能把图5-59中5618项基金(不含表头)投影到平面,能有效可视化;另一方面,要注意颜色重叠部分,进行分析,发现其中是否有共通的规律。

研究label(YEAR)~factor(1,2,3),生成图5-60。

图5-60 三维关键词时间文件分析结果

图5-60中反映了过去20年的自然科学基金立项数据投影到三维关键词的分布,每个点代表一个基金,不同年份采用不同颜色,即label(YEAR)~factor(1,2,3)分布关系。

类似的,研究label(orgnid)~factor(1,2)和label(orgnid)~factor(1,2,3),生成图5-61和图5-62,图5-61表示对5650项二维关键词进行投影,图5-62表示对5371项三维关键词进行投影。

图5-61 二维关键词机构文件分析结果

图5-62 三维关键词机构文件分析结果

图5-61和图5-62代表不同科研机构过去20年的立项关键词的分布,图5-61为二维关键词,图5-62为三维关键词。图中每个点代表一项基金,不同的颜色代表不同单位,左边的编码为基金依托单位编码。

自此,本书基于t-SNE算法完成了对过去20年科研基金立项分布的可视化建模。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈