首页 理论教育 作者名称数据清洗与规范方法

作者名称数据清洗与规范方法

时间:2023-07-08 理论教育 版权反馈
【摘要】:图6-4Web of Science中作者确认精度提升措施目前的资源描述中存在大量的数据噪声,相关的资源系统事实上已经意识到这个问题,例如在Web of Science中,近年来已经采取了多种手段从原始数据的层面对作者姓名进行规范控制。由于本研究中作者清洗并不是一个重点,因此,在相关的处理过程中主要依据上述的数据清洗思路。

作者名称数据清洗与规范方法

本研究选取了Web of Science系统中的“主题”字段为入口进行检索,在系统中“主题”事实上包含了数据库中字段记录的题名、摘要、作者关键词、系统附加关键词等,也就是说,凡在字段记录中包含“XML”和其全称“eXtensive Markup Language”的文献都在此次分析的数据之列。在本研究的数据集中,15 096篇文献共有26 608名作者,第一作者9 789名,被引作者75 581名。在构建作者知识关联网络的基础上进行聚合研究最大的问题在于数据的准确性,同样的,对于作者所具有的语义挖掘也需要考虑作者名称标注的规范问题。试想,如果同一个作者由于标注方式不同而被当成两个人,在对数据进行语义揭示的时候将对最终结果产生严重的不利影响,因此,有必要对作者的姓名数据进行必要的清洗。

图6-4 Web of Science中作者确认精度提升措施

目前的资源描述中存在大量的数据噪声,相关的资源系统事实上已经意识到这个问题,例如在Web of Science中,近年来已经采取了多种手段从原始数据的层面对作者姓名进行规范控制。如图6-4所示,系统主要通过在作者姓名的简称之外进一步增加作者全名,以括号的方式标注于其后,这样就可以排除由于拼写类似的原因所导致的不同作者重名;将作者与其对象的联系信息进行联合标引,即将机构信息和联系地址与作者对应起来,这样就进一步有助于作者的定位,尤其是对于非英语国家的作者而言,例如中国、韩国日本,这些备注性的信息十分重要。此外,除了在资源数据的标引过程中采取辅助措施,其他一些从作者源头进行身份确认的工作也已经开展,例如目前正在逐步实施的ResearchID在客观上将为作者身份的确定提供更多的帮助[12]

在传统的分析过程中,当研究对象的数据量较小时,往往会从数据库中直接进行数据的采样,但一旦数据量过大,完全通过系统进行检索来获取共现矩阵中每个位置的值并不现实。例如,100名作者的共现矩阵要进行5 000次检索(矩阵是对称的,因此对于n个作者,只需要检索n2/2次),而非对称的关联网络数据需要检索10 000次,因此,文本处理仍是获取共现关系矩阵的主要途径,数据清洗工作就显得愈加重要。在本研究中,首先对作者字段和被引作者字段标引的各种形式进行了总体上的观察,进一步对存在的问题进行分析,发现作者字段同人异名的情况较少,而在被引作者标注中的不规范问题则比较严重。表6-1以Torben Bach Pedersen为例展示了几种主要名称标注不规范形式,这些问题主要集中在被引作者姓名的标注中。

表6-1 作者姓名著录常见不规范形式

(www.xing528.com)

由于英文作者一般具有first name、middle name和last name(family name),而英文文献在参考过程中,绝大多数著录规则都要求first name、middle name采取缩写的形式,因此缩写出现的情况非常普遍,全称省略后符号“.”的使用是很容易被忽略的问题。数据库系统参考文献的标引又会进行重新处理,例如,Web of Science数据中,对每篇参考文献只列出第一作者简称、出版物名称、出版时间、卷、期和起始页,类似于“.”的符号更容易被忽略,因此这种不规范形式出现最为频繁。全称和简称的使用也与之类似,主流的著录规则虽然要求缩写,但是某些特殊的词汇,例如荷兰等国的作者姓名之前常出现的“van”,德国作者姓名前常出现的“von”,法国作者姓名前常出现的“de”等词有时省略,有时却不省略,因此会出现简称和全称混用的问题。空格的使用则大多数情况下出现在数据迁移标引过程中,对于空格字符的识别会导致某些作者姓名的简称间保留空格,有些则没有。此外,first name和middle name的位置互换问题也有少量出现,特别是在中国、韩国、新加坡等亚洲国家的作者群体中,姓名标注时姓在前、名在后,按照英文标准则是姓在后、名在前,有些人遵守了这个规则,有些则没有,因此出现较为频繁。

针对上述提到的被引作者姓名标注存在的几种主要问题,利用以下规则和处理步骤进行进一步清洗,完成作者姓名标注的标准化过程:

第一,无论是在作者字段还是被引作者字段,一般对于姓的标注极少出错,这是由于作者在创作时署名的行动者是自身,因此一般很少出错。而且,被引的标注虽然存在许多不同的规范,但是一般而言作者的family name部分都被要求标注于参考文献中,且在本研究的数据源Web of Science中都标于参考作者的最前部,因此对于英文作者来说,作者姓名的第一个部分是进行作者数据清洗的基础。

第二,替换名称中所有的全称省略符号“.”,在此基础上对作者的中间名和最后名称进行大小写判断,如果只有一个大写字母,则在其后添加空格;如果是两个大写字母并列,则在中间添加空格。如果是单词,将相同的情况统一标注为标准形式,即头部的姓不变,其余的单词都取第一个字母大写形式,同时保留原始的标注方式。

第三,对原始的姓名标注进行再次遍历,匹配名称中与现有处理结果中存在相同单词的所有记录。例如,已经得到的规范名称为Cimino J.J.,寻找原始记录中Cimino并未出现在头部的情况,进一步判断除Cimino以外其他部分的单词是否同样以J开头,如果是,匹配J开头的单词与原始标注方式中是否一致,如果一致,将上一步中的标准形式赋予这个姓名。

当前也有其他作者姓名清洗的方法逐渐被开发出来。例如,Torvik等人曾提出利用概率相似性等方法进行作者判定[13],相关的方法和理论也逐渐构成了针对作者姓名清洗的专门研究体系。由于本研究中作者清洗并不是一个重点,因此,在相关的处理过程中主要依据上述的数据清洗思路。以上的处理思路仅仅是针对上文提及的4类主要情况,并不能穷尽所有的名称标注不规范问题,例如,对于在被引字段对被引作者family name都标引错误的情况,上述规则是无法处理的。当然这些问题主要属于原始数据的质量问题,属于无法避免的误差,在此不作过多论述。通过本书所建立的清洗规则,最终共得到第一作者9 774名,全部作者26 608名,被引作者66 180名。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈