首页 理论教育 数据采集:构建华人高被引科学家数据库

数据采集:构建华人高被引科学家数据库

时间:2023-08-03 理论教育 版权反馈
【摘要】:(一)量化数据的来源本研究的量化数据主要来源于2001版华人高被引科学家的学术简历、Web of Science数据库和Journal Citation Reports数据库。笔者统计了这些高被引论文的作者人数、分布国家、城市与机构、合作模式、文献类型、发表刊物名称、发表时的专业年龄等信息,采纳这些变量建立了“华人高被引科学家的高被引论文数据库”。

数据采集:构建华人高被引科学家数据库

(一)量化数据的来源

本研究的量化数据主要来源于2001版华人高被引科学家的学术简历、Web of Science数据库和Journal Citation Reports数据库(以下简称JCR数据库)。笔者在此基础上自建了个人特征数据库、SCI期刊论文数据库、高被引论文数据库和高被引论文发表期刊数据库(见图1-3),四个数据库均创建于2014年11月,下面逐一进行介绍。

图1-3 本研究自建的四个数据库信息图

1.华人高被引科学家的个人特征数据库

大多数华人学者,特别是海外华人都在其个人主页提供了比较完整的学术简历,有的还附上全部发表信息(publication list)。针对部分信息缺失比较多的样本,笔者直接向高被引科学家本人发邮件询问,一共收到两位科学家的回复。笔者根据2001版样本的简历内容所创建的个人特征数据库,涵盖了102个研究对象的中英文姓名、性别、生卒年月、祖籍、出生地、早年成长地、所属专业类别、当前所在地区、最近工作机构、曾经工作机构、职业流动次数、本科毕业院校、本科毕业时间、博士毕业院校、博士毕业时间、是否有博士后研究经历、专业变动情况、海外研修目的地与时长、职阶晋升时间、所获国内外荣誉等要素,其中部分样本的个别信息缺失。这个数据库主要用来分析华人高被引群体的人口统计学特征与部分专业特征。

2.华人高被引科学家的SCI期刊论文数据库

对于科学家而言,学术期刊通常是他们发表新近研究成果的主要阵地。另外还有部分文章被收录进各种学术会议论文集中。但考虑到会议论文的质量良莠不齐,且存在同一篇论文在期刊上重复发表的情况,本书仅将科学家发表的SCI期刊论文纳入考量范围。此外,汤森·路透集团在统计高被引学者时,只计算科学家发表的研究性论文和综述类文章,“书信(letter)”“社论(editorial)”等其他不经过同行评审的文章类型不包括在内。来自30个以上机构的团体作者合作发表的文章也不列入统计范畴(这种大规模合作发表的现象最常见于高能物理学、基因组工程和天文学领域)。因此,本研究尝试以华人高被引科学家被Web of Science收录的经过同行评审的期刊论文作为依据,以专业年龄(距离博士毕业年代的时间)作为统计单位,计算出每位科学家每年发表的论文篇数,建立起相应的数据库。

笔者在建立该数据库时面临的最大问题是科学家的重名现象。Web of Science数据库设置有“作者识别号”(Research ID)的检索选项。本研究中有26位科学家可以通过“作者识别号”直接搜索到他们的全部发表信息,剔除掉不符合要求的文章后,笔者统计出了他们在各个年份的发表数量,这是准确且便捷的一种途径。而大多数没有注册“作者识别号”的科学家的成果搜集工作就要困难得多。由于Web of Science中的大量文章并没有提供作者姓名全称等完整信息,更早期的论文甚至很多没有提供作者单位,仅仅能看到作者的缩写姓名(例如,Zhang,T、Lin,S等)。针对这部分样本,笔者结合科学家简历中提供的职业流动信息,采用“作者+地址+出版年”的检索模式进行查询。遇到仅显示作者缩写姓名的文章,笔者只能通过综合考察论文所属的专业领域、发表年代以及合作者姓名,再结合他们简历中的个人成果来做出判断,必要的情况下对作者缩写姓名之下的所有文章进行逐一核对。不过,对少数重名现象非常普遍或本身职业流动信息不完整的科学家分辨起来难度过大,笔者在数次尝试之后无奈放弃了个别样本。此外,还排除掉极少数无法确认作者身份的论文(主要是Web of Science早期收录的文章)。如上所述,本研究共检索到102名华人高被引科学家中的87个样本的完整SCI期刊论文发表信息,在此基础上创建了“华人高被引科学家的SCI期刊论文数据库”。

3.华人高被引科学家的高被引论文数据库

“高被引论文”指在某个统计时间段内被频繁引用,被引次数位居同领域前列的论文。汤森·路透集团将其界定为同年度同学科领域中被引频次排名全球前1%的论文。这些论文皆通过同行评审,获得了科学共同体的广泛关注和认可,是华人高被引科学家质量最高的一批研究成果,也是本研究对象入选精英科学家群体的重要依据。不过照此统计方式,获取的文章总量必然庞大。考虑到研究的可操作性,本研究选择每位科学家被引频次最高的10篇期刊论文作为高被引论文的代表(简称高被引论文)。

通过与汤森·路透技术人员的交流,笔者确认,在计算高被引群体的过程中,一篇论文的所有作者(不考虑作者排序)都会获得同样的被引频次。因此,本研究利用Web of Science数据库的论文“被引频次降序排列”功能,搜索出每位华人高被引科学家被引次数最多的前十篇文章。部分难以通过Web of Science获取信息的样本则先尝试借助其他数据库(例如Google Scholar Citation等)查询结果,再回到Web of Science进行核对,如此共搜集到93位学者的高被引论文信息。剔除掉其中少量不符合要求的文章(主要指不合要求的文章类型及目前查不到信息的论文)后,最终有912篇高被引论文纳入分析范畴。笔者统计了这些高被引论文的作者人数、分布国家、城市与机构、合作模式、文献类型、发表刊物名称、发表时的专业年龄等信息,采纳这些变量建立了“华人高被引科学家的高被引论文数据库”。

4.华人高被引科学家的高被引论文发表刊物数据库(www.xing528.com)

在上述高被引论文数据库的基础上,笔者理出了华人高被引科学家高被引论文的发表刊物名称,并借助JCR数据库对这些刊物的详细信息进行了分析。JCR是汤森·路透集团专门开发的期刊评价数据库,包括自然科学和社会科学两个版本,提供基于引文频次的多项期刊评定指标,包括期刊的出版信息、影响因子、特征因子、即时引用指数、被引半衰期等等。汤森·路透一般在每年6月下旬发布上一年度的期刊引文报告。因此,本研究以JCR-2013版为标准,采用期刊名称检索方法,对华人高被引科学家的912篇高被引论文的发表期刊进行搜索,剔除掉个别数据库没有收录的期刊,最终确定了280本学术刊物。并搜索了这些期刊的出版国家、学科领域、影响因子、特征因子和期刊分区等信息,在此基础上创建了“华人高被引科学家高被引论文的发表期刊数据库”。

(二)质性资料的来源

本研究的研究对象为分散在世界各地的华人精英学者,笔者曾经尝试通过邮件与他们联络,但收到回复的结果不佳,面对面的访谈无法实现。因此,笔者在探讨影响华人精英科学家成长的中介变量时,选择采用已公开发表的文献作为分析资料。

在质性研究中,文献(documents)是重要的资料来源之一。它泛指通过访谈或观察之外的其他渠道获得的,在研究开展之前就存在的各种材料,包括官方记录、书信、报纸报道、诗歌、歌曲、团体记录、政府文件、历史叙述、日记、自传,以及照片、电影、视频、实物、痕迹,乃至在线数据等各种文字的、图像的、数字的和实物材料。由于文献资料通常是为了研究之外的其他目的而产生的,对它的分析可以避免通过观察和访谈搜集资料时,因研究者的存在而导致的对环境的干扰或改变;而且,在通过访谈、观察搜集数据的过程中,研究对象的合作是至关重要的,文献资料则没有这方面的局限。[126]根据研究目的,笔者通过网络和纸质媒介获取了总数超过20万字的中英文文献材料,主要包括以下三类数据:

1.传记

古今中外皆有名人立传的传统。虽然科学家整体属于比较低调的群体,但作为科学界的明星,精英科学家仍然时常处于聚光灯下,受到众人的景仰。李远哲与丘成桐的生平经历已经被编撰成册,出版了《丘成桐的数学人生[127]、《数学王国的一代天骄:丘成桐传》[128]书籍。此外,还有不少个人传记类文章散见于各类期刊、报纸,如《支志明:精心科研,随性人生》[129]、《从黄陂走出的田长霖及其家世》[130]、《农家子弟如何成为美国院士》[131]等。以上这些都是我们了解精英科学家成长历程的重要资源。

一般来说,科学家获得重要奖项或被遴选为国家科学院院士后,授予荣誉的机构会对其生平及科学工作进行介绍。本研究参考了美国国家科学院为杨祥发院士所做的回忆录《杨祥发传:1932—2007》[132]等传记性文章。

2.访谈

本研究的作者虽不能与研究对象进行面对面的访谈,但依然能够通过其他途径获取样本的相关访谈资料。部分科学类报刊设有人物访谈栏目,主要围绕科学家的学术人生和科研工作与杰出学者展开对话。这部分资料数量庞大,与本研究的研究问题相关度高,内容也更多涉及专业领域。如《与科学家对话——访哈佛大学医学院袁钧瑛教授》[133]、《物理年与大师对谈系列——访谈朱校长经武》[134]、《做科研的境界:大道至简,大美天成——专访美国工程院院士吴建福》[135]、《袁钧瑛:改变方法,却不丧失聚焦点》[136]、《与刁锦寰教授的对话》[137]等。

另外,还有部分机构从事类似工作且公布了访谈全文。如化学遗产基金会(Chemical Heritage Foundation)2012年8月发布了唐南姗的访谈实录等。汤森·路透集团的科学观察栏目(The Science Watch)于2008—2012年间针对部分高被引科学家做了系列访谈,华人学者中包括王中林、杨培东、夏幼南等皆在其列。

3.演讲与座谈记录

由于在科学共同体内部声名卓著,知名科学家常常受邀对自己的教学研究、职业发展和人生阅历发表演讲,或者在小范围群体内组织一个座谈活动进行面对面的交流。本研究的部分质性数据摘自丘成桐2003年9月在香港中文大学的演讲《我的数学研究生涯》(Wy Past Experience in Wathematics),李岩岩2006年6月在中国科学技术大学与学生的座谈会记录等。类似的演讲、座谈活动,科学家通常可以用较充裕的时间围绕某个问题展开深入阐释,并提供丰富生动的案例,这些资料都是契合本研究主题的宝贵资源。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈