1.基本情况
SciValSpotlight(简称“SciVal”)是爱思唯尔(Elsevier)公司发布的SciVal套装(学术信息增值的一站式解决方案)之一。SciVal套装旨在提供智能解决方案以帮助学术和政府研究机构更有效地评估、制定并执行其研究战略。该套装包括SciVal Experts、 SciVal Funding、 SciVal Spotlight和SciVal Strata。其中,SciVal Experts使用名为“文本指纹”的专利技术,提供给科研和行政管理人员了解某个学校或个人的详尽学术信息的崭新平台;SciVal Funding帮助科研人员了解、申请海外科研项目和经费;SciVal Strata可以自定义地评价科研人员和科研小组的成果。
SciVal以帮助高校决策者制定、评价和执行交叉学科科研策略为目的,基于爱思唯尔旗下的Scopus文摘与引文数据库,采用其近5年的数据,以跨学科的角度揭示科研绩效的产出,通过共引聚类原理和可视化技术呈现评价指标。SciVal把论文按照文后引文的学科分类进行分数化处理(fractional),分别给予不同的权重,再分配到多个学科领域,这也是Spotlight与ESI、 InCites最大的不同之处。
SciVal是爱思唯尔公司在2009年研发的一个科研评价工具,旨在对抗美国科技信息研究所ISI开发的ESI评价工具。ESI所使用的传统评价方法是把每一种期刊归入某一具体领域,再将每篇论文按照期刊的分类划归到相应学科领域,然后进行引文数、论文数等的排序。SciVal则认为这种期刊内容与期刊主题不相符的现状忽视了跨学科研究的重要性——它以过分简单化的视角看待目前科研机构所做的研究,结果导致有价值的资源未能物尽其用,合作机会白白丧失,新兴的科研趋势未能被发现。
SciVal评价工具中的竞争优势发掘功能(competencies)可以分析出研究机构中哪些研究领域具备独特竞争力或竞争优势(Distinctive Competency,DC),哪些具备潜在竞争力(Emerging Competency, EC)。对于每一个具备竞争优势的研究课题,利用Scival可以分析出该领域最活跃的研究机构、该领域内本机构的竞争力情况、该领域活跃的研究者、本机构在该领域内的主要贡献、该领域的研究发展趋势等一系列竞争力表现情况。在学科交叉融合发展、跨学科研究领域不断涌现的背景下,发掘、评价学科竞争力,无论是对科研机构的决策者、学科建设者或研究人员,都具有非常重要的意义。
SciVal应用创新的可视化技术生成定制地图,以图像化视角衡量一个机构多年来在科学领域(尤其是具体专题领域)的研究表现。通过确定大学的主要研究优势并识别各领域的顶尖研究人员和机构,帮助学术决策者优化资金分配以及聘用与合作决策。该工具将各个专题领域的总体规模进行量化,使机构能了解其研究的重要性和市场份额,及其在领域内的竞争排名。同时,该工具还评估了机构在过去5年间的研究表现和市场增长或下滑情况,以两年为阶段得出其平均增长率。此外,它还确定出该机构的研究是否建立在已有最新发现的基础之上,并通过分析论文中引用文献的发表时间提供出一个“最新商数”。
此外,与通过期刊计算衡量研究产出的传统方法不同的是,SciVal工具主要基于当前科学结构的具体模型构建而成,该模型几乎涵盖了世界上所有的科学门类,并运用同引分析方法对包含上百万篇单独文章和上百万篇参考文献的综合型数据库进行了研究。运用这一新型科学模型,Scival识别并聚焦于在特定专题领域或“独特竞争能力”方面处于领先地位的机构所进行的相关研究工作,还提供机会以更好地了解哪些机构才是研究能力方面的真正竞争者。
2.数据来源
SciVal使用爱思唯尔旗下的文献研究工具Scopus作为数据来源。Scopus是全球最大的文摘与引文数据库,目前共收录约5千万条来自全球5000家出版商的21000种出版物的文献信息,在科学、医药、技术、社会科学与艺术和人文科学领域实现广泛的跨学科覆盖。与ESI相比,Scopus收录了更多的非英语国家和地区的期刊,涵盖北美(包括美国和加拿大)5440种、南美350种、欧洲7700种、非洲250种、俄罗斯850种、澳大利亚230种、东南亚1460种。
Scopus根据数据库收录的收录期刊进行学科分类。截至2014年底,Scopus将研究领域划分为5个门类,27个一级学科,308个二级学科。自然科学有10个一级学科,105个二级学科;社会科学6个一级学科,59个二级学科;生命科学5个一级学科,46个二级学科;医学科学5个一级学科,97个二级学科;综合1个一级学科,1个二级学科。表2-2所列为Scopus数据库一级学科分类及代码,表2-3所列为Scopus数据库二级学科学科分类及代码。
表2-2 Scopus数据库一级学科分类及代码表
(续表)
表2-3 Scopus数据库二级学科分类及代码表
(续表)
(续表)
(续表)
(续表)
(续表)
(续表)
(续表)
(续表)
(续表)
(续表)
数据来源:研究团队根据Scopus数据库整理制作。
为了更好地评价中国院校各学科在学科领域的学术产出对比,我们尝试将Scopus二级学科分类与教育部的110个学科进行映射,以便于进一步分析。在映射的过程中,出现了Scopus的二级学科和教育部的学科一对多、多对一、多对多甚至无法完全匹配的难题,表2-4为Scopus数据库二级学科与教育部一级学科映射结果表。
表2-4 Scopus数据库二级学科与教育部一级学科映射结果
(续表)
(续表)
(续表)
(续表)
数据来源:作者根据数据库及教育部学科分类资料整理制作。(www.xing528.com)
3.指标原理
1)论文的入选标准
SciVal的数据来源有两部分:一部分是被Scopus收录的近5年发表的论文,另一部分是高被引引文数据。在计量学中,引文数据的选取是一个非常重要的指标,选取不当,容易形成学科偏差(disciplinary bias)的现象,即由于学科不同,引文数量也会不同,有些学科的引文量远远大于其他学科的引文量。因此,在对全部学科进行共引分析时,引文量大的学科(如生物化学学科)容易在分析中被突出,而引文量小的学科(如数学、工程等)则会处于劣势。
Klavans和Boyak在其2006年发表的论文中指出,如果收集的引文数量增加,就会减少这种学科偏差的现象,如果引文数量超过100万,可以有把握地说,学科引文的偏差就变得不重要了,所有的学科都能被合理地表现出来。所以,SciVal选择了被引5次以上(包括5次)的所有引文对于发表时间在1~3年的论文,则被引次数比发表时间(年)增加1即可。这样,SciVal就可以选择到被引超过200万次的引文。具体选择方法如下。
如果发表论文的年份大于3年,则被引5次以上(包括5次);如果发表论文的年份在1~3年之间,则需被引年份+1次以上;如果发表论文的年份少于1年,则需要被引3次或以上。
2)学科和课题
SciVal把所有研究领域分为13个学科,分别是数学/物理、化学、工程、地球科学、生物、生物技术、传染疾病学、医学、健康科学、脑部研究、人文科学、社会科学、计算机科学。通过聚类分析,又把每个学科分成多个具体的课题(discipline),共有554个课题。同时,SciVal还可以选择使用Scopus的学科分类体系,即分为27个一级学科、308个二级学科。
3)分数化论文
SciVal最有特点的创新之一就是对每篇论文进行分数化处理。SciVal按照该篇论文参考文献的学科分布,把论文按照学科权重分配到多个学科聚类中,每篇论文的学科权重分数总计为1.0,这些分数在论文的学科聚类中,成为竞争力的指标数据。比如:一篇论文发表在“Water Treatment”领域的期刊上,传统的分类方法是把这篇论文100%分配到该领域所属的学科中,再进行共引分析,而SciVal采用了更加具体的办法:对这篇论文的引文进行分析,发现这篇论文的参考文献有70%是关于“Water Treatment”的,有20%是关于计算机科学领域的,有10%是经济领域的,那么,该文在“Water Treatment”课题中就只占70%的权重,在计算机科学领域占20%的权重,在经济领域占10%的权重。这样,可以更加准确地分析这篇论文以及它对多学科领域做出的贡献[11]。
4)相关论文率
指某个机构/国家的论文数量在某个竞争力领域与该领域论文数量排第一的机构/国家的论文数量比例。如果该机构/国家在该竞争力领域论文量排名第一,则RAS (Relative Article Share,相关文章率)是同排名第二的机构/国家的论文数比例。所以,排名第一的机构/国家的RAS大于1.0,否则,RAS小于1.0。该值是被分数化的,即每篇论文与该竞争力有关的权重分数都被计算在内。
5)相关引文率
该指标用来帮助衡量作者/机构/国家的创新力水平,主要是在一个竞争力领域中,该作者/机构/国家近期发表论文引用了多少最新论文。一个作者/机构/国家被认为具有创新领导地位,表明它在一个领域发现了更多的新的科技,在论文发表中则表现在引用了多少最新发表的论文,计算公式是该作者/机构/国家在竞争力领域内的所有论文的引文发表时间的中位数减去该竞争力领域内所有论文的引文发表时间的中位数。SotA指数是正数,表示同世界平均水平比较,该作者/机构/国家论文引用了更多最近发表的论文;负数则表示该作者/机构/国家引用了很多年代比较旧的论文。创新领导力由SotA和RAS来测量,如果SotA的值高于RAS值,并且RAS>0.8,则表示该作者/机构/国家在某领域具有创新力。
6)技术发展力指数
该指标用来帮助衡量机构/国家的创新力水平,主要是计算在一个竞争力领域中,该机构/国家近期发表论文引用了多少最新论文。一个机构/国家被认为具有创新领导地位,表明它在一个领域发现了更多的新科技,在论文方面,则表现为引用了多少最新发表的论文。创新领导力由技术发展力指数SotA和相关论文率RAS来测量。该指数是正数,表示同世界平均水平比较,该机构/国家论文引用了更多最近发表的论文;负数表示该机构/国家引用了很多年代比较旧的论文。如果SotA的值高于RAS值,并且RAS>0.8,则表示该机构/国家在某领域具有创新力。
7)“独特竞争优势”和“潜在竞争优势”
“独特竞争优势”揭示一个机构/国家处于领先地位的研究领域;“潜在竞争优势”表示该机构/国家在某研究领域有部分优势,可以继续努力。机构/国家的一个竞争优势由两个或两个以上共引分析的论文聚类族组成,表示有相同研究方向的论文集合,一个机构/国家可以有多个“竞争力优势”。判断一个竞争优势是DC还是EC的方法是:满足下述三个条件之一,且论文数量达到某个阈值,即为DC,否则为EC。
论文数领导权(publication leadership):在5年统计时间内,该机构/国家在某研究学科领域的论文数量为第一,即RAS>1.0。
被引数领导权(citation leadership):在5年统计时间内,该机构/国家在某学科领域的论文的引文数量为第一,即RAS>1.0。
创新力领导权(state-of-the-art leadership) : RAS>0.8,并且SotA值大于RAS。
由于每个机构、国家的研究人员数量不同,论文产量也不同,SciVal针对机构/国家论文数量多少确定了不同的阈值。对于大型的机构/国家(每年发表3000篇论文以上),那么,它的 阈值就是500;对于小型的机构/国家(每年发表1200篇论文以下),则阈值为200;中等机构/国家的阈值范围在200~500篇之间。
4.结构
1)发掘竞争力
通过计算机构有多少课题具有“独特竞争优势”和“潜在竞争优势”,可以了解本机构在重点研究课题中所处的竞争地位,还可以发现优势学科和新兴领域等。“独特竞争优势”和“潜在竞争优势”是经过聚类技术进行分类的有相同研究成果的论文集合。通过分面检索,可以对某机构的论文优势、引文优势、创新力优势进行检索,并且通过“table” “circle” “matrix”三种可视化研究方法,把各个领域中的竞争力进行直观展示。通过“matrix”坐标轴,可直观浏览到本机构处于上升和下降的课题,为决策者提供数据。
2)发掘合作
通过在屏幕上的一张可视化地图,标示出与某机构有科研合作关系的国家名称和合作论文数量,以及其中的多少篇论文进入了该机构的竞争优势领域,可以从深度和广度上了解合作机构和合作范围,寻找潜在的跨机构研究项目的合作伙伴。该结构可以对13个学科和具体的课题进行精炼检索。
3)论文数概述
从中可以全面了解本机构最近五年被Scopus收录的论文总数,被SciVal作为评价数据的论文数量,有多少篇论文进入了竞争优势领域。一般情况下,被Scopus收录的论文数量大于被SciVal作为评价的论文数量,主要原因是:1SciVa1采集的数据截止到某个时间段前,而此时Scopus还在不断更新数据;②不包括没有引文的论文或者在SciVal共引分析中没有引用其他论文的论文。
5.计算方法
1)聚类的评价原理
对数据进行聚类的方法很多,聚类的结果也会有所差别,有些甚至会产生很大的差异。针对如何判断一个聚类方法是否科学合理这一问题,统计学家和计量学家进行了大量的研究。SciVal认为,只要结果符合下列三个评判标准,聚类计算得到的学科分类就是一个理想的分类系统。
一个聚类族的规模应该在4~100篇文档之间才是合理的。美国科学史学家普顿斯(D. Price)在其1963年出版的《小学科与大科学》( Little Science,Big Science)一书中,把有共同科学志趣的非正式交流群体称为“无形学院”,他通过研究表明,一个无形学院中对一个课题进行研究的人员很少,也许只有十几个人。如果人员超过100个,人员之间的交流会变得困难,就会导致该群体分裂成比较小的子群。美国计量学家、共引分析发明者Henry Small通过实证研究证实了这个假设。Small认为,任何聚类族中,如果每年的论文数量超过100篇,则该聚类结论就会让人怀疑。而且,一个聚类族的大小如果小于5,则该族需要合并到其他更相关的族类中,太小的族可能会对一个机构的科研评估产生错误的信息。
规模大小分布呈直线。在统计学中,把一个现象按照规模频次的序号和规模大小在一个二维坐标轴上画出一条曲线,然后可以通过某种方式把这条曲线转变成一条直线。这样的转变可能是针对数据本身,也可能是针对图的坐标,通过转化,许多曲线图都能转化成一条直线图,如果直线偏移,则可能预示数据有误。这种方法已经成功应用到地理学中的“世界城市规模研究”和统计语言学中的“书中词语频次分布”等。SciVal认为可以使用该方法检验聚类分类是否合理。
一篇论文能被分配到多个聚类族中。每个聚类族都是一组相关研究的集合,对于一些论文,尤其是那些跨学科的论文,可以被分配到多个聚类族中。这样的分类系统才是合理和准确的。
2)计算方法的选定
SciVal选择共引分析。SciVal在白皮书中阐述,使用共引分析而非耦合分析的原因是,共引分析可以把一篇论文根据引文内容分配到不同的学科中,而耦合分析只能把论文放到一个唯一的分类中。而使用共引分析而非共词分析的原因,在于共引分析比共词分析更有优势,因为共词是指一些短的字符串,而引文可以被简单地看成是由词语连接的长字符串,因而会包含更多的信息,聚类的结果也会更加合理。
3)聚类的计算过程
SciVal首先选择近5年被Scopus收录的论文以及高被引论文,经过共引分析,得到相关数据,然后采用余弦相似性计算论文之间的距离。SciVal采用了Boyack、 Klavans等人的研究成果,认为在频次、Co-sine、 Jaccard、 Pearson,sr、 average relatedness facoor的共引聚类的相似性计算方法中,产生最准确相似性的是余弦相似性计算或者修正的余弦相似性计算,分别用公式计算。
把余弦值矩阵通过力导向图形布局工具DrL(以前叫VxOrd)的可视化程序,把每篇论文以(x, y)的坐标形式显现在可视化的2D平台上。该布局算法还能起到过滤的作用,减少系统中的噪声。DrL是对大型真实世界的数据进行可视化处理的工具,由美国Sandia国家实验室开发,它能够揭示出数据之间隐含的结构,帮助分析数据之间深层次的、不能直观了解到的关系,是一个重要的知识管理工具。
对论文进行聚类。SciVal采用了平均链接聚类算法(average-linkage)该方法是非监督算法,不需要事先产生训练集,聚类的结果是按照本身的自然聚合状态产生的、没有经过人为决定的因素。而且,该方法产生的聚类族的规模在4~100篇引文之间,只有少数是超过100篇引文的,所以,SciVal认为这是一个好的分类方法。
分配论文到相关的聚类族中。根据聚类结果,把这些论文按照引文的学科分布,进行分数化处理,再分配到相关的聚类族中。SciVal表示,通过该方法,92%有引文的论文可以非常清楚地被进行分配。
6.交叉学科评价体系
1) SciVal的交叉学科评价原理
基于共引分析的文章量化(Fractionalized counts,简称Fc)。从Scopus数据库中筛选出具备竞争力的文章进入到SciVal。在SciVal中,以共引分析代替简单的期刊学科分类,把文章聚类到各个学科领域。例如,如果一篇文章发表在计算机杂志上,按照传统期刊分类方法,该文章100%会被分到计算机科学学科。而SciVal把该篇文章所有引文的权重定为1.0,其中80%的引文属于计算机科学学科,20%的引文属于生物学科,那么,在确定该文章的学科领域时,根据引文的权重百分比确定该文章对计算机科学领域的贡献是0.8,而对生物学科的贡献是0.2。可见,SciVal可使文章更准确地分配到相应的学科领域,并且更客观地评价文章对多个学科领域的贡献。因此,SciVal根据共引分析可将某学科领域的所有文章进行学科贡献量化。
2)基于“Significantly large field of research”, “Publication leader”,“Reference leader”, “Innovation leader”的交叉学科竞争力评价指标。一个机构的某个学科如何才能被确定为独特竞争力或潜在竞争力,SciVal设定了以下评价指标。
一是“Significantly large field of research”。过去5年中,全球范围内在某学科领域的竞争力文章数量足够多,且文章量化总数(Total fractionalized article count,简称Fc总)必须大于SciVal根据机构大小确定的文章量化标准(Criterion)
二是“Publication leader”。 “Publication leader”的评价指标是相关文章率RAS。 RAS是过去5年中,某机构发表的文章量化与世界第一名机构文章量化的比值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。