作者知识关联网络的语义内涵包括两个方面:第一,不同关联类型的相关性;第二,关联网络所揭示的知识结构的语义内涵。不同关联类型的相关性研究实质上是探究作者所形成的各种网络所表达的知识语义内涵的关联,而共现网络所揭示的科学结构的知识语义内涵则主要表现为对各种网络所包含的子结构内容的挖掘。
(1)不同关联类型的相关性
关联的相关性问题的研究来源主要是多种网络和方法的混用。自不同类型的作者知识关联网络开始受关注以来,越来越多的网络分析被结合使用,例如Liu和Glanzel等人采用词和引文数据的结合进行期刊的分析[5];Zitt等人将词可视化和引文可视化结果对比,发现共词网络的分析结果和引文网络的分析结果之间并不一致,且这种不一致性无法很好地解释[6]。Boyack和Klavans的研究更具代表性[7],他们采用生物医学的研究数据,检验了包括共被引网络、文献耦合网络、引文网络,试图发现哪一种网络更能够反映科学研究的前沿,采用文本连贯聚类和文档之间的链接作为准确性衡量方法,认为基于文献耦合的引文内容综合分析法,综合考虑文本的题名词和摘要词以及参考文献的分析方法优于其他途径预测科学前沿。
一般的多种分析方法混合主要从原始的网络出发进行结合研究,然而并不考虑构成网络的关系语义内涵。这样可以解决利用多种网络进行研究产生的许多不可预料的情况,例如不同的网络分析出来的结果不一致,导致研究人员很难做出甄别的问题。从相关性的角度进行研究是辨析不同关联语义内涵的重要途径。美国情报学家White和加拿大多伦多大学的社会学博士Nazer曾在2004年对作者的社会网络和知识关联之间的相关性问题进行挖掘[8]。Nazer曾对一个名为Globalnet的16位科学家团体进行多年的跟踪[9],采集了他们之间的社会交往数据,并从Web of Science数据库中获取他们之间的合作、引用、共被引(统称为知识关联)数据,通过分析发现,研究人员之间知识关联的产生仍旧主要依赖于知识内容的共享和交流,而非社会关联,这项研究长期以来为引文的正面作用提供了重要的支撑。(www.xing528.com)
Ding以作者合作和引用网络为载体,深入探讨了科学合作和科学支持的问题[10]。她试图发现高产作者是否倾向于与和他研究兴趣类似的研究人员进行合作并引用他们的成果,高被引作者间是否在合作和引用上存在偏向。她以信息检索领域为例进行了测试,结果表明,高产作者的确偏好直接与具有相同研究兴趣点的人进行合作,但是在引用上面却没有对这个群体具有明显的偏好;高被引作者间和彼此合作的兴趣较低,但是在引用上却更加具有倾向。实际上,Ding的这项研究已经深入到语义层面,从研究过程来看,对于作者兴趣爱好的判断是从语义层面对作者成果所包含的知识内容进行挖掘;而从研究目的上来看,她的研究事实上是探讨了不同作者共现关联类型的语义关联。对不同共现网络语义关联的探究是从途径上对资源聚合问题进行深度的语义研究。
(2)知识结构的语义内涵
McCain曾经将对作者共被引的分析归纳为6个步骤,即选择作者,通过系统检索作者之间的共被引强度,构建矩阵,对矩阵进行转化,最后进行多元统计分析[11]。事实上这个过程不仅仅应用于作者共被引分析中,几乎所有的作者知识关联网络的研究都依照类似的步骤。这个分析流程存在的一般问题已经被广泛讨论,当纳入到资源聚合的背景下,其问题主要在于以下几个方面:第一,传统分析方法的数据量选择是相对有限的,从系统中检索作者之间的共被引强度的人工做法导致数据量必然不可能太大,一旦数据量超过一定规模,这个步骤将费时费力,因此类似的方法主要集中于实验室环境。第二,所采用的多元统计分析方法主要是聚类分析、主成分分析和因子分析等降维技术,主成分分析和因子分析从本质上来看是在探索作者本身所包含的语义信息,当获得样本群体的主成分或者因子后,结果可以用来进行聚类分析结果的解释。然而主成分和因子所代表的内涵是通过分析者的判断得出的,其依据仍旧是通过类中的作者追溯其研究内容,然后寻找知识内容的相同点进行标注。事实上,对聚类进行标注的过程就是对语义挖掘的过程,聚类结果的出现就是完成了整合的过程,而进一步通过相关方法将每一个类所表达的语义挖掘出来就是实现了资源的聚合。有别于传统的研究中依靠分析者本人的知识背景和认知对聚类结果进行判别,本书将进一步利用主题语义挖掘方法,从知识资源集合中直接对构成类的作者个体进行语义分布分析,并在此基础上进一步得到每个知识聚类的语义主题分布,从而实现科学知识的多元计量聚合。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。