科学文献资源的特征项实体之间可以产生多种类型的关联,特征项实体不同,彼此间产生的关联不同。图3-4以文献为实例给出了资源所包含的各种特征项实体之间的直接关联结构,绝大多数的直接性关联直接包含在文献的标引过程中,例如文献和作者之间的创作关系,文献发表于某个期刊。同时,这种直接性的关联还体现了一种传递性,例如文献和机构之间基于作者的关联,虽然创作文献的主体是作者,但作者同时具有机构归属背景,而机构作为社会实体,文献就体现了机构的知识创造成果。多个资源或实体之间的关联最终将形成特定类型的关联网络。
俄亥俄州立大学统计物理学教授Newman曾对这个问题进行过系统的回顾,他认为现实世界中的网络主要包括4种类型,即社会网络(如朋友关系)、信息网络(如引用网络)、技术网络(互联网)和生物学网络(神经网络)[7]。根据这种分层,两种类型的网路被区分出来:社会网络和信息网络。资源与资源之间的关联属于信息网络,资源及其包含的特征项实体之间不同的关联类型形成了不同的关联网络类型。
从网络的总体特征来看,可以将科学文献资源及其特征项构成的关联网络按照有向-无向、二值-加权进行组合形成四种类型:即有向-二值网络,无向-二值网络,有向-加权网络和无向-加权网络。如表3-2所示。
图3-4 以文献为核心的特征项实体直接关联(www.xing528.com)
表3-2 资源特征项关联网络的类型
在自然状态下,有向-二值网络在资源及特征项实体网络中出现得很少,其典型的代表即引文网络。有向-二值网络在资源及特征项关联网络中很少出现,大多数是对无向-加权网络进行二值化后获得的,或者小规模局部网络中呈现出这种特殊的形式。有向-加权网络主要的类型即互引网络,包括作者的互引网络、期刊的互引网络、机构互引网络等。无向-加权网络出现得最为频繁,大多数资源及特征项关联网络都属于这种类型,例如共词网络,作者之间所有的共现网络和耦合网络都属于这种类型。从上述归纳来看,引文网络、共词网络和作者复合的关联网络类型研究可以包含上述所有的类型,这三类特征项的关联网络具有最典型的代表意义和最特殊的自身属性。
对于上述三类特征项,文献与文献之间通过参考形成的引文关联是文献之间产生直接关联的主要途径,其他的关联类型例如文献共被引、文献耦合都是在三元层面对引文网络特殊结构片段的截取。词与词之间的关系类型相对简单,从目前的研究看,主要是词之间的共现关系,此外,由于词是体现语义的主要途径,因此,在语义层面挖掘词与词之间的关联,并且进一步建立语义体系,近年来也一直是研究的热点。作者之间的关联最为复杂,其中最直接的关联是合作关联和引用关联,此外文献之间的耦合和引用在这些实体之间同样存在。相对于引文网络大多为二值,这些网络是多值权重网络,且作者与文献之间往往是一对多的关系,例如作者可以撰写多篇文献,单篇文献又有多个作者参与,因此共被引和耦合等关联网络在作者层面以数量累计的方式发生了一些性质上的改变。
上文的阐述是从节点出发到关系,而从关系的角度出发,可以将科学文献资源及其特征项实体之间的关系归纳为三种类型,即发生型关联、共现关联和语义关联。发生型关联代表了资源的存在状态,作者创作资源、出版物刊载资源、词表达概念都是一种发生型关联。共现关联是以特征项共同出现为基础的一类关联,广义上来看,作者之间进行合作,文献之间的引用、共被引、耦合,词之间的共现等都是共现关联。语义关联产生的结果是语义网,即特征项实体为节点,语义关系为边的网络结构,这种网络适合概念层次上的知识挖掘,但是对于资源而言显得过于单一,且局限于词所代表的概念之间。就科学文献资源系统而言,一个合适的定位方法是从资源的多类型的关联网络入手,借助词汇之间语义关联网络来解释其他特征项实体构成的网络,且语义也不应当仅仅局限于概念之间的上下位、部分和整体等关系,而是可以从更加广泛的主题语义角度理解。这三类特征项所构成的关联网络能够充分反映聚合在关联网络中的多元性,但在实施过程中,对于词的关联网络的分析是嵌入到其他类型的关联网络的分析中的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。