聚合的起点是对资源的描述与组织。一般而言,资源的组织方法可以分为描述资源载体特征的著录法、元数据法;揭示资源内容的分类法、主题法、索引法和文摘法;揭示资源之间关联的排序方法如代码法、引证关系法、时序法、权值排序法等[3]。在数字化环境下,常见的技术包括元数据、标记语言、结合元数据与标记语言的RDF等。无论哪种方式,都是从资源的外部特征和内容特征上对资源进行揭示,外部特征也称为资源的外部属性,内容特征也可以称为资源的内在属性。在元数据描述中,以目前最常见的都柏林核心元数据为例[4],其主要包含的15个核心元素可以分为3大类,即资源内容的描述元素:题名(Title),主题(Subject),描述(Description),来源(Source),语种(Language),关联(Relation),覆盖范围(Coverage);资源的外部属性描述元素:日期(Data),类型(Type),格式(Format),标识(Identifier);资源的知识产权描述元素:创建者(Creator),出版者(Publisher),责任者(Contributors),权限管理(Rights)。而在信息检索中,对资源特征的认识则与上述不同,资源的内部特征主要指与资源的信息主题内容相关的信息,主要包括主题词和分类号,此外,标题、关键词、摘要或提要因同样能够反映文献的主题,也常归入内部特征的范畴;其他的特征例如作者、机构等都是外部特征。
计量聚合的多元性首先体现在对象元素的多元性。从聚合的角度来看,对数字资源描述的解读不同,为聚合提供了不同层次实现的可能,计量聚合可以发挥的角度也就不同。表3-1列出了资源及其包含的主要特征项实体、实体的含义以及作用,这些要素构成了资源的知识元素系统。图3-3描述了从数字资源实体开始,计量聚合对象多元的形式化层次和内容层次结构。
表3-1 科学文献资源的特征项实体
(www.xing528.com)
特征项实体中包含了多个部分,可以简单地将之分成因创作发表产生的特征项和因利用所产生的特征项。因创作发表的特征项即题名、作者、关键词、作者的社会归属;因利用所产生的特征项则包括参考文献、被引作者和被引出版物等。实际上,在这个体系中实体的角色并非是固定的,参考文献、被引作者、被引期刊等都是由资源创作者在进行知识创造时的引用行为所产生的,在整个资源集中,当定位到参考文献本身时,它将再次具有表格中所有的特征项实体。进一步的,如果将这些内容进行集成,大致可以从总体上建立如图3-3描述的层次。从实体的角度来看,外部特征上,作者维度是最接近资源本身的,机构维度的聚合、区域维度的聚合都是建立在作者归属上的集成;在内容特征上,词角度的聚合是最基础的聚合,主题维度的聚合、领域维度的聚合都是对词的进一步判断和集成。这种对象的层次性正体现出了科学知识聚合的多元特征,这种对象层次的多元性本质上是聚合粒度多元性的重要体现。
图3-3 科学文献资源特征项实体的层次结构
陈庄等曾将用户使用的检索词分为表示主题、表述作者、表示分类和表示特殊意义(ISBN号、引文标引等)的检索词[5],邓小昭在对1 643份问卷进行分析的基础上发现,用户从关键词、题名和作者角度进行的检索占到了所有检索途径的91%,说明直接针对资源、从关键词和作者的角度进行的资源获取是目前用户所采用的主要途径[6]。结合上述的对象层次,我们可以发现,词层次的聚合是实现主题语义挖掘的主要途径,而主题聚合的结果将进一步支撑直接面向资源的聚合和面向作者的聚合,在整个对象体系中,完成底层的三种类型的聚合实质上就明确了针对整个科学文献资源系统的知识计量聚合基础步骤和具体流程。在下文的研究中,词层次的语义聚合将贯穿所有的分析过程,而资源之间的直接关联——引文网络和作者之间的多维关系网络将作为实例进行更多细化的研究。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。