首页 理论教育 科学知识多元计量聚合流程的优化

科学知识多元计量聚合流程的优化

时间:2023-07-08 理论教育 版权反馈
【摘要】:科学知识多元计量聚合的最终目的是为了实现知识服务,可以从系统的角度对技术框架和流程进行研究,本研究所建立的多元计量聚合的通用技术框架的总体结构如图4-1所示。图4-1科学知识多元计量聚合的技术流程在建立资源层的基础上,可以实现对科学文献资源的特征项进行抽取,并通过特征项之间的关联建立关联网络。

科学知识多元计量聚合流程的优化

科学知识多元计量聚合的最终目的是为了实现知识服务,可以从系统的角度对技术框架和流程进行研究,本研究所建立的多元计量聚合的通用技术框架的总体结构如图4-1所示。

从直观上来讲,多元计量聚合可以实现对任意科学文献资源及其特征项多粒度层面的分析,其技术框架的底层应该是资源系统,由于本研究所建立的多元计量聚合体系并不依赖于本体等规范控制非常严格的语义技术,因此对原始科学文献资源的组织和描述深度要求并不十分严格。理想状态下,在拥有基本的元数据描述的基础上提供资源的全文本信息是最好的状态,但从目前的资源数量级和信息机构的处理能力上来看,这显然并不现实。因此面向分析过程中只需要对科学文献资源进行初步的标注,即揭示其所包含的主要特征项,例如题名、作者、关键词、摘要和来源等,已揭示的特征项越多,能够聚合的内容也就越多。目前大多数信息服务机构都提供这些基本的描述,因此本研究所涉及的技术和方法就显得更具操作性。

(www.xing528.com)

图4-1 科学知识多元计量聚合的技术流程

在建立资源层的基础上,可以实现对科学文献资源的特征项进行抽取,并通过特征项之间的关联建立关联网络。关联网络实际上反映了资源系统的客观存在状态,其重要意义在于,通过资源及其特征项在网络中的位置和特性,能够进行重要性评价,而重要性评价的结果将直接服务于聚合,即通过适当的技术和方法在网络中筛选最重要的资源子集,获取整个网络中的核心资源集合,这样就可以获取资源聚合的一个重要中间结果。虽然现有的大量研究工具和方法都可以提供技术支持,但存在的问题也十分明显:首先,资源的重要性判断需要选择合理的方法,目前主流的分析是基于网络局部对资源或特征项进行重要性评价,而局部指标具有十分明显的缺陷,需要采用更为合理的技术进行改进。其次,广泛应用的多元统计分析中的聚类方法的效率也逐渐受到制约,目前的数字文献资源数量十分庞大,构成网络结构规模也必然随之产生几何级数的增长,聚类等方法的运算能力逐渐相形见绌,且在传统的数据中的应用并未综合考虑重要性,因此,在大规模数据环境下需要综合考虑更多的因素。与核心资源集合获取同时进行的工作是对资源及其特征项语义的揭示,本研究将主要采用主题语义的方法反映科学文献资源的知识内容,其结果将为从语义层面对资源集合进行深度挖掘提供有效支撑,也是资源集合从单纯的资源列表组合进一步升华为资源聚合的核心步骤。核心结构分析和主题语义的结果可以将资源聚合最终展现给用户。

综上可以发现,科学知识多元计量聚合的技术流程中涉及三个核心问题,即聚合对象(资源及其包含的特征项实体)的重要性评价、核心资源集合的获取、资源集合的语义内涵揭示。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈