抽取知识元的质量取决于其全面性、完整性及准确性,确保抽取知识元的质量是该研究的关键性问题,基于这些开展以下具体工作:首先,为了确保抽取语句的全面性,该研究的一个工作重点是对原文本进行主题分块,这样可将一篇文献细分为表达主题相似的若干块内容,以满足抽取语句的完整性与全面性;其次,为了确保抽取语句的准确性,基于第一步主题分块的工作,在划分出的小主题块中进行句子重要度的排序,以提取出各个小主题中最具代表性的语句;最后,基于具有知识元特征的模板库,在句子重要度排序库中,最终完成抽取知识元属性-内容描述的工作。
针对研究中各步工作的技术路线,给出了对应的具体方案,具体如图9-1所示。
图9-1 实施方案
在学术资源中,采用的知识元结构模型要体现其特征;在概念上,知识元是作者提出的贯穿全书的一个重要概念、一个创新思想,等等,它是指不可再分割的、具有完备知识表达的知识单元,是构成知识结构的基元;在知识结构中,知识元是最小的元素,可以由多个知识元直接组合构成新的知识单元。温有奎教授定义知识元由{名称,属性,操作,导航}四要素组成。鉴于数字图书馆学科分类标引的特殊应用,知识元的内容应包括以下几个方面:
(1)所属学科类别、关键词、分类号;
(2)知识元名称;
(3)知识元描述;
(4)关联条目。
在结构模型上,我们结合都柏林核心元数据(DC)标准及数字图书馆学术资源学科分类的特点,将知识元结构定义为一个七元组:
(www.xing528.com)
式中:KEID表示知识元标识号,采用URI表示;
N表示知识元名称,即知识元标题,是对本知识元的知识内容的一种高度表述;
C表示知识元的关键字集,即一组可用于检索本知识元的关键字集;
D表示内容描述,是对本知识元的内容的简要描述,通过该描述,一方面可以在构建知识元结构模型时提高选择知识元的准确性,另一方面在实现知识共享时,可以使知识使用者直接获取知识内容,而不需要再到庞大的载体中去寻找。
KC表示知识类别,指对知识体系按照学科标准分成若干领域,并且与学科分类号分别对应,即对知识体系按照一定标准划分后的各个子项,如以学科为标准,知识类别可以分为生物、哲学、管理学、文学等领域。
KL表示知识级别,按照认知方式分成概念、公理、规则和方法4类,这4类也是知识级别由简单到复杂的4个层次。
L表示知识地址,指在构建知识库时所赋予某一知识元的唯一位置标识,一般是一个链接到知识元所在的载体的超级链接,通过该信息,知识的使用者可以获得该知识元更深入完整的信息。[23]
分析上述提到的知识元七元组结构模型可知:属性KEID可以直接定义;属性L可以直接获取;而属性N,C,KC,KL的获取,则依赖于属性D。因此,核心任务是抽取知识元属性D,大部分工作也放在如何从文献中抽取具有知识元特征的语句,即知识元属性D,且这些语句能够全面、完整地表达文献的核心内容。
基于上述分析,接下来的工作内容是围绕如何抽取知识元属性-内容描述(D)进行的,并且确保抽取出来的句子,在其具有知识元特征的同时,也能全面、准确地表达文献的核心内容。当前研究工作主要集中在如何提取知识元属性-内容描述,知识元的其他属性,在将来的工作中会具体实现。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。