首页 理论教育 知识元抽取方法在CADAL数字图书馆标准规范中的应用

知识元抽取方法在CADAL数字图书馆标准规范中的应用

时间:2023-10-27 理论教育 版权反馈
【摘要】:②原理类知识元,是对事物性质、事物变化规律的认识,如“勾股定理”是一个原理。④事实类知识元,反映一个事实,如历史事件、地理现象、社会现象等。⑥数值类知识元,是用来表述对象或过程的数量特征和关系,如国民生产总值、因变量、变化率等。知识元的抽取框架如图3-2所示。

知识元抽取方法在CADAL数字图书馆标准规范中的应用

知识元可分为以下几种类型[17]:①概念类知识元,是对事物性质、事物变化规律的认识,如“潜在语义分析”是一个概念。②原理类知识元,是对事物性质、事物变化规律的认识,如“勾股定理”是一个原理。③方法类知识元,是指分析、解决问题的某种确定的方法,如“勾股定理证明方法”有赵爽证明、Garfield证明等几百种方法。④事实类知识元,反映一个事实,如历史事件、地理现象、社会现象等。⑤陈述类知识元,是用来表述两者之间的关系或为了表达某个观点,如物理学的基本特征、力学的种类和定义等。⑥数值类知识元,是用来表述对象或过程的数量特征和关系,如国民生产总值因变量、变化率等。⑦模型类知识元,用来描述事物或对象的数学或图形模型,如统计模型、双螺旋结构等。

3.4.2.1 知识元的抽取方法

知识元的抽取可根据不同知识类型,采取不同的方法。知识元的抽取框架如图3-2所示。

图3-2 知识元抽取框架

示例1:事实型知识元抽取系统框架CKI(D,T)

/*在数字资源集文档D的基础上抽取知识元T*/

Step1:Docs=preprocess(POS-tag(D))//语料库(corpus)和Web文档集的收集、选择和预处理;

Step2:Parses=parse(POS-tag(D))//生成候选关键词集;

Step3:Domain Term=Linguistic(Parses)&Statistical(Parses)//抽取领域术语,采用语言学分析和统计分析的方法;

Step4:OntConcept=Disambiguate(Domain Term)//对领域本体概念(concept)进行语义排歧;

Step5:R con={Temhyp,Tempar,Temsyn,Temins}//候选语义关系(semantic relation)学习;

Step6:T c=AssociateRule(R can)//语义关系优化;

Step7:Domain Tree=get FormalContext(T c)//创建形式化领域树(domain trees);Step8:T o=Tax Miner(Domain Tree)//构建分类层次体系(taxonomy);

Step9:O=Prune(T o)//生成知识元和形式化表示;

Step10:Evaluate(KEU)//对生成的知识元进行评价;

Step11:Return KEU

CKI知识元抽取系统实现流程如图3-3所示。

图3-3 CKI知识元抽取系统实现流程

示例2:CKI知识元概念的语义关系抽取——基于聚类的分类关系学习

输入:知识元概念列表T

结果:计算每一概念对之间的相似度,并将其从由高到低进行排序

Step1:初始化概念聚类集C,i.e.C:={}

Step2:对每一对pair(t 1,t 2),如果t 1或t 2没有分类为某一其他概念的子概念:

(a)IF(t 1,m)∈H(t 2)

i.(t 2,n)∈H(t 1)and n>m,then isa(t 1,t 2)

ii.ELSE isa(t 2,t 1)

(b)ELSE IF(t 2,m)∈H(t 1)

i.isa(t 2,t 1)

(c)ELSE IF(h,n)∈H(t 1)and(h,m)∈H(t 2)and there is no h′such that(h′,p)∈H(t 1)and(h′,q)∈H(t 2)and p+q>m+n

i.IF isa(t 1,t′),i.e t 1已分类为t′

A.IF t′==h,then isa(t 2,t′)

B.ELSE IF(h,n)∈H(t′)and((t′,m)∈H(h)→m<n)

IF t 2 has not yet been classified,then isa(t 2,t′)

IF t′has not yet been classified,then isa(t′,h)

C.ELSE

IF t 2 has not yet been classified then isa(t 2,h)

IF h has not yet been classified,then isa(h,t′)

ii.ELSE IF isa(t 2,t′),i.e.t 2 is already classified as t′

A.IF t′==h,then isa(t 1,t′)

B.ELSE IF(h,n)∈H(t′)and((t′,m)∈H(h)→m<n)

as t 1 has not yet been classified,then isa(t 1,t′)

IF t′has not yet been classified,then isa(t′,h)

C.ELSE

as t 1 has not yet been classified,then isa(t 1,h)

IF h has not yet been classified,then isa(h,t′)(www.xing528.com)

iii.ELSE,as neither t 1 nor t 2 have been classified,isa(t 1,h),isa(t 2,h)

(d)ELSE,as there are no common hypernyms,mark t 1 and t 2 as clustered,i.e.C:=C∪(t 1,t 2)

Step3:对每一概念t∈T,由于在语料中未找到相似概念而未处理,如果C中有其他概念t′满足stringOf(t′,t),then isa(t,t′)

Step4:FOR EACH(t 1,t 2)∈C

(a)IF there is a t′such that isa(t 1,t′)THEN isa(t 2,t′)

(b)ELSE IF there is a t′such that isa(t 2,t′)then isa(t 1,t′)

(c)ELSE select the pair(t′,m)∈H(t 1)∪H(t 2)for which there is no(t′′,n)∈H(t 1)∪H(t 2)such that n>m and create the following structures:isa(t 1,t′)and isa(t 2,t′)

Step5:FOR EACH term t∈T which has not been classified,put it directly under the top concept,i.e.isa(t,top)

Step6:输出:知识元概念列表T的概念层次

3.4.2.2 知识元抽取的作用

CKI数据模型将知识组织系统视为由概念集合组成的概念体系(concept scheme)。CKI概念体系和数字图书馆知识标引概念用URIs来辨识,使得任何人在任何上下文环境中都可以一致地引用,将它们作为万维网的一部分。CKI概念可以使用任意数量的词汇字符(如“romantic love”或“れんあい”),任意指定自然语言(如中文、英语日语平假名拼法)作为其标签。指定语言的标签中的一个可以作为该语种的首选标签,其他作为可选标签。CKOS概念通过语义关系属性与其他CKOS概念关联起来。CKOS数据模型提供CKOS概念间的等级和相关链接。

CKI知识元具有独立性、拓扑性和链接性。独立性是指每个知识元是一个独立的知识单位,都包含有一个相对完整的知识点;拓扑性是指每个知识元由知识元名称、知识元属性和知识元属性值组成其完整结构,可以表示完整的知识内容;链接性是指知识元通过链接可以创造新知识,是知识标引的基础[18]

由于知识资源的浩瀚和语义的复杂性,因此对知识元的分类与标引并非一件易事。知识元抽取可采用自上而下的分类方法,即知识元由六元组确定,如图3-3所示。知识类别指对知识体系按照学科标准分成若干领域,知识级别则按由浅入深的认知方式分成概念、公理、规则和方法4个层次。

在此,知识元标引起到知识元过滤和知识元链接的作用,从而为知识库的构建提供了有力保障,主要起到定位知识元方向、完成知识标引和实现知识发现的作用。

1.定位知识元方向

识别向导信息,建立向导信息库:识别向导信息是知识元抽取的第一步,向导信息包括标题、小标题、摘要、段首、段尾、结论引文等其后有具体内容的特征词。知识标引首先要从文献标题词入手,定位知识元方向;然后,通过文摘和关键词寻找知识元的向导信息。如果特征词后引导的段落和句子包含该特征词描述的知识元的内容,则这一特征词就上升到了向导信息词的地位,将该特征词导入向导信息库,该特征词同时也成为知识元名称,将其同时导入知识元库。该特征词后引导的具体内容就是知识元内容。

知识元方向定位利用概念概括与划分的分析原理,通过建立面向对象的受控语言分类表和词表,并采用词位置及词频分析法完成,这些技术可借鉴利用主题标引研究成果,向导信息识别则利用链的思想。链是表示对象间物理与概念连接关系的一种实例,对象间的物理与概念连接关系则是链的抽象。例如,“知识标引简单说就是以知识元为单位进行标引”可表述如下:该句中的关联词“是”表明了“知识标引”该特征词与其后的内容之间的关系,从而确定了“知识标引”向导信息的地位。同主题标引相比较,知识标引中识别向导信息的特征词就是主题标引中抽取的主题词。在主题标引中,主题词识别后抽取进入主题词库,直接作为标引用,主题词就是主题标引的内容;而知识标引的基本单位知识元的主要内容是特征词后的具体内容,不仅仅是知识元名称[19]

2.抽取特征句,获得知识元具体内容,完成知识标引和实现知识发现

以知识元名称为向导,在正文中抽取含有该名称的特征句若干,再对每个句子中知识元名称进行词频统计,并按句子出现位置进行加权,筛选出其中的几个句子,作为该篇文献的知识元,用来对该篇文献进行标引。不同类型的文献及文献中不同位置的知识元表达的连接关系不同。在创新性论文中抽取特征句时,文摘中的“本文的研究目的是……”“本文发现……”“本文对……做了改进”,正文中的“该方法称为……”“该理论认为……”等是特征句选取的基本标识;在包含数据型知识元的文献中抽取特征句时,含有时间、地点、数字等的文本内容是特征句选取的基本标识;在包含事实型知识元的文献中抽取特征句时,“……就是指……”“也就是说……”等是特征句选取的基本标识。

其主要包括如下步骤:

第一步,提取关键词。关键词,是指那些出现在文献的标题(篇名、章节名)以及摘要、正文中,对描述文献主题内容具有实质意义的词语,即对提示和描述文献主题内容来说是重要的、关键性的那些词语。判断关键词所在句是否包含知识元。

第二步,句子分析。对提取出来的关键词所在句进行特征分类,为知识元标引做好准备工作[20]

第三步,知识元标引。对做好特征分类的句子进行判断,看是否能成为一个知识元,完整地表达一个知识且不可再分。按照知识语义模型要求,获取知识元属性、所在文献的题目、知识元内容(即知识元所在特征句)、知识元的上下文等。

第四步,知识元的生成。知识元可用RDF/XML文档表示,即在系统中可以根据文献、知识元类型等生成一个RDF/XML文档。

本文通过知识元抽取基本实现文献的主题划分、自动学科分类以及学术水平等级切分,并在此基础上进行学术资源的知识服务。

【注释】

[1]付蕾.知识元标引系统的设计与实现[D].武汉:华中师范大学,2009.

[2]周鑫燚.教学资源语义信息模型初探[J].西北民族大学学报(自然科学版),2009(3):68-71.

[3]徐荣生.知识单元初论[J].图书馆杂志,2001(7):2-5.

[4]曹锦丹.基于文献知识单元的知识组织——文献知识库建设研究[J].情报科学,2002(11):1187-1189.

[5]焦振廉.试论中医文献的结构[J].上海中医药大学学报,2005,19(2):7-9.

[6]ZOU J H,LIU Q T.A knowledge element model for knowledge abstract and fusion system[C].International Conference on New Trends in Information and Service Science,NISS'09,2009:23,26.

[7]高媛.中文文本分类算法比较研究[D].石家庄:河北大学,2008.

[8]盖杰,王怡,武港山.潜在语义分析理论及其应用[J].计算机应用研究,2004,21(3):9-12.

[9]王金铨,梁茂成,俞洪亮.基于N-Gram和向量空间模型的语句相似度研究[J].现代外语,2007,30(4):405-413.

[10]李莉.潜在语义分析在中文短文自动判分系统构建中的应用研究[D].乌鲁木齐:新疆农业大学,2006.

[11]付蕾.知识元标引系统的设计与实现[D].武汉:华中师范大学,2009.

[12]李锐,王泰森.基于知识元的知识组织与知识服务[J].图书馆学研究,2008(8):84-86.

[13]姜晓林.科技项目管理中知识管理系统研究[D].大连:大连理工大学2008.

[14]高丹.知识网络资源管理研究[D].武汉:华中师范大学,2005.

[15]刘柏嵩.基于Web的通用本体学习研究[D].杭州:浙江大学,2007.

[16]李锐,王泰森.基于知识元的知识组织与知识服务[J].图书馆学研究,2008(8):84-86.

[17]徐文海.文本单元向知识单元转化的模型与映射算法[D].西安:西安电子科技大学,2008.

[18]原小玲.基于知识元的知识标引[J].图书馆学研究,2007(6):45-47.

[19]原小玲.基于知识元的知识标引[J].图书馆学研究,2007(6):45 47.

[20]付蕾.知识元标引系统的设计与实现[D].武汉:华中师范大学,2009.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈