首页 理论教育 新闻信息处理技术的语义知识表示方法

新闻信息处理技术的语义知识表示方法

时间:2023-11-23 理论教育 版权反馈
【摘要】:可以说,语义成分分析已成为自然语言处理中语义分析的一种不可缺的基本方法了。语义特征描述了词义,用带有正负值的义素表示。语义网络是由结点和连接结点的弧构成的有向图,结点表示概念,弧是有方向的,表示概念间的关系。语义网络能表示事物间属性的继承、补充、变异及细化等关系,因而节省存储空间。

新闻信息处理技术的语义知识表示方法

1.语义成分分析(Componential Analysis)

语义成分分析也称为语义标记,它是一种形式化的语义描述方法。20世纪50年代,美国人类学家用此方法描述和比较不同语言中关于“亲属关系”的词,到60年代初,美国语言学家卡茨(J.Katz)和福德(J.A.Fodor)将这种方法引入到语言学中,特别是用到转换生成文法中,把语义和句法结合起来。当利用解释语义学、生成语义学、格语法、切夫语法等对语义现象进行分析时,在不同程度上都要借助于语义成分分析的方法。可以说,语义成分分析已成为自然语言处理中语义分析的一种不可缺的基本方法了。

语义成分分析研究词义,其基本论点是:所有实义词的意义都可以分解成一些语义成分(Sense Components),也称为语义特征(Semantic Features),属于同一语义场的一组词可以用特征矩阵来表示。语义特征描述了词义,用带有正负值的义素表示。不同的词,只要意义相同,就应该具有一组相同的语义特征;而一个词形有几个意义就有几组不同的语义特征。特征矩阵可以清楚地描述出一组词的基本语义特征及其相互关系。

在使用语义标记处理自然语言时,要遵守语义标记的使用规约:一组语义标记内各特征的排列次序与意义无关;在一组语义标记中,不允许出现相同的特征;在一组语义标记中,不允许同时出现对立的特征。从义素分析的角度看,一个义项至少可以分解为两个义素,即两个语义特征。一般的义项都包含多个语义特征,这些语义特征分为表共性的语义特征和表个性的语义特征。

但是语义成分分析方法也不是万能的。它能解决一部分语义分析的问题,但不能解决全部的问题。特别是语义特征的获取是一个瓶颈问题,所以在具体的应用系统中,语义成分分析方法需要和别的方法配合使用,以应付自然语言处理中可能出现的各种复杂现象。

2.语义框架(Semantic Frame)

框架是美国著名的人工智能专家明斯基(M.L.Minsky)在1975年提出的一种知识表示法,称为框架理论[28]

框架理论认为世界上各类事物的状态、属性、发展过程和相互关系往往有一定的规律性,人们对它们的认识往往是以一种类似于框架的结构存储在头脑中,当面临一个新事物时,就从脑中取出一个相近的框架来匹配。如果匹配成功,就得到了对该事物的认识。如果匹配不成功,就寻找原因,从新取一个与新事物更相近的框架,或者修改补充刚才匹配不太成功的框架,形成新的认识,并把它作为新的框架存储在头脑中。

语义框架是表示事物或概念状态的数据结构,它由框架名和一组槽(slot)构成。框架名位于最顶层,用于指称某个概念、对象或事件;其下层的槽由槽名和槽值两部分组成。槽值可以是逻辑的、数字的,也可以是一个子框架,因而框架可以看做是三维的知识表示方法。语义框架的实用性在于层次结构和继承性。通过在槽值中使用框架和继承,可以建立起非常强大的知识表示系统。

框架方法不易表达过程性知识,所以在具体的系统中,它往往要和其他方法配合使用。

3.语义网络(Semantic Network)(www.xing528.com)

语义网络是对对象及其属性分类知识编码的图形结构。语义网络最初是在1968年由美国心理学家亏廉(R.Quilian)提出的一种表达人类记忆和理解语言的方法。1972年美国人工智能专家西蒙斯(R.F.Simmons)和斯勒康(J.Slocum)首先将语义网络用于自然语言理解系统,在语义网络中直接用概念表示词义,反映词义与词义之间的动态组合关系。

语义网络是由结点和连接结点的弧构成的有向图,结点表示概念,弧是有方向的,表示概念间的关系。在一个语义网中,关系提供了组织知识的基本结构,因而十分重要。没有关系,知识只是无关事实的一个集合。有了关系,知识就是一个可推出其他知识的具有内聚力的结构。

语义网络可看做由一系列三元组连接而成,元组可表示为<结点1,弧,结点2>,如图2-4所示:

978-7-111-33166-7-Chapter02-9.jpg

图2-4 三元组示意图

在这个三元组里,结点和弧都带有标记,以便区分各种不同的对象以及对象间的各种不同的语义联系。弧由结点1指向结点2,弧的方向体现了主次,结点l为主,结点2为辅;弧上的标记R表示结点1和结点2之间的关系。每个结点还可以带有若干属性。

语义网络能表示事物间属性的继承、补充、变异及细化等关系,因而节省存储空间。语义网络直观性强,易懂,许多语言学家都用这一方法解释语言现象。

4.逻辑形式(Logical Form)

形式系统可以作为知识的表示方式,其中用来表示语义知识的可以有一阶逻辑、模态逻辑和λ演算[29]。词的义项可作为形式系统中的常量,其中,项是描述师姐中的物体的常量,包括抽象事物:谓词是描述关系和属性的常量;逻辑算子NOT、OR、AND、IF、ONLYIF等是连接命题的常量;ALL、SOME、MOST、MANY、AFEW、THE等构成了形式系统的量词。为表示语言中事物的“势态”、人的“情态”以及过程的“变迁”,引入模态算子,用模态逻辑表示知识。由于一阶逻辑的表示能力不够强,又过于复杂,使得主要依靠搜索、匹配来实现的自动推理过程难于从根本上提高效率,所以学者们又采用λ演算形式描述语义知识,并进行计算和推理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈