从计算机处理的角度,对自然语言的研究和处理,一般应经过如下3个方面的过程:
(1)把需要研究的问题在语言学上加以形式化(Linguistic Formalism),使之能以一定的数学形式,严密而规整地表示出来;
(2)把这种严密而规整的数学形式表示为算法(Algorithm),使之在计算上形式化(Computational Formalism);
(3)根据算法编写计算机程序,使之在计算机上加以实现(Computer Imple-mentation)。
因此,为了研究自然语言处理,不仅要有语言学方面的知识,而且,还要有数学和计算机科学方面的知识以及哲学、认知心理学、逻辑学等其他领域的知识,这样自然语言处理就成为了一门界乎于多门学科之间的边缘性的交叉学科,它同时涉及文科、理科和工科三大领域。另一方面,从语言学的角度,由于任何一种语言都具有3方面的特征:
(1)语法(syntax):研究组成语言的规则或者符号之间的关系;
(2)语义(semantics):研究符号的含义,或者符号和含义间的关系;
(3)语用(pragmatics):研究在不同语境下如何理解和使用语言。
因此,语言的分析和理解过程应当是一个层次化的过程,它包括词汇分析和句法分析(语法层),语义分析(语义层),基于语境和世界知识的篇章分析和自然语言生成(语用层)。虽然这种层次之间并非是完全隔离的,但是这种层次划分的确有助于更好的体现语言本身的构成。
虽然知道了计算机处理和理解自然语言的过程和层次,但一个现实的问题是——现在的计算机智能还远远没有达到能够像人一样理解自然语言的水平,而且在可预见的将来也达不到这样的水平。因此只能从系统功能的角度出发,把输出对输入文本的反映作为衡量计算机理解语言的判别标准,美国认知心理学家G.M.Olson曾提出4条语言理解的标志:(www.xing528.com)
(1)回答有关提问;
(2)提取材料摘要;
(3)不同词语叙述;
(4)不同语言翻译。
随着时代的进步,计算机技术日新月异,信息全球化不断发展,自然语言理解也正被赋予更多的内涵,如知识挖掘,智能信息搜索等都成为新的研究热点。
综上所述,图2-3所示为自然语言理解的基本模型。
图2-3 自然语言理解的基本模型
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。