1.汉语的特点以及计算机处理的特殊性
汉语是世界上最古老的语言之一,属于汉藏语系,是一种孤立语。汉语在历史上先后吸收和同化了匈奴、鲜卑、突厥、契丹、满、蒙古、梵语等语言里面的许多成分,是自然语言中非常复杂的一种。以下我们简要介绍一下汉语的特点和计算机处理的特殊性。
(1)汉语是大字符集的语言:英语只有26个字母,中文却有44908个汉字(根据《中华大辞典》)。英语有1500年历史,《牛津英语辞典》收词40多万条。汉语长达六千多年历史,《中华大辞典》收词六十多万条,比英语多50%。这一特性为汉字的输入和计算机编码造成了极大的困难。
(2)字形复杂:完全使用由象形文字演化而来的方块汉字,这使得汉字字形的信息量较大,给计算机的内部信息压缩和文字显示制造了困难。
(3)词语缺乏狭义的形态:西方语言的形态,对于计算机来说就是标记;汉语是以字为基本单位,词之间没有明显的标记,需要词的切分,而分词本身有一定的错误率,这无疑降低了后续处理的实际效果。此外,汉语词本身没有性、数、格、时态变化等形态标志,这又给语义分析增加了困难。
(4)句子语法、语义灵活:汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词。但是,词序虽同可能意义迥异;虚词并非非用不可,特别是在口语里,虚词更少,因此虚词只能是解决词与词、句与句关系问题的辅助手段;“意合”则更为麻烦,其中包含着许多语言环境、语言背景和语言风格知识以及缺省问题,如何全面把握有关意义的诸项要素,并把它形式化,是最大的难题。
现实的客观条件是,一方面,计算机的软硬件处理环境一直以来都是以英语为平台;另一方面,现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的。汉语无论在语音、文字表示,还是在词汇、语法、语义及其语用等各个层面上都与之存在着很大的差异,这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达的语言。这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。
2.汉语自然语言理解技术发展概况和成果
汉语自然语言理解技术是中文信息处理技术的一个分支,并且属于相对高端的技术层面。中文信息处理的研究时间很长,但由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了许多年。但经过近几年的发展,汉语自然语言理解技术获得了长足的进步,取得了很多重要的成果。
将国内自然语言理解技术的发展分为以下三个阶段,分别作简要的介绍。
(1)汉语信息预处理阶段:20世纪70~80年代。
1)教会计算机“认识”汉字。1974年周恩来总理亲自批准了“七四八”工程,它标志着计算机中文信息处理技术受到了国家的高度重视并且进入了第一个发展阶段——汉字信息处理时代。这项工程的任务是研制计算机汉字输入、输出、编辑和检索。在这个项目的带动下,研究汉字信息处理的有识之士,克服种种困难,已经创造出近1000个汉字输入编码方案了。在经历了所谓万“码”奔腾的汉字编码战国时代之后,这方面的问题已经基本解决。
跟汉字的输出密切相关的是汉字字库的信息压缩技术。1975年享有“当代毕升”美誉的北京大学教授王选与其同事一道研制成功的汉字折线段压缩技术,很好地解决了汉字字形复杂,字型信息存储量大这个难题。从而划时代地使汉字文献的印刷出版告别铅与火,进入电子时代。
2)教会计算机“认识”汉语词。在用计算机处理汉语信息时,其核心是对词的处理,首先碰到的问题是词的切分。由于汉语句子中词与词之间无空格,必须把句中各词正确地切分开来,才能正确理解和处理汉语句子。1983年国内实现了第一个汉语自动分词系统CDWS,此后又有数个系统问世,并提出了多种分词方法。这些分词方法概括起来可以分为两类:一类是基于统计的机械分词方法,一类是基于规则的专家系统分词方法。机械分词法中包括:正向最大匹配法、逆向最大匹配法、逐词遍历匹配法、设立切分标志法、最佳匹配法、最小匹配法、最少词数切分法。基于规则的分词法是利用汉语的语法、语义知识建立推理规则,在分词过程中进行推理判断,模拟语法专家的逻辑思维过程,实现自动分词。此外还有基于神经网络的分词方法等。
1988年初,北京航空航天大学制定了《信息处理用规范现代汉语分词规范》,从计算机工程应用的需求出发,解决了语言学界争论了几十年而未解决的汉语的词的定义问题。为我国从汉字处理进入词语、语句处理打下了基础。
(2)发展阶段:20世纪80~90年代。基本问题解决后,国内开始了真正意义上的汉语自然语言理解研究,无论是“经验主义”还是“理性主义”都开始借鉴国外的研究成果进行汉语研究。但受到这一时期国际发展倾向的影响,经验主义发展较热,语料库统计方法研究在国内广泛兴起。建设了数个有一定规模的汉语语料库,在汉语语料的标注和利用带标记的语料来自动获取语言知识等领域取得了不少成果。最近又开始了利用双语平行语料进行自动机器翻译的研究。其中有影响力的中文生语料库、词语语料库、句法语料库有:
1)1979年,武汉大学建设的汉语现代文学作品语料库,共计527万字,是我国最早的机器可读语料库。
2)北京大学计算语言学研究所与富士通公司合作,加工2700万字的《人民日报》语料库,加工项目包括词语切分、词性标注、专有名词(专有名词短语)标注。
3)1998年,清华大学建立了1亿汉字的语料库,着重研究歧义切分问题。现在生语料库已达7~8亿字。(www.xing528.com)
4)北京邮电大学在美国LDC的汉语句法树库的基础上进行自动获取语法规则的研究。LDC的“树库”包含新华社1994到1998年的325篇文章,包含4185颗树,10万个词。
5)香港语言资讯科学研究中心建立了LIVAC语料库,其宗旨在于研究使用中文的各个地区使用语言的异同。总字数为15234551字,经过自动分词和人工校对之后总词数约为8869900词。
6)台湾建立了平衡语料库(Sinica Corpus)和树图语料库(Sinica Tree-bank)。两个都是标记语料库,有一定加工深度。语料库规模约500万字。
(3)现阶段:20世纪90年代末至今。在国际自然语言理解技术不断革新和进步的影响下,在国内学者的共同努力下,汉语自然语言理解研究也在不断的深入和提高。另外,受到互联网和信息技术的带动,汉语自然语言理解技术又出现了新的需求和新的难题。总的来说这一时期呈现出“多元化”和“多角度”的研究态势,总结为以下4个动向。
1)与国际发展相适应,纯概率和语料库研究似乎走到了尽头,开始统计和规则相结合。
①中科院计算所汉语词法分析系统ICTCLAS采用了统计方法与规则相结合的手段,并在973专家组评测了国内主要的汉语词法分析系统后,获得最好成绩。
②清华大学的黄昌宁先生等人成功地结合语料库统计与规则的优点,设计了一个统计与规则并举的汉语句法分析模型CRSP,在这个模型中,语料库用来支持各类知识和统计数据的获取,并检验句法分析的结果;规则主要用于邻接短语的合并和依存的关系网的剪枝,他们的实验取得了令人满意的结果。
③许嘉璐先生主持的国家社会科学“九五”重大项目“信息处理用现代汉语词汇研究”就是在统计方法的基础上,引入西方计算语言学的理论成果,加入规则的分析方法。
2)开始重视语义和知识表示,并有意识的抛开英语自然语言理解的研究模式,寻找适合汉语自身的方法。
①黄曾阳先生的概念层次网络(Hierarchical Network of Concepts,HNC)是考虑到传统研究方法(词—短语—句—句群—篇章)是基于西方语言而建立的,其总体与汉语的实际情况不适应。HNC理论以概念化、层次化、网络化的语义表达为基础,把人脑认知结构分为局部和全局两类联想脉络,认为对联想脉络的表达是语言深层(即语言的语义层面)的根本问题。
②陆汝占先生的基于内涵模型论的语义分析。该理论主张深入语义层面,将汉语表达式抽象成数学表达式恰当的表示内涵与外延。然后把这些语义表示在计算机内进行处理。即在汉语表达式和计算机数据结构间插入抽象数学表示。
3)人们越来越深入地认识到,知识表示和知识处理是自然语言理解的瓶颈问题,开始重视知识库的建设。
①董振东先生的知网(How Net)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。
②东北大学和北京大学对WordNet的汉化。WordNet是传统的词典信息与现代计算机技术以及心理语言学的研究成果有机结合的一个产物,最具特色之处是试图根据词义而不是词形来组织词汇信息。
4)受到信息全球化和因特网的影响,智能信息搜索成为研究的热点。
①理论研究方面。主要有:东北大学的姚天顺先生提出的文本信息过滤机制;哈尔滨工业大学的王开铸先生对文本层次结构的划分;北京邮电大学的钟义信先生实现的自动文摘系统;上海交通大学的王永成先生进行的信息浓缩研究。
②应用系统开发方面。主要有:基于内容的搜索引擎,代表性的系统有北京大学天网、计算所的天罗、百度、慧聪等公司的搜索引擎;信息自动分类、自动摘要、信息过滤等文本级应用,如上海交通大学纳讯公司的自动摘要、复旦大学的文本分类,计算所基于聚类粒度原理SVM的智多星中文文本分类器。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。