首页 理论教育 处理大规模真实文本的技巧和方法

处理大规模真实文本的技巧和方法

时间:2023-06-30 理论教育 版权反馈
【摘要】:以WordNet为例来说明语料库中包括什么样的语义信息。在WordNet词典中,名词有57 000个,含有48 800个同义词集,分成25类文件,平均深度12层。大规模真实文本处理的数学方法主要是统计方法,大规模的经过不同深度加工的真实文本的语料库的建设是基于统计性质的基础。对大规模汉语语料库的加工主要包括自动分词和标注,包括词性标注和词义标注。清华大学于1998年建立了1亿汉字的语料库,着重研究汉语分词中的歧义切分问题。

处理大规模真实文本的技巧和方法

语料库(Corpus),指存储语言材料的仓库。现代的语料库是指存放在计算机里原始语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本。关于语料库的三点基本认识:

第一,语料库中存放的是在语言的实际使用中真实出现过的语言材料;

第二,语料库是以电子计算机载体承载语言知识的基础资源;

第三,真实语料需要经过加工(分析和处理),才能成为有用的资源。

以WordNet为例来说明语料库中包括什么样的语义信息。WordNet是1990年由普林斯顿大学的米勒(Miller)等人设计和构造的。一部WordNet词典将近95 600个词形(51 500个单词和44 100个搭配词)和70 100个词义分为五类:名词、动词、形容词副词和虚词,按语义而不是按词性来组织词汇信息。在WordNet词典中,名词有57 000个,含有48 800个同义词集,分成25类文件,平均深度12层。最高层为根概念,不含有固有名词。

WordNet是按一定结构组织起来的语义类词典,主要特征表现如下:

(1)整个名词组成一个继承关系;

(2)动词是一个语义网。

大规模真实文本处理的数学方法主要是统计方法,大规模的经过不同深度加工的真实文本的语料库的建设是基于统计性质的基础。如何设计语料库,如何对生语料进行不同深度的加工以及加工语料的方法等,正是语料库语言学要深入进行研究的。(www.xing528.com)

规模为几万、十几万甚至几十万的词,含有丰富的信息(如包含词的搭配信息、文法信息等)的计算机可用词典,对自然语言的处理系统的作用是很明显的。采用什么样的词典结构,包含词的哪些信息,如何对词进行选择,如何以大规模语料为资料建立词典,即如何从大规模语料中获取词等都需要进行深入的研究。

对大规模汉语语料库的加工主要包括自动分词和标注,包括词性标注和词义标注。汉语自动分词的方法主要以基于词典的机械匹配分词方法为主,包括:最大匹配法、逆向最大匹配法、逐词遍历匹配法、双向扫描法、设立切分标志法及最佳匹配法等。

词性标注就是在给定句子中判定每个词的文法范畴,确定其词性并加以标注的过程。[5]词性标注的方法主要就是兼类词的歧义排除方法。方法主要有两大类:一类是基于概率统计模型的词性标注方法;另一类是基于规则的词性标注方法。

词义标注是对文本中的每个词根据其所属上下文给出它的语义编码,这个编码可以是词典释义文本中的某个义项号,也可以是义类词典中相应的义类编码。

世界各国对语料库和语言知识库的开发都投入了极大的关注。1979年,中国开始进行机读语料库建设,先后建成汉语现代文学作品语料库、现代汉语语料库、中学语文教材语料库和现代汉语词频统计语料库。

北京大学计算语言学研究所从1992年开始现代汉语语料库的多级加工,在语料库建设方面成绩卓著,先后建成2 600万字的1998年《人民日报》标注语料库2 000万汉字和1 000多万英语单词的篇章级英汉对照双语语料库8 000万字篇章级信息科学与技术领域的语料库等。

清华大学于1998年建立了1亿汉字的语料库,着重研究汉语分词中的歧义切分问题。在语言知识库建设方面,“知网”(HOW Net)概念层次网络(Hierarchical Network of Concepts,HNC)等一批有影响的知识库相继建成,并在自然语言处理研究中发挥了积极的作用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈