首页 理论教育 组织机构名称与语料库语言学研究

组织机构名称与语料库语言学研究

时间:2023-07-05 理论教育 版权反馈
【摘要】:语料库不论其生熟,都是语言知识获取的宝贵来源。从语料库语言学的维度看本书,我们认为本研究与语料库语言学的关系主要体现在以下几方面。语料库语言学理论,尤其是动态流通语言知识更新理论是本书的理论基础。进而借助语料库加工工具,整合多个语料库、数据集,在大规模数据的基础上建立组织机构名称数据库,形成可供语言信息处理、组织机构命名管理的子数据库。我们设计了组织机构名称辅助校对系统。

组织机构名称与语料库语言学研究

语料库语言学有两层主要的含义:①利用语料库对语言进行研究,也就是说它是一种语言研究手段;②依据语料库所反映出来的语言事实对现行语言学理论进行验证和评判,提出新的观点或理论,在这个意义上,“语料库语言学”是一门学问。

运用语料库的科学数据方法在语言研究中已经成为必然的趋势和必要的手段。语料库语言学之父、英国兰开斯特大学Geoffrey Leech教授曾定义语料库语言学是“比之语言的能力,更强调语言的运用;比之理论研究领导语言的使用,更强调从观察语言的使用引导理论的研究”(Leech,1992)。兰开斯特大学Jenny Thomas和Mick Short在1996年所编撰的《用语料库研究语言》(Using Corpora for Language Research)的序言里,开宗明义地就指出:“语料库语言学现在已经成为语言研究的主流。”(Thomas and Short,1996)

根据加工深度的不同,我们可以将语料库分为生语料库和熟语料库。生语料库只经过了语料整理,未进行分词、词性标注等任何加工。至少经过了分词和词性标注的语料库才可以称为熟语料库。语料库不论其生熟,都是语言知识获取的宝贵来源。目前全世界建设了许多不同语种、不等规模、标注加工深度有别的语料库,用于语言研究、词典编纂、教材编写等。

1961—1964年美国布朗大学建造的BROWN语料库是第一代语料库的典型代表,紧随其后的是1970—1978年建造的LOB语料库,即“英国英语书面语语料库”,它的结构和规模都与BROWN语料库相似,这两个语料库的规模在100万词次左右。

到20世纪80年代,随着计算机技术飞速发展,语料库的建设进入了一个新时期,语料规模大幅增加,语料加工更加深入。比如,国际知名的柯林斯-伯明翰大学国际语料库(Collins-Birmingham University International Language Database,COBUILD)拥有500万词次,到1996年该语料库所包含的语料量已经扩展到2亿词次。

总体来看,20世纪80年代前期建造的语料库多属于静态语料库,语料库规模不会发生太大变化,这种构造方式能满足当时的语言研究,但满足不了语言现象的历时跟踪研究。

英国著名语言学家、语料库语言学专家约翰·辛克莱(John Sinclair)在《语料库、检索与搭配》(Corpus Concordance Collocation)(辛克莱,1999)中提出了“监控语料库”这一设想。他说:“……这样的话,在任何时候,这个语料库就可以对当前可得到的英语材料进行大规模的、最新的挑选;这样的语料库不仅有历时的一面,而且因为它详细的记录,我们还可以得到一个综合的词库。这样的语料库,几乎每一种有国际地位的语言都需要。”

20世纪90年代起,语料库的建设开始转向大规模真实文本,如COBUILD语料库从20世纪90年代初开始扩展,到2000年容量已经达到4亿词次,成为一个监控语料库,实现了语料持续动态更新。

“全球英语监控语料库”是于2001年启动的一个大型英语语料库,用于研究和监控全球范围内英语的使用变化情况。监控语料库具备自动监控和及时更新的能力,能够随着语言使用的发展变化不断调整,监控新的语言现象、新的语言变化,为语言研究提供最及时、最有效的支持。这代表着语料库的建设进入了动态的阶段。

“建立在语料库基础上的语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译领域中的应用。”(冯志伟,2001)

北京语言大学张普教授是我国最早建立语料库的学者之一,他于1999年开始建立动态流通语料库(dynamic circulating corpus,DCC),提出用媒体语言的流通度模拟大众语感的理论和实践。流通度,是报纸发行量、媒体价值、阅读率等数值的综合评价指数(张普,1999)。另外,张普教授提出的“动态性”贯穿着“历时中包含共时”和“共时中包含历时”的语言知识变化原则,既可以提供语言的共时描写,也可以提供语言的历时描写(张普,2000)。张普教授的动态流通语料库和新“监控语料库(monitor corpus)”有相似的地方,张普先生提出的流通度的概念使得动态更新知识库在理论上可以获得量化的评价依据,使得监控语料库这一美好的想法完全可以实际建立起来(辛克莱、王建华,2000)。(www.xing528.com)

从2005年开始,动态流通语料库扩展至广播、电视和网络媒体上的新闻语料。目前动态流通语料库仍在跟踪积累,以几十家媒体12亿字符次[2]的年增长速度不断扩充,且有规模不断扩大的趋势。

从语料库语言学的维度看本书,我们认为本研究与语料库语言学的关系主要体现在以下几方面。

(1)我们的研究缘起于语料库加工和使用,因本书前言已详细汇报研究缘起,这里不再赘述。

(2)语料库语言学理论,尤其是动态流通语言知识更新理论是本书的理论基础。在这些相关理论的指引下,所有的组织机构名称数据库在设计时都带有静态领域信息、文本信息,同时又带有历时统计信息。在这样的设计下,我们对组织机构名称的观测既能进行共时静态的描写分析,也能进行历时动态的统计和计算。

(3)我们使用语料库加工技术进行文本去噪、文本标注和数据提取等基础数据工作。进而借助语料库加工工具,整合多个语料库、数据集,在大规模数据的基础上建立组织机构名称数据库,形成可供语言信息处理、组织机构命名管理的子数据库。本研究形成的熟语料、数据库都是语料库技术的应用。

(4)我们设计了组织机构名称辅助校对系统。这一系统可以在整理语料时减轻后期人工干预的工作压力

(5)我们在对熟语料库的组织机构名称识别结果进行鉴别时,发现语言使用不规范、排版系统不完全兼容、文本去噪不干净等都将给组织机构名称识别带来干扰。后期的语料加工可以进行针对性的改进。

(6)我们对识别结果中的不合法字符和词语进行了穷尽式考察,其研究结果有助于语料库加工工具——中文分词系统的改进。

(7)应用多种技术,进行组织机构名称识别实验,以提高当前的组织机构名称识别的精确率[3]和召回率[4]。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈