首页 理论教育 建设组织机构名称资源库的总体构想

建设组织机构名称资源库的总体构想

时间:2023-07-05 理论教育 版权反馈
【摘要】:本研究是以语言的动态与稳态理论为指导,对组织机构名称进行全面深入的考察,为中文信息处理构建一个基础资源库。研究结果应能体现当前最新的组织机构名称使用的实态。不同领域的新闻语料对组织机构名称的报道也有其鲜明的领域特征,而组织机构名称的结构、成分与领域相关。基于DCC语料库,我们还能动态观测组织机构名称,对已有资源库进行更新维护,以保证资源库能适应新的识别任务。

建设组织机构名称资源库的总体构想

毋庸置疑,组织机构名称的资源建设要以语料库为基础。而资源建设目的不同,对语料库的要求也不同。本研究是以语言动态与稳态理论为指导,对组织机构名称进行全面深入的考察,为中文信息处理构建一个基础资源库。因此语料库建设应该遵循以下原则。

(1)语料规范。语言自身的不规范将给分词标注和统计处理带来不必要的干扰。

(2)真实新闻语料。要研究组织机构名称,就要尽可能基于组织机构名称使用较频繁的语料,而只有在真实的新闻语料中,才能保证组织机构名称和文本的丰富性。

(3)语料更新。研究结果应能体现当前最新的组织机构名称使用的实态。这样才能尽量延长“使用寿命”,对当前的文本对象进行分词标注时能保证资源的实用性,避免滞后失效。

(4)历时语料。应选取一段较长时间连续分布的语料,且不同时段的语料之间有纵向可比性,这样才能考察组织机构名称的稳态和动态。

(5)多种媒体源。不同定位、不同地域的媒体报道的内容有各自的针对性,为了保证考察结果是对社会语言生活的高度“仿真”,应选取有代表性的多种媒体源的语料。

(6)多领域、分领域。不同领域的新闻语料对组织机构名称的报道也有其鲜明的领域特征,而组织机构名称的结构、成分与领域相关。建立在多个领域文本基础上,并且有明确的文本领域分类,为资源库中的数据增加领域分布属性,能体现不同领域组织机构名称特征,实现对组织机构名称的领域通用、专用情况的考察。

根据这些要求,我们认为主流报纸动态流通语料库(dynamic circulating corpus,DCC)适合本研究。

(1)DCC依据流通度对主流报纸进行抽样,基于DCC的文本是真实的新闻文本。这些高流通度的主流报纸不仅能代表整个平面媒体,而且因其媒体在社会上的权威性、广泛影响力,在有声媒体、网络媒体上也具有很高的流通度。换言之,平面媒体和有声媒体、网络媒体在新闻报道中具有密切的关系。例如,新华社作为我国国家新闻通讯社,其新闻通稿将在所有媒体上覆盖;《人民日报》作为我国最权威、发行量最大的党报,其新闻通讯不仅在其他报纸上转载,而且广泛分布在其他媒体形式上。另外很重要的一点是,主流报纸上语言的规范性得到较好的保证。因此,DCC针对主流报纸的抽样可以有效地保证数据的代表性。

(2)DCC是一个动态更新的历时语料库,是一个能实现国家语言资源动态观测的语料库。这一语料库性质保证了语料尽可能最新,能实现我们对组织机构名称历时稳态和动态研究的要求。

(3)DCC是一个经过加工开发的熟语料库。该语料库经过了文本预处理、分词标注和领域分类。我们先后运用中科院自动化所分词标注系统和斯坦福分词标注系统,前者在我国2004年863分词评测中取得了优秀的成绩,且在组织机构名称识别方面的精确率达到了国内领先水平。后者是当前国际上使用率最高的分词软件之一。因此在此基础上进行资源库建设,能保证资源的完备和可信度,保证了资源库使用者能在一个理想平台上进一步研究识别精度的提高。

(4)DCC全部文本进行了领域类标注。领域分类主要基于新闻栏目信息和领域关键词,自下而上进行归类,无法归类的则归入“其他类”。由于2006年相当多报纸的栏目信息发生了变化,难以按照一贯的栏目信息归类,于是针对2006年语料,我又按照DCC博士研究室基于关键短语的文本分类方法进行了文本分类。需要指出的是,由于《法制日报》的新闻栏目信息基本与法制相关,因此《法制日报》的全部语料都归入了法制领域。文本领域类分别为法制、环境、教育、经济、军事科技、生活、体育文化政治类,加上其他类,共11类。在分领域的DCC基础上,本研究的工作已经实现了文本分类用关键短语提取、报刊新闻主题词群的研究、通用词语提取研究、基本词汇自动提取方法等课题的研究,文本领域分类的性能得到了充分的检验。(www.xing528.com)

(5)长远看来,DCC作为历时动态更新语料库,基于该语料我们可以进行历时的稳态、动态考察,从而得到组织机构名称在历时中稳态和动态分布状况。基于DCC语料库,我们还能动态观测组织机构名称,对已有资源库进行更新维护,以保证资源库能适应新的识别任务。与静态语料库、随机获取的网络语料相比,研究结果更为科学、更有代表性。

基于以下考虑,我们选取的语料为2002—2006年的DCC平面媒体语料:①报纸的流通度在不同年份有差异,因此每年进入DCC的报纸不尽相同,要保证报纸的年度持续性,势必减少报纸种类;②2001年为DCC建设的第一年,当年只采集了10份报纸的年度语料,与后面的15份年度语料有较大差距;③更换过分词标注软件,从中科院自动化所分词标注软件到斯坦福分词标注软件,虽然性能均值得信赖,但做纵向对比时有一定的障碍;④最近几年,由于研究方向的调整,DCC不再进行实时的分词标注和领域度标注。

基于以上原因,最后我们选取2002—2006年的语料作为我们的研究语料库。语料规模为1360416个文本16亿字节。这五年的语料在报纸种类、分词结果、语料加工深度上保持着最大限度的一致,有我们所需要的领域信息,足以保证组织机构名称的稳态与动态研究,保证能获取足量的扎根真相。所有语料按报纸类别、年度、领域等分类统计的结果如表3-1~表3-4所示。

表3-1 组织机构名称研究语料库语料量统计表(按报纸类别分类)

表3-2 组织机构名称研究语料库年度统计表(按报纸类别分类)

续表

表3-3 组织机构名称研究语料库分领域统计表

续表

续表

表3-4 组织机构名称研究语料库年度分领域统计表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈