首页 理论教育 自然语言处理中组织机构名称的特殊性

自然语言处理中组织机构名称的特殊性

时间:2023-07-05 理论教育 版权反馈
【摘要】:自然语言处理涉及机器翻译、问答系统、信息抽取、自动文摘、自动文本生成等一系列技术,而实现这些技术的基础是词法分析、句法分析和语义分析。成熟的中文分词算法能够达到较好的自然语言处理效果,帮助计算机理解复杂的中文语言。基于这些原因,中文信息处理界对分词的关注度远远超过了其他研究领域。在命名实体中,组织机构名称是特殊的一类。其特殊之处在于组织机构名称中往往有地名、人名、普通词语(如公司)、未登录词。

自然语言处理中组织机构名称的特殊性

信息社会离不开信息处理技术。随着大数据时代的出现和机器学习的发展,自然语言处理(natural language processing)变得越来越重要。自然语言处理涉及机器翻译、问答系统、信息抽取、自动文摘、自动文本生成等一系列技术,而实现这些技术的基础是词法分析、句法分析和语义分析。其中,词是构成句子、表达概念的基本单元,所以词法分析又是句法分析和语义分析的基础。

和许多语言不同的是,中文句子中没有词的界限,因此中文信息处理研究的第一步就是要把句子中相对独立的概念切分出来,也就是进行自动分词。在自动分词的同时对切分出的词语单位定性,也就是词性标注。因此,中文分词标注可谓是中文信息处理的“桥头堡”。成熟的中文分词算法能够达到较好的自然语言处理效果,帮助计算机理解复杂的中文语言。基于这些原因,中文信息处理界对分词的关注度远远超过了其他研究领域

汉语分词中,歧义切分字段和未登录词(out of vocabulary,简称OOV)是影响分词精度的两大因素。

歧义切分字段分为交集型歧义切分字段和组合型歧义切分字段两种。如果AB、BC、A、C都出现在词表中,也就是说都是词表词,则字符串ABC存在两种可能的切分方式AB/C和A/BC,这就是歧义切分字段。如果对于字符串ABC,AB、ABC、C都是词表词,则有两种可能的切分方式AB/C或ABC。这就是组合型歧义切分字段。(www.xing528.com)

未登录词,即未被分词词表收录的词语,即“非词表词”。它大致包含两大类:①新词语,包括新涌现的通用词或专业术语等,如中国人名、外国译名、地名、组织机构名称等;②命名实体(named entity),如前所述,包括实体名称(人名、地名、组织机构名称)、数字表达式(货币值、百分数、电话号码)、时间表达式(日期、时间)。“在未登录词中,命名实体占2/3,新词语占1/3。”(Li and Huang,2004)据香港城市大学LIVAC语料的统计显示,每年语料中只有40%的新词语是新涌现的通用词或专业术语,另外60%新词语仍是命名实体。另外未登录词也是产生歧义切分字段的主要原因之一。“未登录词造成的分词精度失落至少比歧义切分大10倍。”(黄昌宁、赵海,2007)所以,一言以蔽之,命名实体识别是未登录词识别的最主要问题。

在命名实体中,组织机构名称是特殊的一类。其特殊之处在于组织机构名称中往往有地名(如北京大学)、人名(李宁(中国)体育用品有限公司)、普通词语(如公司)、未登录词(郑州天和服装厂中的“天和”)。而在具体分词时,又有歧义。例如在“据了解,郑州天和服装厂长期……”这一字符串中,“和服”“服装”与“厂长”“长期”是两组交集性歧义切分字段。所以,命名实体又同时集中了上述两种分词障碍,对其展开深入研究有重要意义。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈