一个好的组织机构名称识别模块,除了要应用成熟的统计技术、深度学习技术,还离不开必要的语言资源的支持,包括词表和语料库。一方面,各种语言资源为开采分词系统所需要的各类知识提供了丰富的“矿藏”。如一个常用组织机构名称表的简单匹配可以解决分词语料中的大部分组织机构名称识别问题,一个组织机构名称禁用词表可以避免一部分组织机构名称的识别错误,组织机构名称识别所需的全局统计量需要一个好的训练语料库等。另一方面,熟语料库又可作为测试材料对组织机构名称识别模块的性能进行定量评估。因此,“语言资源的构造同样是机构名识别研究不可或缺的一环”。(宋柔,2001)
下面我们讨论命名实体识别的基本模式。中文命名实体识别的基本过程有两个:①在分词阶段,与分词任务同时进行,标注出词表中收集的命名实体。②在此基础上,调用命名实体识别模型,对文中的所有命名实体进行识别。(杨尔弘,2005)
在识别模型设计时,遵从三个原则:①利用上下文信息和实体本身的信息;②利用词语和词类的信息;③合理使用先验知识。(杨尔弘,2005)
上下文信息指实体所在的上下文对实体起约束作用的信息,实体本身的信息是实体的构成信息。通过对已有资源的统计、计算,获得关于一个命名实体的特征集合,以此构造命名实体识别模型。从图2-1可见,命名实体识别模型需要三个知识库的支撑:命名实体库,实体边界信息,训练语料库。这三个知识库都是资源。命名实体库中收录使用度高的命名实体。实体边界信息库收录对识别有用的关于实体本身和实体左右边界特征的信息,如用词、用字、规则等。训练语料库则是前两个库的语料基础,是命名实体识别模型训练的基础。面向识别的资源建设不外乎这三个方面。
图2-1 命名实体识别模型(杨尔弘,2005)
自然语言处理已经有60多年的历史。前30年,主要应用目标是翻译和理解,而主要方法则是人将自己关于语言的知识写成规则,然后让计算机通过规则的编译执行或解释执行来处理语言。这一阶段产生一批实验室的成果,而实用性的成果很少。后30年,由于计算机存储容量和运算速度以指数量级增大,统计方法日益增多,语言处理的应用目标大大扩展,音字转换、文本分类、信息检索、信息抽取、自动文摘、自动文本校对等应用技术主要使用统计方法和深度学习达到或接近实用水平。(www.xing528.com)
自然语言处理的这种发展形势给一些人造成一种错觉,似乎只要学会统计模型和深度学习算法,就能解决自然语言处理中的种种难题。实际上,既然是处理自然语言,就得用人机结合的办法。而其中使用这种自然语言的人应该是主导,我们根据真实分布构造的数据样本集和基于此得到的语言规则知识是扎根真相(ground truth)。使用语言并掌握语言知识的人必须扎根真相,选择适当的计算模型和特征。所以“语言知识在自然语言处理中应处于基础性地位”。(宋柔,2007)
“语言学在语言信息处理中作用很大,计算语言学正在以一种迫切、坦诚的心情张开双臂期待着与语言学的拥抱。反过来,语言计算的性质(系统必须覆盖拟处理的一切语言现象)也会促使语言学更多地以全面、系统的观点解释、分析语言,从中升华出来的理论可能更贴近语言的真实面貌,更经得起推敲。”(宋柔,2007)
遗憾的是,目前中文信息处理界和语言学界在这方面的工作结合得还不够紧密。以组织机构名称识别为例,语言学界对组织机构名称的研究和关注远不能解决组织机构名称识别问题。而以往识别研究者大多是技术研究人员,主要立足于技术层面,即便运用了规则,也往往是通过统计或机器学习的方法获得的,不加甄别地直接应用。很少有语言学专业研究者有机会或有意识投入组织机构名称识别本体研究中去。这样一来,两个学科的研究实力和成果无法得到整合,组织机构名称识别研究人员之间的资源也得不到整合。另外,尽管以往的研究者也建设了不少资源,但总体上规模小、数据稀疏、内容主题面窄、数据陈旧。
总而言之,组织机构名称识别任务面临的最大困难是缺乏组织机构名称识别有效资源和本体研究。正如清华大学孙茂松教授所提到的,“除了要应用成熟的技术,还要应用相关的语言知识。要继续提高组织机构名称识别精度,我们要使已有的组织机构名称识别机制更加精细化,研究各种组织机构名称与其他实体名称之间的冲突处理机制”。(孙茂松、邹嘉彦,2001)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。