随着自然语言处理技术的日益成熟,中文分词工具越来越多,常见的包括但不限于中科院计算所NLPIR、哈工大LTP、清华大学THULAC、斯坦福分词器、Han-LP分词器、jieba分词等。关于当前的分词效果,我们以SIGHAN-Bakeoff评测结果为例。
SIGHAN是国际计算语言学会中文语言处理小组(special interest group for Chinese Language Processing of the Association for Computational Linguistics)的简称。到目前为止,SIGHAN主办的国际中文语言处理竞赛SIGHAN-Bakeoff已成功举办了6届,分别在2003年、2005年、2006年、2010年、2014年和2015年,但只有Bakeoff 2005的数据和结果在其主页上完全免费公开。根据2005年Bakeoff的结果,中文分词的最好成绩为调和平均F-1值97.20%[1]。未召回或识别错误的主要是歧义切分字段和未登录词。
国际上进行过命名实体识别评测的会议或项目主要有MUC(message understanding conference)、CoNLL(conference on computational language learning)、MET(multilingual entity task)、IEER(NIST'S information extraction and entity recognition)、ACE(automatic context extraction)。这些评测会议对命名实体识别的发展有极大的推动作用。MUC是美国政府支持的一个专门致力于真实新闻文本理解的例会,从1987年到1998年共举行了7届。该会议的核心内容是负责组织对来自世界各地不同单位的消息理解系统进行系列化的评测活动。从MUC-5开始,针对命名实体识别,评测中增加了多语言部分的测试。该测试称为“multilingual entity task(MET)”,1995年举行的MUC-6首次增加了命名实体识别任务MET-1,同时增加了汉语的测试。在1998年举行最后一届MUC会议即MUC-7时,同时进行了命名实体识别任务MET-2。
由表2-1可见,英语命名实体识别效果最好(F-1值最高分别达到97.00%和94.00%),其次是日语、西班牙语。汉语命名实体识别相对落后,但基于汉语书面表达的特殊性,结果不算太差(F-1值最高分别是85.00%和91.00%)。
表2-1 MUC-6、MUC-7命名实体识别任务的最优结果(www.xing528.com)
在我国863计划智能接口与技术专题的支持下,我国在汉语的命名实体识别上也进行了三次评测,分别在1995年、1998年和2004年。前两次都是与汉语分词标注结合在一起的。1995年12月,开放测试条件下的评测结果是:分词精度最高为89.40%:交集型切分歧义处理的正确率最高为78.00%,覆盖型切分歧义处理的正确率最高为59.00%;未登录词识别的正确率,人名最高为58.00%,地名最高为65.00%(刘开瑛,1997)。1998年3月国家科学技术委员会又进行了第二次评测,结果与第一次差不多。2004年单独对命名实体进行了评测。其中包括对组织机构名称的评测。从表2-2可见,其他命名实体识别的调和平均值在82.51%以上,与20世纪90年代比有了大幅度提高,而组织机构名称识别效果最差,调和平均值仅在及格线上。
表2-2 2003、2004年863计划评测最优成绩(F-1值)
总体上,与英语等其他语言的命名实体识别效果相比,汉语命名实体识别仍然是一个极富挑战性的课题,其中又以组织机构名称的识别效果最不尽人意。所以组织机构名称识别不仅在中文命名实体识别中是最大的难点,而且在整个命名实体识别研究中也是最大的难点。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。