615681个组织机构名称识别结果中字符使用的分布见表7-1。
表7-1 组织机构名称识别结果中字符使用的分布
① 这里的字符总数未将组织机构名称频次计算在内。如,共出现39种标点符号,它们在不同组织机构名称中共出现59774次。表7-2的词语总数统计方法类似于此。
② 本文判定字符是否为通用汉字依据的是《现代汉语通用字表》。
我们发现了明显不能出现在组织机构名称形式中的大量符号。在组织机构名称识别结果中出现这些字符的主要原因如下。
(1)不同的报纸媒体因使用不同的排版系统,在进行格式转换时产生的错误。
(2)网页下载时网页图片符号未整理干净。(www.xing528.com)
(3)字符错位。
(4)误录。如作为组织机构名称成分的人名、地名中误录了繁体字、异体字、古汉字、旧剂量单位用字、旧印刷字体、不合现行规范的类推简化字、别字等。如“糸(mi4)”是“系”的误写,“口wei2”是“口”的误写,“尢”是“尤”的误写。分析起来,这种现象的出现也与汉字输入法提示备选框中各种字形并存有关。所以汉语输入法的规范也是值得注意的问题。
(5)语言命名、使用不规范。在应使用通用文字的地方故意使用繁体字,如“《壹本万利》杂志社”、“七三一部隊”等。
(6)地名用字中的方言字。某些地名用字,如“垴砬”在某一地方通行。这类方言字的使用情况又有两种:①方言字使用是正确的,表示的确实是地名或方言事物;②因前五种原因产生,但恰好本身是方言字。
由此可见,语言使用的不规范化、排版系统的不完全兼容、文本处理不干净等都将给组织机构名称识别带来干扰。而组织机构名称识别结果中这些不应出现的字符,也从反面反映了当前的组织机构名称识别此系统对字符级别的问题没有进行处理。出现了这样一些字符,在组织机构名称识别中就不应将其作为组织机构名称的一部分。而这一点,对于识别系统来说,是容易做到的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。