在汉语信息处理界和汉语言学界,组织机构名称往往又被称为组织机构名、机构名、机构团体名、组织团体名。虽然叫法不同,但内涵大体上一致。要名副其实,实际上可以用组织名称简称组织机构名称。但要在社会学之外保证通俗易懂,那还是采用组织机构名称更为方便。从社会学角度分析组织机构名称的学理内涵,有助于我们在语言信息处理工程上有更清晰的判断标准。
在中文信息处理中,山西大学刘开瑛教授对组织机构名称的界定得到国内很多研究者认同和引用。刘开瑛教授对“组织团体名”的界定是:“组织泛指机关、团体或其他企事业单位,包括学校、公司、医院、研究所和政府机关等。”(刘开瑛,2000)他用举例法定义了组织机构名称的外延,没有定义其内涵。2007年公布的《信息处理用现代汉语词类标记规范》将组织机构名称规定为“机构名”,标记符号为“ni”,说明文字是“表示团体、组织、机构名称的专有名词”。示例为联合国、教育部、北京大学、中国科学院。这是用举例法定义其外延。
正如黄昌宁教授所讲:“要保证分词标注质量,就要把命名实体的定义纳入分词规范。一方面,这是因为实体词的识别任务与自动分词任务,你中有我,我中有你,是不可分割的整体。另一方面是因为这些实体词大约占了文本中未登录词的三分之二,把它们定义清楚了肯定有助于进一步提高标注的一致性。”黄昌宁教授还举例说:“奥运会、宋庆龄基金会算不算机构名?这些细节如果不定义清楚,怎么能保证语料标注的一致性呢?”(黄昌宁等,2007)
所以针对分词标注组织机构名称需要有一个工程定义。有了明确的、可操作的界定,才能在此内涵和外延设定下获取语言学知识,才能在设计分词器和评估评测结果时有可操作的标准。
要明确组织机构名称的外延,需要明确其上下位概念。组织机构名称的上位概念是命名实体。组织机构名称是命名实体的重要部分。命名实体是被命名的唯一确定的最小信息单位,是文本中重要的信息元素。命名实体识别是语言信息处理中的一项基础而重要的任务,组织机构名称识别是命名实体识别的重中之重。
命名实体识别最初是1995年在MUC-6上作为新增的评测任务提出来的。命名实体识别的任务被MUC定义为识别出文本中出现的专有名称和有意义的数量短语并加以归类。命名实体由两部分组成:专有名称和有意义的数量短语。狭义的命名实体也被称为实体名,仅指专有名称,比如人、组织、地点等。它们通常用唯一的标志符(专名)表示。广义的命名实体还包括有意义的数量短语,如数字表达式(货币值、百分数、电话号码……)、时间表达式(日期、时间……)。
实际上,在以上规定的命名实体类别之外还有很多专有名称。与人名、组织机构名称相似的有民族名(如彝族)、商品名(如冰川羽绒服)、事件名(如北京2008奥运会、淮海战役)、节目名称(如《艺术人生》)、轮船名号(如泰坦尼克号)、作品名(如《红楼梦》《集结号》)等。与地址相似的有住址、网址、电子邮箱地址,与“时间表达式”相似的有朝代名(如五代十国)、节日名(“八一”建军节、春节)等都应该被纳入狭义命名实体内。而设备编号、产品型号、军事刑侦行动代号、IP地址等有意义的数字表达式都应该被纳入广义命名实体内。
然而,在实际研究中,因为具体应用需要不同,研究者往往会选择某一部分命名实体作为识别对象。所以不同的识别任务和识别系统对客观完整的命名实体的外延界定往往并不重视。这也导致了命名实体缺乏一个客观完整的分类系统。
MUC的命名实体任务主要识别人名、机构名、地名、日期、时间或百分数的字符串。ACE(automatic content extraction,自动文本抽取)主要识别人名(person)、组织机构名称(organization)、地名(location)、地理政治实体(geo-political entity)、设施名(facility)、工具(vehicle)和武器装备(weapon)。ACE的命名实体分类有其鲜明的情报服务特征[1],但ACE对命名实体和组织机构名称进行了详细的分类。
根据ACE计划的分类,组织包括政府组织(government)、商业组织(commercial)、教育组织(educational)、娱乐组织(entertainment)、非政府组织(non-governmental)、媒体组织(media)、宗教组织(religious)、医学组织(medical-science)、体育组织(sports)等。以下为ACE对各类组织机构名称的详细例示。
(1)政府组织(GOV):[中国信息产业部][中国国务院][美国军队][中国人民解放军]。
(3)教育组织(EDU):[台湾大学][国防科技大学][北京大学][中国经济研究中心]。
(4)娱乐组织(ENT):[中北英皇][环球唱片有限公司][中国东方歌舞团]。(www.xing528.com)
(5)非政府组织(NonGOV)。
①(Para)Military Organizations:[尼泊尔游击队][联合国维和部队]。
②Political Parties:[共产党][国民党][新党][民进党]。
③Political Advocacy Groups and Think Tanks:[卡托研究所][东方人文思想研究所][中国民间保钓联合会]。
④Professional Regulatory and Advocacy Groups:[美国律师协会][中国作家协会][美国语言协会]。
⑤Charitable Organizations:[红十字会][中国慈善基金协会][宋庆龄儿童发展基金]。
⑥International Regulatory and Political Bodies:[联合国][北约组织][世界卫生组织][泛美健康组织]。
(6)媒体组织(MED):[人民日报][新华社][美国之音][中国地产杂志社][中国新闻社][中国建筑工业出版社]。
(7)宗教组织(REL):[罗马教廷][中国基督教协会][中国天主教爱国会][中国道教学院][中国基督教“三自”爱国运动委员会]。
(8)医学组织(SCI):[[上海中科院]神经所][上海中国遗传医学研究中心][德国分子医学研究中心][国内首家纳米技术生物医学实验室]。
(9)体育组织(SPO):[费城76人队][中国队][中国奥林匹克委员会][中华全国体育总会][中国残疾人体育协会][中国羽毛球协会][武汉红金龙]。
ACE的分类体系着眼于信息抽取和分析过程中特定的研究目标,而不是面向命名实体识别的一般分类。所以,我们在为中文信息处理的组织机构名称设计其分类体系时,还需要结合实际需求。在ACE分类中,娱乐组织(entertainment)是商业组织(commercial)的下位概念。ACE并没有列出科研组织(science),却单独列出医学组织(medical-science)。然而,医学组织(medical-science)是科研组织(science)的下位概念。现实中,科研组织的上级组织有时是教育组织,有时是科研组织,有时甚至是企业或政府部门。ACE将“[北京大学][中国经济研究中心]”划归教育组织,将[[上海中科院]神经所]划归医学科研组织,这种分类也是有待商榷的。因为,我国的国家行业分类标准明确指出,一个组织机构的下属组织机构的行业类别应单独划分[2]。
组织机构名称识别的分类体系是面向真实文本的信息抽取的,因此我们的设想是,从真实文本中得到组织机构名称的分布信息,如获取语料库中全部的组织机构名称的中心词,通过自下而上语义聚类的方式,将不同类型的中心词聚合到一起,形成一类组织机构名称,最后获得组织机构名称的分类体系。这样的组织机构名称分类体系是形式化的,也是基于真实文本的,可能无法囊括和精确反映社会生活中的整个组织类别,但这种分类方式是比较合适组织机构名称识别和信息抽取的。通过这一分类体系,我们可以对组织机构名称的外延有较为清晰的了解。本书8.7节将重点介绍这一分类体系。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。