语言学资源的质量对跨语言信息检索系统的性能至关重要。这里我们主要讨论社会化媒体在双语语料库、多语言词典、多语言本体和多语言大众分类系统等构建方面的应用。
1.在构建双语平行语料库方面的应用
大规模的多语言语料库是研究CLIR和机器翻译系统的基础,正所谓“More data are better Data”。大规模双语平行或可比较语料库是构建高质量统计机器翻译系统的重要基础资源。[3]
美国马里兰大学Resnik作为早期的研究者,将互联网视为挖掘平行语料库的巨大资源,他们开发的STRAND(Structural Translation Recognition for Acquiring Natural Data)系统对基于Web的平行语料挖掘影响巨大。[4]作为社会化媒体最成功的典范之一,维基百科收录的语言种类和词条数量日益增多,截至2015年11月的统计,共收录285种语言编辑的3 700余万词条,注册用户超过5 900万,总编辑次数突破21亿。维基百科中存在大量的双语料资源,鉴于维基百科的特殊结构和链接关系,众多学者基本上将其定位为一个巨大的可比语料库(Comparable Corpus),特别适合平行语料库(Parallel Corpus)的自动构建和挖掘。
Smith等人通过文献对齐的方式从维基百科中挖掘平行句子来构建平行语料库,并对英语、德语、比利时语和西班牙语进行测试,准确度和效率均有大幅提升,显示了维基百科作为可比语料的巨大潜力。[5]Hoang采用基于引导的方法(bootstrapping based method)来计算双语句子的相似性,从维基百科中抽取平行句子,提高了机器翻译系统的准确度,并在英语和越南语翻译的试验中得到证明。[6]Zamani运用局部和全局信息抽取平行句子,利用最大熵二元分类器(Maximum Entropy binary classifier)计算平行句子的相似性(局部信息),然后利用整数线性规划(integer linear programming)根据句子在文献或网页中位置对结果进行优化和反馈(全局信息),实验证明该方法抽取的平行句子准确度高,在机器翻译和跨语言信息检索中取得了很好的效果,且该方法可适用于多种语言。[7]
2.构建多语词典
多语言词典的缺乏、同义词和多义词的消歧对跨语言信息检索的准确性意义重大。如何快速地自动构建这些资源一直是学者们努力的方面。Calzolari提出了语言学资源构建的5个基本原则:互操作性;合作建设(维基模式);资源共享;自动构建和更新;分布式结构。即基于开放内容互操作标准,建设一种分布式语言资源和服务,使用户可以通过网络自由存取。[8]
在社会化媒体快速发展的今天,人们把互联网和社会化网络视作一个巨大的多语言语料库,自动构建各种多语词典。如维基百科内容丰富,通过维基间的链接(interw iki links)将不同语言表示的同一内容连接在一起,用来自动构建双语或多语词典;通过重定向页面(redirect pages)来识别某概念的不同名称,从而构建某一种语言的同义词词典;维基百科的词义消歧页面(disambiguation pages)代表一个概念或术语的不同含义,以方便用户选择,通过这一功能可以构建多义词词典。这三个方面的词典结合在一起就可以实现跨语言信息检索的查询翻译、词义消歧和查询扩展。[9]Ye等人提出一种自动构建跨语言联合词典(CLAD,cross language association dictionary)方法,主要利用维基百科中的概念链(concept link)和多语言链(multilingual link),该方法的有效性在TREC和NTCIR试验中得到了验证。[10]
3.创建多语言大众分类系统(www.xing528.com)
社会化标签(social tagging)也称为合作化标签,是用户为自己的文章、图片、音频、视频等一系列文件定义的一个或多个描述(关键词)。不同的用户创建的标签系统共同构成了一个轻量级的概念结构,被称为大众分类法(folksonomy),与传统分类法不同的是,大众分类法没有清楚的定义和相互之间的等级关系。随着社会化媒体和网络的发展,用户不再是被动的信息使用者,而变成了信息的创建者和组织者,在多元文化和多语言环境下,大众分类系统特别适合用来实践跨语言信息检索。
关于大众分类法在信息标引与分类以及在跨语言信息检索中的应用,许多学者做了大量的研究,其应用可以概括为以下几个方面:(1)建立标签匹配和分类系统。在社会化媒体中标签代表了用户语义,Overell(2009)利用维基百科和开放目录中的结构模式对社会化标签进行自动关联和分类,如首先将维基百科中的文章进行分类,然后将Flickr标签与维基百科中的文章进行关联,这样Flickr标签就有了相同的分类。Sigurbjornsson(2008)尝试将Flickr标签与WordNet建立连接,并且发现51.8%的Flickr标签可通过这种匹配获得语义类别。Jason(2011)通过用户和词汇的共现技术(co-occurrence)发现多语言标签之间的关系,组织多语言标签词对,从而自动构建多语言大众分类系统,即使是词典中没有出现的新词也能通过这种方式进行有效匹配。[11](2)实现基于标签的跨语言信息检索。目前更多的是实现多媒体信息的检索,Melenhorst(2008)和Huang(2010)分别研究了基于标签的视频和音乐检索,Jason(2011)则更进一步,通过多语言大众分类系统实现查询翻译的转换,实现跨语言信息检索。(3)支持基于社区的社会化合作。标签表达了用户的价值判断并与其他用户分享,多语言大众分类系统的构建也需要多语言用户的广泛合作,目前研究人员更多的是从图片分享网站Flickr和社会化书签分享网站Del.icio.us获取多语言大众分类资源,正是由于这两个网站跨语言用户多并且用户活跃度高。大众分类系统本质上是集体智慧的一种应用,未来在合作式信息检索与标引以及分类系统的自动构建方面将会发挥越来越大的作用。
4.在构建多语言本体方面的应用
“消除机器翻译的歧义性”,始终是制约跨语言信息检索发展的难题。[12]20世纪90年代初,在研究语言信息工程领域中,提出一种建立语义知识库的革命性方法,即提出一种构建本体(Ontologies)和本体工程(Ontology engineering)的思想。单语言本体主要采用一种语言描述;多语言本体(Multilingual Ontologies)是本体在不同语种中的具体表示形式,类似于不同语言的语义词典,并在同一概念上实现了跨语言间的链接和标注,是实现跨语言信息检索的一个重要工具,在跨语言信息检索、词义消歧、机器翻译、信息提取、概念检索等方面有重要应用。[13]
目前构建多语言本体仍是一个非常具有挑战性的工作,从构建方法上可以分为自动构建和手工构建,从内容上可以分为通用本体和领域本体。维基百科因具有语言间链结构和丰富的多语言文献资源,其在自动构建多语言本体方面具有天然优势。目前有几个多语言本体项目就是通过自动挖掘和抽取维基百科建立的,如Cyc(http://www.cyc.com/),Dbpedia(http://w iki.dbpedia.org/),YAGO(https://datahub.io/dataset/yago)和BabelNet(http://babelnet.org/)。YAGO首先利用维基百科中的信息框、分类、特色条目星标、跨维基链接和重定向等重要信息挖掘语义关系,然后从地名数据库GeoNames获取多语言地名信息,再与英语本体WordNet中的概念间关系(如同义词、上下位关系等)建立链接来构筑多语言本体。BabelNet则更进一步,通过自动集成WordNet、W ikipedia、W ikidata等现有的十几种多语言本体资源来建设,目前已经涵盖了271种语言,并为用户提供基于SPARQL和关联数据标准的查询界面。[14]
此外,社会化网络也是一个巨大的多语言合作网络,人们愿意贡献自己的才智和内容,来建设一个全球性的多语言词典,像维基百科和其他社会化媒体一样。目前有三个全球性项目正在进行中,他们的共同特点都是采用合作建设模式,即每个用户都可以添加、编辑和存取词汇。①W iktionary,也称为维基词典,是维基百科的姊妹工程,2002年12月正式上线,维基词典的目的是通过志愿者相互协作创建的方式,建立一个全球性多语言词典。用户在编辑词汇的时候要遵循事先定义好的模板,语言间链接(smart kinks)也需要用户来定义。截止到2015年8月,共有172种语言1 500万个词汇。②OmegaW iki起步于2004年,其与维基词典的不同之处是在用户的编辑页面嵌入“Babel template”,以便系统自动识别用户熟悉的语言。此外,OmegaW iki的编辑不是基于词汇而是基于定义好的概念(concept of defined meaning),概念由相应的定义和表示组成。截至目前,该词典包含483种语言和48 865个概念以及510 931个表达,并与维基百科和维基知识库(W ikidata)建立了相应的链接和关联。③Global WordNet Grid,也称为全球词网网格,该项目是2006年在韩国举行的第三届全球词网协会会议上提出的,该项目与欧洲词网(EuroWordNet)一样,均起步于普林斯顿大学开发的WordNet,目前全球约存在60种不同语言的词网,全球词网网格期望将它们连接起来,形成一个免费的全球性多语言词网。但区别是GlobalWordNet Grid使用独立于语言的形式本体作为其语言间索引(Interlingual Index,ILI),同时采用SUMO(Suggested Upper Merged Ontology)和知识交换格式(Know ledge Interchange Format,KIF)等标准,在为概念增加新的实体和关系时更加清晰和准确。[15]
此外,构建多语言领域本体也是众多学者研究的热点。基于维基百科构建领域本体的大体流程是:(1)从维基百科网站下载相关领域数据到本地,并入库本地数据库。进行有效子分类提取,作为本体中类的概念集,设定“领域关键词”作为顶层分类。(2)确定本体构建规模,设定本体树形结构层数最大值,进行有效条目提取,作为实例集。(3)将关系表、类的概念集以及实例集按照映射表映射为OWL语言,形成本体的形式化表示,本体构建成功。[16]Carcia等人提出一种通过大众分类法和关联数据云(Linked Open Data cloud)自动构建领域本体的方法,该方法首先从书签分享网站Delicious提取术语,并与外部关联数据云中已经存在的概念和词的等级关系进行关联,有效地建立了一个金融领域的本体。[17]
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。