传统知识库资源无法达到支持机器实现类人概念化的要求,主要存在两个障碍。首先,传统知识库资源的规模和覆盖面不足。例如,知识库Freebase只包含20 000个类目(Category)[59],知识库Cyc只有120 000个类目[58]。换言之,这些知识库资源在尝试表达人类精神世界中的概念时,受限于其覆盖范围和粒度。其次,传统知识库资源大多是“确定性”的,而非“概率化”的。也就是说,通常可以在这些知识库资源中找到某个词语是否从属于某个概念,但是无法获知这个词语从属于这个概念的概率,以及对于这个词语,哪些概念是其最有可能从属的概念。
相关研究已经证明[5,17],在理解短文本(例如,理解搜索引擎中用户所提出的查询或者理解问答系统中用户所提出的问题等)方面,主要需要的是关于语言和语用的知识,或者说是词语在一种语言之中是如何彼此交互的[72],因此词汇知识库(Lexical Knowledge-Base,如Probase[7]、FrameNet[73]等)的应用价值和必要性不亚于百科知识库(Encyclopedic Knowledge-Base,如Wikipedia[57]、DBpedia[74]、Freebase[59]和YAGO[63−64]等)。百科知识库包含诸如Barack Obama(巴拉卡·奥巴马,第44任美国总统)的Birthday(出生日期)和Birthplace(出生地)等“事实性”知识,这些知识对问答系统研究中回答问题很有帮助,但无法辅助机器真正地从语言学角度理解这些词语的内涵;与之相反,词汇知识库则能够清晰地指示出Birthday(出生日期)和Birthplace(出生地)是Person(人)的属性(或特征),这便是词汇知识库为机器理解文本所提供的语言知识。因此,本书重点研究词汇语义知识库在短文本表示建模中的应用。
知识库Probase既是一个大规模词汇分类库(Taxonomy),又是一个大规模概率语义网(Semantic Network),包含了百万级别的表达世俗性事实的概念信息。此外,Probase与传统知识库相比的一个很大的区别和优势在于,它基于在大规模语料上的统计,为概念、实例、属性及它们之间的关联关系赋予概率形式的权重(即打分)。(www.xing528.com)
在自然语言处理研究领域,已有很多研究尝试使用外部知识资源中的语义信息来增强短文本语义。例如,Hu等[75]利用WordNet探讨短文本聚类类簇的类内和类间的语义关系;Banerjee等[76]利用Wikipedia实现短文本聚类;Gabrilovich等[15]采用基于Wikipedia的显式语义分析来计算短文本语义相关性等。上述基于外部知识资源的工作所面临的主要问题是受限于这些外部资源的规模及丰富程度(即对知识的覆盖率)。以知识库WordNet为例[56],WordNet不包含专有名词(Proper Noun)信息,因此词语“IBM”在WordNet中没有被收录,其在WordNet中不会被识别为一个词语等,导致无法理解词语“USA”和“IBM”。对于普通常见的词语,例如“cat”,WordNet中包含其不同释义的详细信息。但是,这些释义知识的组织多基于其语言价值,而忽略其日常使用习惯。例如,词语“cat”的个别偏僻释义(如gossip(流言蜚语)或者woman(女子)等)在实际生活中是很少遇到的。然而,WordNet并没有根据词语不同释义的日常使用情况(如使用频率)来对不同释义赋予不同权重,导致那些不常使用的释义与经常使用的释义具有相同权重,进而误导短文本理解。总而言之,对于某个词语,如果不知道其不同释义的分布,将很难构建一个推理策略来选择该词语在某个上下文语境中的恰当释义[11]。知识库Wikipedia和Freebase存在概念类目数量受限的问题,而且分类存在一定能偏差和不准确的情况[17]。更重要的是,WordNet、Wikipedia和Freebase中的类目并没有被打分或者排序,用户无法根据这些类目的重要性或者典型性对这些类目进行区分。相较而言,知识库Probase中的概念与人类常识(Common Knowledge)更加相似。例如,对于词语“cat”来说,Probase给概念GOSSIP和概念WOMAN的权重非常低,因为人们在日常使用的时候通常很少使用词语“cat”表达这些概念。此外,对于诸如“language”“Location”等词语,知识库Probase既将其视为一个概念,也将其视为一个实体,还将其视为其他概念的属性,这种设置的粒度更细、更丰富,使用时更灵活,也更符合人类逻辑和认知。因此,知识库Probase提供了很多其他知识库(WordNet、Wikipedia和Freebase等)无法提供的附加信息。为了验证各类知识库的覆盖率,Park等[77]在2011年发布的包含1.8亿个句子的English Gigaword(第5版)数据集进行统计分析。结果显示,知识库WordNet和FrameNet仅覆盖了其中约33%和约25%的实例,而知识库Probase的覆盖率高达75%(其中包含大量知识库WordNet所不包含的命名实体,如“Microsoft”“British Airways”等)。
本书认为,为了让机器以类人的方式来理解短文本,就需要使机器具备概念化知识(Conceptual Knowledge)以及概念化(Conceptualization)能力。概念信息由于能够显式地表达语义,所以对于捕获给定短文本中蕴含的真实语义具有更好的效果。因此,本书使用Probase[7]作为知识库来挖掘短文本中的潜在概念,应用于本书所研究的短文本概念化、短文本向量化和短文本检索等内容。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。