Harris[18]在1954年提出分布假说(Distributional Hypothesis):上下文相似的词,其语义也相似。基于分布假说的文本表示方法旨在用上下文描述语义,也被称为分布表示(Distributional Representation),用于描述上下文语境的概率分布。分布假说为词语的分布表示提供了理论基础。在分布假说中,需要关注的对象有两个——词语、上下文语境,其中最关键的是上下文语境的表示。Firth[19]在1957年对分布假说进一步阐述和明确:词语的语义由其上下文决定。20世纪90年代初期,统计方法在自然语言处理中逐渐成为主流,分布假说也再次被人关注。Schütze[20]总结并完善了利用上下文分布表示词义的方法,并将这种表示用于词义消歧等任务,这类方法在当时被称为词空间模型(Word Space Model)。2006年以后,随着计算机硬件性能的提升以及优化算法的突破,神经网络模型逐渐在多个领域发挥出自己的优势。使用神经网络构造词表示的方法可以更灵活地对上下文进行建模,这类方法逐渐成为基于分布假说的词语分布表示的主流方法。
对文本分类、信息检索等实际需求而言,仅使用词级别的语义分布表示不足以有效完成这些任务,还需要通过模型来得到多粒度(如句子级别、段落级别、篇章级别等)文本的语义表示。虽然分布假说最初是针对词义的假说,而且由于文档的多样性,直接使用分布假说构建文档的语义向量表示时会遇到严重的数据稀疏问题,但是分布假说极大地启发了文本语义表示学习。众多研究探索在建模多粒度文本语义的时候重点考虑通过上下文语境来获取语义。一个直观的思路:通过不同类型的语义组合方式来将词语的分布表示合成文本(句子或文档等)的分布表示,进而将词语级别的语义组合到句子(或文档)级别的语义,如目前主流的神经网络语义组合方法。此外,也有研究依托分布假说来探索端到端建模文本语义,这种研究思路旨在直接建模多粒度文本的分布表示。因此,分布假说是本书相关研究内容的理论基础。(www.xing528.com)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。