首页 理论教育 短文本表示建模及应用的未来研究方向展望

短文本表示建模及应用的未来研究方向展望

时间:2023-11-18 理论教育 版权反馈
【摘要】:下一步可以重点开展工作的研究方向归纳如下。由此可以引申出另一个重要研究方向:文本和知识的联合表示学习。此类问题是自然语言处理与人工智能等研究领域当前面临的通病,但近年来众多大规模高质量结构化知识图谱资源的出现,为解决该问题指引了方向。

短文本表示建模及应用的未来研究方向展望

本书在短文本显式表示建模方向和短文本隐式表示建模方向上进行了深入研究,并探讨了基于上述研究成果的短文本检索应用,体现出一定的基础研究效果和应用效果。面对网络空间日新月异的变化及技术的快速更新,新的应用场景和业务需求不断涌现,短文本表示建模的研究价值在不断扩大、应用领域在不断延伸,还有诸多值得继续深入研究的方向。下一步可以重点开展工作的研究方向归纳如下。

1.显式知识和隐式知识相互促进,文本和知识的联合表示学习

正如本书所论述,机器可以获取的知识包含显式知识(如实体类型、概念等)和隐式知识(如基于统计训练得到的向量化表示),未来研究工作应着重探索二者互相补充、互相促进,以完善对短文本语义内涵的表示建模方式[308]。一方面,显式知识可以用于完善隐式向量,即语义空间中的向量应以某种方式反映知识库中实体(或词语)之间的关联关系[309]。另一方面,隐式向量有助于提高概念化准确率,例如,将知识库中的实体、概念以及给定文本中的语境词语映射到统一的向量空间,对于某一实体,其语境词语和概念的语义相关性可以很容易地使用余弦距离来度量[310]。由此可以引申出另一个重要研究方向:文本和知识的联合表示学习。目前,该研究旨在克服目前知识向量化表示和文本向量化表示分离的缺陷,研究文本和知识在统一向量空间的联合表示学习模型,完成对实体、关系和词语等的协同向量化表示,以充分利用高质量知识库知识资源和大规模语料库统计信息各自的优势[311−313]。该研究目前比较典型的应用有知识库完善(Knowledge-Base Completion),因为人工构建的知识库规模有限、覆盖面有限,而网络环境中海量信息资源却可以提供更多、更新的知识,来完善知识库。

2.综合利用多源异构知识库资源,促进对短文本的更深入理解

现有知识库资源可以分为百科知识库[57,59,74]和词汇知识库[7,73]两类。在理解短文本(例如,理解搜索引擎中用户所提出的查询或者理解问答系统中用户所提出的问题等)方面,我们主要需要的是关于语言和语用的知识[72],或者说词语在一种语言之中是如何彼此交互的[5,17],而现有百科知识库资源无法达到支持机器实现类人概念化的要求,所以本书着重探究使用词汇知识库促进短文本显式表示建模和隐式表示建模,并选用目前规模最大、质量最高的词汇知识库——Probase。由于不同类型知识库的侧重点不同、互补性强,因此如果能够实现对多源异构知识库的协同使用,那么将对丰富短文本的外延知识从而深入理解短文本起到进一步的促进作用。在研究综合利用各类多源异构知识库资源的过程中,需要解决的主要问题包括不同知识库资源知识的统一表示、重复及冲突知识的消解与归一等[314]

3.基于预训练的短文本显式表示建模和隐式表示建模(www.xing528.com)

语言模型预训练已被证实可有效提高许多自然语言处理任务效率以及实际处理效果,已被应用于自然语言处理的众多任务并取得突破性效果。例如,ELMo模型沿不同维度推广了传统词语的词向量研究,并提出从语言模型中提取上下文相关特征;GPT模型通过引入Transformer增强了上下文相关的词向量表达。类似传统的静态词向量模型,无监督的预训练模型也基于大型文本语料库进行训练。例如,基础的 BERT 模型旨在通过共同在所有层的上下文中进行预处理,从未标记的文本中预先训练深层双向表示形式,达到提升处理效率的目的。因此,将大规模预训练语言模型引入短文本来显式表示建模和隐式表示建模过程,成为未来值得探索而且可行性很高的策略。此外,传统预训练模型往往本身仅使用了扁平化的语言信息(如维基百科文档等),而忽略了经验证的外部高质量百科类知识和词汇语义知识对于处理能力有效提升的效能。因此,研究引入外部结构化知识是否对无监督的预训练模型产生实质性的改进,同时利用外部百科类知识和词汇语义知识以及相关信息来增强传统的预训练模型的表示能力,已成为当前研究热点

4.对长篇幅文本的显式表示建模和隐式表示建模

本书的研究重点是面向短文本的“理解”,包括短文本显式表示建模和短文本隐式表示建模,分别从概念化和向量化角度探索对短文本的表示建模方式。但是本书所讨论的方法具备一定通用性和可扩展性,也可以扩展并应用于对篇幅更长的文本(如段落、篇章等)的表示建模,而长篇幅文本的表示建模有着广阔的应用场景,如自动文摘、Web检索等。在研究长篇幅文本的表示建模时,所处理对象的粒度不再局限于词语或句子,而是可能涵盖段落和篇章等不同层次的粒度,因此如何有效利用多粒度语义信息来实现长篇幅文本显式表示建模和隐式表示建模、如何对细粒度语义信息(如词语和句子等)之间的关联关系和文本蕴含关系建模,是未来的重要研究方向之一。

5.结构化知识驱动的可解释性短文本表示建模及相关应用

深度神经网络模型驱动的深度学习框架是当前短文本概念化表示建模、向量化表示建模算法以及短文本检索应用算法的主流框架。然而,深度学习的“黑盒”性质导致短文表示建模及相关应用衍生的结果虽然具备对于机器的“可计算性”,但是严重缺乏对于人类和机器的“可解释性”(Explainability)。例如,中间过程或者最终所生成的短文本向量的每一维的含义往往不可解释。此类问题是自然语言处理与人工智能等研究领域当前面临的通病,但近年来众多大规模高质量结构化知识图谱资源的出现,为解决该问题指引了方向。因此,引入额外结构化知识资源(包括百科类知识资源、词汇语义知识资源以及常识类知识资源等)来提高短文本表示建模及相关应用结果的可解释性,已成为当前研究热点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈