首页 理论教育 信息检索的基本介绍及深度学习应用

信息检索的基本介绍及深度学习应用

时间:2023-06-22 理论教育 版权反馈
【摘要】:我们把信息需求的正规描述称为查询,就像搜索引擎中的搜索字串。在信息检索中,一次查询并不是匹配到集合中的单一文档,而是根据不同的相关度匹配到许多文档。文档本身并不直接保存在信息检索系统中,它们通常在系统中用元数据的形式表示。关于信息检索方面的深度学习应用大多是最近才提出的,基于目前的文献,这些方法大多是基于特征的。

信息检索的基本介绍及深度学习应用

信息检索(Information Retrieval,IR)是指用户向包含了很多文档的计算机系统输入一条查询(query),系统返回相关文档的集合。我们把信息需求的正规描述称为查询,就像搜索引擎中的搜索字串。在信息检索中,一次查询并不是匹配到集合中的单一文档,而是根据不同的相关度匹配到许多文档。

一个文档,有时称之为对象,不仅包括了文本文档,还包括图片、音频(音乐或语音)或者视频。文档是包含了信息的实体,并作为数据库中的一个实体。在本章中,我们将对象限制为文本文档。用户查询与储存在数据库中的文档进行匹配。文档本身并不直接保存在信息检索系统中,它们通常在系统中用元数据(metadata)的形式表示。典型的信息检索系统计算每个文档对查询匹配程度的分数,然后根据分数进行排序,排名靠前的文档会展示给用户。如果用户想要修订查询,上述这个过程会迭代下去。

文献[236]所述,通常的信息检索方法可以作以下分类:

(1)布尔检索:一个文档是否匹配一个查询。

(2)代数方法检索:用模型把文档和查询表示为向量、矩阵元组。查询向量和文档向量的相似度可以表示为一个标量。对于一个查询,根据相似度产生一个排序的文档列表。常用的模型和方法包括:向量空间模型(vector space model),基于主题的向量空间模型(topic-based vector space model),扩展的布尔模型(extended boolean model)和潜在语义分析(latent semantic analysis)。(www.xing528.com)

(3)概率方法检索:将信息检索过程看作是一种概率推测。文档与给定查询之间的相似度通过概率来表示,然后用此概率值来对文档进行排序。常用的模型和方法包括:二进制独立模型(binary independence model),采用BM25相关函数的概率相关模型,具有不确定性和概率的语言模型推理方法(ht-tp://en.wikipedia.org/wiki/Uncertain_inference)和潜在狄利克雷分配(latent Dirichlet allocation)。

(4)基于特征方法检索:在这类方法中,文档可以看作特征函数值的向量。使用“学习排序”(learning to rank)的方法,通过组合这些特征得到一个相关性分数,特征函数可以是文档和查询的任意函数,因此可以容易地将基于特征的方法和几乎任何其他检索模型结合起来,它不过被当成了另外一种特征。

关于信息检索方面的深度学习应用大多是最近才提出的,基于目前的文献,这些方法大多是基于特征的。深度网络主要用来为后续文档排序阶段提供语义特征。我们将会在这一章的剩余部分里回顾最近文献中的几个研究工作。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈