【摘要】:为了与基于关键字的多媒体检索相区分,本章将对文献、论文、著作、文摘等纯文字信息的检索称为纯文本信息检索。早期的文本检索研究大多是对整个文本数据库进行分析,将其划分为主题不同的子段,并用关键字进行索引,以支持全文检索。用户可以根据自身的信息需求向文本检索系统提交查询,系统则根据一定的相关性算法,在文本数据库中找出与查询条件相关的文本子集,并按照相关性大小的降序输出。
为了与基于关键字的多媒体检索相区分,本章将对文献、论文、著作、文摘等纯文字信息的检索称为纯文本信息检索。对纯文本信息的检索是人们在信息检索领域迈出的第一步。并且,纯文本检索研究中形成的一些经典算法,后来被成功地移植到了多媒体检索领域。
早期的文本检索研究大多是对整个文本数据库进行分析,将其划分为主题不同的子段,并用关键字进行索引,以支持全文检索。用户可以根据自身的信息需求向文本检索系统提交查询,系统则根据一定的相关性算法,在文本数据库中找出与查询条件相关的文本子集,并按照相关性大小的降序输出。在支持相关反馈的系统中,用户还可以在查询结果中标记相关和不相关文本,并反馈给系统,系统再根据优化算法进行求精和二次检索。
因此,纯文本信息检索的核心问题在于:如何计算数据库中存储的文档与用户提交的查询条件之间的相似度。那么,采用什么样的相似度匹配模型,对检索结果将会有较大的影响。(www.xing528.com)
自20世纪60年代以来,大量的文本检索模型被提出,布尔方法、向量空间、贝叶斯统计方法、概率模型等被引入文本检索的相似度计算中;之后,随着人工智能研究的发展,产生了用户建模、自然语言处理等技术;机器学习中的一些理论也被应用到文本检索中来,如:遗传算法、神经网络、贝叶斯推理等;到了20世纪90年代,随着网络搜索引擎技术的迅速发展,文本检索被成功应用到网络文本搜索领域,如今,Google和百度等网络文本搜索技术获得了巨大的成功,甚至融入人们的日常生活之中。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。