首页 理论教育 跨语言检索技巧与方法优化

跨语言检索技巧与方法优化

时间:2023-07-02 理论教育 版权反馈
【摘要】:图7-1基于LSI方法的跨语言检索示意图进一步地,不同语种的文档经过隐性语义索引之后,可以得到一个统一的索引表达方式,当用户提交查询请求时,搜索引擎计算查询所含有的词汇与数据库中文档词汇的关联权值,进行排序后返回最符合查询要求的文档。所以,LSI方法在实现跨语言检索时,不要求严格匹配,而只需在概念上进行匹配即可。跨语言检索的基本思想被成功移植到多媒体检索领域。

跨语言检索技巧与方法优化

如果将不同语种的语言看成不同类型的多媒体数据,则跨语言检索可以作为一种特殊的跨媒体检索研究。跨语言检索通常采用线性降维的方法,监督式地学习不同语言(如英语德语)的训练样本集,计算样本间的统计关系,然后将训练集中所有的词汇和文档全部投影到一个子空间之中,根据子空间中文档和词汇的坐标进行距离计算,从而实现不同语言间的跨语言检索。跨语言检索与跨媒体检索有共同之处,就是不同语种的语言在特征属性上存在异构性,无法直接根据不同语言文档的文本特征进行相似度匹配。

隐性语义索引(Latent Semantic Index,LSI)是一种传统的跨语言检索算法。不同语言的文档,以及文档中的常用词汇经过LSI方法处理后,全部被映射到一个子空间中,如图7-1所示,是LSI方法的一个示意图

图7-1 基于LSI方法的跨语言检索示意图(www.xing528.com)

进一步地,不同语种的文档经过隐性语义索引之后,可以得到一个统一的索引表达方式,当用户提交查询请求时,搜索引擎计算查询所含有的词汇与数据库中文档词汇的关联权值,进行排序后返回最符合查询要求的文档。即使查询条件和数据库文档不含有共同的关键词,只要两个文档之间在语义上接近或者相关,LSI方法也能检索出来。所以,LSI方法在实现跨语言检索时,不要求严格匹配,而只需在概念上进行匹配即可。

举例而言,数据库中有“汽车”相关的文档,采用LSI方法进行文档处理时,就会将“汽车”这一语义概念经常涉及的“换挡”、“制动”和“油门”等词汇进行关联,赋予这些词汇较大的关联度。因此,当用户查询“换挡”的时候,搜索引擎不但可以返回一组包含“换挡”这个词汇的文档,还可以把虽然不含“换挡”,但含有“油门”的文档也返回给用户。

跨语言检索的基本思想被成功移植到多媒体检索领域。例如:在视频内容的检索方面,可以将跨语言检索中的文档-词汇共生矩阵分析法,用于视频新闻中转录文本和互联网页面中的文字进行关联度分析,实现视频内容和互联网页面在文本特征上的相似度匹配。在图像检索方面,一些研究者受跨语言检索的启发,训练关联模型对图像进行语义标注,实现文本-图像的检索。此外,图像语义标注和机器翻译都可以看成跨媒体检索的特例,因为这些研究学习了不同类型的多媒体数据共同出现的概率,并根据概率大小排列检索结果,实现用文本检索图像。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈