首页 理论教育 主动学习策略:挖掘未标注数据中的语义信息

主动学习策略:挖掘未标注数据中的语义信息

时间:2023-07-02 理论教育 版权反馈
【摘要】:上面的章节介绍了如何采用跨语言检索的类似方法,对不同类型的多媒体数据进行处理,从而支持跨媒体相关性度量。因此,当整个数据集较大、而标注样本数目较少时,被动学习方法难以准确地理解全局范围内的跨媒体语义关系。本节将介绍几种主动学习策略,在相关反馈过程中“有意图”地选取最具价值的未标注样本以挖掘其中的语义信息,而不是被动地学习用户的标注样本。

主动学习策略:挖掘未标注数据中的语义信息

上面的章节介绍了如何采用跨语言检索的类似方法,对不同类型的多媒体数据进行处理,从而支持跨媒体相关性度量。然而,由于多媒体数据并不像语言文字那样,包含直接的语义信息,因此,如果直接使用跨语言检索中用到的隐性语义索引方法,得到的跨媒体检索性能将会比较有限。

为了解决这个问题,可以采用相关反馈策略,前面章节已经做过相关介绍。考虑到在收集多媒体数据时,往往未标记样本比标记样本的收集要容易很多,这一节中将介绍基于主动学习的相关反馈方法。主动学习是机器学习和计算机视觉领域的常用方法和技术,在标记样本数量有限的情况下,通过利用未标记样本,增强系统的泛化能力,提高学习器的性能,在多媒体检索、数据分类等方面有着一定的应用。

在本书第三部分前面的章节中,已经讨论过一些相关反馈算法,这些都是根据有限的标注样本(即反馈正例和负例),被动地学习其潜在的语义信息,以修正整个数据集的相关性排序值,而不具备主动地挑选最具情报性的(Most Informative)的样本进行学习的能力。(www.xing528.com)

因此,当整个数据集较大、而标注样本数目较少时,被动学习方法难以准确地理解全局范围内的跨媒体语义关系。本节将介绍几种主动学习策略,在相关反馈过程中“有意图”地选取最具价值的未标注样本以挖掘其中的语义信息,而不是被动地学习用户的标注样本。

本节首先对主动学习的相关概念进行基础性的介绍,然后分三个主要步骤,详细描述如何将主动学习应用到跨媒体检索的相关反馈过程中。需要说明的是,这只是在相关反馈中使用主动学习的一种可选方法,读者可以结合具体的检索算法设计主动学习规则和步骤。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈