首页 理论教育 主动学习:什么是主动学习?

主动学习:什么是主动学习?

时间:2023-07-02 理论教育 版权反馈
【摘要】:在机器学习领域,数据可以划分为标记样本和未标记样本,所谓“标记”是指样本所对应的输出,如:在分类问题中就是指样本所属的类别。因此,在标记样本有限的情况下,如何利用未标记样本来改善整个学习系统的性能,已经成为机器学习和多媒体检索领域的热门话题。目前,利用未标记样本进行学习的主流技术主要包括三类:主动学习、半监督式学习、直推学习。

主动学习:什么是主动学习?

在机器学习领域,数据可以划分为标记样本和未标记样本,所谓“标记(Label)”是指样本所对应的输出,如:在分类问题中就是指样本所属的类别。随着网络和数据采集技术的飞速发展,越来越多的未标记样本唾手可得,然而,要获得大量标记样本还是比较困难,主要是因为人工标注费时费力,机器标注又存在准确性较低的缺点。

如果只使用少量的标记样本进行学习和训练,这样得到的学习系统往往难以具有较强的泛化能力。因此,在标记样本有限的情况下,如何利用未标记样本来改善整个学习系统的性能,已经成为机器学习和多媒体检索领域的热门话题。目前,利用未标记样本进行学习的主流技术主要包括三类:主动学习、半监督式学习、直推学习。

(1)主动学习方法假设学习器对系统的状态就有一定的“控制能力”,可以主动地按照规则选择一些未标记的样本,并通过用户交互或者是能够为样本提供真实标记的其他过程,得到这些样本的标记,然后再将这些有标记的样本作为训练集的一部分,融入到系统的学习器中进行监督式学习。

(2)半监督式学习方法利用未标记样本进行学习,不需要人工干预。(www.xing528.com)

(3)相似地,直推式学习也是学习器自行利用未标记样本进行学习,不同地是,直推式学习中未标记样本被假定为测试样本,也就是说,学习的目的是在这些未标记的测试样本集上取得最佳的泛化能力。

总之,从研究对象上来看,半监督式学习需要处理的是一个开放集,在学习过程中没有事先给定测试集,测试集是未知和不确定的;而直推式学习处理的是一个封闭世界,即:学习过程中就已经知道了将要预测的测试集是哪些了。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈