传统的机器学习方法是在给定的有标签样本集上进行训练、学习,归纳出学习模型,称为“归纳学习”。但在实际应用中,有标记的样本非常有限,并对大量的无标签样本进行标注是非常耗时、耗力、枯燥的,为了尽可能地降低标注成本,减小训练样本集,提出了主动学习的方法来解决有标签样本缺乏的问题,优化分类模型。对于主动学习,学习器可以主动选择对分类器提升最有利的无标签样本(即包含信息量最大的样本)并将其提交给用户或领域专家进行标注,然后将标记后的样本作为有标签的数据加入训练样本集中参与下一轮的训练,从而使得在训练集较小的情况下,可以得到较高的分类准确率,这样可以降低标注样本的代价,从而也降低了训练高性能分类器的代价。
针对问题的场景和样本选择策略的不同,将主动学习分为以下3种:成员资格查询(Membership Query Synthesis)、基于流的选择性采样(Stream-based Selective Sampling)和基于池的选择性采样(Pool-based Sampling)。关于这3种方式的不同之处如图6.2所示。
图6.2 主动学习的3个主要场景
Fig.6.2 Three main active learning scenarios
①成员资格查询:这种方式产生的询问由自己构造,并且在原来的样本集中可能不存在。同时,产生的所有样本属性值都是根据自己的标准,其主要目标是构造对提升学习器性能最好的询问。(www.xing528.com)
②基于流的选择性采样:在这种方式中,未标记的样本根据先后次序,逐个被提交给选择引擎,然后由选择引擎决定标注与否,如果不标注,就将其抛弃。基于流的选择性采样可通过调整的方法来适应基于流的不同情况。但基于流的选择性采样无法实现对未标注样本的逐一比较,需要根据一定的原则设定样本的评价指标和对应阈值,如果提交给选择引擎的样本评价指标超过了阈值,就标注。因为针对不同的应用问题,需要设置不同的调整阈值,因此该方法难以推广。
③基于池的选择性采样:在这种方式中,维护一个未标记样本池,并且根据一定的原则,选择引擎从这个池中选择需要标注的样本。基于池的采样是目前研究最为成熟的方法。根据样本选择策略的不同将该方法分为:基于不确定度缩减的方法、基于版本空间缩减的方法、基于未来泛化错误率缩减的方法和其他方法。
在主动学习策略中,主要是确定哪一个未标记样本的信息量最大或最不能确定而被询问,而这个询问策略是研究的重点。朱晓瑾等[170]提出了一种新的半监督学习框架,该方法采用高斯随机场的主动学习与调和函数相结合,通过能量函数的大小来选择未标记的样本。Hassanzadeh等[171]提出了混合主动学习与半监督学习来序列标记,该方法可以极大地降低人工标记成本,它只对那些不确定性高的未标记样本进行标注,其他的序列和子序列采用自动标注的方式。
针对基于项目内容的推荐,“用户-项目”间的关联(用户给项目打的标签)信息比较少。而TSVM可以很好地对无标签数据进行利用,来提高分类器的预测准确率,是一种解决标签匮乏的有效方法。但由于其存在的缺点,使得它在现实应用中的效果不是很理想。在上面介绍的研究成果的启发下,本章提出了基于主动学习的半监督支持向量机算法,可以将这两种算法的优点结合起来,克服TSVM的缺点,选择对分类器提升度最大的样本,大大减轻了用户的标注负担。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。