【摘要】:AdaBoost 即自适应提升模型,是机器学习中集成算法的一种。AdaBoost 的主要思想是在训练过程中不断调整数据分布,使得难以训练或者错分样本的权重增大,而正确分类的样本权重下降;这样下一级基分类器更加关注于难分或错分样本,从而提升集成模型的整体分类效果,并以此方法来依次学习各个基分类器,直到弱分类器的数量达到预先指定的值为止。对于基分类器 Gm( x ),加权训练样本在该分类器的错误率用式计算。
AdaBoost 即自适应提升模型(adaptive boosting,AdaBoost),是机器学习中集成算法的一种。AdaBoost 的主要思想是在训练过程中不断调整数据分布,使得难以训练或者错分样本的权重增大,而正确分类的样本权重下降;这样下一级基分类器更加关注于难分或错分样本,从而提升集成模型的整体分类效果,并以此方法来依次学习各个基分类器,直到弱分类器的数量达到预先指定的值为止。最后通过加权平均构建基本分类器的线性组合得到最终的强分类器f(x)。
给定训练样本x={( x1, y1),( x2, y2),… ,( xn, yn)},xn为训练样本特征向量,yn为训练样本标签,其取值为 +1 或 -1 ,则AdaBoost 算法的训练流程如下:
首先,赋予每个训练数据一个初始权重值,所有样本的权重均相等,用公式(3-16)和(3-17)计算。
对于基分类器 Gm( x ),加权训练样本在该分类器的错误率用式(3-18)计算。
其中,I ( Gm( xi)≠yi)为指示函数,其取值为0 或者1。则当前分类器Gm( x)的权重计算公式如(3-19)所示。(www.xing528.com)
接下来更新所有训练样本的权重分布,用式(3-20)、(3-21)、(3-22)计算:
其中,Zm为规范化因子,它将ωm,i的值域规范在[0,1]内,以使所有样本的权重之和等于1。
对m=1,2,… ,n,依次按照以上步骤训练每个弱分类器,则最终的强分类器用公式(3-23)计算。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。