首页 理论教育 均值漂移算法的带宽参数选取现状

均值漂移算法的带宽参数选取现状

时间:2023-06-21 理论教育 版权反馈
【摘要】:如果带宽参数h选取太小,则偏移量小,算法收敛速度很快,从而导致过分割现象;如果带宽参数h选取太大,则偏移量大,算法收敛速度很慢,从而导致欠分割现象。Mean-Shift算法是基于Patten窗的核估计方法,核估计方法既与同样本有关,又同核函数K及窗宽h的选取有关。带宽参数选择定理[25]:假设样本服从正态分布N(μ,Σ),采用正态核函数kH进行均值漂移,当带宽参数h=Σ时,均值漂移向量m的模取最大值。

均值漂移算法的带宽参数选取现状

在Mean-Shift算法中,带宽h是一个重要的参数,因为它决定了参与Mean-Shift迭代的样本数量,并直接影响迭代速度[22],所以它对分割结果起着重要的作用。如果带宽参数h选取太小,则偏移量小,算法收敛速度很快,从而导致过分割现象;如果带宽参数h选取太大,则偏移量大,算法收敛速度很慢,从而导致欠分割现象。Mean-Shift算法是基于Patten窗的核估计方法,核估计方法既与同样本有关,又同核函数K及窗宽(带宽参数)h的选取有关。在给定样品之后,一个核估计的好坏,取决于核函数及窗宽的选取是否适当。估计函数在每个样品点xi有一个“碰撞”,估计量是这些“碰撞”之和;核函数K确定了每个“碰撞”形状,而h则决定了“碰撞”的宽度。当h选得过大,由于估计函数经过压缩变换h之后,使分布的主要部分的某些特征(如多峰性)被掩盖起来了,估计量则有较大偏差;如果h选得过小,这个估计函数特别是尾部出现较大的干扰,从而有增大方差的趋势。因而在实际使用核函数估计时,如何选取适当的宽度是一项很细致的工作。

目前,有两种带宽参数:固定带宽参数和可变带宽参数。固定带宽参数是指所有样品点的概率密度估计都设置为同一个带宽参数,这种带宽参数选择方法也叫作球密度估计。可变带宽参数是依据数据区域的局部特征不同,为不同的点设置不同的带宽参数,这种带宽参数选择方法为可变带宽估计也叫作采样点估计,如式(3-12)。下面的带宽参数选择定理对于这两种带宽参数都适用。基于统计分析方法的固定最优带宽参数,其评判规则是估计密度与真实密度之间的误差最小。估计误差的度量式有:均方差[MSE,如式(3-13)]、积分平方差(ISE)、积分均方差(MISE)、渐进积分均方差(AMISE)等,它们均可表示为密度估计函数的方差与其偏差平方之和的形式[23]。通过分析发现,带宽参数越小,估计的偏差越小,而估计的方差则越大。因此应在两者之间进行折中,以保证估计误差最小。常用的带宽参数计算方法有:快速计算法、交叉验证法和插入规则法。

偏差和h的平方成正比这就意味着小的带宽参数可以获得小的偏差,然而,方差和h成反比这就意味着减小h将增大方差。偏差表明估计量对fx)光滑修正的程度,即一个估计量的光滑程度越高,可能更多地忽略fx)的某些细节,从而增加随机误差。一个核函数估计的光滑程度只与h有关,而与样本集合尺寸N无直接关系。则使MSE的值最小的h为最好的固定带宽参数。交叉验证、惩罚函数、plug-in规则和交叉置信区间规则都属于统计分析方法,但它们的主要缺点是计算复杂,因而不适用于多变量多模式的数据处理。如plug-in规则中渐进式给出了作为方差和偏差估计函数的最优带宽参数;然而,该方法依赖于未知密度的拉普拉斯变换或在计算偏差时引入高阶导数,这都不适合解决实际问题。还有一种选择最优带宽参数的方法叫作交叉置信区规则[24],即Vladimir Katkovnik和Ilya Shmulev-ich利用假设检验自适应带宽参数选择的算法。设H={h1<h2<…<hi}为一有限带宽参数集合,先以一小的带宽参数h1开始,确定fX)的置信区间D(1);依次增大带宽参数h,得到概率密度置信区间序列Dj),若

D(1)∩D(2)…∩Dj)⊄Φ,且(www.xing528.com)

D(1)∩D(2)…∩Dj)∩Dj+1)⊂Φ则由j值确定自适应带宽参数hj,并将该值作为采样点概率密度估计的核函数带宽参数。

虽然统计分析方法的可变带宽可减小估计密度与真实密度函数之间的偏差,但仍面临比例参数难以确定的问题。选择使数据聚类结果最稳定的带宽参数,是面向任务的带宽参数选择方法的主要思想。基于统计分析方法估计带宽参数h和实际图像处理的以分割为目的的带宽参数h的意义是不同的。基于统计分析方法估计的带宽参数h是为了使估计量和实际量间的误差最小,以分割为目的的带宽参数(窗宽)h所反映的误差程度是由实际问题决定的,不是估计得越准越好。即估计得准会使分割造成过分割现象,估计得太不准了又会产生欠分割现象。图像上以分割为目的的带宽参数h是直接根据样本自适应地确定,它已失去了数学上的“最佳窗宽”的原意了。

带宽参数选择定理[25]:假设样本服从正态分布NμΣ),采用正态核函数kH进行均值漂移,当带宽参数h=Σ时,均值漂移向量m(x)的模取最大值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈