投影寻踪就是将高维数据向低维空间投影,通过分析低维空间的投影特性来研究高维数据的特征,是处理多因素复杂问题的统计方法[1]。投影寻踪聚类模型则是依据投影寻踪思想建立的聚类分析模型,虽然已经得到了广泛的应用。然而,投影寻踪聚类模型在实际聚类分析应用中还存在着有待深入研究和改进的问题,主要体现在以下两方面:
(1)投影寻踪聚类模型中的唯一参数——密度窗宽(或称截断半径)取值问题。研究表明,密度窗宽的不同取值对聚类结果有重要影响[161],但目前其取值还是依据经验或试算确定,缺乏理论依据。至今为止,普遍采用的还是Friedman和Tukey[1]建议的密度窗宽取值为样本投影特征值方差的10%。其次,作者依据实验的统计给出了密度窗宽取值的经验公式,并建议可将样本聚类指标个数作为其实际取值[161]。然而,当密度窗宽取值太大时,投影指标实质上就是方差分析了。因此,关于密度窗宽参数的合理取值问题还有待深入研究。
(2)投影寻踪聚类模型运算结果的再分析问题。对于没有分类标准参照的聚类问题,投影寻踪聚类模型只能输出基于投影特征值大小的样本序列,并不能直接提供明确的聚类结果。对于线性投影寻踪聚类模型,传统的处理方法也是目前普遍采用的方法就是绘制投影特征值散布图,分析人员凭肉眼根据投影特征值散布结构来确定样本分类。由于绘制散布图的方法缺乏定量的聚类依据,在实际操作中有时难以划定明确的分类界限,于是,有研究人员提出了针对样本投影特征值序列进行聚类分析的数学方法,比如金菊良等[151,153]就采用逻辑斯谛曲线(Logistic Curve)来拟合样本投影特征值序列,然后根据拟合曲线进行样本分类,舒栋才等和作者也是通过对样本投影特征值序列进行再处理后才得到相应的聚类结果的[155,207]。因此,投影寻踪聚类模型在进行聚类分析时不能直接提供明确的聚类结果,不便于推广应用。(www.xing528.com)
针对投影寻踪聚类模型的上述问题,引入动态聚类方法[123],以动态聚类原则重新构建投影指标,从而建立了基于投影寻踪原理的动态聚类模型,即投影寻踪动态聚类(Projection pursuit dynamic cluster,简称PPDC)模型[208~210]。下面将详细介绍投影寻踪动态聚类模型的实现过程,并给出投影寻踪动态聚类模型的应用实例。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。