一、聚类方法性能对比
对于聚类的结果,我们需要一个定量的指标进行评价,聚类的评价指标能够划分为“外部指标”和“内部指标”两大类,其中“外部指标”指的是将聚类结果与某个参考模型进行比较,包括JC系数、FM系数、RI指数等;而“内部指标”则是直接通过模型的聚类结果得到,不需要额外的其他数据,具体的方法有DB指数、轮廓系数等。课题组所研究的对象没有一个标准作为参考模型,因此课题组选用轮廓系数这种较为常用的“内部指标”作为检验聚类算法有效性的方法。轮廓系数结合了聚类的凝聚度与分离度,既能有效地反映聚类性能,而且在计算上又十分简便。利用轮廓系数进行聚类模型性能比较的步骤如下。
第一步:针对第i个对象,计算对象i到其所属的簇之内所有其他对象的相似性(距离),取均值为ai;计算对象i到其所属的簇之外所有对象的相似性(距离),取均值为bi。记第i个对象的轮廓系数为
根据si进行聚类模型性能对比,si取值范围为[-1,1]。si越接近1,表示样本i的聚类越合理;si越接近-1,表示样本i的聚类越不合理。
第二步:取所有对象轮廓系数的均值作为该聚类总的轮廓系数,并以此表示聚类模型的性能
同样的si取值范围为[-1,1]。si越接近1,表示样本i的聚类越合理;si越接近-1,表示样本i的聚类越不合理。
根据公式(5-1)和(5-2),按照既定的模型以及不同的参数,分别计算各种聚类模型的轮廓系数,结果如表5-1所示。
表5-1 不同参数下不同模型的聚类性能表
续 表
基于数值距离聚类的两种方法D2、D3在聚类的性能上,尤其是在选择相对较为合适的基函数个数之后,聚类的结果相比传统聚类方法D1能够得到一定的提升。此外,将D2与D3进行对比,发现直接将基函数进行距离度量整体上相比利用基函数展开系数进行距离度量更加稳定,后者在一定的K之下能够有很高的轮廓系数,但是随着K的增加,轮廓系数有明显的下降。
基于曲线相似性聚类的四种方法X1、X2、X3、X4中,X1、X3、X4也存在着和D2相同的问题,随着K值的增加,数据的拟合越接近原数据,平滑度越低,从而使得分析过程中的极值点数量增加,反而影响了聚类的准确性,整体上基于极值点的纵横向相似性度量X4的聚类效果相比X1、X3要更好,而且选择适当的基函数个数后能够达到较好的聚类效果,但是整体上聚类效果要不如D2;而X2则是相反,曲线过于平滑反而使得聚类效果下降,最终模型的轮廓系数整体上处于所有模型中较低的水平。
课题组提出的曲线极值点偏移补偿的相似性度量DX具有相对较好的聚类结果,随着参数的变化,DX的聚类效果稳定向好。将DX与D1进行比较,在各种参数组合下DX的聚类效果整体上都比D1好;将DX与基于曲线形态聚类中效果较好的X4进行比较,除了在k=5、K=10时DX模型表现不好外,DX模型的效果都要好于X4模型。将DX与D2进行对比,发现从模型的聚类效果来看,DX模型比D2模型性能更好。对于具体的聚类情形,课题组选取DX、D2以及D1的实际聚类结果进行对比。
有一点不足的是,DX的耗时相较于传统的离散聚类或者是导数聚类都要大很多,这点主要是由于该方法涉及较为复杂的积分矩阵运算,由于运算中在传统的距离计算D2基础上还需要测度极值点的位置,然后依据极值点间距离进行距离补偿,这一部分的耗时量远超过前者耗时,而且可以发现,随着K值的增加,耗时量也越来越大,因此K值的选取不能过大。
二、聚类结果可视化对比
为了验证本书提出的基于极值点偏差补偿的函数型聚类分析方法(DX模型)是否达到既定的效果,对聚类结果进行可视化对比。由表5-1可知,D2模型是基于数值距离的函数型聚类分析方法中,聚类效果较优的,D2模型聚类性能的整体稳定性高于D3模型,而且D2模型采用了最基本的数值距离计算方式,所以认为相比D3模型,D2模型是更值得采用的函数型聚类分析方法。同时,从表5-1中可知,在所有的基于曲线形态的函数型聚类分析方法中,X4的聚类效果是最好的。但是对比D2、D3、X1、X2、X3、X4模型的轮廓系数,可以发现D2模型的整体聚类性能优于X4。所以本书最后选择了基于基函数本身的距离度量的D2模型,作为DX模型的可视化对比模型,而不增加DX模型与X4模型的比较。根据表5-1,综合考虑模型的性能,本小节选取K=10,k=6的情形进行展现。
(一)函数型聚类分析方法与传统聚类分析方法的可视化对比
首先采用传统的聚类方法D1,得到的最终聚类结果如图5-3所示。
图5-3 传统聚类方法D1模型聚类结果展现图[2]
采用课题组提出的基于曲线极值点补偿的相似性度量DX作为相似性度量,得到的最终聚类结果如图5-4所示。
图5-4 DW模型K=10,k=6聚类结果展现图
图5-3和图5-4分别展示了课题组提出的函数聚类模型和传统聚类模型的聚类结果。从结果中能够看出,两种方式聚类的整体趋势没有太大的区别,但是函数模型中展现的曲线的特征以及趋势更加的直观明显,离散折线由于转折点过多,很难从中挖掘类别的主要特征,而函数型曲线提取了主要的信息,很容易区分各个类别之间的整体和局部差异。从图5-4中可以直观地挖掘各类股票的部分特征。
第一类股票在初期的上升幅度较大,从0.1至0.3区间起上升至0.75附近,随后直至第80日左右一直处于下降趋势,然后有一小段20日左右的小幅上升,随后又开始下跌。
第二类股票的曲线整体处于一个下跌的趋势,起点要整体高于第一类股票,在初期的前30日左右有一段小幅的上升,随后急速下跌,但是不同的是在下跌的过程中出现了两段上凸形态的区间。
第三类股票在70日之前是属于缓慢上扬之后急速下跌的形态,相较第二类股票,在70日之后是属于上升趋势,比较类似第五类股票。
第四类股票的形态与第二类股票非常相似,主要的区别在于中间缺少了一次上凸的区间,此外在达到第一高点后下跌的幅度没有第二类股票大。
第五类股票整体上是处于一个上升的趋势,尤其是在25日之前和80日之后有两段明显的上升区间。
第六类只有一只股票,从形态上看可以明显看出该股票的曲线与其余所有股票都有很大的不同,在前80日属于地位波动的形态,80日之后有了一波大幅度的上升期随后回落。
对于投资者而言,函数型聚类结果的展示更加一目了然,而传统聚类结果的展现显得过于冗杂,投资者还需要在聚类之后再去提取类别的特征。
(二)兼顾数值距离与曲线形态的函数型聚类方法与基于数值距离的函数型聚类分析方法的可视化对比
采用基于基函数本身的距离度量D2作为相似性度量,得到的最终聚类结果如图5-5所示。
图5-5 D2模型K=10,k=6聚类结果展现图
第一类:宝钢股份、中信证券、招商银行、保利地产、华夏幸福、绿地控股、中国神华、兴业银行、农业银行、交通银行、工商银行、中国建筑、华泰证券、光大银行、中国石油、中国银行。
第二类:北方稀土、山东黄金、中国铁建、国泰君安、中国平安、新华保险、中国人寿、中国中车、浙商证券、海通证券。
第三类:民生银行、南方航空、中国联通、招商证券、大秦铁路、中国交建、中国银河、江苏银行。
第四类:浦发银行、伊利股份、东方证券、北京银行、中国太保、中国重工、中国电建、中国核电。
第六类:康美药业。
DX模型聚类结果中各样本的分类如下:
第一类:宝钢股份、中信证券、招商银行、保利地产、华夏幸福、绿地控股、中国神华、兴业银行、农业银行、交通银行、工商银行、华泰证券、光大银行、中国石油、中国银行。
第二类:民生银行、北方稀土、山东黄金、招商证券、中国铁建、国泰君安、中国平安、新华保险、中国人寿、中国中车、浙商证券、中国银河、海通证券。
第三类:南方航空、伊利股份、大秦铁路、中国太保。
第四类:浦发银行、中国联通、东方证券、北京银行、中国交建、中国重工、江苏银行、中国电建、中国核电。(www.xing528.com)
第五类:中国石化、上汽集团、贵州茅台、上海银行、洛阳钼业。
第六类:康美药业。
对比D2模型和DX模型的具体聚类结果可以发现,两者的第五类和第六类结果是完全相同的,不同处在于前四类的个别股票。因此主要对前四类的划分进行详细的对比。首先从整体的聚类上观察D2模型和DX模型的差异,如图5-6所示。
图5-6 D2模型、DX模型前四类的聚类中心曲线对比图
图5-6中分别展示了D2模型与DX模型聚类结果中有差异的前四类的聚类中心曲线。从中可以看出第一类与第二类聚类中心曲线在两个模型中差异不大;第四类聚类中心曲线也有一定程度上的改变,主要是波动幅度上的差异,整体趋势改变不大;第三类聚类中心曲线有着比较明显的变化,整体形态与之前完全不同。整体上看,两个模型聚类结果的差异主要在第三类。
从D2模型中股票所在簇位置改变的角度出发,对比D2模型与DX模型的聚类结果中第三类包含的股票发现:原归属于D2模型的三只股票民生银行、招商证券、中国银河在DX模型的聚类结果中归属第二类;原归属于D2模型中的中国联通、中国交建、江苏银行三只股票在DX模型的聚类结果中归属第四类。
D2模型中的第三类的八只股票曲线形态按照在DX中的组别分类展示,如图5-7所示。
图5-7 D2模型第三类中八条曲线的分类图
从图5-7中能够看出,第一个子图中的南方航空、大秦铁路与其余两个子图中的六只股票有着明显的形态差异:在起始阶段,第一个子图中两条曲线起点较低,从0.4附近开始波动,而其余几只股票是从0.7附近先下降后再开始上升;在中期,第80日左右,第一个子图中的两条曲线达到了整段观测期的最低点,其余六只股票没有这样的特性;在末端,第110日左右之后,第一个子图中的两条曲线有一段较为明显的上升,其余六只股票都继续下跌或者上升幅度很小。虽然第一个子图中的南方航空和大秦铁路之间仍然有形态上的差异,但是这两只股票相比于其他的六只股票更加的相似,因此与其余六只股票区分开。后两个子图中股票整体的形态差异没有第一个子图中那么大,但是在DX模型中被划分至不同的两个类别,首先依据图5-7中展现的这六只股票的曲线形态以及图5-4中展现的DX模型六类聚类中心曲线,可以看出这六只股票无论在数值距离还是曲线形态上仅与其被归属的第二类和第四类较为相似,而与其余四类聚类中心曲线都具有较大的差异,因此继续比较这六只股票与其所在DX模型中类别(第二类和第四类)的中心曲线,首先具体比较DX模型中第二类和第四类的中心曲线之间的差异,如图5-8所示。
图5-8 DX模型第二类与第四类的中心曲线对比图
从图5-8中可以看出,第二类曲线与第四类曲线主要有三点差异。
一是第二类曲线明显整体在第四类曲线下方,当样本曲线明显整体处于偏下方或上方时,样本能够很直观地看出应当被归属为第二类,而当样本曲线在两类中心曲线之间波动时,则需要通过其他特征进行观测,这一点主要能用体现数值距离的差异;二是第二类曲线在70日左右多了一次上凸的波段,第四类中心曲线在这附近也有一段减缓下降幅度的趋势,但是波动较小,没有形成上凸形态,这一点主要突出曲线形态的差异;三是第二类曲线在第30至60日期间的下降幅度要大于第四类曲线,第四类曲线在第100日之后下降的幅度要大于第二类曲线,这一点既包含数值距离又包含了曲线形态的差异。依据这三点主要的差异,分别将民生银行、招商证券、中国银河、中国联通、中国交建、江苏银行这六只股票的曲线与DX模型的第二类、第四类聚类中心曲线进行对比,通过综合考虑以上的三点差异以及最终样本所归属的类别,体现DX模型聚类的特点。具体如图5-9所示。
图5-9 民生银行等六条价格曲线与DX模型第二类、第四类的中心曲线对比图[3]
从图5-9中可以看出,左侧的三张子图是民生银行、招商证券、中国银河三条被归属DX模型第二类的曲线,右侧的三张子图是中国联通、中国交建、江苏银行三条被归属DX模型第四类的曲线。综合考虑上文提及的三点差异,发现其中子图三中的招商证券、子图五中的中国银河以及子图四中的中国交建能够基本满足上文提及的三点第二类中心曲线与第四类中心曲线的主要差异。
其他三只股票在分析差异时具有一定的分歧。
其中子图一中的民生银行在第一点的数值距离差异上明显与第二类中心曲线更加贴近;在第二点的曲线形态差异上又比较贴近第四类曲线;在第三点差异中处于两条中心曲线之间。该股整体上曲线形态比较贴近第四类中心曲线,数值距离比较贴近第二类中心曲线。
子图二中的中国联通在第一点的数值距离差异上不是特别明显,处于两条中心曲线的中间水平;在第二点的曲线形态上在70日附近没有出现明显的上凸,比较贴近第四类中心曲线;在第三点差异中也是处于两条中心曲线的中间。该股整体上曲线形态比较贴近四色类曲线,数值距离差异不明显,需要通过计算得到。
子图六中的江苏银行在第一点的数值距离差异不是特别明显;在第二点的曲线形态中在70日附近出现一段小幅度的上凸形态,更加贴近第四类中心曲线;在第三点差异中在第30至60日期间的下降幅度比较贴近第二类曲线,而在第100日之后的下降幅度又比较贴近第四类曲线,因此这一点差异也难以直接通过观测衡量。该股整体上曲线形态比较贴近第四类曲线,数值距离差异需要通过计算得到。
对于类似民生银行、中国联通、江苏银行这类的曲线,无论是通过基于数值距离还是基于曲线形态单一角度出发的函数型聚类,都只能得到一个比较片面的结果,而课题组给出的标准同时涵盖了两个因素,既考虑了数值距离的因素又考虑了曲线形态的因素,当两个因素出现不同结果时,通过综合的比较将其归为更加贴近的类别,最终子图一中民生银行被归入第二类,子图二中的中国联通和子图六中的江苏银行被归入第四类。
除了两个模型差异比较明显的第三类之外,原属于D2模型中第一类的中国建筑在DX模型的聚类结果中归属第二类,由于D2模型与DX模型中的第一类中心曲线没有太大差异,将中国建筑与DX模型中第一类与第二类中心曲线进行对比,结果如图5-10所示。
图5-10 中国建筑价格曲线与DX模型第一类、第二类的中心曲线的对比[4]
从图5-10中明显能够看出,中国建筑的曲线在第70日附近有一段明显的上凸形态,在形态上更加贴近于第二类中心。因此在经过综合的计算之后被归入了第二类中心。
此外原属于D2模型中第四类的伊利股份、中国太保在DX模型的聚类结果中归属第三类,将伊利股份、中国太保的价格曲线与DX模型中第一类与第二类中心曲线进行对比,结果如图5-11所示。
图5-11 伊利股份、中国太保价格曲线与DX模型第三类、第四类的中心曲线的对比
从图5-11中可以看出,伊利股份和中国太保在形态上与第四类中心曲线的确有较大的差异,尤其是在第80日之后,这两只股票的曲线是呈现上升趋势的,而第四类中心曲线则是保持下降趋势,而这个特征与第三类中心曲线较为贴近。
经过综合计算之后,这两只股票被纳入第三类。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。