首页 理论教育 上证50样本股价格曲线聚类分析

上证50样本股价格曲线聚类分析

时间:2023-06-09 理论教育 版权反馈
【摘要】:选取样本股票中的一只——浦发银行的收盘价格曲线作为案例,总计123个采样节点,分别选取基函数个数K为5,10,15,20,30,50,100的情况对离散的采样点进行了三次B样条基的拟合,具体的结果展现如图5-1所示。图5-2所有股票价格不同K值拟合曲线对比从图5-2中可以看出所有股票在观测区间内价格的大致变化趋势。

上证50样本股价格曲线聚类分析

一、数据拟合

目前在进行数据拟合的过程中,对于基函数个数K的选择在学术界中没有一个统一的标准,通常情况下K值的确定需要视数据的具体特征而定。通常情况下,K值越小,对原数据的反映程度越接近,对细节的反映越多,计算量也越小;而K值越大,曲线平滑程度越高,越具有普适性。

选取样本股票中的一只——浦发银行的收盘价格曲线作为案例,总计123个采样节点,分别选取基函数个数K为5,10,15,20,30,50,100的情况对离散的采样点进行了三次B样条基的拟合,具体的结果展现如图5-1所示。

图5-1 浦发银行价格在不同K值情形下拟合曲线对比[1]

从图5-1中能够明显地看出,与离散情形相比,拟合后的曲线能够更加直观地体现出价格波动的趋势,随着基函数个数K的增加,拟合的曲线越来越贴近离散的折线图,反应原始数据更多的局部特征。但是明显能看出K=5时,曲线过于平滑(欠拟合),大部分的波动细节都被忽略了;而K≥50时,明显感觉曲线过拟合。此外基函数计算的复杂度会随K的增加而增加。为了防止曲线的过拟合和欠拟合以及防止计算过于复杂,课题组选取K=10,15,20,25,30。

针对不同的K值,分别对所有股票的价格数据进行函数拟合,具体的结果展现如图5-2所示。

图5-2 所有股票价格不同K值拟合曲线对比

从图5-2中可以看出所有股票在观测区间内价格的大致变化趋势。在起始阶段,大致能看出部分股票是从高点回落的,部分股票是从低点开始上扬的;在前期阶段,在第20日至第40日范围,明显许多股票价格集中在0.8附近,呈现一种上凸形态,但有少许股票没有这种特征;到后期阶段,在第80日至第120日范围,很多股票的走势有了较大的区分度,一些股票呈现出持续的高幅度上扬形态,一些股票呈现出先涨后跌的上凸形态。相比离散的折线图,从平滑后的曲线中能够更加清晰地看出所有股票价格波动的部分特征,但是由于曲线数量过多,曲线之间交杂相错,难以从图中提取更加有效的信息,作为投资者无法从中直接对股票进行有效的类别划分,因此需要进一步的聚类分析

二、聚类模型及其参数选择

针对采集的数据分别使用文中介绍的方法进行聚类分析,具体包括基于采集的离散数据本身的距离度量D1的传统聚类分析方法,基于基函数本身的距离度量D2、基于基函数展开系数的距离度量D3的两种基于数值距离的函数型聚类分析方法,基于曲线一阶导数的距离度量X 1、基于极值点符号的相似性度量X2、基于极值点的时间相似性度量X3、基于极值点的纵横向相似性度量X 4的四种基于曲线形态的函数型聚类分析方法,以及基于曲线极值点偏移补偿的相似性度量DX的兼顾数值距离和曲线形态的函数型聚类分析方法。

为了统一比较,在离散数据和函数型数据的距离计算中分别选用了传统的欧氏距离以及函数型欧氏距离作为距离度量的方法。

(一)聚类模型的选择(www.xing528.com)

课题组使用一种改进的K-means++聚类分析方法进行聚类分析。这种改进的K-means++聚类分析方法以及传统的K-means++聚类分析方法都是针对K-means聚类分析方法的初始聚类中心选择方式进行改进的方法。主要的区别如下:

1.K-means法

随机从样本数据集中选取不重复的k(类别数)个样本作为初始聚类中心。K-means法的随机性较强,不同的聚类中心会导致聚类结果有较大的差异。

2.K-means++法

首先以随机的方式从样本数据集中选取一个样本,然后假设已经选取了n个不重复的样本,则在选取第n+1个样本时,选择与当前n个样本的距离之和最大的样本,以此方法递归直至选出k(类别数)个样本作为初始聚类中心。K-means++法的思想在于选择尽可能远的初始聚类中心。但是n=1的选择仍然具有一定的随机性。通常可以对每一个都作为第一个初始聚类中心,然后对所有结果进行一个综合处理。

3.改进K-means++法

首先计算所有样本两两之间的距离,选择距离最大的两个样本,然后采用与K-means++法相同的方式每次选出与已选样本的距离之和最大的样本,直至选出k(类别数)个样本作为初始聚类中心。此法是针对K-means++法中第一个点的随机性进行的改进,思想上仍然延续了K-means++法选择最远点组合的思想,但是完全取消了任何的随机性,聚类的速度更加迅速。由于函数型聚类分析在聚类过程中部分的函数求导以及积分运算涉及较大的计算量,为避免运行时间过长,课题组选用此法作为初始聚类中心的选择方法。

(二)聚类个数k的确定

目前,聚类分析中对于聚类个数k的选择没有十分有效的方式,通常实际中采用的方式是尝试多种k值,然后通过SSE或轮廓系数等指标选择其中最适合的值。由于数据本身的特性以及总聚类样本的个数没有特别大,课题组研究了k=3,4,5,6,7,8的情形。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈