(一)面板数据的层次聚类方法
聚类分析是根据数据相似性对研究对象进行分类,最终能够使同一个类中的所有个体具有高度同质性,不同类之间的个体具有高度异质性。通过聚类分析将研究对象进行划分,能够帮助我们更清晰地认识到各个研究对象之间的差异。
1.层次聚类的主要思想
层次聚类是基于距离的聚类,将距离相近的样本点归为一类,以便更好地研究被评价对象之间的差异。层次聚类方法有多种:Single-linkage、Complete-linkage、Average-linkage、Ward linkage聚类法。本研究选取的方法为Ward法,其基本思想是使得聚类结果中同一个类中样本点的离差平方和较小,而不同类别之间的离差平方和较大。Ward聚类法求出的同类样本的离差平方和不一定均为极小值,而是通过某种规则求出局部最优解。
2.层次聚类的算法过程
假设有N个样本点即被评价对象,层次聚类的算法过程如下:
(1)将每个对象归为一类,共得到N类,计算类与类之间的距离。
(2)根据选取方法,找到最接近的两个类并合并成一类,完成类间合并。
(3)重新计算新形成的类与所有的旧类之间的距离。
(4)重复(2)和(3),直到最后所有的评价对象被合并为一个类为止。
3.距离的计算
选取欧氏距离计算两个样本点之间的距离,因为欧氏距离表示的是空间中两个样本点的真实距离。两个p维向量间的欧氏距离表达式为:(www.xing528.com)
采用郑兵云(2008)提出的多指标面板数据的距离算法,并将面板数据计算的欧氏距离定义为“欧氏时空距离”。将第r个样本点与第k个样本点之间的“欧氏时空距离”记为d rk,即:
该方法将欧氏距离与面板数据的特征结合起来,易操作且容易理解,将不同年份研究对象之间的差异视为同等重要处理,在多指标面板数据聚类方法中较优。
(二)综合政策投入的分类比较与分析
利用Matlab R2017b计算出综合政策投入的欧氏时空距离矩阵(程序见附录2)。利用R语言,通过层次聚类的Ward法将30个省份按综合政策投入水平分类,得到聚类谱系图,如图5-2所示。
图5-2 各省份综合政策投入聚类谱系图
由图5-2,依据2002—2018年的综合政策投入得分对30个省份进行分类。若直接按照欧氏时空距离矩阵的信息进行分类,可以按聚类谱系图中红线分为6个类,缺点是这仅仅考虑了数据上的差异而忽略了现实意义。因此,结合实际情况将30个省份分为如下5类:
第一类包括上海、江苏、广东、北京、浙江、天津6个省份,这些省份的综合政策投入在全国处于领先水平。
第二类包括福建、山东、辽宁3个省份,综合政策投入水平较高。
第三类包括重庆、河南、湖南、河北、安徽、四川、湖北、内蒙古、江西9个省份,综合政策投入处于中等水平。
第四类包括宁夏、海南、吉林、广西、青海、云南、山西、黑龙江8个省份,综合政策投入水平相对较低。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。