相关系数反映了各个指标和非空间脆弱性指数关系的密切程度,但不能反映两者之间因果关系的大小,即非空间脆弱性指数(因变量)随测度指标(自变量)的变化而变化的大小、幅度和趋势,同时还不能对未来非空间脆弱性指数的变化进行模拟和预测。因此,有必要利用探索性数据挖掘与分析方法对1998—2012年合肥市的非空间脆弱性动态演化特点及其未来发展趋势展开进一步研究。
探索性数据挖掘与分析方法的总体思路是,首先构建基于六个主要测度指标的非空间脆弱性指数的动态演化预测模型,包括线性预测模型和非线性预测模型,并对其进行优选;其次利用1998—2012年的时间序列数据,计算六个主要测度指标在未来年度内的预测值;最后用优选出来的非空间脆弱性指数的动态演化预测模型和六个主要测度指标的未来预测值进行预测,从而获得合肥市非空间脆弱性指数的未来发展趋势。
在具体的模拟预测过程中,对各个线性拟合方程的取舍、优选主要依据判定系数R2和显著性检验的概率p值。其中,R2的值越大、越接近于1,说明残差平方和越小,自变量对因变量的解释越充分,模型对观测值的拟合效果越好;反之,R2的值越小、越接近于0,模型对观测值的拟合效果越差。特别是当进行多元线性拟合时,要使用调整的R2作为方程拟合优度的检验指标。同时,还要看拟合方程的显著性检验结果,p值达到显著水平(<0.05)的方程才有意义,只有达到这两个要求的方程才能进入分析过程。
1)线性回归预测模型构建
目前,传统的预测方法有线性回归法、非线性回归法、时间序列分析法、灰色系统法等。本节研究主要应用最为常用的线性回归法来构建合肥市非空间脆弱性的动态预测模型。
(1)一元线性回归预测模型构建
首先构建非空间脆弱性指数和六个主要测度指标的一元线性回归(Simple Linear Regression,SLR)预测方程,结果如表4-13所示。
表4-13 一元线性回归预测方程
根据表4-13可知,所有预测方程的p值都小于0.05,即都达到了显著水平。在判定系数R2上,除了人均城市道路面积(x2)指标外,非空间脆弱性指数和其余五个主要测度指标的一元线性回归预测方程的拟合优度都较为理想,预测方程的R2都大于0.7。其中,又以工业废水排放(x6)和非空间脆弱性指数的预测方程的R2最大(0.862 7),表示该方程的拟合优度最好,因此,可以用该方程对合肥市1998—2012年的非空间脆弱性指数进行一元线性回归拟合,结果如表4-14所示。进一步对工业废水排放(x6)和非空间脆弱性指数的预测方程进行检验,包括残差的柯尔莫可洛夫—斯米洛夫检验(K-S检验)、残差和拟合值的斯皮尔曼(Spearman)等级相关系数检验,结果如表4-15和表4-16所示。
表4-14 非空间脆弱性指数的一元线性回归拟合结果
表4-15 K-S检验结果
表4-16 Spearman等级相关分析结果
根据表4-15可知,K-S检验的概率p值为0.942 1,说明残差和正态分布不存在显著差异,满足线性模型建立的前提要求。表4-16显示,拟合值和残差的Spearman等级相关系数仅为0.039 3,相关性非常微弱,并且p值为0.889 4,说明变量与残差之间不存在显著的相关关系,即没有明显的异方差现象。
上述预测方程的R2、K-S检验、Spearman相关分析结果表明,该预测方程拟合优度较好,可以很好地解释因变量的变化特征和规律,因此,其能够作为合肥市非空间脆弱性动态预测的备选方程。
(2)多元线性回归预测模型构建
以非空间脆弱性指数y为因变量,以测度指标x1—x6为自变量进行多元线性回归(Multiple Linear Regression,MLR)分析,回归分析方法分别采用向后法、向前法和逐步法,得到最终的拟合方程为
上式表明,最终进入方程的是单位工业产值能耗和工业废水排放两个测度指标。方程的R2为0.921 7,调整的R2为0.908 6,显著性检验的p值和回归系数显著性检验的p值均小于0.05,共线性诊断的容忍度、方差膨胀因子和条件指数等指标均表明方程的多重共线性较弱。非参数K-S检验的p值为0.692 2,说明残差和标准正态分布不存在显著差异,满足线性模型建立的前提要求。Spearman等级相关系数为0,没有异方差现象。因此,该模型的整体线性关系显著,拟合效果理想,两个变量对模型的贡献显著,可以很好地解释因变量的变化特征和规律,因此,其能够作为合肥市非空间脆弱性动态预测的方程。利用该模型对合肥市1998—2012年的非空间脆弱性指数进行拟合,结果如表4-17所示。
表4-17 非空间脆弱性指数的多元线性回归拟合结果
线性回归预测模型建立在各个变量之间是线性关系的基础之上,同时还舍弃了部分指标的信息。由于城市非空间脆弱性指数是城市经济、社会、环境多因素综合影响的结果,它们之间不仅仅是线性关系,同时还存在着复杂的非线性关系,因此,上述线性预测模型在精度、全面性、逼真性上仍需要进一步提高,这需要采用更先进的模型和算法。本节采用当前最新的人工神经网络(Artificial Neural Network,ANN)进行模拟和预测分析。
近年来,随着人工智能技术的进步,人工神经网络研究迅速发展。ANN由于具有良好的非线性映射逼近性能而被广泛应用在各种预测领域,取得了令人满意的效果(刘敏华,2004)。传统的ANN主要是基于误差反向传播算法的反向传播网络(BP网络),但是其只有在满足一定的建模条件时才具有自学习性、非线性逼近能力和泛化能力,如果不符合建模条件,建立的网络模型则存在收敛速度慢、易陷入局部极小等缺陷,模型精度难以控制(楼文高等,2004)。1989年,径向基函数(Radial Basis Function,RBF)神经网络被提出(Moody et al,1989),其能以强大的非线性映射能力和任意精度来全局逼近任意非线性关系,具有很强的处理复杂非线性及不确定性系统的能力,为解决因BP网络难以达到理想效果的问题提供了崭新的途径,是一种新颖有效的前馈式神经网络。由于RBF神经网络能够逼近任意的非线性函数,可以处理系统内在难以解析的规律性,能够避免局部极小而实现全局最优,同时具有更快的学习收敛速度,因此RBF神经网络一经提出便得到了广泛应用,目前已被成功地用于非线性函数逼近、数据分类、模式识别、信息处理、图像处理、系统控制与建模等领域,是目前国际上最理想的预测方法之一(余华等,2009)。作为一次探索,本节将RBF神经网络引入城市非空间脆弱性预测研究领域,通过构建城市非空间脆弱性预测的RBF神经网络模型对合肥市进行实证研究。
与多层前向网络类似,RBF神经网络是一种三层前向网络,包括输入层、隐含层和输出层(图4-14)。其中输入层仅起到传输信号的作用,可将输入矢量直接映射到隐空间。隐含层含有若干个隐单元节点,隐单元的变换函数是径向基函数,是一个径向对称、双方向衰减的非负非线性函数,可对网络的输入做出直接非线性映射,隐含层隐节点的多少视具体求解问题而定。最常用的径向基函数是高斯函数,公式为(www.xing528.com)
式中,‖·‖为欧式范数;c为高斯函数的中心;σ为高斯函数的方差。
输出层对隐含层的输入做出响应,神经元采用线性传递函数,采用高斯函数为基函数的RBF神经网络模型的输出是对隐含层神经元输出的线性加权和,公式为
式中,xp即第p个输入样本(p=1,2,…,P),共有P个输入样本;ci为隐含层节点的中心;wij为隐含层到输出层的连接权值,i=1,2,…,h,隐含层共有h个节点,j=1,2,…,n,共有n个输出节点;yj为与输入样本对应的网络的第j个输出节点的实际输出。
RBF神经网络是线性和非线性的有机统一,即从输入层到隐含层是非线性映射,而从隐含层到输出层则是线性变换。RBF神经网络通过输入和输出误差来调整网络内部系数,反复迭代计算直至网络的输出均方误差达到预设的精度要求时,网络终止计算并输出预测值。具体的RBF神经网络原理可参见相关文献,此处不再赘述(张良均等,2008)。
图4-14 RBF神经网络结构
基于RBF神经网络的原理和方法,在Matlab 7.5(商业数学软件)环境下构建合肥市非空间脆弱性指数预测的RBF神经网络模型,步骤包括:数据标准化处理;建立RBF神经网络训练样本的输入、输出向量;以x1—x6等六个主要测度指标为输入层神经元,以非空间脆弱性指数y为输出层神经元,调用函数newrb对训练样本数据进行训练,newrb函数格式为
式中,P为输入向量;T为输出向量;GOAL为均方误差;SPREAD为RBF神经网络的分布密度,其值越大,函数输出越平滑,泛化能力也越强,默认取1。newrb可自动生成增加RBF神经网络的隐含层神经元,直到均方误差满足精度要求(小于0.001)为止。以1998—2010年的数据作为学习样本,用newrb函数进行网络训练,训练好的RBF神经网络隐含层神经元的个数为13个,目标值和网络输出值的均方误差为0.000 116,满足小于0.001的总体精度要求。再用训练好的网络对1998—2012年的合肥市非空间脆弱性指数进行仿真拟合,结果如表4-18所示。
表4-18 非空间脆弱性指数的RBF神经网络拟合结果
续表4-18
3)预测模型对比与优选
根据一元线性回归、多元线性回归和RBF神经网络的拟合结果,做三种模型预测拟合结果平均值的对比分析表(表4-19)和非空间脆弱性指数的拟合曲线与实际曲线的对比分析图(图4-15)。图4-15显示,RBF神经网络的拟合曲线始终和实际曲线基本重合,而SLR和MLR的拟合曲线和实际曲线的偏差较大。由表4-19可知,RBF神经网络拟合的残差平均值和相对误差平均值最小,仅为0.006 9和1.89%。SLR和MLR的残差平均值和相对误差平均值明显高于RBF神经网络,其中,SLR的预测拟合精度最差,其残差和相对误差的平均值分别为0.027 9和6.61%,约为RBF神经网络拟合残差平均值的4倍和相对误差平均值的3.5倍。而MLR的预测拟合精度则居中,其残差和相对误差的平均值分别为0.018 6和4.64%,约为RBF神经网络拟合残差平均值的2.7倍和相对误差平均值的2.5倍。总体上,在同样的数据支持下,三种模型的预测精度排序显然为RBF神经网络>MLR>SLR。
表4-19 拟合结果平均值对比
图4-15 拟合曲线与实际曲线对比
残差为模型拟合值与实际值之间的差,能更直观、更具体地反映模型预测的精度和能力,图4-16为三种模型拟合残差的对比分析图。根据图4-16可知,总体上,SLR的残差在各个年度(2003年、2006年、2009年、2011年和2012年除外)均最大。MLR的拟合残差则处于SLR和RBF神经网络的残差之间,其中2003年、2006年、2009年和2011年都优于SLR。RBF神经网络的拟合残差在各年度(2004年、2009年、2012年除外)均最小,特别是在1998—2003年,RBF神经网络的拟合残差基本为0,表现了较高的拟合预测精度。除了总体精度和残差外,对模型预测能力进行对比的另一个关键点是看模型在突变值上的预测精度。根据前述分析可知,在1998—2012年合肥市非空间脆弱性指数的动态演化过程中,2011年是一个关键转折点,该年度非空间脆弱性指数结束了前面阶段的下降态势而反弹剧增,实现了一次突变。因此,2011年的拟合结果是模型预测拟合能力的一个重要反映。根据前述计算结果可知,2011年的RBF神经网络残差为0.020 1,相对误差为3.96%,而同时期SLR的残差和相对误差分别为0.047 3和9.33%,MLR的残差和相对误差分别为0.058 5和11.55%。显然,在2011年这一关键转折点上,RBF神经网络与SLR和MLR的拟合预测能力形成了鲜明对比,RBF神经网络的拟合残差和相对误差仍然较小,表现出了明显的预测精度优势。
图4-16 预测残差对比
进一步分析可知,2011年合肥市的行政区划调整导致非空间脆弱性指数突然改变了先前的变化轨迹,实现了一次突变,这说明合肥市非空间脆弱性指数的动态演化态势是经济、社会、环境多因素约束下的非线性变化。此时,传统的线性回归预测方法的不足就充分显现出来,这也直接证明了神经网络在处理非线性问题上具有明显的优势。
基于对残差、相对误差以及关键节点拟合结果的分析可知,在模型预测精度上,RBF神经网络最优,MLR次之,SLR最差。产生这一现象的根本原因在于模型本身在技术方法上具有差异性,SLR和MLR由于建立在线性假设的基础上,在预测城市非空间脆弱性指数这一复杂非线性系统时明显不足;而RBF神经网络由于其特有的处理复杂非线性系统的优点,网络学习速度较快且能避免局部极小值,因此相对于线性回归而言能够获得更为满意的预测结果。此外,在自变量选取上,SLR仅选取一个指标作为自变量,MLR选取两个指标作为自变量,其余指标被舍弃;而RBF神经网络则以全部高度相关的六个主要测度指标作为自变量,显然,RBF神经网络对指标信息的处理最全面、最完整,因此也就可能获得更为精确的结果。
综上所述,通过对三种预测模型的对比分析可知,RBF神经网络模型应作为合肥市非空间脆弱性动态演化预测的最终优选模型,这不仅具有科学的理论基础,同时在技术方法上也具有坚实的可行性。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。