针对年径流等时间序列的高维非线性特点,文献[30]引入投影寻踪(Projection Pursuit,简称PP)方法,构造了新的投影指标函数,用门限回归(ThresholdRegressive-Model,简称TR)模型描述投影值与年径流之间的非线性关系,并用实码加速遗传算法(Real code dAccelerating Genetic Algorithm,简称RAGA)来优化投影指标函数和TR模型参数。
投影寻踪的基本思路是:把高维数据通过某种组合投影到低维子空间上,对于投影得到的构形,采用投影指标函数(目标函数)来衡量投影暴露某种结构的可能性大小,寻找出使投影指标函数达到最优(即能反映高维数据结构或特征)的投影值,然后根据该投影值来分析高维数据的结构特征,或根据该投影值与研究系统的输出值之间的散点图构造适当的数学模型,以便预测系统的输出。其中,投影指标函数的构造及其优化问题是应用PP方法能否成功的关键。下面给出基于RAGA的投影寻踪门限回归(简称PPTR)模型的建模方案,包括如下三步:
(1)构造投影指标函数。设预测对象及其影响因子的样本为{y(i)}及{x(j,i)},j =1 ~p,i =1 ~n。其中,n,p 分别为样本容量和因子数。现在的目的就是建立{x(j,i)}与{y(i)}之间的数学关系。PP 方法就是把p 维数据{x(j,i)}综合成以a =[a(1),a(2),…,a(p)]为投影方向的一维投影值z(i):
然后根据z(i)~y(i)的散点图建立适当的数学模型。为消除各预测因子的量纲效应,使建模具有一般性,在投影前需要将预报因子进行标准化。
在综合投影值时,要求投影值z(i)应尽可能大地提取{x(j,i)}中的变异信息,即z(i)的标准差Sz尽可能大;同时要求z(i)与y(i)的相关系数的绝对值|Rzy|尽可能大。这样得到的投影值就可望能尽可能多地携带预测因子系统的变异信息,并且能够保证投影值对预测对象y(i)具有很好的解释性。于是,投影指标函数可构造为:
式中:Sz为投影值z(i)的标准差;Rzy为z(i)与y(i)的相关系数。(www.xing528.com)
(2)优化投影指标函数。当给定预测对象及其预测因子的样本数据时,投影指标函数Q(a)只随投影方向a 的变化而变化。不同的投影方向反映不同的数据结构特征,最佳投影方向就是最大可能暴露高维数据某类特征结构的投影方向。可通过求解投影指标函数最大化问题来估计最佳投影方向,即
约束条件为:
这是一个以{a(j)|j =1 ~p}为变量的复杂优化问题,常规方法处理很困难,用加速遗传算法(RAGA)来求解则十分简便和有效。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。