当时间序列存在非线性时,常用的相关系数的测定就不能准确反映序列的跨期依赖程度,而基于信息理论的方法则是一个适当的工具。其研究的早期工作始于20世纪50年代,Blomqivist(1950)提出用q′非参数统计量来测量两变量间的相依程度,Kullback(1959)提出了交叉熵,Renyi(1959)提出了Renyi熵,到20世纪90年代开始有学者将信息熵用以研究经济时间序列的相依性,其中的代表为Aparicio与Escribano(1998)。张尧庭(1999)研究了信息熵,认为它是一个度量非线性相关系数的很有用的量。
设{xt}与{xt±τ}为两个随机过程,其联合密度函数为f(xt,xt±τ),边际密度函数分别为ft(xt)和fτ(xt±τ),则定义xt和xt±τ的共有信息为:
若密度函数连续,则式(5-1)可写成:
其中;
若xt和xt±τ为离散变量,那么,式(5-2)中的积分符号用求和符号代替。
式(5-2)中H(∙)为申农熵(Shannon Entropy),它有助于看出xt±τ中的信息是否可以帮助减少xt中存在的不确定性。为说明这一点,可将式(5-2)重写为:
其中
。
如果xt与xt±τ相互独立,则,从而有I(xt,xt±τ)=0。此时,联合熵表征的不确定性就等于单个熵的不确定性。
假设两随机过程均服从高斯分布,各自的数学期望分别为μt=E[xt]和μτ=E[xt±τ],方差分别为σt=Var(xt)和στ=Var(xt±τ),协方差为σt,τ=Cov(xt,xt±τ),那么,两者的共有信息I(xt,xt±τ)可表示为:
式(5-4)表明,在高斯分布的假设下,共有信息I(xt,xt±τ)亦可解释为“影子”相关系数。然而,对于非线性过程,高斯假设不一定成立,式(5-4)是否仍然成立则需进一步讨论。Granger与Lin(1994)证明,对于一一变换,由于它具有不变性,因而在许多情形下式(5-4)仍然成立。
由式(5-4)可以导出:(www.xing528.com)
由式(5-5)可知,当两随机过程独立时,I(xt,xt±τ)=0,则有ρt,τ=0;当两随机过程强相依时,I(xt,xt±τ)→∞,则有ρt,τ=1。
共有信息I(xt,xt±τ)的一致估计量通常可用核密度函数的近似密度函数ft(xt),fτ(xt±τ)和f(xt,xt±τ)来求得。对于各种非线性模型,共有信息准则可用来研究相关系数ρt,τ下降的速率。Granger与Lin(1994)对于双线性模型、非线性移动平均模型、混沌模型等情形的研究表明,基于熵的相关系数可以正确探测其中的强依赖性。
核密度估计方法:
对于时间序列{xt}的一组观测值{x1,x2,…,xN},其核密度估计为:
其中K(∙)为核函数[1],h为带宽。
带宽h越小,核估计的偏差越小,但方差越大;反之,则偏差越大,方差越小。因此,最佳窗宽选择须在核估计的偏差和方差之间做一个权衡[2]。本书使用高斯核与Epanechnikov核函数,其正态最佳带宽选择为:高斯核,Epanechnikov核。
联合密度函数f(xt,xt±τ)的核估计可利用乘积核:
其中K(∙)同式(5-6)中核函数,hj,j=1,2,为带宽。
当变量xt与xt±τ存在一定的相关性时,联合密度函数f(xt,xt±τ)的核估计为:
其中K(∙)为满足:
的二元核函数,其中0为零向量,I为单位矩阵。常用核函数为:
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。