对阈值u进行合理的选择是对参数ξ和β准确估计的前提。过高的阈值u会使得超阈值数据的数量太少,从而导致通过估计得到的参数方差太大;过低的阈值u会导致超阈值分布的收敛性较差,从而使得对参数的估计偏差较大。因此,对阈值u的恰当选择极为重要。极值理论中给出了对其进行估计的两种主要方法,第一种是Hill图估计法,第二种是超阈值期望图法。
(1)Hill图估计法
Hill图估计法是在Hill估计法的基础上得到的对阈值u进行估计的方法。Hill估计主要针对的是对尾部分布可以写成F(x)=L(x)x-α(其中L(x)为缓变函数,α为正的参数,也称为尾指数)的分布函数的尾指数α的估计,其目的是在同分布样本数据x1,x2,…,xn的基础上,得到尾指数α的估计值。通过对变量X的对数ln X的超阈值均值的计算得到
故。根据该原理以及进一步的计算得出,尾指数α的Hill估计值为:
其中,xn,n≤…≤x1,n。
根据上述尾指数Hill估计值的形式,对n个样本值x1,x2,…,xn按照从小到大的次序进行排列,得到它们的次序统计量为x(i)≥x(i-1),i=2,…,n。令
由此得到由横坐标k和纵坐标γ(k)组成的表示为{(k,γ(k)):k=1,2,…,n-1}的各二维点组成的Hill图。根据图中稳定区域对应的横坐标k的起始点的值,即可得到阈值u的估计值x(k)。(www.xing528.com)
(2)超阈值期望图法
超阈值期望图法是根据超阈值期望的定义,得到样本数据的超阈值函数后,由该函数做出对应的超阈值期望图,再用类似上面Hill估计图的方法来对阈值u进行选择的。首先,对样本数据x1,x2,…,xn进行排序,得到样本数据的次序统计量x(1)>x(2)>…>x(n)后,定义样本数据的超阈值期望函数为:
根据上式对超阈值期望值的定义,便可得到由(u,e(u))构成的超阈值期望图。根据绘出的曲线图,选择图中近似直线部分最左端对应的横坐标上u的值即为阈值u的估计值。即在超阈值期望图上找到足够大的某个u值(记为u*),使得当u>u*时,e(u)为u的一个近似线性函数,图形上呈近似直线状。并且,根据该直线的倾斜状态,可以判断出样本数据所属分布的特征。若图中近似直线为向上倾斜直线,则表明样本数据的所属分布为正参数ξ的广义Pareto分布;若图中近似直线为水平直线,则表明样本数据的所属分布为指数分布;若图中近似直线为向下倾斜的直线,则表明样本数据的所属分布为短尾分布。
上述判断方法是依照广义Pareto分布的超阈值期望函数的性质得到的。根据广义Pareto分布函数的性质,当其参数ξ<1时,其超阈值期望函数表达式:
由上述表达式可以看出,广义Pareto分布的超阈值期望函数在其参数ξ<1时为线性函数,故可以用上述方法根据样本数据的超阈值期望图来对其所属分布函数的特征进行推测。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。