首页 理论教育 参数分布估计的流派及应用

参数分布估计的流派及应用

时间:2023-11-18 理论教育 版权反馈
【摘要】:本节介绍一些主要的参数分布及估计。参数分布估计流派通常分为频率学派、贝叶斯学派。贝叶斯学派采用给参数赋予先验分布,并使得先验与后验共轭,通过求后验均值来得到参数的估计。当试验次数为1时,二项分布就是伯努利分布。二项分布和泊松分布均是离散相随机变量的参数分布的典型代表。λ是泊松分布的唯一参数,当λ≥20时,其接近于正态分布,可以用正态分布来处理泊松分布问题。

参数分布估计的流派及应用

本节介绍一些主要的参数分布及估计。二项分布、多项式分布等都可以看作参数分布,因为其函数形式都被一小部分参数控制。因此,给定一定规模观测数据集(假定数据满足独立同分布),需要有一个解决方案来确定这些参数值的大小,以便能利用分布模型来做密度估计。参数分布估计的常用思路:假设参数集合Λ是变量,而且在做试验前已经服从某个分布P(Λ)(来源于以前做试验数据计算得到,或来自人们的主观经验),然后做新试验去更新这个分布假设。参数分布估计流派通常分为频率学派、贝叶斯学派。其中,频率学派解决方案是通过某些优化准则(如似然函数)来选择特定参数值;贝叶斯学派解决方案是假定参数服从一个先验分布,将观测到的数据使用贝叶斯理论来计算对应的后验分布。贝叶斯学派采用给参数赋予先验分布,并使得先验与后验共轭,通过求后验均值来得到参数的估计。不管哪个学派思想,都要用到似然函数:频率学派使用的似然函数是N次伯努利试验下的似然函数;贝叶斯学派使用的似然函数是二项式分布形式的似然函数(二项式分布是N次伯努利试验中出现某事件的次数的分布)。

当拥有无限数据量时,采用贝叶斯学派方法和频率学派方法所得到的参数估计是一致的;在有限的数据量下,贝叶斯学派的参数后验均值的大小介于先验均值和频率学派方法得到参数估计之间。例如,在抛硬币实验中,当数据量有限时,先验均值为0.5,后验均值将比先验大,比频率学派方法得到的参数估计小。随着观测数据增多,后验分布曲线越来越陡峭(越来越集中),即方差越来越小(后验方差总比前验方差小);当数据量趋近于无穷大时,方差趋近于0,即随着数据越来越多,后验的不确定性减小。

1.二项分布

二项分布(Binomial Distribution)是指重复N次独立的伯努利试验(N重伯努利试验)。当试验次数为1时,二项分布就是伯努利分布。二项分布需要满足的条件:每次试验中事件只有两种结果,事件发生或者不发生(如硬币的正面或反面);每次试验中事件发生的概率是相同的(例如,每次抛硬币,硬币的正面和反面朝上的概率都为0.5);N次试验的事件相互之间独立。二项分布的概率密度函数定义为

式中,k——事件发生的次数,k=0,1,2,…,N;

X——服从二项分布的随机变量

img

二项分布的特征:当p较小且N不大时,分布是偏倚的,但随着N的增大,分布逐渐趋于对称;当p约等于1 p−且N趋近于无穷大时,二项分布的极限分布为正态分布;当p很小且N很大时,二项分布的极限分布为泊松分布。

2.泊松分布

泊松分布(Poisson Distribution)由二项分布推导而来,是二项分布的极限情况,即在二项分布的伯努利试验中,如果试验次数N很大,二项分布的概率p很小,且乘积λ=N·p 比较适中,则事件出现的次数的概率可以用泊松分布来逼近。二项分布和泊松分布均是离散相随机变量的参数分布的典型代表。泊松分布的概率分布函数为

泊松分布的特征:平均数 μ 与方差σ2相等,均等于λ,即μ=σ2=λ。λ是泊松分布的唯一参数,当λ≥20时,其接近于正态分布,可以用正态分布来处理泊松分布问题。

3.Beta分布

Beta分布(Beta Distribution)是指一组定义在区间(0,1) 的连续概率分布,有两个参数α和β(满足α>0且β>0),记为X~Beta(α,β)。Beta分布的概率密度函数定义为(www.xing528.com)

式中,Γ(·)——伽玛函数(Gamma函数),定义为

伽玛函数Γ(·)具备以下三条主要性质:

式(2−11)中的函数B(,)··称为B函数,又称第一类欧拉积分。B函数用于保证Beta分布是归一化的,定义为

上述公式表征了B函数B(·,·)和伽玛函数Γ(·)的关系,这个关系在吉布斯采样(Gibbs Sampling)中也适用。Beta分布的均值(期望)定义:如果p~Beta(t|α,β),则E(p )=α /(α +β)。

此外,Beta分布是二项分布的共轭先验概率分布。所谓的“共轭”,是指选取一个函数作为似然函数(Likelihood Function)的先验分布(Prior Distribution),使得后验分布(Posterior Distribution)函数和先验分布函数形式一致。根据贝叶斯规则,后验分布可以表示为似然函数与先验分布的乘积,即

4.多项式分布

多项式分布(Multinational Distribution)是二项分布的扩展:N次独立试验中,每次只输出k种结果中的一种,而且每种结果都有一个确定概率{pi|i∈[1,k]}。多项式分布式的概率密度函数定义为

也可以用伽玛函数表示:

5.正态分布

正态分布(Normal Distribution)是一种重要的连续随机变量的概率分布。中心极限定理表明,在观测数据量非常大的时候,具有独立分布的独立随机变量的观测样本的平均值收敛于正态分布。不少随机变量的概率分布在一定条件下以正态分布为极限分布,如二项分布、泊松分布等。正态分布所需满足的条件:随机变量受到若干独立因素共同影响,且每个因素不能产生支配性的作用。正态分布的概率分布函数为

正态分布的特征:正态分布是关于x μ=对称的;正态分布曲线有两个拐点,分别在离均值一个标准差的位置,即x μ σ=−和x μ σ=+;对于特定的期望值和方差,正态分布是具有最大熵的连续分布;对于离期望值好几个标准差范围之外的取值,它们的概率趋近于0。正态分布是许多统计方法的理论基础,如检验、方差分析、相关和回归分析等统计方法均要求所分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也以正态分布为理论基础。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈