离散型随机变量的统计规律可以用概率分布准确描述出来,而连续随机变量的统计规律又如何描述呢?为此,我们引入概率密度的概念.
一、连续型随机变量及其概率密度
定义1 对于连续型随机变量X,如果存在一个非负函数f(x),使X在任意区间[a,b]内取值的概率为
称f(x)为连续型随机变量X的概率密度或密度函数,f(x)的图形叫作概率密度曲线.
密度函数具有以下性质:
(1)f(x)≥0;
连续型随机变量的概率分布规律可以用密度函数全面描述,但应注意以下两点.
(1)由定积分的性质可知,连续型随机变量X取任一定值x0的概率P(X =x0)=0,这一点是连续型随机变量与离散型随机变量的本质区别;
(2)连续型随机变量落入某区间的概率与区间是否包含端点无关,即
P(a≤X≤b )=P(a<x≤b)=P(a≤x<b)=P(a<x<b).
例1 已知连续型随机变量X的概率密度为
求(1)常数A;
(2)P(-1<X<2);
(3)P(X<0.2);
(4)P(X>1).
类似于离散型随机变量的分布函数,我们定义连续型随机变量X的分布函数为
连续型随机变量分布函数具有以下性质:
(1)P(a≤X≤b )=F(b)-F(a);
(2)F′(x)=f(x).
例2 已知连续型随机变量X的概率密度为
求X的分布函数F(x).
所以
求(1)P(0.3≤X≤0.7);
(2)密度函数f(x).
解 (1)P(0.3≤X≤0.7)=F(0.7)-F(0.3)=0.49-0.09=0.4;
二、常见连续型随机变量的分布
1.均匀分布
定义2 若连续型随机变量X的密度函数为
则称X在区间[a,b]上服从均匀分布,记为X~U(a,b).
它的分布函数为
例4 某长途汽车站每隔10min有一辆汽车经过,乘客在任一时刻到达汽车站是等可能的,则“乘客等候汽车的时间X”是一个随机变量,它在0~10之间取值:0≤X≤10,求此乘客候车时间超过5min的概率.
解 乘客候车时间X~U(0,10),X的密度函数为
所以 P(X≥5)=P(5≤X<+∞)
2.正态分布
定义3 若连续型随机变量X的密度函数为
则称X服从参数为μ和σ2的正态分布.记为X~N(μ,σ2),其中μ和σ(σ>0)都是常数.它的分布函数为
正态分布是最常见的也是最重要的一种分布,它广泛存在于客观世界的自然现象及社会现象中.例如,调查一大批人的身高,其高度是一个随机变量X,X取值的特点是高度在某一范围(平均值临近)内的人数最多,较高和较低的人数较少,即X的分布具有“中间大”、“两头小”的特点.再例如,人的体重,测量误差,产品的长度、高度、宽度,产品的质量等,这些随机变量,取值的特点也是“中间大”、“两头小”.凡是具有这种特点的随机变量,一般都可以认为服从正态分布.
正态分布的密度函数的图形称为正态曲线.正态曲线呈钟形,中间高两边低(见图7-1和图7-2).它还有以下特征.
图7-1
图7-2
(1)正态曲线位于x轴上方,关于直线x=μ对称,向左右延伸时以x轴为渐近线,参数μ的大小决定了图形的位置,是正态分布的分布中心.
(3)参数σ的大小决定了曲线的形状,当σ越大时,曲线越平缓;当σ越小时,曲线越狭高.参数σ刻划了随机变量X取值的分散程度,σ越大,X的取值越分散,σ越小,X的取值越集中,σ叫作形状参数.
正态分布的μ=0,σ=1时,称为标准正态分布,记作X~N(0,1).它的密度函数为
密度函数的图形叫作标准正态曲线(见图7-3).
图7-3
Φ(x)是一个无穷区间上的广义积分,它表示的是标准正态曲线下小于x的区域面积,如图7-4所示的阴影部分.
图7-4
Φ(x)的计算是很困难的,为此编制了它的近似值表(附表7-1“标准正态分布表”),供读者使用.
标准正态分布表的使用说明:
(1)表中给出了x≥0时,Φ(x)的数值,x<0时,利用标准正态分布密度函数的对称性,必有Φ(x)=1-Φ(-x)(见图7-5).
图7-5
(2)P(a≤Χ≤b )=P(a<Χ≤b )=P(a≤Χ<b )=P(a<Χ<b)=Φ(b)-Φ(a).
例5 已知X~N(0,1),查标准正态分布表求:
(1)P(X≤-2); (2)P(-1<X≤3).
解(1)P(X≤-2)=1-Φ(2)=1-0.9772=0.0228;
(2)P(-1<X≤3)=Φ(3)-Φ(-1)=Φ(3)-1+Φ(1)(https://www.xing528.com)
=0.9987-1+0.8413=0.84.
由此定理可知,一般正态分布的分布函数值的计算可以转化为标准正态分布的分布函数值的计算.
例6 已知X~N(1,4),查标准正态分布表求
(1)P(X≤2); (2)P(0<X≤3).
例7 已知X~N(μ,σ2),求
(1)P(μ-σ<X ≤μ+σ);
(2)P(μ-2σ<X ≤μ+2σ);
(3)P(μ-3σ<X ≤μ+3σ).
解 设Y~N(0,1),则
通过以上计算可知,虽然正态随机变量X的取值范围是全体实数,但它的值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的不足0.003,这在统计学上称为3σ原则(三倍标准差原则).在企业管理中,经常应用这个原则进行质量检查和过程控制.
例8 抽查袋装白糖每包的质量,已知测量值服从N(1000,202),今发现测量中有一个数据是1085,是否可以怀疑机械出了故障?
解 根据原则,几乎全部数据应落在如下区间:
(μ-3σ,μ+3σ)=(1000-3×20.1000+3×20)=(940.1060).
因为1085>1060,可能性很小的事件发生了,故可认为机械出了故障.
习题7.4
1.设随机变量X的密度函数为
(1)试确定常数k;(2)求X的分布函数F(x);(3)求P(1<X≤4).
2.电阻值R是一个随机变量,均匀分布在900~1100,求R的概率密度及R落在950~1050内的概率.
3.设X~N(0,1),试求a的值,使P(X>a)=0.08.
4.设X~N(0,1),试求:
(1)P(X≤2.2); (2)P(X>1.5); (3)P(1<X≤3).
5.某班的一次数学考试成绩X~N(70, 102),按规定是85分以上为优秀,60分以下为不及格,问:
(1)成绩达到优秀的学生占全班的百分之几?
(2)成绩不及格的学生占全班的百分之几?
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。
