在概率论中,我们介绍了常用的几种分布函数以及它们的一些性质,在那里我们假定它们都是事先给定了的.但在实际工作中,常遇到各种各样的随机变量,怎样确定它的分布函数F(x)?现在,我们介绍用重复独立试验的方法,利用样本建立一定的概率模型,用由此所获得的概率统计特征来对总体X的分布函数F(x)等作出估计与推断.
5.2.1.1 频率分布表和频率直方图
我们首先遇到的问题就是如何处理好样本值.样本值往往是一些看起来杂乱无章的数据,需要经过整理、归纳,才能找出其分布规律,然后推断总体X的分布情况.整理数据的常用方法有列表法和图解法(频率分布表和频率直方图).下面我们通过一个例子来介绍整理数据的一般步骤.
【例1】 今在维尼纶正常生产的产品中,抽取100个样本,进行张力试验,记录数据如表5.1.
表5.1 单位:千克
整理数据的步骤如下:
(1)确定极差:找出数据中最小值m=4.2,最大值M=8.9,
极差=M-m=4.7
(2)对样本进行分组:首先确定组数k,作为一般性的原则,组数通常在5~20个,对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量为200左右的样本可分9到13组,容量为300左右及以上的样本可分12到20组,目的是使用足够的组来表示数据的变异.本例中只有100个数据,我们将其分为10组,即k=10.
(3)确定每组组距:每组区间长度可以相同也可以不同,实用中常选用长度相同的区间以便于进行比较,此时各组区间的长度称为组距,其近似公式为
本例组距为
决定分组点,取起点a=4,终点b=9(要求a≤m,M≤b),分组如下:
4~4.5,4.5~5,5~5.5,…,8~8.5,8.5~9
(分组点数据可归下一组)
(4)列出频率分布表(见表5.2)(www.xing528.com)
表5.2 频率分布表
(5)作出频率直方图
所有矩形面积之和等于频率总和,即等于1.
直方图大致地描述了X的概率分布情况.
图5.1
在直方图上方用一条曲线,可大致地将X的分布密度曲线勾画出来.当样本容量n增大,分组更细时,这条曲线就更接近随机变量X实际的分布密度曲线.从图5.1中可以看出X的分布密度曲线的形状,具有中间高两边低,左右基本对称的特点,很像正态分布密度曲线.事实上,很多实际问题的随机变量都近似地服从正态分布.
5.2.1.2 样本分布函数
图5.2
0≤Fn(x)≤1,并且是非降、右连续的函数,即它具有分布函数的基本性质.实际上它是一个以等概率仅取n个值x1,x2,…,xn的离散型随机变量的分布函数.
对不同的样本值,得到的样本分布函数不同,当样本容量较大时,样本分布函数Fn(x)是总体分布函数F(x)的良好近似.n越大,一般近似程度越好.当n→∞时,Fn(x)以概率1关于x一致收敛于F(x),即
这就是著名的格列汶科定理.
这个定理告诉我们,当样本容量n足够大时,对所有的x,Fn(x)与F(x)之差的绝对值都很小,这件事发生的概率为1,这就是我们可以由样本推断总体的基本理论依据.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。