首页 理论教育 样本分布函数-《概率论与数理统计》

样本分布函数-《概率论与数理统计》

时间:2023-11-06 理论教育 版权反馈
【摘要】:,xn是总体X的一组样本观察值,将它们按从小到大排列为则函数就是在n次独立重复试验中,事件{X≤x}的频率,也近似为事件{X≤x}的概率.Fn称为样本分布函数或称经验分布函数.如图5.2所示.图5.20≤Fn≤1,并且是非降、右连续的函数,即它具有分布函数的基本性质.实际上它是一个以等概率仅取n个值x1,x2,…

样本分布函数-《概率论与数理统计》

概率论中,我们介绍了常用的几种分布函数以及它们的一些性质,在那里我们假定它们都是事先给定了的.但在实际工作中,常遇到各种各样的随机变量,怎样确定它的分布函数F(x)?现在,我们介绍用重复独立试验的方法,利用样本建立一定的概率模型,用由此所获得的概率统计特征来对总体X的分布函数F(x)等作出估计与推断.

5.2.1.1 频率分布表和频率直方图

我们首先遇到的问题就是如何处理好样本值.样本值往往是一些看起来杂乱无章的数据,需要经过整理、归纳,才能找出其分布规律,然后推断总体X的分布情况.整理数据的常用方法有列表法和图解法(频率分布表和频率直方图).下面我们通过一个例子来介绍整理数据的一般步骤.

【例1】 今在维尼纶正常生产的产品中,抽取100个样本,进行张力试验,记录数据如表5.1.

表5.1 单位:千克

整理数据的步骤如下:

(1)确定极差:找出数据中最小值m=4.2,最大值M=8.9,

极差=M-m=4.7

(2)对样本进行分组:首先确定组数k,作为一般性的原则,组数通常在5~20个,对容量较小的样本,通常将其分为5组或6组,容量为100左右的样本可分7到10组,容量为200左右的样本可分9到13组,容量为300左右及以上的样本可分12到20组,目的是使用足够的组来表示数据的变异.本例中只有100个数据,我们将其分为10组,即k=10.

(3)确定每组组距:每组区间长度可以相同也可以不同,实用中常选用长度相同的区间以便于进行比较,此时各组区间的长度称为组距,其近似公式为

本例组距为

决定分组点,取起点a=4,终点b=9(要求a≤m,M≤b),分组如下:

4~4.5,4.5~5,5~5.5,…,8~8.5,8.5~9

(分组点数据可归下一组)

(4)列出频率分布表(见表5.2)(www.xing528.com)

表5.2 频率分布表

(5)作出频率直方图

所有矩形面积之和等于频率总和,即等于1.

直方图大致地描述了X的概率分布情况.

图5.1

在直方图上方用一条曲线,可大致地将X的分布密度曲线勾画出来.当样本容量n增大,分组更细时,这条曲线就更接近随机变量X实际的分布密度曲线.从图5.1中可以看出X的分布密度曲线的形状,具有中间高两边低,左右基本对称的特点,很像正态分布密度曲线.事实上,很多实际问题的随机变量都近似地服从正态分布.

5.2.1.2 样本分布函数

图5.2

0≤Fn(x)≤1,并且是非降、右连续的函数,即它具有分布函数的基本性质.实际上它是一个以等概率仅取n个值x1,x2,…,xn的离散型随机变量的分布函数.

对不同的样本值,得到的样本分布函数不同,当样本容量较大时,样本分布函数Fn(x)是总体分布函数F(x)的良好近似.n越大,一般近似程度越好.当n→∞时,Fn(x)以概率1关于x一致收敛于F(x),即

这就是著名的格列汶科定理.

这个定理告诉我们,当样本容量n足够大时,对所有的x,Fn(x)与F(x)之差的绝对值都很小,这件事发生的概率为1,这就是我们可以由样本推断总体的基本理论依据.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈