(一)质量数据的分类
不同种类的数据,其统计性质不同,相应的处理方法也就不同,因此,要正确对数据进行分类。食品质量管理中的数据可分为以下两类。
1.计量数据
计量数据是指可连续取值的数据。计量数据一般是用量具、仪器进行测量取得的,其特点是在某一范围内可以连续取值。在食品质量管理中会遇到大量的计量数据,如长度、体积、重量、温度、时间、营养素含量等。计量数据大多服从正态分布。
2.计数数据
计数数据是指不能连续取值的,只能以个数计算的数据。计数数据的取得是通过计数的方法获得的,它们只能取非负的整数。计数数据还可以进一步分为计件数据和计点数据。计件数据表示具有某一质量标准的产品个数,如总体中合格品数、一级品数;计点数据表示个体(单件产品、单位长度、单位面积、单位体积等)上的缺陷数、质量问题点数等,如检验食品包装袋的印刷质量时,包装袋表面的色斑、套色错误等。需要注意的是,计件数据变换成比率后的数据依然是计件数据,如产品的不合格品率。
(二)质量数据的特征值
质量数据的特征值是数据分布趋势的一种度量。数据特征值可分为两类:一类描述数据分布的集中趋势,如平均值、中位数等;另一类描述数据分布的离散程度,如极差、方差、标准差等。
1.表示数据集中趋势的特征值
(1)算术平均值:将所有数据之和为分子,数据的总个数为分母的商。
(2)中位数:把数据按大小顺序排列,当有相同数值时应重复排列,排在中间位置的那个数据即为中位数;当数据的个数为偶数时,中间位置的两个数据的平均值为中位数。
(3)频数:把杂乱的数据按照一定的方式整理出各个不同值出现的次数,称为该值出现的频数。
(4)众数:一组测量数据中出现次数最多的那个数。
2.表示数据离散程度的特征值
(1)极差:一组测量数据中的最大值与最小值之差,通常用符号R表示。
(2)方差:样本数据所有观测值的离差平方和的“平均值”,记为S2。
方差以均值为中心,提取了全部样本数据中的离差信息,这就使得它在反映离散程度方面更加全面,而且均值具有各个样本数据与其离差平方和为最小的性质,也保证了方差在说明均值代表性方面的良好性质。一般地,样本方差S2越大,则样本数据的分散程度越高。
(3)样本标准差。样本方差的量纲与原始数据的量纲不同,它是原始数据量纲的平方,所以在实际应用时常用其算术平方根,称为样本标准差,记为S。
(三)质量数据的概率分布
1.正态分布
在质量管理中,常见的、应用最广的连续变量的分布为正态分布。例如,某一种加工食品的重量、营养成分含量等质量特性值都服从正态分布。若x为一正态随机变量,则x的概率密度为:
式中:μ(-∞<μ<+∞)为总体均值,σ(σ>0)为总体标准差。
正态分布常常记为x~N(μ,σ2),其图形参见图5-1,由图可以看出以下两个方面。
①正态分布是对称的、单峰的钟形曲线。
②任一正态分布仅由μ和σ两个参数完全确定。μ也称分布的位置参数,σ称分布的形状参数;σ值越小,曲线越陡,数据离散程度越小,σ值越大,曲线越扁平,数据的离散程度越大。
图5-1 μ相同、σ不同的三条正态分布曲线
图5-2给出了正态分布曲线下不同面积所包含的概率大小。例如,总体数值有68.26%落于μ±σ界线的范围内,有95.46%落于μ±2σ界线的范围内,有99.73%落于μ±3σ界线的范围内。上述结论是质量管理中经常要用到的。
图5-2 正态分布曲线下不同面积所包含的概率
累积正态分布定义为:正态变量x小于或等于某一数值c的概率,即
为使上述积分的计算与μ以及σ2的具体数值无关,引入标准变换
于是
其中,函数Φ为标准正态分布N(0,1)的累积分布函数。它的计算结果见附录附表1:《标准正态分布表》。表中仅给出正值Z左侧的概率。若考虑其他情况,则可利用正态分布的对称性来计算。例如,可应用下列几个公式:P{Z≥c}=1-P{Z≤c}=1-Φ(c);P{Z≤-c}=P{Z≥c};P{Z≥-c}=P{Z≤c};P{c1<Z≤c2}=Φ(c2)-Φ(c1);其中c, c1,c2>0。
【例5-1】包装纸的抗拉强度是一个重要的质量特性。假定包装纸抗拉强度服从正态分布,其均值为μ=3.0kg/cm2,方差为σ2=0.2kg/cm2。现购买厂家要求包装纸抗拉强度不低于2.5kg/cm2,问购买该种包装纸能满足厂家要求的概率为多少?(www.xing528.com)
解:满足厂家要求的概率为P{x≥2.5}=1-P{x≤2.5}。应用标准变换,可求得P{x≤2.5}=P{Z≤(2.5-3.0)/0.2}=P{Z≤-2.5}=1-Φ(2.5)。
故P={x≥2.5}=1-[1-Φ(2.5)]=0.99379。
2.超几何分布
设有一批产品,批量大小为N,假定其中含有D件不合格品,则该批产品不合格品率P为:
当检验该批产品时,从该批产品中随机每次抽取一件产品共抽n次,而抽出每一件后均不放回到这批产品中去。那么,共抽取n件产品时恰好有x件不合格品的概率服从超几何分布,即
超几何分布的数学期望值和方差分别为:
图5-3给出了N、D、n不全相同的超几何概率分布图形。离散概率分布的图形应由横坐标上孤立点的垂直线条表示,为便于比较而将其顶点用折线相连。
图5-3 超几何概率分布
【例5-2】一批产品,批量为100件。已知批不合格品率为0.01,从批中随机抽取5件,求其中含有1件不合格品的概率和不超过1件不合格品的概率。
解:设样本中含有的不合格品个数为x, D=100×0.01=1,n=5。
3.二项分布
当一个随机事件的发生只有两种可能的状态或结果时,可以用二项概率分布来描述。如果某一随机事件在n次独立试验的每一次试验中出现的概率都是P,它不出现的概率是1-P,那么该事件在n次试验中出现x次的概率为:
二项分布的均值与方差分别为:
在质量管理中,二项分布是常见的。对于从无限总体中抽样而以P表示总体不合格品率的情况,二项分布是适宜的概率模型。
在二项分布中,给定n和P后,P(x)是x的函数,x的可能取值为1,2,……,n。所以,二项分布的图形由(n+1)个离散点构成。图5-4和图5-5分别给出了n的值不全相同和P不全相同的二项分布图形。由图5-4知,当n充分大时,二项分布趋于对称,近似趋于正态分布。由图5-5知,当P=0.50时,图形关于x=nP=5左右对称;而当P≠0.50时,图形就发生偏移,当P=0.25<0.50时,向左偏,当P=0.75>0.50时,向右偏。
图5-4 二项分布的图形随n的变化
图5-5 二项分布的图形随P的变化
【例5-3】某种产品的日产量很大,批不合格品率为0.01。把日产量看作一批,从中随机抽取3个单位产品,求样本中含有不合格品个数的概率分布。
4.泊松分布
在质量管理中,泊松分布的典型用途是用作单位产品上所发生的缺陷数的数学模型。如果单位产品的缺陷数满足以下3条假定,则说明单位产品的缺陷数服从泊松分布。
(1)在单位产品很小的面积上(长度或体积等),出现两个或两个以上缺陷的概率很小,在极限状态下可以略去不计。
(2)在任一很小的面积上,出现一个缺陷的概率仅与面积成正比。
(3)在任一很小面积上是否出现缺陷,与另一很小的面积上是否出现缺陷相互独立。
用x表示缺陷数,则x为随机变量,可取任意一个自然数0,1,2, ... ,缺陷数恰好等于x的概率服从泊松分布。即
式中,参数λ>0,为单位产品缺陷数的期望值,常用样本缺陷数的平均值估计。
泊松分布的均值与方差分别为:
在泊松分布中,给定λ后,P(x)是x的函数,x可能取值为0,1,2,……所以泊松分布由无穷多个离散点构成。图5-6给出了不同λ值的泊松分布图形。由图可见,当λ充分大时,泊松分布趋于对称,近似趋于正态分布。
图5-6 泊松分布图形随λ的变化而变化
【例5-4】在产品的加工过程中,观察产品在装配中发现的缺陷,经统计每台产品的平均装配缺陷数λ=0.5,试求在检验中发现恰有1个缺陷的概率。
解:由题意可知:λ=0.5
在实际应用中,常常通过查《泊松分布表》(附表2),计算其概率值。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。