(一)调查表
1.调查表的概念
调查表,也叫检查表或核对表,是用于收集整理数据并对数据进行粗略的分析以确定质量原因的一种规范化表格。其格式多种多样,可根据调查目的的不同,使用不同的调查表。调查表把产品可能出现的情况及其分类预先列成统计表,在检查产品时只需在相应分类中进行统计,并可对其进行粗略的整理和简单的原因分析,为下一步的统计分析与判断质量创造良好条件。
2.常用的几种调查表
为了能够获得良好的效果、可比性和准确性,调查表的设计应简单明了,突出重点;应填写方便,符号好记;填写好的调查表要定时、准确更换并保存,数据要便于加工整理,分析整理后及时反馈。常用的调查表有以下4类。
(1)质量分布调查表:又称工序分布调查表,是对计量值数据进行现场调查的有效工具。它是根据以往的资料,将某一质量特性项目的数据分布范围分成若干区间而制成的表格,用以记录和统计每一质量特性数据落在某一区间的频数(表6-3)。从表格形式看,质量分布调查表与直方图的频数分布表相似。所不同的是,质量分布调查表的区间范围是根据以往资料,首先划分区间范围,然后制成表格,以供现场调查记录数据;而频数分布表则是首先收集数据,再适当划分区间,然后制成图表,以供分析现场质量分布状况之用。
表6-3 产品重量实测值分布调查表
应该注意的是,如果数据有随时间变化的倾向性,仅看调查表还发现不了,这时可按时间分层作表或用不同的颜色符号在表中予以标记。
(2)不合格项目调查表:不合格项目调查表主要用来调查生产现场不合格项目频数和不合格品率,以便继而用于排列图等分析研究。表6-4是某食品企业在某月玻璃瓶装酱油抽样检验中的外观不合格项目调查记录表。从外观不合格项目的频次可以看出,标签歪和标签擦伤的问题较为突出,说明贴标机工作不正常,需要调整、修理。
表6-4 玻璃瓶装酱油外观不合格项目调查表
续表
(3)不合格位置调查表:或称缺陷位置调查表,就是先画出产品平面示意图,把图面划分成若干小区域,并规定不同外观质量缺陷的表示符号。调查时,按照产品的缺陷位置在平面图的相应小区域内打记号,最后统计记号,可以得出某一缺陷比较集中在哪一个部位上的规律,这就能为进一步调查或找出解决办法提供可靠的依据。
现以麦乳精包装袋的印刷质量缺陷位置调查为例说明,结果见表6-5。调查结果表明色斑最严重,而且集中在E、F和H区;条状纹其次,主要集中在A区;排在第三位的是套色错位,集中在B、C、D区。接下去就可以用因果图首先对色斑问题进行分析,找出原因,制定改进措施;然后依次对条状纹和套色错位进行分析。
表6-5 麦乳精包装袋印刷质量缺陷位置调查表
(4)不合格品原因调查表:为了调查不合格品原因,通常把有关原因的数据与其结果的数据一一对应地收集起来。记录前应明确检验内容和抽查间隔,由操作者、检查员、班组长共同执行抽检的标准和规定。以下是某车生产的PET瓶外观不合格原因调查表,如表6-6所示。从表中可以看出:1#机发生的外观质量缺陷较多,操作工B生产出的产品不合格最多。
表6-6 PET瓶外观不合格原因调查表
注:〇气孔;△裂纹;◆疵点;×变形;□其他。
(二)分层法
1.分层法的概念
引起质量波动的原因是多种多样的,因此收集到的质量数据往往带有综合性。为了能真实地反映产品质量波动的实质原因和变化规律,就必须对质量数据进行适当归类和整理。分层法是分析产品质量原因的一种常用的统计方法,它能使杂乱无章的数据和错综复杂的因素系统化和条理化,有利于找出主要的质量原因和采取相应的技术措施。
质量管理中的数据分层就是将数据根据使用目的,按其性质、来源、影响因素等进行分类的方法,把不同材料、不同加工方法、不同加工时间、不同操作人员、不同设备等各种数据加以分类,也就是把性质相同、在同一生产条件下收集到的质量特性数据归为一类。
分层法经常同质量管理中的其他方法一起使用,如将数据分层之后再进行加工整理成分层排列图、分层直方图、分层控制图和分层散布图等。
2.常用的分层方法
分层有两个重要原则:①同一层内的数据波动幅度尽可能小;②层与层之间的差别尽可能大。否则就起不到归类汇总的作用。分层的目的不同,分层的标志也不一样。一般来说,分层可采用以下标志。
(1)操作人员。可按年龄、工级和性别等分层。
(2)机器。可按不同的工艺设备类型、新旧程度、不同的生产线等进行分层。
(3)材料。可按产地、批号、制造厂、成分等分层。
(4)方法。可按不同的工艺要求、操作参数、操作方法和生产速度等进行分层。
(5)时间。可按不同的班次、日期等分层。
当分层分得不好时,会使数据的真实规律性隐蔽起来,造成假象。若作直方图分层不好时,就会出现双峰型和平顶型;排列图分层不好时,矩形高度差不多,无法区分主要因素和次要因素;散布图分层不好时,会出现几簇互不关联的散点群;控制图分层不好时,无法反映工序的真实变化,不能找出数据异常的原因;因果图分层不好时,不能搞清大原因、中原因、小原因之间的真实传递途径。
3.分层法示例
【例6-1】某食品厂的糖水水果旋盖玻璃罐头经常发生漏气,造成产品变质。为解决这一质量问题,对该工序进行现场统计。被调查的100瓶罐头,有19瓶漏气,漏气率为38%。通过分析,认为造成漏气的原因有两个:一是由于A、B、C 3台封罐机的生产厂家不同,二是所使用的罐盖是由甲、乙两个罐盖生产厂家提供的。
为了弄清究竟是什么原因造成漏气或找到降低漏气率的方法,他们将数据进行分层。先按封罐机生产厂家进行分层,得到的统计情况如表6-7所示。然后按罐盖生产厂家进行分层,得到的统计情况如表6-8所示。
表6-7 按封罐机生产厂家进行分层统计表
表6-8 按罐盖生产厂家进行分层统计表
由上面两个表格可以得出这样的结论:为降低漏气率,应采用B厂的封罐机和采用乙厂的罐盖。实际情况并非如此,采用此方法后的漏气率反而高达43%(6/14,见表6-9)。因此这样简单的分层是有问题的。正确的方法应该是:
(1)当采用甲厂生产的罐盖时,应推广采用B厂的封罐机;
(2)当采用乙厂生产的罐盖时,应推广采用A厂的封罐机。
这时它们的漏气率平均为0。因此运用分层法时,不宜简单地按单一因素分层,必须考虑各因素的综合影响效果。
表6-9 综合分层的统计表
【例6-2】某饮料公司在月底将本月产品的质量损失进行统计分析,依损失项目分层统计如表6-10所示。
表6-10 某饮料公司产品质量损失统计表
由表6-10看出,其中仅第一项损失就占了总损失的50%多,解决破损问题是下一个月质量改进的重点。
(三)排列图
1.排列图的概念
排列图,又叫帕累托(pareto)图,全称是主次因素分析图。它是将质量改进项目从最重要到最次要进行排列而采用的一种简单的图示技术。排列图建立在帕累托原理的基础上,帕累托原理是19世纪意大利经济学家在分析社会财富的分布状况时发现的:国家财富的80%掌握在20%的人的手中,这种80%与20%的关系,即是帕累托原理。我们可以从生活中的许多事件上得到印证:生产线上80%的故障,发生在20%的机器上;企业中由员工引起的问题当中80%是由20%的员工所引起的;80%的结果,归结于20%的原因。这就是所谓的“关键的少数和次要的多数”关系。如果我们能够知道,产生80%收获的,究竟是哪20%的关键付出,那么我们就能事半功倍了。
在质量管理中运用排列图,就是根据“关键的少数和次要的多数”的原理,对有关产品质量的数据进行分类排列,用图形表明影响产品质量的关键所在,从而便可知道哪个因素对质量的影响最大,改善质量的工作应从哪里入手解决问题最为有效,经济效果最好。
2.排列图的图形
排列图由两个纵坐标、一个横坐标、几个直方图和一条曲线组成。如图6-4所示,左边的纵坐标表示频数,右边的纵坐标表示累计频率(以百分比表示),横坐标表示影响产品质量的各个因素,按影响程度的大小从左至右排列;直方形的高度表示某个因素影响的大小;曲线表示各因素影响大小的累计百分数,这条曲线称为帕累托曲线。
图6-4 排列图的格式
通常将累计百分数分为3类:累计百分数在0~80%的因素为A类,显然它是主要因素;累计百分数在80%~90%的因素为B类,是次要因素;累计百分数在90%~100%的为C类,在这一区间的因素为一般因素。
3.排列图的制作步骤
下面举例说明排列图的具体做法。
【例6-3】对某种食品进行质量检验,并对其中的不合格品进行原因分析,共检查了7批,对每一件不合格品进行原因分析,结果如表6-11所示。
表6-11 不合格品原因调查表
从表6-11中给出的数据可以看出各种原因造成的不合格品的比例。为了找出产生不合格品的主要原因,需要通过排列图进行分析,具体步骤如下。
(1)列频数统计表。将表6-11中的数据按频数或频率大小顺序从上到下重新进行排列,“其他”排在最后,然后再加上一列“累积频率”,便得到频数统计表,如表6-12所示。
表6-12 排序后的频数统计表
(2)做图。画两根纵轴和一根横轴。将横轴等分成6段,从左到右依次标出各个原因,“其他”这一项放在最后;在左纵轴上标上频数,最大刻度为总频数,在右纵轴的相应位置上标出频率,最大刻度为100%;然后在图上每个原因项的上方画一个矩形,其高度等于相应的频数,宽度相等且不留间隙,并在矩形上面写上频数;最后在每一矩形的上方中间位置上点上一个点,其高度为到该原因为止的累积频数,在这个点附近写上相应累积频率,并从原点开始把这些点连成一条折线,这条折线称为累积频率折线,也称帕累托曲线,如图6-5所示。
图6-5 不合格品原因分析的排列图
(3)确定主要原因。在频率为80%处画一条水平线,在该水平线以下的折线部分对应的原因便是主要因素。从图6-5可以看出,造成不合格品的主要原因是操作、工具与设备,要减少不合格品应该首先从这3个方面着手。
4.应用排列图的注意事项
(1)排列图的制作要点。
①主要因素不能过多,一般以1~2个为宜,最多不超过3个,过多就失去了画排列图找主要问题的意义。如果出现主要因素过多的情况,则应考虑重新分层。
②分类方法不同,得到的排列图不同。通过不同的角度观察问题,把握问题的实质,需要用不同的分类方法进行分类,以确定“关键的少数”,这也是排列图分析方法的目的。
③如果“其他”项所占的百分比很大,是因为调查的项目分类不当,把许多项目归在了一起,这时应考虑采用另外的分类方法。
(2)使用排列图的注意事项。
①如果希望问题能简单地得到解决,必须掌握正确的方法。排列图可用来确定优先改进的问题顺序,做排列图后,应跟上措施。
②排列图的目的在于有效解决问题,基本点就是只要抓住“关键的少数”就可以了。如果某项问题相对来说不是“关键的”,建议采取简单的措施解决即可。
③排列图可用来确定采取措施的顺序。一般地,把发生率高的项目减低一半要比将发生问题项目完全消除更容易。因此,对排列图中矩形柱高的项目采取措施可事半功倍。
④对照采取措施前后的排列图,研究组成各个项目的变化,可以对措施的效果进行验证。如果改进措施有效,排列图在横轴上的项目顺序应有变化。当项目的顺序有变化而总的不合格品数仍没有什么变化时,可认为是作业过程仍不稳定,未得到控制,应继续寻找原因。通过连续使用,找出复杂问题的最终原因。
(四)因果图
1.因果图的概念
任何一项质量问题的发生或存在都是有原因的,而且经常是多种复杂因素平行或交错地共同作用所致。要有效地解决质量问题,首先要从不遗漏地找出这些原因入手,而且要从粗到细地追究到最原始的因素,因果图正是解决这一问题的有效工具。
因果图是一种用于分析质量特性(结果)与影响质量特性的因素(原因)之间关系的图。该图由日本质量管理专家石川馨于1943年提出,也称石川图,其形状如鱼刺,故又称鱼刺图。
通过对影响质量特性的因素进行全面系统的观察和分析,可以找出质量因素与质量特性的因果关系,最终找出解决问题的办法。由于它使用起来简便有效,在质量管理活动中应用广泛。
2.因果图的格式
因果图是由以下几部分组成的,见图6-6。
图6-6 因果图示意图
(1)特性:生产过程或工作过程中出现的结果,一般指尺寸、重量、强度等与质量有关的特性,以及工时、产量、机器的开动率、不合格率、不合格数、事故件数、成本等与工作质量有关的特性。因果图中所提出的特性,是指要通过管理工作和技术措施予以解决并能够解决的问题。
(2)原因:对质量特性产生影响的主要因素,一般是导致质量特性发生分散的几个主要来源。原因通常又分为大原因、中原因、小原因等。一般可以从人、机、料、法、环及测量等多个方面去寻找原因。在一个具体的问题中,不一定每一个方面的原因都要具备。
(3)枝干:表示特性(结果)与原因关系或原因与原因关系的各种箭头。其中,把全部原因同质量特性联系起来的是主干;把个别原因同主干联系起来的是大枝;把逐层细分的因素(一直细分到可以采取具体措施的程度为止)同各个要因联系起来的是中枝、小枝和细枝。
利用因果图可以找出影响质量问题的大原因,寻找到大原因背后的中原因,再从中原因找到小原因和更小的原因,最终查明主要的直接原因。这样顺藤摸瓜、步步深入进行有条理的分析,可以很清楚地看出“原因-结果”之间的关系,使问题的脉络完全显示出来。
3.因果图的作图步骤
下面通过实例来介绍因果图的具体画法。
【例6-4】某乳品厂裱花蛋糕微生物超标,请用因果图进行分析,找出微生物超标的原因,以便采取针对性措施加以解决。
(1)确定待分析的质量问题,将其写在右侧的方框内,并画出主干,指向右端。裱花蛋糕微生物超标是该问题的特性,将它填写在右侧的方框内,并在左侧画一个自左向右的粗箭头。
(2)确定造成这个质量问题的因素分类项目,画出大枝。作图时,大枝相互平行箭头指向主干,箭尾端记上分类项目,并加方框表示。常按影响工序质量的因素分5大类:人、机、料、法、环。造成裱花蛋糕微生物超标的原因可以具体分成原料、机器、操作者、环境和测量5大类,用大枝表示。
(3)将大枝所代表的分类项目分别展开为中枝,每个中枝表示各项目中造成质量问题的一个原因。作图时,中枝平行于主干指向大枝,将原因记在中枝上下方。
(4)将中枝原因再展开,分别画小枝,小枝是造成中枝的原因,以此类推,依次展开,直至细到能采取措施为止。
(5)确定因果图中的主要、关键原因,并用符号明确地标出,再去现场调查研究,验证所确定的主要、关键原因是否找对、找准,以此作为制定质量改进措施的重点项目。一般情况下,主要、关键原因不应超过所提出的原因总数的1/3。由分析结果可以找出,使产品微生物偏高的主要问题是机器未按时消毒、操作者培训不够、空调制冷能力差。应考虑采取措施予以改进。
(6)注明本因果图的名称、日期、参加分析的人员、绘制人和参考查询事项,如图6-7所示。
图6-7 裱花蛋糕微生物超标因果图
4.因果图应用注意事项
(1)画因果图时要充分发扬民主,畅所欲言,把各种意见都记录、整理入图。
(2)因果图只能用于单一目的的研究分析。例如,同一批产品的长度和重量都存在问题,必须用两张因果图分别分析长度问题原因和重量问题原因。
(3)主要或关键原因越具体,改进措施的针对性越强。主要或关键原因确定后,应到现场去落实、验证主要原因,再制定切实可行的措施去解决。
(4)不要过分追究个人责任,而要从组织上、管理上找原因。实事求是地提供质量数据和信息,不相互推脱责任。
(5)尽可能用数据反映、说明问题。
(6)画出因果图后,就要针对主要原因列出对策表,包括原因、改进项目、措施、负责人、进度要求、效果检查和存在问题等。
(五)直方图
1.直方图的概念
直方图亦称频数分布图,是适用于对大量计量数据进行整理加工,找出其统计规律,即分析数据分布的形态,以便对其总体的分布特征进行推断,从而对工序或批质量水平进行分析的方法。
直方图的基本图形为直角坐标系下若干依照顺序排列的矩形,各矩形底边相等称为数据区间,矩形的高为数据落入各相应区间的频数。
在生产实践中,尽管我们收集到的各种数据含义不同、种类有别,但都满足以下两个基本特征。
(1)这些数据毫无例外地都具有分散性。例如,同一批机加工零件的几何尺寸不可能完全相等。
(2)如果我们收集数据的方法恰当,收集的数据又足够多,经过仔细观察或适当整理,我们可以看出这些数据并不是杂乱无章的,而是呈现出一定的规律性。
要找出数据的这种规律性,最好的办法就是通过对数据的整理做出直方图,通过直方图可以了解到产品质量的分布状况、平均水平和分散程度。这有助于我们判断生产过程是否稳定正常,分析产生产品质量问题的原因,预测产品的不合格品率,提出提高质量的改进措施。
2.直方图的作图步骤(www.xing528.com)
下面通过一个具体的例子来说明直方图的作图步骤。
【例6-5】某食品厂用自动灌装机生产饮料食品,从一批饮料中随机抽取100个进行称量,获得饮料的净重数据如表6-13所示。请用直方图分析灌装机的工序质量。
表6-13 所称100个饮料的净重数据
单位:g
(1)收集数据。收集数据就是随机抽取50个以上的质量特性数据。数据越多,作的直方图效果越好,数据太少,所反映的分布及随后的各种计算结果误差会很大。本例收集100个数据,见表6-13。
(2)计算数据的极差。找出所有数据中的最大值和最小值,求出全体数据的分布范围,即极差R。本例最大值是356,最小值是332,极差R=Xmax-Xmin=356-332=24。
(3)确定组数和组距。组数一般用k表示,组距一般用h表示。一批数据究竟分多少组,通常根据样本量n的多少而定,表6-14是可以参考的分组数。选择k的原则是要能显示出数据中所隐藏的规律,组数不能过多,但也不能太少。一般情况下,正态分布为对称形,故常取k为奇数,本例可分为9组,即k=9。
表6-14 组数选用表
每一组的区间长度,称为组距,组距等于极差除以组数。在本例中,n=100,取k=9,h=R/k=24/9=2.7,为简便计算,取h=3。
(4)确定组限。组限即每个组区间的端点。由全部数据的最小值开始,每加一次组距就可以构成一个组的组限。但在划分组限前,必须明确端点的归属。只要组限比原始数据的有效数字多取一位,就不会存在端点数据的归属问题。本例最小值为332,则第一组的组限值应该为(331.5,334.5);第2组的下限值是第一组的上限值,第2组的上限值是第2组的下限值加上组距;以此类推,可计算每组的组距,见表6-15。
(5)作频数分布表,统计各组频数和频率。频数就是实测数据中处于各组中的个数,频率就是各组频数占样本大小的比重。统计结果见表6-15。
表6-15 频数(率)分布表
(6)画直方图。以各组的序号为横坐标,频数为纵坐标,建立直角坐标系。以各组的频数为高度做一系列矩形,即可得到如图6-8所示的直方图。
(7)分析。该图中间高,两边低,左右基本对称。这说明样本可能取自某正态总体,即呈正态分布的过程。
图6-8 灌装饮料净重直方图
3.直方图的几种典型形状
直方图可有各种形状,图6-8所显示的直方图是在质量管理中较常见的一种,还可能出现图6-9中所列的一些直方图。分析这些直方图出现的原因是一件很有意义的工作,找到原因,就可采取对策,提高产品及过程的质量。下面对图6-9上的若干直方图产生原因作进一步分析。
图6-9 常见直方图的形状
(1)对称型,如图6-9(a)所示。即上面提到的中间高、两边低、左右基本对称的情况,符合正态分布。这是从稳定正常的工序中得到的数据做成的直方图,表明过程处于稳定状态。
(2)偏态型,如图6-9(b)所示。常见的有两种形状:一种是峰偏在左边,而右面的尾巴较长;另一种是峰偏在右边,而左面的尾巴较长。造成这种图的原因是多方面的,有时是剔除了不合格品后作的图形,也有的是质量特性值的单侧控制造成的,如加工孔的时候习惯于孔径“宁小勿大”,而加工轴的时候习惯于轴径“宁大勿小”等。
(3)孤岛型,如图6-9(c)所示。出现这种情况说明短时间内有异常因素在起作用,如原料发生变化、设备故障、测量错误或短时间内有不熟练的工人替班等。
(4)锯齿型,如图6-9(d)所示。直方图呈现凸凹不平的形状。这多是测量方法或读数有问题,也可能是因分组不当引起的。
(5)平顶型,如图6-9(e)所示。直方图没有突出的顶峰。这可能是由于多种分布混合在一起,或生产过程中有某种缓慢变化的因素造成的,如刀具磨损、操作者疲劳等。
(6)双峰型,如图6-9(f)所示。直方图出现两个峰。原因通常是将两台不同机器生产的或两个不同操作水平的工人生产的或由两批不同原材料生产的产品的数据混合所致。
4.直方图与公差的比较
将直方图和公差对比来观察直方图大致有以下几种情况,如图6-10所示。
图6-10 直方图与公差比较图
(1)理想型,如图6-10(a)所示。直方图的分布范围B位于公差范围T内且略有余量,直方图的分布中心(平均值)与公差中心近似重合。这是一种理想的直方图。此时,全部产品合格,工序处于控制状态。
(2)单侧无余量或余量太小,如图6-10(b)所示。直方图的分布范围B虽然也位于公差范围T内,且也是略有余量,但是分布中心偏移公差中心。此时,若工序状态稍有变化,产品就可能超差,出现不合格品。因此,需要采取措施,使得分布中心尽量与公差中心重合。
(3)无富裕型,如图6-10(c)所示。直方图的分布范围B位于公差范围T之内,中心也重合,但是完全没有余地,此时平均值稍有偏移便会出现不合格品,应及时采取措施减少分散。
(4)富裕型,如图6-10(d)所示。还可能有一种情况,直方图的分布范围B位于公差范围T之内,且中心重合,但是两者相差太多,也不是很适宜。此时,可以对原材料、设备、工艺等适当放宽要求或缩小公差范围,以提高生产速度,降低生产成本。
(5)双超型,如图6-10(e)所示。直方图的分布范围B超出公差范围T,两边产生了超差。此时已出现不合格品,应该采取技术措施,提高加工精度,缩小产品质量分散。如属标准定得不合理,又为质量要求所允许,可以放宽标准范围,以减少经济损失。
(6)单超型,如图6-10(f)所示。直方图的分布范围B过分地偏离公差范围T,已明显看出超差。此时应该调整分布中心,使其接近公差中心。
5.直方图的定量描述
如果画出的直方图比较典型,我们对照以上各种典型图,便可以作出判断。但是实践活动中画出来的图形多少有些参差不齐,或者不那么典型。而且,由于日常的生产条件变化不太大,因此画出的图形较相似,往往从外形上难以观察分析,得出结论。例如,图6-11是用连续2个月生产数据画出的直方图,其公差中心为10.25,从外形上观察很难分清哪个图表示的生产状况更好些。如果能用数据对直方图进行定量的描述,那么分析直方图就会更有把握些。描述直方图的关键参数有两个:一是平均值,另一个是标准偏差S。
图6-11 生产数据直方图
在直方图中,平均值表示数据的分布中心位置,它与规格中心M越靠近越好。标准偏差S表示数据的分散程度。标准偏差S决定了直方图图形的“胖瘦”,S越大,图形越“胖”,表示数据的分散程度越大,说明这批产品的加工精度越差。
据此,再观察图6-11,我们就可以轻易地注意到7月和8月这两个月的生产状况是有差异的:更靠近公差中心10.25,表明控制得更合理;小,说明控制更严格,质量波动小。因此,8月份生产的产品质量要更好些。
6.直方图的局限性
直方图的一个主要缺点是不能反映生产过程中质量随时间的变化情况。如果存在时间倾向,如机具的磨损或存在其他非随机排列,则直方图会掩盖这种信息,如图6-12所示,在时间进程中存在着趋向性异常变化,但从直方图图形来看,却属于正常型,就掩盖了这种信息。
图6-12 直方图的局限性
(六)散布图
1.相关关系
一切客观事物总是相互联系的,每一事物都与它周围的其他事物相互联系,互相影响。产品质量特性与影响质量特性的诸因素之间,一种特性与另一种特性之间也是相互联系,相互制约的。反映到数量上,就是变量之间存在着一定的关系。这种关系一般说来可分为确定性关系和非确定性关系。
所谓确定性关系,是指变量之间可以用数学公式确切地表示出来,也就是由一个自变量可以确切地计算出唯一的一个因变量,这种关系就是确定性关系。但是,在另外一些情况下,变量之间的关系并没有这么简单。例如,人的体重与身高之间有一定的关系。不同身高的人有不同的体重,但即使是相同身高的人,体重又不尽相同。原来身高与体重还受年龄、性别、体质等因素的制约,所以相同身高的人体重也不尽相同,它们之间不存在确定性的函数关系。我们把变量之间的这种既有关,但又不能由一个或几个变量去完全或唯一确定另一个变量的关系,称为相关关系。
产品特性与工艺条件之间,试验结果与试验条件之间,普遍存在着这种非确定的相关关系。
2.散布图的概念
两种对应数据之间有无相关性、相关关系是一种什么状态,只从数据表中观察很难得出正确的结论。如果借助于图形就能直观地反映数据之间的关系,散布图具有这种功能。散布图,又称相关图,是描绘两种质量特性值之间相关关系的分布状态的图形,即将一对数据看成直角坐标系中的一个点,多对数据得到多个点组成的图形即为散布图,如图6-13所示。
图6-13 散布图示意图
3.散布图的类型
散布图的类型主要是看点的分布状态,判断自变量x与因变量y有无相关性。两个变量之间的散布图的图形形状多种多样,归纳起来有6种类型,如图6-14所示。
(1)强正相关:如图6-14(a)所示,其特点是x增加,导致y明显增加。说明x是影响y的显著因素,x、y相关关系明显。
图6-14 散布图的类型
(2)弱正相关:如图6-14(b)所示,其特点是x增加,也导致y增加,但不显著。说明x是影响y的因素,但不是唯一因素,x、y之间有一定的相关关系。
(3)强负相关:如图6-14(c)所示,其特点是x增加,导致y减少,说明x是影响y的显著因素,x、y之间相关关系明显。
(4)弱负相关:如图6-14(d)所示,其特点是x增加,也导致y减少,但不显著。说明x是影响y的因素,但不是唯一因素,x、y之间有一定的相关关系。
(5)不相关:如图6-14(e)所示,其特点是x、y之间不存在相关关系,说明x不是影响y的因素,要控制y,应寻求其他因素。
(6)非线性相关:如图6-14(f)所示,其特点是x、y之间虽然没有通常所指的那种线性关系,却存在着某种非线性关系。说明x仍是影响y的显著因素。
4.散布图的作图步骤
(1)选定对象。可以选择质量特性值与因素之间的关系,也可以选择质量特性与质量特性值之间的关系,或者是因素与因素之间的关系。
(2)收集数据。一般需要收集成对的数据30组以上。数据必须是一一对应的,没有对应关系的数据不能用来作相关图。
(3)画横坐标x与纵坐标y,并标刻度。一般横坐标表示原因特性,纵坐标表示结果特性。坐标轴刻度划分的原则是:应使x最小值至最大值(在x轴上的)的距离,大致等于y最小值至最大值(在y轴上的)的距离。其目的是为了防止判断的错误。
(4)描点。把数据对对应的点在图上描出来。如果有两组数据完全相同,则在点子上加一个圆圈(〇)表示;如果有三组数据完全相同,则在点子上加两重圆圈(◎)表示。
5.散布图的相关性检验
两个变量是否存在着线性相关关系,通过画散布图,大致可以做出初步的估计。但实际工作中,由于数据较多,常常会做出误判。因此,还需要相应的检验判断方法。通常采用中值法和相关系数法进行检验。
(1)中值法。中值法的具体步骤如下。
①作中值线。在散布图上做中值线A(平行于y轴)和中值线B(平行于x轴),分别使A、B两侧的点数相同,A、B将散布图划分成4个区间Ⅰ、Ⅱ、Ⅲ、Ⅳ(类似数学中的象限),如图6-15所示。
图6-15 中值线A和B
②数点。数出各个区间内的点数n及位于线上的点数。例如,有一个用N=55组数据做成的散布图,各个区间及线上的点数,如表6-16所示。
表6-16 区间与点数
③计算。分别计算两个对角区间的点数和,然后找出两者之间的最小值,作为判定值。n1+n3=42,n2+n4=11。因此,判定值为11。
④查表判定。将计算结果与检定表比较,如果判定值小于临界值,应判为相关,否则为无关。相关检定表如表6-17所示。本例中,由于N=55,落在线上2点,因此查N=43时的临界值。当显著性为1%时,临界值为16;显著性为5%时,临界值为18。上面计算得出的判定值11均小于临界值,因此判定这两个变量具有相关关系。
表6-17 相关检定表
(2)相关系数法。
①相关系数的概念。相关系数是衡量变量之间相关性的特定指标,用r表示,它是一个绝对值在0~1的系数,其值大小反映两个变量相关的密切程度。相关系数有正负号,正号表示正相关,负号表示负相关。
当x增加y亦随之增加时,r>0,是正相关;在x增加y随之减小时,r<0,是负相关。当r的绝对值愈接近于1时,表明x与y愈接近线性关系。如果r接近于0甚至等于0,只能认为x与y之间没有线性关系,不能确定x与y之间是否存在其他关系。
②相关系数的计算公式。
可以分别令:
则相关系数r的简化计算公式为:
【例6-6】有数据如表6-18所示,试计算相关系数。
表6-18 数据表
将表6-18中的相关数据代入上面的计算公式,即可得r=0.97。
③相关系数检验。计算出相关系数以后就可以查相关系数检验表,对计算出的相关系数进行检验。表6-19为相关系数检验表,表中n-2为自由度,5%和1%为显著性水平。
表6-19 相关系数检验表
对【例6-6】,共有10对数据,则从表6-19中查出n-2=8时,相关系数的临界值r0.05(8)=0.632,因为|r|>0.97>0.632,所以,x与y之间存在着线性相关关系。
6.散布图的应用
散布图的应用分两步:一是作图观察,初步判断是否具有相关关系;二是若有相关关系则进一步判断相关程度如何,如果两个因素的相关程度很高,可用一个变量预测另一个变量或进行变量控制。下面通过具体例子说明散布图的应用步骤。
【例6-7】已知某发酵食品中CO2体积分数与CO体积分数有一定关系,收集的检测数据见表6-20,请根据CO2体积分数控制CO体积分数。
表6-20 某发酵食品中CO2体积分数与CO体积分数数据表
(1)做散布图。根据检测的50对数据做散布图,如图6-16所示。
图6-16 某发酵食品中CO2体积分数与CO体积分数散布图
(2)散布图的观察与分析。由图6-16可以看出,CO体积分数随着CO2体积分数的增加而减少,初步判断CO2体积分数x与CO体积分数y之间存在负相关,若要进一步判断相关程度如何,可通过相关系数r的计算做定量分析。
(3)计算相关系数,并进行显著性检验。根据相关系数r的计算公式,r=-0.82,自由度为48时,相关系数的临界值r0.05(48)=0.2732<r,可以认为有95%的把握判定CO2体积分数x与CO的体积分数y之间存在显著的负相关。
(4)计算回归方程。经相关性检验,变量x和y的关系在统计上显著相关时,可求得回归直线方程。回归直线方程参数a、b的计算如下:
本例计算结果为a=30.58,b=0.37,则回归直线方程为:
(5)应用。回归直线方程用于质量控制,可实现以下两方面的质量问题。
①预报问题:指对任何一个给定的观测点x0,推断y0的大致范围。
一般来说,对于给定x0处的观测值,y0越靠近回归直线的地方出现的机会越大,离回归直线越远的地方出现的机会越少,而且y0的取值范围与回归直线标准差S之间有以下关系:y0落在y0±3S范围内的可能性为99.73%。
回归直线标准差的计算公式为:
利用y0的取值范围与回归直线标准差S之间的关系,对于给定的x0,就可预测在x=x0处的实际观测值y0的分布范围及其可能性有多大,可通过在散布图上作两条与回归直线平行且等距的直线及回归直线控制图表示(图6-16)。本例中,当测得CO2体积分数为6.6%时,若取3S,则CO的分布范围为:a+bx-3S<y0<a+bx+3S,即27.87%<y0<28.41%,且其可能性为99.73%。
②控制问题:指要求观测值y0在一定的范围(y1<y0<y2)内取值,应将变量x控制在什么地方。
控制问题可以看作预报的反问题。若要求观测值y0在y1~y2取值,则可从y1=a+bx1-3S及y2=a+bx2+3S中分别解出x1、x2,只要将x的取值控制在x1与x2之间,就有99.73%的把握保证y0在y1~y2取值。
7.注意事项
(1)应将不同性质的数据分层后作散布图,否则将会导致判断错误。
(2)散布图相关性规律的适用范围一般局限于观测值数据范围之内,不能任意扩大相关性判断范围。
(3)散布图中出现的个别偏离分布趋势的异常点,应在查明原因后剔除。
(七)控制图
第五章第二节已有详细介绍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。