试验或调查研究得到的资料,未经整理之前是杂乱无章的,很难找出其规律。所以第一步就是对资料进行整理,把观察值按数值大小或数据类别进行整理,便可以看到资料的集中和变异情况,这样才能对资料有一个初步的了解,也可从中发现一些规律和特点。
一、连续性变数资料的整理
连续性变数资料可采用组距式分组法进行整理。必须先确定组数、组距、组限和组中值,然后按观察值大小进行分组。如表3-1所示,以某糖心苹果品种100个果实单果质量资料为例,说明其整理方法。
表3-1 某糖心苹果品种100个果实单果质量 单位:g
求全距——观察值中最大值与最小值的差数即为全距,要确定组数必须先求出全距。也是整个样本变异幅度,一般用R表示。如表3-2所示可见,最大的观察值为555g,最小值为66g,全距为555-66=489g。
确定组数和组距——根据全距分为若干组,每组距离相等,组与组之间的距离称为组距。组数和组距是相互决定的,组距小,组数多,反之组距大,组数少。在整理资料时,既要保持真实面目,又要使资料简化,认识其中的规律。在确定组数时应考虑观察值个数的多少,极差的大小,以及是否便于计算,能否反映出资料的真实面目等方面。一般样本适宜的分组数如表3-2所示。组数确定后,再决定组距。组距=全距/组数。如表3-1所示某糖心苹果品种100个果实单果质量样本容量为100,假定分为11组,则组距应为489/11=44.5g。为方便起见,可用45g作为组距。
表3-2 不同容量的样本适宜的分组数
确定组限和组中值(中点值)——每组应有明确的界限,才能使观察值划入一定的组内,为此必须选定适当的组中值和组限。组中值最好为整数,或与观察值位数相同,便于计算。一般第一组组中值应以接近最小观察值为好,其余的依次而定。这样避免第一组次数过多,不能正确反映资料的规律。组限要明确,最好比原始资料的数字多一位小数,这样可使观察值归组时不致含糊不清。上下限为组中值±1/2组距。本例第一组组中值定为60g,它接近资料中最小的观察值。第二组的组中值为第一组组中值加组距,即60 +45=105(g)。第三组为105 +45=150(g),以此类推。每组有两个组限,数值小的为下限,大的为上限。本例中第一组的下限为该组组中值减去1/2组距,即60-45/2=37.5(g),上限为该组组中值加1/2组距,即60 +45/2=82.5(g),所以第一组的组限为37.5~82.5g。第二组和以后各组的组限可以以同样的方法算出。
原始资料的归类按原始资料中各个观察值的次序,把逐个数值归于各组。待全部观察值归组后,即可求出各组次数,制成次数分布表,如本例将表3-1资料整理后制成次数分布表如表3-3所示。
表3-3 某糖心苹果品种100个果实单果质量的次数分布表
二、间断性变数资料的整理
非连续性变数资料的整理,根据资料性质不同可采用单项式分组法或组距式分组法进行整理。(www.xing528.com)
单项式分组法——单项式分组法是用样本的自然值进行分组,每个组都用一个观察值来表示。现以100包蒜香花生每包检出不合格颗数为例来说明单项式分组法。随机抽取100包蒜香花生,计数每包不合格颗数,其资料如表3-4所示。
表3-4 100包蒜香花生每包检出不合格颗数
上述资料是间断性(非连续性变数)资料,每包不合格颗数的变动范围在15~20,把所有的观察值按每包不合格蒜香花生颗数多少加以归类,共分6组。每一个观察值按其大小归到相应的组内。用“f”表示每组出现的次数。这样就可得到如表3-5所示形式的次数分布表。
表3-5 100包蒜香花生每包检出不合格颗数
如表3-5所示,一堆杂乱无章的原始数据,经初步整理后,就可以看出其大概情况,如每包不合格蒜香花生颗数以17个为最多,以20、15个为最少。经过整理的资料也有利于进一步分析。
组距式分组——有些间断性(非连续性变数)资料,观察值的个数较多,变异幅度也较大,不可能如上例那样按单项式分组法进行整理。例如,研究某金钱橘品种的每果种子数,共观察200个果实,每果种子数变异幅度为27~83粒,相差56粒。这种资料如按单项式分组则组数太多(57组),其规律性显示不出来。如按组距式分组,每组包含若干个观察值,例如,以5个观察值为一组,则可以使组数适当减少。经初步整理后分为12组,资料的规律性较明显,如表3-6所示。
表3-6 200个金钱橘果实种子数的次数分布表
如表3-6所示,约半数金钱橘的每果种子数在46~60粒间,大部分金钱橘的每果种子数在41~70粒,但也有少数金钱橘少到26~30粒,多到81~85粒。
三、次数分布图
试验资料除用次数分布表表示外,还可以用次数分布图表示。用图形表示资料的分布情况叫做次数分布图。次数分布图可以更形象更清楚地表明资料的分布规律。次数分布图有柱形图、多边形图、条形图和饼图等。其中柱形图和多边形图适用于表示连续性变数资料的次数分布;条形图和饼图则是表示间断性(非连续性变数)资料和分类资料的次数分布。柱形图、多边形图和条形图等三种图形的关键是建立直角坐标系,横坐标用“X”表示,它一般表示组距或组中值;纵坐标用“Y”表示,它一般表示各组的次数。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。