在将一个数据量很大的数据集汇总成一个分组的频率分布时,选择组距是关键的一步。考虑表9-1中农户人均耕地等组宽分布,由于数据总量的85%在第二、第三两个组中,因此,把此两组的组宽改变为每组0.5亩也许能提供更多的信息。同样,在汇总数据时,应该将后四组合并成一组,人均耕地数量为3.1~7.0亩。如表9-2所示,可能更为合理。
然而,过多地使用不等组距时,存在着一个隐患。那些查看用这种形式表示分布的报告使用者首先倾向于把它理解为离散而且等组距的,只有仔细地观察才能看到各组的宽度是不一样的。因此,建议对大部分分布采用等组距,只在有需要时,才对最后的一、两组采用更宽的组距。
表9-1 移民人均耕地的频率分布
表9-2 移民人均耕地的频率分布(修正表)(www.xing528.com)
同时,也要注意到,人均耕地规模的组距分别为0~1.0,1.1~2.0等,单位为亩,它在横表头中给出,这就是说,任何一个人均耕地大于1.0亩、小于2.0亩的家庭都在第二组中。但是,严格地说,对于一个面积为1.02亩的家庭,由于将面积数保留一位小数并作四舍五入处理时是1.0亩,它将归入第一组中。这一点是有争议和不同看法的。除非监测数据提供者是一个非常卖弄学问的人,并把组的端界定义到与原始记录数据具有同样的精度,在某种程度上总是存在这种模棱两可的情况的。但是为了在表中避免出现这种混乱情况,上述方法常常是允许的。将组别定义为0~1,1~2,2~3等是常见的,在这种分组中,一个人均耕地面积为1亩、2亩和3亩的家庭究竟属于哪一组并不明确。对于连续变量,很少在分组区间内对它们进行精确的度量。因此,上述方法也是允许的,但是,在表示一些离散变量时,应该尽量避免这种不确定性。
在表中分多少组是一个选择的问题。显然,分组分布的要点是汇总数据,使读者能一眼看出基本情况:众数在哪里,端组数据下降的速度如何等,是在确定组宽时应该遵循的原则。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。