表现数据分布的最常用方法就是统计表。 简单地说,统计表就是将数据按照一定的顺序排列在由横行、纵列交叉结合而成的表格上。 统计表能系统地组织和合理地安排大量的数据资料,使之清晰、明了,便于对照、比较和计算。
下面根据变量的层次,讨论统计表制作的特点。
(1)定类变量
表3.6 是根据上述家庭类型制作的定类变量的统计表。
统计表必须具备的内容有:
表的编号:如表1.1 或表1⁃1。
表的标题:用以简明扼要、准确地说明表的内容。
表头:其中第一列为变量名称,如表3.6 的“家庭类型”。 第二列和第三列为变量对应数的说明,如表3.6 的“频次”“频率”等。
表身:由于变量取值的不唯一性,这部分至少要有两行以上。 第一列位置,按行填写变量的不同取值,取值的顺序可以任意,这一项又称主词。 第二列和第三列位置,按行填写变量取值相应的频次、频率等等,第二列以后的内容又称宾词。 对于只有百分比的统计表,要写明统计总数。
表尾:如果引用的是间接资料,要写清资料来源。
检验统计表是否正确可根据统计表中的总计来判断。 例如,如果频率总计小于1,表示有的个案情况未能包括在统计表里,即变量取值不满足完备性;反之,如果频率总计大于1,则必有某些个案情况被同时统计在不止一类,即变量取值不满足互斥性。 因此,只有频率总计等于1 时才能表示统计表中变量取值的分类是正确的。 但在实际计算中,由于“四舍五入”的缘故,百分比总和有时是100.1%或99.9%等,这些都不算错误。
表3.6 家庭类型户数的频次和频率分布
一般来说,问卷调查表中可供选择的答案就构成了表身中变量的取值内容。 可供选择的答案数目就是表身中变量取值的数目。 例如,性别有两种可供选择的答案:男和女,因此表身中的变量值也就是男和女两行。 但在有关意愿、原因等可多选的社会调查中,可供选择的答案类别数目,有时与变量值的数目并不相等。 例如,如果被调查者同时选择了两个选项,则决不能分别在两类选项中各统计一次,这样就破坏了变量取值必须互斥的要求。 正确的做法是将挑中两类选项的被调查者另立一类。 举例说,若问卷中有这样一个问题:“你认为人生最大的乐趣是什么?”,选项有:
a.事业上有成就。
b.美满的婚姻。
c.有丰富的经历、见多识广。
如果其中有被调查者选择的答案不止一个,同时选择a 和b,a 和c,或b 和c,这时分类应增加为6 种:
a.事业上有成就。
b.美满的婚姻。
c.有丰富的经历、见多识广。(www.xing528.com)
d.事业上有成就和美满的婚姻。
e.事业上有成就和有丰富的经历、见多识广。
f.美满的婚姻和有丰富的经历、见多识广。
只有这样,才能保证每一个被调查者只能被统计到其中的一类,从而满足变量互斥性的要求。 但分类数的增加,势必造成每类频次的减少,从而增加了统计结果的偶然性。
(2)定序变量
定序变量统计表内容、制作方法与定类变量相同。 所不同的是,由于定序变量的取值有大小次序之分,因此在统计表制作时,应保留其变化趋势,不要任意打乱。 例如,某电影厂为了解群众是否爱看武打片,将喜爱程度分为五等:非常爱看;爱看;一般;不爱看;很反感。 那么,在统计表中,变量取值的排列也应保持以上的次序(表3.7)。
表3.7 某电影厂对武打片的反映统计
(3)尺度变量
对于尺度变量,由于其取值很多,甚至有无穷多个,用简单表无法展现其分布特征和统计规律,这时可以采用分组表。 分组表的主词是将变量的取值按一定的标准分组或分段形成的,如表3.8。 主词中每个组的最大值称为组上限,最小值称为组下限,以第二组为例,9 为组上限,5 为组下限。
表3.8 2014 年全国分年龄段的人口数
说明:2014 年全国人口变动情况抽样调查样本数据,抽样比为0.822%。
资料来源:《2015 年中国统计年鉴》,中华人民共和国国家统计局。
由于尺度变量的取值很多,分组的多少、组限的确定都会影响对变量分布特征的展现。 制作分组表的步骤如下:
第一,确定全距。 全距就是变量观察值的最大值与最小值之差。 变量的所有观察值都在全距的范围内分布。 例如,在某市调查了883 人的住房面积,最小的为15 平方米,最大的为176 平方米,则这883 人的住房面积的全距为161 平方米。
第二,确定组数与组距。 组数与组距的确定对于分组表的制作非常关键。 组数太少,数据的分布就会过于集中,组数太多,数据的分布又会过于分散,这些都不便于观察数据分布的特征和规律。 因此,组数的确定要根据全距的大小和观察值的个数综合考虑。 观察值多,分组可以相对多一些。 一般情况下,一组数据所分的组数不应少于5 组且不多于15 组,即5≤K≤15。 实际应用时,可根据数据的多少和特点及分析的要求来确定组数。 组距是一个组的上限与下限的差。 组距可根据全部数据的最大值和最小值及所分的组数来确定,即组距=(最大值-最小值)÷组数。 考虑到计算方便,一般以2,3,5,10 或它们的倍数作为组距。 在上述住房面积的例子中,可以考虑以20 为组距,大约分为10 组。
第三,确定各组的上下限。 确定组限的原则是:最低组的下限要小于最小的观察值,最高组的上限要大于最大的观察值。 尺度变量的取值数据有两种:一种是离散型数据,如年龄,通常取整数,在相邻的两个数之间不存在其他的数据;另一种是连续型数据,如身高,如果测量的单位可以达到无穷小,理论上任何两个数之间都有无穷多个数。 使用这两类数据制作分组表时,组限的确定有一定的差异。 如果是离散型数据,相邻组的上下限不能为同一数据,组上下限的确定如表3.8 所示。 如果是连续型数据,如上述住房面积的例子中,上一组的下限与下一组的上限为同一个值(见表3.9)。 此时,每一组的上下限中,有一个为实,而另一个为虚。 习惯上以组的上限为实,下限为虚。 如表3.9 中的60既是40~60 组的上限,又是60~80 组的下限。 如果40 ~60 组中的60 是实的,则60 ~80组中的60 就是虚的,这个60 代表的意义比真正的60 多了一个无穷小。 在这种情况下,取值与组上限相同的个体划归本组,与组下限相同的个体划归下一组。 如住房面积恰好为60 的个体应划归40~60 组。
第四,登记各组中个体的频次,计算频率。 上述工作完成以后,便将个体按照变量取值的大小划分到各组中,按照需要统计出频次、频率及累计频率等数据,并将统计出的数据置于相应的单元格内,绘制成分组表,如表3.9 所示。
表3.9 居民住房面积分布
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。