首页 理论教育 数据分组:社会经济现象的特点和统计研究目的下的数据组别定标策略

数据分组:社会经济现象的特点和统计研究目的下的数据组别定标策略

时间:2023-07-03 理论教育 版权反馈
【摘要】:◎定义3.11:数据分组是根据社会经济现象的特点和统计研究的目的要求,按照一定的标志把总体划分为若干不同性质的组别。A.0B.1C.2D.3及以上经分组整理后,可形成一个单项式分组形式的数值型数据频数分布表,见表3.9。表3.12某车间50名工作日加工零件数分组表为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,例如,在表的分组中,120这一数值不计算在“115~120”这一组内,而计算在“120~125”组中,其余类推。

数据分组:社会经济现象的特点和统计研究目的下的数据组别定标策略

◎定义3.11:数据分组是根据社会经济现象的特点和统计研究的目的要求,按照一定的标志把总体划分为若干不同性质的组别。

数值型数据的分组方法有两种:单项式分组和组距式分组。

1)单项式分组

◎定义3.12:单项式分组是把每一个具体的变量值(标志值)作为一组,形成单项式变量数列。

单项式分组一般适用于离散型变量且变量变动范围不大的场合。

【例3.4】 在一项有关计算机使用问题的研究中,调查人员在某地区随机抽取了200名使用者进行调查。其中调查的一个问题是:您到目前为止,更换过多少台计算机?

A.0  B.1  C.2  D.3及以上

经分组整理后,可形成一个单项式分组形式的数值型数据频数分布表,见表3.9。

表3.9 某200名计算机使用者目前已更换计算机数量频数分布表

2)组距式分组

◎定义3.13:组距式分组是将全部变量依次划分为若干个数值区间,每一个数值区间作为一组,每组有多个变量值。

组距式分组一般适用于连续型变量或者变动范围较大的离散型变量。按总体内各组组距是否完全相等,组距式分组有等距分组和异距分组两种。

◎定义3.14:组距(class width)为一个组的上限与下限的差。其中,下限(low limit)为一个组的最小值;上限(upper limit)为一个组的最大值。

(1)等距分组

◎定义3.15:等距分组是变量值(标志值)在各组保持相等的组距,即各组的标志值变动都限于相同的范围。

凡是在标志值变动比较均匀的情况下,都可采用等距分组。等距分组便于进行统计分析,特别在绘制统计图及进行各类运算方面。

等距分组比较常用,其分组的步骤如下。

第1步:计算全距为

第2步:确定组数。在实际分组中,可参考美国学者H.A.Sturges提出的经验公式来确定组数K,即

式中,K为组数(取整数);n为总体单位数或数据的个数。

小贴士

一组数据分多少组合适呢?一般与数据本身的特点及数据的多少有关。如组数太少,数据的分布就会过于集中,组数太多,数据的分布就会过于分散,这都不便于观察数据分布的特征和规律。

第3步:确定组距为

小贴士

为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值。

第4步:确定组限。首先确定最小值组的下限,然后利用组限和组距的关系一次确定其他组限。

采用组距分组时,需要遵循“不重不漏”的原则。“不重”是指一项数据只能分在其中的某一组,不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中的某一组,不能遗漏。

具体确定组限时,应注意以下两个细节:

①正确使用组限类型。组限有两种类型:间断式组限和连续式组限。表3.10用两种组限类型方式表达了学生的成绩分组情况。

表3.10 学生成绩分组/分

小贴士

使用连续式组限应遵循“上限不在内”原则。例如,表3.10中70~80分中80分不归入本组,应归入下一组80~90分;使用间断式组限时,应保证无数据项落在相邻两组上下限之间。例如,79分与80分之间一定无数据项出现。

②若全部数据中的最大值与最小值跟其他数据相差悬殊时,可使用开口组形式。

例如,上例学生成绩分组中,第一组采用60分以下;最后一组采用90分以上。

第5步:编制频数分布表。(www.xing528.com)

下面结合具体的例子说明分组的过程和频数分布表的编制过程。

【例3.5】 某生产车间50名工人日加工零件数见表3.11,试对数据进行组距分组。

表3.11 某生产车间50名工人日加工零件数原始资料表/个

为便于分组,首先对原始数据排序。然后按等距分组步骤进行分组和编制频数分布表。

第1步:计算全距为

R=139-107≈140-105=35

第2步:确定组数为

对结果用四舍五入的办法取整数即为组数,即应分为7组。

第3步:确定组距为

D=R/K=(139-107)÷7=4.6

为便于计算,组距宜取5或10的倍数,且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距取5。

第4步:对上面的数据进行分组,可得到下面的频数分布表,见表3.12。

表3.12 某车间50名工作日加工零件数分组表

为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,例如,在表的分组中,120这一数值不计算在“115~120”这一组内,而计算在“120~125”组中,其余类推。当然,对于离散变量,可采用相邻两组组限间断的办法解决“不重”的问题。例如,可对上面的数据做下面的分组,见表3.13。

表3.13 某车间50名工人日加工零件数分组表

而对于连续变量,可采取相邻两组组限重叠的方法,也可对一个组的上限值采用小数点的形式。例如,对零件尺寸可分组为10~11.99,12~13.99,14~15.99等。

在组距分组中,如果全部数据中的最大值和最小值与其他数据相差悬殊,为避免出现空白组(即没有变量值的组)或个别极端值被漏掉,第一组和最后一组可采取“××以下”及“××以上”这样的开口组。开口组通常以相邻组的组距作为其组距。例如,在上面的50个数据中,假定将最小值改为94,最大值改为160,采用上面的分组就会出现“空白组”,这时可采用“开口组”,见表3.14。

表3.14 某车间50名工人日加工零件数分组表(开口组)

(2)异距分组

◎定义3.16:异距分组又称不等距分组,是指总体各单位变量值的大小呈现不均匀变化,即组距不相等。

对于异距分组方法的运用,没有固定模式可供依循,关键在于根据现象的本质特征和统计研究的目的任务来确定分组的等距与否。例如,学生成绩如果密集于某一范围,如60~80分或70~90分,其他部分则分布十分稀少,在这种场合若仍以10分为组距进行等距式分组,则无法显示出分布的规律性,会使得这一密集的分数段分布的信息损失过大。因此,合理的做法是,在分布比较密集的区间内使用较短的组距,在分布比较稀少的其余部分使用较长的组距,形成各组的组距不相等的异距分组。

统计分组的最大特点是能显示总体的分布特征,但由于分组每组的具体变量值抽象化了,为了使抽象化的数值具体化,统计上以每组的平均值代表该组所有单位变量值的集中趋势,这个指标称为组中值。其计算方法通常为

假如为开口组,可借助相邻组的组距来计算。其计算公式为

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈