首页 理论教育 定量数据图表分析详解

定量数据图表分析详解

时间:2023-06-04 理论教育 版权反馈
【摘要】:因此,茎叶图非常适合描述少量数据的分布,但是当数据量很大时,用茎叶图分析就不合适了。下面结合具体的例子说明如何绘制定量数据频数分布表。

定量数据图表分析详解

3.2.1 常用来分析定量数据的图表

3.2.1.1 茎叶图 (stem-and-leaf display)

茎叶图将每一个数值分成两部分,首位数字作为茎,尾随的数字作为叶。茎沿着垂直轴线放置,叶沿着水平轴线堆放。它像一个带有长短不一的叶子的茎。当数据量不大的时候,用茎叶图既显示了完全的原始数据,又显示了数据分布的形状。因此,茎叶图非常适合描述少量数据的分布,但是当数据量很大时,用茎叶图分析就不合适了。

下面解释如何绘制茎叶图,下列数据是世界上前25位富翁的年龄 (单位: 岁):

51 76 67 80 56 73 58 71 78

49 49 87 40 59 47 84 61 79

59 62 84 50 52 63 54

为了得到茎叶图,将十位数作为茎,个位数作为叶。例如: 第一个数值是51,它的茎是5,叶是1; 第二个数值是76,它的茎是7,叶是6。以同样的方法处理其余数据,然后重新排列每个茎中的叶,如图3-5所示:

图3-5 世界上前25位富翁年龄的茎叶图

可以从图3-5得到一些结论,例如,世界上前25位富翁中年龄最小的是40岁,最大的是84岁,大多数集中在50~70岁。

3.2.1.2 频数分布表 (frequency distribution)

绘制定量数据的频数分布表需要先将原始数据按照某种标准分成不同的组别,然后汇总各组别的数据个数即可。下面结合具体的例子说明如何绘制定量数据频数分布表。

对某城市居民家庭的生活情况进行抽样调查,得到54户家庭月人均可支配收入 (单位: 元) 资料如下:

1160 1360 1580 1770 2380 1070 1540 1720 1970

1100 1350 1460 1940 920 2300 1240 1580 1710

1420 1050 1310 1670 2080 1400 1280 1390 1550

840 1120 1540 1650 1500 1120 1330 1730 1870

1080 810 1350 1590 1880 1460 1200 1490 1630

990 1860 1570 2120 1300 1750 2060 870 1840

第一步: 将数据从小到大进行排列,使其序列化:

810 840 870 920 990 1050 1070 1080 1100

1120 1120 1160 1200 1240 1280 1300 1310 1330

1350 1350 1360 1390 1400 1420 1460 1460 1490

1500 1540 1540 1550 1570 1580 1580 1590 1630

1650 1670 1710 1720 1730 1750 1770 1840 1860

1870 1880 1940 1970 2060 2080 2120 2300 2380

经过初步整理,可以看出该市居民家庭月人均可支配收入具有一定的规律性,最小值为810元,最大值为2380元,大多数在1300元至1800元之间,高于1800元或低于1300元的都很少。

第二步: 确定各组的组距。

因为数据的个数较多,且变动范围较大 (最小值为810元,最大值为2380元,全距为1570元),所以选择组距式的频数分布表编制。组距是每一组的最大值与最小值之差。一般地,各组的组距d都应该是相同的即等距。所有组的加起来必须至少覆盖从最小值到最大值的距离。在编制组距式的频数分布表时,组距的确定一般是“试错”的过程,即先选一、两个组距试着编制。然后根据编制的结果适当地扩大或缩小组距。从中选择一个相对较合适的组距编制。因此,我们先采用100元和150元,分别编制频数分布表。

第三步: 确定各组的组数。

在一般情况下,一组数据的组数n应该在5~15,即5≤n≤15。我们一般编制等距式频数分布,所以n≈R/d。当全距R =1570元,组距选择100元,则n =1570/100≈16; 组距选择150元,则n =1570/150≈11。

第四步: 确定各组的组限。

绘制组距式频数分布表必须清楚地界定每一组的界限,以便使所有的观测值都能划分且只能划分到某一组中。因此,必须避免组与组之间的重叠现象和遗漏现象。

第五步: 将各个数据汇总到各组中。

一般情况下,我们编制的是重合式的即紧密相连的两组,其中一组的上限和另一组的下限是同一数值。但是这仅仅只是形式上重合,实际上在汇总时,我们遵循一个原则“含下限,不含上限”,即一个组的变量值x满足a≤x <b,其中a是该组下限,b是该组上限。

根据以上步骤编制的组距为100元和150元的频数分布表如表3-7所示:

表3-7 某市居民家庭月人均可支配收入频数分布表

从表3-7可以看出,组距为100元太小,组数太多,各组频数分布较分散,看不出分布规律; 组距为150元时,各组的分布规律开始表现出来,但特征仍不是很明显。若再将组距扩大为200元,此时组数n=1570/200≈8,通过进一步整理,得到组距为200元的频数分布表如表3-8所示:

表3-8 某市居民家庭月人均可支配收入频数分布表

从表3-8可见,采用组距为200元编制频数分布表相对来说最为合适,不同月人均可支配收入水平的家庭分布特征被明显地表现出来了。

在表3-8的基础上可以编制频率分布表和百分比分布表,如表3-9所示:

表3-9 某市居民家庭月人均可支配收入频率分布表和百分比分布表

通常大家想知道每组占总体的比率或者百分比,即相对频数分布,所以经常编制频率分布表或百分比分布表。当比较两个或更多不同规模的组时,必须使用频率分布表或百分比分布表。

3.2.1.3 累积频数分布表 (cumulative frequency distribution)

通过以上的频数分布表,我们可以很容易地找出每组出现的次数,以及整个的分布规律。但是,如果想知道截止于某一组变量值以下或者以上所对应的频数是多少,以及事物发展进程等情况,则需要将有关组的频数进行累加后才能说明问题。所以,要全面地分析数据的特征,还应该编制累积频数分布表。

累积频数分布表给出了截止于某一值以上或者以下的频数共有多少。具体有两种计算方法:

一种是以下累积,即从低组向高组累加,此时每组的累积频数表示该组上限以下的频数共有多少。

另一种是以上累积,即从高组向低组累加,此时每组的累积频数表示该组下限以上的频数共有多少。(www.xing528.com)

表3-10表示的是某市居民家庭月人均可支配收入以下累积分布情况。

表3-10 某市居民家庭月人均可支配收入以下累积分布表

表3-10清楚地显示了某市居民家庭月人均可支配收入低于某组的上限的值是多少,例如,家庭月人均可支配收入低于1800元的有43户,家庭月人均可支配收入低于2200元的有52户。

表3-11表示的是某市居民家庭月人均可支配收入以上累积分布情况。

表3-11 某市居民家庭月人均可支配收入以上累积分布表

表3-11清楚地显示了某市居民家庭月人均可支配收入高于某组的下限的值是多少,例如,家庭月人均可支配收入高于1800元的有11户,家庭月人均可支配收入高于1200元的有42户。在编制了以上或以下频数累积的基础上可以根据需要编制以上或以下频率或百分比累积。

在将数据编制简单频数分布表或累积频数分布表以后,已经可以初步看出数据的一些规律。为了获得更直观、更形象的印象,我们有时候还需要绘制表示数据变动趋势的简明图形,常用的有直方图、折线图、累积折线图。

3.2.1.4 直方图 (histogram)

直方图主要用于表示分组数据的频数分布特征,是分析数据分布特征的有用的工具之一。直方图利用一系列相邻的矩形描述频数分布,矩形的长度大小代表对应的频数的大小。具体绘制步骤如下:

第一步: 以横轴代表变量,并在上面标出各组组限所在的位置。这样,各位置之间的距离就是各组的组距,在等距分组的条件下它们就是相等的。

第二步: 以纵轴代表频数,并按需要标出各组频数所在的位置。

第三步: 以各组组距为宽,各组频数为高,绘制出各组对应的矩形。

这样各组直方图的面积大小就表示各组频数的多少,且各个矩形并在一起所形成的“图案”就表明了数据分布的特征。

图3-6显示了某市居民家庭月人均可支配收入的数据由SPSS输出的直方图。该直方图的横坐标是某市居民家庭月人均可支配收入变化值,每格代表200元,而纵坐标为各区间某市居民家庭月人均可支配收入变化值的频数。从直方图可以看出对原始数据做了简化和汇总,描述了数据分布的疏密,为频数分布表提供了一个容易表达的直观描述。同样,我们可以根据上述步骤绘制频率或百分比分布表对应的直方图。

请注意,尽管直方图和条形图看起来很类似,但它们是明显不同的统计图。对定性数据分析使用的是条形图,对定量数据使用的是直方图。

图3-6 某市居民家庭月人均可支配收入直方图

3.2.1.5 折线图 (polygon)

折线图是将各组组中值代表该组的数据,然后标出组中值和该组的频数 (或者频率或百分比) 在坐标轴中对应的点,并把这些点连接起来构成的图形,如图3-7所示。具体绘制步骤如下:

图3-7 某市居民家庭月人均可支配收入的折线图

第一步: 以横轴代表变量,并在上面标出各组组中值所在的位置。

第二步: 以纵轴代表频数 (或者频率或百分比),并按需要标出各组频数 (或者频率或百分比) 所在的位置。

第三步: 在坐标轴中依次标出各组组中值和该组对应的频数 (或者频率或百分比)的点,然后依次将这些点连接起来就构成折线图。

当有两个或多个频数分布表进行比较时,用折线图绘制更能清楚地显示它们之间的区别。而在同一个图形中绘制多重直方图会令人混淆,将一个直方图的矩形添加到另外一个直方图上,会变得难以辨认。

3.2.1.6 累积折线图 (cumulative polygon)

累积折线图是在横轴标出各组的组限,然后标出该组组限和该组的累积频数 (或者累积频率或累积百分比) 在坐标轴中对应的点,并把这些点连接起来构成的图,见图3- 8。具体分两种情况: (1) 根据以下累积频数 (频率或百分比) 分布表绘制的累积折线图; (2) 根据以上累积频数 (频率或百分比) 分布表绘制的累积折线图。

图3-8 某市居民家庭月人均可支配收入的以下累积折线图

累积折线图的绘制步骤如下:

第一步: 以横轴代表变量,并在上面标出各组组限所在的位置。

第二步: 以纵轴代表频数 (或者频率或百分比),并按需要标出各组频数 (或者频率或百分比) 所在的位置。

第三步: 在坐标轴中依次标出各组上限和该组对应的频数 (或者频率或百分比) 的点,然后依次将这些点连接起来就构成折线图。

3.2.2 常用来分析两组或多组有联系的定量数据的图表

当分析单个的定量数据时,适合使用的图表包括茎叶图、频数分布表、累积频数分布表、直方图、折线图和累积折线图。在分析两个有一定联系的定量数据时,通常使用的是散点图和时间序列图

3.2.2.1 散点图 (scatter plot)

对于两个定量变量之间的关系可以用散点图来描述。对每一组观测值,将一个变量值放置在横轴 (X轴),另一个变量值放置在纵轴 (Y轴)。例如,可通过比较每月销售量和每月广告支出的关系来研究广告的效果。

我们通过分析不同城市的汉堡包电影票的价格来演示散点图。表3-12提供了全球10个城市的一份汉堡包和电影票的价格。

表3-12 全球10个城市的一份汉堡包和电影票的价格

对每一个城市,将汉堡包的价格放置在X轴,将电影票的价格放置在Y轴。图3-9是用SPSS绘制的散点图。

从图3-9可以看出,汉堡包价格和电影票价格之间有一个递增 (正相关) 关系。即汉堡包的价格低的城市几乎电影票的价格也低,汉堡包高的城市几乎电影票的价格也高。

散点图有很多种,在第7章详细介绍。

3.2.2.2 时间序列图 (time-series plot)

时间序列图用以反映定量数据随时间的变化趋势。绘制方法是将所要分析的某一数量指标放在纵轴,以数量指标值发生的时间为横轴绘制。

我们通过分析2004—2011年第一季度沃尔玛销售收入数据来演示时间序列图。表3-13提供了沃尔玛2004年到2011年第一季度销售收入数据。

图3-9 汉堡包价格和电影票价格的散点图

表3-13 2004—2011年沃尔玛第一季度销售收入

沃尔玛2004—2011年第一季度销售收入数据的时间序列图见图3-10。从图中可以看出,总的趋势是逐年上升,但上升的幅度每年不尽相同。

3-10 沃尔玛2004—2011年第一季度销售收入数据的时间序列图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈