首页 理论教育 数值型数据的图示方法

数值型数据的图示方法

时间:2023-07-03 理论教育 版权反馈
【摘要】:图3.14某车间工人加工零件数的直方图从直方图可直观地看出工人日加工零件数及其人数的分布状况。箱线图由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的,反映原始数据分布的图形,称为箱线图,如图3.16所示。例如,根据表3.17的数据,可绘制出小麦产量、降雨量和温度的三维散点图,如图3.20所示。

数值型数据的图示方法

上面介绍的条形图、圆形图、环形图及累计分布图等都适用于显示数值型数据。此外,对数值型数据还有下面的一些图示方法,这些方法并不适用于分类数据和顺序数据。

1)分组数据:直方图

上面介绍的条形图、圆形图等都适用于显示数值型数据。此外,对数值型数据还可以绘制直方图来显示数据的分布状况。直方图是用矩形的宽度和高度来表示频数分布的图形。在平面直角坐标中,可用横轴表示数据分组,纵轴表示频数或频率。这样,各组与相应的频数就形成了一个矩形,即直方图。例如,根据表3.12中的频数分布绘成的直方图如图3.14所示。

图3.14 某车间工人加工零件数的直方图

从直方图可直观地看出工人日加工零件数及其人数的分布状况。例如,从图3.14可以看出,该车间工人日加工零件数大多数在120~125,共14人,低于这一水平的共有16人,高于这一水平的共有20人,可见这是一种非对称分布。

小贴士

数据分组,必须遵循以下穷尽原则和互斥原则:

1.穷尽原则:就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。

2.互斥原则:就是在特定的分组标志下,总体中的任何一个单位只能归属于某一组,而不能同时或可能归属于几个组。

2)未分组数据:茎叶图和箱线图

直方图主要用于展示分组数据的分布,对于未分组的原始数据则可用茎叶图和箱线图来观察分布。

(1)茎叶图

◎定义3.17:茎叶图(stem⁃and⁃leaf display)又称“枝叶图”,由“茎”和“叶”两部分组成的、反映原始数据分布的图形。

茎叶图中的“茎”和“叶”均是由数字组成的。绘制茎叶图的关键是设计好树茎,通常是以该组数据的高位数值作为树茎,该数值的最后一位数字为树叶。通过茎叶图,可以看出数据的分布形状及数据的离散状况,如分布是否对称,数据是否集中,是否有极端值,等等。

用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示。

【例3.6】 现根据26个数据:41,52,6,19,92,1,57,5,22,15,31,55,6,91,65,91,75,69,94,85,89,79,46,24,71,16,绘制茎叶图。绘制的茎叶图如图3.15所示。

图3.15 数据茎叶图

例如,第二行的数字如下:1569则代表数据集中有15,16,19这3个数字。

(2)箱线图

由一组数据的最大值、最小值、中位数和两个四分位数5个特征值绘制而成的,反映原始数据分布的图形,称为箱线图(boxplot),如图3.16所示。通过箱线图,不仅可反映出一组数据分布的特征,还可进行多组数据分布特征的比较。

图3.16 标准箱线图

【例3.7】 从某工厂随机抽取11名学徒,对他们进行连续8天的测评,见表3.15。请绘制由11名学徒连续8天的测评成绩构成的箱线图。

表3.15 11名学徒8天测试成绩数据及5个特征值表

解 首先计算出11名学徒每天测评成绩的最大值、最小值、中位数和两个四分位数,然后根据计算结果绘制箱线图,如图3.17所示。

图3.17 11名学徒8天测试成绩的箱线图

由图3.17可看出,在8天的综合测评中,平均成绩最高的是第一天和第三天(中位数较高),较低的是第六天和第七天;从测评的离散程度来看第三天和第八天的成绩比较集中(箱子较短),而第二天和第七天的成绩比较分散(箱子较长)。

3)时间序列数据:线图

如果数值型数据是在不同时间上取得的,即时间序列数据,则可绘制线图。线图是在平面坐标上用折线表现数量变化特征和规律的统计图。例如,1991—1998年我国城乡居民家庭的人均收入情况如表3.16和图3.18所示。

表3.16 2001—2011年我国城乡居民家庭的人均收入情况表

资料来源:中华人民共和国国家统计局官方网站:http://www.stats.gov.cn/。

图3.18 2001—2011年我国城乡居民家庭人均收入线图

从图3.18可以清楚地看出,城乡居民的家庭人均收入逐年提高,而且城镇居民的家庭人均收入高于农村,2008年以后这种差距有扩大的趋势。

绘制线图时应注意以下3点:

①时间一般绘在横轴,指标数据绘在纵轴。

②图形的长宽比例要适当,一般为横轴略大于纵轴的长方形,其长宽比例大致为10∶7,图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错觉,不便于对数据变化的理解。

③一般情况下,纵轴数据下端应从0开始,以便于比较。数据与0之间的间距过大,可采取折断的“∥”符号将纵轴折断。(www.xing528.com)

4)多变量数据的图示:散点图、气泡图和雷达

前面介绍的图形描述的基本都是单变量数据。但如果有两个或两个以上变量时,利用一般的点图方法很难反映变量之间的关系。因此,人们研究了多变量的图示方法,其中有二维散点图、三维散点图、气泡图、雷达图、脸谱图、星座图、连接向量图等。在此主要介绍二维散点图、三维散点图、气泡图及雷达图的绘制方法。

(1)二维散点图

◎定义3.18:二维散点图是用二维坐标展示两个变量之间关系的一种图形。它用横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中用一个点表示,n组数据在坐标系中形成的个点称为散点。

若用折现将每组数据点连接起来,则其称为折线散点图;若用平滑线将每组数据点连接起来,则其称为平滑线散点图。折线散点图和平滑线散点图用于显示时间序列数据和变量关系的二维数据时与折线图和曲线图的作用完全相同。

【例3.8】 x与y有一定关系。为了了解它们之间的关系形态,收集到如图3.19所示的数据。试绘制x与y的散点图。

图3.19 x与y的散点图

(2)三维散点图

当考察3个变量之间的关系时,二维散点图不再使用,这时可绘制三维散点图和气泡图来展示3个变量之间的关系。例如,根据表3.17的数据,可绘制出小麦产量、降雨量和温度的三维散点图,如图3.20所示。

表3.17 小麦产量、降雨量与温度数据的关系表

图3.20 小麦产量与降雨量和温度的三维散点图

(3)气泡图

气泡图也可用于展示三个变量之间的关系。它与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。例如,根据表3.17,绘制的气泡图,如图3.21所示。

图3.21 小麦产量与降雨量和温度的气泡图

从图3.21可以看出,随着气温的增高,降雨量也在增加;随着气温和降雨量的增加,小麦的产量也在提高(气泡在变大)。

(4)雷达图

雷达图是显示多个变量的常用图示方法,也称为蜘蛛图。设有n组样本S1,S2,…,Sn,每个样本测得P个变量X1,X2,…,XP,要绘制这P个变量的雷达图。其具体做法是:

①先做一个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆心连线,得到P个辐射状的半径,这P个半径分别作为P个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示。

②将同一样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是一个雷达图。

【例3.9】 2015年某地城乡居民平均每人各项生活消费支出数据见表3.18。试绘制雷达图。

表3.18 2015年某地城乡居民家庭平均每人生活消费支出/元

根据以上数据绘制的雷达图如图3.22所示。从图3.22中可以很清楚地看到,城乡居民家庭的消费具有很大的相似性,即食品支出比重最大,杂项商品及服务最小,而且城市的消费水平普遍高于农村。

图3.22 2015年某地城乡居民家庭平均每人生活消费支出雷达图

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈