把定性数据汇总到一张表格里,用来看一组数据的分布状况,这就是频数分布表。当然,也可以把定性数据画成图,通过图形来看数据分布状况。下面将依次介绍频数分布表、条形图、饼图、帕累托图、列联表。
3.1.1 常用来分析定性数据的图表
3.1.1.1 频数分布表 (frequency table/frequency distribution table)
频数分布表是遵循既不重叠又不遗漏的原则,按变量 (数据特征) 的取值归类分组,把总体的所有单位按组归并排列,由其各个组别所包含的数据数目 (频数) 构成的汇总表格。频数分布表包括两个要素: 总体按其标志所分的组和各组所分布的单位数量(频数)。
为了做出一个正确的决策,通常很重要的事情就是知道变量取值的分布状况。例如,为了确定在哪里投放广告,某公司的管理者想知道通过不同的搜索引擎访问他们公司网站的人数是多少,这里,“搜索引擎”是一个定性变量 (分类变量),它的可能取值是引擎的类别。我们需要通过计算机汇总每个类别的数量。这可以通过一个频数分布表来演示。
表3-1是某公司网站的访问者使用的搜索引擎的频数分布表,该表给出了搜索引擎的类别名称、每个类别的访问数量以及合计数。
表3-1 某公司网站的访问者使用的搜索引擎的频数分布表
在表3-1中,最常选择的是Google、Baidu和Direct (直接输入网址访问),然后是Yahoo和其他,极少数是使用MSN访问。
有时候为了显示每一组占观测值总数的比例会用相对频数 (频率) 分布表 (relative frequency table) 或者百分比分布表 (percentage distribution table) 来分析定性数据,即每一组的频数都要除以观测值总数,也就是:
或者百分比:
表3-2是某公司网站的访问者使用的搜索引擎的相对频数表,表中展示了每个类别的访问比例。
表3-2 某公司网站的访问者使用的搜索引擎的相对频数分布表
从表3-2可以看到,接近0.36的用户是通过Google访问,接近0.30的用户是通过Baidu访问,接近0.23的用户是直接输入公司网址访问,接近0.05的用户是通过Yahoo访问,接近0.05的用户是通过其他访问,接近0.02的用户是通过MSN访问。
3.1.1.2 条形图 (bar chart)
条形图是用等宽直条的长短来表示各个相互独立的指标大小的图形,适用于相互独立的数据 (数据有明确的分组,不连续)。条形图可以描述那些已经用频数分布表汇总了的定性数据。一个坐标轴代表定性变量的各个取值,在每个变量位置的条形的长度和其所代表的水平的频数成比例。条形图有很多种形式,比如纵轴和横轴可以互换,这决定了条形是垂直放置还是水平放置。条形图还可以描述离散定量数据的频数、相对频数 (频率) 分布。
图3-1是通过搜索引擎访问某公司网站的条形图。
图3-1 搜索引擎访问某公司网站的条形图
从图3-1中很容易看出各类搜索引擎访问人数的差异。最常选择的是Google、Baidu和Direct,然后是Yahoo和其他,极少数使用MSN访问。
如果想了解搜索引擎的频率,还可以使用频率条形图,如图3-2所示。
图3-2 搜索引擎访问某公司网站的频率条形图
3.1.1.3 饼图 (pie chart)(www.xing528.com)
饼图又称扇形图或者圆形图,是一个面积为100%由很多扇形组成的圆,各个扇形的大小比例等于各个类别的频率或比例,即表示了不同组成部分的相对重要性。饼图对分析定性数据特别有用。饼图比条形图简单,描述比例较直观。但是当变量太多时,饼图就不那么好看了。
2011年3月中金公司发布报告,对国内几大微博平台进行了分析。其中,按照用户浏览时间计算了这几大平台的市场份额,用饼图展现计算结果如图3-3所示:
图3-3 按照用户浏览时间计算的市场份额
从饼图可以看出,新浪微博的市场份额处于绝对领先地位,占86.5%; 其次是腾讯微博,占9.1%。
3.1.1.4 帕累托图 (Pareto chart)
帕累托图是以意大利经济学家帕累托的名字命名的,把每一类数据按照其频数的大小递减排列,并按照这种递减的顺序画出条形图,然后再同一幅图上添加累积百分比线。帕累托图是根据“关键少数和次要的多数”的原则而制作的。它是找出主要影响因素的一种简单而有效的图表方法。根据表3-2不同类型搜索引擎的频率分布表绘制的帕累托图如图3-4所示。
该图表明: 访问网站的主要途径是通过Google、Baidu和Direct,因此该公司应该主要通过以上三个途径进行有针对性的广告投放。
3.1.2 常用来分析两组或多组有联系的定性数据的图表
在商业中对可能存在一定联系的两组或多组定性数据之间的内部结构进行分析研究是很普遍的,通常用到的一种表格就是列联表。
列联表 (contingency table) 是将两个或两个以上的变量进行交叉分类得到的频数分布表。一个变量属性位于行,另一个变量的属性位于列。位于行和列交叉处的值称为单元(cell)。
图3-4 根据搜索引擎的频数分布表绘制的帕累托图
假设你想探讨一下基金的风险水平和基金目标之间是否存在一定的依存关系。表3-3给出了所有的868家基金的列联表如下:
表3-3 基金目标和基金风险制作的列联表
制作列联表时,把这868种基金中每种基金的目标和风险的情况列在表内6个可能的单元格中。基金原始数据中列出的第一家基金被分类为高风险价值型基金,就把它列入表中第二行和第一列的交叉处的单元格里,再以同样的方式记录剩余的867种基金的信息。
为了进一步分析基金目标和基金风险之间可能的关系,可以构造基于百分比的列联表。把列联表中的数据表示成百分数,则列联表中可以得到三种百分数形式: (1) 总的百分数; (2) 行的百分数; (3) 列的百分数。
表3-4、表3-5、表3-6给出了以上三种百分比列联表。
表3-4 基金目标和基金风险的基于总和百分比的列联表
表3-5 基金目标和基金风险的基于行和百分比的列联表
表3-6 基金目标和基金风险的基于列和百分比的列联表
表3-4表明,样本中基金中有40.9%是高风险,53.46%是成长型基金,并且34.79%是高风险成长型基金。表3-5表明,65.09%的成长型基金是高风险的,而4.74%的是低风险的。表3-6表明,高风险基金中85.07%是成长型的,低风险基金中89.11%是价值型的。这些表揭示了成长型基金更可能是高风险的,而价值型基金更可能是低风险的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。