实际问题中总需要考虑两个以上分类变量对连续变量(因变量)的影响。这样一来一维表就不够用了。更多个分类变量的影响可以通过一系列二维表来分析,所以二维表是tabulate过程打印的基本形式。这儿通过例6.3解释二维表的生成和二维表的结构。
例6.3 根据表6-3,对于数据集highweig,打印出二维表,以便直观分析地区和性别对于平均身高和体重的影响。
解 分别制两张表,一张分析体重,一张分析身高。地区和性别是分类变量,它们影响身高和体重。为了得到以地区为横轴,性别为纵轴的身高(或)体重平均值二维表,应当在table语句中以性别为第一分类变量,以地区为第二分类变量,身高或体重、mean与它们交叉。可以用语句
画身高二维表。
该语句的作用比较复杂,这里仔细解释一下。table是关键词,表明使用table语句。table后面有两个变量用逗号分开。前面的变量是gender all,它是gender和all的并行,表示性别及其汇总信息。性别有两个状态1和2,因而指示SAS生成的表将要按从上到下(纵轴)方向分为3行:第1行gender取1,即第1行是男性信息;第2行gender取2,即第2行是女性信息;第3行是由all产生的,表示第3行是男女汇总信息,即全体学生的信息。逗号后面的变量mean*high*(area all)是mean、high和area all的交叉,表示身高取平均值,area能取3个值即1、2、3;area和all并行指示SAS从左往右数,前几列按列列出area的不同值(不同地区)相应high的平均值,最后1列列出该行所有观测值的平均值(第1行是男性信息,area有8次观测取a1,第1列是将该地区8个男生身高平均所得的值;area有9次观测取a2,第2列是将该地区9个男生身高平均所得的值;area有6次观测取a3,第3列是将该6个男生身高平均所得的值;男性共有23人,第1行最后1列是23位男生身高的平均值。第2行是女性信息:area有5次观测取a1,第1列是将该地区5个女生身高平均所得的值;area有6次观测取a2,第2列是将该地区6个女生身高平均所得的值;area有6次观测取a3,第3列是将该6个女生身高平均所得的值;女性共有17人,第2行最后1列是17位女生身高的平均值。第3行是汇总信息,构造同例6.2的最后1行)。
为了求体重的平均值表,采用的语句“table gender all,mean*weight*(area all);”的含意类似。
制作有关身高和体重的二维表可用如下程序:(www.xing528.com)
提交后得到
由第1张二维表可见,对于男生而言,地区1、地区2、地区3的身高平均值分别是176.5厘米、173.56厘米、169厘米,全部男生的身高总平均值是173.49厘米。对于女生而言,地区1、地区2、地区3的身高平均值分别是169.4厘米、168.17厘米、165.17厘米,全部女生身高的总平均值是167.47厘米。地区1、地区2、地区3的所有学生的身高平均值分别是173.77厘米、171.40厘米、167.08厘米,全部40个学生的身高总平均值是170.88厘米。由第2张二维表可见,对于男生而言,地区1、地区2、地区3的体重平均值分别是75.13千克、64.44千克、58.17千克,全部男生的体重总平均值是66.52千克。对于女生而言,地区1、地区2、地区3的体重平均值分别是55.2千克、49.33千克、44.83千克,全部女生的体重总平均值是49.47千克。地区1、地区2、地区3的所有学生体重的平均值分别是67.46千克、58.4千克、51.5千克,全部40个学生的体重总平均值是59.28千克。
注意,如果把身高和体重并行,即使用如下程序:
那么提交程序后得到的输出是把身高和体重的两张表合在一起。但是合并后的表太宽了,不便使用。
练习题 用tabulate过程打印二维统计表,显示以地区和性别交叉得到的组合所统计的每个地区的最低身高表,并解释所得表的含义。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。