实际的社会现象是复杂的,仅靠单变量和双变量的分析不能全面地反映现象之间的关系,这就要求进行多变量统计分析。对于多变量命题的研究,除了依靠单变量的研究之外,还要研究不同变量之间是否存在关系,如果确定存在关系,那关系的密切程度又如何?此外,如果资料来源于抽样调查,还要研究这些结论能否推论到全体。例如我们对630名炊事员高血压病进行调查,检查项目中除血压外,尚有年龄、性别、体重、体胖等15个项目(变量)。如果用单变量统计分析法考察超重与血压的关系,超重组与不超重组相比,高血压患病率高出一倍以上。但如果把资料按体胖者与不体胖者划分成两组,再考察每组内的超重与高血压患病率的关系,就未能发现超重与高血压患病率有任何明显的联系,也就是说,单变量统计分析忽视了另外因素(如此例中的体胖及年龄等)的影响。对于有多个变量客观存在而又相互影响的资料,采用简单的单变量统计分析是不合理的,只有多变量统计分析能把变量间的内在联系和相互影响考虑在内。
多变量统计分析起源于医学和心理学。二十世纪30年代它在理论上发展很快,但由于计算复杂,实际应用很少。70年代以来,由于计算机的蓬勃发展和普及,多变量统计分析已渗入到几乎所有的学科。到80年代后期,计算机软件包已很普遍,使用也方便,因此多变量分析方法也更为普及。多变量统计的理论基础和工具是数学中的概率论和矩阵,但对于实际应用者而言,只要有合适的计算机和软件包以及掌握一些初步的多变量统计知识,就可以使用它来解决实际问题。多变量统计的内容很多,但从实际应用角度看,主要包括回归分析、判别分析、因子分析、主成因分析、聚类分析、生存分析等六个大的分支。
1.回归分析
当多个变量x1,x2,…xm(称为回归变量或自变量)同时影响某个指标y(称为因变量)时,可进行回归分析。回归分析的第一个任务就是求回归变量对指标y的影响的统计规律性(也称回归关系),第二个任务是寻找众多的回归变量中哪一些能对指标y产生影响(常称为因素分析或变量的筛选),第三个任务(也称相关分析)是在固定(或称消除)其他变量的影响后考察每一个回归变量对指标y的相关程度(称为偏相关系数)。上述三个任务常是相互联系,可以同时完成。回归变量x1,x2,…xm与因变量y之间最常见的统计关系有两大类型:线性模型和非线性模型。其中线性模型是最常用的模型,称为多重线性回归或多元线性回归。用样本估计线性回归模型中未知常数的方法也很多,经典的方法为最小二乘法,它的理论较为完善,此法较适用于回归变量之间的相关性不很大时。在前述的炊事员高血压病调查中,使用线性模型和最小二乘法求出未知常数,再用逐步回归选取变量,可求得15个变量中有7个变量对炊事员舒张压有显著的影响,它们按偏相关系数大小排列为:年龄(0.297)、体胖程度(0.253)、肾炎史(0.162)、性别(0.117)、工作类别(0.081)、高血压家族史(0.061)、嗜咸程度(0.052)。从相关性大小看,体胖对舒张压的影响与年龄的影响大体相当。另外还可看出:工种,家族史和嗜咸对舒张压虽有影响,但影响甚小。
2.判别分析
判别分析是根据样本的某些指标来决定样本归属的类别。例如在医疗诊断中,要确定一个病人是否患有急性阑尾炎,这就是一个判别问题。为了回答这一问题,往往需要对病人进行多项指标(变量)的检测,然后根据各项指标的观测值将病人归入患有急性阑尾炎或不患有急性阑尾炎的类中。判别分析通常是先确立一个判别函数,将各指标的观测值代入相应的变量,再根据某判别规则(如函数值大于某值)作出判断、鉴别或决策。例如,为了研究亚硝酸基盐化合物与胃癌的关系,有人曾对胃癌组(记为H1)、萎缩性胃炎组(H2)、浅表性胃炎组(H3)3组病人测量以下6个指标(变量):性别(x1,男为1,女为0)、年龄(x2)、胃液中pH值(x3)、唾液中亚硝酸盐浓度(x4)、胃液中亚硝酸盐浓度(x5)、胃液中二甲基亚硝酸胺浓度(x6)。用判别分析法,可求出6个指标(变量)在3个疾病组中分布有显著不同的是x1,x2,x4,x6;其余两个指标在不同组中的分布大体相同。对应于每个疾病组可建立判别函数,在判别分析时,可将测得的病例值(x1,x2,x4,x6)代入判别函数,求得一组函数值,进而做出判断。这样,诊断就变成了数据的处理及分析,现代化医院自动诊断的原理就基于此。
3.因子分析
一切社会和自然现象中各变量(或事物)之间常存在有相关性或相似性,这是因为变量(或事物)之间往往存在有共性因素(称为公因子或共性因子),这些共性因子同时影响不同的变量(或事物)。因子分析的根本任务就是从众多的变量(或事物)中由表及里找出隐含于它们内部的公因子,指出公因子的主要特点,并用由实际测量到的变量(或事物)构造公因子。因子分析有R型及Q型之分,用于变量之间时称为R型因子分析,用于事物之间时称为Q型因子分析。利用因子分析方法可以从所观测到的变量中推断出少数因子,用最少的因子来解释所观测到的变量,从而揭示事物之间内在的联系。对因子的实际解释必须结合专业知识并由实践检验。例如中国学者梁月华、孙尚拱曾用因子分析法找出隐含在6个易测量的生理指标(收缩压、舒张压、呼吸、心率、体温及唾液量)内部的公因子,并用实验判定这些指标可很好地代表交感神经的平衡状态,最后用这些指标论证了中医的“寒热”的本质就是交感神经的抑制或兴奋。(www.xing528.com)
4.主成因分析
主成因分析是研究如何把彼此相关的变量综合成一个(或少数几个)综合指标(或称主成分),而该综合指标Z应能最大限度地反映观测变量所提供的信息。实际上Z往往只能吸收m个变量中相关最大的一部分信息(类似于因子分析中),因此当观测变量间彼此很少有相关性时,使用主成分分析是不合适的。如果观测变量间相关性可以分成几组而各组间又很少相关,这时不能用一个主成分综合全体变量,而应多取几个主成分。实际使用时,由于主成分分析与因子分析极为相似,所以不少统计学家常把两种分析不加区别,名称也相互套用。主成分分析在医学研究中有很多应用,例如有人把5个易测量的老化征(白斑、老年斑、闭目单腿直立时间、老年环、脱齿数)综合成一个指标Z,计算表明综合值Z可以吸收5个老化征全体信息中的43%,能综合地反映出形体老化的程度。
5.聚类分析
聚类分析也称为分类学。经典的分类学诞生于几百年前,比如化石分类、植物标本分类等。过去的分类多依靠一些特异性指标,而如果对于所需分类的事物,不存在或难以使用特异性指标时就只能采用多变量统计分析法。把数学方法引进分类学并称之为“聚类分析”是60年代的事。此后聚类分析发展很快,并取得广泛应用,但还不大成熟。聚类分析也可分为R型及Q型,对变量作分类称R型,对样品(观察单元、事物)作分类称Q型。分类的基础是相似性或距离,如果两个变量(或样品)彼此相似或距离很近,自然就分在同一类。因此在进行聚类分析时必须先定义相似性或距离。相似性或距离的定义法种类繁多,例如,常用变量间的相关系数代表变量间的相似性,以几何中两点间的欧氏距离(先要去量纲)代表两个样品间的距离等,然后选用分类的数学公式,对它们的分类作出判别。
6.生存分析
生存分析起源于寿命表。生物的生存时间除了受健康的影响外,同时还受社会因素、生活条件等影响。生存分析研究哪些因素对“寿命”有显著影响,它的风险程度如何。20世纪末生存分析已不仅用于研究人的寿命问题,还用于一切广义的“寿命”或有关“死亡”的问题,比如发动机的寿命、病人手术后的生存时间、两种疗效的对比分析等。生存分析有多种模型,最常用的有Cox回归模型,它的特点是:m个变量联合作用的相对风险可以表示成每个变量单独作用时相对风险的乘积(故也称为乘法模型)。另外常用的模型为可加性模型,它的特点是m个变量联合作用的相对风险可表示为每个变量单独作用之和。
【注释】
(1)所谓拟合是指已知某函数的若干离散函数值{f1,f2,…fn},通过调整该函数中若干待定系数f(λ1,λ2,…λn),使得该函数与已知点集的差别(最小二乘意义)最小。如果待定函数是线性,就叫线性拟合或者线性回归(主要在统计中),否则叫做非线性拟合或者非线性回归。表达式也可以是分段函数,这种情况下叫做样条拟合。一组观测结果的数字统计与相应数值组的吻合。形象地说,拟合就是把平面上一系列的点,用一条光滑的曲线连接起来.因为这条曲线有无数种可能,从而有各种拟合方法.拟合的曲线一般可以用函数表示.根据这个函数的不同有不同的拟合名字。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。