首页 理论教育 近现代多元统计分析与SAS实现

近现代多元统计分析与SAS实现

时间:2023-10-30 理论教育 版权反馈
【摘要】:目前,对于纵向数据的分析主要是基于分层模型和结构方程模型的理论和方法各自发展出来的一套独立的解法,分别是发展模型和潜变量发展模型。这两种方法均能较好地适应纵向数据分析的需求,克服传统分析带来的偏倚,极大地促进了统计分析技术的发展。

近现代多元统计分析与SAS实现

早在1690年,英国学者William Petty就运用定量分析的方法对当时英国的社会经济问题展开了一系列的探索。但是那时候的统计学还远远不能被称为一门科学,因为统计分析中的各种谬误严重影响了人们对真相的把握。其中一个最大的挑战就在于如何通过一部分具有代表性的样本来推断出总体的特征与规律。步入近代,随着数学方法的突破,以Karl Pearson、Ronald Fisher、William Sealy Gosset等为代表的学者进一步将统计学推入了以推断统计,即以随机样本来推断总体数量特征为主要方法的时代,这完美地解决了样本推断到总体的这一困境,并使得其成为可以分析任何其他科学的一般研究方法,从而广泛地应用在了医学实验、临床试验、流行病学调查以及社会科学等多领域的研究中。这些方法主要有假设检验(hypothesis test)、一般线性回归(simple linear regression)、多元线性回归(multiple linear regression)、Logistic回归(logistic regression)和广义线性回归(generalized linear regression)。

步入现代,上述这些方法至今仍然被沿用,同时依旧是解决许多问题的有效手段。但是随着科研问题的逐渐复杂化和对因果推断关系要求的提升,传统统计学方法的弊端和无法解决的问题也逐渐暴露了出来。例如,我们研究的每一个个体都不是独立存在于社会之中的。不论我们研究的问题是医学问题还是社会问题,这些个体都会不同程度地受到自己所嵌套的群体的影响。以我们对儿童的心理健康展开的研究为例,在这一研究中儿童是我们研究的对象,但是每个儿童都有其所处的家庭和社区,其心理健康会在一定程度上受到其所处的家庭和社区的影响,即每个儿童是嵌套在家庭和社区这个层面上的。因此当我们再采用传统的回归或方差分析时,就会因为模型估计的标准误产生偏倚,影响了我们对事实与真相的把握。同样,我们在研究时也会遇到一些无法直接观测的变量,这些变量该如何测量和解释,以及如何在无法进行随机对照试验时尽可能地做到因果关系推断的准确性,等等。这些问题都是传统的统计学无法解决的。可是,统计学对真相的追随并不会因此而停住脚步,进入20世纪60年代,随着数学方法在统计学中应用的进一步加强,计算机技术的迅猛发展,新一代的统计和测量理论及方法开始出现。

这其中最突出的就是多层分析的理论与方法。多层分析方法是为了解决上述的嵌套结构数据而产生的一种方法,其于20世纪90年代才最终完善成熟,目前已经被广泛使用和接受。如前所述,在开展教育、管理、经济等问题研究的取样过程中,样本往往会呈现出嵌套的结构。这种嵌套结构的样本采用传统的回归分析时往往会导致估计的误差,而采用多层分析的方法不仅可以减少这种误差,而且可以避免由于人为选择分析单位而出现的错误。在多层分析中,各层样本均可以作为分析单位,而且还可以研究它们之间的交互作用,从而进一步加强对各种相互因素探究的力度,拓宽了各专业的研究范围,深化了研究的思路。目前多层分析方法已经日趋成熟,在新一代统计方法中一直处于前沿的位置(王济川等,2008)。

为了解决在研究中不能直接测量变量的问题,结构方程模型(structural equation model)逐渐获得了发展和应用,且成为了现代统计分析方法的另外一个显著成就。潜变量(latent variable)是在心理、教育和社会学中都会涉及的一种变量,即不能直接观察和测量的变量,如智力、社会地位、学习动机等。结构方程模型主要将因子分析的测量能力与路径分析回归建模能力结合起来,使得潜变量可以被几个外显变量来间接测量,并且能够通过分析问题的主效应和交互效应进行探究。这种方法一经问世就被广大的研究者青睐,目前正日趋专业化、复杂化和深入化。(www.xing528.com)

除了上述两个突破外,统计分析技术另外一个显著的突破就是对于纵向数据的分析。相比较于横断面数据,纵向数据最大的优点就在于能够合理地推论变量之间存在的因果关系。一般来讲,要想得出变量之间的因果关系,原因变量自变量)与结果变量(因变量)之间需要满足下列几个条件:(1)时间顺序上,假设存在因果关系的原因变量必须发生在结果变量之前。(2)假设存在因果关系的原因变量和结果变量之间存在显著的关联。(3)在所考虑的模型中,其他原因变量(混杂效应)对于结果变量的影响能够被控制或排除(刘红云等,2005)。由此可见,横断面数据不可能实现上述的第一个条件,也就是说横断面数据在变量之间因果关系的推断上具有先天的缺陷与不足。但也正是由于纵向数据的这个优势,所以在科学研究中,运用纵向数据来探讨数据之间的因果关系及其发展与增长的规律。然而纵向数据分析有着一定的数据结构和分析模式,如果采用传统的分析方法对纵向数据进行分析则会导致结果的偏倚。比如,在纵向数据中,对个体进行多次数据的采集,这些数据之间本身就具有很强的相关性,即违背了一般线性回归中的独立同分布原则,所以采用一般的线性回归进行分析则会带来较大的偏倚,影响了我们对事物的把握。目前,对于纵向数据的分析主要是基于分层模型和结构方程模型的理论和方法各自发展出来的一套独立的解法,分别是发展模型(growth model)和潜变量发展模型(latent growth model)。这两种方法均能较好地适应纵向数据分析的需求,克服传统分析带来的偏倚,极大地促进了统计分析技术的发展。除此之外,另外一种纵向数据分析的模型——年龄-时期-队列模型(age-period-cohort model)也在20世纪70年代提出并快速地发展。由于APC模型能够很好地将研究对象的队列效应、年龄效应和时期效应分离出来,也在如人口学、流行病学等诸多学科中广受青睐。

对于研究变量之间的因果推断,众所周知,随机对照试验能够提供最为精确的证据,也一直被视为研究设计的金标准。可是,在大部分的研究中,尤其在数量庞大、实施难度高且违反伦理的情况下,随机对照试验基本不可能得以实现。那么这些研究就永远无法得到最真实的证据了吗?经过科研人员的不懈努力,一种名叫倾向值匹配的方法于21世纪初逐渐被广泛应用。这种方法基于反事实推断的原理被证明是使用非实验数据或观测数据进行干预效应评估时很有用的、较为新颖且具有创造性的方法,并在流行病学、经济学和社会科学等领域得到了广泛的应用(苏毓淞,2017)。

上述就是步入近现代以来统计分析方法获得的一些较为显著的突破,本书就是针对这些前沿和高阶的方法展开的解释。但是也遵循着由浅入深的逻辑层次:除了第1章的引言是对整体情况进行的一个概述,从第2章开始每一章节对一个单独的方法展开介绍,且是一个由浅入深、由易到难的过程。第2章和第3章是相对初阶的内容,主要对方差分析、多元线性回归进行了介绍。第4章、第5章、第6章、第7章、第8章则是中阶的内容,主要对进阶回归分析、生存分析、聚类分析判别分析、主成分分析和因子分析进行了介绍。从第9章开始,是我们本书重点介绍的内容,也是目前统计方法中比较前沿的方法,它们分别是倾向值评分匹配、结构方程模型、潜变量分析、分层模型,发展模型以及年龄-时期-队列模型。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈