模型中参数是指模型中的系数,即常数项β0和回归系数βi(i=1,2,3,…,n)。因为Logistic回归的因变量是对数发生比logitP,所以每个自变量的估计系数便是自变量xi对logitP的作用。假设事件定义为某疾病的发生状况,常数项β0指不考虑其他自变量xi的作用时,某疾病发生与不发生概率之比的对数值(logitP)。而回归系数βi测量的是自变量的变化对连续变量logitP的作用,当βi为正数时,说明自变量xi每增加一个单位可以使某疾病发生与不发生概率之比的对数值(logitP)提高βi;当βi为负数时,说明自变量xi每增加一个单位可以使某疾病发生与不发生概率之比的对数值(logitP)降低βi。虽然对于logitP的作用解释在线性表达的基础上更加方便,但在实际研究中,这样的解释缺乏对事件概率的直观含义(王济川、郭志刚,2001)。因此,对Logistic模型中参数的解释通常会基于发生比的指数表达式(4-2),因此我们需要先了解三个与Logistic模型参数解释相关的概念,分别是发生比(odds),发生比率(odds ratio,OR)和相对危险(relative risk,RR)。
例如:某疾病发生概率为0.6,不发生概率为0.4,则发生比为1.5(odds>1,表示疾病更可能发生)。如果我们要分析x1变化一个单位(假设x1是连续的)将会给某疾病的发生概率带来什么影响,我们可以将变化后的疾病发生概率设为P1,(x1+1)表示变化后自变量取值,则:
我们将x1变化前后的两个发生比之比称为发生比率,则:
OR值可以测量自变量的变化给发生比带来的变化。需要说明的是,大于1(小于1)的OR值,表明事件发生的可能性会提高(降低),或自变量对事件概率有正(负)的作用;OR值为1表示变量对事件概率无作用。在具体研究中可结合解释变量所代表的因素对其做出恰当的解释。
还有一种常用的解释指标为相对危险,它是两组之间事件发生概率的比:
若P1=P2,RR值为1,则说明两组在事件发生概率方面并没有差别。
总的来说,对Logistic模型中参数的解释可以从线性表达式与指数表达式两个角度进行解释,前者表示的是加法效应,后者表示的则是乘法效应,可以根据实际研究选取解释角度(Fred,2000)。此外,在实际运用中,根据自变量类型的不同,对于模型参数的解释也存在着差异。
1.连续型自变量回归参数的解释
连续型自变量如身高、体重,我们关注的往往是自变量的变化幅度给odds带来的变化。截距β0表示基准odds的对数值,即当Logistic回归模型中没有任何自变量时(除常量外,所有自变量都取0值)的odds值。那么基于odds的指数表达式(4-2),若βi>0,则odds=exp(βi)>1,若βi<0,则odds=exp(βi)<1,即xi每增加一个单位,odds会相应地增加(减少),exp(βi)则反映了自变量xi每变化一个单位时odds所变化的倍数。(www.xing528.com)
2.二分类自变量回归参数的解释
二分类自变量,例如性别,取值可以用0或1编码,也称为虚拟变量。若x2为取值为0或1的二分类变量,则有:
两式作差得:
因此β2就是在控制其他变量条件下,x2=1与x2=0的对数发生比的差,也是发生比率OR值的对数,即x2取值为1的个体的事件发生比是x2取值为0的个体的exp(β2)倍。
3.多分类变量的处理与回归参数的解释
当自变量的分类多于两个类别时,则需要将其中一个类别作为参照类。
例如,如果将年龄变量分为四个类别:age=0(40岁及以下),age=1(40岁至50岁),age=2(50岁至60岁),age=3(60岁及以上)。则需要将其中一类作为参照类,其他类别的参数估计值都是与它相比而得到的。哪一类作为参照类是随意的,取决于偏好或解释的方便。若将age=0作为参照类,则Logistic模型可以写为:
其中,j为年龄变量age的类别(j=0,1,2,3),除参照类外每个类别都会产生对应的系数β1j。与二分类变量的系数解释相似,β11,表示age=1这一组的个体的事件发生比(odds)是age=0组的exp(β11)倍。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。