变量命令是Mplus必须的命令之一,必须通过变量命令才可以对数据文件进行有意义的处理。对于初学者来说,最大的困难之一就是如何整理数据和使用变量命令来定义变量。一般情况下,最基本的变量命令有三个:①定义数据文件中的变量;②选择分析使用的变量;③定义变量的类型或尺度。
(1)VARIABLE定义数据文件中的变量
前面提到过,数据文件中除了数字之外不允许其他变量名称的字符存在,所以在分析数据之前需要给数据文件中出现的数据命名,或者说给每列变量取个名字。由于数据文件的格式已通过DATA命令定义,所以这里只需要给每列变量指定一个标签即可,所有变量都要有名称,否则程序读取时会出现错误,变量名最多允许8个字符。例如,VARIABLE IS/ARE/=y1 y2 y3 y4 y5。说明数据文件包含5个变量,名称分别为y1—y5。
(2)USEVARIABLES选择分析使用的变量
一个数据文件可能包含很多变量,但某项分析可能只涉及部分变量,所以在某个具体分析之前要对所使用的变量进行选择,使用USEVARIABLES来定义。例如,USEVARIABLESARE/=y1 y2 y3 y4 y5;或缩写成USEVARIABLESARE/=y1—y5,意指数据文件包含y1—y10十个变量,而只使用前五个变量。
(3)定义变量的类型或尺度
定义变量的类型或尺度很重要,因为在Mplus中,不同的变量类型对应着不同的参数估计方法,也就是说程序使用不同的统计方法是根据指定的变量类型进行的。例如,在回归分析中,连续型因变量对应线性回归,二分因变量对应logistic回归等。变量的尺度有连续、类别、计数、名义、截尾[5],这些数据需要不同的字符来定义,分别对应:CONTINUOUS,CATEGORICAL,COUNT,NOMINAL和CENSORED。在Mplus中默认的数据类型是连续的,所以连续变量不需要定义,或者说,非连续性变量若不定义会被程序当作连续型变量处理。
心理学和社会科学研究中常用的量表多采用李克特式问卷,如李克特5点计分,1=非常同意,2=同意,3=中立,4=不同意,5=非常同意。从心理测量学的角度来说,李克特5点式数据为类型数据,并没有达到等距水平,因为从“1=非常同意”到“2=同意”之间的距离并不等同与从“3=中立”到“4=不同意”之间的距离,然而在实践中多数研究者将5点李克特量表视作连续变量来近似处理。需要提醒读者的是这种做法只是处理数据上的方便,得到的只是近似估计,而非5点李克特量表为连续型数据。在研究过程中也常会遇到二分变量,如MMPI,EPQ和CPI等人格量表或临床评估工具。在定义顺序变量(orderedcategorical)或二分变量(binary)时需要使用CATEGORICAL指令。用COUNT、NOMINAL和CENSORED分别指定计数、名义和截尾数据。
(4)USEOBSERVATIONS
用于选择符合特定条件的样本。例如,USEOBSERVATIONS=gender EQ 1 AND GRADE EQ 1;选择所有符合性别为1,年级也为1的样本。EQ为逻辑符,表示“等于”,除此之外,还有如下逻辑符:
AND:和;
OR:或者;
NOT:否;
NE:不等于或“/=”;
GE:大于等于“>=”;
LE:小于等于或“<=”;
GT:大于或“>”;
LT:小于或“<”。(www.xing528.com)
(5)缺失值
M ISSING用于定义数据文件中的缺失值。Mplus提供两种缺失值标记:数值型和非数值型。前者是通过指定数据文件中的某(几)个数值代表数据缺失。例如,MISSING=ALL(9),表示所有变量的缺失值用9表示。如果不同的变量有不同缺失值标记符,则同MISSING=Y1(9)Y2(99)Y3(999),表示为变量Y1的缺失值用9表示,其他两个变量Y2和Y3的缺失值分别用99和999表示。MISSING=y1-y10(9);表示变量y1-y10的9代表缺失值。MISSING=y1(9)y2(9 99);表示变量y1的缺失值用9代表,y2的缺失值用9和99表示。
非数值型则是采用某种符号代表数据缺失。常用的非数值型缺失标记符有“*”“.”,或直接指代为空白MISSING=BLANK。需要注意,MISSING=BLANK不能用于自由格式的数据。
GROUPING:用于指定数据文件中用于分组的变量及数值标签代表的组别。例如,GROUPING=gender(1=male 2=female),说明数据文件中的gender为分组变量,1代表男性组,2代表女性组。
(6)定义
DEFINE 定义命令是一个很有用的命令,可以通过加减乘除和逻辑转换定义新变量。也可以使用数据转换命令计算或转换新变量。常用的数据转换命令有如下几个:
MEAN 通过平均几个变量的均值定义新变量。例如:Y=MEAN(y1 y2 y3);定义一个新变量Y,其值等于y1—y3三个变量的均值。
CLUSTER_MEAN 同CLUSTER同用,定义每个CLUSTER中个体水平的均值。例如,Y=CLUSTER_MEAN(x);新变量Y为每个CLUSTER中x变量的均值。
SUM 通过求几个变量的和定义新变量。例如,Y=SUM(y1 y2 y3);定义一个新变量Y,其值等于y1—y3三个变量的和。
CUT 通过预定的切分点将变量划分为类别变量。例如,CUT Y1(10 20);将变量Y划分为3类,≤10的转化为0;10—20之间的转化为1,≥20的转化为2。注意:产生新变量时,产生的新变量必须写入USEVARIABLE,否则在随后的分析中不能使用。
(7)辅助变量(AUXILIARY)
辅助变量有4个功能:
①配合SAVEDATA命令将分析中未使用的变量保存下来。
②与TYPE=GENERAL和ML估计配合使用,用于缺失值分析。辅助变量(Auxiliary Variables,与缺失值相关的变量)可以减少估计偏差并提高满足随机缺失假设的可能性(Collins et al.,2001;Schafer&Graham,2002)。具体来说,在分析缺失值数据时将辅助变量纳入分析过程,但辅助变量并不出现在模型中。例如:AUXILIARY=z1-z4(m);括号内的m表示missing,即辅助变量用于缺失值分析。
③与TYPE=MIXTURE配合使用,用于检验变量均值跨类别差异检验,括号内e表示equality。例如:AUXILIARY=y1(e)y2(e);用以检验y1、y2两个变量的均值在不同潜在类别组是否相等。
④与TYPE=MIXTURE配合使用,作为潜在类别变量的预测变量进行多项式logistic回归,括号内r表示regression。例如:AUXILIARY=Y1(r)y2(r)。r和e不能同时使用,但第一种功能和与其他3种功能可以组合使用,例如:AUXILIARY=gender Y1-y5(e);。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。