纵向研究指的是对结果变量进行两次及以上重复测量的研究,比如对同一个体的某一测量结果在不同时间点进行多次测量(Jos,2016),这样产生的纵向数据与横向数据比较有几个明显的特征。第一,由于每一个研究对象被多次测量,观测值之间会存在相关。第二,纵向数据变异来源可以分解为对象个体内变异和对象个体间变异,并且这些变异可能会随时间的变化而发生改变。第三,很多情况下纵向数据不是完整数据或是非平衡数据,因为某些研究对象会因各种原因“失访”。
13.1.1.1 数据格式
纵向数据通常有两种格式:宽数据和长数据。我们常见的数据格式如表13-1所示,是长数据格式,每个个体观测的数据在每次测量后被新写一行,变量id标识着属于同一个个体的数据集的行。time是时间度量变量;y是结局变量。长数据文件的长度由个体的数量和每个个体重复评估的次数共同决定。需要注意的是,对每个个体来说,time变量允许不同,例如id=1在3,4,6和7的时间点进行了观测,id=2在2,3和4的时间点进行了观测。表13-2是宽数据格式,每个个体的重复观测的结局变量在单行中(例如,y2、y3、y4)。在这种格式中,很容易看出两个个体没有在同一时间点进行测量,因为在id=1的y2和y5处以及id=2的y5,y6和y7处有缺失值(用.表示)。宽数据文件的长度只取决于个体的数量;变量的数量测量次数决定了宽度。一般来说,长数据用于拟合多级建模框架中的发展模型(Kevin,2017)。
表13-1 长数据格式
表13-2 宽数据格式
(www.xing528.com)
13.1.1.2 数据的缺失
在纵向数据中由于多种原因出现数据缺失问题,如研究对象拒绝回答某些问题、研究对象拒绝或错过某次随访调查、或者退出调查等。这样会使数据不完整,如果不对缺失值进行处理而直接分析数据,其结果可能会产生估计偏倚和统计推论的误导。不同的缺失数据类型需要采用不同的方法进行缺失值处理。一般来说纵向数据中数据缺失有三种类型(Jos,2002),如下:
完全随机缺失(missing completely at random,MCAR):如果数据缺失不与结果测量或其他协变量相关联,则称为完全随机缺失。这种类型的缺失是由于随机原因产生,如漏填、死亡、迁出等,此时数据缺失是可以忽略的。
随机数据缺失(missing at random,MAR):如果数据缺失与观测到的结果变量和协变量相关,但与未观测到的结果变量和协变量不相关,则称为随机数据缺失。追踪数据的缺失一般满足随机缺失,也可以忽略缺失数据。
非随机数据缺失(missing not at random,MNAR):如果数据缺失与未观测到的协变量相关,或与未被观测到的结果变量相关,则称为非随机数据缺失。此时不能忽略数据缺失。
在纵向数据分析中,有许多处理数据缺失的方法,如均数替代法、回归推算法、基于模型的多重推算法等,限于篇幅,具体方法不在此展开。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。