数据质量管理(Data Quality Management,DQM)是指从数据的提供者、生产者和使用者等角度来衡量和管理数据,针对来源于独立研究者进行调查而获得第一手数据,对调查数据的质量的管理显得尤为重要。本研究通过对三次调查样本的有效情况以及日志完整情况的统计,分析不同调查方法和问题设置可能对调查产生的影响。三次调查分别确定了有效样本并建立数据库,重要的社会经济属性完整,有效日志不少于调查持续时间的一半即认为样本有效;而对于日志,一天24小时的日志完整并且不存在重大的逻辑错误则认为日志有效。
在样本有效率方面,三次调查的样本有效率均在85%以上,其中2010年调查的样本有效率最高,2007年问卷调查的有效率最低,主要与调查方式以及调查员的协助力度有关(表6-2)。2007年调查采取纸质版问卷、半访谈与留置相结合的方式,在被调查者填写完成后统一进行录入及有效样本筛选。而2010年和2012年的调查过程中,调查员可以在网上进行实时的监测与协助,并且2010年调查由于样本较少,调查员的协助力度较大,因此有效率较高。而在日志的有效率方面,2007年调查的持续时间只有两天,并且纸质版填写的问卷在经过有效样本的筛选后基本可以保证日志的有效。而对于2010年和2012年的调查,一方面由于调查持续7天,在样本有效的情况下某一天日志无效的可能性较大;另一方面网上填写的方式也会产生一定的影响,2010年调查中系统对于活动和出行的误判造成了大量日志无效,而在2012年的调查系统中,加入了日志完整性等检验,提高了日志的有效率。
表6-2 三次调查样本有效情况对比
(www.xing528.com)
研究还对三次调查所获取的活动与出行记录数进行了统计,考虑到2007年的调查涉及部分非郊区居住区,为了控制居住区区位以及类型可能带来的影响,将调查中的当代城市家园、方舟苑、望京花园、回龙观四个郊区居住区的活动与出行记录数量进行单独统计,用以与2010年和2012年在郊区居住区进行的调查作对比(表6-3)。从对比结果看,2007年问卷调查中居民填写的活动和出行数量相对较多,但2012年调查工作日的家外活动多于2007年调查结果,2010年调查填写的记录数最少,这主要与调查方式以及日志中问题的设置与数量有关。
表6-3 三次调查活动与出行记录数对比
尽管在结合定位技术与网站的调查中,时空轨迹能够对居民的活动与出行信息填写起到提示作用,但根据几次调查结果,这种提示并没有使得活动与出行的记录数增加,并且由于时空轨迹更多地是反映居民家外的活动情况,信息的填写相对于纸质问卷也更加繁琐,基于网站调查的家内活动记录较少。2010年调查的活动数量远少于另外两次调查,一方面由于系统通过速度对活动和出行进行的分割,造成在同一地点的所有活动被识别为一条记录,被调查者也倾向于更少的工作量而很少添加新的记录;另一方面,2010年调查将所有的家内活动归为一类,活动类型也远少于2007年和2012年调查,因此活动的记录数量较少。但同时也由于系统对出行的识别,2010年出行的记录数与另外两次调查相似。2012年调查在活动和出行的问题设置以及活动类型分类方面都与2007年调查相似,因此得到的活动与出行数量也与2007年调查接近。相对于2007年调查,2012年调查工作日家外活动与出行记录数更多,而休息日家外活动与出行记录更少,可能是由于郊区居民生活方式的变化造成的。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。