首页 理论教育 优化数据处理方法以提高样本代表性

优化数据处理方法以提高样本代表性

时间:2023-05-29 理论教育 版权反馈
【摘要】:全国性的数据只有2011年一个年份的,这一全国基线调查数据的抽样方法以保证样本的无偏性和代表性为宗旨,在县(区)、村(居)、家户、个人等4个层面上,采用PPS抽样,按照人口规模成比例进行概率抽样[1]。再次,CHARLS抽样方法执行十分严格的抽样环境与标准,样本一旦抽取不允许变换。2008年的试调查一共调查了45岁以上2 685 人,2012 年的调查共追踪了2 385人,试调查和追踪调查的样本分布可以代表甘肃与浙江两省的城乡、年龄别、性别分布。

优化数据处理方法以提高样本代表性

我们主要使用CHARLS 3个年份的调查数据,分别是2011年全国基线调查数据、2008年甘肃和浙江试调查数据、2012年甘肃和浙江追踪调查数据。

全国性的数据只有2011年一个年份的,这一全国基线调查数据的抽样方法以保证样本的无偏性和代表性为宗旨,在县(区)、村(居)、家户、个人等4个层面上,采用PPS抽样(probabilities proportional to size),按照人口规模成比例进行概率抽样[1]。首先,在县(区)层面的抽样,按照2009年各县区的人口总量为基数,并按不同地区、分城乡以及GDP总量作为分层指标,从全国30个省、直辖市、自治区中(西藏自治区、台湾省、香港特别行政区和澳门特别行政区没有纳入抽样)随机抽取了150个县区。其次,在村(居委)层面上,同样按照2009年每个村(居委)的常住人口作为基数,每个县区抽取3个村或居委,一共抽取到450个村或居委。再次,CHARLS抽样方法执行十分严格的抽样环境与标准,样本一旦抽取不允许变换。最后,CHARLS针对抽取结果实施进一步的核对,如果村(居委)层级的2009年常住人口数量与2007年数据发生大额差距,就会向统计局或者向疾控中心进行核实,据此保证抽样的质量水准[2]。(www.xing528.com)

2008年与2012年对甘肃和浙江两省调查的抽样方法与2011年全国基线调查的抽样方法是一致的,这里不再赘述。2008年的试调查一共调查了45岁以上(我们使用60岁以上的样本)2 685 人,2012 年的调查共追踪了2 385人,试调查和追踪调查的样本分布可以代表甘肃与浙江两省的城乡、年龄别、性别分布。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈