首页 理论教育 新闻出版业发展指数研究-数据处理与缺失数据处理

新闻出版业发展指数研究-数据处理与缺失数据处理

时间:2023-11-05 理论教育 版权反馈
【摘要】:同样对于第j个指标来说(纵向),所有省市中这方面的最大的数值用max来表示。因此,本书对这些指标项的数据采取各省与全国同等赋值的处理办法,这有待课题组在以后的工作中想办法补充分省的数据。本书对于缺失数据的处理方式如下:将指标值完成测算和标准化后,赋予缺失数据为0,即缺失数据的地区在该项指标上被赋予最低指数值,依此提示各地应重视新闻出版产业数据及时的统计与公开。

新闻出版业发展指数研究-数据处理与缺失数据处理

由于新闻出版业发展指标体系中各项指标的计量单位、意义各不相同,分别有绝对数指标、相对数指标和平均数指标等,使得各层指标数据之间没有一个统一的量纲,无法直接进行比较与指标的加权综合。为此,本书首先对各指标的数据进行同趋势化和无量纲化。所谓同趋势化,是将逆向指标转化为正向指标,即指标的正向化,本书采用倒数法实现指标的同趋势化。无量纲化则是消除量纲和数量级的影响,将指标的实际值转化为可以综合的指标评价值,从而解决评价指标的可综合性问题,本书分区域数据采用的无量纲化处理的数学模型为:

式中,Iij为第i个地区第j个指标标准化后的结果,Xij为第i个地区第j个指标数据。对于第j个指标来说(纵向),所有省市中的这方面最小的数值用min(Xj来表示。同样对于第j个指标来说(纵向),所有省市中这方面的最大的数值用max(Xj)来表示。无量纲化的数据经过变换后拥有统一的量纲,在整个标准化结果中,实际数据中最小的数值经过量纲化处理后的数据变为0,实际数据中最大的数值经过量纲化处理后的数据变为1,其他原始数据处理后的结果都在0~1之间变动。

全国2010~2014年数据的无量纲化方法为以2010年为基期,各年各指标值分别与2010年相应指标值作比的相对数作为指数反映指标变动情况,其中价值指标做了以2010年为基期的价格平减。(www.xing528.com)

在本书的原始数据采集中,由于涉及的三级指标较多,需要数据支撑量很大,再加上各地区的技术、经济和政府管理等方面存在差异,使得部分地区尤其西部地区的多项指标数据缺失。还有一些指标,如版权执法行政处罚数量、国民综合阅读率、国民数字化阅读率、数字出版营业收入等,只有全国的数据,没有分省数据,如果去掉这个指标,可能会导致整个指标体系的科学性出现较大问题。因此,本书对这些指标项的数据采取各省与全国同等赋值的处理办法,这有待课题组在以后的工作中想办法补充分省的数据。本书对于缺失数据的处理方式如下:将指标值完成测算和标准化后,赋予缺失数据为0,即缺失数据的地区在该项指标上被赋予最低指数值,依此提示各地应重视新闻出版产业数据及时的统计与公开。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈