首页 理论教育 数据预处理与缺失值填补:简明指南

数据预处理与缺失值填补:简明指南

时间:2023-08-08 理论教育 版权反馈
【摘要】:基本思想是利用辅助信息,为每个缺失值寻找替代值。根据变量特征在简单及加权算术平均数、中位数、众数中选用合适的平均数,尽量使替代值更接近缺失值,减少误差。

数据预处理与缺失值填补:简明指南

1.数据预处理步骤

概括起来,统计数据预处理的过程包括数据审查、数据清理、数据转换和数据验证四大步骤。

(1)数据审查

该步骤检查数据的数量(记录数)是否满足分析的最低要求,字段值的内容是否与调查要求一致,是否全面;还包括利用描述性统计分析,检查各个字段的字段类型,字段值的最大值、最小值、平均数、中位数等,记录总个数及缺失值或空值个数等。

(2)数据清理

该步骤针对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用适当的方法进行“清理”,使“脏”数据变为“干净”数据,有利于后续的统计分析得出可靠的结论。当然,数据清理还包括对重复记录进行删除。

(3)数据转换

数据分析强调分析对象的可比性,但不同字段值由于计量单位等不同,往往造成数据不可比。对一些统计指标进行综合评价时,如果统计指标的性质、计量单位不同,也容易引起评价结果出现较大误差,再加上分析过程中的其他一些要求,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化以及属性构造等。在本研究中,营销收入、营业成本、利润总额和企业所得税是以季度为单位进行统计的,为了进行后续月度的计算,我们把季度总额平均分摊到了相应的月份。但是这也势必对相应指标变化率的计算带来了误差。

(4)数据验证

该步骤的目的是初步评估和判断数据是否满足统计分析的需要,决定是否需要增加或减少数据量。利用简单的线性模型,以及散点图直方图、折线图等图形进行探索性分析,利用相关分析、一致性检验等方法对数据的准确性进行验证,确保不把错误和偏差的数据带入到数据分析中去。

上述四个步骤是一个逐步深入、由表及里的过程。先是从表面上查找容易发现的问题(如数据记录个数、最大值、最小值、缺失值或空值个数等);接着对发现的问题进行处理,即数据清理;再就是提高数据的可比性,对数据进行一些变换,使数据形式上满足分析的需要;最后则是进一步检测数据内容是否满足分析需要,诊断数据的真实性及数据之间的协调性等,确保优质的数据进入分析阶段。

2.数据预处理的理论与方法

对应于数据预处理的几个步骤,各有不同的处理方法。数据审查阶段主要是对调查数据进行信度、效度检验,利用描述及探索性分析手段对数据进行基本的统计考察,初步认识数据特征;数据清理阶段主要是利用多种插补方法对缺失值进行插补,采用平滑技术进行异常值纠正性平滑;数据转换阶段则根据不同的需要可供选择的方法较多,针对计量单位不同可采用无量纲化和归一化,针对数据层级不同可采用数据汇总、概化等方法,结合分析模型的要求可对数据进行线性或其他形式的变换、构造和添加新的属性,以及加权处理等;数据验证阶段包括确认上述数据准备操作的正确性与有效性,检查数据的逻辑转换是否对数据造成扭曲或偏差,并再次利用描述及探索性分析检查数据的基本特征,对数据之间的平衡关系及协调性进行检验。

(1)描述及探索性分析

描述性统计技术主要是对数据开展频数、描述统计量及列联表分析。频数分析是利用非连续变量的频数表,报告出变量个数、记录数,以及缺失值数等。描述统计量分析主要是计算连续变量的均值、标准差、最小值、最大值、偏度、峰度等统计量,以便检查出超出范围的数据或极端值。列联表主要起到交叉分类的作用,从中可轻易地发现逻辑上不一致的数据。

探索性分析利用图形直观地考察数据所具有的特征,反映数据的分布特征、发展趋势、集中和离散状况等,主要包括茎叶图、箱形图,散点图,直方图、折线图、条形图等。茎叶图把观测数据分为茎和叶两部分,使我们认识到数据接近对称的程度、是否有数据远离其他数据、数据是否集中、数据是否有间隙等特征。箱形图有助于直观地描述分布与离散状况,利用最大值、最小值、中位数、上四分位数和下四分位数等值反映数据的实际分布。散点图用于直观地表现两个或多个变量之间有无相关关系,并反映数据的分布、集中、离散状况。直方图也是评估数据分布的常用图示法,P-P图和Q-Q图则可用于展示数据是否符合正态分布,还有折线图、饼图、面积图、雷达图等,都从不同侧面直观地反映出数据的特征、趋势。

(2)缺失值处理

缺失数据的产生机制通过探讨缺失数据的出现与目标变量是否有关而界定。如果缺失数据是随机出现,就将缺失数据产生机制定义为可忽略的;如果缺失数据的产生与研究变量有关,则称之为不可忽略的。对缺失数据的处理方法大体可以分为四类:

①忽略。若一条记录中有属性值缺失,则将该条记录排除在数据分析之外。该方法简单易行,但是容易导致严重的偏差,仅适用于含有少量缺失数据的情况。

②插补(替代)。基本思想是利用辅助信息,为每个缺失值寻找替代值。具体可采用以下几种策略:(a)使用一个固定的值代替缺失值:所有缺失值用一个常量代替,譬如用字母N代替缺失值。当某一属性的缺失值较多,使用此方法可能导致结果出现偏差,故此方法也只适合于缺失值不多的情况。(b)使用均值代替缺失值:对同一属性的所有缺失值都用其平均值代替。根据变量特征在简单及加权算术平均数、中位数、众数中选用合适的平均数,尽量使替代值更接近缺失值,减少误差。(c)使用同一类别的均值代替缺失值:对数据按某一标准分类,分别计算各个类别的均值来代替相应类别的缺失值,不同类别的均值可选用不同形式的平均数。(d)使用成数推导值代替缺失值:若同一属性的记录值只有少量几种,可计算各种记录值在该属性中所占比例,并对缺失值同比例赋值,该方法较适合缺失属性为是非标志的情况。(e)使用最可能的值代替缺失值:利用回归分析、决策树或贝叶斯方法等建立一个预测模型,利用模型的预测值代替缺失值。该方法相对复杂,但能够最大限度地利用现存数据所包含的信息。

③再抽样。它包括以下三种情况:(a)多次访问:对无回答单位进行再次补充调查,尽可能多地获得调查数据。如果缺失数据是在不可忽略机制下产生,由于积极回答者和不积极回答者之间的数量特征有较大差异,多次访问很有必要,且差异越大,访问次数也需相应增加。(b)替换被调查单位:在出现无回答的情况下,为使样本量不低于原设计要求,补救方法之一是实行替换,用总体中最初未被选入样本的其他单位去替代那些经过努力后仍未获得回答的单位,替换时应尽可能保证替代者和被替代者的同质性。(c)对无回答进行子抽样:当后续访问的单位费用昂贵时,子抽样可作为减少访问次数的一种现成方法。

④加权调整。基本思想是利用调整因子来调整包含缺失数据所进行的总体推断,将调查设计中赋予缺失数据的权数分摊到已获取数据身上。该方法的前提是缺失数据在可忽略机制下产生,即已获得数据与缺失数据之间没有显著差异,主要用于单位数据缺失情况下的调整。

(3)异常值处理

①常用的异常值检测方法。异常值又称为孤立点,异常值处理的首要任务是检测出孤立点。由于异常值可能是数据质量问题所致,也可能反映事物现象的真实发展变化,所以检测出异常值后必须判断其是否为真正的异常值。常用的检测异常值的方法主要分为三类:统计学方法、基于距离的方法和基于偏离的方法。

(a)统计学方法。首先对源数据假设一个分布或概率模型,然后根据模型采用相应的统计量做不一致性检验来确定异常值。常用的方法是用契比雪夫定理来检测异常值。该方法要求知道数据的分布参数,多数情况下这一条件难以满足,故具有一定的局限性。

(b)基于距离的方法。源数据中数据对象至少有p部分与数据对象O的距离大于d,则数据对象O是一个带参数p和d的基于距离(DB)的异常值,即DB(p,d),常用的距离是欧几里得距离。

(c)基于偏离的方法。通过检查一组数据对象的主要特征来确定异常值,与给出的描述相“偏离”的数据对象被认为是异常值。

②异常值的处理方法。检测出事实上的异常值,接下来还需对异常值进行处理。异常值的处理方法主要是采用数据平滑技术,按数据分布特征修匀源数据,具体方法包括分箱、聚类、回归等。

(a)分箱。通过考察“邻居”来平滑异常数据的值,让其分布到一些“桶”或箱中,对于箱中的值可以按箱平均值、中值或边界值划分。原理是参考相邻的值,进行局部平滑。

(b)聚类。异常值可以被聚类检测,将类似的值组织成群或类,将落在各类集合之外的异常值利用离其最近的类均值替代。(www.xing528.com)

(c)回归。通过让数据适合一个函数(譬如回归函数)平滑数据,找出适合数据的数学方程式,来帮助消除噪声。许多数据平滑方法还涉及离散化的数据归约问题。

(4)数据变换技术

数据变换是通过一定的方法将原始数据进行重新表达,以改变原始数据的某些特征,增进对数据的理解和分析。大致包括以下几类:

①对原始数据重新分类、编码、定义变量和修改变量。对于以下两种情况,有必要将原始数据重新分类或重新编码:一是希望将数据分成更有意义的类别;二是希望将数据合并成更少的几大类别。重新定义变量或修改现有变量也经常用到,有时变量间呈现出曲线关系,分析前可能需要利用现有变量定义新的变量,重新规定变量的另一种情况是标准化,目的是为了使不同单位或不同量表的变量在分析中具有可比性。

②数据的代数运算。当变量间的关系是非线性关系时,有时为了便于模型求解,对数据往往进行一些代数运算,譬如对数、指数、幂运算,当然也可能是多种运算的组合。

③数据汇总和泛化。数据汇总是对数据进行汇总或合计操作,而泛化处理则是利用更高层次的概念取代低层次的数据。

④属性构造。根据给定的属性(字段),构造新的属性(字段),以更好地理数据结构和更容易地发现变量间的关系。

统计数据预处理是数据收集之后、数据分析之前进行数据质量评估、诊断和提升的重要步骤。从统计数据预处理过程来看,无论是微观数据,还是宏观数据,一般都可以进行描述及探索性分析、异常值和缺失值的处理、数据转换等。当然,随着数据本身质量好坏及数据分析要求的不同,方法的使用各有侧重。针对微观调查数据,还需进行调查数据的信度和效度检验;对宏观统计数据一般可以利用数据诊断技术进行平衡关系和协调性的检验。以上各项统计数据预处理方法具有坚实的理论支撑,也有现实可操作性,可利用SPSS统计分析软件来具体实施。实际操作过程中,以数据分析的要求为出发点,预处理的目的是提高进入分析阶段的数据质量,保证分析结果客观、有效。要依据数据特点选用恰当的预处理方法,且应重点突出。并非每一次统计数据预处理都要对所有步骤进行操作,而应根据研究目的、内容及数据特点,选用合适的方法和步骤。并且,统计数据预处理必须与数据收集、数据分析的方法相结合。

3.数据缺失值插补

缺失值是指原始数据中由于缺少信息而造成数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值产生的原因多种多样,主要分为机械原因和人为原因。机械原因是机械故障导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。

(1)缺失值的类型

缺失值从缺失的分布来讲可以分为完全随机缺失、随机缺失和完全非随机缺失。完全随机缺失(Missing Completely at Random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不完全变量或完全变量。随机缺失(Missing at Random,MAR)指的是数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量。完全非随机缺失(Missing Notat Random,MNAR)指的是数据的缺失依赖于不完全变量自身。

从缺失值的所属属性上讲,如果所有的缺失值都是同一属性,那么这种缺失称为单值缺失;如果缺失值属于不同的属性,称为任意缺失。另外,对于时间序列类的数据,可能存在随着时间的缺失,这种缺失称为单调缺失。

(2)缺失值的处理方法

对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据,人会影响数据的真实性,存在缺失值样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。

①删除含有缺失值的个案

主要方法有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic或probit回归求得。如果解释变量中存在对权重估计起决定性因素的变量,那么这种方法可以有效减小偏差。如果解释变量和权重并不相关,它并不能减小偏差。对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。

②可能值插补缺失值

它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据预处理中,面对的通常是大量的数据,它的属性有几十个甚至上百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。常用的有如下几种方法:

(a)均值插补法。数据的属性分为定距型和非定距型。如果缺失值是定距型的,就以该属性存在值的平均值来插补缺失的值;如果缺失值是非定距型的,就根据统计学中的众数原理,用该属性的众数(即出现频率最高的值)来补齐缺失的值。

(b)同类均值插补法。同类均值插补的方法都属于单值插补。不同的是,它用层次聚类模型预测缺失变量的类型,再以该类型的均值插补。假设X=(X1,X2,…,Xp)为信息完全的变量,Y为存在缺失值的变量,那么首先对X或其子集行聚类,然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析,那么这种插补方法将在模型中引入自相关,给分析造成障碍

(c)极大似然估计法(Max Likelihood,ML)。在缺失类型为随机缺失的条件下,假设模型对于完整的样本是正确的,那么通过观测数据的边际分布可以对未知参数进行极大似然估计。这种方法也被称为忽略缺失值的极大似然估计,对于极大似然的参数估计实际中常采用的计算方法是期望值最大化。该方法比删除个案和单值插补更有吸引力,它有一个重要前提:适用于大样本。有效样本的数量足以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值,收敛速度也不是很快,并且计算很复杂。

(d)多值插补法(Multiple Imputation,MI)。多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值。具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值。根据某种选择依据,选取最合适的插补值。

多值插补方法分为三个步骤:第一,为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。第二,每个插补数据集合都用针对完整数据集的统计方法进行统计分析。第三,对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。

假设一组数据,包括三个变量Y1,Y2,Y3,它们的联合分布为正态分布,将这组数据处理成三组,A组保持原始数据,B组仅缺失Y3,C组缺失Y1和Y2。在多值插补时,对A组将不进行任何处理,对B组产生Y3的一组估计值(作Y3关于Y1,Y2的回归),对C组产生Y1和Y2的一组成对估计值(作Y1,Y2关于Y3的回归)。

当用多值插补时,对A组将不进行处理,对B、C组将完整的样本随机抽取形成m组(m为可选择的m组插补值),每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计,然后基于这m组观测值,对于这m组样本分别产生关于参数θ的m组估计值,给出相应的预测,这时采用的估计方法为极大似然法,在计算机中具体的实现算法为期望最大化法(EM)。对B组估计出一组Y3的值;对C组将利用Y1,Y2,Y3它们的联合分布为正态分布这一前提,估计出一组(Y1,Y2)。上例中假定了Y1,Y2,Y3的联合分布为正态分布。非正态联合分布的变量,在这个假定下仍然可以估计到很接近真实值的结果。

以上四种插补方法中,两种均值插补方法是最容易实现的,也是以前人们经常使用的,但是它对样本存在极大的干扰,尤其是当插补后的值作为解释变量进行回归时,参数的估计值与真实值的偏差很大。

插补处理只是将未知值补给我们的主观估计值,不一定完全符合客观事实。以上的分析都是理论分析,对于缺失值由于它本身无法观测,也就不可能知道它的缺失所属类型,也就无从估计一个插补方法的插补效果。另外,这些方法通用于各个领域,具有普遍性,那么针对一个领域的专业的插补效果就不会很理想,正是因为这个原因,很多专业数据整理人员通过他们对行业的理解,手动对缺失值进行插补的效果反而可能比这些方法更好。缺失值的插补是在数据整理过程中为了不放弃大量的信息,而采用的人为干涉缺失值的方法,无论是哪种处理方法都会影响变量间的相互关系,在对不完备信息进行补齐处理的同时,我们或多或少地改变了原始的数据的信息系统,对以后的分析存在潜在的影响,所以对缺失值的处理一定要慎重。

在本书中,主要使用了均值插补缺失值的方法,对个别指标的缺失数据进行了填补。因为企业的发展具有一定的稳定性,相关指标的前后数据变化应有关联性,而近5年宁波市经济也是处于平稳发展之中,采用均值插补法符合科学性、合理性的原则。在插补缺失值后,基本数据集已经诞生,在进行数据分析之前,还要进行数据的标准化处理,这也是指标赋权法的要求。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈