首页 理论教育 新能源汽车数据预处理方法

新能源汽车数据预处理方法

时间:2023-08-19 理论教育 版权反馈
【摘要】:本节我们考察数据预处理的主要方法,即数据清理、数据集成、数据归约、数据变换与数据离散化和数据降维。数据清理例程试图填充缺失的值、光滑噪声并识别离群点。与其他方法相比,方法⑥是最流行的方法,它使用已有数据的大部分信息来预测缺失值。合理的集成有助于减少结果数据集的冗余和不一致。每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值的空值规则。

新能源汽车数据预处理方法

本节我们考察数据预处理的主要方法,即数据清理、数据集成、数据归约、数据变换与数据离散化和数据降维。

1.数据清理

现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值、光滑噪声并识别离群点。

(1)缺失值

在分析销售和顾客数据时,发现许多元组的一些属性(如顾客的income)没有记录值,怎样才能为该属性填上缺失的值?我们看看下面的方法。

①忽略元组:当缺少类标号时通常这样做,假定挖掘任务涉及分类。除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组的方法,则不能使用该元组的剩余属性值,这些数据可能对当前的任务是有用的。

②人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失很多值时,该方法可能行不通。

③使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如Unknown或∞)替换。如果缺失的值都用如“Unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“Unknown”。因此,尽管该方法简单,但是并不十分可靠。

④使用属性的中心度量(如均值或中位数)填充缺失值:中心度量表示数据分布的“中间”值。对于正常的(对称的)数据分布而言,可以使用均值,而倾斜数据分布应该使用中位数。例如,假定某公司的顾客收入的数据分布是对称的,并且平均收入为56000美元,则使用该值替换income中的缺失值。

⑤使用与给定元组属同一类的所有样本的属性均值或中位数。例如,如果将顾客按credit_risk分类,则用具有相同信用风险的顾客的平均收入替换income中的缺失值。如果给定类的数据分布是倾斜的,则中位数是更好的选择。

⑥使用最可能的值填充缺失值:可以使用回归或基于推理的贝叶斯形式化方法的工具或决策树归纳确定。例如,利用数据集中其他顾客的属性,可以构造一棵决策树,来预测income的缺失值。

方法③~方法⑥会使数据有偏,填入的值可能不正确。与其他方法相比,方法⑥是最流行的方法,它使用已有数据的大部分信息来预测缺失值。在估计income的缺失值时,通过考虑其他属性的值,有更大的机会保持income和其他属性之间的联系。

重要的是要注意,在某些情况下,缺失值并不意味数据有错误。例如,在申请信用卡时,可能要求申请人提供驾驶证号,没有驾驶证的申请者自然地不会填写该字段。表格应当允许填表人使用诸如“不适用”等值,软件例程也可以用来发现其他空值(如“不知道”、“?”或“无”)。在理想情况下,每个属性都应当有一个或多个关于空值条件的规则。这些规则可以说明是否允许空值,或者说明这样的空值应当如何处理或转换。如果在业务处理的稍后步骤提供空值,字段也可能故意留下空白。因此,尽管在得到数据后,我们可以尽我们所能来清理数据,但好的数据库和数据输入设计将有助于在第一现场把缺失值或错误的数量降至最低。

(2)噪声数据

“什么是噪声数据?”噪声(noise)数据是被测量的变量随机误差。我们看到了如何使用基本统计描述技术(如盒图和散点图)和数据可视化方法来识别可能代表噪声的离群点。我们如何才能“光滑”数据、去掉噪声呢?下面介绍几种数据光滑技术。

①分箱(binning):分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。分箱方法只考察近邻的值,因此它只能进行局部光滑。图3-3表示了一些分箱技术。

978-7-111-59638-7-Chapter03-3.jpg

图3-3 数据光滑的分箱方式

按price排序后的数据:4,8,15,21,21,24,25,29,34

在该例中,price数据首先排序并被划分到大小为3的等频的箱中(即每个箱包含3个值)。对于用箱均值光滑,箱中每一个值都被替换为箱中的均值。例如,箱1中的值4、8和15的均值是9。因此,该箱中的每一个值都被替换为9。

类似地,可以使用各箱中位数光滑。此时,箱中的每一个值都被替换为该箱的中位数。对于用箱边界光滑,给定箱中的最大值和最小值同样被视为箱边界,而箱中的每一个值都被替换为最近的边界值。一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是常量。分箱也可以作为一种离散化技术使用。

②回归(regression):也可以用一个函数拟合数据来光滑数据。这种技术称为回归。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得可以用一个属性来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。

③离群点分析(outlier analysis):可以通过如聚类等方法来检测离群点。聚类将类似的值聚成群或“簇”。直观地,落在簇集合之外的值被视为离群点。

许多数据光滑的方法也用于数据离散化(一种数据变换形式)和数据归约。例如,上面介绍的分箱技术减少了每个属性的不同值的数量。对于基于逻辑的数据挖掘方法(如决策树归纳),它反复地在排序后的数据上进行比较,这充当了一种形式的数据归约。

2.数据集成

数据挖掘经常需要数据集成——合并来自多个数据存储的数据。合理的集成有助于减少结果数据集的冗余和不一致。这有助于提高其后挖掘过程的准确性和速度。

(1)实体识别问题

数据分析任务多半涉及数据集成。数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。

在数据集成时,有许多问题需要考虑。来自多个信息源的现实世界的等价实体如何才能“匹配”,这涉及实体识别问题。例如,数据分析者或计算机如何才能确信一个数据库中的customer_id与另一个数据库中的cust_number指的属性是否相同。每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以及处理空白、零或NULL值的空值规则。这样的元数据可以用来帮助避免模式集成的错误。元数据还可以用来帮助变换数据(例如,pay_type的数据编码在一个数据库中可以是“H”和“S”,而在另一个数据库中是1和2)。因此,这一步也与前面介绍的数据清理有关。

在集成期间,当一个数据库的属性与另一个数据库的属性匹配时,必须特别注意数据的结构。这旨在确保源系统中的函数依赖和参照约束与目标系统中的匹配。例如,在一个系统中,discount可能用于订单,而在另一个系统中,它用于订单内的商品。如果在集成之前未发现,则目标系统中的商品可能被不正确地打折。

(2)冗余和相关分析

冗余是数据集成的另一个重要问题。一个属性(如年收入)如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的。属性或维命名的不一致也可能导致结果数据集中的冗余。

有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量一个属性能在多大程度上蕴涵另一个。对于标称数据,我们使用χ2(卡方)检验。对于数值属性,我们使用相关系数(correlation coefficient)和协方差(covariance),它们都能评估一个属性的值如何随另一个变化。

对于标称数据,两个属性A和B之间的相关联系可以通过χ2(卡方)检验发现。假设A有c个不同值a1a2,…,ac,B有r个不同值b1b2,…,br。用A和B描述的数据元组可以用一个相依表显示,其中A的c个值构成列,B的r个值构成行。令(AiBj)表示属性A取值ai,B取值bj的联合事件,即(A=aiB=bj)。每个可能的(AiBj)联合事件都在表中有自己的单元χ2值(又称Pearsonχ2统计量)可以用下式计算:

978-7-111-59638-7-Chapter03-4.jpg

式中,aij是联合事件(AiBj)的观测频度(即实际计数);eij是(AiBj)的期望频度。eij可以用下式计算:

978-7-111-59638-7-Chapter03-5.jpg

式中,n是数据元组的个数;countA=ai)是A上具有值为ai的元组个数;countB=bj)是B上具有值为bj的元组个数。式(3-1)中的和在所有r×c个单元上计算。注意,对χ2值贡献最大的单元是其实际计数与期望计数差异很大的单元。

χ2统计检验假设A和B是独立的。检验基于显著水平,具有自由度r-1)×(c-1)。我们将用【例3.1】解释该统计量的使用。如果可以拒绝该假设,则我们说A和B是统计相关的。

【例3.1】使用χ2的标称属性的相关分析。假设调查了1500个人,记录了每个人的性别。每个人对他们喜爱的阅读材料类型是否是小说进行投票。这样,我们有两个属性gender和preferred_reading。每种可能的联合事件的观测频率(或计数)汇总在表3-1所显示的相依表中,其中括号中的数是期望频率。期望频率根据两个属性的数据分布,用式(3-2)计算。

3-1 【例3.1】的数据2×2相依表

978-7-111-59638-7-Chapter03-6.jpg

使用式(3-2),我们可以验证每个单元的期望频率。例如,单元(男,小说)的期望频率是:978-7-111-59638-7-Chapter03-7.jpg。注意,在任意行,期望频率的和必须等于该行总观测频率,并且任意列的期望频率的和也必须等于该列的总观测频率。

根据计算χ2的式(3-1)可以得到:

978-7-111-59638-7-Chapter03-8.jpg

对于这个2×2的表,自由度为(2-1)×(2-1)=1。对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828(取自χ2分布上百分点表,通常可以在任意统计学教科书中找到)。由于计算的值大于该值,因此可以拒绝gender和preferred_reading独立的假设,并断言对于给定的人群,这两个属性是(强)相关的。

(3)元组重复

除了检测属性间的冗余外,还应当在元组级检测重复(例如,对于给定的唯一数据实体,存在两个或多个相同的元组)。去规范化表(denormalized table)的使用(这样做通常是通过避免连接来改善性能)是数据冗余的另一个来源。不一致通常出现在各种不同的副本之间,由于不正确的数据输入,或者由于更新了数据的某些出现地点,但未更新所有的出现地点。例如,如果订单数据库包含订货人的姓名和地址属性,而不是这些信息在订货人数据库中的码,则差异就可能出现,如同一订货人的名字可能以不同的地址出现在订单数据库中。

(4)数据值冲突的检测与处理

数据集成还涉及数据值冲突的检测与处理。例如,对于现实世界的同一实体,来自不同数据源的属性值可能不同。这可能是因为表示、尺度或编码不同。例如,重量属性可能在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。对于连锁旅馆,不同城市的房价不仅可能涉及不同的货币,而且可能涉及不同的服务(如免费早餐)和税收。例如,不同学校交换信息时,每个学校可能都有自己的课程计划和评分方案。一所大学可能采取学季制,开设3门数据库系统课程,用A~F评分;而另一所大学可能采用学期制,开设两门数据库课程,用1~10评分。很难在这两所大学之间制定精确的课程成绩变换规则,这使得信息交换非常困难。

属性也可能在不同的抽象层,其中属性在一个系统中记录的抽象层可能比另一个系统中“相同的”属性低。例如,total_sales在一个数据库中可能涉及某公司的一个分店,而另一个数据库中相同名字的属性可能表示一个给定地区的诸如某公司分店的总销售量。

3.数据归约

假定你已经从数据仓库选择了数据用于分析,数据集可能非常大!在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。

数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但仍接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘将更有效,仍然产生相同(或几乎相同)的分析结果。下面我们将概述数据归约的策略,然后进一步考察每种技术。

数据归约策略包括维归约、数量归约和数据压缩

①维归约(dimensionality reduction)减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析,它们把原数据变换或投影到较小的空间。属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。

②数量归约(numerosity reduction)用替代的、较小的数据表示形式替换原数据,这些技术可以是参数的或非参数的。对于参数方法而言,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据(离群点可能也要存放)。

③数据压缩(data compression)使用变换,以便得到原数据的归约或“压缩”表示。如果原数据能够从压缩后的数据重构而不损失信息,则该数据归约称为无损的。如果我们只能近似重构原数据,则该数据归约称为有损的。对于串压缩,有一些无损压缩算法。然而,它们一般只允许有限的数据操作。维归约和数量归约也可以被视为某种形式的数据压缩。

有许多其他方法来组织数据归约方法。花费在数据归约上的计算时间不应超过或“抵消”在归约后的数据上挖掘所节省的时间。

4.数据变换与数据离散化

(1)数据变换策略概述

在数据变换中,数据被变换或统一成适合于挖掘的形式。数据变换策略包括如下几种:

①光滑(smoothing):去掉数据中的噪声。这类技术包括分箱、回归和聚类。

②属性构造(或特征构造):可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。

③聚集:对数据进行汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。这一步通常用来为多个抽象层的数据分析构造数据立方体。

④规范化:把属性数据按比例缩放,使之落入一个特定的小区间,如[-1,1]或[0.0,1.0]。

⑤离散化:数值属性(如年龄)的原始值用区间标签(例如,0~10,11~20等)或概念标签(如youth、adult、senior)替换。这些标签可以递归地组织成更高层概念,导致数值属性的概念分层。图3-4显示了属性price的一个概念分层。对于同一个属性可以定义多个概念分层,以适合不同用户的需要。

978-7-111-59638-7-Chapter03-9.jpg(www.xing528.com)

图3-4 属性price的一个概念分层,其中($X…$Y]表示从$X(不包括)到$Y(包括)的区间

⑥由标称数据产生概念分层:属性,如street,可以泛化到较高的概念层,如city或country。许多标称属性的概念分层都蕴含在数据库的模式中,可以在模式定义级自动定义。

离散化技术可以根据如何进行离散化加以分类,如根据是否使用类信息,或根据离散化的进行方向(即自顶向下或自底向上)来分类。如果离散过程使用类信息,则称它为监督的离散化(supervised discretization);否则是非监督的(unsupervised)。如果离散化过程首先找出一个或几个点来划分整个属性区间,然后在结果区间上递归地重复这一过程,则称它为自顶向下离散化或分裂。自底向上离散化或合并正好相反,它们首先将所有的连续值看作可能的分裂点,通过合并邻域的值形成区间,然后在结果区间递归地应用这一过程。

数据离散化和概念分层产生也是数据归约形式。原始数据被少数区间或标签取代,这简化了原数据,使得挖掘更有效。挖掘的结果模式一般更容易理解。对于多个抽象层上的挖掘,概念分层也是有用的。

(2)通过规范化变换数据

所用的度量单位可能影响数据分析。例如,把height(高度)的度量单位从米变成英寸,把weight(质量)的度量单位从公斤改成磅,可能导致完全不同的结果。一般而言,用较小的单位表示属性将导致该属性具有较大值域,因此趋向于使这样的属性具有较大的影响或较高的“权重”。为了帮助避免对度量单位选择的依赖性,数据应该规范化或标准化。这涉及变换数据,使之落入较小的共同区间,如[-1,1]或[0.0,1.0]。(在数据预处理中,术语“规范化”和“标准化”可以互换使用,尽管后一术语在统计学还具有其他含义。)

规范化数据试图赋予所有属性相等的权重。对于涉及神经网络的分类算法或基于距离度量的分类(如最近邻分类)和聚类,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对训练元组中每个属性的输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性(如income)与具有较小初始值域的属性(如二元属性)相比权重过大。在没有数据的先验知识时,规范化也是有用的。

有许多数据规范化的方法,下面将介绍三种:最小-最大规范化、z分数规范化和按小数定标规范化。在下述讨论中,令v为数值属性,具有n个观测值:v1v2,…,vn

①最小-最大规范化对原始数据进行线性变换。minA和maxA分别为属性A的最小值和最大值。最小-最大规范化通过计算:

978-7-111-59638-7-Chapter03-10.jpg

A的值vi映射到区间[new_minAnew_maxA]中的vi′。最小-最大规范化保持原始数据值之间的联系。如果今后的输入实例落在A的原数据值域之外,则该方法将面临“越界”错误。

【例3.2】最小-最大规范化。假设属性income的最小值与最大值分别为11000美元和96000美元。我们想把income映射到区间[0.0,1.0]。根据最小-最大规范化,74600美元将变换为:978-7-111-59638-7-Chapter03-11.jpg

②在z分数(z-score)规范化(或零均值规范化)中,属性AA的均值(即平均值)和标准差规范化。A的值vi被规范化为vi′,由下式计算:

978-7-111-59638-7-Chapter03-12.jpg

式中,AσA分别为属性A的均值和标准差。当属性A的实际最小值和最大值未知,或离群点左右了最小-最大规范化时,该方法是有用的。

【例3.3】z分数规范化。假设属性income的均值和标准差分别为5400美元和1600美元。使用z分数规范化,值7360美元被转换为:978-7-111-59638-7-Chapter03-13.jpg

标准差可以用均值绝对偏差替换。A的均值绝对偏差(meanabsolutedeviation)SA定义为:

978-7-111-59638-7-Chapter03-14.jpg

这样,使用均值绝对差的z分数规范化为

978-7-111-59638-7-Chapter03-15.jpg

对于离群点,均值绝对偏差SA比标准差更加鲁棒。在计算均值绝对偏差时,不对均值的偏差978-7-111-59638-7-Chapter03-16.jpg取平方,因此离群点的影响多少有点降低。

③小数定标规范化通过移动属性A的值的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。A的值vi被规范化为vi′,由下式计算:

978-7-111-59638-7-Chapter03-17.jpg

式中,j是使得max(|vi′|)<1的最小整数。

【例3.4】小数定标。假设A的取值为-986~917。A的最大绝对值为985。因此,为使用小数定标规范化,我们用1000(即j=3)除每个值。因此,-985被规范化为-0.985,而97被规范化为0.97。

注意,规范化可能将原来的数据改变很多,特别是使用z分数规范化或小数定标规范化时。还有必要保留规范化参数(如均值和标准差,如果使用z分数规范化的话),以便将来的数据可以用一致的方式规范化。

(3)通过分箱离散化

分箱是一种基于指定的箱个数的自顶向下的分裂技术。分箱方法也可以用作数据归约和概念分层产生的离散化方法。例如,通过使用等宽或等频分箱,然后用箱均值或中位数替换箱中的每个值,可以将属性值离散化,就像用箱的均值或箱的中位数光滑一样。这些技术可以递归地作用于结果划分,产生概念分层。

分箱并不使用类信息,因此是一种非监督的离散化技术。它对用户指定的箱个数很敏感,也容易受离群点的影响。

(4)通过直方图分析离散化

像分箱一样,直方图分析也是一种非监督离散化技术,因为它也不使用类信息。直方图把属性A的值划分成不相交的区间,称为桶或箱。例如,在等宽直方图中,将值分成相等区间。在理想情况下,使用等频直方图,值被划分,使得每个分区包括相同个数的数据元组。直方图分析算法可以递归地用于每个分区,自动地产生多级概念分层,直到达到一个预先设定的概念层数,过程终止。也可以对每一层使用最小区间长度来控制递归过程。最小区间长度设定每层每个分区的最小宽度,或每层每个分区中值的最少数目。

5.数据降维

(1)主成分分析

在数据挖掘中,我们经常会遇到多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。当变量个数较多且变量之间存在复杂关系时,会显著增加分析问题的复杂性。如果有一种方法可以将多个变量综合为少数几个代表性变量,使这些变量既能够代表原始变量的绝大多数信息又互不相关,那么这样的方法无疑有助于对问题的分析和建模。这时,就可以考虑用主成分分析法(PCA)。

1)PCA的基本思想。主成分分析是采取一种数学降维的方法,其所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望它尽可能多地反映原来变量的信息。这里“信息”用方差来测量,即希望var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合。为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中。用数学语言表达就是要求cov(F1F2)=0[1],称F2为第二主成分,依此类推可以构造出第三个、第四个……第p个主成分。

2)PCA方法步骤。下面简单介绍一下PCA的典型步骤。

①对原始数据进行标准化处理假设样本观测数据矩阵为:

978-7-111-59638-7-Chapter03-18.jpg

那么可以按照如下方法对原始数据进行标准化处理:

978-7-111-59638-7-Chapter03-19.jpg

其中,978-7-111-59638-7-Chapter03-20.jpg978-7-111-59638-7-Chapter03-21.jpg

②计算样本相关系数矩阵。

为方便,假定原始数据标准化后仍用X表示,则经标准化处理后数据的相关系数为:

978-7-111-59638-7-Chapter03-22.jpg

其中,978-7-111-59638-7-Chapter03-23.jpgn>1。

③计算相关系数矩阵R的特征值(λ1λ2,…,λp)和相应的特征向量

ai=(ai1ai2,…,aip),i=1,2,…,p

④选择重要的主成分,并写出主成分表达式。

主成分分析可以得到p个主成分,但是各个主成分的方差是递减的,包含的信息量也是递减的,因此实际分析时,一般不是选取p个主成分,而是根据各个主成分累计贡献率的大小选取前k个主成分。这里贡献率是指某个主成分的方差占全部方差的比重,实际也就是某个特征值占全部特征值合计的比重,即:

978-7-111-59638-7-Chapter03-24.jpg

贡献率越大,说明该主成分所包含的原始变量的信息越强。主成分个数k的选取,主要根据主成分的累计贡献率来决定,即一般要求累计贡献率达到85%以上,这样才能保证综合变量能包括原始变量的绝大多数信息。

另外,在实际应用中,选择了重要的主成分后,还要注意主成分实际含义的解释。主成分分析中一个很关键的问题是如何给主成分赋予新的意义,给出合理的解释。一般而言,这个解释是根据主成分表达式的系数结合定性分析来进行的。主成分是原来变量的线性组合,在这个线性组合中各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。线性组合中各变量系数的绝对值大者表明该主成分主要综合了绝对值大的变量。当几个变量系数大小相当时,应认为这一主成分是这几个变量的总和。这几个变量综合在一起应赋予怎样的实际意义,就要结合具体的实际问题和专业,给出恰当的解释,进而才能达到深刻分析的目的。

a)计算主成分得分

根据标准化的原始数据,按照各个样品,分别代入主成分表达式,就可以得到各主成分下的各个样品的新数据,即为主成分得分。具体形式如下:

978-7-111-59638-7-Chapter03-25.jpg

其中,Fij=aj1xi1+aj2xi2+...+ajpxipi=1,2,…,nj=1,2,…,k)。

b)依据主成分得分的数据,进一步对问题进行后续的分析和建模后续的分析。建模常见的形式有主成分回归、变量子集合的选择、综合评价等。

(2)相关系数降维

设有如下两组观测值:

Xx1x2,…,xn

Yy1y2,…,yn

则称978-7-111-59638-7-Chapter03-26.jpgXY的相关系数。

相关系数用r表示,r在-1~+1之间取值。相关系数r的绝对值大小(即|r|),表示两个变量之间的直线相关强度。相关系数r的正负号表示相关的方向,分别是正相关负相关。若相关系数r=0,则称零线性相关,简称零相关;当相关系数r=1时,表示两个变量是完全相关。这时两个变量之间的关系成了确定性的函数关系,这种情况在行为科学与社会科学中是极少存在的。

一般说来,若观测数据的个数足够多,则计算出来的相关系数r就会更真实地反映客观事物之间的本来面目。

当0.7≤|r|<1时,称为高度相关;当0.4≤|r|<0.7时,称为中等相关;当0.2≤|r|<0.4时,称为低度相关;当|r|<0.2时,称极低相关或接近零相关。

由于事物之间联系的复杂性,在实际研究中,通过统计方法确定出来的相关系数r即使是高度相关,我们在解释相关系数时,还要结合具体变量的性质特点和有关专业知识进行。两个高度相关的变量,它们之间可能具有明显的因果关系,也可能只具有部分因果关系,还可能没有直接的因果关系——其数量上的相互关联,只是它们共同受到其他第三个变量所支配的结果。除此之外,相关系数r接近零,这只是表示这两个变量不存在明显的直线性相关模式,但不能肯定地说这两个变量之间就没有规律性的联系。通过散点图有时会发现,两个变量之间存在明显的某种曲线性相关,但计算直线性相关系数时,其r值往往接近零。对于这一点,读者应该有所认识。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈