首页 理论教育 新能源汽车数据分析与统计

新能源汽车数据分析与统计

时间:2023-08-19 理论教育 版权反馈
【摘要】:因而峰度可以用作衡量偏离正态分布的尺度之一。峰度的数学表达式为图3-8 偏态示意图图3-9 峰度示意图4.分布描述性统计随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。n充分大时频率是概率的近似,因此柱状分布图可以看成是密度函数图形的(离散化)近似。

新能源汽车数据分析与统计

基本描述性统计:假设有一个容量为n的样本(即一组数据),记作x=(xix2,………,xn),需要对它进行一定的加工,才能提取有用的信息。统计量即是加工得到的、反映样本数量特征的函数,不含任何的未知量。下面介绍几种常用的统计量。

1.表示位置的统计量:算术平均值和中位数

算术平均值(简称均值)描述数据取值的平均位置,记作x。其数学表达式为

978-7-111-59638-7-Chapter03-31.jpg

另有一种加权算术平均值,为原始数据经过分组,已编成次数分布数列情况下的数据计算。设数据xi的权值为fi其数学表达式为

978-7-111-59638-7-Chapter03-32.jpg

算术平均数的特点是易于理解和运算但是受极端数值的影响较大。解决的途径是采取切尾平均法以及采用不受其他极端值影响的平均数。

中位数是将数据由小到大排序后位于中间位置的那个数值。中位数的特点是不受极端值的影响并且主要用于定序数据,也可以用于定矩数据,但不能用于定类数据。

2.表示数据散度的统计量:标准差、方差极差

标准差S定义为

978-7-111-59638-7-Chapter03-33.jpg

它是各个数据与均值偏离程度的度量,反映了数据波动范围的大小。公式中对n978-7-111-59638-7-Chapter03-34.jpg平方求和,却被(n-1)除,这是出于无偏估计的要求。

方差是标准差的平方,数学表达式为σ=S2,其作用与标准差类似。

极差是样本中最大值与最小值的差,是从变动范围测度总体数据的离散程度,其计算公式为

978-7-111-59638-7-Chapter03-35.jpg(www.xing528.com)

极差的特点是计算简单,容易理解。但同时它也过于粗略,受极端值的影响大,且数据的利用率低,信息丧失严重,受抽样变动大。

3.表示分布形状的统计量:偏度和峰度

如图3-8所示,偏度反映分布的对称性,偏度V>0称为右偏态,此时数据位于均值右边的比位于左边的多;偏度V<0称为左偏态,此时数据位于均值左边的比位于右边的多;而V接近于0则可认为分布式对称的。偏度的数学表达式如下:

978-7-111-59638-7-Chapter03-36.jpg

如图3-9所示,峰度是分布形状的另一种度量,正态分布的峰度为3,若峰度K比3大得多,则表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,是为扁平分布;若峰度K比3小,则表明分布集中,为尖峰分布。因而峰度可以用作衡量偏离正态分布的尺度之一。峰度的数学表达式为

978-7-111-59638-7-Chapter03-37.jpg

978-7-111-59638-7-Chapter03-38.jpg

图3-8 偏态示意图

978-7-111-59638-7-Chapter03-39.jpg

图3-9 峰度示意图

4.分布描述性统计

随机变量的特性完全由它的(概率)分布函数或(概率)密度函数来描述。设有随机变量X,其分布函数定义为Xx的概率,即Fx)=P{Xx}。若X是连续型随机变量,则其密度函数px)与Fx)的关系为

978-7-111-59638-7-Chapter03-40.jpg

柱状分布图是频数分布图,频数除以样本容量n,称为频率。n充分大时频率是概率的近似,因此柱状分布图可以看成是密度函数图形的(离散化)近似。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈