首页 理论教育 电商数据分析的最佳方法

电商数据分析的最佳方法

时间:2023-05-21 理论教育 版权反馈
【摘要】:常规分析方法直接通过原始数据来呈现业务意义,主要的分析方法有两种——趋势分析和占比分析,其对应的分析方法分别为同环比分析及帕累托分析。统计学分析方法。回归分析法是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,其运用十分广泛。利用回归分析法进行预测时,常用的是一元线性回归分析,又称简单线性回归。

电商数据分析的最佳方法

从根本目的上来说,数据分析的任务在于通过抽象数据形成对业务有意义的结论。因为单纯的数据是毫无意义的,直接看数据是没有办法发现其中的规律的,只有通过使用分析方法将数据抽象处理后,人们才能看出隐藏在数据背后的规律。

1.数据分析方法分类

选取恰当的数据分析方法是整个数据处理过程中的关键步骤,一般从分析方法复杂度上来讲,可以将数学分析方法分为三个层级,即常规分析方法、统计学分析方法和自建模型。

(1)常规分析方法。常规分析方法不对数据做抽象的处理,主要是直接呈现原始数据,多用于针对固定的指标且具有周期性的分析主题。常规分析方法直接通过原始数据来呈现业务意义,主要的分析方法有两种——趋势分析和占比分析,其对应的分析方法分别为同环比分析及帕累托分析。同环比分析,其核心目的在于呈现本期与往期之间的差异,如销售量增长趋势;而帕累托分析则是呈现单一维度中的各个要素占比的排名,如“各个城市本期的销售量增长趋势的排名”,以及“前百分之八十的增长量都由哪几个城市贡献”这样的结论。

(2)统计学分析方法。统计学分析方法能够基于以往数据的规律来推导未来的趋势,根据使用的原理多分为以下几大类:有目标结论的有指导学习算法、没有目标结论的无指导学习算法以及回归分析法。

(3)自建模型。自建模型在分析方法中是最为高阶也是最具有挖掘价值的,多用于金融领域,甚至业界专门为自建模型的人群起了一个名字叫作“宽客”,这群人就是靠数学模型来分析金融市场的。统计学分析方法所使用的算法是具有局限性的,虽然统计学分析方法能够运用于各种场景中,但是它存在不精准的问题,在有指导和没有指导的学习算法中,得出的结论很多都不精准,而在金融这种锱铢必较的领域中,这种算法显然不能达到需求的精准度,因此数学家在这个领域专门自建模型,通过输入数据,得出投资建议。在统计学分析方法中,回归分析法是最接近数学模型的,但回归分析法用到的公式的复杂程度有限,而数学模型是完全自由的,能够对指标进行任意的组合,从而确保最终结论的有效性。

2.常用的数据分析方法

(1)描述性统计分析。所谓描述性统计分析,就是在表示数量的中心位置的同时,还能表示数量的变异程度(即离散程度)。描述性统计分析一般包括两种方法:频数分布分析和列联表分析。

描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点矩、偏度、峰度、协方差相关系数

知识链接

描述性统计指标

平均数——N个数相加除以N;

中位数——每一组中数据按大小排列,排在中间位置的数据;

众数——一组数据中出现次数最多的数;

峰度系数——一种对称分布曲线峰顶尖峭程度指标,峰度系数<0,则呈现平阔峰分布,峰度系数>0,则呈现尖峭峰分布;

偏度系数——数据对称性指标,偏度系数<0为负偏态分布,偏度系数>0为正偏态分布,偏度系数>1为高度偏态分布,0.5<偏度系数<1为中等偏态分布;

方差——各个数据分别与其平均数之差的平方的和的平均数;

标准差——总体各单位标准值与其平均数离差平方的算术平均数的平方根

(2)回归分析法。回归分析法是研究一个随机变量(Y)对另一个(X)或一组(X1,X2,…,Xk)变量的相依关系的统计分析方法。回归分析(Regression Analysis)法是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,其运用十分广泛。回归分析法按照涉及的自变量多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。

回归分析法简单说就是几个自变量加减乘除后就能得出因变量来。例如,想知道活动覆盖率、产品价格、客户薪资水平、客户活跃度等指标与购买量存在何种关系,就可以运用回归分析法,把这些指标及购买量的数据输入系统,运算后即可分别得出这些指标与购买量存在何种关系的结论,以及通过进一步的运算得出相应的购买量。

回归分析工具是一种非常有用的预测工具,既可以对一元线性或多元线性问题进行预测分析,也可以对某些可以转化为线性问题的非线性问题预测其未来的发展趋势。一般线性回归分析主要有以下5个步骤:

①根据预测对象,确定自变量和因变量;

②制作散点图,确定回归模型类型;

③估计参数,建立回归模型;

④检验回归模型;

⑤利用回归模型进行预测。

利用回归分析法进行预测时,常用的是一元线性回归分析,又称简单线性回归。

知识链接

回归模型

回归模型为:Y=a+bX+ε

式中,Y——因变量;

a——常数项,是回归直线在纵坐标上的截距;

b——回归系数,是回归直线的斜率;

X——自变量;

ε——随机误差,是随机因素对因变量所产生的影响。

网店某商品1~7月的支付商品件数、件单价、支付金额如表1-2所示,将表格中的时间作为自变量,支付商品件数作为因变量,并假设它们之间存在线性关系:Y=a+bX+ε,Y表示支付商品件数,X表示时间,要求利用回归分析法预测下一个月的支付商品件数。

表1-2 某网店某商品月销售统计表

步骤1:在Excel中,切换至“数据”功能区,在“分析”选项面板中单击“数据分析”,在弹出的“数据分析”对话框中选择“回归”,单击“确定”按钮,如图1-8所示。

图1-8 选择回归分析

步骤2:单击“确定”按钮之后,弹出“回归”对话框,单击“输入”选项下的“Y值输入区域”文本框右侧的按钮,选取B2-B8单元格区域,再点击“X值输入区域”文本框右侧按钮,选取A2-A8单元格区域,如图1-9所示。

步骤3:设置“回归”对话框,勾选“置信度”“标志”,在输出选项区中选中“输出区域”,再单击“输出区域”文本框右侧按钮,在工作表中选中F1单元格,接着勾选“残差”选项区与“正态分布”选项区中所有选项,并单击“确定”按钮,如图1-10所示。

图1-9 输入区域

图1-10 回归设置

步骤4:单击“确定”按钮后,在工作表中输出回归分析要点,回归分析完成,如图1-11所示。

图1-11 回归分析结果

知识链接

回归设置

残差——称之为剩余值,它由观测值与预测值之间的差而得到;

标准残差——由(残差-残差的均值)÷残差的标准差而得到;

残差图——以回归模型的自变量为横坐标、因变量为纵坐标绘制的散点图;

线性拟合——以回归模型的自变量为横坐标、因变量和预测值为纵坐标而绘制的散点图;

正态概率图——以百分位排名的因变量为横坐标、自变量为纵坐标绘制的散点图。

回归分析结果解释

Multiple——相关系数(correlation coefficient);

RSquare——测定系数或称拟合优度,它是相关系数的平方;

Adjusted——校正测定系数(adjusted determination coefficient);

df——自由度(degree offreedom);

SS——误差平方和或称变差;

MS——均方差,它是误差平方和除以相应的自由度得到的商;

F——F值,用于线性关系的判定;

SignificanceF——显著性水平下的Fa临界值,其实等于P值;

Coefficients——模型的回归系数,包括截距和斜率;

标准误差——回归系数的标准误差,误差值越小,表明参数的精确度越高;

tStat——统计量t值,用于对模型参数的检验,需要查表才能决定;

P-value——参数的P值(双侧),即弃真概率,当P<0.01时,可以认为模型在a=0.01的水平上显著或者置信度达到99%。

步骤5:从回归分析结果中,可以得到时间与支付商品件数的一元线性回归分析方程为:F=565.2857-47.607X,其中判定R2=0.876949,其中回归模型F检验与回归系数的t检验相应的P值都小于0.01,即有显著线性关系。再将自变量“8”代入回归方程,得到8月份预测的支付商品件数为184件。

回归分析方法可以应用到市场营销的各个方面,方便管理者了解用户、深度分析用户行为,从而可以实施相应的预防措施和解决办法。

(3)聚类分析法。聚类分析(Cluster Analysis)是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇中的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够对样本数据自动进行分类。使用不同的聚类分析法,常常会得出不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数也未必一致。

聚类分析法将指标之中所有类似属性的数据分别合并在一起,形成聚类的结果。如最经典的酒与尿布分析,业务人员希望了解啤酒跟什么搭配在一起卖会更容易让大家接受,因此需要把所有的购买数据都放进来,计算后得出其他各个商品与啤酒的关联程度或者是距离远近,也就是购买了啤酒的人群中,都同时购买了哪些其他的商品。然后输出多种结果,如尿布或者牛肉或者酸奶或者花生米等,这每个商品都可以成为一个聚类结果。由于没有目标结论,因此这些聚类结果都可以参考,货品摆放人员会尝试各种聚类结果来看效果提升程度。在这个案例中,各个商品与啤酒的关联程度或者是距离远近就是算法本身,这其中的逻辑也有很多种,包括关联规则、聚类算法等。

通过数据聚类分析把具有相似性特点的数据归为若干个簇,这些簇具有最小的组间相似性和最大的组内相似性。由于预先不知道目标数据库中有多少类,聚类分析将某种度量作为标准的相似性,将所有记录组成的类在不同聚类之间实现最大化,而在同一聚类之间实现最小化。常用的聚类算法包括k-means算法、DBSCAN算法、CURE算法等。(www.xing528.com)

(4)相关分析法。相关分析(Correlation Analysis )研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。

相关关系是一种非确定性的关系,具有随机性,因为影响现象发生变化的因素不止一个,并且总是围绕某些数值的平均数上下波动的。例如,以X和Y分别记录一个人的身高和体重,或访客数与成交量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。

相关分析法是研究两个或两个以上随机变量之间相关依存关系的方向和密切程度的方法。利用Excel数据工具库中的相关分析,能找出变量之间所存在的相关系数。

相关分析类别中最为常用的是直线相关,其中的相关系数是反映变量之间线性关系的强 弱程度的指标,一般用r表示。当-1≤r<0时,则线性负相关;当0<r≤1时,则线性正相关;r=0时,则变量之间无线性关系。

某网店某商品1~7月的支付商品件数、推广费用如表1-3所示。假设支付商品件数与推广费用之间存在线性相关关系,要求计算支付商品件数与推广费用的相关系数。

表1-3 某网店某商品月销售及费用统计表

步骤1:在Excel中,选择“数据”选项卡,在“分析”面板中单击“数据分析”,再在弹出的“数据分析”对话框中选择“相关系数”,单击“确定”按钮,如图1-12所示。

步骤2:设置弹出的“相关系数”对话框,单击“输入区域”文本框右侧的按钮,在工作表中选择B1-C8单元格区域,并在“分组方式”后选择“逐列”,勾选“标志位于第一行”,并在“输出选项”下方单击“输出区域”文本框右侧按钮,在工作表中选择E1单元格,单击“确定”按钮,如图1-13所示。

步骤3:单击“确定”按钮之后,相关分析即完成,得到的相关系数如表1-4所示。支付商品件数与推广费用的相关系数为0.906243768,属于高度正相关。

图1-12 选择相关系数

图1-13 相关系数设置

表1-4 相关系数

知识链接

相关系数

相关系数r的取值范围为[-1,1],其正负号可反映相关的方向,如果相关系数0<|r|<0.3,则相关程度为低度相关;相关系数0.3<|r|<0.8,则相关程度为中度相关;相关系数0.8<|r|<l,则相关程度为高度相关。

关联分析是另一种分析事物间依存关系的方法,它是指从大量数据中发现项集之间有趣的关联和相关联系。关联是指多个数据项之间联系的规律。关联规则挖掘可以发现数据库中两个或者多个数据项之间的关系,可以用来寻找大量数据之间的相关性或者关联性,进而对事物某些属性同时出现的规律和模式进行描述。由于其不受因变量的限制,所以有着十分广泛的应用。常用的关联分析算法有Aprioir算法、FP增长算法等。

关联分析隶属于灰色系统方法,相关分析则包含在数理统计范畴之内。灰色系统意指因素间不具有确定关系的系统,数理统计是揭示不确定性的随机现象的统计规律的学科,因此对于因素间具有不确定性的系统,如社会、经济、农业等领域的大量因素分析问题,既可应用相关分析方法,也可应用关联分析方法来解决。

(5)方差分析法。方差分析是指从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。方差分析法是由现代统计科学的奠基人之一的费希尔R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,运用方差分析法研究所得的数据呈现波动状。

造成波动的原因可分成两类,一类是不可控的随机因素,另一类是研究中施加的对结果形成影响的可控因素。

(6)交叉分析法。交叉分析法通常是把纵向对比和横向对比综合起来,对数据进行多角度的综合分析。举个例子如下。

a.交叉分析角度:客户端+时间。

某App应用二季度(4月、5月、6月)的iOS端和Android端的客户数如表1-5所示。

表1-5 某App应用二季度客户数

从表1-5中,可以看出iOS端每个月的客户数在增加,而Android端在降低,总体数据没有增长的主要原因在于Android端数据的下降。

接下来分析:为什么Android端二季度新增客户数据在下降呢?一般这时,需要加入渠道维度。

b.交叉分析角度:客户端+时间+渠道。

某App应用二季度(4月、5月、6月)的iOS端和Android端的客户来源渠道分布如表1-6所示。

从这个数据中可以看出,Android端A预装渠道占比比较高,而且呈现下降趋势,其他渠道的变化并不明显。

因此可以得出结论:Android端在二季度新增客户降低主要是由于A预装渠道降低所导致的。

所以说,交叉分析的主要作用是从多个角度细分数据,从中发现数据变化的具体原因。

(7)比较分析法。比较分析法也称对比分析法,是指将客观的事物进行对比,以认识事物的本质和规律,进而判断其优劣的研究方法。

一般来说,比较分析法通常将两个或两个以上的同类数据进行比较,从剖析、对比事物的个别特征和属性开始,辅助数据分析师进行数据分析的工作。比较分析法可以分为横向比较和纵向比较两种。

纵向比较是对同一事物不同时期的状况或特征进行比较,从而认识事物的过去、现在及其未来的发展趋势。

横向比较是在同一标准下对同类的不同对象进行比较,从中找出差距,判断优劣。

电子商务数据分析中,比较分析法主要从以下几点来进行数据比较,以便数据分析师更好地做出数据分析报告,如图1-14所示。

在比较分析中,选择合适的对比标准是十分关键的步骤。对比标准选择得合适,才能做出客观的评价;选择不合适,评价可能得出错误的结论。

(8)分组分析法。分组分析法是指通过统计分组的计算和分析,来认识所要分析对象的不同特征、不同性质及对象相互关系的方法。分组就是根据研究的目的和客观现象的内在特点,按某个标志或几个标志把被研究的总体划分为若干个不同性质的组,使组内的差异尽可能小,组间的差异尽可能大。分组分析法是在分组的基础上,对现象的内部结构或现象之间的依存关系从定性或定量的角度做进一步的分析研究,以便寻找事物发展的规律,正确地分析问题和解决问题。

根据分组分析法作用的不同,可将其分为结构分组分析法和相关关系分组分析法;结构分组分析法又可分为按品质标志分组分析法和按数量标志分组分析法,如图1-15所示。

图1-14 比较分析法

图1-15 分组分析法

①结构分组分析法。

A.按品质标志分组分析法。分组是确定社会经济现象同质总体,研究现象各种类型的基础。俗话说“物以类聚,人以群分”,在复杂的社会经济现象总体中,客观上存在着多种多样的类型,各种不同的类型有着不同的特点以及不同的发展规律,而同类的、品质相同或相近的事物易于聚集在一起,结合为同一类别或群体。按照不同的类别分辨事物,就不会混淆事物的性质,就可以认识万物的本质特征。

广义上说,任何统计分组都是把现象总体划分为不同的类型。

狭义上说,划分现象类型是指对某一复杂总体按重要的品质标志来分组,以反映不同性质的社会经济现象之间的相互关系。科学分组区分现象的类型,正确了解、研究现象的实质,是发挥统计研究作用的重要方法。

品质标志分组分析法就是用来分析社会经济现象的各种类型特征,从而找出客观事物规律的一种分析方法。

B.按数量标志分组分析法。数量标志分组分析法是用来研究总体内部结构及其变化的一种分析方法。它是指在对总体现象进行科学分组的基础上,计算各组单位数或分组指标量在总体总量中所占比重,从而形成对总体的结构分布状况的总体认识。

各组所占比重大小不同,说明它们在总体中所处的地位不同,对总体分布特征的影响也不同,其中比重相对大的部分,决定着总体的性质或结构类型。数量标志分组分析法借助于总体各部分的比重在量上的差异和联系,用以研究总体内部各部分之间存在的差异和相互联系。

②相关关系分组分析法。

相关关系分组分析法是用来分析社会经济现象之间依存关系的一种分组分析法。

社会经济现象之间存在着广泛的联系和制约关系,其中关系紧密的联系就是现象之间的依存关系。如商品流转额中商品流转速度与流通费用率之间存在着依存关系;工业产品的单位成本、销售总额与利润也呈依存关系。分析研究现象之间依存关系的统计方法很多,如相关回归分析法、指数因素分析法、分组分析法等,其中统计分组分析法是最基本的方法,是进行其他分析的基础。

分组分析法分析现象之间的依存关系,它将现象之间属于影响因素的原因标志作为自变量,而把属于被影响因素的结果指标作为因变量。分组分析法首先对总体按原因标志分组,其次按组计算出被影响因素的平均指标或相对指标,然后根据指标值在各组间的变动规律来确定自变量与因变量之间的依存关系,认识现象之间在数量上的影响作用和程度。

综上所述,分组分析法以品质标志分组分析法为前提条件,通过品质标志分组分析法,可以分析现象的类型特征和规律性;利用数量标志分组分析法分析现象总体内部的结构及其变化;利用相关关系分组分析法分析社会经济现象之间的相关关系。这三种分组分析法在实际中常常结合在一起使用。

知识链接

分组原则

分组时必须遵循两个原则:穷尽原则和互斥原则。

穷尽原则就是使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。

互斥原则就是在特定的分组标志下,总体中的任何一个单位只能归属于某一个组,而不能同时或可能归属于几个组。

(9)矩阵分析法。矩阵分析法是一种将多个变量化为少数综合变量的多元统计分析方法,它可以从原始数据中获得许多有益的情报。

在矩阵图的基础上,把各个因素分别放在相应的行和列中,然后在行和列的交叉点中用数量来描述这些因素之间的对比值,再依此进行数量计算、定量分析,以确定哪些因素是相对比较重要的。

矩阵图有四个象限,第一象限属于高度关注区,标志着客户对公司某产品或服务的满意程度高于其重要性,公司应继续保持现状并给予支持;第二象限是优先改进区,标志着客户对公司某产品或服务的满意程度低于企业认为此方面的重要程度,企业只要对该方面进行改进即可事半功倍;第三象限是无关紧要区,标志着客户对企业某产品或服务的满意度低于其重要性,企业若在此产品或服务上投入资源,将得不偿失;第四象限是维持优势区,标志着企业在此服务上投入了过多的时间、资金和资源,超出了客户的期望,如图1-16所示。

图1-16 波士顿矩阵分析法

当数据分析师进行顾客调查、产品设计方案选择时,一般需要对两种或者两种以上的因素加以考虑,针对这些因素权衡其重要性,得出加权系数。有时候,数据分析师需要应用顾客对调查产品要求的数据,考虑多种影响因素,并确定各因素的重要性和优先考虑次序。这时使用矩阵分析法,就可以一目了然地将市场调查数据分析出来,判断出顾客对产品的要求、产品设计开发的关键影响因素以及最适宜的方案等。

总的来说,利用矩阵分析法可以进行多因素分析、复杂质量评价等,有利于提高数据分析质量。

(10)标签云。标签云是指用不同的标签标示不同的对象,其本质就是一种“标签”。标签的排序一般按照字典的顺序排列,并根据其热门程度确定字体的颜色和大小,出现频率越高的词语字体就越大,反之越小。这就方便客户按照字典或是该标签的热门程度来寻找信息。

数据分析的标签云如图1-17所示。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈