首页 理论教育 电子商务数据分析流程详解

电子商务数据分析流程详解

时间:2023-05-21 理论教育 版权反馈
【摘要】:数据分析流程如图1-4所示,具体步骤如下。在开始数据分析之前,就应该冷静思考在数据分析过程中想要获得什么。明确通过数据分析要获得什么以及数据分析的目标是什么是至关重要的。明确了数据分析的目的,接下来需要确定应该收集的数据都有哪些。数据分析的人员能够做到完全全量的对数据进行收集和分析。在数据抽取时,需要对数据进行清洗和整理,保证数据质量及可信性。去重是指删除重复的数据,以减少对后续数据分析步骤的干扰。

电子商务数据分析流程详解

最初的数据可能杂乱无章且无规律,要通过作图、制表和各种形式的拟合来计算某些特征量,探索规律性的可能形式。这时就需要研究用何种方式去寻找和揭示隐含在数据中的规律性。首先在探索性分析的基础上提出几种模型,再通过进一步的分析从中选择所需的模型,最后使用数理统计方法对所选定模型或估计的可靠程度和精确程度做出推断。数据分析流程如图1-4所示,具体步骤如下。

图1-4 数据分析流程

1.识别数据分析需求

识别数据分析需求可以为收集数据、分析数据提供清晰的目标,是确保数据分析过程有效性的首要条件。在开始数据分析之前,就应该冷静思考在数据分析过程中想要获得什么。例如,是想要更精确地确定网店的客户群,还是想要扩大网店的客户群?或者是为了评估产品改版后的效果是否比之前有所提升?或者是找到产品迭代的方向?还是进行科学的排班以至于不必在闲时浪费人力、在忙时缺少人手?明确通过数据分析要获得什么以及数据分析的目标是什么是至关重要的。

明确了数据分析的目的,接下来需要确定应该收集的数据都有哪些。

2.收集数据

当通过数据分析来揭示变化趋势时,数据量越大越好。对于任何类型的统计分析,样本量越大,所得到的结果越精确。仅仅是追踪公司一周的销售数据的价值是很难看出未来发展趋势的,3个月的会好一些,6个月的更佳。即使无法确定寻找的是什么,也要确保收集的数据所包含的信息要尽可能详尽和精确。试着弄清楚获得所需最优数据的途径,然后开始收集。如果没有数据,就不能够进行分析。

收集数据即是如何将数据记录下来的环节。在这个环节中需要着重说明的是两个原则,即全量而非抽样,以及多维而非单维。

(1)全量而非抽样。数据分析的人员能够做到完全全量的对数据进行收集和分析。

(2)多维而非单维。将数据针对客户行为实现5W1H的全面细化,将交互过程的什么时间、什么地点、什么人、因为什么原因、做了什么事情全面记录下来,并将每一个板块进行细化,时间可以从起始时间、结束时间、中断时间、周期间隔时间等细分;地点可以从地市、小区、气候等地理特征、渠道等细分;人可以从多渠道注册账号、家庭成员、薪资、个人成长阶段等细分;原因可以从爱好、人生大事、需求层级等细分;事情可以从主题、步骤、质量、效率等细分。通过这些细分维度,增加分析的多样性,并从中挖掘规律。

有目的的收集数据是确保数据分析过程有效的基础,需要对收集数据的内容、渠道、方法进行策划,主要考虑:①将识别的数据分析需求转化为更具体的要求,如评价供方时,需要收集的数据可能包括其过程能力、测量系统不确定性等相关数据;②明确由谁在何时何处,通过何种渠道和方法收集数据;③记录表应便于使用;④采取有效措施,防止数据丢失和虚假数据对系统的干扰。

3.数据的处理与集成

数据的处理与集成主要是完成对于已经采集到的数据进行适当的处理、清洗去噪以及进一步的集成存储。对收集数据进行抽取,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据。在数据抽取时,需要对数据进行清洗和整理,保证数据质量及可信性。常用的数据清洗和整理方法有三种:去重、排序和分组。

(1)去重。去重是指删除重复的数据,以减少对后续数据分析步骤的干扰。去重工作采用Excel工具,具体步骤如下。

步骤1:从网上获取原始空调型号一共有12个,如表1-1所示。

表1-1 原始空调型号

去重的第一步是标识重复项,单击“数据/高亮重复项”按钮,结果显示Midea/美的KFR-26GW/WCBD@有两条重复项,如图1-5所示。

步骤2:单击“数据/删除重复项”按钮,打开“删除重复项”对话框,在“删除重复项”对话框的列中选择“空调型号”多选项,单击“删除重复项”按钮,删除两条重复项,如图1-6所示。

图1-5 高亮重复项             

图1-6 删除重复项(www.xing528.com)

步骤3:删除后保留10条唯一项,将B2中“原始空调型号修改序号,如图1-7所示。

图1-7 去重后的空调型号

去重可以节省存储空间,通过删除重复数据,可以大大降低需要的存储介质数量,进而降低成本,提升磁盘的写入性能,节省网络带宽

知识链接

大数据时代数据的特征

大数据是什么?其实很简单,大数据其实就是海量资料巨量资料,这些巨量资料来源于世界各地随时产生的数据。在大数据时代,任何微小的数据都可能产生不可思议的价值。大数据有4个特点,分别为:Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值),一般我们称之为4V。

(1)大量。大数据的特征首先就体现为“大”,从先MP3时代,一个小小的MB级别的MP3就可以满足很多人的需求,然而随着时间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。

(2)多样。广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝、网易音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析,从而进一步推荐用户喜欢的东西。日志数据是结构化明显的数据,还有一些数据结构化不明显,例如图片、音频、视频等,这些数据因果关系弱,就需要人工对其进行标注。

(3)高速。大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每个人每天都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。

(4)价值。这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于农业金融医疗等各个领域,从而最终达到改善社会治理、提高生产效率、推进科学研究的效果。

(2)排序。整理数据时,排序也是重要的方法之一,因为数据经过排序后,会方便商家从中识别哪个数据最大,哪个数据最小,进而发现数据反映出的问题。

(3)分组。商家日常都会收集数据,日积月累,数据量就会变得很大。面对这些毫无规律的数据,商家会感觉不知如何进行数据分析。但如果能对这些数据进行分组整理,分析起来就容易找到头绪。

4.数据分析

数据分析是整个大数据处理流程里最核心的部分,因为在数据分析的过程中,会发现数据的价值所在。数据分析是指将收集到的数据通过加工、整理和分析后,将其转化为信息的过程。

常用的数据分析方法有排列图、因果图、分层法、调查表、散布图、直方图、控制图、关联图、系统图、矩阵图等。

在数据分析的基础上,还要进一步将分析方法应用在业务需求中。基于业务主题的分析可以涉及多个领域,从客户参与网店推广活动的转化率分析,到客户的留存时长分析,再到内部的各环节衔接的及时率和准确度分析等,每一方面都有独特的指标、维度以及分析方法的要求。

5.数据解释

对于广大的数据信息客户来讲,最关心的并非是数据的分析处理过程,而是对大数据分析结果的解释与展示。因此,在一个完善的数据分析流程中,数据结果的解释步骤至关重要。如果数据分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让客户难以理解,极端情况下甚至会误导客户。

数据解释的方法很多,比较传统的就是以文本形式输出结果或者直接在计算机上显示结果。这种方法在面对小数据量时是一种很好的选择,但是大数据时代的数据分析结果往往是海量的,同时结果之间的关联关系极其复杂,采用传统的解释方法基本不可行。可以考虑从下面两个方面提升数据解释能力。

(1)引入可视化技术。可视化作为解释大量数据最有效的手段之一率先被科学与工程计算领域采用。通过对分析结果的可视化,可以用更形象的方式向客户展示结果,同时图形化的方式比文字更易理解和接受。

常见的可视化技术有标签云(Tagcloud)、历史流(Historyflow)、空间信息流(Spatialinformation)等。数据可视化工具中,报表类工具有JReport、Excel、水晶报表、FineReport等;BI分析工具有BO、BIEE等;国内的数据可视化工具有BDP商业数据平台、大数据魔镜、数据观、FineBI商业智能软件等。用户可以根据具体的应用需要选择合适的可视化技术和工具。

(2)客户参与分析过程。另一方面,可以让客户能够在一定程度上了解和参与具体的分析过程,从而提升数据解释效果。客户参与分析过程有两种方式:既可以采用人机交互技术,利用交互式的数据分析过程来引导客户逐步地进行分析,使客户在得到结果的同时更好地理解结果的由来;也可以采用数据起源技术,通过该技术帮助追溯整个数据分析的过程,以帮助客户理解数据分析结果。

数据分析完成后一般会要求撰写数据分析报告,它是对整个数据分析过程的总结,是给企业决策者的一个参考报告,可以为决策者提供科学、严谨的决策依据。一份优秀的数据分析报告,需要有一个明确的主题、一个清晰的目录、图文并茂的数据阐述以及条理清晰的内容呈现。最后还需要加上结论和建议,并提供解决问题的方案和想法,以便决策者在决策时作为参考。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈