首页 理论教育 系统设计:数据采集、预处理、分析和可视化模块详解

系统设计:数据采集、预处理、分析和可视化模块详解

时间:2023-06-26 理论教育 版权反馈
【摘要】:系统总体包括数据采集,数据预处理、数据统计分析和结果可视化四个模块。表7-3销量前十统计表4)北京用户行为统计表:存储北京2014年商品的购买、浏览和退货统计信息,具体设计如表7-4所示。表7-5日期浏览量统计表6)2014年春季上海每月销量统计表:存储2014年春季上海每月销售总量,具体设计如表7-6所示。表7-7销量统计表

系统设计:数据采集、预处理、分析和可视化模块详解

(1)模块设计。

系统总体包括数据采集,数据预处理、数据统计分析和结果可视化四个模块。数据采集模块采用flume收集数据,flume将新生成txt的日志文件实时上传到HDFS系统;数据清洗模块利用mapreduce转换日志数据格式并提取所需字段数据;统计分析模块采用hive进行海量数据统计分析,并将统计结果储到Mysql数据库中;结果可视化模块使用JFreeChart可视化统计分析结果进行前端展示。

(2)数据源说明。

所采集的某电商网站的用户行为记录包括用户id、商品id、用户行为、商品分类、该记录产生时间和所在省份六个字段,其中,用户行为分为退货、浏览和购买三类。数据集内容示例如图7-37所示。

图7-37 用户行为数据集示例

(3)数据库设计。

1)登录账户表(user):存储用户账号的信息。具体设计如表7-1所示。

表7-1 账户表

2)用户行为信息表(behaviors_log):存储电商平台用户行为信息,具体设计如表7-2所示。

表7-2 用户行为信息表

3)销量前十省份表(salevolume_asc):存储销量前十的省份信息,具体设计如表7-3所示。(www.xing528.com)

表7-3 销量前十统计表

4)北京用户行为统计表(user_behavior):存储北京2014年商品的购买、浏览和退货统计信息,具体设计如表7-4所示。

表7-4 用户行为统计表

5)月份浏览量统计表(PageViews_date):存储每个月用户总浏览量,具体设计如表7-5所示。

表7-5 日期浏览量统计表

6)2014年春季上海每月销量统计表(sales_sh):存储2014年春季上海每月销售总量,具体设计如表7-6所示。

表7-6 上海春季销售量统计表

7)销量占比统计表(sales_bsg):存储2014年北京、上海和广州成交商品的销量比例,具体设计如表7-7所示。

表7-7 销量统计表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈