(1)模块设计。
系统总体包括数据采集,数据预处理、数据统计分析和结果可视化四个模块。数据采集模块采用flume收集数据,flume将新生成txt的日志文件实时上传到HDFS系统;数据清洗模块利用mapreduce转换日志数据格式并提取所需字段数据;统计分析模块采用hive进行海量数据统计分析,并将统计结果储到Mysql数据库中;结果可视化模块使用JFreeChart可视化统计分析结果进行前端展示。
(2)数据源说明。
所采集的某电商网站的用户行为记录包括用户id、商品id、用户行为、商品分类、该记录产生时间和所在省份六个字段,其中,用户行为分为退货、浏览和购买三类。数据集内容示例如图7-37所示。
图7-37 用户行为数据集示例
(3)数据库设计。
1)登录账户表(user):存储用户账号的信息。具体设计如表7-1所示。
表7-1 账户表
2)用户行为信息表(behaviors_log):存储电商平台用户行为信息,具体设计如表7-2所示。
表7-2 用户行为信息表
3)销量前十省份表(salevolume_asc):存储销量前十的省份信息,具体设计如表7-3所示。(www.xing528.com)
表7-3 销量前十统计表
4)北京用户行为统计表(user_behavior):存储北京2014年商品的购买、浏览和退货统计信息,具体设计如表7-4所示。
表7-4 用户行为统计表
5)月份浏览量统计表(PageViews_date):存储每个月用户总浏览量,具体设计如表7-5所示。
表7-5 日期浏览量统计表
6)2014年春季上海每月销量统计表(sales_sh):存储2014年春季上海每月销售总量,具体设计如表7-6所示。
表7-6 上海春季销售量统计表
7)销量占比统计表(sales_bsg):存储2014年北京、上海和广州成交商品的销量比例,具体设计如表7-7所示。
表7-7 销量统计表
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。