首页 理论教育 Hadoop应用案例:云计算中的成功实践

Hadoop应用案例:云计算中的成功实践

时间:2023-11-26 理论教育 版权反馈
【摘要】:在大数据背景下,Apache Hadoop已经逐渐成为一种标签性。随着业界对这一开源分布式技术不断加深了解,Hadoop被广泛应用于在线旅游、移动数据、电子商务、能源发现、能源节省、基础设施管理、图像处理、欺诈检测、IT安全、医疗保健等不同领域。下面将介绍几个国内外Hadoop的实际使用案例。所以,Visa在2009年时导入了Hadoop,建置了2套Hadoop丛集,让分析时间从1个月缩短到13分钟,更快速地找出了可疑交易,也能更快对银行提出预警,甚至能及时阻止诈骗交易。

Hadoop应用案例:云计算中的成功实践

在大数据背景下,Apache Hadoop已经逐渐成为一种标签性。随着业界对这一开源分布式技术不断加深了解,Hadoop被广泛应用于在线旅游、移动数据、电子商务能源发现、能源节省、基础设施管理、图像处理、欺诈检测、IT安全、医疗保健等不同领域。下面将介绍几个国内外Hadoop的实际使用案例。

1)应用案例1——全球最大超市业者Wal-Mart

Wal-Mart分析顾客商品搜索行为,找出超越竞争对手的商机。作为全球最大连锁超市,Wal-Mart在10年前就投入在线电子商务,但效果并不理想,在线销售的收益远远落后于Amazon。因此,Wal-Mart决定采用Hadoop来分析顾客搜寻商品的行为以及用户透过搜索引擎寻找到Wal-Mart网站的关键词,利用这些关键词的分析结果发掘顾客需求,以规划下一季商品的促销策略。此外,Wal-Mart还尝试分析顾客在Facebook、Twitter等社交网站上对商品的讨论,期望能比竞争对手提前一步发现顾客需求。

2)应用案例2——全球最大拍卖网站eBay

eBay用Hadoop拆解非结构性巨量数据,降低数据仓储负载。eBay是全球最大的拍卖网站,8千万名用户每天产生的数据量就达到50 TB,相当于5天就增加了1座美国国会图书馆的数据量。这些数据囊括了结构化的数据和非结构化的数据,如照片、影片、电子邮件、用户的网站浏览Log记录等。eBay正是利用Hadoop来解决同时要分析大量结构化数据和非结构化的难题。eBay通过Hadoop进行数据预先处理,将大块结构的非结构化数据拆解成小型数据,再放入数据仓储系统的数据模型中分析,以加快分析速度,也减轻对数据仓储系统的分析负载。

3)应用案例3——全球最大信用卡公司Visa

Visa能快速发现可疑交易,分析时间由原来的1个月缩短成13分钟。Visa公司拥有一个全球最大的付费网络系统VisaNet,作为信用卡付款验证之用。为了降低信用卡各种诈骗、盗领事件的损失,Visa公司得分析每一笔事务数据,以找出可疑的交易。虽然每笔交易的数据记录只有短短200位,但每天VisaNet要处理全球上亿笔交易,2年累积的资料多达36 TB,过去光是要分析5亿个用户账号之间的关联,得等1个月才能得到结果。所以,Visa在2009年时导入了Hadoop,建置了2套Hadoop丛集(每套不到50个节点),让分析时间从1个月缩短到13分钟,更快速地找出了可疑交易,也能更快对银行提出预警,甚至能及时阻止诈骗交易。(www.xing528.com)

4)应用案例4——全球最大的中文搜索引擎百度

百度于2006年就开始关注Hadoop并开始调研和使用,2012年其总的集群规模达到近十个,单集群超过2800台机器节点,Hadoop机器总数有上万台机器,总的存储容量超过100 PB,已经使用的超过74 PB,每天提交的作业数目有数千个之多,每天的输入数据量已经超过7 500 TB,输出超过1 700 TB。

百度的Hadoop集群为整个公司的数据团队、大搜索团队、社区产品团队、广告团队,以及LBS团体提供统一的计算和存储服务,主要应用包括数据挖掘与分析、日志分析平台、数据仓库系统、推荐引擎系统、用户行为分析系统等。同时百度在Hadoop的基础上还开发了自己的日志分析平台、数据仓库系统,以及统一的C++编程接口,并对Hadoop进行深度改造,开发了Hadoop C++扩展HCE系统。

5)应用案例5——全球领先的互联网公司阿里巴巴

截至2012年,阿里巴巴的Hadoop集群大约有3 200台服务器,大约30 000个物理CPU核心,总内存100 TB,总的存储容量超过60 PB,每天的作业数目超过150 000个,每天hive query查询大于6 000个,每天扫描数据量约为7.5 PB,每天扫描文件数约为4亿,存储利用率大约为80%,CPU利用率平均为65%,峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4 500个集群用户,为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层基础计算和存储服务,主要应用包括数据平台系统、搜索支撑、广告系统、数据魔方量子统计、淘数据、推荐引擎系统、搜索排行榜等。为了便于开发,阿里巴巴还开发了Web IDE继承开发环境,使用的相关系统包括Hive、Pig、Mahout、Hbase等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈