早在2013年腾讯就开始使用Spark,并且实现了广告模型的实时训练和更新,且在广告推荐业务上取得了显著的效果。2015年第一季度腾讯网络广告收入为27.24亿元,能取得这么好的收益,其基础来自于数据的精准推荐。在2014年,腾讯收集的数据已经超过了1万亿条,计算机规模已经超过了8千8百台。这么庞大的数据如果能实时处理,就能发挥出巨大的商业价值,这个商业价值就是精准推荐。实时数据推荐还可以用于视频的推荐,音乐推荐,新闻客户端的推荐,游戏道具的推荐,等等。目前腾讯做到从数据进来到投放,延时不会超过50毫秒。有了这个技术基础,腾讯的精准推荐才有了基础。
2014年腾讯的数据情况如下。
1)QQ:月活跃用户超8亿,最高同时在线人数2.1亿;在线人际关系链超1000亿条。
2)微信:月活跃超3.5亿;日均消息量超50亿。
3)空间:月活跃用户超6亿;日均相册上传超过4亿;日写操作总数过10亿。
4)游戏:腾讯游戏月活跃用户4.5亿;手机游戏月活跃用户近2亿。
5)网站:日均浏览量PC端超17亿,手机端近13亿。(www.xing528.com)
6)日访问用户量PC端近1.3亿;手机端近8千万。
从这些数据可以看到,腾讯每天的数据量几乎是一个天文数字,2014年最高日接入消息条数8000亿,日接入数据量200TB,并发分拣业务接口10000个。而面对如此大的数据量,腾讯90%以上的数据都是在线实时处理,数据的实时计算是他们进行精准推荐的核心。那么,传统的Hadoop MapReduce的处理模式可以达到他们的要求吗?答案显然是否定的。
MapReduce虽然为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的性能问题。后起之秀Spark得益于其在迭代计算和内存计算上的优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法。
广点通是腾讯最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了数据实时采集、算法实时训练、系统实时预测的全流程实时并行高维算法,最终成功应用于广点通pCTR(点击率预测)投放系统上,支持每天上百亿的请求量。
同时为了满足挖掘分析与交互式实时查询的计算需求,腾讯大数据使用Spark平台来支持挖掘分析类计算、交互式实时查询计算以及在允许误差范围的快速查询计算,目前腾讯大数据拥有超过8000台的Spark集群,并独立维护Spark和Shark分支。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。