最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡·麦肯锡称:“数据,已经渗透当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通信等行业存在已有时日,却因为近年来互联网和信息行业的发展才引起人们关注。
1)大数据概念
大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2)大数据特点
(1)Volume(大量)
相关报告预测称,到2020 年,全球数据量将扩大50 倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB 不等。简而言之,存储1 PB 数据将需要两万台配备50 GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。
(2)Velocity(高速)
高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,而且必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。
(3)Variety(多样)
数据多样性的增加主要是新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。
(4)Value(低价值密度)
随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
3)大数据采集和处理
大数据采集和处理是指利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。将海量的来自前端的数据快速导入一个集中的大型分布式数据库或者分布式存储集群,利用分布式技术对存储于其中的集中的海量数据进行普通的查询和分类汇总等,以此满足大多数常见的分析需求。基于前面的查询数据进行数据挖掘,来满足高级别的数据分析需求。图5.11 为大数据分析平台结构图。
图5.11 大数据分析平台图
4)大数据处理技术
数据时代的到来,人们的生活也得到了许多的方便,它的应用也越来越广。它的技术主要包括以下几种。
①数据采集:ETL(对数据提取、转换、加载)工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
②数据存取:关系数据库、NOSQL和SQL等。
③基础架构:云存储和分布式文件存储等。
④数据处理:自然语言处理(Natural Language Processing,NLP)是研究人与计算机交互的语言问题的一门学科,也称为计算语言学(Computational Linguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(Artificial Intelligence,AI)的核心课题之一。(www.xing528.com)
⑤统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、Logistic 回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)和bootstrap技术等。
⑥数据挖掘:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化(Description and Visualization)、复杂数据类型挖掘(Text、Web、图形图像、视频、音频等)。
⑦模型预测:预测模型、机器学习和建模仿真。
⑧结果呈现:云计算、标签云和关系图等。
5)大数据应用
产生的数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、IM、tweet和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方式来解读。但是,应该将这种复杂性看成一种机会而不是问题。处理方法正确时,产生的数据越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊人新视角和机会。
数据的价值在于将正确的信息在正确的时间交付到正确的人手中。未来将属于那些能够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,发现新的洞见,帮助它们找出竞争优势。
大数据正在改变产品和生产过程、企业和产业甚至竞争本身的性质。大数据的影响除了经济方面,同时也能在政治、文化等方面产生深远的影响,大数据可以帮助人们开启循“数”管理的模式。比如:
①洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。
②Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。
③统计学家内特·西尔弗(Nate Silver)利用大数据预测2012 美国选举结果。
⑤梅西百货的实时定价机制。根据需求和库存的情况,该公司基于SAS 的系统对多达7 300 万种货品进行实时调价。
⑥医疗行业早就遇到了海量数据和非结构化数据的挑战,而近年来很多国家都在积极推进医疗信息化发展,这使得很多医疗机构有资金来做大数据分析。
⑦智能电网现在欧洲已经做到了终端,也就是所谓的智能电表。在德国,为了鼓励利用太阳能,会在家庭安装太阳能,除了卖电给你,当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据,收集来的这些数据可以用来预测客户的用电习惯等,从而推断出在未来2 ~3 个月里,整个电网大概需要多少电。有了这个预测后,就可以向发电或者供电企业购买一定数量的电。因为电有点像期货,如果提前买就会比较便宜,买现货就比较贵。通过这个预测后,可以降低采购成本。
⑧阿里巴巴基于淘宝大数据,记录每个买家日常浏览和购买行为、兴趣爱好和购买力等,归纳到卖家的历史成交人群画像,设置标签,综合分析买家搜索最可能成交的宝贝和店铺进行优先展示的一种方式。通过标签,将买家与卖家联系在一起,每个宝贝推荐给最有可能成交的买家,从而提升转化率,最大化利用流量。这也是很多电子商务平台如百度、美团为用户推送广告信息的机制。
⑨当前我国大型电子商务公司都已经开放了自己的大数据平台,如百度大数据众智开放平台(图5.12),呈现和开放了多款百度大数据产品、技术能力和行业解决方案,致力于为千万级企业客户提供专业、稳定的大数据深度挖掘服务。
图5.12 百度的大数据平台
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。