1)大数据的概念
“大数据”这一术语最早可追溯到apache org 的开源项目Nutch,其用来表达批量处理或分析网络搜索索引产生的大量数据集。自2008 年起,Nature 和Science 等国际杂志相继出版了“Big Data”和“Dealing with Data”专刊,讨论大数据的重要影响和挑战。随着大数据的流行,大数据的定义呈现多样化趋势。2011 年,Mc Kinsey 咨询公司将大数据定义为“无法用传统数据库软件工具捕获、存储、管理和分析数据能力的数据集”。同年,作为大数据研究先驱的国际数据中心(International Data Center,IDC)在其报告中指出,“大数据技术可用于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)则认为“大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力,需要使用水平扩展的机制以提高处理效率”。Gartner 公司认为大数据是需要新型处理方式的高容量、高生成速率、种类繁多的信息资产。从大数据的主流定义可以看出,大数据技术的标准随着时间推移和技术进步不断地发生着变化,高增长的数据规模和需要新处理模式是其两个关键特征。
2)大数据的特点
Gartner 分析员道格·莱尼在2001 年指出,数据增长有4 个方向的挑战和机遇,即数量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value)。在莱尼的理论基础上,国际商业机器公司(International Business Machines Corporation,IBM)也提出了大数据的4V特征,如下所述。
(1)数据体量大(Volume)
数据体量大是指大数据巨大的数据量与数据完整性,数量的单位从TB 级别跃升为PB级别甚至ZB 级别。随着新一代信息技术的发展及各类设备的使用,人和物的所有轨迹都可以被记录,机器—机器(M2M)方式的出现,使得交流的数据量成倍增长。
(2)数据种类多(Variety)
伴随着传感器以及智能设备、社交网络等的飞速发展,数据类型也变得更加复杂,不仅包括传统的关系数据类型,也包括以网页、视频、音频、e-mail、文档等形式存在的原始、半结构化和非结构化的数据。
(3)处理速度快(Velocity)
处理速度快通常理解为数据的获取、存储以及挖掘有效信息的速度快。现在有些数据是爆发式产生,且数据是快速动态变化的,难以用传统的系统去处理。因此,大数据也有批处理和流处理两种范式,以实现快速的数据处理。
(4)价值密度低(Value)
在数据量呈指数增长的同时,隐藏在海量数据中的有用信息却没有相应比例地增长,反而使人们获取有用信息的难度加大。以视频为例,在连续的监控过程中,有用的数据可能仅有一两秒。(www.xing528.com)
3)大数据在其他行业的应用
大数据改变了互联网的数据应用模式,为各行业的发展带来新机遇。目前,大数据应用已经融入各行各业,如电子商业领域、金融领域、医疗卫生领域、交通领域等,大数据产业正快速发展成为新一代信息技术和服务业态。
(1)大数据在电子商业领域的应用
在电子商业领域,通过数据挖掘和数据分析,总结规律并预测未来趋势,电子商业企业可以制定推动企业发展的全局性、系统性决策,寻找最佳的电子商务解决方案。沃尔玛基于对消费者购物行为这种非结构化数据进行分析,掌握顾客购物习惯,通过销售数据分析为顾客推荐相关产品,创造了“啤酒与尿布”的经典商业案例。“淘宝数据魔方”是淘宝平台在大数据应用的典型案例,淘宝通过“淘宝数据魔方”可以收集分析买家的购物行为,宏观地了解市场情况,找出问题的先兆。在2016 年12 月12 日的电商促销期,淘宝推出了“时光机”,基于对淘宝注册用户的购买商品记录、浏览点击次数、收货地址等网购数据进行分析处理,刻画出了每位用户的网购日志。
(2)大数据在金融领域的应用
金融领域,大数据在银行、证券和保险业务中得到了广泛应用,基于大数据进行对客户行为、客户满意度和投资者情绪的分析,能够调整金融企业的营销策略,开展金融欺诈行为检测和风险管理。华尔街德温特资本市场公司基于全球3.4 亿微博账户的留言分析民众情绪,以此判断人们对公司股票的买入或卖出,为该公司在2012 年第一季度创造了7%的收益率。美国三大征信所之一的Equifax 公司,存储了包括全球5 亿个消费者和8 100 万家企业在内的财务数据,如贷款申请、租赁、房地产、纳税申报、报纸与杂志订阅等,通过对数据的交叉分享和索引处理,可得出消费者的个人信用评分,判断客户支付意向与支付能力。阿里巴巴的信用贷款通过企业交易数据来进行自动分析,然后再发放贷款,截至2018 年,阿里巴巴已借出的贷款中仅有0.3%不良贷款,远低于其他商业银行。
(3)大数据在医疗卫生领域的应用
大数据还能促进医疗卫生行业优化,利用大数据技术,可对各个层次的医疗信息和数据进行有效存储、处理、查询和分析,能够改善医疗服务,降低患者支出。2007 年,为管理个人健康信息和家庭医疗设备,微软发布的HealthVault,用户可以输入和上传健康信息,通过第三方机构导入个人医疗记录。为了实现医院之间对病患信息的共享,2010 年,我国公布的“十二五”规划中指出要重点建设国家级、省级和地市级三级卫生信息平台,建设电子档案和电子病历两个基础数据库等。为预测代谢综合患者以帮助其复苏,安泰人寿保险公司在102 位患者的一系列检测结果中扫描600 000 个化验结果和180 000 个索赔,得出了一个应对危险因素的个性化治疗方案和应对大多数此类患者的方案。美国的西奈山医疗中心使用Ayasdi 技术分析大肠杆菌的上百万DNA 基因序列,从而成为研究细菌耐药菌株的医疗大数据公司。
(4)大数据在交通领域的应用
利用大数据海量、多样性的基本特点,通过对交通大数据的收集、挖掘、分析,对交通状况等进行实时监控和预测,可以缓解道路堵塞、解决停车困难、提升交通系统的安全水平、提高交通运营效率和道路通行能力,有效驱动交通行业的发展。
“车来了”软件是在公交车上安装GPS 定位系统进行实时的位置和时间数据采集,再利用大数据技术进行分析处理,结合车次时刻表即可预测出每一辆公交车的到站时间。通过开源平台Github、Open Trip Planner 和MTA 获取的数据,WNYC 开发的Transit Time NYC 将纽约市划分成2 930 个六边形,分析得出每个六边形重点的边缘时间,最终建模出4 290 985条虚拟线路,用户通过输入地址便可获取到达时间。INRIX-Traffic 通过实时采集用户的行驶数据,通过大数据汇总分析,可计算出最佳线路,让用户避免交通堵塞。武汉将全市停车场数据进行汇总、分析及资源共享。目前,武汉交警已完成约1 900 家停车场的调研,系统注册停车场594 家,上线473 家,可实现对17 万个车位的实时管控。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。