大数据的历史最早可以追溯到十八世纪八十年代,1885-1890美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据,发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。
1944年,卫斯理大学图书馆员弗莱蒙特·雷德对大数据时代的到来进行了预见。他出版了《学者与研究型图书馆的未来》一书,在书中他估计美国高校图书馆的规模每16年就翻一番。
1961年德里克·普赖斯出版了《巴比伦以来的科学》,在这本书中,普赖斯通过观察科学期刊和论文的增长规律来研究科学知识的增长。他得出以下结论:新期刊的数量以指数方式增长而不是以线性方式增长,每15年翻一番,每50年以10为指数倍进行增长。普赖斯将其称之为“指数增长规律”。
1980年4月I·A·特詹姆斯兰德在第四届美国电气和电子工程师协会(IEEE)“大规模存储系统专题研讨会”上做了一个报告,题为《我们该何去何从?》。在报告中,他指出所有数据正在被无选择地保存以避免错失有价值的信息。
1981年匈牙利中央统计办公室开始实施了一项调查国家信息产业的研究项目,包括以比特为单位计量信息量。这项研究一直持续至今。
1986年7月哈尔·B·贝克尔在《数据通信》上发表了《用户真的能够以今天或者明天的速度吸收数据吗?》一文,预计数据记录密度将大幅增长。
1993年,匈牙利中央统计办公室首席科学家伊斯特万·迪恩斯编制了一本国家信息账户的标准体系手册。
1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。这是在美国计算机学会的数字图书馆中大数据发展历程综述第一篇使用“大数据”这一术语的文章。
1999年8月,史蒂夫·布赖森、大卫·肯怀特、迈克尔·考克斯、大卫·埃尔斯沃思以及罗伯特·海门斯在《美国计算机协会通讯》上发表了《千兆字节数据集的实时性可视化探索》一文。这是《美国计算机协会通讯》上第一篇使用“大数据”这一术语的文章。
2001年,美国一家在信息技术研究领域具有权威地位的咨询公司Gartner首次开发了大数据模型。
2001年2月,梅塔集团分析师道格·莱尼发布了一份研究报告,题为《3D数据管理:控制数据容量、处理速度及数据种类》。十年后,3V作为定义大数据的三个维度而被广泛接受。
2005年Hadoop项目诞生。Hadoop是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。
2007年,著名图灵奖获得者Jim Gray在的一次演讲中提出,“数据密集型科学发现”(Data-Intensive Sci-entific Discovery)将成为科学研究的第四范式。
2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织计算社区联盟(Computing Community Consor-tium),发表了一份有影响力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。它使人们的思维不仅局限于数据处理的机器,此组织可以说是最早提出大数据概念的机构。
2008年,在Google成立10周年之际,著名的《自然》杂志出版了一期专刊,专门讨论未来的大数据处理相关的一系列技术问题和挑战,其中就提出了“Big Data”的概念。
大约从2009年开始,“大数据”逐渐成为互联网信息技术行业的流行词汇。
2009年印度政府建立了用于身份识别管理的生物识别数据库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。(www.xing528.com)
2009年中,美国政府通过启动Data.gov网站的方式进一步开放了数据的大门,这个网站向公众提供各种各样的政府数据,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。
2010年2月,肯尼斯库克尔在《经济学人》上发表了长达14页的大数据专题报告《数据,无所不在的数据》。库克尔在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。科学家和计算机工程师已经为这个现象创造了一个新词汇:‘大数据’。”库克尔也因此成为最早洞见大数据时代趋势的数据科学家之一。
2010年12月,美国总统办公室下属的科学技术顾问委员会(PCAST)和信息技术顾问委员会(PITAC)向奥巴马和国会提交了一份《规划数字化未来》的战略报告,把大数据收集和使用的工作提升到体现国家意志的战略高度。
2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的数据量,并在美国著名智力竞赛电视节目“Jeopardy”(危险边缘)上击败两名人类选手而夺冠。
后来纽约时报认为这一刻为一个“大数据计算的胜利”。
2011年5月,全球知名咨询公司麦肯锡的全球研究院(MGI)发布了一份报告——《大数据:创新、竞争和生产力的下一个新领域》,这项研究估计2010年所有的公司存储了7.4EB新产生的数据,消费者存储了6.8EB新数据。大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数据。
2012年1月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响(Big Data,Big Impact)》宣称,数据已经成为一种新的经济资产类别。
2012年美国总统选举中,那些精于数字计算的数据挖掘团队把传统的投票放在一边不用,而是利用“大数据”来规划这次选举将如何进行。如利用房产记录、选举记录甚至是期刊的订阅注册等来预测人们对候选人的看法、这些看法是否能被改变,以及为此要采取怎样的措施等。
2012年3月,美国奥巴马政府在白宫网站发布了《大数据研究和发展倡议》,这一倡议标志着大数据已经成为重要的时代特征。
2012年3月22日,奥巴马政府宣布2亿美元投资大数据领域,是大数据技术从商业行为上升到国家科技战略的分水岭,在次日的电话会议中,政府对数据的定义“未来的新石油”,大数据技术领域的竞争,事关国家安全和未来。
2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大数据处理公司。
Splunk成功上市促进了资本市场对大数据的关注,同时也促使IT厂商加快大数据布局。
2012年7月,联合国在纽约发布了一本关于大数据政务的白皮书《大数据促发展:挑战与机遇》,全球大数据的研究和发展进入了前所未有的高潮。这本白皮书总结了各国政府如何利用大数据响应社会需求,指导经济运行,更好地为人民服务,并建议成员国建立“脉搏实验室”(Pulse Labs),挖掘大数据的潜在价值。
2014年4月,世界经济论坛以“大数据的回报与风险”主题发布了《全球信息技术报告(第13版)》。报告认为,在未来几年中针对各种信息通信技术的政策甚至会显得更加重要,接下来将对数据保密和网络管制等议题展开积极讨论。
2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步,同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。
由于大数据技术的特点和重要性,目前国内外已经出现了“数据科学”的概念,即数据处理技术将成为一个与计算科学并列的新的科学领域。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。