通信技术、计算机技术和传感器技术是信息技术的三大支柱技术。微处理器和传感器的发展是大数据技术的主要物质基础,信息社会的巨大需要是大数据技术发展的主要动力。
微处理器的发明发展,使数字转化的速度、效率和范围大大提高,让计算机技术应用无处不在。计算机的发明与应用要求人们把事物信息转化为可计算、可度量、数字化的数据。从20世纪50年代到90年代初,随着1946年第一台数字电子计算机ENIAC的诞生和发展,人们开始普遍使用二进制中“0”和“1”两个数字来表达信息,采用电子线路来执行算数运算、逻辑运算和储存信息。大量用“0”或“1”代表的信号反过来又产生庞大快速的数据流,由此导致了涉及数字的转换、存取、处理、控制等一系列高技术的发展,如微电子技术、光电传输技术、数字压缩和编码技术、多媒体数据库技术等。1951年,第一代电子管计算机UNIVACI诞生,每秒可进行几千次运算,输入百余条信息。1959年,第二代晶体管计算机诞生,计算速度从每秒几千次上升到十几万次,主存器容量从几千字提高到10万字。1964年,IBM公司推出了第三代360系列集成电路计算机,计算速度从每秒几十万次到几百万次。1971年,英特尔公司生产出了世界上第一个微处理器芯片4004,人类第一次将高智能赋予无生命的设备,这是人工智能和计算处理历史上的重要转折点。它的诞生使微处理器打破了由大型中央处理器一统天下的局面,从而将计算机带到办公室的桌面上。1980年,IMB公司推出了3801门列式第三代计算机,速度达到了26纳秒级。微处理器作为计算机的结构型部件,不仅推动了计算机产品和产业结构的革命性变化,而且其作为嵌入式应用,几乎无孔不入,被广泛地应用到现代精密科学仪器、数控机床、智能化医疗设备、汽车、电视、照相机等领域。
传感器的发明创新,使信息捕捉转换的准确性、可靠性得到有力保障,让数据测试和自动控制的水平大大提高。传感器的发展大致经历了三个阶段。20世纪70年代之前,传感器主要是结构型传感器,是利用结构参数的变化来感受和转化信息号。20世纪70年代至90年代,传感器主要是由半导体、电介质及磁性材料等元件构成的固体传感器,利用热、磁和光的参数变化来感受和转化信号。20世纪90年代后,传感器主要是智能传感器,基于硅材料微细加工和CMOS电路集成技术制作的传感器,具有数据采集、转换和决策功能。目前,传感器正朝着智能化、微型化、仿生化的方向发展。传感器技术使得大部分物体可以实时汇报它们的位置和状态,而传感信息的处理引发了各种数据库问题,推动着数据处理技术的发展。
计算机的广泛应用使传统文件系统已无法满足数据管理共享的需要,数据库技术应运而生。最早出现的数据库是数据管理数据库(DBMS)。1961年,美国通用电气公司巴赫曼(Charles Bahman)等人开发出世界上第一个网状数据库,也是世界上第一个数据库管理系统——集成数据存储(Integrated Data Store,IDS),并得到了广泛应用,奠定了网状数据库的基础。但是,IDS只有一个文件,要通过手工编码生成。1968年,美国IBM公司开发出层次型数据库IMS。网状型、层次型数据库很好地解决了数据的集中与共享。但是,数据的独立性和抽象性不够。1970年,IBM公司研究员科德(Edgar Codd)首次提出关系模型理论,奠定了关系型数据库的基础,科德因此荣获1981年图灵奖。1976年,霍尼韦尔公司开发了第一个商用关系数据库系统MRDS(Multics Relational Data Store)。20世纪70年代中期,曾有人对计算机的各种应用做过统计,列出了6 000多种应用,在这些应用中,直接对人类产生最大影响的就是数据库技术的应用。至20世纪90年代,各种关系型数据库技术大兴,其代表产品有甲骨文公司的Oracle、IBM公司的DB2、微软公司的MS SQLServer以及IBM公司的Informix、Software AG公司的ADABASD等。数据库技术是数据处理和信息管理系统的核心技术,主要通过研究数据库的结构、存储、设计、管理以及应用的基本理论方法,实现对数据库数据进行处理、分析和理解。其中,数据模型是数据库系统的核心和基础。(www.xing528.com)
海量信息的处理使数据挖掘理论与技术不断发展。从20世纪90年代至21世纪初,随着信息数字化能力和数据库技术的不断发展,人们开始思考如何解决大数据的“数据丰富而信息贫乏”的问题,于是数据挖掘技术应运而生。1989年8月,在美国底特律召开的第11届国际联合人工智能学术会议上,数据挖掘(Data Mining,也称Knowledge Discovery in Database,简称KDD)的概念被正式提出。从1995年开始,一年一度的KDD国际学术会议让“数据挖掘”一词逐渐在学术圈流行。数据挖掘指的是从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用信息的过程。主要的技术方法有面向数据库或数据仓库的技术、机器学习、统计学、可视化、模式识别、神经网络、模糊集、粗糙集、遗传算法、决策树、最近邻技术等。复杂的数据挖掘系统通常采用多种数据挖掘技术。随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。此时,人们对大数据技术研究主要集中在“算法”(Algorithms)、“模型”(Model)、“模式”(Patterns)、“识别”(Identification)等问题上,大数据技术开始形成并不断发展,人类处理海量信息的能力得到大幅度提升。
非结构海量数据的迫切需求让大数据技术取得突破。随着计算机、互联网和数字媒体进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,特别是以2004年脸书公司(Facebook)的创立为标志的社交网络的流行,直接导致了大量非结构化数据的涌现,使得传统的处理数据和海量数据的数据库技术难以应对。如何存储、查询、分析、挖掘和利用这些非结构化数据信息成为社会的又一个重大难题。为应对这一挑战,人们开始对数据处理系统和数据库架构进行重新审视,这就出现了各种非结构化数据处理技术,如基于NoSQL的非结构化数据管理系统、网络代价估算、多种支持模式演化等。2006年,谷歌公司首先提出“云计算”的概念。2009年,谷歌公司软件工程师迪恩(Jeff Dean)开发了全球首个分布式数据库Spanner,标志着“云计算”(Cloud Computing)、“大规模数据集并行运算算法”(MapReduce)、“开源分布式系统基础架构”(Hadoop)等大数据前沿技术理论开始走向成熟,并行运算与分布式系统成为当前大数据处理的主要技术方法并得到广泛应用。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。