在海量数据处理研究方面,国外研究机构主要聚焦的是物理计算和认知设备(如无线传感器网络、移动电话、嵌入式系统、微型机器人等),以及互联网融合中涉及的数据处理技术,主要包括:语义互操作性,服务寻找,服务组合,语义传感器网络,数据共享、传播和协作,自治代理,人机交互等问题。
当然,国内在面向海量信息的智能处理和面向复杂应用环境的数据存储等方面也有较强的研究力度,主要有:
●建立物联网中的海量信息智能处理和数据存储理论体系和架构研究;
●面向海量信息的高效计算模型与分析学习机理,动态时空信息描述与一致性控制机制;
●整合和分析海量信息并提供智能服务的方法;
●针对异构和并发服务的大规模数据存储面临的高效性、安全性、可靠性、低能耗等挑战,研究面向服务且支持云存储等存储服务的架构;
●研究自组织的动态数据对象管理和资源共享方法,存储服务QoS和效用评价方法;
●研究网络使能技术及其在物联网中的协同应用。
当前,国内外对海量数据处理主要的解决方案为:
(1)海量数据的存储与访问
目前,在网络系统存储备份设备中,应用最广泛的,仍然是磁盘阵列、磁带库和光盘塔或光盘库几大类。其中,磁带库、磁盘阵列、光盘塔或光盘库等存储设备因其信息存储特点的完全不同,应用环境也有较大区别。其中,磁带库更多的是用于网络系统中的海量数据的定期备份,而磁盘阵列则主要用于网络系统中的海量数据的即时存取,光盘塔或光盘库主要用于网络系统中的海量数据的访问。(www.xing528.com)
对海量数据的访问,比较原始的做法是,由技术人员将已备至磁带的数据倒回数据库,根据要求查找记录。此种查询方式基本由手工完成,效率极低,同时造成巨大的人工浪费。加上查询范围及时间跨度有限,无法充分利用历史数据这一重要资源。因此,未来的访问机制为满足用户的需求,应具备如下的特点:在生产系统之外建立一个独立的历史数据归档和查询系统,将生产系统数据库内的历史数据自动归档,将历史数据从主机分离开来,从而使主机在必要时可以将历史数据剥离,轻装前进。同时保证历史数据脱离主机后仍能使用,即脱离主机和数据库后,仍可直接访问。
(2)海量数据的数据库处理技术
计算机能处理的数据信息大体可以分为两类:一类是结构化数据,如数字、符号等;另一类是非结构化数据,如图像、声音和网页等。对于结构化数据,数据库存储技术发展到今天,关系型数据库已经成为处理结构化数据的首选产品。
但是,随着网络和软件技术的飞速发展,Internet时代的数据越来越显示出两个最主要的特点,即非结构化数据大量涌现和海量数据的产生。这对数据存储和检索技术提出了完全不同的新需求,特别是随着非结构化数据应用领域的不断拓展,擅长于处埋结构化数据的关系数据库开始暴露出越来越多的局限,而且这些局限性也集中表现在对海量信息的存储和检索方面。
在数据检索方面,海量信息对查询速度有较高的要求,查全率、查准率是衡量检索效率的标准。我们知道,关系数据库的索引是基于B+树(见图7-9)的方法,这种方法对海量数据的检索效率是非常低的,甚至几乎不可行。而产生于20世纪70年代主要针对数值和字符处理的关系数据库模型由于当时应用的局限,在设计时几乎没有考虑到多媒体、网页等非结构化数据处理的问题,没有考虑会出现数据急速膨胀的局面。所以,关系数据库在Internet时代的非结构化数据和海量信息数据的处理方面存在着许多问题,特别是关系数据库对数据类型的处理只局限于数字、字符,对非结构化信息的处理只是停留在简单的二进制代码文件的存储,已经不适应用户从原先数据的简单存储上升为对数据的识别、检索和深入加工的要求。因此有人说,数据库技术将进入“后关系数据库时代”,进入基于网络应用和内容管理的非结构化数据库时代,数据的存储和检索技术也会随之发生相应的变化,数据库技术与Web技术的结合成为研究的热点。
随着技术的进步和市场需求的推动,关系数据库系统的功能越来越强,种类不断增加,其应用领域已多得难以统计,如联机事务处理、联机分析处理、决策支持系统、数据仓库和数据集市等。面向对象的数据性系统及通用数据库系统大多也是在关系系统基础上进行的扩展。物联网对传统关系型数据库提出了新的挑战,为满足物联网的特殊需求,传统的关系型数据库必然进一步发展,同时也必然会对其信息的管理提出更高的要求。因此,预计将来可能会出现另一种数据库——对象数据库。
图2-14 V型的造型
图7-9 B+树结构索引示意图
图2-15 椭圆型、卵型的造型
图2-16 X字型的造型
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。