数据仓库技术成为数据库存储的主流技术,在建设空间数据仓库的过程中,需定义出逻辑结构、物理结构、仓库模型、融合策略、软硬件环境、信息流程以及功能模块和实现方法等。
(1)空间数据仓库技术。水利行业业务大多涉及到海量数据,具有与地域分布有关的空间特性和随时间变化的动态特性。对所有已有的数据库(包括历史资料库)建立一个数据仓库是水利信息化的基础。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。数据仓库的信息源具有分布和异构的特点。作为一种解决问题的方案,数据仓库将数据转化为信息和知识,并及时地提供给用户。
数据仓库有别于运作中的数据库,后者以多种方式支持在线事务处理(OLTP),而前者主要支持在线分析处理(OLAP)。空间数据仓库的功能是:
1)对现有的和将要建立的各种数据库统一的管理、组织功能。
2)在空间数据仓库中,信息是基于主题组织的,主题又可能由许多因素组成。
3)建立空间数据仓库的过程是空间信息融合的过程,这个过程可能应用到地图综合、图形边界处理、三维集成等技术。
4)使用多维技术组织大量的数据,维数由空间查询要求决定。维数是按不同粒度、不同层次组织的,粒度直接与数据源的抽象和聚集方法相关,粒度越小,信息量越大。可依据空间三维、时间一维、主题多维等组织数据。
完整而深入地分析和了解各主要工作的业务流程和所使用的数据,结合现有的数据库系统,确定采集和传输的内容,指导通信专网的建设。这一工作过程中的主要技术有:
1)针对水利业务的数据仓库技术。包括领域数据仓库模型和体系结构技术,基于领域公共数据模型的数据挖掘技术,基于对象模型的多维分析技术,面向不同数据模型的数据加载、清洗和质量控制技术等。(www.xing528.com)
2)面向对象的数据建模技术。包括对象模型的描述技术、对象模型的投影技术、对象模型的查询和多维分析技术,对象模型的数据挖掘技术等。
3)领域数据集成和软件集成技术。包括基于对象关系的数据集成方法,领域构件模型和开发技术,软件平台构筑技术,基于新一代数据库的信息集成技术等。
4)针对水利信息化数据平台技术。包括不同数据模型数据库的集成和互操作技术,标准数据接口技术,遗产数据处理技术,非结构化数据的管理和整合技术等。
(2)空间动态数据挖掘功能。数据挖掘是从大量原始的数据中挖掘出可信的、新颖的、有用的、尚未发现的信息和知识的模式处理过程。目前的数据库系统不能挖掘数据背后隐藏的知识和规则,无法根据现有的数据预测未来的发展趋势,这就导致了“数据爆炸但知识贫乏”的现象。因此要有新的、更有效的手段对各种数据进行自动、智能的挖掘,以便把海量数据转化为有用的信息和知识,达到准确性、高效性和开放性的基本要求,更好地发挥其潜能。
数据挖掘与传统数据分析(如数据查询、报表、联机应用分析等)的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。
先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。挖掘出的信息越是出乎意料,就可能越有价值。数据挖掘是基于空间数据仓库的联机分析处理(OLAP)和挖掘的方法。OLAP要对数据进行复杂的处理,具有强大的分析功能,并能快速响应用户的分析请求。它以历史资料和采集更新的大量动态数据为基础有效地发现隐藏在数据中的规律,形成易于理解的知识表示。在这里,提取的知识表现为概念、规则、规律和模式等。因此,这是一个观察数据集合并寻找模式的决策支持过程,可以为水利行业业务中的各类决策支持系统提供可靠的、理论的和实际的依据。
从动态、空间、多尺度的海量数据中挖掘出我们关心的例如灾情、水量水质调度、水土保持等的规律和知识,无疑是一项非常困难又具有挑战性的任务。亟待解决的部分问题是:①复杂的数据需要很多领域的知识;②巨大的数据库对算法效率提出了更高的要求;③不断变化的环境和信息类型需要新的发现方法;④众多的参数需要完善的数据融合技术;⑤问题的复杂性需要多种发现策略的操作;⑥数据挖掘中人机交互功能的强化以及对内部数据和个人数据的安全保护等。
当前,水文数据挖掘研究还处于起步阶段,研究内容多集中在水文数据的单项和局部数据的模拟与处理方面,对基于水文数据库的全局性多因素数据挖掘涉及很少,在数据挖掘技术与水文数据适应性方面所进行的研究也还很不够。为了充分发挥数据挖掘发现知识的作用,需要在水文主题数据库和多维数据立方、水文序列的分类、聚类和关联规则挖掘技术及优化算法以及水文序列的相似性、周期性和其他序列模式挖掘方面开展进一步研究,并向形成水文数据挖掘软件及数据平台方向发展。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。