首页 理论教育 安全生产信息化技术:数据挖掘技术

安全生产信息化技术:数据挖掘技术

时间:2023-10-09 理论教育 版权反馈
【摘要】:数据挖掘根据挖掘任务可分为预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。下面将主要从数据挖掘任务和方法的角度,着重讨论数据抽取、分类发现、聚类和关联规则发现4种非常重要的发现任务。

安全生产信息化技术:数据挖掘技术

由于人们利用信息技术生产和搜集数据的能力大大提高了,因此各种各样的数据库被用于企业安全管理、政府安全生产监管和安全工程开发等,并且这一趋势将持续发展。为此,人们不得不面临这样一个挑战:在这个信息爆炸的时代,信息过量几乎成为了一个普遍性的问题,如何才能不被信息的汪洋大海所淹没,并从中及时、迅速地发现有用的知识,提高信息利用率,如何才能改变人们因数据而迷茫,同时又匮乏知识的窘境?数据挖掘技术就是在这样一种背景下应运而生,并得以蓬勃发展起来的,而且正不断显示出其强大的生命力。

1.数据挖掘技术的概念

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应数据中,抽取隐含在其中的、人们事先不知的、但又潜在有用的信息和知识的过程。人们把原始数据看作形成知识的源泉,数据挖掘就像从矿石采矿一样。

原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的、也可以是非数学的;可以是演绎的、也可以是归纳的。发现了的知识可以被用于信息管理、查询优化决策支持、过程控制等,还可以用于数据自身维护。因此,数据挖掘是一门交叉学科,涉及数据库、人工智能数理统计可视化并行计算等多个领域

2.数据挖掘的原理

一般地,数据挖掘的基本原理可用如下的处理过程(见图4-19)加以说明。

1)首先应熟悉应用领域的数据、背景知识,明确所要完成的数据挖掘的任务性质。

978-7-111-49376-1-Chapter04-37.jpg

图4-19 数据挖掘过程

2)数据的选择。根据要求,从数据库中提取与挖掘相关的数据,数据挖掘将主要从这些数据中进行提取。

3)数据预处理与转换。从与数据挖掘相关的数据集合中除去明显错误的数据和冗余的数据,进一步精简所选数据中的有用部分,并将数据转换为有效形式,以使数据挖掘更有效。

4)数据开采。根据数据挖掘发现任务的要求,选择合适的数据开采算法,包括选取合适的模型和参数,在数据库中寻求感兴趣的模型,并用一定的方法表达成某种易于理解的形式。

5)模式解释。对发现的模式进行解释和评估,必要时需返回前面的处理中的某些步骤,以反复提取。

6)知识评价。将发现的知识以用户能理解的方式提供给用户,并试用。

从以上的处理步骤中可以看出,整个处理过程不是简单的线性流程,步骤之间包含了循环和反复。上述众多处理环节实际上也可简化为:数据挖掘=数据预处理+数据开采+解释评价。

由于预处理和解释评价研究较为成熟,因此,目前数据挖掘的研究和实现难点都集中在数据开采技术上,作为数据挖掘的一个特定而关键的步骤,数据开采方法的选择尤为重要。

3.数据挖掘的方法

数据挖掘涉及的学科领域和方法很多,可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。

在机器学习方法中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。

在统计方法中,可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)。

在神经网络方法中,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)。

4.数据挖掘任务

数据挖掘所能发现的知识有以下几种:

1)广义型知识,反映同类事物共同性质的知识。(www.xing528.com)

2)特征性知识,反映事故各方面的特征知识。

3)差异型知识,反映不同事物之间属性差别的知识。

4)关联型知识,反映事物之间依赖或关联的知识。

5)预测性知识,根据历史的和当前的数据推测未来的数据。

6)偏离型知识,揭示事物偏离常规的异常现象。

所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,满足不同用户、不同层次决策的需要。

数据挖掘根据挖掘任务可分为预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。

根据数据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、对媒体数据库、异质数据库、遗产数据库以及Inter- netWeb等。

下面将主要从数据挖掘任务和方法的角度,着重讨论数据抽取、分类发现、聚类和关联规则发现4种非常重要的发现任务。

(1)数据抽取

数据抽取的目的是对数据进行浓缩,给出其紧凑描述。传统的,也是最简单的数据抽取方法是计算数据库的各字段上的求和值、平均值、方差值等统计值,或用直方图、饼状图等图形方式来表示。

数据挖掘主要关心从数据泛化的角度来讨论数据总结,数据泛化是一种把数据库中的有关数据从低层次抽象到高层次的过程。由于数据库上的数据或对象所包含的信息总是最原始、最基本的信息,人们有时希望能从较高层次的视图上处理或浏览数据,因此需要对数据进行不同层次上的泛化,以适应各种查询要求。

数据泛化目前主要有两种技术,即多维数据分析方法和面向属性的归纳方法。

多维数据分析是一种数据仓库技术,也称为联机分析处理(OLAP),数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合,决策的前提是数据分析。在数据分析中经常要用到如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大,因此一种很自然的想法是把汇集操作结果预先计算并存储起来,以便决策支持系统使用。存储汇集操作的结果的地方称为多维数据库。

采用多维数据分析进行数据抽取,针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用SQL查询语句即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。这种数据泛化技术称为面向属性的归纳方法,原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系,有了泛化关系后,即可对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则以及关联规则等。

(2)分类发现

分类在数据挖掘中是一项非常重要的任务,分类的目的是学会一个分类函数或分类模型(也常称为作为分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。

分类和归纳都可用于预测,预测目的是从利用历史数据记录中自动推导出对给定数据的推广描述,从而对未来数据进行预测。和回归方法不同的是,分类的输出是离散的类别值,而回归的输出则是连续的数值。

要构造分类器,需要有一个训练数据集作为输入,训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称为属性或特征)值组成的特征向量。此外,训练样本还有一个类别标记,一个具体样本的形式可为(v1v2,…,vnc),其中vi表示字段值,c表示类别。分类器构造方法有统计方法、机器学习方法、神经网络方法等。

(3)聚类

聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。聚类方法包括统计方法、机器学习方法、神经网络方法和面向数据库的方法。

(4)关联规则发现

所谓关联规则,是指数据对象之间的相互依赖关系,而发现规则的任务就是从数据库中发现那些确信度(Conk-dente)和支持度(Support)都大于给定值的强壮规则。从数据库中发现关联规则近几年研究最多。目前,已经从单一概念层次关联规则的发现发展到多个概念层次的关联规则的发现。在概念层次上的不断深入,使得发观的关联规则所提供的信息越来越具体,实际上这是一个逐步深化所发现知识的过程。在许多实际应用中,能够得到的相关规则的数目可能是相当大的,而且,用户也并不是对所有的规则都感兴趣,有些规则可能会误导人们的决策,所以,在规则发现中常常引入“兴趣度”(指一规则在一定数据域上为真的知识被用户所关注的程度)概念。而基于更高概念层次上的规则发现研究(如一般化抽象层次上的规则和多层次上的规则发现)则是当前研究的重点之一。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈