在大数据环境下,面对“应用价值高、价值密度低”的大数据集,大数据挖掘增加了一项新任务,即特异群组分析。因此,大数据挖掘涉及的相关内容包括数据预处理技术,关联规则挖掘、分类、聚类、异常检测,演变分析,特异群组分析及各种场景下的应用。
2.4.6.1 关联规则挖掘
关联分析(Association Analysis)就是从给定的数据集中发现频繁出现的项集模式知识,又称为关联规则(Association Rules)。关联分析可应用于读者推广等领域。
通常关联规则具有 X →Y 形式,即“A1^ A2^ …^ Am →B1^ B2^…^Bn”的规则,其中,Ai(i ∈{1,2,…,m}),Bj(j ∈{1,2,…,m})均为属性-值的形式。关联规则X →Y 表示“数据库中的满足 X 中条件的记录(tuples)也一定满足 Y 中的条件”。
2.4.6.2 分类
分类(classification)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类模式(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。分类可以用来预测数据对象的类标记。然而人们希望预测某些空缺或未知的数据值,而不是类标记。当被预测的值是数据数值时,通常称之为回归或预测。
2.4.6.3 聚类
聚类分析(clustering analysis)与分类预测方法的明显不同之处在于:后者所学习获得分类预测模型所使用的数据是已知类别属性(class-labeled data),属于有监督学习方法;而聚类分析(无论是在学习还是在归类预测时)所分析处理的数据均是无(事先确定)类别归属的。类别归属标志在聚类分析处理的数据集中是不存在的,聚类也便于将观察到的内容分类编制(taxonomy formation)成类分层结构,把类似的事件组织在一起。(www.xing528.com)
2.4.6.4 孤立点挖掘
数据库中可能包含一些与数据的一般行为或模型不一致的数据对象,这些数据对象被称为孤立点(Outlier)。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃,然而在一些应用场合,小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值。孤立点数据分析通常称作孤立点挖掘(Outlier Mining)。孤立点可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离进行度量,到其他聚类的距离很大的对象被视为孤立点。基于偏差的方法通过考查一群对象主要特征上的差别来识别孤立点,而不是使用统计或距离度量。
2.4.6.5 演变分析
数据演变分析(Evolution Analysis)就是对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括概念描述,对比概念描述,关联分析、分类分析、时间相关基于相似性的数据分析等。数据(Time-Related)分析,时间相关数据分析又包括时序数据分析、序列或周期模式匹配及基于相似性的数据分析等。
2.4.6.6 特异群组分析
特异群组分析是发现数据对象集中明显不同于大部分数据对象(不具有相似性)的数据对象(称为特异对象)的过程。一个数据集中大部分数据对象不相似,而每个特异群组中的特异群组对象是相似的,这是一种大数据环境下新型的数据挖掘任务。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。