首页 理论教育 智慧图书馆中的大数据挖掘方法

智慧图书馆中的大数据挖掘方法

时间:2023-07-25 理论教育 版权反馈
【摘要】:2.4.6.6特异群组分析特异群组分析是发现数据对象集中明显不同于大部分数据对象的数据对象的过程。

智慧图书馆中的大数据挖掘方法

在大数据环境下,面对“应用价值高、价值密度低”的大数据集,大数据挖掘增加了一项新任务,即特异群组分析。因此,大数据挖掘涉及的相关内容包括数据预处理技术,关联规则挖掘、分类、聚类、异常检测,演变分析,特异群组分析及各种场景下的应用。

2.4.6.1 关联规则挖掘

关联分析(Association Analysis)就是从给定的数据集中发现频繁出现的项集模式知识,又称为关联规则(Association Rules)。关联分析可应用于读者推广等领域

通常关联规则具有 X →Y 形式,即“A1^ A2^ …^ Am →B1^ B2^…^Bn”的规则,其中,Ai(i ∈{1,2,…,m}),Bj(j ∈{1,2,…,m})均为属性-值的形式。关联规则X →Y 表示“数据库中的满足 X 中条件的记录(tuples)也一定满足 Y 中的条件”。

2.4.6.2 分类

分类(classification)就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类模式(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。分类可以用来预测数据对象的类标记。然而人们希望预测某些空缺或未知的数据值,而不是类标记。当被预测的值是数据数值时,通常称之为回归或预测。

2.4.6.3 聚类

聚类分析(clustering analysis)与分类预测方法的明显不同之处在于:后者所学习获得分类预测模型所使用的数据是已知类别属性(class-labeled data),属于有监督学习方法;而聚类分析(无论是在学习还是在归类预测时)所分析处理的数据均是无(事先确定)类别归属的。类别归属标志在聚类分析处理的数据集中是不存在的,聚类也便于将观察到的内容分类编制(taxonomy formation)成类分层结构,把类似的事件组织在一起。(www.xing528.com)

2.4.6.4 孤立点挖掘

数据库中可能包含一些与数据的一般行为或模型不一致的数据对象,这些数据对象被称为孤立点(Outlier)。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃,然而在一些应用场合,小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值。孤立点数据分析通常称作孤立点挖掘(Outlier Mining)。孤立点可以使用统计试验检测。它假定一个数据分布或概率模型,并使用距离进行度量,到其他聚类的距离很大的对象被视为孤立点。基于偏差的方法通过考查一群对象主要特征上的差别来识别孤立点,而不是使用统计或距离度量。

2.4.6.5 演变分析

数据演变分析(Evolution Analysis)就是对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括概念描述,对比概念描述,关联分析、分类分析、时间相关基于相似性的数据分析等。数据(Time-Related)分析,时间相关数据分析又包括时序数据分析、序列或周期模式匹配及基于相似性的数据分析等。

2.4.6.6 特异群组分析

特异群组分析是发现数据对象集中明显不同于大部分数据对象(不具有相似性)的数据对象(称为特异对象)的过程。一个数据集中大部分数据对象不相似,而每个特异群组中的特异群组对象是相似的,这是一种大数据环境下新型的数据挖掘任务。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈