首页 理论教育 大数据挖掘的特点分析

大数据挖掘的特点分析

时间:2023-06-24 理论教育 版权反馈
【摘要】:1) “大量的”与并行分布式数据挖掘算法研究大数据的“大”通常是指PB级以上的,这与之前的数据挖掘技术针对的数据对象的规模不同。因此,大数据挖掘技术要有更强地处理不确定、不完整数据集的能力。6) “价值高但价值密度低”与聚类、非平衡分类、异常挖掘算法研究大数据环境下,产生了新的数据挖掘任务。

大数据挖掘的特点分析

“大量”(volume)、“多源、异质、复杂”(variety) 、“动态”(velocity) 、“价值高但价值密度低”(value)的大数据特征决定了大数据挖掘技术不同于之前的数据挖掘技术。大数据挖掘技术包括:高性能计算支持的分布式、并行数据挖掘技术,面向多源、不完整数据的不确定数据挖掘技术,面向复杂数据组织形式的图数据挖掘技术(尤其是基于语义的异质网络数据挖掘),面向非结构化稀疏性的超高维数据挖掘技术,面向价值高但价值密度低特征的特异群组挖掘技术以及面向动态数据的实时、增量数据挖掘技术等。

1) “大量的”与并行分布式数据挖掘算法研究

大数据的“大”通常是指PB级以上的,这与之前的数据挖掘技术针对的数据对象的规模不同。这一特征需要更高性能的计算平台支持,考虑大规模数据的分布式、并行处理,对数据挖掘技术带来的挑战是I/O交换、数据移动的代价高,还需要在不同站点间分析数据挖掘模型间的关系。

虽然以往已有并行分布式数据挖掘算法的相关研究,但是,大数据环境下,需要新的云计算基础架构支撑(例如,Hadoop、Spark等)。

2) “多源的”与不确定数据挖掘算法研究

大数据时代,收集和获取各种数据倍受关注,更多方式、更多类型、更多领域的数据被收集。不同数据源的数据由于数据获取的方式不同、收集数据的设备不同,大数据下,挖掘的数据对象常常具有不确定、不完整的特点,这要求大数据挖掘技术能够处理不确定、不完整的数据集,并且考虑多源数据挖掘模型和决策融合。

数据挖掘一直以来重视数据质量。数据的质量决定数据挖掘结果的价值。然而,大数据环境下,数据获取能力逐渐高于数据分析能力。数据获取过程中数据缺失、含有噪声难以避免,更值得注意的是,数据获取的目标也与以前不同,并不是针对某个特定应用或特定任务收集的。数据填充、补全是困难的。因此,大数据挖掘技术要有更强地处理不确定、不完整数据集的能力。

3) “异质的”与基于语义的异质数据挖掘算法研究

大数据的组织形式发生变化,更多地以数据网络的形式组织。大数据下的数据网络的节点类型多样,路径表达有多种语义,理解语义、体现语义是相似性的定义、计算的重要需求,是提升数据挖掘质量的关键因素。(www.xing528.com)

语义的研究是数据挖掘领域研究的一个重要部分。大数据时代,数据组织形式呈现数据网络形式,而异质数据网络的研究仍处于初始探索阶段,尤其是异质网络中代表各实体的节点间的相似性度量,也是之前数据挖掘技术研究没有涉及的。

4) “复杂的”与非结构化、超高维、稀疏数据挖掘算法研究

大数据下,来自网络文本(用户评论文本数据)、图像、视频的数据挖掘应用更加广泛,非结构化数据给数据挖掘技术带来了新的要求,特征抽取是非结构化数据挖掘的重要步骤,大数据挖掘算法设计要考虑超高维特征和稀疏性。也需要新型非关系型数据库技术(HBase、 MongoDB等)的支持,通常表现为关系型数据库与非关系型数据库互为补充。

超高维特征分析的需求使得深度学习技术成为热点。数据挖掘技术一直将统计学习、机器学习、人工智能等算法和技术与数据库技术结合应用,发现数据中的规律。大数据环境下,深度学习与大数据的结合,也将成为寻找大数据其中规律的重要支撑技术之一。

5)“动态的(演变的)”与实时、增量数据挖掘算法研究

时序数据挖掘是数据挖掘领域的一个研究主题。然而,大数据环境下,数据的获取更加高速,关键是处理数据的需求在实时性方面的要求更高。早期的数据挖掘总是能容忍分钟级别,甚至更长时延的响应。现在,许多领域已经使用数据挖掘技术分析本领域数据,各个领域对数据挖掘结果响应需求存在差异,不少领域需要有更高的响应度,例如实时在线精准广告投放、证券市场高频交易等。

6) “价值高但价值密度低”与聚类、非平衡分类、异常挖掘算法研究

大数据环境下,产生了新的数据挖掘任务。前已述及,特异群组是一类低密度高价值的数据,特异群组是指在众多行为对象中,少数对象群体具有一定数量的相同(或相似)行为模式,表现出相异于大多数对象而形成异常的群组。特异群组挖掘问题既不是异常点挖掘(只发现孤立点)问题也不是聚类问题(将大部分数据分组)。微簇(micro-clusters或clustered anomalies)发现算法将相似的异常点安排到微簇中,但该类方法仍然对剩下的大部分数据有聚类假设。非平衡分类问题需要有专家提供具有类标签的训练样本。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈