2.4.5.1 大数据挖掘的定义
要理解大数据挖掘,首先要搞清楚数据挖掘的含义。数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是涉及机器学习、人工智能、数据库理论以及统计学等学科的交叉研究领域。
数据挖掘就是从数据库的大量数据中挖掘出有用的信息,即从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,发现隐含的、规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的非平凡过程。
数据挖掘所挖掘的知识类型包括模型、规律、规则、模式、约束等。所谓事先未知的信息,是指该信息是预先未曾预料到的,即信息的新颖性。数据挖掘就是要发现那些不能靠直觉发现的,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料就可能越有价值。潜在有用性是指发现的知识将来有实际效用,即这些信息或知识对于所讨论的业务或研究领域是有效的,有实用价值的和可实现的。
一般而言,常识性的结论或已被人们掌握的事实或无法实现的推测都是没有意义的。最终可理解性要求发现的模式能被用户理解,目前它主要体现在简洁性上,即发现的知识要可接受、可理解、可运用,最好能用自然语言表达所发现的结果。非平凡通常是指数据挖掘过程不是线性的,在挖掘过程中有反复、有循环,所挖掘的知识往往不易通过简单的分析就能够得到,这些知识可能隐含在表面现象的内部,需要经过大量数据的比较分析,必要时要应用一些专门处理大数据量的数据挖掘工具。
数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别,统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
数据挖掘主要有数据准备,规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;而规律表示是尽可能地以用户可理解的方式(如可视化)将找出的规律表示出来。由于大数据存在复杂、高维、多变等特性,如何从真实、凌乱、无模式和复杂的大数据中挖掘出人类感兴趣的知识,迫切需要更深刻的机器学习理论进行指导。
目前包含大规模数据的机器学习问题是普遍存在的,但是由于现有的许多机器学习算法是基于内存的,而大数据是无法装载到计算机内存的,因此现有的诸多算法不能直接处理大数据,如何提出新的机器学习算法以适应大数据处理的需求,是大数据时代的研究热点方向之一。
大数据环境下,数据挖掘的对象(即数据)有了新的特征,这决定大数据挖掘将被赋予新的含义,也产生了新的挖掘算法和模型。大数据挖掘是指从大数据集中寻找其规律的技术。这个概念将大数据挖掘对象强调为“大数据集”,而在大数据集中,“寻找”变得更具有挑战性,因为大数据具有数据体量巨大,处理速度要快、数据类别丰富、高价值、低密度等特点,挖掘起来自然更加不容易。
数据挖掘技术是对应大数据( big data) 而产生的一门新兴技术。在上述章节中,本书介绍了智慧图书馆的四大特性,其中逻辑感知与数据挖掘技术有着千丝万缕的关系。图书馆中既存有海量的知识资源,也存有个人身份信息、借阅记录等结构化信息和用户行为痕迹、检索方式、存储行为等半结构化、非结构化信息,这些信息(数据)实际上是静态存在的,人们需要利用数据挖掘技术将其动态串联起来,最大程度地开发其价值。本书认为智慧图书馆通过着力发展数据挖掘技术至少会赢得三方面的成功:
第一,向用户推送信息,提供个性化业务。智慧图书馆的服务应当做到满足用户的个性化需求,这包括两个方面的内容: 对用户自身的推送;对相同偏好用户群的推送。每个智慧图书馆的用户都会用自己的个人信息注册图书馆账号以方便接受服务,那么用户的学历、性别、年龄、检索历史、借阅情况等结构化、半结构化和非结构化信息都会被记录在图书馆服务器上,系统采用数据挖掘技术对这些信息进行分析,判断用户偏好,当有满足用户偏好的书目上新或者被归还时,系统自动向用户推送这些消息,吸引用户注意。对于相同偏好用户群的数据挖掘和分析则可以帮助图书馆向该群体推荐恰当的书目,使“一人独占”变成“群体共享”,方便大家交流和推荐优秀书籍。此外,系统可以对将来新注册的用户,根据他们注册时提供的年龄、专业、性别等信息进行预判,直接推送相关书籍,帮助用户节省检索时间与精力。(www.xing528.com)
第二,提供“组合阅读”的功能。在数据挖掘技术的帮助下,可以计算出不同图书间微小却又紧密的联系,方便图书馆对图书重新分类排架,使图书具有“1+1>2”的组合功能。比如,将烹饪类的图书与养生方面的书籍搭配上架,效果会更优。
第三,运用数据挖掘技术,可将图书馆的各类结构化、半结构化、非结构化资源合并分析,各图书馆间也能充分进行信息沟通,因此在对用户行为、知识发展趋势、用户群变化、图书馆发展等预测领域,数据挖掘技术都具有显著优势。
2.4.5.2 大数据挖掘的特点
大数据挖掘的特点大数据的“5V”特点决定了大数据挖掘技术有了新的内涵。大数据挖掘技术包括:高性能计算支持的分布式,并行数据挖掘技术;面向多源、不完整数据的不确定数据挖掘技术;面向非结构化稀疏性的超高维数据挖掘技术;面向商业价值高但价值密度低特征的特异群组挖掘技术,以及面向动态数据的实时,增量数据挖掘技术等。具体而言,包括如下特点。
“Volume”与分布式并行数据挖掘算法研究。大数据的“大”通常指 PB 级以上的,这一特点决定了大数据挖掘需要高性能计算支持的分布式并行技术。考虑到大规模数据的分布式、并行处理,对数据挖掘技术带来的挑战是I/O 交换、数据移动的代价高,还需要在不同站点间分析数据挖掘模型间的关系。
“Velocity”与实时,增量数据挖掘算法研究。大数据时代的数据爆炸性增长,并且数据是动态演变的,这就要求数据处理的速度一定要快。时序数据挖掘是数据挖掘领域的一个研究主题,很多领域对数据挖掘的速度有更高的要求。
“Variety”与不确定数据挖掘算法研究。不同数据源的数据由于数据获取设备和方式不同,挖掘的数据对象常常具有不确定,不完整的特点,这要求大数据挖掘技术能够处理不确定,不完整的数据集。由于大数据获取过程中数据缺失、含有噪声难以避免,数据填充、补齐是困难的,因此大数据挖掘技术要有更强的处理不确定,不完整数据集的能力。
“Variety”与非结构化、超高维、稀疏数据挖掘算法研究。大数据环境下,来自网络文本(用户评论文本数据)、图像,视频的数据挖掘应用更加广泛,非结构化数据给数据挖掘技术带来了新的要求。特征提取是非结构化数据挖掘的重要步骤,大数据挖掘算法设计要考虑超高维特征和稀疏性。
“Variety”与基于语义的异构数据挖掘算法研究。大数据的组织结构包括结构化、非结构化和半结构化,这种多变的形式使得大数据更多地以数据网络的形式组织。大数据下的数据网络结点类型多样,路径表达有多种语义。理解语义、体现语义是相似性定义和计算的重要需求,是提升数据挖掘质量的关键因素。
“Value”与聚类、非平衡分类,异常挖掘算法研究。大数据环境下产生了新的数据挖掘任务,如特异群组分析。特异群组是一类低密度、高价值的数据,它是指在众多行为对象中,少数对象群体具有一定数量的相同(或相似)行为模式,表现出相异于大多数对象而形成异常的群组。特异群组挖掘问题既不是异常点挖掘(只发现孤立点),也不是聚类问题(将大部分数据分组)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。