关于数据挖掘有很多相近的术语,如:数据库中的知识发现(knowledge discovery in databases, KDD[1])、知识挖掘、知识提取、数据/模式分析、数据考古、数据融合等。其中,最常使用的是数据挖掘和知识发现,并且两者在使用中常常不加区分[6]。就术语的使用情况看,在2012年大数据尚未被广泛关注之前,人工智能领域主要使用知识发现,而数据库领域和工业界主要使用数据挖掘,市场上的绝大部分产品也称为数据挖掘工具,而非知识发现工具。在大数据受到广泛关注之后,数据挖掘被更加广泛地使用,其他术语的使用越来越少。
1996年,Fayyad等人对数据挖掘定义进行了阐述[7],将数据挖掘看作是KDD的一个过程[2]。1997年,Friedman综述了Zekulin、 Ferruzza、 John、 Parsaye等人对数据挖掘的定义[8]。下面列出一些关于数据挖掘的定义:
(1) Kantardzic的定义:数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程[9]。
(2) Fayyad的定义:数据挖掘是一个确定数据中有效的、新颖的、潜在可用的且最终可理解的模式的重要过程[7]。
(3) Zekulin的定义:数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息并用它来做出关键商业决策的过程[8]。
(4) Ferruzza的定义:数据挖掘是用于知识发现过程,识别存在于数据中的未知关系和模式的一些方法[8] 。
(5) John的定义:数据挖掘是发现数据中有益模式的过程[8]。
(6) Parsaye的定义:数据挖掘是为未知信息模式而研究大型数据集的一个决策支持过程[8]。(www.xing528.com)
(7) Jiawei Han的定义:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用信息和知识的过程[10] 。
(8)本书的定义:数据挖掘是通过分析每个数据从大量数据中寻找其规律的技术[6]。
相较于其他数据挖掘定义,本书的定义给出了数据挖掘的核心“大量”和“寻找”,而对挖掘到的“规律”没有做任何描述或限制,即没有要求“规律”是“有用的”。事实上,一个规律有用与否是由用户的需求决定的。挖掘算法本身很难保证挖掘结果的有用性,一般需要用户在挖掘过程中不断调整相关参数(如支持度、置信度等)来获得有用的结果。有时,一些被认为是“无用”的结果经过评价后可能是意外的好结果[6] 。
数据隐含价值,技术发现价值,应用实现价值。数据、技术和应用是大数据的三个内涵[5]。大数据环境下,数据挖掘的对象(即数据)有了新的特征,这决定了大数据挖掘将被赋予新的含义,相应的,也产生了新的挖掘算法和模型。
本书采用的大数据挖掘定义:大数据挖掘是指从大数据集中寻找其规律的技术。
我们将“大数据集”强调为大数据挖掘的对象。需要注意的是,在大数据挖掘中,“寻找”变得更具挑战性,因为,大数据具有高价值、低密度的特性,即规律不是显而易见的,而是隐含在大数据之中,需要用新的方法和技术去寻找。同样的,对挖掘到的“规律”没有做任何描述或限制,大数据的价值是更加难以估量的,需要在大数据的应用中去实现。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。