数据挖掘(Data Mining),通俗来讲就是在大量的数据中发现有用的信息。随着信息技术的发展,每天都会产生大量的数据,可以说我们正处于一个大数据的时代。面对如此海量的数据,传统的分析方法已不再适用,这就需要我们用新的技术工具从数据中找到隐藏的信息。数据挖掘这门新兴的学科涉及很多学科领域,它融合了统计学、人工智能、专家系统、智能数据库、知识获取、数据可视化及高性能计算等领域。
尽管目前对数据挖掘尚无明确的学科划定,从广义上来讲,数据挖掘先从巨大的数据体系或数据库里提炼出人们感兴趣的东西(可能在意料之中,也可能在意料之外);或者说,从庞大的观察数据集中提炼并分析出不可轻易察觉或断言的关系,最后给出一个有用的、可以理解的结论。简单地说,数据挖掘就是在数据中发现数据之间的关系。数据挖掘也常被称为知识发现(Know ledge Discovery),因此许多知识发现中的算法——比如人工智能算法,常常被用于数据挖掘的过程中。尽管“数据挖掘”和“知识发现”的称谓在学术界并行,然而在产业界、媒体和数据库研究界,“数据挖掘”这一术语比“知识发现”更流行,因为前者更能够吸引投资者的视线,从而推动数据挖掘的使用和发展[1]。
数据挖掘有以下三个特点:
(1)数据量常常是巨大的。是否可以根据相关领域内的数据集找出数据关系即算法,使用全部数据还是随机数据或有目的地使用数据子集,能否高效地存取数据,这些问题都是数据挖掘工作者需要考虑的问题。(www.xing528.com)
(2)数据挖掘面临的数据常常是为其他目的而收集的数据。这就为数据挖掘带来了一个问题,即收集数据时,可能没有收集一个或几个重要的变量,而这些变量在数据挖掘应用中被证明是有用的,甚至是至关重要的。
(3)数据挖掘工作者常常不愿把先验知识预先嵌入算法内,因为这样就等于做“假设检验”。数据挖掘常常要求算法可以主动地揭示一些数据的内在关系,结论的新颖性是衡量数据挖掘算法好坏的一个重要标准。当然,这些新颖性的结论必须是可以被人理解的,绝对不应该是漫无边际的奇怪结论。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。