首页 理论教育 大数据挖掘与相关技术的差异分析

大数据挖掘与相关技术的差异分析

时间:2023-06-24 理论教育 版权反馈
【摘要】:在这一小节中,将对一些与数据挖掘密切相关或混淆在一起的概念进行澄清。

大数据挖掘与相关技术的差异分析

在这一小节中,将对一些与数据挖掘密切相关或混淆在一起的概念进行澄清。

1.1.4.1数据挖掘与数理统计

数理统计和数据挖掘有着共同的目标:发现数据中的规律。而且有许多数据挖掘工作还用了数理统计的算法或模型,一些市场上所谓的数据挖掘工具软件也是统计软件或是从统计软件演变过来的。正因为如此,两者就成了最混淆的概念。我们认为两者在做法上是有很大不同的。

1)手工与计算机

由于统计学基础的建立在计算机的发明之前,所以许多统计学方法是可以手工实现的。对于很多统计学家来说,几百个数据或几十个变量就已经是很大的了。但这个“大”对于现在计算机中GB(吉字节,1GB=109 BYTE)级的交易记录或几千万个客户信息来说相差太远了。很明显,面对这么多的数据,设计“原则上可以用手工实现”的统计方法和设计“原则上有计算机数据仓库支持”的数据挖掘方法是有很大不同的,很多统计模型和算法在处理大数据量时可能就会失去意义。这意味着计算机对于数据的分析和处理是关键的,而手工直接处理数据将变得不可行。

2)用样本推断总体规律与直接找出总体的规律

用样本推断总体规律是统计学的核心方法之一,而数据挖掘由于采用了计算机技术,更关注对总体规律的分析。当然,数据挖掘也常常关注样本。

例如,数据库中有某厂历年生产的1000万台电视机和对应1000万个客户的全部信息。在这种情形下,用样本构造某种模型或某个估计值来推断1000万台电视机的使用情况就没有价值了,可以通过数据挖掘直接找出总体的规律。

但在一些预测性分析中,数据挖掘也常常使用样本。例如:对一个新产品的广告宣传活动进行响应率分析。对1000万人做该广告,实际应该有10万人响应。但通过一个样本分析发现:其中有三类人群对该广告的响应率较高。因此,就有针对性地对高响应率的100万人做了该广告,结果获得了8万人的响应。

3)普遍规律与特定规律

统计学研究问题的结果常常会得到一个统计模型,而这个模型是普遍适用的,而数据挖掘得到的是某个数据集的规律,常常不具有普遍意义。例如:“掷硬币出现正反面的概率都是50%。”但在某个赌场,一年中每天掷出硬币,其正面出现的次数为68%~93%,统计学中“正反面出现的概率是50%”的推断在这样一个总体中就没有价值了。

4)模型和实验

由于自身的数学背景,统计学追求精确,建立一个模型并证明之,而不是像数据挖掘那样注重实验。这并不意味着数据挖掘工作者不注重精确,而只是说明如果精确的方法不能产生结果的话就会被放弃。例如:证券公司的一个业务回归模型可能会把保证金作为一个独立的变量,因为一般认为大的保证金会导致大的业务,所以花费高成本开设了大户室。但事实上经过对一年来的交易情况进行数据挖掘却发现:交易频度和赢利情况才是最重要的。

说明:虽然有上述的差异,很多时候我们仍然可以这样说:“将很多数理统计算法或模型写成计算机程序并能够用于大规模数据分析就变成了数据挖掘技术。”

1.1.4.2数据挖掘与人工智能

人工智能的研究重心是机器学习推理机制。和统计学类似,人工智能也缺少对大规模数据的处理能力,很多算法要求在内存中完成计算,不考虑磁盘的数据交换,这些算法在处理大数据量时也会失去意义,而现在数据挖掘所使用的人工智能算法在实现上要进行优化处理才能在可接受的时间内执行算法或得到所需要的结果。

人工智能算法的理论性很强,追求理论的正确性。例如:人工智能的博弈算法理论上应该是机器在下棋时永远会赢,但由于算法涉及的巨量可能性数据,所以到目前为止还没有棋场上的长胜“机器将军”。另一个例子是20世纪80年代大量出现的所谓“专家系统”,可是到目前为止我们并没有普遍使用“专家系统”。事实上,当时更多的系统是叫“专家系统外壳”,即提供了一个知识推理机,当我们建立起领域知识后,推理机就可以根据领域知识进行判断推理了。问题是当领域知识大到内存放不下时,这些“专家系统外壳”常常就无法在人们可以接受的时间内完成推理工作了。正因为如此,在大规模数据处理能力方面,人工智能领域一直在寻求数据库技术的支持,也出现了结合两者技术的知识库系统。然而遗憾的是,由于人工智能算法(如递归求解)在处理大规模数据方面的非实用性,致使知识库研究也仅限于理论层面。

数据挖掘则强调算法的实用性。例如,同样的决策树算法。在人工智能中可能将构造一棵完全通用的决策树,强调完备性和准确性,但在数据挖掘系统中,可能只是构造不大于七层的决策树,而对于大于七层决策树的应用问题则会要求用户采用更大的计算机系统。就是说数据挖掘不关心理论问题的解决(即给定计算机,如何实现一个算法),而是关心实际问题的解决(给定问题,用什么计算机和什么算法解决)。(www.xing528.com)

说明:和数理统计情形类似,虽然有上述的差异,很多时候我们仍然可以这样说:“将很多人工智能算法写成计算机程序并能够用于大规模数据分析就变成了数据挖掘技术。”

1.1.4.3数据挖掘与数据库

数据库技术提供了大规模数据的存储、管理、访问和处理能力,是数据挖掘过程中所必需的技术支持。我们可以在没有DBMS(数据库管理系统)支持下进行数据挖掘,但在数据挖掘过程中肯定要用到数据库技术(如索引技术)。当然,更多的数据挖掘工作是针对数据库中的数据进行的。数据挖掘和数据库没有概念上的冲突。

值得注意的是,越来越多的DBMS厂商将数据挖掘算法集成到了其DBMS产品中。这说明了一个问题,统计领域、人工智能领域和数据库领域都称数据挖掘是其一部分,但最终数据库领域会取得胜利。这也正是工业界不叫“知识发现”而叫“数据挖掘”的根本所在。

1.1.4.4数据挖掘与数据仓库

有两个原因导致人们认为数据挖掘一定是在数据仓库中进行的:一是第一个数据挖掘成功的故事(“尿布与啤酒”)是在NCR数据仓库系统中做的;二是数据挖掘强调对历史数据的分析,而数据仓库正是存储历史数据的。

当然,有一个现成的数据仓库供我们进行数据挖掘是很好的。但事实上数据挖掘可以在任意数据源上进行,其数据源可以是数据仓库、数据库、TEXT文件、WEB数据、流数据等。相反,建立数据仓库的主要目的倒是进行数据挖掘(在此顺便说明,在没有弄清数据挖掘需求之前,就盲目进行数据仓库的建设是一种巨大的浪费)。

1.1.4.5数据挖掘与OLAP

联机分析处理(on-line analytical processing, OLAP)主要通过多维的方式来对数据进行分析、查询和产生报表。

数据挖掘与OLAP都属于分析型工具,但两者之间有着明显的区别。第一,OLAP对数据的分析层次较低,主要是依照数据维进行不同层次的汇总,可以认为是数据库中SUM、 TOTAL、 AVERAGE等的运算延伸。而数据挖掘则利用复杂的算法寻找数据规律。第二,OLAP强调的是联机(on-line),因此是完全地用空间换取时间(OLAP中的数据立方结构就是典型的用空间换取时间的方式)的工作方式。而数据挖掘是分析历史数据的规律,这时往往不是联机的,而其挖掘结果是可以应用于联机环境下预测和检测的。即挖掘是脱机的,挖掘结果应用才会是联机的,所以不存在空间换时间的问题。

1.1.4.6数据挖掘与决策支持系统

决策支持系统(DSS)是企业或机构信息系统的最高层次。数据挖掘技术是为决策支持系统服务的,或者说数据挖掘技术是决策支持系统的重要支撑技术之一。

1.1.4.7数据挖掘与商业智能

商业智能(business intelligence, BI)是一个很商业化的术语。一个完整的商业智能应用系统应该包括数据库/数据仓库、查询/报表、OLAP、数据挖掘、商业模型等几个方面的内容。因此,数据挖掘同样是商业智能的重要支撑技术之一。

顺便说明,我们认为商业智能是决策支持系统退而求其次的做法。因为,到目前为止,实际应用的决策支持系统很少。于是,用户降低要求和开发商推新概念给用户这两方面的动因而产生了商业智能。事实上,目前良好使用数据挖掘技术和建立良好商业模型的BI应用也还很少见,所以BI离决策支持系统是有距离的。

1.1.4.8数据挖掘和大数据

前已述及,大数据包括数据、技术和应用三个内涵,本书认为数据挖掘更侧重于大数据技术,是一种重要的大数据分析技术,用于发现大数据价值;大数据集是大数据挖掘的研究对象;大数据挖掘技术支撑了大数据应用,实现大数据价值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈