(一)数据挖掘的基本概念
数据挖掘(Data Mining,简称DM)是指从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的过程。
1.数据挖掘的特征
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。
(1)先前未知的信息是指该信息是预先未曾预料到的。
(2)数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识。
(3)挖掘出的信息越是出乎意料,可能越有价值。
2.数据挖掘过程
数据挖掘的过程是一个反复迭代的人机交互和处理过程,主要包括以下三个阶段。
(1)数据预处理阶段
第一,数据准备。了解领域特点,确定用户需求。
第二,数据选取。从原始数据库中选取相关数据或样本。
第三,数据预处理。检查数据的完整性及一致性,消除噪声等。
第四,数据变换。通过投影或利用其他操作减少数据量。
(2)数据挖掘阶段
第一,确定挖掘目标。确定要发现的知识类型。
第二,选择算法。根据确定的目标选择合适的数据挖掘算法。
第三,数据挖掘。运用所选算法,提取相关知识并以一定的方式表示。
(3)知识评估与表示阶段
第一,模式评估。对在数据挖掘步骤中发现的模式(知识)进行评估。
第二,知识表示。使用可视化和知识表示相关技术,呈现所挖掘的知识。
(二)数据挖掘的主要分析方法
数据挖掘的分析方法主要包括以下几种。
1.分类
从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。
例如:
(1)风险等级。信用卡申请者的分类为低、中、高风险。
(2)故障诊断。中国宝钢集团与上海天律信息技术有限公司合作,采用数据挖掘技术对钢材生产的全流程进行质量监控和分析,构建故障地图,实时分析产品出现瑕疵的原因,有效提高了产品的优良率。
注意:类的个数是确定的,预先定义好的。
2.估计
估计与分类类似,不同之处在于分类描述的是离散型变量的输出,而估计处理连续值的输出;分类数据挖掘的类别是确定数目的,估计的量是不确定的。
例如:
(1)根据购买模式,估计一个家庭的孩子个数。
(2)根据购买模式,估计一个家庭的收入。
(3)估计不动产的价值。
一般来说,估值可以作为分类的前一步工作。给定一些输入数据,通过估值,得到未知的连续变量的值,然后根据预先设定的阈值进行分类。
例如:银行对家庭贷款业务,运用估值,给各个客户记分,然后根据阈值,将贷款级别分类。
3.预测
通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预言。从这种意义上说,预言其实没有必要分为一个单独的类。预言其目的是对未来未知变量的预测,这种预测是需要时间来验证的,即必须经过一定时间后,才知道预言准确性是多少。
4.相关性分组或关联规则
决定哪些事情将一起发生。两个或两个以上变量的取值之间存在某种规律性,称为关联。
数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阈值来度量关联规则的相关性,还可引入兴趣度、相关性等参数,使得挖掘的规则更符合需求。
例如:
(1)超市中客户在购买A的同时,经常会购买B,即A≥B(关联规则)。
(2)客户在购买A后,隔一段时间,会购买B(序列分析)。
5.聚类
聚类是对记录分组,把相似的记录分在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。(www.xing528.com)
例如:
(1)一些特定症状的聚集可能预示了某种特定的疾病。
(2)租VCD类型不相似的客户聚集,可能暗示成员属于不同的亚文化群。聚集通常作为数据挖掘的第一步。如“哪一种类的促销对客户响应最好?”,对于这一类问题,首先对整个客户做聚集,将客户分组在各自的聚集里,然后每个不同的聚集分别回答问题,可能效果更好。
6.时序模式
通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用已知的数据预测未来的值,但区别是这些数据的变量所处的时间不同。
7.偏差分析
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
8.描述和可视化
是对数据挖掘结果的表示方式。一般只是指数据可视化工具,包含报表工具和商业智能分析产品(BI)的统称。如通过一些工具进行数据的展现、分析、钻取,将数据挖掘的分析结果更形象、深刻地展现出来。
(三)数据挖掘的应用实例
1.数据挖掘技术在金融行业中的应用实例
目前,关联规则挖掘技术已经被广泛应用在金融行业的企业中,它可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。
现在各大银行都在开发新的沟通客户的方法。各大银行在自己的ATM机上捆绑了顾客可能感兴趣的本行产品信息,供使用本行ATM机的用户了解。如果数据库中显示,某个高信用限额的客户更换了地址,这个客户很有可能新近购买了一栋更大的住宅,因此会有可能需要更高信用限额、更高端的新信用卡,或者需要住房改善贷款,这些产品都可以通过信用卡账单的方式邮寄给客户。
当客户打电话咨询的时候,数据库可以有力地帮助电话销售代表。销售代表的电脑屏幕上可以显示出客户的特点,同时可以显示出顾客会对哪种类型的产品感兴趣。
同时,一些知名的电子商务站点也从强大的关联规则挖掘中获益。这些电子购物网站使用关联规则进行挖掘,然后设置用户有意要一起购买的捆绑包;也有一些购物网站使用它们设置相应的交叉销售,也就是购买某种商品的顾客会看到相关的另外一种商品的广告。
2.数据挖掘技术在电信业中的应用实例
近年来,电信业从单纯的语音服务演变为提供多种服务的综合信息服务商。随着网络技术和电信业务的发展,电信市场竞争日趋激烈,电信业务的发展提出了对数据挖掘技术的迫切需求,以便帮助理解商业行为,识别电信模式,捕捉盗用行为,更好地利用资源,提高服务质量并增强自身的竞争力。
(1)可以使用聚类算法,针对运营商积累的大量用户消费数据建立客户分群模型,通过客户分群模型对客户进行细分,找出有相同特征的目标客户群,然后有针对性地进行营销。聚类算法也可以实现离群点检测,即在对用户消费数据进行聚类的过程中,发现一些用户的异常消费行为,据此判断这些用户是否存在欺诈行为,决定是否应该采取防范措施。
(2)可以使用分类算法,针对用户的行为数据,对用户进行信用等级评定,对于信用等级高的客户可以给予某些优惠服务等,对于信用等级低的用户不能享受促销等优惠。
(3)可以使用预测相关的算法,对电信客户的网络使用和客户投诉数据进行建模,建立预测模型,预测大客户离网风险,采取激励和挽留措施防止客户流失。
(4)可以使用相关分析找出选择多个套餐的客户在套餐组合中的潜在规律,哪些套餐容易被客户同时选取。如选择了流量套餐的客户中大部分会选择彩铃业务,基于相关性的法则,可以对选择流量但是没有选择彩铃的客户进行交叉营销,向其推销彩铃业务。
(四)物联网的数据挖掘
数据挖掘是决策支持和过程控制的重要技术手段,是物联网的重要内容之一。
由于物联网具有明显的行业应用特征,需要对各行各业的不同数据格式的海量数据进行整合、管理、存储,并在整个物联网中提供数据挖掘服务,从而实现预测、决策,进而反向控制这些传感网络,达到控制物联网中客观事物运动和发展进程的目的。
在物联网中进行数据挖掘已经从传统意义上的数据统计分析、潜在模式发现与挖掘,转向成为物联网中不可缺少的工具和环节。
1.物联网的计算模式
物联网一般有两种基本计算模式,即物计算模式和云计算模式。
(1)物计算模式
基于嵌入式系统,强调实时控制,对终端设备的性能要求较高,系统的智能主要表现在终端设备上。这种智能建立在对智能信息结果的利用上,而不是建立在肺癌的终端计算基础上,对集中处理能力和系统带宽要求较低。
(2)云计算模式
以互联网为基础,目的是实现资源共享和资源整合,其计算资源是动态、可伸缩、虚拟化的。云计算模式通过分布式的构架采集物联网中的数据,系统的智能主要体现在数据挖掘和处理上,需要较强的集中计算能力和高带宽,但终端设备比较简单。
2.两种模式的选择
物联网数据挖掘的结果主要用于决策控制,挖掘出的模式、规则、特征指标用于预测、决策和控制。在不同的情况下,可以选用不同的计算模式。
例如,在物联网要求实时高效的数据挖掘,物联网任何一个控制端均需要对瞬息万变的环境实时分析、反应和处理,需要雾计算模式和利用数据挖掘结果。
另外,物联网的应用以海量数据挖掘为特征。物联网需要进行数据质量控制,多源、多模态、多媒体、多格式数据的存储与管理是控制数据质量、获得真实结果的重要保证。除此之外,物联网还需要分布式整体数据挖掘,因为物联网计算设备和数据天然分布,不得不采用分布式并行数据挖掘。在这些情况下,基于云计算的方式比较合适,能保证分布式并行数据挖掘和高效实时挖掘,保证挖掘技术的共享,降低数据挖掘应用门槛,普惠各个行业,并且企业租用云服务就可以进行数据挖掘,不用独立开发软件,不需要单独部署云计算平台。
3.数据挖掘算法的选择
一般而言,数据挖掘算法可以分为分布式数据挖掘算法和并行数据挖掘算法等。
(1)分布式数据挖掘算法适合数据垂直划分的算法,重视数据挖掘多任务调度算法。
(2)并行数据挖掘算法适合数据水平划分、基于任务内并行的挖掘算法。
云计算技术如同物联网应用的基石,能够保证分布式并行数据挖掘,高效实时挖掘。云服务模式是数据挖掘的普适模式,可以保证挖掘技术的共享,降低数据挖掘的应用门槛,满足海量挖掘的要求。
4.物联网数据挖掘的应用类型
物联网数据挖掘分析应用通常可以归纳为预测和寻证分析两大类。
(1)预测
主要用在(完全或部分)了解现状的情况下,推测系统在近期或者中远期的状态。
(2)寻证分析
当系统出现问题或者达不到预期效果时,分析它在运行过程中哪个环节出现了问题。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。