9.1.2.1 数据挖掘分类
数据挖掘是数据库知识发现中的一个步骤,一般是指从数据库的大量数据中揭示出隐含的、先前未知的,有潜在价值的信息过程。
数据挖掘分析方法包括分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化、复杂数据类型挖掘(文本、网页、图形、图像、音频、视频、关系数据库等)。
(1)分类:从数据中选出已经分好类的数据集,再在数据集的基础上运用数据挖掘技术进行分类,构建相关的分类模型,对没有分类的数据进行分类。
(2)估计:分类描述的是离散型变量的输出,而估值处理连续值的输出;分类的类别数目是确定的,估值的量是不确定的。[5]
(3)预测:通过分类或估值得出模型,该模型用于对未知变量的预言。
(4)聚类:是对记录分组,把相似的记录聚在一个聚集里。聚类和分类的区别是聚集不依赖于预先定义好的类,不需要训练集。
9.1.2.2 数据挖掘任务
数据挖掘的目标主要是聚类分析、关联分析、预测、分类、时序模式、偏差分析等。
(1)关联分析:关联是指两个或两个以上变量的取值之间存在某种规律性。关联分为简单关联、时序关联和因果关联。
(2)聚类分析:聚类是根据数据的相似性归纳成不同的类别,相同类中的数据之间彼此相似,不同类中的数据具有不相似性。通过聚类建立宏观的相似性数据集合,发现数据的分布模式以及数据属性之间的关系。
(3)分类:分类是根据数据找出相同类别的概念描述,并用这种描述来构造数据模型,用规则或决策树模式表示,并利用一定算法训练数据集来求得分类规则。分类可被用于规则描述和预测。
(4)预测:预测是在历史数据中找出它们的变化规律,建立数据模型,并由此模型对未来数据的种类及特征进行预测。
(5)时序模式:时序模式是按照数据的时间顺序进行搜索,对数据的重复发生概率高低进行排序的模式,也是对未来数据的种类及特征进行预测,但这些数据的区别是变量所处时间不同。
(6)偏差分析:偏差分析是根据数据的偏差对数据库中的数据存在很多异常情况进行分析和分类,该方法对发现数据库中数据存在的异常情况非常有效。
9.1.2.3 数据挖掘方法
(1)神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性,所以非常适合解决数据挖掘的问题,如用于分类、预测和模式识别的前馈式神经网络模型;以Hopfield的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以ART模型、Koholon模型为代表的,用于聚类的自组织映射方法。[6](www.xing528.com)
(2)遗传算法:是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化的算法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。[7]
(3)决策树算法:对大量数据进行有目的的分类,从中找到一些有价值、有规律的潜在的信息。该算法具有描述简单、分类速度快的优点,比较适合于大规模数据的处理。最早及最有影响力的决策树算法是基于信息熵的id3算法,它由罗斯·昆兰(Ross Quinlan)提出。id3算法的主要特征:id3是一种非递增学习算法;id3决策树是单变量决策树,对复杂概念的表达有一定困难;同性间的数据相互关系强调不够;抗噪音能力差。
(4)覆盖正例排斥反例方法:在正例数据集合中随机选择一个种子,到反例数据集合中一个一个地进行比较,如果该值和数据集合中的取值相同则舍去,相反则保留。
(5)统计分析方法:在数据集合之间存在函数关系和相关关系这两种关系,利用统计学原理对数据集合的信息进行分类和分析,其中具体的分析方法有差异分析、相关分析、常用统计等。
(6)模糊集方法:利用模糊集合理论对数据集合进行模糊决策、模糊评判、模糊聚类分析和模糊模式识别。
9.1.2.4 Web数据挖掘
Web数据挖掘是建立在数据挖掘理论基础之上的,是对Web页面内容、站点拓扑结构、用户访问信息等在内的各种数据,应用数据挖掘方法来发现有用知识的过程,即Web挖掘就是从网站上挖掘有趣的、潜在的有用模式及隐藏的信息的过程。它可以帮助人们从网站中发现知识,改进站点设计,提供个性化服务。[8]
Web挖掘同传统的数据挖掘的区别主要有:
(1)Web挖掘的对象是海量、分布、动态、异质的Web文档,其信息存储是非结构化的,不是存储在结构化的数据库中。
(2)Web在逻辑上是一个由文档节点和超链接构成的图,所以Web挖掘所得到的模式既可以是关于Web的内容,也可以是关于Web的结构。
(3)Web数据具有非结构化或者半结构化的特征,为此,这些Web数据和信息难以清楚地用数据模型来表示,同时也缺乏计算机可理解的语义。有很多数据挖掘技术不能直接应用于Web挖掘,要强制使用也需要建立在对Web数据和信息进行预处理的基础上。所以,Web挖掘需要用到更多的有别于传统数据挖掘技术。
Web挖掘按照挖掘方式一般可分为三大类,即Web使用挖掘、Web内容挖掘和Web结构挖掘。
(1)Web使用挖掘。通过挖掘Web访问日志记录,发现和分析用户访问Web页面的行为。通过挖掘和分析Web日志记录中用户访问的相关规律,有针对性地加强对最终用户的Web信息服务质量,同时也进一步改进和优化Web服务器系统的性能。Web服务器日志系统保存了用户对Web页面的每一次访问的日志信息,其中包括所请求的URL信息、发出请求的IP地址、访问模式以及访问时间等。在数字资源服务器上,保存了大量的用户访问数据资源的Web访问日志记录。热门的数字资源站点每天可以记录几百兆字节的Web访问日志,在Web访问日志文件中包含了丰富的有关Web动态的信息。
(2)Web内容挖掘。通过挖掘大量的Web文档及内容,同时对Web文档中的数据和信息进行分类、关联分析、聚类、总结以及利用Web信息进行趋势预测等,是对Web文档信息及其信息描述中抽取、分类的过程。Web文档的数据和信息按类型分,可分为文本数据、音频数据、视频数据、图片图像数据等多媒体数据;按结构分,可分为无结构的自由文本、半结构化的HTML标记及XML数据、结构化的数据库数据。根据处理的内容,Web内容挖掘可以分为基于文本的挖掘和基于多媒体的挖掘两种。Web文本挖掘以计算机语言学、统计学理论为基础,利用信息检索和机器学习技术,从海量的Web文本数据中提取和发现隐含的、事先未知的知识,最终形成对用户有价值的、可理解的信息和知识过程。多媒体文本挖掘是指利用文本挖掘技术和多媒体信息处理技术,从海量的多媒体数据中找出有价值的知识的过程。现有对多媒体文本数据的特征表示、特征抽取以及多媒体文本挖掘方法进行研究。
(3)Web结构挖掘。通过挖掘Web文本之间潜在的关系模式(链接结构模式)。其组织结构和链接关系,推导出相关信息与知识。Web结构挖掘可以分为超链接挖掘、内容结构挖掘和URL挖掘。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。