数据挖掘(Data Mining)为数据科学的重要研究内容。Jiawei Han等人认为数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。[65]David Hand认为数据挖掘是运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫作数据挖掘。[66]王光宏等人认为数据挖掘是通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术。[67]
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中知识的过程,它利用统计、在线分析处理、信息检索、机器学习、专家系统和模式识别等诸多方法来实现知识发现的目标。数据挖掘的知识范畴涉及统计学的抽样、估计和假设检验,人工智能、模式识别和机器学习的搜索算法、建模技术、可视化和学习理论。数据挖掘也需要其他计算机技术的支撑,如数据库技术为数据挖掘提供了有效的存储、索引和查询处理支持,高性能(并行)计算技术和分布式技术提升了处理海量数据集的能力,众包技术[68]为数据挖掘的知识发现提供了标签等。数据挖掘具有一些明显的特征,如基于大量数据、非平凡性、隐含性、新奇性、价值性等,数据挖掘可从大数据集中提取出隐含于其中的有价值的新知识。
通过多年的研究,我国数据挖掘研究得到长足进展。在我国著名的科技资料网站万方数据中,输入关键词“数据挖掘”,可以搜索到58889篇相关期刊论文、学位论文和会议论文(截至2017年9月30日),其中近年来,每年发表的中文论文都在3000篇以上,被引用次数在100次以上的论文有338篇,经济、文化、医学、天文地理、交通运输等领域的论文分别是6111篇、4141篇、3572篇、1080篇和894篇,这些充分说明数据挖掘是一个非常热门而且应用广泛的研究领域。数据挖掘技术包括统计方法、决策树、神经网络、集成学习、聚类分析、关联规则、Web挖掘、文本挖掘、遗传算法和模糊集等,这些技术广泛应用于生产生活的各个方面,如政府、银行、电信、保险、交通、零售、油田、海洋生物、历史文本、电子通信、法律税务等各个专业领域。[69]
郑明翠等人采取定性分析、理论分析和实验研究相结合的方式,从三方面对自组织数据挖掘方法与回归分析方法进行比较,包括两者的算法过程,对不同对象的拟合和预测效果以及两者的联系,结果不仅揭示了两者的区别和联系,而且表明自组织数据挖掘方法是复杂系统模拟预测的有效工具。[70]唐华松等人认为决策树算法是数据挖掘的一个活跃的研究领域,文中首先给出了数据挖掘中决策树算法的基本思想,然后讨论了决策树算法中的难点问题,提出了利用熵与加权和的思想来选择取值的算法。[71]
姜安龙等人将神经网络与数据挖掘的知识相结合,提出粗糙集-BP神经网络组合方法,并将其应用于围岩稳定性判别,首先基于山东兖州矿区煤巷信息数据库,建立回采巷道围岩稳定性知识表达系统,对数据进行离散化处理;其次针对传统BP神经网络收敛速度慢、容错性差、结果不唯一的缺点,采用MATLAB软件开发的粗糙集数据分析程序,对生成的决策表进行挖掘分析,通过挖掘的决策知识引导训练样本的选取和神经网络的建立;最后在煤巷围岩稳定性判别中予以应用。研究结果表明BP神经网络克服了传统BP神经网络的缺点,具有容错性好、训练速度快、全局逼近性好、精度高等优点,此方法能较好地用于解决巷道围岩稳定性判别问题。[72]
慕春棣等人认为贝叶斯网络是用来表示变量集合的连续概率分布的图形模式,它提供了一种自然的表示因果信息的方法,用来发现数据间的潜在关系,贝叶斯网络的学习也就是要找出一个能够最真实反映现有数据库中各数据变量相互之间的依赖关系的贝叶斯网络模型,即根据数据样本D和先验知识ζ,找出后验概率p(sh|D,ζ)最大的贝叶斯网络S,文中在数学上对贝叶斯网络的学习方法进行了严格的推导,用一个实例来说明贝叶斯网络的计算过程,并介绍了贝叶斯网络在数据挖掘领域内的应用。[73]
苟富等人认为AdaBoost是数据挖掘领域最常见的提升算法之一,文中对传统AdaBoost将各个基分类器线性相加所存在的不足进行分析,并针对AdaBoost各个弱分类器的加权方式提出新的改进,将传统的线性相加改为非线性组合,把从学习过程得到的固定不变的权重系数改为由预测阶段的具体实例决定的动态参数,该参数基于待测实例K近邻的分类结果统计,从而使各个基分类器的权重更贴近当前待测实例的实际可靠度。实验结果表明,与传统AdaBoost相比,提出的非线性改进算法对不同数据集均有不同程度提升,提升最高的达到了7个百分点,由此证明,提出的改进算法是一种更加准确的分类算法,对绝大多数数据集均能得到更高的分类准确率。[74]
孙吉贵等人对近年来聚类算法的研究现状与新进展进行归纳总结,一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括,另一方面选择一些典型的聚类算法和一些知名的数据集,主要从正确率和运行效率两个方面进行模拟实验,并分别就同一种聚类算法、不同的数据集以及同一个数据集、不同的聚类算法的聚类情况进行对比分析。通过综合上述两方面信息给出聚类分析的研究热点、难点、不足和有待解决的一些问题,上述工作将为聚类分析和数据挖掘等研究提供有益的参考。[75]贺玲等人对数据挖掘中的聚类分析方法进行了总结,认为聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术,总结了数据挖掘中聚类算法的研究现状,分析比较了它们的性能差异和各自存在的优点及问题,并结合多媒体领域的应用需求指出了其今后的发展趋势。[76]刘红岩等人认为模式分类算法是数据挖掘中的最重要的技术之一,通过对当前提出的最新的具有代表性的分类算法进行分析和比较,总结每类算法的各方面特性,从而便于研究者对已有的算法进行改进,提出具有更好性能的新的分类算法,同时方便使用者在应用时进行算法的选择和使用。[77](www.xing528.com)
宋余庆等人认为挖掘最大频繁项目集是多种数据挖掘应用中的关键问题,之前的很多研究都是采用Apriori类的候选项目集生成—检验方法,候选项目集产生的代价很高,尤其是在存在大量强模式和/或长模式的时候,文章提出了一种快速的基于频繁模式树(FP-tree)的最大频繁项目集挖掘DMFIA及其更新算法UMFIA,算法UMFIA将充分利用以前的挖掘结果来减少在更新的数据库中发现新的最大频繁项目集的费用。[78]蔡伟杰等人介绍了关联规则挖掘的研究情况,提出了关联规则的分类方法,对一些典型算法进行了分析和评价,指出传统关联规则衡量标准的不足,归纳出关联规则的价值衡量方法,展望了关联规则挖掘的未来研究方向。[79]
韩家炜等人认为因特网是一个巨大、分布广泛、全球性的信息服务中心,它涉及新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务,Web包含了丰富和动态的超链接信息,以及Web页面的访问和使用信息,这为数据挖掘提供了丰富的资源,Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息,对Web挖掘最新技术及发展方向做了全面分析,包括Web结构挖掘、多层次Web数据仓库方法以及Web Log挖掘等。[80]
文本挖掘是数据挖掘的研究热点,苏金树等人认为文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展,他们提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论,认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法,最后对研究的方向进行了展望。[81]陆玉昌等人认为文本分类是文本挖掘的基础与核心,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位,文章深入分析了一种简单而常用的经典文本分类模型—向量空间模型(Vector Space Model, VSM),找出了其分类精度低的原因,提出了一种利用特征筛选中的评估函数代替IDF函数进行权值调整的方法,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较,提出了一种构造新的高性能评估函数的新颖方法。[82]
刘长良等人主要分析了数据挖掘的有关概念及其数据挖掘的过程,详细阐述了遗传算法的基本思想、步骤及其在数据挖掘中的应用,以遗传算法在旅行商问题中的应用为例,全面分析了遗传算法在数据挖掘中的应用过程及其实现的计算效果,同时对简单的遗传算法在数据挖掘应用中存在的问题进行了讨论。[83]王珏等人讨论了基于Rough Set(RS)理论数据浓缩的几个问题,首先介绍了一个基于差别矩阵的属性约简策略,并给出了数据浓缩的测量;然后分析了对UCI机器学习数据库40余个例子的数据浓缩的结果,强调了在数据浓缩中例外的重要性,并讨论了不一致数据浓缩。[84]李德仁等人对空间数据进行了关注,首先分析了空间数据挖掘和知识发现(SDMKD)的内涵和外延,然后分别研究了用于SDMKD的概率论、证据理论、空间统计学、规则归纳、聚类分析、空间分析、模糊集、云理论、粗集、神经网络、遗传算法、可视化、决策树、空间在线数据挖掘等理论和方法及其进展,最后展望了SDMKD的发展前景。[85]
数据挖掘的这些常用算法在音乐数据分析中得到一定的应用,如模式识别技术是光学乐谱识别的主要算法应用之一,一些应用也将在后面的章节逐次展开。
数据挖掘是从数据中提取知识等有用信息的过程,并以图形方式进行知识信息的展示和传播,图3-1是数据挖掘的基本过程。在数据获取阶段,用户根据一定的目的界定数据范围,然后采用合适方式获取数据,有时数据体现出来源复杂、数据结构多样的多源异构特征,经过可控时间后把获取的数据以数据集或数据库或数据仓库等方式存储;再经过抽取、转换和加载等ETL处理过程,按规则对数据进行清洗,为挖掘阶段做好准备;在挖掘阶段,首先需要选择合适的挖掘方法,其次根据实际数据情况进行建模,再利用合适的计算机技术(如针对大规模数据集的Map Reduce并行运算等)实现模型,得到数据分析结果;最后对数据结果进行分析,提取出有用的信息,利用图形化语言,如R语言、Python语言、Matlab语言等,把蕴含有用信息的数据以可视化方式进行呈现。
图3-1 数据挖掘的基本过程
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。