首页 理论教育 保险中介前沿问题研究:数据挖掘文献综述

保险中介前沿问题研究:数据挖掘文献综述

时间:2026-01-25 理论教育 景枫 版权反馈
【摘要】:第一届KDD国际学术会议在加拿大蒙特利尔召开,此后,参加会议的人数和论文收录比例逐年增加,研究重点也逐渐从KDD方法研究转向KDD系统应用,注重多学科之间的相互渗透,并注重多种数据挖掘策略和技术的集成。在此情况下,数据挖掘技术应运而生,数据挖掘是人们长期对数据库技术进行研究和开发的结果。概括而言,数据挖掘就是从海量数据中“挖掘”知识。

计算机系统虽然可以实现数据的录入、存储、查询和统计等功能,但是数据库本身无法发现大量的数据背后隐藏着许多重要的信息和知识,人们也无法根据已知的数据去有效地预测未来,随着数据库系统的广泛应用和数据管理技术的发展,各种数据库中积累的数据越来越多,如果继续维持这样的状态,这些数据库就将成为“数据坟墓”(Han and Kamber,2001)。

人工智能这一计算机技术的新领域就是由这样巨大的需求催生的,人工智能出现后得以飞速发展,1989年在美国底特律召开的人工智能联合会议上首次提出了数据库中的知识发现(Knowledge Discovery in Databases,KDD)这个术语,数据库中的知识发现(KDD)正式面世。KDD是一门交叉学科,涉及统计学、机器学习技术、智能数据库技术、模式识别技术、知识获取技术、高性能计算技术、数据可视化技术和专家系统等多个技术领域。随着KDD在学术界和企业界的影响越来越大,在1991年、1993年和1994年都召开了KDD的专题讨论会,1995年KDD专题讨论会更名为KDD国际会议。第一届KDD国际学术会议在加拿大蒙特利尔召开,此后,参加会议的人数和论文收录比例逐年增加,研究重点也逐渐从KDD方法研究转向KDD系统应用,注重多学科之间的相互渗透,并注重多种数据挖掘策略和技术的集成。除KDD国际学术会议之外,学术界还涌现出许多KDD年会,如APKDD、PKDD等。人工智能、数据库、知识工程和信息处理等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。

在此情况下,数据挖掘技术应运而生,数据挖掘是人们长期对数据库技术进行研究和开发的结果(汉德,2003)。概括而言,数据挖掘就是从海量数据中“挖掘”知识。当然,这些知识是事先不为人知的、是隐含的,并且是潜在有用的(Fayyad, Piatetsky-Shaperio, Smyth and Uthurusamy, 1996)。数据挖掘技术的深入研究和广泛应用,催生了大量经典的数据挖掘算法,Chen等人(2000)认为数据挖掘算法通常分为两大类:第一大类数据挖掘算法是机器学习技术,机器学习与数据挖掘关系最密切,机器学习是人工智能的一个分支,也称为归纳推理,通过训练数据集的学习,发现模型的参数,并找出隐含的规则;第二大类数据挖掘算法是统计模型,统计模型应用于数据挖掘的主要作用是进行评估,常用的统计技术有相关分析、回归、概率分布、判别分析和聚类分析等。

从功能角度看,常用的数据挖掘算法包括了聚类、分类、关联分析和序列分析等。聚类算法最早是由Kaufman(1990)等提出的,他探讨了聚类分析的单连接方法;Alfred(2002)进一步给出了单连接方法的通用公式;Aronis(1997)提出了著名的、目前仍广泛使用的K-means算法;Chen(1993)论证了区分自然划分与分切的差异;Karypis(1998)讨论了基于图的聚类算法,同时还提出了使用分枝定界思想来扩大穷举方法评估聚类使用范围;Zhang等人(1997)描述了适用于海量数据集的聚类算法;Eisen等人(1998)阐述了层次聚类算法在基因数据上的应用;Wedel和Kamakura(1998)分析了混合模型在消费者建模研究和市场建模研究方面的应用;Aronis(1997)开发了极大似然分类方法;Zamir和Etzioni(1998)介绍了专门用于聚类网络文档的聚类算法;Cadez等人(2000)描述了马尔可夫混合模型在聚类网络文档方面的应用。

在分类中,普遍应用决策树算法,决策树起源于概念学习系统,具有分类精度较高、分类结果易于理解、能够导出分类规则且分类效率较高等优点。决策树建模包括了建树和剪枝两个阶段,决策树算法有多种,较有代表性的有Quinlan(1987)的ID3算法、Breiman等人(1984)的CART算法、Loh和Shih(1997)的QUEST算法、Magidson(1994)的CHAID算法;剪枝算法有Breiman等人(1984)的复杂代价剪枝、Quinlan(1990)的悲观估计剪枝和减少错误的剪枝。决策树的规则提取研究包括Quinlan(1993)提出的直接由训练数据推导规则的方法、Clark(1989)提出的CN2规则推导算法、Smyth等人(1999)提出ITRULE算法、Major和Mangano(1995)提出的规则精炼策略。此外,主要的分类算法除了决策树,还包括支持向量机(Vapnik,1995)和朴素贝叶斯网络(friedman, Geiger and Goldszmidt,1997)。(https://www.xing528.com)

在数据挖掘任务中,神经网络算法兼具聚类、分类和预测等多种功能,Zurada(1992)等验证了神经网络解决大规模或超大规模数据问题的功效,Hugan(1996)提出高效的神经网络训练方法,论述了基于人工神经网络的学习规则,Haykin(1999)等解释了神经网络的有指导学习和无指导学习机制,提出了人工神经网络的综合模型;Vesanto(1997)对规则提取、回归分析和自组织映射神经网络(SOM)模型相结合进行了研究。

数据挖掘的关联规则技术也取得了很大的进展,Han等人(2000)提出了基于频繁模式树的频繁模式挖掘算法,Silberschatz等人(1996)探讨了关联规则的后期处理问题,Imielinsk等人(1999)讨论了把关联规则集成到数据库系统中的问题,Mannila等人(1997)介绍了在序列中发现片段的算法,Aronis等探讨了海量数据集的高效归纳算法以及实践的一些技巧,Adamo(2001)等提出了提高算法效率的特征空间网格结构上的算法集,Brijs等人(2000)讨论了关联规则在零售业交叉销售中的应用问题。

许多学者还将复杂性科学引入到数据挖掘方法的研究中,复杂类型的数据挖掘已成为一个重要的研究领域,大大提升了数据挖掘的广度和深度,拓展了数据挖掘的应用范围,主要包括空间数据挖掘(Ester, Frommelt, Kriegel and Sander,2000)、多媒体数据挖掘(Schweitzer,1997)、时序和序列模式数据挖掘(Zaki,2001)、文本挖掘(Pazzani,1999)和web挖掘(Bonchi, Giannotti and Gozzi,2001)等。

随着数据挖掘技术的深入应用和不断成熟,商业机构和研究人员开始把数据挖掘流程方法和数据挖掘模型固化为通用的数据挖掘工具,数据挖掘工具的特点是包括了数据的转换和结果的可视化等功能,并提供多种成熟的数据挖掘算法,数据挖掘工具并非面向特定行业的应用,因此被称为横向的数据挖掘工具,英国Ulster大学先后研制了MIMIC和CERENA,加拿大Simon Fraser大学的智能数据库系统研究室开发了数据挖掘系统DBMiner,澳大利亚国立大学开发了数据挖掘系统原型DMTools,新加坡国立大学计算机学院开发了CBA和IAS两个数据挖掘系统原型。基于数据挖掘技术的商用价值,许多企业投入了大量人力物力进行数据挖掘系统的开发工作,较有影响的商业数据挖掘系统有SPSS公司的MODELER(原Clementine)和SAS公司的Enterprise Miner等,其他公司虽也有类似产品,但从数据处理能力、易用性和可靠性上,与其相差甚远,如IBM公司原来自行开发Intelligent Miner,但目前IBM高价并购了SPSS公司,以MODELER作为其主要战略的支撑(IBM内部会议传达的精神称,IBM确定的下一阶段战略方向有两个,分别为云计算和预测性分析——即所谓“智慧地球”概念,其中,预测性分析就是以数据挖掘技术为载体,而其原有数据挖掘工具Intelligent Miner已无法满足其战略需要,故并购SPSS公司,将其强大的Clementine重新命名为MODELER,以助力IBM实现其战略)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈