关联词:大数据、信用评分、替代数据、数据代理商、个人信息保护、欺诈检测、受益所有人
数据挖掘是指从大型数据集里自动搜索隐藏于其中的有着特殊关联的信息的过程
数据挖掘是跨计算机科学和统计学的一个子领域,其价值是使用智能方法从数据集中提取信息,并将信息转换为可理解的结构,以供进一步使用。数据挖掘是数据库知识发现(Knowledge Discovery in Database,KDD)的子过程。除了数据挖掘,数据库知识发现还涉及数据库管理、数据预处理、频繁模式挖掘、聚类分析、分类、文本分析和可视化等方面。
数据挖掘对大量数据进行半自动或自动分析,以提取以前未知的有趣模式,包括数据记录组(集群分析)、异常信息记录(异常检测)和依存关系(关联规则挖掘、顺序模式挖掘)。数据挖掘通常需要使用数据库(DataBase,DB)和数据仓库(Data Warehouse,DW)技术。
数据挖掘与数据分析有所不同。数据分析用于测试数据集上的模型和假设,与数据量无关。数据挖掘则借助机器学习和统计模型来发现大量数据中的隐含模式。(www.xing528.com)
由于金融领域的数据密度高、质量好,数据挖掘在该领域的应用最为广泛,例如,信贷风险评估(信用评分),市场营销中的顾客分类、分群和推荐,反洗钱和欺诈检测等。
信用评分是数据挖掘在金融领域最成功的应用,可以说信用评分是数据挖掘的“前辈”,因为其出现和应用的时间远早于数据挖掘(数据挖掘的历史还不到30年),信用评分是消费者行为数据方面最早的应用之一。说起信用评分模型,大家就会提起逻辑回归模型,但是实际上信用评分模型的构建过程并不是简单应用逻辑回归之类的预测算法,目前数据挖掘中最常用的技术,包括聚类、分类特征选择、相关性分析以及预测分析等,在信用评分中都得到了成功的应用。图2.4展示了信用评分的基本流程。5
图2.4 数据挖掘应用示例(以信用评分为例)
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。