模型的部署是一般数据挖掘过程的最后一步,是集中体现数据挖掘成果的一步,也即将通过评估、优化的模型部署到实际的业务系统中,来挖掘业务数据中的模式和规律为业务决策服务。
一般而言,完成模型的构建并不意味着项目的结束。通常,模型的部署有两种方法:第一,提供给业务分析人员做参考,有数据分析人员通过查看和分析这个模型的预测结果后提供决策建议;第二,把模型部署到实际的业务系统中。在模型部署后,要不断地监控模型的预测效果,并不断地改进之。
【注释】
[1]百度百科:“数据挖掘”,载https://baike.baidu.com/item/%E6%95%80%E6%8D%AE%E6%8C%96%E6%8E%98/216477?fr=aladdin,最后访问日期:2018年1月24日。
[2]参见王振武:《大数据挖掘与应用》,清华大学出版社2017年版。
[3]知识发现过程定义为数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示。
[4]参见[美]韩家炜等:《数据挖掘概念与技术》,范明等译,机械工业出版社2015年版。
[5]参见熊赟、朱扬勇、陈志渊:《大数据挖掘》,上海科学技术出版社2016年版。
[6]参见[美]韩家炜等:《数据挖掘概念与技术》,范明等译,机械工业出版社2015年版。
[7]数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。为了解决灵活性与性能之间的矛盾,数据集市就是数据仓库体系结构中增加的一种小型的部门或工作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。数据集市的特征包括规模小,有特定的应用,面向部门,由业务部门定义、设计和开发,业务部门管理和维护,能快速实现,提供更详细的、预先存在的、数据仓库的摘要子集,可升级到完整的数据仓库。
[8]参见朱碧钦、吴飞、罗富财:“基于大数据的全业务统一数据中心数据分析域建设研究”,载《电力信息与通信技术》2017年第2期。
[9]Cios K.J.,Kurgan L.A.,“Trends in Data Mining and Knowledge Discovery”,Advanced Information and Knowledge Processing,2005.
[10]参见[美]Daniel T.Larose,Chantal D.Larose:《数据挖掘与预测分析》,王念滨、宋敏、裴大茗译,清华大学出版社2017年版。
[11]高武奇、康凤举、钟联炯:“数据挖掘的流程改进和模型应用”,载《微电子学与计算机》2011年第7期。
[12]参见游皓麟:《R语言预测实战》,电子工业出版社2016年版。(www.xing528.com)
[13][美]EMC Education Services:《数据科学与大数据分析》,曹逾、刘文苗、李枫林译,人民邮电出版社2016年版。
[14]我们高兴地看到我国个别监狱,例如江西省赣州监狱已经将数据分析从信息科独立出来,成立独立的数据分析科,每月定期对单位的各种业务进行数据分析,并将结果呈报给监狱领导,同时也作为绩效考核的一部分,我们期待有更多监狱开设数据分析部门进行数据分析,也期待能尽早能对服刑人员的教育改造和安全监管进行数据分析、智能化预测等,为监狱进行个性化教育改造和安全监管提供决策支持。
[15]本书中的模型是一种泛指,是对现实的一种抽象,是指一个公式或者一套规则,它是随着具体问题的不同而发生变化。
[16]参见周英、卓金武、卞月青:《大数据挖掘系统方法与实例分析》,机械工业出版社2016年版。
[17]参见[新西兰]威滕、弗兰克:《数据挖掘:实用机器学习工具与技术(原书第三版)》,机械工业出版社2014年版。
[18]参见蒋盛益:《商务数据挖掘与应用案例分析》,电子工业出版社2014年版。
[19]回归模型是一种研究因变量(目标或结果)和自变量之间定量关系的预测性建模技术,最终的结果是一个连续性变量;分类模型是一种研究因变量(目标或结果)和自变量之间定性关系的预测性建模技术,通常称为分类,是一个离散变量。
[20]鲁棒是Robust的音译,也就是健壮和强壮的意思。鲁棒性(robustness)就是模型的稳定性或健壮性,它是指该性能指标在模型自身扰动下保持不变的能力,简单说就是结果对参数不敏感。
[21]R称为相关系数(coefficient of correlation),它是用来衡量两个变量之间的相关程度(线性和非线性)的指标,当为线性相关时指的是皮尔森相关系数ρx,y,R的取值范围位于[-1,1]之间。
[22]所谓不平衡数据是指:感兴趣的主类是稀少的,即数据集的分布反映反例显著地占多数,而正例占少数。例如在监狱服刑人员中,自杀的占少数。
[23]马国富、王子贤、马胜利:“机器学习模型在预测服刑人员再犯罪危险性中的效用分析”,载《河北大学学报(自然科学版)》2017年第4期。
[24]参见周志华:《机器学习》,清华大学出版社2016年版。
[25]Davis J.,Goadrich M.,“The Relationship Between Precision-Recall and ROC Curves”,Proceedings of the International Conference on Machine Learning,New York:ACM Press,2006.
[26]马国富、王子贤、马胜利:“基于大数据的服刑人员危险性预测”,载《河北大学学报(自然科学版)》2016年第6期。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。