数据是进行预测的基础,在完成数据准备以后,需要选择应用到数据上的候选模型,分析数据中表现的规律,进一步提取特征建立模型进行预测。
对于不同的数据选择的方法也会有所不同,根据项目的目标可以进行数据分类、数据聚类和发现数据之间的关联关系。对于维度单一、数据量少的数据不会采用像深度学习这样的方法,否则就是用牛刀杀鸡了。
本阶段可以考虑以下活动:
①评估数据集的结构。数据集的结构是决定后续阶段使用的工具和分析技术的一个重要因素。例如,分析监狱信息管理系统后台数据库中的数据和分析文本数据、语音数据需要使用不同的工具和方法。常见的数据集结构是数据库中的结构化数据。
②确保数据分析技术能够使得团队达成业务目标,验证或否定工作假设。
③确定使用单个模型[15]还是一系列集成模型技术作为分析工作流的一部分。
在模型选择阶段,团队的主要目标是基于项目的最终目标来选择一种分析技术或者一系列集成模型。基于给定的数据和目标,可以评估是否有相识的、现成的可用方法,还是需要创建新的方法。通过学习别人在不同的垂直行业和领域解决类似问题的方法,团队经常可以获得许多灵感。数据挖掘通常试图通过一组规则和条件来构建模仿现实世界场景中的某种事件或行为的模型,这些规则和条件一般为数据分类、数据聚类或关联规则等类别,根据这些模型类别,团队可以过滤出匹配问题域的可行的模型进行预测给定的问题。(www.xing528.com)
团队在处理大数据时需要额外考虑采用何种合适的技术处理结构化数据、非结构化数据或混合数据。例如,可以使用MapReduce并行处理海量的数据。通常使用统计软件(R、SAS、MATLAB等)建立初始模型,尽管这些软件工具为数据挖掘和机器学习算法而设计,当时将这些模型应用到非常大的数据集时,这些工具可能会有局限性。
选择模型主要是指从某个模型类中挑选最好的模型,在模型选择阶段,常见的指标有AIC准则、BIC准则、CV值、结构风险上界等比较普适的准则。通常我们选择模型,主要关注的是模型的预测能力,也即模型的泛化能力,表示在新的、独立的测试数据上的预测能力。我们一般重点考虑两个条件:
①预测误差(基于约束条件和验证集)尽可能小;
②模型维数尽可能小。
选择模型也即选择对应的预测算法,目前可以用于预测的算法有很多种,根据各种模型在实现过程中的人工监督(干预)程序,将这些模型分为有监督模型和无监督模型,按照类别可分为:关联、回归、聚类、预测和诊断等六大类模型,常见的具体算法有线性回归、决策树、随机森林、支持向量机等。通常,根据算法的可理解性、算法的性能、算法对数据的要求来选择合适的算法。例如,线性回归、逻辑回归、决策树等这类算法。理解起来形象直观,容易解释,因此前期选择这类算法来说明可实现性以及实现的大致过程。而像支持向量机、神经网络等算法,一般当作黑箱使用,他们的内部逻辑不易理解、计算成本也高,但是这类算法精确度较高,所以一般在算法改进的后期会选择这类算法。在这个阶段,需要建立分析模型的通用方法论,对要使用的变量和技术有深刻的理解,以及有关分析流程的描述。一旦决定了要尝试的模型类型,而且已经具备了足够的知识来细化分析计划,团队就可以进入到建立模型阶段了。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。