机器学习 (Machine Learning)是人工智能(Artificial Intelligence)领域最前沿的研究方向之一。而基于数据的统计学习是当前机器学习技术的一个重要分支。基于数据的统计学习不同于传统的以渐进理论为基础的统计学,它模拟人类从实例中学习归纳的能力,主要研究如何从一些观测数据中挖掘目前尚不能通过原理分析得到的规律,并利用这些规律去分析客观对象,对未知数据或无法观测的新数据进行预测与判断。前文介绍的神经网络也是机器学习领域的重要成果。
一般基于数据的机器学习问题的目标在于使期望风险R(α)(α∈Λ,Λ 为模型参数集合)达到最小化。但是,基于数据的机器学习问题所面临的问题是,已知的信息只是部分的数据集,不可能全面反映系统的整体信息。在进行学习的过程中,通常只能依据已知的部分数据,实现经验风险Remp (α)最小化 (Empirical Risk Minimization,ERM),即学习得到的模型能够最好地描述已知的部分数据。
仔细研究经验风险最小化原则可以发现,该思路只是直观上比较合理,但并无可靠的理论依据。Remp (α)和R(α)都依赖于训练集数据的多少,仅当训练数据趋近于全集时,经验风险Remp (α)才会趋近于期望风险R(α),而实际中已知数据集是有限的,因此根据经验风险最小化原则得到的学习风险难以达到理想的程度。
针对小样本学习问题,Vapnik等提出了统计学习理论 (Statistical Learning Theory,SLT),统计学习理论从理论上系统地研究了经验风险最小化原则成立的条件,有限数据集下经验风险与实际风险的关系,及如何利用这些理论找到新的学习法则和方法等问题。其主要内容如下:
(1)经验风险最小化原则下统计学习一致性的问题。(www.xing528.com)
(2)在这些条件下关于统计学习方法推广性的界的结论。
(3)在这些界的基础上建立的小数据样本归纳推理原则。
(4)实现这些新原则的实际算法。
由于统计学习理论是一种专门研究在有限数据集情况下基于数据的机器学习规律的理论,因此它为研究在有限数据集情况下的统计模式识别和更广泛的机器学习问题构建了一个较好的理论基础。同时,也发展出了一种新的基于数据的机器学习算法——支持向量机(Support Vector Machine,SVM)。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。