首页 理论教育 无监督学习简介

无监督学习简介

时间:2023-06-30 理论教育 版权反馈
【摘要】:顾名思义,无监督学习就是不受监督的学习。正因为无监督学习的重要意义,Yann LeCun有一个非常著名的比喻:“假设机器学习是一个蛋糕,强化学习是蛋糕上的一粒樱桃,监督学习是外面的一层糖衣,那么无监督学习才是蛋糕的糕体。”相比之下,目前的监督学习算法则要求我们一次次反复地告诉机器学习模型什么是“猫”,也许要高达数万甚至数十万次。很显然,无监督学习的模式更加接近我们的学习方式。

无监督学习简介

顾名思义,无监督学习就是不受监督的学习。同监督学习建立在人类标注数据的基础上不同,无监督学习不需要人类进行数据标注,而是通过模型不断地自我认知、自我巩固,最后进行自我归纳来实现其学习过程。虽然目前无监督学习的使用不如监督学习广泛,但这种独特的方法论为机器学习的未来发展方向给出了很多启发和可能性,正在引起越来越多的关注。2015年,深度学习“三巨头”——Yann LeCun、Yoshua Bengio、Geoffrey Hinton首次合作在Nature上撰文,在对深度学习未来展望时写道:“无监督学习对于重新点燃深度学习的热潮起到了促进作用,我们期望无监督学习在长期内越来越重要,使我们能够通过观察发现世界的内在结构,而不是被告知每一个客观事物的名称。”[1]

同监督学习相比,无监督学习具有很多明显优势,其中最重要的一点是不再需要大量的标注数据。如今,以深度学习为代表的机器学习模型往往需要在大型监督型数据集上进行训练,即每个样本都有一个对应的标签。比如,目前在图像分类任务当中被普遍使用的Image net数据集有一百多万张人为标记的图像,共分为1000类。而谷歌公司更是表示要着手建立10亿级别的数据集。很显然,要创建如此规模的数据集需要花费大量的人力、物力和财力,同时也需要消耗大量的时间。正因为无监督学习的重要意义,Yann LeCun有一个非常著名的比喻:“假设机器学习是一个蛋糕,强化学习是蛋糕上的一粒樱桃,监督学习是外面的一层糖衣,那么无监督学习才是蛋糕的糕体。”

我们可以用一个简单的例子来理解无监督学习。设想我们有一批照片,其中包含着不同颜色的几何形状。但是机器学习模型只能看到一张张照片,这些照片没有任何标记,也就是计算机并不知道几何形状的颜色和外形。我们通过将数据输入到无监督学习的模型中去,算法可以尝试着理解图中的内容,并将相似的物体聚在一起。在理想情况下,机器学习模型可以将不同形状、不同颜色的几何形状聚集到不同的类别中去,而特征提取和标签都是模型自己完成的。(www.xing528.com)

实际上,无监督学习更接近我们人类的学习方式。比如,一个婴儿在开始接触世界的时候,父母会拿着一张照片或者一只小猫告诉他这是“猫”。但是接下来在遇到不同的猫的照片或者猫的时候,父母并不会一直告诉他这是“猫”。婴儿会不断地自我发现、学习、调整自己对“猫”的认识,从而最终理解并认识什么是“猫”。相比之下,目前的监督学习算法则要求我们一次次反复地告诉机器学习模型什么是“猫”,也许要高达数万甚至数十万次。很显然,无监督学习的模式更加接近我们的学习方式。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈