首页 理论教育 机器学习与智能的关系:探索机器智能的上限

机器学习与智能的关系:探索机器智能的上限

时间:2023-06-05 理论教育 版权反馈
【摘要】:2014年,百度对外发布了其基于深度学习的语音识别系统“Deep Speech”。科学研究希顿认为深度学习非常擅长在数据中发现出乎意料的规律,这非常有助于打破科学研究的惯性思维,形成新的研究方向。希顿团队的方法是采用深度学习将目标对准那些最有可能与靶标绑定的分子。与传统的逻辑推导不同,通过深度学习的预测分析结果令人惊讶但异常准确。

机器学习与智能的关系:探索机器智能的上限

至此,人们难免有疑问:这么多科学家的努力、巨额的研发经费投入,结果就是具备一个三岁小孩都能够熟练掌握的技能——把苹果和梨区分开来,这是不是有点得不偿失?

我们的回应是:千万不要低估这看似简单的一步!要知道在人不介入的情况下,使机器准确区分苹果和梨,几代科学家已经为之奋斗了半个多世纪,迄今为止也不能做到100%准确。但是,计算机在运算速度上具有远超过人类的优势,且这种优势不断扩大,其“学习”的速度也是相当惊人的,这使得现在人工智能在多个领域进入应用阶段,在一些条件下通过了著名的“图灵实验”,也成就了本章开篇提到的AlphaGo。

图像和语音识别

深度学习最大的突破是实现了更好的识别,而语音和图像在2006年辛顿提出深度信念网络之前就积累了大量的测试数据库,深度学习最早在图像和语音识别上进行商业应用不足为奇。

在语音识别上,中国企业一招领先。2014年,百度对外发布了其基于深度学习的语音识别系统“Deep Speech”。该系统能够模仿人大脑新皮层中的神经活动,通过深度学习识别出数字形式的声音、图片等数据。实际应用发现,在车内、人群等噪声环境下,Deep Speech系统的出错率要比谷歌的Speech API、Wit.AI(语音交互解决方案服务商)、微软的Bing Speech、苹果的Dictation低10%以上。为了开发Deep Speech,曾在谷歌开发全球最大电子模拟神经网络的吴恩达教授领导的百度团队收集了9600人的7000个小时的语音,并人为加入15种类型的噪声,将语音样本数据扩充到10万个小时,然后让Deep Speech在噪声环境下学习识别语音,这个过程就是深度学习的过程。

在国际上,IBM、谷歌、微软等公司都在进行深度学习下的语音和图像识别研究,且都在近年来取得飞速发展。2014年,谷歌的Google Net团队采用深度学习技术在计算机视觉挑战比赛中刷新了分类和侦测的纪录,且比之前的纪录提高了两倍多,该技术正在被应用于谷歌的自动驾驶系统中,帮助计算机和人类驾驶员标注和预警道路上的危险情况。2015年,谷歌在其Google Photos中嵌入了Google Cloud Vision API,能够对字符、人脸、地标、Logo等进行几乎精确的识别。通过这个系统,使机器识图能力大大提升。以前,计算机只能帮助使用者筛选照片,现在只要输入相应的类别就能够挑选照片。2015年,微软宣布其图像识别系统的错误率仅为4.94%,这不仅打破了之前百度创造的5.98%和谷歌6.66%的纪录,甚至低于人类在归类识别时5.1%的错误率。

为了推动深度学习在语言识别上的应用,互联网巨头在近两年都开源了深度学习工具包,吸引更多人在自己的平台上进行语音识别的研发。2015年,谷歌开源了具有图片搜索功能的TensorFlow机器学习系统,随后,微软在2016年也开源了用于语音识别的深度学习工具包CNTK。开源思想能够建立更大的平台,这有助于形成更大的学习数据库,以及开发更多的应用产品。

科学研究

希顿认为深度学习非常擅长在数据中发现出乎意料的规律,这非常有助于打破科学研究的惯性思维,形成新的研究方向。

2012年,希顿领导的一个团队在德国著名制药企业默克举办的鉴别可能导致新药分子的比赛中胜出。希顿团队的方法是采用深度学习将目标对准那些最有可能与靶标绑定的分子。最终,默克公司采用了希顿团队的方法,将新药研发成功率提高了15个百分点。(www.xing528.com)

麻省理工生物学院正在利用深度学习技术分析大脑切片的三维图像。过去,图像识别是依靠在校研究生和本科生完成,这非常花费时间,且经常出现错误,甚至遗漏掉最有研究价值的图像,这对研究工作的进行是致命的。运用深度学习技术,研究人员可以找到更好的办法对三维图像进行标注和计数,这不仅大大减少了人工工作量,而且也提高了准确度。

预测分析

深度学习一个有意思的应用是预测分析。与传统的逻辑推导不同,通过深度学习的预测分析结果令人惊讶但异常准确。例如,2006年,美国田纳西州孟菲斯市警察局启动“蓝色粉碎”行动,由于采用IBM的神经网络技术预测犯罪发生的时间和地点,大大提高了警力配置的效率,到2011年,孟菲斯市财产犯罪下降了26.2%,暴力犯罪下降了23.6%,凶杀案则下降了40%以上,在5年多的时间里,有近2万宗罪行未能够实施。2008年,谷歌推出的“谷歌流感趋势”系统,通过对流感相关关键词的搜索进行数据挖掘和深度学习,创建了流感趋势地图,目前已经能够支持25个国家的流感趋势预测,成为多个国家疾病防控部门的重要参考。2014年巴西世界杯期间,各方人士都在预测比赛结果,在小组赛后的15场淘汰赛中,微软利用深度学习的方法预测的结果全部准确无误,而谷歌的预测也猜中了其中14场比赛结果,这样的预测准确率显然要比2008年法国世界杯的章鱼保罗和一贯乌鸦嘴的贝利靠谱得多。

再提一提AlphaGo

IBM的深蓝遵循的是人工智能控制派思路模拟的方式,既然深蓝在1997年就战胜了国际象棋的世界冠军,为什么说采用深度学习技术的AlphaGo有里程碑的意义呢?

要回答这个问题,首先要区分一下国际象棋与围棋的区别。围棋是迄今为止人类发明的最复杂的游戏,国际象棋与之相比简直是小儿科:每一步可能的落棋点,围棋平均200个、国际象棋平均37个;每一局的落棋次数,围棋双方平均各有200余次,而国际象棋平均只有57次;围棋的落棋位置是10的170次方,而国际象棋只有10的47次方;围棋的落棋组合高达10的360次方,而国际象棋只有10的123次方。在这种局面下,棋手在下棋时一般需要思考两个重要问题:一是对全局的判断;二是对下一手棋落点的选择。从上面的对比数据可以看出,AlphaGo如果采用与深蓝一样的方式,计算量会暴增(增大幅度难以用语言形容),虽然计算机硬件技术在近20年来提高不少,但要完成这样数量级的计算还是力不从心,况且今后人工智能可能面临比围棋更复杂的问题,暴力解题方式不可取。

深蓝在胜利之前预先输入了超过70万种的棋局,并由多位国际象棋大师协助进行了调试,这个数据量对于应付国际象棋的比赛似乎是足够了,但是AlphaGo要面对的问题更加棘手,围棋的数据过于庞大且规律难以把握,谷歌的研究人员必须通过另外的方式赢得比赛。

AlphaGo创造性地使用了两个大脑:估值网络估计棋局的状况;走棋策略网络决定下一步棋的走法。此外,搜索树将两个网络结合起来。要真正理解估值网络、策略网络和搜索树的工作原理并非易事,但是可以很容易理解这些创新带来的结果:AlphaGo只要考虑靠谱的有限的几个落棋点,这与人类棋手的思维方式是一样,甚至还能够表现出人才有的“直觉”。

在参加比赛之前,AlphaGo通过自我对弈的方式不断提高棋艺水平,这与人类棋手的训练过程是一样的。不同的是,AlphaGo只需要一秒钟就能完成数局对弈,而且对手(其实就是AlphaGo自己)总是高手。在与樊麾比赛前,AlphaGo完成了3000万次训练,而与李世石比赛前,自我对弈的训练已经超过1亿次,这样的训练速度和强度是人类棋手所望尘莫及的。速度的优势(赛前的深度学习训练)和正确的方法(与人类棋手一样的下棋方法)是AlphaGo取得胜利的两大保障,而这两点创新也开启了人工智能进入深度学习的发展阶段。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈