张 钹
中国科学院院士,清华大学人工智能研究院院长,清华大学计算机系教授
图7-41 甩负荷前后转子各磁极气隙变化图
3.开停机过程气隙特性变化规律
在机组开停机过程中,由于作用于转子磁轭和磁极的离心力影响,也会导致转子膨胀,定转子间气隙将发生变化,在开机过程中气隙逐渐减小,而在停机过程中气隙则会逐渐增大。开停机过程中转子磁极气隙的变化幅度与转子结构设计有关。图7-42所示为某大型混流发电机在停机过程中各通道平均气隙的变化趋势,图7-43所示为开机过程中各通道平均气隙的变化趋势图。图7-44所示为额定转速75r/min和10r/min低速时转子磁极形貌比较图,图7-45为10r/min时磁极气隙值减去75r/min时气隙值的气隙变化图,从图7-44和图7-45可以看出,停机过程中各磁极气隙均有明显增大,所有磁极中增大最大的为2.31mm,增大最小的为1.91mm,所有磁极气隙平均增大了2.08mm,转子圆度从3.4%变为2.5%。
2011年德国汉堡大学授予其自然科学名誉博士,获2014年度中国计算机学会(CCF)终身成就奖,2019年获人工智能学会吴文俊人工智能最高成就奖。从事人工智能、人工神经网络和机器学习等理论研究,以及模式识别、知识工程和机器人等应用技术研究。在上述领域共发表学术论文200多篇,出版5部专著。其科研成果获ICL欧洲人工智能奖等。此外,他是智能技术与系统国家重点实验室创建者之一,并于1990—1996年担任该实验室主任。
人工智能60年的发展历史,一共经过了两代。第一代人工智能,有的时候称作符号主义。人们提出了基于知识和经验的推理模型,用这个模型来模拟人类的理性智能,像推理、规划、决策等。为此,需要在机器里建立知识库和推理机制,利用这两个机制模拟人类的推理和思考等行为。
下面举一个例子。1971年左右,美国斯坦福大学根据这个原理建造的一个专家系统叫作MYCIN系统,它主要用来诊断血液传染病和开抗生素处方。它把传染病专家的知识放在计算机里,并且把医生诊断的过程—如何从症状推到疾病,最后开出处方—作为推理机制,也放在计算机里。这样内科医生就可以在计算机的辅助下进行诊断。由于内科医生通常不是传染病专家,因此这样的计算机辅助治疗系统,可以帮助内科医生做出更好的、更准确的诊断和处方。
利用这种原理做的人工智能系统,一个最有代表性的成果,就是IBM的深蓝国际象棋程序。这个程序在1997年5月打败世界冠军卡斯帕罗夫。计算机的深蓝程序为什么可以打败人类的象棋大师,主要是以下三个要素:第一个要素是知识和经验,也就是说它利用了人类大师下过的70万盘棋局,还有全部的5~6子的残局。根据这些下棋的知识,总结成下棋规则。又通过大师和机器对弈,对评价函数中的8000个参数进行调试,把大师的经验也放在程序里。第二个靠的是算法,“深蓝”使用α—β剪枝算法。这个算法可以加快搜索速度。第三个是算力,IBM当时用RS6000机器,每秒能分析2亿步,平均来讲能往前看8~12步。一个有经验的象棋大师一般只能往前看3~5步,因此机器从速度上超过了人类。
第一代人工智能的优势,在于它能够模仿人类推理的过程、思考的过程,因此它是可以解释的,跟人类思考问题的过程一致。同时,利用这个办法做机器学习,就能够举一反三。这是第一代人工智能的优势。
但是第一代人工智能也存在非常严重的缺陷。比如,这些知识来自专家,大家知道专家的知识是非常稀缺,也是非常昂贵的,而且通过人工编程把它输进计算机,是非常费时费力的。同时有很多知识很难表达,比如,那些不确定的知识、常识等。因此第一代人工智能的应用范围非常有限。
第二代人工智能,这就是大家非常熟悉的深度学习。所谓深度学习,就是通过它模拟人类的感知,如视觉、听觉、触觉等。我们用图像识别作为例子来说明计算机如何模拟人类的感知。比如,我们要想让计算机识别不同的动物,怎么办呢?由于我们没法把什么叫作马、什么叫作牛告诉计算机,只好采用人类学习的办法,因此机器学习的过程大体如下。
先收集大量有关动物的图片,把这些图片分成两类。一类作为训练,训练计算机识别马或其他动物,这叫作分类,即通过训练让计算机能正确地区分马和牛等,也叫作学习,机器学习用的是多层神经网络。经大量的图片训练以后,我们再把另一部分图片,即没有学习过的图片,让机器识别。如果90%识别对了,就说它的识别率是90%,误识率是10%。用同样的办法进行语音识别。在给定的图像库或语音库下,现在图像或语音的机器识别率均可以达到或超过人类的水平。
深度学习有什么优点?第一个优点是它不需要领域知识,技术门槛比较低。换句话讲,我们只要把原始图片、原始语音输进去就可以,不需要告诉计算机怎么去识别图片或语音,计算机会自动提取合适的特征并识别它,所以任何人都可以使用这个工具。
第二,网络的规模很大,因此可以处理大数据。比如,图像库ImageNet,一共有2万种类别、1 400万张图,数据量很大。2011年计算机在这个图像库上的误识率高达50%,也就是说一半认错了。可是4年以后,2015年微软用深度学习的办法来识别这组图像,误识率降到3.57%,比人类的误识率5.1%还要低。这说明利用深度学习的方法,在一定条件下,可以使机器的图像和语音识别水平超过人类。
因此,深度学习受到广泛的关注。一个最典型的例子就是围棋程序。大家知道在2015年10月之前,我们用传统的基于知识的方法编出来的围棋程序只达到业余5段的水平。2015年10月,利用深度学习等方法,围棋程序AlphaGo打败了欧洲冠军。2016年3月,打败了世界冠军。到2017年10月,AlphaGo—Zero打败了AlphaGo。这说明在3年时间里,由于利用深度学习,围棋程序的水平从业余跳到专业,从专业跳到世界冠军,又从世界冠军跳到超世界冠军。
两年里围棋程序实现了三级跳。AlphaGo的成功来自何处?来自三个方面:一个是大数据,一个是算法,一个是计算能力。我们可以看到AlphaGo的确利用了大数据,它一共学习了3000万盘棋局,自己跟自己又下了3000万盘,一共学了6000万盘棋局,数据量很大。用的算法是蒙特卡洛树搜索、强化学习、深度学习等。算力也很强大,由1 202个CPU、280个GPU组成分布式计算系统。(www.xing528.com)
第二代人工智能也有很大的局限性,包括不可解释性、不安全、易受攻击、不易推广、需要大量的样本等。这里只举一个简单的例子,即用我们博士生做的一个例子来说明这个问题。下图左边这张图片是雪山—阿尔卑斯山,计算机图像识别系统以94.39%的信度认定它是阿尔卑斯山。但只要加上一点噪声,变成右边这张图,右边图跟左边图从人的眼睛看来几乎完全一样,因为只多了一点点噪声,但是计算机会以99.99%的把握认定它是一条狗。
可以看出,计算机的模式识别系统跟人类的视觉差别非常大。尽管它的识别率很高,但是非常不安全、非常不可靠,而且不可解释。为什么机器把带噪声的雪山解释成一条狗,我们没法解释。
图7-42 停机过程各通道平均气隙变化趋势
第二代人工智能局限性示例[1]
从第一代、第二代人工智能的成就来看,应该说人工智能刚刚拉开序幕。第一代、第二代人工智能都有很大的缺陷,它们的应用范围非常有限,更精彩的大戏正要上演。这场大戏就是第三代人工智能,它必须解决第一代、第二代人工智能中存在的缺陷。必须建立一个可解释的、鲁棒的人工智能理论,必须发展安全、可信、可靠和可扩展的人工智能技术,只有这样才能实现技术上的突破。有了技术上的突破,才能推动人工智能的创新应用。
发展第三代人工智能的办法就是把第一代知识驱动的方法和第二代数据驱动的方法结合起来。换句话讲,我们要综合地利用四个要素,即知识、数据、算法和算力,第一代人工智能使用了其中的三个要素,第二代人工智能也只用了其中的三个要素。
我们如何解决以下几个关键问题?
第一是环境感知。人工智能的图像识别系统,虽然识别率很高,但由于它识别的办法跟人类非常不一样,所以非常不可靠、不安全、容易受到攻击。我们看一下机器是怎么识别马的:它把马的局部特征分析出来,然后和牛等其他动物的特征做比较,根据局部特征进行区分。这就是我们常常讲的黑箱学习方法,也就是说它只能学习那些局部的特征,学习不了高层的语义特征,因此只能分辨马和牛,但并不认识马和牛。那么我们怎么来改进这项工作?其中一个途径是借鉴人脑的工作机制。人脑的视觉神经也是多层神经网络,相比之下,我们现在使用的人工神经网络太简单了,只有下一层跟上一层的联系,这叫作前向连接。而人脑视神经网络比前向人工神经网络要复杂得多,其中还有反馈连接、横向连接、稀疏放电、注意机制、多模态和记忆等。
如果我们能把人类视神经网络的特点,加到现在人工神经网络中去,就可以极大改善图像识别的性能,这也是我们今天要做的一项工作。下面介绍我们团队的一项工作,即把稀疏放电的规则放到各层神经网络中,仅凭借这一点,就可以让网络中最顶部的神经元检测到人脸的轮廓、小汽车的轮廓和大象的轮廓和鸟的轮廓,也就是说它能够把语义特征检测出来。这说明只要把人类神经网络的一些特点加进去,就有可能改善人工智能图像识别和语音识别的性能。当然,这只是初步的工作。
此外,现在图像识别里还存在许多问题,比如,很难把物体和它的背景分开。以识别马作为例子,机器很难检测到马在什么地方(where),也不知道什么是马(what)。怎么解决这个矛盾呢?还是要回到人类的大脑,大脑怎么解决这个问题呢?人类为什么一看图片,就知道马在哪里?因为我们认识马,那么马的知识是从哪里来的?实际上,是从我们不断的观察中学来的。我们可以用一个自编码的神经网络,让它通过无监督学习,学到有关马的知识。当计算机认识马以后,就很容易在图像上找到马,把马和背景区分开,因此很容易识别马。这方面我们做了一些初步工作,取得了一些成果。
第二,关于人工智能的安全性问题。刚才说过,通过深度学习做出来的模式识别系统,非常不安全,非常容易受到攻击。这些缺陷我们可以从数据上、从模型上进行改进。这里只举一个例子—人脸识别。大家经常用人脸识别登录手机。如果不是本手机用户,则通过“刷脸”登录失败,系统判别出不是用户。如果戴上伪装的眼镜,就可以登录了,实现了对系统的欺骗。如果加上AI防火墙,即使戴上伪装眼镜也进不去了。这说明可以用各种办法提高智能系统的安全性。我们开发了一个开源的“珠算”概率编程库,其中包括我们自己研制的概率编程算法,在可解释性、安全性上都有一定提高。
第三,关于推理、决策和博弈。人工智能程序在棋类上打败了人类,包括围棋和象棋,它们属于完全信息博弈,对计算机来讲是比较简单的。如果是不完全信息博弈的牌类,对计算机而言就困难得多。2017年计算机才在四人无限注的德州扑克牌上战胜了人类。牌类一般属于概率意义下的确定性问题,概率通常可以计算出来。但我们平常的决策环境不一样,属完全不确定的,甚至是在对抗环境下做决策。目前在对抗环境下做决策,往往用游戏比赛作为实验平台。游戏的环境是变化的、不确定的,也有进攻、防卫等不同的任务。目前采用的主要办法是强化学习,当前计算机只是在简单的游戏环境下可以打败人类。我们团队参加了一些比赛,如在国际VizDoom比赛中,2018年获预赛2项冠军,决赛1项冠军、1项亚军。
第四,如何适应环境的变化,即如何随机应变。我们从1991年就开始研制自动驾驶车,当前自动驾驶的问题在哪里?我们现在采用的办法是把物体识别出来,建立模型,在模型上做规划,目前以上三项均能达到实时的要求。尽管如此,在路况复杂的情况下,这种方案还是不好用,因为它难以对付突发事件。为了对付突发事件,需要加上驾驶的知识,需要在真实环境下,从不断的试验中去积累经验,就是通过所谓强化学习的办法,学会应对突发事件。我们开发了一个开源平台,即“天授”强化学习平台。
最后,为什么说人工智能刚刚拉开序幕呢?第一代、第二代人工智能都存在很大的局限,它只能解决完全信息和结构化环境下确定性的问题,能解决的问题非常有限,主要是利用数据和计算机的计算能力。精彩的大戏将要上演,这就是指第三代人工智能。第三代人工智能的目标是更好地解决计算机的智能问题。人类智能最重要的表现,是随机应变、举一反三。为了做到这一点,我们必须充分利用知识、数据、算法和算力四个要素,这样才能解决不完全信息、不确定性和动态变化环境下的问题,达到真正的人工智能。
【注释】
[1]Yinpeng Dong,Fangzhou Liao,Tianyu Pang,et al.Boosting Adversarial Attacks with Momentum.[2017—12—6].https: //za.arxiv.org/pdf/1710.06081.
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。