首页 理论教育 超级智能互联网大脑:探索人类与机器智能的研究史

超级智能互联网大脑:探索人类与机器智能的研究史

时间:2023-11-20 理论教育 版权反馈
【摘要】:人们逐渐发现,用比例智商来表示人的智力发展水平,并不符合人类智力发展的实际情况。韦克斯勒量表与比纳量表共同组成了智力测验的两种主要类型。虽然韦克斯勒量表无法作为人类与机器通用的智商评测方法,但其体现的设计思想对于我们建立统一的智商测试量表有着重要的启发意义。在人类智商测试诞生近45年后,关于机器或人工智能系统的智商评判问题才正式登上历史舞台。

超级智能互联网大脑:探索人类与机器智能的研究史

1889年,法国儿童心理学研究自由协会给法国公共教育部提出建议,希望他们寻找合适的方法帮助那些很难跟上正常班级教学、心理迟钝的儿童。5年后,法国公共教育部委派一个委员会研究这一问题,比纳(Bune)和同事西蒙(Simon)承担了这一任务。

1905年,比纳和西蒙发表了《诊断异常儿童智力的新方法》,也就是著名的比纳西蒙智力量表,这篇文章的出现标志着智力测验在人类历史的诞生。比纳西蒙智力量表在一开始有30个测验题目,这些测验题目涵盖的范围很广,可以从多个方面对智力进行测试,并得出可量化的结果。比纳西蒙智力量表第一次提出了智力年龄(MA)的概念,研究者可以将智力年龄作为评定儿童智力的定量标准。[4]

当时的教育机构将比纳西蒙智力量表测量得到的结果作为评判标准,把不同表现的儿童送到相应的学校中。比纳西蒙智力量表进行的测验获得了很多国家的认可,这样,智力测验无论在学术研究还是社会实践上都得到了认可。[5]

比纳西蒙智力量表用智力年龄来表示被测试者的智力发展水平,但智力年龄的大小并不能准确地说明被测试者的智力是否超过了另一名测试者,这时智力测试发展史上的一个概念由此被提出,1914年德国心理学家斯腾(RJStenberg)提出了智商的概念。智商也叫智力商数(IQ),是根据智力测验的结果计算出来的分数,它代表了被测试者的智力年龄与实际年龄之间的一种比率关系。这个比率关系就叫比率智商(ratio IQ),[6]但比率智商有显著的不足,即随着被测试者实际年龄的增长,被测试者的智商会逐渐下降。人们逐渐发现,用比例智商来表示人的智力发展水平,并不符合人类智力发展的实际情况。针对这个问题,美国医学心理学家戴维·韦克斯勒(David Wechsler)对智商的计算方法进行了改进,把比率智商改成离差智商(deviation IQ)。

离差智商的原理是,通过大量的测试可以发现,人的智力测验分数是正态分布的,大多数正常人的智力处于平均水平,距离平均数越远的人群数量会越少。根据前人测试的智商分布的数据,美国医学心理学家韦克斯勒把标准差定为15,这样一个人的智力水平可以用测验分数与同一年龄段的测验分数相比来得出分数。[7]

作为韦氏智力量表的编制者,美国医学心理学家戴维·韦克斯勒是继法国比纳、西蒙之后对智力测验研究贡献最大的人。他编制的智力量表,是当今世界上最具权威性的智力测验表。韦克斯勒量表(WS)主要指W-BI、WAIS、WISC和WPPSI几个关键智力量表。

韦克斯勒量表与比纳量表共同组成了智力测验的两种主要类型。韦克斯勒量表的主要特点是,在一个量表中实现了不同种类的得分测验。每一个得分测验定向测量一种智力功能。这是在对智力有更深理解的基础上所做的创新,即智力能力不是一个属性代表,而是由多种不同的智力属性共同组成,韦克斯勒量表体现了智力的这一特点。

在韦克斯勒的测验结构里,实验分成若干个测验来测量各种智力能力。韦克斯勒量表一般包含多个分测验,各测一类能力。这些分测验又被分为两大类:第一大类是言语测验,组成言语量表(VS),根据这一大类中的分测试结果计算出来的智商称为言语智商(VIQ);另一大类是操作测验,组成操作量表(PS),根据这些分测试得出的结果计算出操作智商(PIQ)。把操作量表(PS)与言语量表(VS)组合起来称为全量表(FS),其得出的智商被称作全智商(FSIQ或FIQ),以全智商代表受试者的总智力水平。[8]

应该指出的是,韦克斯勒量表没有建立智能的标准模型,因此对智力的分类还比较粗糙,同时也没有指出划分的依据是什么。虽然韦克斯勒量表无法作为人类与机器通用的智商评测方法,但其体现的设计思想对于我们建立统一的智商测试量表有着重要的启发意义。

韦克斯勒量表第一次实现了在一个量表中进行不同种类的分测验,每一个分测验定向测量一种智力功能,这种对智力进行分类测试的方法从实践上看更符合智力的特点。因此,我们在后续的工作中吸收了韦克斯勒量表的这一特点。

在人类智商测试诞生近45年后,关于机器或人工智能系统的智商评判问题才正式登上历史舞台。1950年,图灵发表论文《计算机器与智能》(Computing Machinery and Intelligence)提出了“机器思维”的概念,提出一位测试者在与被测试者相互隔离不能直接进行交流的情况下,通过信息传输,和被测试者进行一系列的问答,在经过一段时间后,测试者如果无法根据获取的信息判断对方是人还是计算机系统,那么就可以认为这个系统具有同人类相当的智力能力,也就是说,这台计算机是有思维能力的,这就是著名的图灵测试(Turing Testing)。[9]

图灵采用问与答的模式,即测试者通过控制打字机与两个测试对象通话,其中一个是人,另一个是机器。测试要求测试者不断提出各种问题,从而辨别被测试者是人还是机器。图灵为这项测试拟定了几个示范性问题:

问:请给我写出有关“第四号桥”主题的十四行诗

答:不要问我这道题,我从来不会写诗。

问:34957加70764等于多少?

答:(停30秒后)105721。

问:你会下国际象棋吗?(www.xing528.com)

答:是的。

从表面上看,要使机器回答在一定范围内提出的问题似乎没有什么困难,可以通过编制特殊的程序来实现。然而,如果提问者并不遵循常规,那么编制回答的程序是极其困难的。

作为被广泛应用的人工智能测试方法,图灵测试经常用来检验机器是否具备人的智能,但总体来看,图灵测试的方法受人为因素干扰,严重依赖于裁判者和测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过了图灵测试。

例如,2014年6月英国雷丁大学客座教授凯文·沃维克(Kevin Warwick)宣称一款名为尤金·古特曼(Eugene Goostman)的计算机软件通过了测试,但是测试结果充满争议。除了软件只要能够通过30%的评判标准即可被判定通过图灵测试外,这个计算机软件“伪装”成一名年仅13岁,且第二外语为英语的俄罗斯男孩,这样,裁判们自然就降低了他们的标准,因为他们认为对方的母语不是英语。质疑者们也在问:这到底是人工智能的成功还是裁判在手下留情?那么,到底是这个程序具有智能,还是程序加上想出这种欺骗方法的程序员具有智能呢?[10]

对于如何开展人工智能系统的智力评价工作,是否在图灵测试之外开展更多研究以寻求新的测试方法,很多科学家进行了努力,2015年1月,在得克萨斯州召开的美国人工智能大会(AAAI-15)上,学者专门组织了一个研讨会[超越图灵测试(Beyond Turing Test)],大家对图灵测试进行深入的审视,并对智能的标准提出新的建议。

《ACM通信》(Communications of the ACM)杂志的主编摩西·瓦迪(Moshe Vardi)教授问道:“图灵自己能通过图灵测试吗?”瓦迪教授的观点是,如果让一个不善言辞的人,比如图灵本人,来参与图灵测试,所得的结果很可能是,这个被测试者被认为不是人类。图灵的“机器能思维吗?”这个问题本身就问错了。这是因为思维是人的特性,而机器的特性是可以产生各种行为,如飞机能飞行。我们真正应该问的问题是:计算机是否具备智能行为呢?针对这种智能行为的测试标准是什么呢?瓦迪教授推测,这样的智能行为测试很可能和图灵测试完全不一样。

佐治亚技术学院的瑞德教授(Reid)提出,图灵测试的一个缺陷是它把人放在一个被“欺骗”的位置,让人和电脑对立。这样做并没有把智能的本质体现出来,而瑞德教授认为,智能的本质在于创造力。他设计了一个叫Lovelace的测试系统。Lovelace的测试范围包括创作有虚拟故事的小说诗歌油画音乐等。瑞德教授认为,如果程序所创作的内容被判定为合乎逻辑或者能引发裁判共鸣,那么这个人工智能系统就可以被认为具有了智能。

香港科技大学杨强教授领导的研究小组提出了一种新的测试方法,叫“终生学习测试”,给计算机一系列的学习问题和所需的数据,然后观察计算机的知识水平。如果这个水平是随时间不断上升的,那么计算机就可以被认为是智能的。

利用“终生学习测试”的算法,杨强小组希望训练一台计算机,让它不断地读书。在理解一本新书的时候,计算机可以利用所有过去所学到的知识来帮助其提高。这样的效果是,计算机可以不断在新的领域进行知识的迁移学习。计算机就像一个爱读书的孩子,在读了几百本书以后,不断积累知识,其知识的理解能力会越来越高,书也读得越来越快![11]

2015年3月24日,布朗大学的斯图尔特·格曼(Stuart Geman)、约翰霍普金斯大学的唐纳德·格曼(Donald Geman)等研究者在美国科学院院刊(PNAS)发表论文《电脑视觉系统的视觉图灵测试》,提出一种新的图灵测试方法——图像图灵测试(Visual Turing Test),这种测试方法用来对计算机的图像认知能力进行更为深入的评估。论文所描述的方法不仅检验计算机能否识别出人像,还会测试人工智能系统对图像中对象关系的理解。AI不但要识别出图片中的人像,还要描绘出这个人在做什么,他与周围的环境是什么关系(见图7.2)。

图7.2 图像图灵测试方法的图片示范

总体来看,20世纪以来,科学家们对机器的智商测试提出了很多建设性意见,涌现出很多创新性想法,但包括图灵测试在内的各种方案还不能很好地区分智能有多少类,没有有效地将人类智能和人工智能统一并进行定量分析。

一个人工智能系统往往只具备一个或若干个智力要素。例如IBM的“深蓝”善于计算,在国际象棋方面可以与人类对手一决高下;沃森系统拥有庞大的知识库系统,可以在常识问答比赛中击败人类选手;谷歌阿尔法围棋可以在围棋上战胜人类,但没有捡起棋子下棋的能力。

这些测试方法无法全面定量分析人工智能,只能定性判断AI系统是否与人有相同的智力(图灵测试)或定量分析这个AI系统在某个方面(如声音、图像、常识等)的能力,但AI系统整体究竟达到人类智能的百分之多少?发展速度与人类智能发展速度的比率如何?这些问题并没有得到很好的解决。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈