有了标准智能模型,就能够形成可以同时对机器人和人进行智商评测的量表。2014年,笔者团队从知识获取能力(观察能力)、知识掌握能力、知识创新能力、知识的反馈能力(表达能力)四个方面建立人工智能智商评价体系,并从这四个方面建立图像、文字、声音识别、常识、计算、翻译、创作、挑选、猜测、发现等十五个小类分测试,形成通用智能智商测试量表(如图7.7所示),并设计了600多道题目。
以下是2014年笔者团队对百度进行智商测试的60道题目中的三道,以及回答和评判过程。
图7.7 通用智能智商测试量表
第一道题目检验百度掌握常识的能力,属于知识掌握能力测试大类。测试题目为“世界上最长的河流是哪一个?”标准答案为“尼罗河”,百度反馈结果为:“尼罗河(长度:6671千米)”。针对这个回答,系统评判为正确,人工评判同意系统判断。
第二道题目检验百度的计算能力,属于知识掌握能力测试大类。测试题目为“234568乘以678等于多少?”该题目的标准答案为“159037104”。百度反馈结果为:“计算器234568*678=159037104”针对这个回答,系统评判正确,人工评判同意系统判断。
第三道题目检验百度发现规律的能力,属于知识创新能力测试大类。测试题目为“给出四道题目,分别是20除以5等于多少,40除以10等于多少,80除以20等于多少,160除以40等于多少,观察其中的规律并设计出第5道题目。”该题目的标准答案为“320除以8等于多少”,百度反馈结果为:“五分之四等于多少除以20等于多少分之八等于百分之多少_百度知道3个回答”(搜索结果随时间会有变化)。针对这个回答,系统判断不包含标准答案,评判为错误,人工评判同意系统判断。(www.xing528.com)
2014年和2016年,笔者团队分别对世界50个搜索引擎和3个不同年龄段的人进行测试,形成2014年版和2016年版人类与机器通用智商排名,具体见表7.3。
表7.3 2014年版和2016年版人类与机器通用智商排名
从两次测试结果看,谷歌、百度等人工智能系统的智能在两年的时间里已有大幅提高,但仍与6岁儿童有一定差距。AI或机器与人类的差距主要体现在图像的识别和输出、知识的创新和创造等领域,谷歌、百度等人工智能系统在回答诸如“地球离太阳有多远”“地球上最长的河流是哪一条”“秦始皇出生于哪一年”等常识性或计算性问题时,表现出的能力非常强。
但在回答诸如“请从12,14,17,21,26,32中发现规律,然后写出32后面的数字”“用森林、白云、老虎、猎人、飞机五个关键词撰写一篇200字的有逻辑的短文”“如果一个人打着伞,穿胶鞋,浑身湿透,请问当地很可能是什么天气”等需要创新能力的问题方面,一直没有突出的进展。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。