首页 理论教育 AIoT芯片:打破传统GPU局限,超越人类医生的挑战

AIoT芯片:打破传统GPU局限,超越人类医生的挑战

时间:2023-06-19 理论教育 版权反馈
【摘要】:IBM宣称沃森将超越人类医生,这个目标在目前来看是不现实的。人工智能的终端推断芯片,其实就是AIoT芯片,其通常部署在智能手机、智能家居、自动驾驶汽车和各类AIoT设备中。AIoT芯片对数据吞吐量的要求较小,GPU在这一领域就显得大材小用。而且AIoT芯片更多地需要对成本、功耗、体积和计算性能进行综合考虑,并且对特定功能进行优化,通用型的GPU也无法满足。AIoT芯片主要有FPGA和ASIC两条技术路线。

AIoT芯片:打破传统GPU局限,超越人类医生的挑战

人工智能包括算法、数据和算力三要素。IBM的算力不行,就把发展方向落在更重要的算法上。在人工智能的算法领域,IBM同样是起了个大早,却又被远远甩在了后面。作为现代计算产业的先驱,早在1962年,IBM就开发出了世界上第一个语音识别设备,当时仅能识别16个数字和符号。1997年5月11日,IBM的计算机程序“深蓝”在正常时限的比赛中首次击败了国际象棋排名世界第一的棋手加里·卡斯帕罗夫,举世皆惊。这是电脑击败人脑的重要里程碑,人工智能威胁人类生存的话题从此成为科幻热门题材。

可是,在这场震惊世界的人机大战过后十九年,却是谷歌的AlphaGo成为第一个战胜人类围棋世界冠军的人工智能机器人。IBM率先踏入人工智能算法的大门,为何却被谷歌、亚马逊、微软、苹果这些后来者赶超?

IBM在算法上犯了路线错误。IBM搞的是认知计算,试图让电脑超过人脑,打造无所不知的专家系统。IBM的路线错误让它最重要的人工智能商业化产品沃森系统付出了惨痛的代价。

IBM是第一家将人工智能用于医疗保健的公司。2012年,沃森通过了美国职业医师资格考试,并被部署在美国多家医院以提供辅助诊疗的服务。IBM放下豪言,要让沃森惠及10亿人,诊断和治疗80%的癌症种类中80%的病患。然而几年过去了,这个诺言非但没有兑现,沃森反而麻烦缠身。多家合作医院的医学专家表示,沃森并没有给他们的工作带来帮助,甚至很多时候给出的结果是错误的。一些人认为,沃森应公开用作数据集的数据,如果沃森依据的只是小部分医生提供的带有局限性的理想化数据,这将是非常不负责任的做法。

这个评论戳到了IBM的痛处。因为IBM走的是认知计算的道路,对数据的质量要求非常高,加上沃森吹牛要解决连人类医生都挠头的疑难杂症,而疑难杂症的病例本就更少,这导致沃森学习到的治疗病例有限。为了给沃森提供数据支持,IBM花费数十亿美元收购了多家做医疗数据分析和解决方案的公司。即使如此大的投入,IBM似乎还是没有获得太多高质量的数据。沃森的知识储备不足,其表现自然也就差强人意。

IBM宣称沃森将超越人类医生,这个目标在目前来看是不现实的。人工智能的优势是大数据的处理,更适合的定位应该是帮助人类医生进行数据和图像的解读,提供辅助诊断意见。2018年,沃森健康部门大量裁员,宣告IBM在人工智能领域的阶段性失败。

沃森的失败宣告了,现阶段让人工智能像人脑一样能够进行主观判断还是很不现实的。人工智能只能通过深度学习来吃进海量数据,通过一定的算法得出尽可能准确的计算结果。比如无人驾驶,并不是说想上哪去就上哪去,而是必须在设定好的路线行驶。所以,深度学习是人工智能的基本功。深度学习的计算量巨大,需要在云端完成,然后通过算法在终端对新输入的数据进行智能推断。人工智能芯片相应地分成云端训练芯片和终端推断芯片两大类,最常用的云端训练芯片就是GPU。

在人工智能兴起后,深度学习和大数据处理的运算量非常大。在同样的计算量上,GPU在价格和功耗上相对传统的CPU都有巨大的优势。英伟达的通用图形处理器拥有低成本、大规模的并行处理架构,使得高密度、高性能的并行处理得以在个人电脑上部署。个人电脑就可以变成超级电脑,这为人工智能的发展铺平了道路。几百上千层的深度学习神经网络对高性能计算的需求非常高。GPU有出色的并行矩阵计算能力,对于神经网络的训练和分类都可以提供显著的加速效果,所以,搭载GPU的超级电脑已经成为训练各种深度神经网络的不二选择。

目前世界上约有3000多家人工智能初创公司,大部分都采用了英伟达提供的硬件开放平台。这就像20世纪90年代的人们都基于Windows创业,或者在21世纪初的人们都在安卓和iOS上创业一样。黄仁勋毫不谦虚地宣称:英伟达不仅仅处在人工智能的浪潮之中,而且是人工智能浪潮得以成型和推进的重要原因。在云端训练芯片上,英伟达占据80%的市场份额,其次是千年老二超威,其他企业如老牌的英特尔或行业新秀Graphcore公司短期内都很难与这两家企业竞争。受益于人工智能应用对数据中心处理器算力的强劲需求,英伟达的数据中心业务自2016年起开始爆发性增长,同比增长率连续7个季度超100%。

英特尔为狙击英伟达而做出的所有努力都未能奏效。CPU已老、GPU当道,连摩尔定律都需要依靠GPU来延续。全世界数据量的年增长速度大约是40%,并在不断提升。CPU的性能提升却在放缓,已经跟不上数据增长的速度。而GPU中所容纳的晶体管数量还在呈指数级增长,让GPU的性能以40%左右的速度提升,跟上数据大爆炸的脚步。所以,一点也不让人意外地,2020年7月8日,一个分水岭式的历史事件发生了:英伟达当日市值接近2500亿美元,首次超越英特尔,成为全美市值最大的半导体企业。多家媒体都迫不及待地宣告:一个时代结束,另一个时代开始了。8月30日,英伟达的市值继续涨至3240亿美元,整整甩掉市值跌至2140亿美元的英特尔一个千亿级。

除了在云端训练芯片市场上占据主要份额外,英伟达在终端推断芯片市场上也有布局。终端推断芯片最大的一块市场是汽车芯片,英伟达推出自动驾驶解决方案,销售了大量的硬件给特斯拉奥迪沃尔沃等车企和谷歌、博世这样的汽车技术供应商。除了一线车企,英伟达还为100多家初创公司供应了自动驾驶套件。

英伟达在终端推断芯片上并无很大优势,因为这是一个非常碎片化的市场,谁也不可能做到一家通吃。人工智能的终端推断芯片,其实就是AIoT芯片,其通常部署在智能手机智能家居、自动驾驶汽车和各类AIoT设备中。AIoT芯片对数据吞吐量的要求较小,GPU在这一领域就显得大材小用。而且AIoT芯片更多地需要对成本、功耗、体积和计算性能进行综合考虑,并且对特定功能进行优化,通用型的GPU也无法满足。AIoT芯片主要有FPGA和ASIC两条技术路线。FPGA属于半定制芯片,特别适用于处理器研发阶段的快速迭代,在小规模应用时有较高的性价比。ASIC属于定制芯片,能够针对不同应用进行专门的优化,虽然研发周期长且投入大,但大规模量产后就有较大的成本优势。

物联网的概念在2016年被提出,到2019年5G投入商用后成为热点。5G的低时延、高带宽和大容量的三大特性的最大受益者正是物联网,如智能家居、可穿戴设备、智能汽车、智能医疗、智能物流、智能制造等。而通过基于物联网设备获得的海量数据,人工智能将能够更快地进化,也将拥有更多落地场景。AIoT成为5G时代的信息产业新浪潮。(www.xing528.com)

AIoT时代,芯片产业面临截然不同的市场需求。有的对能耗敏感(如共享单车智能锁),有的对性能敏感(如需要进行大量机器视觉计算的终端设备),有的对价格敏感(如工业互联网领域的智能传感器),有的对时延敏感(如无人驾驶汽车)……定制化、专用化芯片成为趋势,NPU、TPU之类的各种“PU”开始层出不穷,让人担心26个英文字母很快就会不够用了。X86和ARM架构都已很难满足AIoT设备复杂的、特定的计算需求。而RISCV既具有精简指令集固有的优势,如高性能、低功耗,又比ARM架构开放、灵活和普惠。RISC-V的开源意味着任何企业和学术团队都可在它的基础上构建自己的处理器设计架构,开发者具有很高自由度。RISC-V没有专利授权费用,这点对初创公司、中小企业很重要。可以说,RISC-V更能适应AIoT时代的处理器架构需求。

信息时代发展的每个阶段都会有特定的处理器芯片架构诞生。第一次芯片浪潮,IBM用定制处理器主宰了商用计算机的时代。第二次芯片浪潮,基于复杂指令集的英特尔X86架构一统个人电脑的江山。第三次芯片浪潮,基于精简指令集的ARM架构成功逆袭,占据了移动端。AIoT时代,第四次芯片浪潮席卷而来,RISC-V架构很可能将成为主导。目前RISC-V已成气候,未来处理器架构领域将可能形成X86、ARM和RISC-V三分天下的格局。第四次芯片浪潮如果诞生新的巨头,大概率会出自RISC-V指令集阵营。

AIoT芯片市场偏碎片化和强应用驱动,适合初创企业进入。在这个领域,中国与世界同步,已经诞生了一批独角兽公司,其中一部分已步入全球先进行列。

寒武纪是中国起步较早的人工智能芯片初创企业之一,由中国科学院计算所孵化,其团队曾参与龙芯的研发,在全球人工智能芯片领域发表了多篇顶级论文。2016年,寒武纪发布了世界上第一款终端人工智能处理器——寒武纪1A,基于中科院计算所的Cambricon-X指令集,主要面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备。华为麒麟970处理器使用寒武纪1A作为神经网络单元,在人工智能方面的计算性能得以大幅超越苹果的A11处理器。尽管寒武纪创立不过四年,年收入仅有6亿元而且还在持续亏损,2020年7月登陆科创板后仍然获得了1000亿元左右的市值,这是人工智能时代才会有的商业奇迹。

除了寒武纪这样的初创企业,中国的各个云计算巨头也多有在人工智能芯片的赛道上布局。这也是在从位于下游的云计算市场向上游的芯片设计的产业链延伸。随着云计算和大数据的快速扩张,各大互联网巨头的运算能力占据了全球相当大的比重。于是,这些巨头都想摆脱对CPU和GPU的依赖,自己亲自操刀,构建一套针对自己的算法和应用的定制人工智能芯片,从而实现更低的能耗和更高的运算效率,甚至构建一套自己的云计算生态。这个场面类似于个人电脑诞生之初微处理器和指令集的大战、智能手机问世时处理器芯片与操作系统的洗牌,云计算正在进入战国争雄般的大杀场阶段。

2018年,百度推出基于FPGA打造的昆仑系列人工智能芯片,这也是中国第一款云端全功能人工智能芯片,既适用云端的深度学习训练,又适配诸如自然语言处理、大规模语音识别、自动驾驶和大规模推荐等具体终端场景的计算需求,用的是百度自研的XPU神经处理器架构。采用三星电子14纳米工艺的百度昆仑1在2020年量产,已在百度搜索引擎及云计算用户部署2万片,百度自曝其性能相比当前最先进的GPU在不同模型下提升1.5~3倍。7纳米工艺的百度昆仑2预计将在2021年量产。百度昆仑芯片使得百度大脑具备了完备的软硬一体化能力,形成了从芯片到深度学习框架、平台、生态的人工智能全栈技术布局。

2019年,华为推出昇腾系列人工智能芯片,采用自研的达·芬奇架构——基于ARM架构的神经网络处理单元,是目前计算密度最大的芯片单元。华为还发布了由1024块昇腾910打造的全球最快人工智能平台Atlas 900。Atlas 900的总算力相当于50万台个人电脑的计算能力,可明显提升天文探索、气象预测、无人驾驶、石油勘探等领域的计算效率。比如说,一张带有20万颗星辰的南半球星空图,如果科学家要从这20万颗星辰中找到某类特点的星体,非常艰难。过去1个科学家必须消耗169天的劳动量,才能完成此项工作。如今用了Atlas 900,仅用10秒,就能从20万颗星辰中查找出目标星体。Atlas 900已经部署到了华为云服务上,并且对全世界科研院所和高校进行开放。

为了做芯片,马云投资了中国大半个芯片圈。2019年,阿里巴巴的平头哥公司推出基于RISC-V的处理器架构玄铁910。阿里巴巴将玄铁910的知识产权核全面免费开放,希望能够在AIoT领域建立起开发者生态,目的是推它的操作系统AliOS。AliOS曾经在智能手机市场上败于安卓和iOS,如今在物联网市场上卷土重来。

阿里巴巴还推出含光系列人工智能芯片,成功应用于杭州城市大脑数据中心。原来需要40颗传统GPU,使用含光800仅需4颗,延时也降低一半。拍立淘商品库每天新增10亿张商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。含光800不对外直接售卖,而是通过云的形式向阿里云数百万客户售卖算力。相比传统GPU算力,含光800的性价比可提升一倍。阿里巴巴力图打造“一拖二”的技术战略格局,云计算平台领跑、人工智能算法和人工智能芯片齐头并进,三者互相协同。

历史上,每一代半导体新巨头的出现都伴随着终端迁移:商用计算机市场成就了IBM;个人电脑市场成就了英特尔;移动智能市场成就了安谋、高通、苹果、三星电子和华为。而在AIoT市场的新机会中,中国厂商很可能脱颖而出。要知道,通用处理器和定制处理器之间的界限是很模糊的,只要用的人多了,定制处理器就能变成通用处理器。英特尔的CPU诞生之初就是一款为日本企业定制的计算器芯片。GPU原本也是专用于解决CPU搞不定的图形处理难题的定制芯片,市场做大以后就变成了图形处理和高性能计算通用芯片。现在的五花八门的人工智能处理器也是专用于解决GPU搞不定的特定计算难题的定制芯片,说不定中国企业中哪家的什么“PU”哪一天能发展壮大成为通用的人工智能处理器了呢?

在摩尔定律走向终结之际,硅管芯片很快将停止对先进制程工艺的追求,将发展重点转向实际应用的领域,而人工智能正是信息时代中一个正在爆发性增长且具有无限想象空间的偏重具体场景应用的新领域。人工智能芯片作为人工智能产业的基础层,提供了大量及特定运算所必需的算力支持,是整个人工智能产业发展的基石。人工智能和物联网有望很快将全球芯片市场的规模从4000亿美元提升到5000亿美元级别。人工智能领域基本被美国和中国两个国家主导,新兴的人工智能芯片,将是中国芯片企业崛起的一大时代机会。

中国在近年诞生了一大批人工智能公司、芯片公司,中国还有大量的智能化市场需求。一些有资金、技术、经验积累的中国企业甚至已开始了对最底层的处理器架构的攻坚。在人工智能的浪潮中,中国其他企业有机会像英特尔抓住微处理器、三星电子抓住存储器、高通和华为抓住智能手机处理器一样,选对赛道、后发制人,真正切入芯片的高端和上游,改写中国芯片长期落后的历史!

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈