首页 理论教育 开启的智能革命:人工智能芯片的崭新时代

开启的智能革命:人工智能芯片的崭新时代

时间:2023-06-21 理论教育 版权反馈
【摘要】:GPU有两个核心功能:第一,它包含数以千计的处理核并行计算。我们来看一看人工智能的基准测试程序中有关芯片利用效率这个指标(图4)。芯片实测性能是用户得到的价值,峰值性能基于芯片的尺寸和技术,反映芯片的成本。在图6的定制人工智能数据流的芯片架构CAISA3.0中我们可以看到,这个架构和GPU一样包含多个定制处理器,它们可以并行运作以支持大规模的并行计算。

开启的智能革命:人工智能芯片的崭新时代

陆永青

帝国理工学院教授,鲲云科技联合创始人兼首席科学家

图8-47 在线监测——油色谱

英国帝国理工学院教授,英国皇家工程院院士,电气电子工程师协会(IEEE)、英国计算机学会(BCS)会士,中国人工智能产业创新联盟专业委员会主任委员及鲲云科技联合创始人兼首席科学家,鲲云人工智能应用创新研究院院长。ACM TRETS创刊主编,定制计算领域学术会议FPT、FPL创始人,ASAP、FCCM、FPL、FPT、HEART学术会议指导委员会委员,曾任英国皇家工程院杰出访问学者评选委员会委员。作为可重构计算及现场可编程技术领域的国际知名学者,在国际学术期刊和国际学术会议上发表500余篇论文,获得国际专利2项,出版学术著作3部。

在开始讨论芯片之前,我首先谈一谈这10年来的高性能计算趋势。大家可能看过全球前500名最快的超级计算机列表。2008年11月,日本的一个基于GPU(图形处理器)的超级计算机首次进入了500强,排名第三十。到了2010年6月,基于GPU的超级计算机“星云”(中国的一款超级计算机)排名第二。10年之后的今天,也就是2020年的6月,我们发现在前10名超级计算机中,基于GPU的占6名。

什么是GPU?GPU有两个核心功能:第一,它包含数以千计的处理核并行计算。也就是说,一个GPU可以支持大规模的并行处理。图1是图灵GPU,每个绿色的部分又包含很多处理核。GPU的第二个核心功能是它支持单指令流、多重数据流。

图8-48 在线监测——套管

图8-49 油色谱试验

图8-50 油务试验——其他项目

图1  图灵GPU

我们先看一看图2左边的CPU。我们可以看到它包含单指令流、单数据流。图2右边的GPU也是单指令流,但它有单指令多重数据架构,可以处理多重数据流。正是因为GPU的数据流可以分享单一指令流,它的效率能比CPU更高。

图8-51 油色谱三比值分析

图2  GPU计算架构

我们比较一下GPU和CPU的性能。从图3中可以看到对于单一精度和多精度浮点操作来说,GPU都比CPU有更高的性能。

GPU如此强大,还有进步的空间吗?我们来看一看人工智能的基准测试程序中有关芯片利用效率这个指标(图4)。其实GPU的芯片利用率并不高,甚至低到了7.52%。芯片利用效率衡量的是芯片的算力性价比。芯片实测性能是用户得到的价值,峰值性能基于芯片的尺寸和技术,反映芯片的成本。芯片利用效率等于芯片实测性能除以芯片峰值性能。

图3  GPU/CPU性能比较

图8-52 油色谱大卫三角形分析

图4  芯片利用效率

也就是说,对于一个给定的峰值性能,芯片利用效率越高,芯片实测性能就越高,用户得到的效果就越好。那么如何改进芯片利用效率呢?过去的几年中,我们研制了一个新的架构,叫作定制数据流计算架构。和图5左边的一个指令流、多重数据流的GPU相比,图5右边的定制处理器也可以处理多重数据流,但它不需要指令流,所以它能比GPU更加有效。

图8-53 油色谱特征气体比较

图5  定制数据流计算架构

GPU的指令让GPU更灵活。定制处理器没有指令,如何实现灵活性呢?在定制处理器中,有一个数据流配置器,这个数据流配置器可以用于动态重组定制处理器,让它尽可能地灵活,就像CPU和GPU一样。

这种架构现在已经被投入实践应用中。在图6的定制人工智能数据流的芯片架构CAISA3.0中我们可以看到,这个架构和GPU一样包含多个定制处理器,它们可以并行运作以支持大规模的并行计算。在每个定制处理器中都有多重配置器,旨在保证灵活性。就像GPU和CPU可以提供的灵活性一样,全局的缓冲结构中也包含了这种配置器,使这个架构更加灵活。(www.xing528.com)

图8-54 定期检测——红外

图6  芯片架构CAISA3.0

CAISA3.0架构的芯片采用了28纳米的工艺,已经被应用于第一代先进的数据流芯片中,可以支持边缘和云端AI推理。图灵GPU的芯片利用效率可以低至只有8%,而CAISA3.0芯片利用率可以高达95.4%,是一个巨大的飞跃。它的峰值算力是10.9 TOPS,可以在-40~125℃之间正常工作。这个CAISA芯片现在已经被应用于星空加速卡X3,可以支持边缘计算平台及云计算平台。该芯片还被用于星空加速卡X9,主要是用于云计算。

接下来我们看一些基准数据,比较一下X9和GPU。首先我们看延时。延时就是响应一个外部输入的时间,所以延时越低越好。从图7中我们可以看到,CAISA芯片的延时比图灵GPU要好30倍,在不同的AI基准中,我们都可以看得到这种优势。

然后再看看图8的芯片利用率。在不同的AI基准中,我们看到CAISA芯片在X9加速卡中,它的芯片利用率比GPU要高11倍。

图8-55 定期检测——噪声

2.趋势分析

本系统提供了多种形式的纵横趋势分析功能,包括发展趋势、历史比较、特征气体。不仅可以进行单台、多台变压器、多监测量同一时间段的趋势分析,还可以进行历史不同时期随时间变化趋势的比较分析。

本系统趋势图具有良好的自主设置功能,左右轴的设置、查询监测量、参考轴、监测时间、曲线颜色、线形等均可由用户自行设置,以求达到满意效果,并将之保存为模板,之后调用时,上述设置可以保持不变,只改变时间即可。还可将变压器的一些重要操作、特殊工况(如过负荷、大修)设置为工况标注,为观察、分析相关数据的变化趋势提供帮助。趋势分析的发展趋势、历史比较、自主设置、趋势图模板、工况标注如图8-56~图8-60所示。

图7  X9和GPU基准数据—延时对比

图8-56 趋势分析——发展趋势

图8  X9和GPU基准数据—芯片利用率对比

再看一看性能。从图9中我们可以看到,CAISA芯片在X9加速卡中能够达到的FPS(画面每秒传输帧数)性能是图灵GPU的3.91倍。

图9  X9和GPU基准数据—性能对比

这是什么意思?我们举一个例子说明:处理分析25000路视频数据。在此案例中,如果我们使用包含GPU加速卡的服务器,我们需要100台服务器,每一个服务器包含8张GPU加速卡,以支持每一个250路的视频分析。如果把性能提升到3.91倍,这就意味着每一个服务器不是仅能支持250路视频,而是可以支持977路视频,这时就不需要100台服务器,而只需要26台服务器,每个服务器上采用8张X9加速卡。这个X9加速卡就是采用了我们刚才讲到的CAISA3.0版本的芯片。

这个用于加速卡的CAISA芯片架构现在已经落地于一系列广泛的领域,包括智能制造、智慧城市、安监生产、轨道交通、智能遥感等。为了能够让应用程序的开发简便易用,我们研制了一个端到端的应用程序开发模型。这个始于深度学习的模型,可以自动产生CAISA架构上的适合应用程序,应用于有关的硬件平台。

也就是说,开发应用程序的人,不需要成为一个AI芯片的专家。他甚至不需要了解CAISA架构,就可以利用它的好处。这个模型支持广泛的深度学习算子,部分如图10所示。这让算法设计者的工作更加轻松,因为他们只要应用这些算子软件,就可以得益于CAISA架构。

图8-57 趋势分析——历史比较

图10  部分支持算子

因此,这种新的架构让我们掀开了人工智能芯片的新的一页。这种芯片可以带来更高的算力性价比,支持更多的AI算法,更便于使用。因为应用开发工具用起来很方便,所以它们会带来更智能的计算平台、系统和应用,它们可以被更快地落地部署。

希望新的CAISA芯片可以让我们受益于最先进的技术进展,让所有人的生活更美好。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈