环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高

2020-06-27 03:58 关键词:环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高 阅读:6

原题目:环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高

AI芯片的合作早已不是简朴的峰值算力比拼,架构立异、软硬件的联合、芯片利用率(芯片实测算力/芯片峰值算力)越来越多的被存眷。6月23日,鲲云科技公布了环球首款量产数据流AI芯片CAISA,定位高机能AI推理。据悉,CAISA最高可实现95.4%的芯片利用率,较同类芯片提高最高11.6倍。第三方测试数据显现仅用1/3的峰值算力,CAISA芯片能够实现英伟达T4最高3.91倍的实测机能。

数据流芯片为何能实现超高利用率?CAISA在哪些范畴上风明明?

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高鲲云科技创始人牛昕宇

甚么是数据流芯片?

比拟数据流芯片,冯诺依曼架构的芯片更被大部分人所熟知,CPU就是冯诺依曼架构的代表。不外,因为冯诺依曼架构是经过指令施行序次节制盘算递次,并经过离散数据搬运与数据盘算供应盘算通用性。凭仗其通用性和普遍的利用,冯诺依曼架构芯片成为了关键的AI芯片。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高基于冯诺依曼的典范指令集架构示意图

可是,跟着AI算法的持续演进,AI模子对算力的需求持续提高,内存机能跟不上盘算单位算力的敏捷提高,冯诺依曼架构的内存墙成绩成了拦阻AI和AI芯片生长的关键。冲破内存墙瓶颈成为关键,可重构、存算一体等立异的架构遭到越来越多的存眷,数据流芯片也是当中之一。

与冯诺依曼架构芯片差别,数据流芯片是依托数据流活动序次节制盘算序次,采取盘算流和数据流堆叠运转体式格局消弭闲暇盘算单位,并采取静态装备体式格局确保关于人工智能算法的通用支撑,冲破指令集技巧关于芯片算力的限定。今朝,环球基于数据流体式格局研讨AI芯片的并不多,主如果鲲云、Wave Computing、Sambanova、Groq。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高定制数据流盘算示意图

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高

指令集架构与数据流架构在数据活动和盘算递次上的区分

环球推出量产数据流AI芯片的今朝只要鲲云。以鲲云的CAISA架构为例,数据流架实现AI盘算有三大焦点应战:

高算力性价比:要在维持盘算精确条件下,经过持续紧缩每一个闲暇时钟推高芯片实测机能以靠近芯片物理极限,让芯片内的每一个时钟、每一个盘算单位都在施行有用盘算;

高架构通用性:要在确保每一个算法在数据流芯片上运转能够实现高芯片利用率的同时,支撑全部支流CNN算法;

高软件易用性:要让用户无需底层数据流架构后台常识,简朴几步便可实现算法迁徙和摆设,低落使用门坎。

数据流芯片怎样实现最高95.4%的芯片利用率?

鲲云CAISA3.0架构在这三大技巧上都有冲破。实现高算力性价比的关键是时钟级精确的盘算,这也是数据流架构芯片的焦点应战。

鲲云科技创始人牛昕宇对雷锋网(公家号:雷锋网)示意:“时钟级精确的盘算是数据流自己焦点开辟的应战,在架构设想的第一天脑海中就要有一个时钟精确的概念。不止是架构要时钟精确,软件要时钟精确,开辟的模子也要时钟精确。要做到这一点实在很难,今日我们跟各位说为何鲲云迭代了三代架构,这内里每一个应战都需求大批工程积聚,持续的迭代来做到时钟精确。”

详细而言,CAISA3.0架构经过数据盘算与数据活动的堆叠,紧缩盘算资源的每一个闲暇时钟;经过算力资源的静态平衡,消弭流水线的机能瓶颈;经过数据流的时空映照,最大化复用芯片内的数据流带宽,削减对外部存储带宽的需求。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高CAISA3.0架构

如此的设想使CNN算法的盘算数据在CAISA3.0内能够实现不连续的连续运算,最高可实现的芯片利用率,在平等峰值算力水平下,可取得相关于GPU 3倍以上的实测算力,供应更高的算力性价比。

除了高机能,面临庞杂多样的AI需求,AI芯片的通用性也决意着AI芯片可否更普遍被利用。据悉,CAISA3.0架构能够经过流水线静态重组实现对差别深度练习算法的高机能支撑。经过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人工智能算子模块、部分数据流网、部分数据流缓存的分层设想,在数据流装备器节制下,CAISA架构中的数据流毗邻关系和运转形态都能够被主动化静态装备,从而天生面向差别AI算法的高机能定制化流水线。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高数据活动与数据盘算堆叠示意图

说的简朴一些,借助数据流装备器,CAISA架构能够依照差别的AI算法定制合适的流水线,去知足目的检测、分类及语义朋分等的需求。别的需求弥补的是,数据流架构中数据和盘算是融会在一同,数据经过PCIe接口输入,芯片内有少许缓存单位,在两个数据流毗邻不是那末完美的时分,起到缓存感化。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高CAISA架构中资源装备示意图

“至于对新算法的支撑,我们一方面经过软件对象持续迭代,别的CAISA架构也会连续迭代。CAISA支撑的8GB DDR能知足多种算法的组合和存储,我们斟酌了AI临时的生长。”牛昕宇示意。

软件不但有助于知足持续更新算法的需求,其易用性照样迷惑客户的关键。据分析,鲲云专为CAISA3.0架构装备的RainBuilder编译对象链支撑从算法到芯片的端到端主动化摆设,无需分析架构的底层硬件装备,简朴两步便可实现算法快速迁徙和摆设。

鲲云科技合伙人兼研发总监熊超示意“我们支撑开辟中使用的言语,C、C++、Python接口都供应。在使用体式格局上,RainBuilder也跟现有市面上对照常见的对象链类似。绝大多数情形下,用户经过代码上较小的修改就能够将算法切换到鲲云的加速卡上运转。尽管我们底层是数据流架构芯片,可是从使用上来将架构的差别对用户来说是感知不到的。”

固然,RainBuilder编译器还可主动提取支流AI开辟框架(TensorFlow,Caffe,Pytorch,ONNX等)中开辟的深度练习算法的收集构造和参数信息,并面向CAISA构造实行优化。

鲲云科技合伙人兼COO 王少军博士对雷锋网示意:“经过支流开辟框架开收回的模子经过编译器摆设到CAISA这个历程是主动化的,只需求跑一个剧本,今朝实测的客户包孕曾经摆设的客户服从都十分高。固然,我们不清扫第一次摆设历程中软件的兼容性大概其他体式格局会有一些成绩。”

CAISA对标英伟达边沿端旗舰产物

接下来关键的成绩是,CAISA现实体现怎样。鲲云此次公布的CAISA AI芯片采取英特尔28nm工艺,搭载了四个CAISA 3.0引擎,有超出1.6万个MAC(乘累加)单位,峰值机能可达经过PCIe 接口与主处置惩罚器通讯,同时具有双DDR通道,可为每一个CAISA引擎供应超出340Gbps的带宽。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高

基于CAISA 芯片,鲲云推出了星空系列边沿和数据中央盘算平台,X3加速卡和X9加速卡。星空X3加速卡为工业级半高半长单槽规格的PCIe板卡能够与差别范例的盘算机装备实行适配,包孕个人电脑、工业盘算机、收集视频录像机、工作站、服务器。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高

相较于英伟达边沿端旗舰产物Xavier,X3可实现1.48-4.12倍的实测机能提高。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高X3 vs Xavier 芯片利用率对照图

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高X3 vs Xavier 机能对照图

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高X3 vs Xavier 延时对照图

星空X9加速卡定位比星空X3更高,搭载4颗CAISA 芯片,峰值机能对标的也是英伟达AI加速卡T4。

依照第三方评测机构给出的实测机能,X9在ResNet50可达5240FPS,与T4机能靠近,在YOLO v3、UNet Industrial等检测朋分收集,实测机能相较T4有倍机能提高。在到达最优实测机能下,X9处置惩罚延时比拟于T4低落倍。

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高X9 vs T4 芯片利用率对照图

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高X9 vs T4 机能对照图

环球首款量产数据流AI芯片面世!95.4%利用率实现11.6倍提高X9 vs T4 延时对照图

整体而言,凭仗CAISA数据流架构的高芯片利用率,实现的实测机能,对芯片峰值算力的请求可大幅低落3-10倍,这能够进一步低落芯片制造本钱。今朝星空X3加速卡曾经实现量产,星空X9加速卡将于本年8月推出。

今朝,星空加速卡已在电力、教诲、航空航天、智能制造、伶俐都市等范畴落地。王少君说:“我们的低延时上风确切对照明明,特别是工业和主动驾驶行业里,我们的各类客户都给我们反应了一样的信息。固然,作为一家草创公司,软件生态是我们需求去勤奋的偏向。”

雷锋网小结

建立于2016年的鲲云科技,团队在数据流范畴有30年的积聚的情形下,四年后的2020年才盛大的举办新品公布会。这让我们能够分析要将一个冲破性的技巧推向市场的难度。但无论怎样,鲲云作为环球首家量产数据流AI芯片的公司,也让我们对中国AI芯片的合作力增添了合作力。

固然,CAISA数据流芯片高利用率、低提早的上风可否终究成为客户情愿买单的产物,是决意鲲云胜利的关键,生态在当中将施展至关关键的感化。

牛昕宇接管采访时也说:“当芯片利用率曾经靠近95%时,证实我们曾经将芯片的物理极限施展出来给用户了。将来更多的提高偏向是软件的提高,让客户更好的去摆设。”

鲲云牛昕宇:一个定制化数据流人工智能芯片凭甚么知足很多AI场景需求?

AI芯片赛道再入局合作者,鲲云科技获Pre-A轮投资

雷锋网原创文章,未经受权克制转载。详情见转载须知。

联系邮箱:1390477380@qq.com 客服QQ:1390477380

2002-2019 Copyright © 他说汽车网 版权所有