鲲云科技基于数据流技巧开收回算力利用率超出95%的AI芯片

2020-06-25 04:25 关键词:数据流技术,计算算力,AI芯片 阅读:6

深圳AI芯片草创公司鲲云科技最近发布环球首款基于数据流技巧的AI芯片,定位于高机能AI推理,合适安防监控、图像处置惩罚、智能制造、伶俐电力、主动驾驶/ADAS,以及航空航天遥感监测等利用范畴。

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片此次发布的CAISA芯片采取鲲云自研的定制数据流架构CAISA 相较于上一代芯片架构在服从和实测机能方面有了大幅提高。CAISA3.0在多引擎支撑上供应了4倍的并行度挑选,架构的可拓展性大大提高。在AI芯片内,每一个CAISA都能够同时处置惩罚AI工作负载,在峰值算力提高6倍的同时维持了高达的芯片利用率。另外,该芯片在算子支撑上愈加通用,可支撑绝大多数神经收集模子快速实现检测、分类和语义朋分摆设。

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

鲲云科技开创人牛昕宇发布环球首款数据流AI芯片

鲲云经过自主研发的数据流技巧在芯片实测算力上实现了技巧冲破,其芯片利用率超出95%,较同类产物提高最高达11.6倍。第三方测试数据显现,CAISA芯片仅用英伟达T4 1/3的峰值算力,便可实现最高3.91倍的实测机能。这类定制化数据流技巧不依托进步的晶圆制造工艺和更大的芯片面积,而是经过数据活动节制盘算递次来提高实测机能,可为用户供应更高的算力性价比。

数据流架构 VS. 指令集架构

古老的指令集架构采取冯诺依曼盘算体式格局,经过指令施行序次节制盘算递次,并经过离散数据搬运与数据盘算供应盘算通用性。CAISA架构依托数据流活动序次节制盘算序次,采取盘算流和数据流堆叠运转体式格局消弭闲暇盘算单位,并采取静态装备体式格局确保关于人工智能算法的通用支撑,从而冲破了指令集技巧关于芯片算力的限定。

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

升级版的CAISA3.0架构处理了数据流架构作为人工智能盘算平台的三大应战:

  1. 算力性价比:在维持盘算精确条件下,经过持续紧缩每一个闲暇时钟推高芯片实测机能以靠近芯片物理极限,让芯片内的每一个时钟、每一个盘算单位都在施行有用盘算;
  2. 架构通用性:在确保每一个算法在CAISA上运转能够实现高芯片利用率的同时,CAISA3.0架构通用支撑全部支流CNN算法;
  3. 软件易用性:经过专为CAISA定制的编译对象链实现算法端到端主动摆设,用户无需底层数据流架构后台常识,简朴两步便可实现算法迁徙和摆设,低落使用门坎。

具体来讲,鲲云CAISA3.0架构的三大技巧冲破次要经过以下技巧体式格局实现:

  1. 时钟级精确的盘算提高算力性价比

CAISA3.0架构由数据流来驱动盘算历程,无指令操纵,能够实现时钟级精确的盘算,最大限度的削减硬件盘算资源的闲暇时候。CAISA3.0架构经过数据盘算与数据活动的堆叠,紧缩盘算资源的每一个闲暇时钟;经过算力资源的静态平衡,消弭流水线的机能瓶颈;经过数据流的时空映照,最大化复用芯片内的数据流带宽,削减对外部存储带宽的需求。上述设想使CNN算法的盘算数据在CAISA3.0内能够实现不连续的连续运算,最高可实现的芯片利用率,在平等峰值算力水平下,可取得相关于GPU 3倍以上的实测算力,从而为用户供应更高的算力性价比。

       2.流水线静态重组加强架构通用性

CAISA3.0架构能够经过流水线静态重组实现对差别深度练习算法的高机能支撑。经过CAISA架构层的数据流引擎、全局数据流网、全局数据流缓存,以及数据流引擎内部的人工智能算子模块、部分数据流网、部分数据流缓存的分层设想,在数据流装备器节制下,CAISA架构中的数据流毗邻关系和运转形态都能够被主动化静态装备,从而天生面向差别AI算法的高机能定制化流水线。在确保高机能的条件下,支撑用户使用基于CAISA3.0架构的盘算平台实现如目的检测、分类及语义朋分等普遍的人工智能算法利用。

       3.算法端到端主动化摆设提高软件易用性

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

RainBuilder架构图(滥觞:鲲云科技)

专为CAISA3.0架构装备的RainBuilder编译对象链支撑从算法到芯片的端到端主动化摆设,用户和开辟者无需分析架构的底层硬件装备,简朴两步便可实现算法快速迁徙和摆设。RainBuilder编译器可主动提取支流AI开辟框架(TensorFlow,Caffe,Pytorch,ONNX等)中开辟的深度练习算法的收集构造和参数信息,并面向CAISA构造实行优化;对象链中的运转时(Runtime)和驱动(Driver)模块负责硬件经管并为用户供应尺度的API接口,运转时能够基于切确的CAISA机能模子,实现算法向CAISA架构的主动化映照,同时供应能够被高等言语间接挪用的API接口;最底层的驱动能够实现对用户通明的硬件节制。RainBuilder对象链使用简朴,摆设轻易,通用性强,能够让用户快速和低本钱的摆设和迁徙已有算法到CAISA硬件平台上。

数据流带来AI芯片研发新偏向

作为环球首款采取数据流技巧并实现量产的AI芯片,CAISA搭载四个CAISA 3.0引擎,具有超出1.6万个MAC(乘累加)单位,峰值机能可达该芯片采取28nm工艺,经过PCIe 接口与主处置惩罚器通讯,同时具有双DDR通道,可为每一个CAISA引擎供应超出340Gbps的带宽。

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

CAISA芯片架构图(滥觞:鲲云科技)

作为一款面向边沿和云端推理的人工智能芯片,CAISA可实现最高的芯片利用率,为客户供应更高的算力性价比。CAISA芯片具有精良的通用性,可支撑全部使用AI算子,经过数据流收集中算子的差别装备和组合,CAISA芯片可支撑绝大多数的CNN算法。针对CAISA芯片,鲲云供应RainBuilder 3.0对象链,可实现推理模子在芯片上的端到端摆设,使软件工程师能够轻易的完成CAISA芯片在AI利用系统中的集成。

聚焦数据流定制盘算,加快AI利用落地

鲲云科技由数据流定制盘算范畴专家陆永青(Wayne Luk)院士及其研发团队建立,致力于供应下一代人工智能盘算平台,加快人工智能落地。鲲云科技已英特尔、海潮和戴尔等行业巨子实现计谋互助,并与帝国理工学院、哈尔滨工业大学、北京航空航天大学、天津大学、香港城市大学等建立结合实验室,在定制盘算、AI芯片宁静、工业智能等范畴展开前沿研讨互助。

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

星空加快卡系列产物图(滥觞:鲲云科技)

在发布会上,鲲云科技开创人和CEO牛昕宇博士公布推出基于CAISA芯片的星空系列边沿和数据中央盘算平台 -- X3加快卡和X9加快卡,并发布了由人工智能工业技巧联盟(AIIA)测试的包孕ResNet-50, YOLO v3等在内的支流深度练习收集的实测机能。

星空X3加快卡是搭载单颗CAISA 芯片的数据流架构深度练习揣摸盘算平台,为工业级半高半长单槽规格的PCIe板卡。得益于其轻量化的规格特性,X3加快卡能够与差别范例的盘算机装备实行适配,包孕个人电脑、工业盘算机、收集视频录像机、工作站、服务器等,知足边沿和高机能场景中的AI盘算需求。相较于英伟达边沿端旗舰产物Xavier,X3可实现1.48-4.12倍的实测机能提高。

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

X3 vs Xavier 芯片利用率对照图(滥觞:鲲云科技)

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

X3 vs Xavier 机能对照图(滥觞:鲲云科技)

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

X3 vs Xavier 延时对照图(滥觞:鲲云科技)

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片星空X9加快卡发布(滥觞:鲲云科技)

星空X9加快卡为搭载4颗CAISA 芯片的深度练习揣摸板卡,峰值机能次要知足高机能场景下的AI盘算需求。同英伟达旗舰产物T4相对,X9在ResNet-50, YOLO v3等模子上的芯片利用率提高倍。在实测机能方面,X9在ResNet50可达5240FPS,与T4机能靠近,在YOLO v3、UNet Industrial等检测朋分收集,实测机能相较T4有倍机能提高。在到达最优实测机能下,X9处置惩罚延时比拟于T4低落倍。实测机能以及处置惩罚延时的大幅领先,让数据流架构为AI芯片的生长供应了提高峰值机能以外的另一条技巧门路。

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片

X9 vs T4 芯片利用率对照图(滥觞:鲲云科技)

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片X9 vs T4 机能对照图(滥觞:鲲云科技)

鲲云科技基于数据流技巧开辟出算力利用率超出95%的AI芯片X9 vs T4 延时对照图(滥觞:鲲云科技)

鲲云科技经过CAISA数据流架构提高芯片利用率,一样的实测机能,对芯片峰值算力的请求可大幅低落3-10倍,从而低落芯片的制造本钱,为客户供应更高的算力性价比。

联系邮箱:1390477380@qq.com 客服QQ:1390477380

2002-2019 Copyright © 他说汽车网 版权所有