Loading...


安谋我国吴彤:ASIC定制化芯片或成未来芯片架构趋势

2022-05-10 22:24:52 | 作者:bob球彩

  智东西6月4日音讯,近来GTIC 2021嵌入式AI立异峰会在北京满意收官!在这场全天济济一堂、全网直播观看人数逾150万次的高规范AI芯片工业峰会上,来自工业链上下游的16位大佬共聚一堂,环绕嵌入式AI的软硬件生态立异、家居AIoT、移动机器人和工业制作工业4大版块地图,带来了浅显易懂的同享。

  会上,安谋我国AI技能高档商场司理吴彤以《构建AI智能“芯”生态》为题,对当时AI芯片开展趋势以及安谋自研人工智能专用处理器IP“周易”AIPU进行解读。

  现在职业已进入以数据为驱动的核算年代,也称为第五波核算浪潮,从网络架构到核算架构都发生了许多需求。依托Arm世界领先的生态系统资源与技能优势,安谋我国面向国内商场独立研制了“周易”AIPU。

  吴彤谈到当下AI芯片商场有四大开展趋势,一是端侧芯片商场增速十分高,二是未来5-10年端侧推理商场的增速最快,三是ASIC定制化芯片将成为未来的干流,四是细分商场规划将会坚持高速添加。

  另一方面,AI芯片职业专用架构(DSA)正在鼓起,干流AI算法也出现轻量化趋势。在这些趋势下,安谋我国自研的“周易”AIPU具有彻底自主可控、完好生态等特色,现在现已推出两代产品,分别为“周易”Z1和“周易”Z2。

  其间,“周易”Z1是边际核算通用的AI IP,面向IoT&Edge,依据“周易”Z1研制的全志R329智能语音芯片行将大规划商用;“周易”Z2面向边际核算中高功用场景,依据“周易”Z2开发的芯片也行将运用落地,首要掩盖中高端安防和自动驾驶/智能座舱范畴。

  此外,吴彤还介绍了两款AI IP的运用事例,包含人体要害点检测、驾驶员疲惫监测(DMS) 和DTV超级分辨率运用等。

  吴彤:首要感谢主办方智东西的约请,我是安谋我国AI技能商场吴彤。今日给咱们带来的同享主题《构建AI智能“芯”生态》。我的主题同享分为三部分,榜首部分是介绍整个Arm架构的赋能状况,第二部分是一个对AI芯片以及AIoT商场简略的剖析,最终一部分是咱们整个安谋我国自研的AI IP“周易”两代产品的商场、技能状况。

  首要,有一个概念叫做第五波核算浪潮,咱们都知道在曾经最开端的时分,咱们有PC、个人核算、互联网和移动互联网,可以称之为前四波核算浪潮。什么叫第五波核算浪潮?一句话总结,一个以数据为驱动的核算年代。第五波核算浪潮首要特色除了芯片层面多样化的需求以外,从网络架构,包含从核算架构都有许多的需求发生。作为Arm的一家生态型公司,咱们一向在考虑怎么样在这个系统下通过和咱们协作伙伴供给更多定制化的服务,包含架构以及芯片类的立异,可以赋能整个生态。

  这是咱们整个Arm的一个从1991年一向到现在Arm核算架构走向万亿级生态的图。咱们可以看到,从1991年一向到2017年用了26年的时刻,(Arm)到达了全球榜首个一千亿芯片的出货量。从2017年到2021年,其实咱们只用了四年时刻就到达了第二个一千亿芯片的出货量,这个添加十分快。(在)第五代核算浪潮的驱动下,咱们期望未来能到达一万亿芯片的出货量。

  安谋我国从建立之初到现在,几年内,安谋我国在国内服务的客户超越两百家以上,在国内的(芯片)出货量将近两百亿。

  下面给咱们同享一下AI芯片以及整个AIoT商场全体的状况。这儿有四张图从AI芯片的商场规划、按场景、按架构、按运用层面临AI芯片的全体介绍。

  首要榜首张图是整个AI人工智能芯片的商场规划,2017年到2025年挨近十年的区间,有一个趋势可以看到,从赤色数值可以看出,和云端比较,端侧AI芯片的商场增速十分高,特别在未来的5—10年的区间之内。

  第二张图是AI芯片按场景来区分的趋势,这个场景分红四块,两大部分。榜首个维度是整个的云端,包含云端推理和云端练习。第二维度Edge端侧,包含推理和练习。这张图得出一个定论,在未来5—10年内,咱们可以看到,在整个端侧包含云端还有Edge端推理商场的增速是最快的。

  第三个图是AI芯片按架构区分,可以看到人工智能芯片一切看到的干流架构,包含GPU、FPGA、包含ASIC等等。从中也可以看到,ASIC定制类的芯片也会在未来的五到十年内成为商场上的一个干流。

  最终一张图,是依照人工智能的细分笔直范畴场景来看,这儿边咱们看到,手机端不必说了,也是Arm比较干流的一个职业,手机端仍然坚持比较照较高速的添加。一同像可穿戴设备、包含智能音箱几个细分商场未来几年之内也会坚持比较高的添加。

  这个是从笔直商场的层面来讲,咱们谈到,整个人工智能芯片有一个比较重要的概念叫DSA。谈到之前,咱们先看一个很有意思的实验,这个实验是一个算法,这个算法首要以矩阵乘法为主。

  咱们可以看到,增速很快的这条曲线在不同的硬件环境包含软件环境下做的实验。从最开端在Python环境,第二个是在纯C的环境下做,再往后咱们参加了许多并行核算包含memory优化、包含现在干流的SIMD助理,在不同的系统架构下,同一套算法从最原始的Python到最终的SIMD方法(的履行功率)添加63000多倍。

  这个实验阐明什么问题?在咱们现在AI芯片范畴里边,其实DSA也便是专用架构可以处理特定范畴的一些问题,现在乃至将来应该会成为一个干流。这种DSA我给咱们举一个比方,便是什么样的(架构)归于DSA呢?比较闻名的像是NVIDIA GPU、包含许多网络处理器芯片、包含现在咱们比较抢手的NPU神经网络处理器都可以理解为一种处理某些特定范畴问题的架构,咱们都(可以)叫DSA。

  这是咱们看到的现在、包含未来有或许AI芯片架构全体技能演进的趋势。从最上面的GPU,以英伟达和AMD为代表,GPU自身做图形处理,最开端不是给AI人工智能来用,英伟达为代表的这些公司在GPU里边做了许多改善,参加HWA(Hard·Wired·Accelerator),也便是咱们叫TensorCore,把它(GPU)变成面向人工智能范畴很好的处理器芯片。

  还有一类也是传统做信号处理的DSP,现在也有许多公司把它变成人工智能芯片,在DSP基础上参加许多的MAC阵列。比方英特尔收买的一家公司较Habana他们的架构也是依据这个架构规划的。

  还有一类,以ARM为代表的异构核算,加了CPU,一同也有DSA的专用范畴,参加专业面向矩阵加快的HWA加快器,构成了一种异构核算形式。这种形式咱们认为,在现在包含未来将会成为干流,它可以一同满意很好的PPA(Power Perform Area),包含各种能效比都会到达很高的数值。

  这儿是咱们依据许多客户的需求,咱们大约总结了一下,当许多公司都在谈一款好的AI芯片,不论你自己规划仍是用各种老练的IP也好,什么样的芯片才干称之为好的AI芯片?我大约分了六个维度。

  一颗好的AI芯片通过各种世界干流的benchmark评测,包含像MLPerf;像人工智能联盟的benchmark,也是在国内很闻名的benchmark;还有等等。这个是衡量AI芯片算法模型很干流的评测规范。

  还有一个,咱们不但从硬件,咱们还要从整个生态链、软件栈,也便是咱们常常说的东西链(来看)。从东西链层面,许多公司特别像咱们规划了很完好的东西链系统。东西链的完好是衡量你AI芯片是否老练的一个规范,一同也是看到你可以给客户供给什么样的这种支撑。

  还有一个许多媒体都在谈的,AI芯片一定要谈算力TOPS。其实TOPS不是仅有衡量AI芯片算力的规范,还有许多其它要素,比方有TOPS/瓦能效比,跟微观、功耗包含算力利用率都是有关的。还有很重要的要素,便是存储带宽。刚刚知存科技的王总也提到了,为什么咱们现在存算一体芯片十分抢手,便是它可以处理数据搬移的问题。

  首要AI芯片要有很好的灵敏性,由于咱们的算力不是固定的东西,需求支撑常见的神经网络,一同有很强的扩展才干,比方客户才干很强,会自定义自己的算子,作为IP或许芯片供货商来说,咱们需求可以支撑客户做自定义算子的扩展。

  当然了,还有除了AI层面的其它要素,我把它列了叫非AI功用。咱们触摸了许多客户后发现,客户对咱们的需求不只仅只在AI一个层面。比方关于安防场景来说,安防客户不只仅需求你只供给一个AI芯片,期望你供给更多的Solution处理方案,比方需求ISP、VPU、视频处理等等。

  其实许多非AI功用假如你能把它变成一个全体处理方案,在未来许多笔直范畴是十分有竞争力的。现在安谋我国也在打造这样比较完好的IP组合渠道。

  这是一个对AIoT芯片商场的剖析。简略说,整个AIoT芯片方才几位嘉宾也讲过,AIoT整个商场其实比较碎片化,现在看它的增速十分快,端侧的芯片增速也十分快。

  可是首要它有许多这种需求,比方对低功耗要求十分高,在许多低功耗的场景,乃至到达毫瓦级的水平,比方可穿戴设备等。一同,关于许多场景来讲,或许算力要求没有特别高,特别关于AIoT范畴,在100 GOPS下就可以掩盖大部分场景。

  这个是咱们看到的整个AI算法商场的一个轻量化趋势。左面这张图来说,2014年开端市面上干流的轻量化算法,对算力需求越来越低。咱们看到,许多干流的算法轻量化趋势十分显着,它的核算量包含权重跟之前比较现已减少了几十倍左右。举个比方,咱们做多目标检测的时分,假如想做30FPS Throughput(吞吐量),只需求大约百GOPS算力就可以了,每帧核算量可以降低到5GOPS以内。

  此外,算法轻量化的趋势商汤的闫总也提到了,咱们有许多模型轻量化的手法,都是一些很干流的量化、剪枝、同享、常识蒸馏等等。那么这种模型量化的手法是日益的在演进,也就把咱们算法轻量化的趋势推的越来越显着。

  前面同享了Arm架构和AI芯片和AIoT芯片的趋势。后边要点讲一下安谋我国“周易”AIPU的一个全体状况。“周易”AIPU是安谋我国自研IP产品线中AI人工智能部分,咱们还有CPU、ISP其他等等的产品线。

  这是咱们现在,“周易”也是AIPU产品线上看到的商场上几个比较抢手的时机。榜首个是比较热的安防,咱们现在有客户和协作伙伴现已在依据咱们的AIPU定制自己安防前端的芯片,应该很快产品就会出来。手机是ARM在手机端生态里边比较优势的一块,未来作为安谋我国自研“周易”AIPU将来重视的商场。

  还有别的一个商场便是自动驾驶和智能座舱。假如咱们去看各种峰会、媒体(报导),智能轿车现已成为现在最热的一个词,而不是之一。

  从安谋我国来讲,咱们对自动驾驶以及智能座舱范畴十分重视。首要,Arm可以供给的IP组合通过级联等,做到几百体T(TOPS)以上的算力,一同咱们可以供给的不只仅是AI,而是包含AI完好的一套面向智能轿车完好的处理方案,(这)也是未来咱们期望着力去开展的范畴之一。并且现在咱们有比较闻名的协作伙伴,也会在本年或许下一年推出依据咱们AIPU的座舱类产品。

  其他几种,像智能家居、机器人、新零售,现在智能家居现已有落地的芯片,本年年内有智能音箱的产品出来,也是一家TOP的公司。

  1、“周易”AIPU四大特色:本乡研制、生态完好、架构立异、满意高PPA目标

  安谋我国的“周易”AIPU有四个特色,这是咱们硬件一个比较简略的结构图:

  1)首要“周易”AIPU由我国本乡团队研制,一切的常识产权彻底自主可控,现在“周易”AIPU在几个比较要点的范畴安防、轿车、智能语音范畴开端行将大规划商用;

  2)一同,咱们会给客户、协作伙伴供给完好的技能生态,它是一个硬件加上完好的东西链以及适配整个硬件算法的系统;

  3)从架构层面,自研一套专门面向深度学习的指令集架构,也是安谋我国技能团队自主研制;

  4)从PPA的三个目标来讲,通过咱们的实践测验和客户的反应,可以到达很好的匹配。

  这是咱们整个“周易”架构比较照较具体的介绍。从技能层面,指令集层面分红三类,榜首类指令集叫做张量指令集,也便是咱们常常常见的向量Vector,可以对一般的神经网络进行运算和处理。

  第二类咱们把它叫做AI Fix Function,这一类有点相似硬件加快单元,它是针对卷积操作里边很常见的一些操作来做特定的硬件加快,可以供给很好的功率,比方像卷积、池化、激活等等。

  最终一类归于算力需求比较低的咱们叫标量,首要做一些循环跳转类的处理,有点相似CPU形式。“周易”从架构级层面来说,三种不同的处理混合在一同,可以满意客户从算力很低到算力很高不同的需求。一同,Arm还有一个闻名度比较高的Trustzone可安全扩展,自身在“周易”里边也集成了咱们的安全维护,可以有用维护用户信息,比方算法的数据等。

  最终一点,也是比较要害的一点,咱们跟许多客户触摸中发现,许多客户假如选用比较老练的IP做自己的SoC的时分,有许多客户的算法才干十分强,需求有算子自定义的需求。依据咱们的调研,大约50%以上的客户有算子自定义的需求、自身咱们的“周易”AIPU就有很好的支撑客户算子的自定义扩展。

  自身AIPU要害的一点便是灵敏可编程。在规划一款芯片的时分,其生命周期在5年左右。在这5年的区间里,算法自身的迭代是十分快的。在规划芯片之初,就要考虑有很完好的算子支撑,乃至IP的改变是彻底可编程的,这才干满意算法的不同需求。自身咱们的IP也是朝这个方向去做。

  “周易”AIPU可以供给一个比较完好的可扩展才干。由于“周易”自身是比较通用的AIPU渠道,可以供给从最小0.2T算力乃至上百T算力的组合。这儿边临许多比方常见神经网络层,包含算子可以彻底完结可编程,通过TEC张量来做的。

  针对特定的卷积类操作,比方池化、激活、权重、特征图紧缩等,咱们通过一个特定的AI指令集也便是AI Fix Function来做,一同支撑客户的扩展。

  从东西链层面,咱们会给客户供给完好易用的SDK。举个比方来说,咱们有命令行乃至图形的方法让客户可以快速一键生成咱们的模型,比方你有一个TensorFlow或许Caffe的模型,通过命令行输入,直接通过SDK一键转化,很快生成AIPU可履行的文件,整个操作十分便利。一同,从模型结构方面,现在支撑现在市面上比较干流的一些模型,包含TensorFlow、Python、TensorFlowLite等。

  这是咱们的总结,面向人工智能范畴端、边、云三大类,“周易”根本可以掩盖全场景人工智能处理方案,从端侧、边际侧、云端做一个总结。端侧有门锁、可穿戴设备,像TWS、智能音箱、包含手机智能终端等每年商场的规划,包含需求的算力需求以及它的功耗,我大约做了一个全体的剖析。

  从这儿边,咱们可以得出一个定论,现在商场干流的处理方案根本仍是以GPU包含DSP为主,可是未来的趋势,也便是最佳的处理方案,面向一切的场景来说,ASIC定制化的芯片将成为首要的处理方案。关于“周易”AI IP来讲,两代产品包含本年年底发的第三代产品根本上可以掩盖从端侧到边际侧一切的人工智能场景。

  人工智能芯片除了硬件层面,整个软件栈便是咱们的生态是十分重要的,这是现在“周易”全栈式异构渠道的软件栈。最底层对Arm全体Cortex CPU、Mali GPU以及咱们自研的AIPU硬件系统的支撑;到上层许多核算库,包含协作伙伴完好的driver以及run time库,像Arm NN、Tengine的支撑;到最上面像TensorFlow、Caffe、PyTorch等等支撑,“周易”掩盖了整个软件站各个层面的支撑。

  从东西链层面,咱们现在针对一颗芯片来说,一切的东西链全部都是支撑的,包含Simulator、Debugger、Profiler、Compiler还有Build Tool,也是构建整个完好生态十分重要的一个环节。

  这儿边是咱们刚刚讲的,“周易”是通用的AIPU渠道,假如通用的话,咱们一定要谈到对现在商场上干流的深度学习算子支撑,内置的Model Zoo预练习模型的支撑,涵盖了现在市面上可以看到的干流算法,比较抢手的transformer等等。

  在算子层面,“周易”的第二代产品支撑超越120个以上的干流算子,并且还在继续的添加过程中。

  在安防、自动驾驶许多场景里边,客户需求完好的处理方案,针对客户需求咱们打造了面向CV视觉范畴完好的IP处理方案。这儿边不只仅包含AI,包含ISP、CPU,通过互联的方法组成完好的生态链。

  Arm的M和A系列是彻底支撑的,ISP也有Arm我国自研的小巧,(该产品)前段时刻刚刚发布,ISP和“周易”、Video Encoder等一同,可以为客户供给一个完结比较完好的视觉IP处理方案。

  这是咱们“周易”的榜首代产品,叫“周易”Z1。这是咱们跟全志科技(协作)现已正式量产,本年很快大规划商用。全志R329用的是周易Z1的AIPU,供给的算力在0.2TOPS左右。

  这个算力也让咱们看到了在智能音箱范畴算力的一个趋势,咱们可以看到,端到端的语音算法将会成为一个干流的趋势。

  “周易”可以很快处理端到端的处理,把数据直接通过神经网络送进来,不需求独自像之前由DSP做前端处理,可以通过AIPU处理。通过实验比照,咱们跟一些DSP做了一些测算。能效比包含算力(“周易”AIPU)相当于它(DSP)的七倍以上。

  这也是“周易”Z1,可以供给不同的算力组合。这是咱们做了一个人体要害点检测的运用事例,实践运用去跑,支撑人脸要害检测的算法,像Open pose、Deep pose等,在1TOPS核算力环境下吞吐量根本可以做到80FPS。并且在这个环境下,咱们的bandwidth(带宽)十分低,整个本钱相较来说也比较低。

  “周易”Z2(是)第二代产品,跟Z1有一点不同,“周易”Z2更多面向边际核算和中高端的场景,比方自动驾驶、中高端的安防等等。

  Z2和上一代产品比较,它的特色在于单核算力是上一代产品的两倍乃至更高,一同支撑多核级联,其算力在128TOPS左右,可以做到自动驾驶乃至中高端场景的需求,芯片面积Z2比上一代产品节约30%左右

  从算法层面来讲,“周易”Z2支撑混合精度核算,一同在平等算力装备下,通过测算“周易”Z2比上一代产品针对某些网络模型的功用高许多,两代产品做了一个比照,找了一个比较闻名的网络模型MobileNet V2,在带宽节约30%一同,功用提高挨近3倍左右

  “周易”Z2在本年或许下一年也有一些协作伙伴,依据“周易”Z2 AI IP做运用和场景的落地,首要面向安防和智能轿车两个范畴。

  这是咱们在“周易”Z2实践的运用环境做的智能轿车比较热的范畴DMS驾驶员的疲惫监测。咱们和干流的DMS公司做了算法的协作,涵盖了Face Detection、Face landmark、Head pose、Gaze等一切算法咱们做了一个交融。“周易”Z2在1TOPS算力环境下,throughput做到了70fps左右。

  这是别的一个运用,“周易”Z2做了超级分辨率DTV(的一个事例)。咱们也是跟干流的超级分辨率公司做了协作,用的“周易”Z2 1T算力硬件环境,通过咱们的测算可以做到4K 60帧左右,一同运用业界闻名的图象或许质量点评东西WMAF,其评分到达93分。根本上(该运用的)93分是十分高的分值,一般做到80分以上就十分高了。

  最终跟咱们全体的总结一下,现在安谋我国依据全球Arm的规范,咱们在这个基础上做了许多本乡立异的作业。榜首,咱们的“周易”AIPU是面向安防、车载乃至移动许多IT场景的AI通用处理器。

  还有其它的安谋我国自研产品,包含“山海”,是面向物联网范畴的安全处理方案,现在许多客户在落地。还有两个是咱们的CPU和ISP处理方案,一个是“星斗”(STAR),(一个是“小巧”)。在TWS范畴,OPPO用了咱们“星斗”CPU IP(的产品),现已大规划量产和出货。“铃珑”是咱们近期刚刚安谋我国推出的自研ISP处理方案,后边还会推出面向安防和智能轿车不同运用场景的处理方案。



上一篇:全球第三大芯片架构英特尔127亿收买案失利中企也松了一口气
下一篇:为什么说开源、免费的操作系统、芯片架构很难打赢闭源的?

电信与信息服务业务经营许可证:京ICP证161398号信息网络传播视听节目许可证0110552号 广播电视节目制作经营许可证书13223号电话:010-82616677

©2002-2019 www.xcar.com.cn All rights reserved. bob球彩-bob买球靠谱吗-bob买足球 版权所有.