人(rén)工智能(néng)浪潮(cháo)的(de)推(tuī)动下,AI相关产业的商用场景正逐步大规模落地,基(jī)于(yú)AI技术(shù)的三大(dà)支柱:“算法+大数据+计算(suàn)能力(lì)”智能应用已成为计算机最主要的负载之一。我国在用户数(shù)据方面拥有数量的先(xiān)天(tiān)优势(shì),但面对有限的规模、结构固(gù)定、能(néng)耗受限的硬件制约下,如何用AI芯片处理海(hǎi)量的并不断(duàn)演进的(de)深度学习(xí)算法呢(ne)?跟(gēn)随OFweek编辑一起来看看(kàn)各大(dà)科技巨(jù)头们研发的AI芯片吧。(排名按首字母(mǔ)顺序排列)
1.含(hán)光800
2019年的杭州云栖大会上,达摩院院(yuàn)长张(zhāng)建(jiàn)锋现场展示了这(zhè)款全球(qiú)最强的 AI芯片——含光800。在业界标准的 ResNet-50 测(cè)试中,含光 800 推理性能达到 78563 IPS,比目前(qián)业界最好(hǎo)的 AI 芯片(piàn)性(xìng)能高 4 倍;能效比500 IPS/W,一个含光800的算力相当(dāng)于10个(gè)GPU。
目前(qián),含光800已经(jīng)实现了大规模应用于阿里巴巴集团(tuán)内多(duō)个场(chǎng)景,例如视频(pín)图像识别/分类/搜索、城(chéng)市大脑等,未(wèi)来还可应用于医疗影像、自动驾驶等(děng)领(lǐng)域。以杭州城市(shì)大脑实(shí)时处理1000路视频为(wéi)例,过去使用GPU需要40块,延时为300ms,单路(lù)视频功耗2.8W;使用含(hán)光800仅需4块,延(yán)时150ms,单路(lù)视频功(gōng)耗1W。
2.Graphcore IPU
总部位于英国布里斯托的Graphcore公司日前推出了一(yī)款称(chēng)为智能处理单元(IPU)的新型AI加(jiā)速处理(lǐ)器。芯片本身,即IPU处理(lǐ)器,是(shì)迄(qì)今为止最(zuì)复杂(zá)的(de)处理(lǐ)器芯片:它在一个16纳米芯片上有(yǒu)几乎240亿个晶体管,每个芯片提(tí)供125 teraFLOPS运算(suàn)能力。一(yī)个标(biāo)准4U机箱中可插入(rù)8张(zhāng)卡,卡间通(tōng)过IPU链(liàn)路互连。8张卡中的IPU可以作为(wéi)一(yī)个处理器元件工作,提供两个petaFLOPS的运算(suàn)能(néng)力。与芯片在CPU和GPU中的存在形式不同,它为机(jī)器智能提供了更高效的处理平台。
Graphcore公司于2016年启(qǐ)动风险投(tóu)资计划,并在2018年12月的最后(hòu)一轮融资中募集了2亿美元。基于(yú)其17亿美(měi)元的公司估值,Graphcore已成为(wéi)西方(fāng)半导体(tǐ)界(jiè)的唯一“独角兽”。它的投(tóu)资者们包括(kuò)戴尔(ěr)、博世、宝马、微(wēi)软和三星。
3.Inferentia芯片
2019年(nián),亚马逊的云服务业务AWS在其发(fā)布会AWS re:Invent上带来了(le)高性能(néng)机器学习加速芯片Inferentia。据了(le)解(jiě),AWS Inferentia 是(shì)一个由 AWS 定(dìng)制设计的机器(qì)学习推理芯片,旨在以极(jí)低成本交付高吞吐(tǔ)量、低延迟推理性能。该芯片将支持 TensorFlow、Apache MXNet 和 PyTorch 深(shēn)度学(xué)习框架以(yǐ)及(jí)使用 onNX 格式的模型。
每个(gè) AWS Inferentia 芯(xīn)片(piàn)都能在低功率下支持高达 128 TOPS(每(měi)秒(miǎo)数万(wàn)亿次运(yùn)行)的(de)性(xìng)能,从(cóng)而为每个 EC2 实(shí)例(lì)启用多个(gè)芯片。AWS Inferentia 支持 FP16、BF16 和(hé) INT8 数据类型。此外(wài),Inferentia 可以采用 32 位训练模型,并使用 BFloat16 以 16 位模型的(de)速度(dù)运行该模型。与EC4上的常规Nvidia G4实例相比,借助(zhù)Inferentia,AWS可提供更低的(de)延(yán)迟(chí)和(hé)三倍的吞吐量,且每次推理成本降低40%。
4.昆(kūn)仑芯片(piàn)
2019年尾声,百(bǎi)度宣布首款AI芯片昆仑已(yǐ)经完成研发,将由(yóu)三星代(dài)工(gōng)生产(chǎn)。该芯片使用的是三星14nm工艺技术,封装解决(jué)方(fāng)案采用的是I-Cube TM。
据悉(xī),昆仑AI芯片提供512Gbps的内存带宽,在150瓦的(de)功(gōng)率下实现260TOPS的处(chù)理(lǐ)能力,能支持语音,图像,NLP等不同的算法模型,其中ERNIE模型的性能是T4GPU的(de)三倍以上,兼容百度飞桨等主流深度(dù)学习框架。该款芯片主(zhǔ)要用(yòng)于云计算和边缘计算,预计在2020年(nián)初实(shí)现量(liàng)产(chǎn),
5.Nervana NNP 芯片
2019 英特尔人工智能峰会,英(yīng)特尔(ěr)推出面向训练(liàn) (NNP-T1000) 和(hé)面向推理 (NNP-I1000) 的英(yīng)特尔 Nervana 神经网络处理器(qì) (NNP)。据了(le)解,Nervana NNP-T 代(dài)号 Spring Crest,采用了台(tái)积(jī)电(diàn)的 16nm FF+ 制程工艺,拥有 270 亿个晶体管,硅片面积 680 平方(fāng)毫米,能够支持 TensorFlow、PaddlePaddle、PYTORCH 训练框架,也支持 C++ 深(shēn)度学习软件库和编译器(qì) nGraph。
Nervana NNP-I,代号为 Spring Hill,是一款专门用于大型数据中心的(de)推理芯片。这款芯片是基于 10nm 技术和(hé) Ice Lake 内核打造的,打造地点是以色列的 Haifa ,Intel 号(hào)称它能够(gòu)利用(yòng)最小的能量来处理高(gāo)负载(zǎi)的工作,它在(zài) ResNet50 的效(xiào)率可(kě)达 4.8TOPs/W,功率范围(wéi)在(zài) 10W 到 50W 之间。
6.Orin芯片
2019年NVIDIA GTC中(zhōng)国大会(huì)中英伟达发布了全新的软件定义自动驾驶平台——NVIDIA DRIVE AGX Orin,该平台内(nèi)置全新Orin系统级芯片,由170亿个晶体管(guǎn)组成。
Orin系统级芯片集成了NVIDIA新一代GPU架构和Arm Hercules CPU内核(hé)以及全新(xīn)深度学习和计算机视觉加速器,每(měi)秒可(kě)运行(háng)200万(wàn)亿次计算,几乎是NVIDIA上一代Xavier系统(tǒng)级芯片性能的7倍。此外,Orin可处(chù)理在自动驾驶汽车和机器人中同时(shí)运(yùn)行的大量(liàng)应用(yòng)和深度神经网络,并(bìng)且达(dá)到了(le)ISO 26262 ASIL-D等系统安全(quán)标准。
7.邃思(sī)DTU
由腾讯领(lǐng)投、融资累计超过 6 亿元的 AI 芯(xīn)片公司燧原科技,在2019年发布会中推(tuī)出自(zì)主研发的首款(kuǎn) AI 训练芯片“邃思 DTU”。
据了(le)解邃(suì)思DTU采用格罗方德12nm FinFET工艺,480平方毫米主芯(xīn)片上承载(zǎi)141亿个晶体管(guǎn),实现2.5D高级(jí)立体(tǐ)封装,据(jù)称单卡单精度算力为业界第一,达20TFLOPS,首次支持(chí)混(hún)合精度,半精度及混合精度下算(suàn)力达80TFLOPS,最大功耗(hào)仅225W。
邃思芯片基于可重构芯片的设计(jì)理念,其计算核心包(bāo)含 32 个通用可(kě)扩展神经元处理(lǐ)器(SIP),每 8 个 SIP 组合成 4 个可扩展(zhǎn)智能计算群(SIC)。SIC 之间通(tōng)过 HBM 实现高速互联,通过(guò)片上(shàng)调度算(suàn)法,数据在迁移中完成计(jì)算,实现(xiàn)了 SIP 利用率(lǜ)最大(dà)化。
8.思(sī)元220芯(xīn)片
寒武(wǔ)纪在第21届(jiè)高交(jiāo)会正式发布边缘AI系(xì)列(liè)产品思元220(MLU220)芯片及(jí)M.2加速卡(kǎ)产(chǎn)品,标志寒武纪在云(yún)、边(biān)、端实现了(le)全方位(wèi)、立体式(shì)的覆盖。
思元(yuán)220芯(xīn)片采用了寒武纪(jì)在(zài)处理器架(jià)构领域的一系(xì)列创新性(xìng)技术,其架构为(wéi)寒武(wǔ)纪最新一代智能处(chù)理(lǐ)器(qì)MLUv02,实现最大32TOPS(INT4)算力,而功耗仅10W,可提供16/8/4位可配(pèi)置的定点运(yùn)算。作为通用处理器,支持各类深度学习技术(shù),支持多模态智能处(chù)理(视(shì)觉、语音和自然语言处理),应用领域广泛,客(kè)户可以根据实(shí)际应(yīng)用灵活的(de)选择(zé)运算类型来获得(dé)卓越的人(rén)工智能(néng)推理性能。
9.昇腾910
2019年8月,华为在深圳(zhèn)总部发(fā)布AI处(chù)理器Ascend 910(昇(shēng)腾(téng)910),据华为发布的参数显示,昇腾(téng)910是一款具有超(chāo)高算力的AI处理(lǐ)器,其最大功耗为310W,华为自(zì)研的达(dá)芬奇架构大大提升了其能效比。八位整(zhěng)数精度(dù)(INT8)下的性能达(dá)到(dào)512TOPS,16位浮点数(FP16)下的性能(néng)达到256 TFLOPS。
作(zuò)为一款高集(jí)成度的片上(shàng)系统(SoC),除了基(jī)于达芬奇架构的AI核外,昇腾910还集成(chéng)了多个(gè)CPU、DVPP和(hé)任务调(diào)度(dù)器(Task Scheduler),因而具(jù)有自我管理能力,可以充分发挥其高(gāo)算(suàn)力的(de)优势。
昇腾(téng)910集(jí)成了HCCS、PCIe 4.0和(hé)RoCE v2接(jiē)口,为构建横向(xiàng)扩展(Scale Out)和纵向(xiàng)扩展(Scale Up)系(xì)统提供(gòng)了灵活(huó)高效的(de)方(fāng)法。HCCS是华为自研的高速互联接口,片内RoCE可(kě)用于节(jiē)点间直接互联。最新的PCIe 4.0的吞吐量比(bǐ)上一代提升一倍。
10.征程二代
2019世界人工智能大会中,人(rén)工智能(néng)芯片(piàn)初创(chuàng)公司地平线正式宣布量产(chǎn)中国首款车规级人工智能芯片——征程二(èr)代(dài),并且获得五个(gè)国家(jiā)市场(chǎng)客户的前装(zhuāng)定点项目(mù)。
据介绍,征程二(èr)代于今(jīn)年(nián)初(chū)流片成功,搭(dā)载地平线自(zì)主创(chuàng)新研发的高性能计算(suàn)架构BPU2.0(Brain Processing Unit),可提供超过4TOPS的等效算力,典型功(gōng)耗仅2瓦,满足AEC-Q100标准,算力(lì)利用率(lǜ)超过90%,每TOPS算力可以处理(lǐ)的帧数可达同等算(suàn)力GPU的10倍以上,识别精度超过99%,延迟少(shǎo)于100毫秒,多任务模式下可(kě)以同时跑超过60个分(fèn)类任务,每秒钟识别目标数可以超过2000个。
此次地(dì)平线率先推出首款车规(guī)级AI芯片(piàn)不仅实现了中国车规级AI芯(xīn)片(piàn)量产零的突破,也补齐(qí)了国内自动驾驶(shǐ)产业生态(tài)建(jiàn)设(shè)的关键环节。
小结
目(mù)前通过CPU/GPU处理人工神经网络(luò)效率低下,谷歌大脑需要1.6万个CPU核跑数天方能(néng)完成猫脸识别(bié)训练(liàn);AIpha GO与李世(shì)石下棋时(shí)用了1000个CPU和200个GPU,AI芯片的发展是(shì)第三(sān)次AI浪(làng)潮中极为明显的(de)趋势,算法已渗透到云服务器和智能手(shǒu)机的方方面面(miàn),未来每台计算机可能都需要一个专门的深度学习处理器。