当前位置:奇闻趣事 > 军事揭秘 >

“深度学习处理器”!中国又一黑科技领先美国

随着阿法狗与韩国李世石对弈,人工智能和深度学习也随之进入人们视野,中科院、谷歌、IBM、英伟达等中美科研机构和商业公司也纷纷推出了用于深度学习的处理器。日前,Intel公布了用于深度学习的Xeon Phi家族新成员Knights Mill,并将于2017年问世。在上述产品中,既有CPU、GPU、DSP这样的传统芯片,也有专门为深度学习而生的NPU。那么,CPU、GPU、DSP、NPU等深度学习处理器各有什么特点,这些深度学习处理器谁更出彩呢?

CPU、GPU、DSP:以现有技术解决新问题

在英伟达开发出针对人工智能的定制GPU,并坚持DGX-1 系统之后,Intel也不甘落后,在收购深度学习创业公司Nervana Systems之后,Intel也公布了用于深度学习的Xeon Phi家族新成员,在深度学习处理器领域开辟新战场。之后Intel和英伟达更是先后宣称自己的产品优于对方的产品,在舆论上打起来口水战。虽然现阶段短时间看还是GPU有优势Intel的众核芯片也在一定程度上吸取了GPU的优势。不过,无论是针对人工智能的众核芯片还是定制版的GPU,本质上都不是专用处理器,实际上是拿现有的、相对成熟的架构和技术成果去应对新生的人工智能,并没有发生革命性的技术突破。

6月20日,中星微“数字多媒体芯片技术”国家重点实验室在京宣布,中国首款嵌入式NPU(神经网络处理器)芯片诞生,目前已应用于全球首款嵌入式视频处理芯片“星光智能一号”。不过,在经过仔细分析后,所谓“中国首款嵌入式神经网络处理器”很有可能是一款可以运行神经网络的DSP,而非真正意义的神经网络专用芯片。

“深度学习处理器”!中国又一黑科技领先美国

上图是星光智能一号发布的系统架构图,共包含四个NPU核,每个NPU核包含4个内核,每个内核有两个流处理器(DataflowProcessor),每个流处理器具有8个长位宽或16位宽的SIMD运算单元。每个NPU核的峰值性能为38Gops(16位定点)或者76Gops(8位定点)。除了多核流处理器本身用于完成卷积运算外,星光智能一号集成了一个超长指令字(VLIW)处理器用于完成神经网络中的超越函数等运算。另有256KB的L2Cache以及DMA模块用于大块数据的搬移。

从其低位宽的定点运算器推断,星光智能一号仅可支持神经网络正向运算,无法支持神经网络的训练。从片上存储结构看,星光智能一号基于传统的片上缓存(Cache),而非像最近流行的神经芯片或FPGA方案一样使用便签式存储。因此,在技术上看星光智能一号是典型的“旧瓶装新酒”方案,将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数,而并非是“狭义的”神经网络专用处理器,如IBM的“真北”芯片。

因此,星光智能一号其实是DSP,而非NPU。其实,Cadence公司的TensilicaVision P5处理器、Synopsys公司的EV处理器和星光一号如出一辙,也是将传统的面向数字信号处理的DSP处理器架构用于处理神经网络,主要在运算器方面作了相应修改,例如低位宽和超越函数,而并非真正的NPU,能够适用于卷积神经网路(CNN),而对循环神经网络(RNN)和长短期记忆网络(LSTM)等处理语音和自然语言的网络有可能就无能为力了。

  • 关注微信

猜你喜欢