2016年6月份,中星微数字多媒体芯片技术国家重点实验室宣布,经过多年的探索和研究,中国首款嵌入式神经网络处理器(NPU)芯片——星光智能一号诞生,并实现量产。NPU采用了“数据驱动”并行计算的架构,单颗NPU(28nm)能耗仅为400mW,极大地提升了计算能力与功耗的比例,可以广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。
神经网络处理器(NPU)针对CNN(卷积神经网络,ConvolutionalNeuralNetwork)算法特性而设计的处理器内核,彻底颠覆了冯诺依曼架构而采用了“数据驱动”并行计算架构。
每个NPU处理器具有4个内核(NPUCore),每个内核有两个数据流处理器(DataflowProcessor),每个数据流处理器具有8个长位宽或16个短位宽的SIMD(单指令多数据)运算单元。在一个时钟周期内,NPU处理器可同时完成64个长位宽MAC运算或者128个短位宽MAC运算。每个NPU处理器具有38GOps的长位宽处理能力或者76GOps的短位宽处理能力。
NPU的处理性能可以通过组成多核阵列来提升,也可以通过多芯片级联的方式进一步扩展,以满足更复杂的CNN网络运算的性能需求。每个NPU处理器中同时还包含一个LWProcessor(长字处理器),专门用于处理神经元网络中的超越函数等复杂计算。另外,每个NPU处理器还具有256KBLevel-2Cache,以及整块数据搬移(BlockDataAccess),片内数据共享(Data-sharingBetweenProcessorUnits),提升数据流的吞吐效率。并与软件配合利用了稀疏数据优化(OptimizationforSparseData)等特性提高计算效率。NPU开发包提供可视化的数据流程图优化工具。NPU支持Caffe、TensorFlow等多种神经网络框架,支持AlexNet、GoogleNet等各类神经网络。
星光智能一号的诞生,将人工智能与大数据产业有机结合在一起,成千上万个视频监控设备所产生的数据,通过前端智能分析、后端深度挖掘,能够产生巨大的社会效益和经济价值。
微信扫描二维码,关注公众号。