MLU100采用寒武纪最新的MLUv01架构和TSMC16nm工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频),平衡模式下等效理论峰值速度达每秒128万亿次定点运算,高性能模式下等效理论峰值速度达每秒166.4万亿次定点运算,但典型板级功耗为80瓦,峰值功耗不超过110瓦。
今年5月份,寒武纪发布了首款云端智能芯片CambriconMLU100,MLU100采用寒武纪最新的MLUv01架构和TSMC16nm工艺,可工作在平衡模式(1GHz主频)和高性能模式(1.3GHz主频),平衡模式下等效理论峰值速度达每秒128万亿次定点运算,高性能模式下等效理论峰值速度达每秒166.4万亿次定点运算,但典型板级功耗为80瓦,峰值功耗不超过110瓦。
与寒武纪系列终端处理器一样,MLU100云端芯片延续了寒武纪产品通用性的特点,支持各类深度学习和经典机器学习算法,满足视觉、语音、自然语言处理、经典数据挖掘等领域复杂场景下(如大数据量、多任务、多模态、低延时、高通量)的云端智能处理需求。
基于MLU100的板卡使用PCIe接口,外形设计灵感来自于寒武纪地质时代的远古海洋生物三叶虫,以黑色、蓝色为主色调。基于MLU100智能处理卡,联想推出了ThinkSystemSR650,该云端智能
服务器将支撑联想客户在机器学习/VDI/虚拟化/云/数据库/分析/SAP等方向的需求;中科曙光也同步推出了升级的“PHANERON”,该服务器性能更为强劲,支持2-10块寒武纪MLU处理卡,能灵活应对不同的智能应用负载。
在R-CNN算法下MLU100与TeslaV100和TeslaP4的计算延迟对比,数据显示MLU100的计算延迟为125ms,TeslaV100的延迟为174ms,TeslaP4的延迟为1069ms,结果显而易见。