全球首款量产数据流AI芯片亮相-技术动态-中国安全防范产品行业协会

全球首款量产数据流AI芯片亮相
实现英伟达T4最高3.91倍的实测性能

2020/6/28 09:23 鲲云科技 关键字：量产数据流 AI芯片浏览量：

基于CAISA芯片的星空X3加速卡在多领域均有落地，得益于其轻量化的规格特点，X3加速卡可与不同类型的计算机设备进行适配，包括PC、工业计算机、网络视频录像机、工作站、服务器等，满足边缘和高性能场景中的AI计算需求。

　　6月23日，鲲云科技在深圳举行CAISA芯片产品发布会，发布全球首款数据流AI芯片CAISA，定位于高性能AI推理，已完成量产。鲲云通过自主研发的数据流技术在芯片实测算力上实现了技术突破，较同类产品在芯片利用率上提升了最高11.6倍。第三方测试数据显示仅用1/3的峰值算力，CAISA芯片可以实现英伟达T4最高3.91倍的实测性能。鲲云科技的定制数据流技术不依靠更大的芯片面积和制程工艺，通过数据流动控制计算顺序来提升实测性能，为用户提供了更高的算力性价比。

　　此次发布的CAISA芯片采用鲲云自研的定制数据流芯片架构CAISA 3.0，相较于上一代芯片架构，CAISA3.0在架构效率和实测性能方面有了大幅的提升，并在算子支持上更加通用，支持绝大多数神经网络模型快速实现检测、分类和语义分割部署。CAISA3.0在多引擎支持上提供了4倍更高的并行度选择，架构的可拓展性大大提高，在AI芯片内，每一个CAISA都可以同时处理AI工作负载，进一步提升了CAISA架构的性能，在峰值算力提升6倍的同时保持了高达95.4%的芯片利用率，实测性能线性提升。同时新一代CAISA架构对编译器RainBuilder的支持更加友好，软硬件协作进一步优化，在系统级别上为用户提供更好的端到端性能。

　　CAISA3.0架构图

　　CAISA3.0架构继续保持在数据流技术路线的全球领先地位，指令集架构采用冯诺依曼计算方式，通过指令执行次序控制计算顺序，并通过分离数据搬运与数据计算提供计算通用性。CAISA架构依托数据流流动次序控制计算次序，采用计算流和数据流重叠运行方式消除空闲计算单元，并采用动态配置方式保证对于人工智能算法的通用支持，突破指令集技术对于芯片算力的限制。此次升级，CAISA架构解决了数据流架构作为人工智能计算平台的三大核心挑战：

　　1. 高算力性价比：在保持计算正确前提下，通过不断压缩每个空闲时钟推高芯片实测性能以接近芯片物理极限，让芯片内的每个时钟、每个计算单元都在执行有效计算；

　　2. 高架构通用性：在保证每个算法在CAISA上运行能够实现高芯片利用率的同时，CAISA3.0架构通用支持所有主流CNN算法；

　　3. 高软件易用性：通过专为CAISA定制的编译工具链实现算法端到端自动部署，用户无需底层数据流架构背景知识，简单两步即可实现算法迁移和部署，降低使用门槛。

　　发布会上，鲲云科技创始人CEO牛昕宇博士还发布了基于CAISA芯片的星空系列边缘和数据中心计算平台， X3加速卡和X9加速卡，并公布了由人工智能产业技术联盟（AIIA）测试的包括ResNet50，YOLO v3等在内的主流深度学习网络的实测性能。

　　作为技术驱动的AI芯片公司，鲲云科技自成立以来一直注重商业落地，目前鲲云科技已与多家行业巨头达成战略合作，成为英特尔全球旗舰FPGA合作伙伴，在技术培训、营销推广以及应用部署等方面进行合作；与浪潮、戴尔达成战略签约，在AI计算加速方面开展深入合作；与山东产业技术研究院共建山东产研鲲云人工智能研究院，推进人工智能芯片及应用技术的规模化落地。明星产品“星空”加速卡已在电力、教育、航空航天、智能制造、智慧城市等领域落地。

微信扫描二维码，关注公众号。

共建平安智能体打造治理新格局相约华为20

金融领域安防技术的智能化应用与发展

共建平安智能体 打造治理新格局 相约华为20

金融领域安防技术的智能化应用与发展

共建平安智能体打造治理新格局相约华为20