高端访谈 > 正文
云天励飞沈宇亮:
“算法芯片化”铸就AI芯片 助力安防芯火燎原
2021/11/29 11:01   中国安防   周丹雅   关键字:云天励飞 算法 芯片      浏览量:
本期《中国安防》栏目采访到云天励飞技术股份有限公司芯片市场规划总监沈宇亮,将从芯片架构、芯片设计、芯片发展态势等方面来探讨芯片技术的无限可能。
  当前,我国对于芯片半导体产业的发展保持高度重视。去年8月国务院公开发布了《新时期促进集成电路产业和软件产业高质量发展的若干政策》,宣布了包括减免企业所得税在内的一系列优化政策。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》针对芯片相关领域明确提出,聚焦高端芯片、操作系统、人工智能关键算法、传感器等关键领域,加快推进基础理论、基础算法、装备材料等研发突破与迭代应用。加强通用处理器、云计算系统和软件核心技术一体化研发。加快布局量子计算、量子通信、神经芯片、DNA存储等前沿技术,加强信息科学与生命科学、材料等基础学科的交叉创新,支持数字技术开源社区等创新联合体发展,完善开源知识产权和法律体系,鼓励企业开放软件源代码、硬件设计和应用服务。就安防行业而言,《中国安防行业“十四五”发展规划》把“研发安防专用关键芯片,提升芯片国产化率”相关内容提升到了安防行业核心技术专栏的首位。其中对于AI芯片的愿景是:加快国产GPU处理器芯片及云端训练芯片研发,提高使用率。
  深圳云天励飞技术股份有限公司作为业内领先的人工智能企业,以人工智能算法、芯片技术为核心,并具备算法芯片化的能力,坚持“端云协同”的技术路线,打造了一系列面向数字城市和人居生活的产品和解决方案。本期《中国安防》栏目采访到云天励飞技术股份有限公司芯片市场规划总监沈宇亮,将从芯片架构、芯片设计、芯片发展态势等方面来探讨芯片技术的无限可能。

  《中国安防》:从芯片设计架构来看,ASIP设计方式与CPU、GPU、ASIC、FPGA等常见AI芯片架构有什么区别?云飞励天为什么选择采用ASIP架构为技术路线?
  云飞励天:GPU、FPGA、ASIC、ASIP等都是面向深度学习的人工智能芯片常见的设计架构,是以技术路线进行划分的不同类别。
  1、CPU、GPU、FPGA、ASIC、ASIP等技术路线的各自特性进行分析
  (1)传统的CPU芯片主要擅长逻辑控制、串行运算等处理,它不太善于复杂的并行计算。为此CPU设计公司也做出了一些努力,比如在原有的指令集上面加入了单指令多数据SIMD的扩展,目的是让CPU指令集获得并行计算处理的能力。但这也仅仅只是作为补充,所以用CPU架构设计完整的深度学习网络计算的智能芯片并不是特别合适。
  (2)GPU采用多核并行计算架构,拥有数量众多的计算单元用于数据处理,适合对密集型数据进行并行计算,可获得高于CPU几十倍甚至上千倍的运行速度。在云端,通用GPU也因此被广泛应用于深度神经网络的训练和推理计算中。
  (3)ASIC属于针对特定应用设计的全定制化芯片,随着当前人工智能算法和应用技术的快熟发展,人工智能专用芯片ASIC的产业环境也会日渐成熟。
  (4)FPGA是一种电路可重复编程的半定制化芯片,通过硬件描述语言编程,重组并生成专用电路。FPGA可以利用门电路直接实现特定算法功能,也可以利用内部乘累加单元(MAC)进行运算,用户可以自定义这些门电路、计算单元和储存器之间的布线,改变执行方案。FPGA因其可重构特性具有显著优势,但市场化阻碍主要在于高昂的硬件和开发成本,为实现重构内部硬件存在冗余和空闲,从而降低了有效计算资源占比,同时FPGA采用硬件编程开发验证成本较高。
  (5)ASIP是新型的定制化指令集处理器芯片,它为某个或某类应用专门设计。通过权衡速度、功耗、成本、灵活性等多个方面的设计约束,设计者可以定制ASIP以达到最好的平衡点,使得芯片可适应某类应用的需求,尤其是需要兼顾性能、功耗、成本的嵌入式系统。
  2、从性能、灵活性、通用性、低成本、低功耗等同等参数进行比较
  性能的比较主要看单位时间执行运算的次数、峰值性能和平均性能;灵活性主要指对不同应用场景的适应程度;通用性主要表现为对现有软硬件基础设施的兼容程度;成本主要关注研发成本、部署和运维成本这三个方面;功耗的体现是部署后的额外功耗,其是否影响现有的供电、散热结构等。
  (1)CPU的灵活性和通用性都很高,它适用于各种应用场景,现有架构大多都围绕CPU进行设计,软硬件成熟度也很高。但是性能方面有所欠佳,成本和功耗也不低。
  (2)GPU的性能高,特别适合AI应用,尤其表现在深度学习的训练和推断等方面。灵活性和通用性中等,它只适合计算密集型场景,不适合通信密集型场景,由于具有CUDA、OpenCL成熟的编程架构,对软硬件基础设施也有一定的兼容性,但其功耗和成本都极高。
  (3)ASIC的性能极高,比GPU还要高一到两个量级。它专门为AI应用开发设计,所以灵活性和通用性都较低,不过它具有极低成本和极低功耗的优势。
  (4)FPGA具有较高性能、灵活性和通用性的优点。它的吞吐量和并行效率都很高,可进行动态编程和部分重构以应用于不同场景,通常采用加速卡的形式部署其兼容性强,并且它的功耗较低。虽然FPGA芯片成本较高,但无需流片大大降低了研发成本。
  (5)ASIP集合了FPGA和ASIC各自的优点,不仅可以提供ASIC级别的高性能和低功耗,还能提供处理器级别的指令集灵活性,实现可重新编程,更适用于需求尚未被明确定义、需要芯片具备一定通用性和可编程性的应用场景,满足AI算法快速更新迭代的需求,延长芯片使用生命周期。
  云天励飞自研的神经网络处理器采用ASIP技术路线,可做到可定制、可编程,多指令并发、多核并行。自研指令集针对深度学习算法深度定制。云天励飞处理器配套的一键式工具链包括了定点转化工具、处理器编译器、模拟器以及深度学习SDK等。
  《中国安防》:服务器(云端)芯片与移动(终端)芯片各有什么特点,相互间有哪些联系?
  云飞励天:当前人工智能芯片的应用场景基本分为两大类:云端、终端(注:这里我们把边缘侧和端侧归为同一个大类)。由于云端、终端各自在AI应用场景上有所差异,AI芯片也相应有各自的侧重。同时,随着数字城市、智慧交通、智能物联网、产业互联网等AI应用的兴起和广泛部署,为解决海量数据汇聚处理和快速及时响应,基于AI芯片和软件框架的高效“端云协同”逐步成为业内的共识。
  在云端,人工智能芯片主要以加速卡的形式部署在数据中心服务器内,形成云化的、可灵活调度的虚拟计算池,负责大规模训练和推理计算任务。通常,云端服务器部署的AI芯片性能强大,能够支持各种数据精度,提供高并行度的高密算力,满足云端高并发、高吞吐、高精度的计算需求;具备互联可扩展性,满足超大规模算法模型的训练和推理的计算需求;支持通用AI计算任务,兼容各类深度学习框架和模型,能够灵活地支持图片、语音、视频等各种类型的AI应用;具备良好的性能与功耗平衡,并能保持长期稳定工作,降低运维成本。
  在终端,终端设备不仅需要完成AI相关的计算任务,目前主要以推理计算为主,还要具备通用计算、信号处理、实时控制、人机交互、存储通信等功能。因此,应用于终端的人工智能芯片通常采用异构计算架构,融合多种计算能力,以高集成度的片上系统芯片(SoC)方式实现。在符合特定应用AI算力需求的前提下,这类AI芯片的性能通常不需要特别强大,但需要适应复杂的工作环境和苛刻的供电限制,以较小的面积成本、极致的功耗控制为设计目标。
  目前云侧和终端的配合主要体现为:汇聚海量数据的云端适合训练神经网络,而更靠近数据源头和用户的终端通过部署推理算力可以提供更好的用户体验和保护用户数据安全。算力前置是行业发展的重要趋势,未来云侧的边界将逐渐向终端和数据源头推进,整合云侧和端侧架构,AI算力将进行合理分布。未来在云端芯片和终端芯片的支持下,云端和终端之间将形成紧密、有机的联系:云端实时控制、调整终端算法,中心定义、迭代硬件;终端将数据及时反哺给云端进行自适应优化,二者形成完整协同的智能生态。
  《中国安防》:针对终端推理和边缘计算市场的特点,在芯片设计上有哪些技术挑战?又有何解决方案?
  云飞励天:在终端和边缘端计算需要做到低功耗、低时延,既要符合场景的应用需求,同时还需要保障数据的安全,想要同时兼顾这些特点,对芯片设计有较高的挑战。
  云天励飞的解决方案是通过自定义指令集、处理器架构及工具链的协同设计,实现算法芯片化,“算法芯片化”也是我们的重要核心技术能力。所谓“算法芯片化”能力是指:云天励飞通过对行业的垂直落地可以更好地理解行业的应用场景,对场景重点算法特征进行归纳,从而可以自定义神经网络的指令集,这些指令集不但包括了我们对于现有场景的总结,还包括了对于未来算法趋势的判断。这能够提升芯片技术平台在产品和解决方案中的高效性和场景适应性,可灵活支撑多种算法框架,提高算法实现的效率,降低后台处理成本,从而让设计出的芯片最终能够具备高性能、低功耗、低成本的优点。

  《中国安防》:云天励飞AI芯片多次获得国家奖项及承担国家级项目,贵企认为AI芯片未来有哪些发展趋势?
  云飞励天:一是AI芯片的研发将从技术导向转向场景导向。目前AI芯片更多是从技术需求角度出发进行设计,如芯片架构选择、芯片性能指标提升等。但研发设计AI芯片的最终目的是要让芯片能够在实际应用场景中发挥最优性能,未来越来越多场景和行业需要AI的赋能,应用市场呈现碎片化的特性。因此,未来芯片设计需要以客户场景需求为导向,从需求量、商业落地模式、市场壁垒等各个方面综合分析落地可行性,借助场景落地实现AI芯片的规模发展。
  二是会向端云一体化的方向发展。云端芯片聚焦非实时、长周期数据的大数据分析,能够支持大量运算共同运行。但随安防监控、无人机等智能终端的丰富,云端的部分推理乃至训练算力将迁移至边缘和终端侧,支撑本地业务的实时智能化处理与执行。
  三是国产化的趋势。芯片是信息化、数字化时代的基石。一方面,在国际产业链重构、国际环境复杂的背景下,需要增强产业链供应链安全稳定,国家出台了一系列支持国产芯片行业发展的政策和文件;另一方面,中国拥有丰富的应用场景、存在大量的市场需求,而未来芯片又是场景导向的,本土的企业对本土的场景更有深刻的理解,更能打造出符合场景和市场需求的AI芯片。
  《中国安防》:芯片的发展一直是全球通力合作的成果,我国在芯片全产业链上有哪些优势又有哪些方面的欠缺?产业链国产化的前景如何?
  云飞励天:芯片的产业链主要包括:设计、制造、封装与测试三大环节。
  上游芯片设计包括规格制定、详细设计、功能验证、仿真、时序分析、布局布线、参数提取、流片等多项流程,这里的基础工作需要EDA软件完成。近年来我们在芯片设计领域的增速非常可观,我国芯片设计企业较多,各个细分领域都有布局,“十三五”期间中国芯片设计业的规模从1325亿元增长到3819亿元,年复合增长率达到23.6%,是同期全球半导体产业年均复合增长率的近6倍。但相对于EDA软件而言,当前主要还是由Synopsys、Cadence、Mentor Graphics海外三大EDA厂商占据全球主要市场,我国EDA厂商如华大九天等企业也开始慢慢崭露头角。
  中游制造主要有硅片制造和芯片制造两部分组成。硅片制造分为提取多晶硅、拉晶、切割、研磨、抛光、清洗、生产单晶硅晶圆片;芯片制造需要对晶圆进行氧化、化学气相沉积、光刻、蚀刻、离子注入、镀膜、光阻去除、WAT测试等操作。这里需要的设备就包括光刻机、蚀刻机、离子注入剂、抛光机、清洗机等。
  下游封装、测试包括:晶圆检测、晶圆切割、塑膜、封装成型等环节。我国芯片封装、测试的整体水平已经达到国际先进水平,产业链条也比较完整。
  经历设计、制造、封装与测试三大环节后生产出的芯片赋能到安防行业,成为了安防产业链的上游,为整个安防设备提供基础硬件,芯片产业链与安防产业链也就自然进行了衔接。
  对于国产化前景而言,我国在先进工艺上未必需要立刻与国际水平齐平,可以在某些层面上保证可用,保证我们的供应链安全。由于我国起步较晚,基础软件工具主要还是依赖于国外,但是我们在芯片设计方面确实有一些优势。现在站在国家的层面上把大家整合起来形成一个合力,有可能达到软硬件相互促进的作用,硬件去促进软件的发展,一些基础学科也依赖于先进的算力,企业间相互合作促进整个产业链良性发展。
  《中国安防》:芯片研发作为安防行业产业链的上游,近期的“芯片荒”现象对于我国安防行业有什么影响?
  云飞励天:一是交货的周期可能会受到一定影响;二是价格也会有所波动。但值得一提的是,安防行业需要的芯片,制程工艺大多数集中于22-40nm,我国当前已经熟练掌握的28nm、14nm芯片加工能力是完全可以胜任的,甚至都不需要使用到14nm工艺。安防芯片对制程工艺的要求低于高端智能手机芯片的制程工艺要求,因此我们认为虽然芯片荒会对安防行业产生一定的影响,但不必产生过度恐慌的情绪。
  《中国安防》:云天励飞自研的DeepEye1000已量产,未来将在安防行业如何布局?
  云飞励天:在技术上,我们会继续夯实我们“算法芯片化”的核心能力,用芯片技术的持续突破构筑公司算法技术壁垒,用算法技术的持续演进引导和助推芯片技术发展,以开源神经网络处理器指令集的方式实现对主流算法的高度适配。
  同时,我们坚持“端云协同”的技术路线。在安防行业,端侧我们应用自研的DeepEye1000人工智能芯片部署可重定义智能摄像机,实现数据的高效前端处理;在云侧与基于云天励飞自有算法和大数据分析技术为核心的业务系统实现高度适配,从而可根据不同业务场景需求进行灵活调整。未来云天励飞将继续利用算法芯片化的核心能力,强化终端和边缘端芯片的能力,让芯片能够在更多场景中发挥最优性能。
  除了安防行业以外,云天励飞的DeepEye1000还应用在其他领域。基于云天励飞AI芯片的3D指静脉生物识别模组,已经应用在中国长城飞腾台式机中,助力打造高级别安全身份认证系统。未来我们也将继续努力拓展更多应用场景。

微信扫描二维码,关注公众号。