AI芯片及其所衍生出来的计算产业的发展,并不是任何一家企业可以单独去达成的愿景,需要上下游不同角色的机构和厂商共同构建繁荣的生态。在这样的体系下,商汤有着非常重要的位置,如何把技术的上下游协同在一起,也是我们共同面临的一个课题。
近日,以“智算生态、共创共赢”为主题的ICPA智算联盟系列论坛·第一期会议成功举办。
上海市经济和信息化委员会人工智能发展处副处长孙跃,ICPA智算联盟理事长、商汤科技联合创始人、集团副总裁杨帆发表致辞。商汤科技联合创始人兼大装置首席科学家林达华,华为昇腾计算业务CTO周斌,Graphcore大中华区总裁兼全球首席营收官卢涛,燧原科技创始人兼COO张亚林,上海超算科技有限公司副总经理刘波发表主题演讲,探讨加速AI算力产业化落地和算法生态建设的共赢之道。
林达华教授发表主题为《算法框架:AI芯片与商业价值的纽带》的精彩主题演讲,他表示:“AI芯片及其所衍生出来的计算产业的发展,并不是任何一家企业可以单独去达成的愿景,需要上下游不同角色的机构和厂商共同构建繁荣的生态。在这样的体系下,商汤有着非常重要的位置,如何把技术的上下游协同在一起,也是我们共同面临的一个课题。”
本文为林达华教授演讲内容梳理。
算法是衔接应用价值和芯片算力的关键桥梁
人工智能和智能计算的核心就是人工智能计算芯片。无论是以GPU为代表的通用图形处理器,还是近几年不断涌现的AI专用计算芯片,都构成了整个人工智能算力的核心。
在用户端,AI技术在自动驾驶、智慧商业、智慧城市、智慧医疗等各种垂直领域的应用,将人工智能的价值真正带到了生产、生活和工作当中。
支撑不同行业广泛应用的背后,是一系列人工智能的关键算法,例如计算机视觉领域的分类、检测、分割等等算法。
虽然这些算法会分成若干个小类别,但是在每一类上,其迭代、演进速度非常快,种类也非常多。目前,商汤面向不同行业应用已生产出来了超过3万个算法模型。
这些算法模型对硬件的适配带来了极大挑战,每一个模型的算法适配都需要很大工作量的投入,不同应用也涉及不同的算法。算法是衔接应用价值和芯片计算能力最关键的桥梁。
在人工智能领域,算法研究员并不直接在芯片所提供的底层API上写算法,因为大部分研究员和算法工程师对芯片的体系结构并不了解,也不需要了解,术业有专攻。
因此,在衔接算法研究员和底层计算的基础设施中间,就衍生出了深度学习框架的系列基础软件体系,例如TensorFlow、PyTorch、MindSpore和商汤自研的SenseParrots。每个训练框架都在行业中扮演着不同的角色,走出了各自差异化的发展道路。
由于算法与芯片之间有多种训练框架,不同框架又出自不同机构和企业,没有形成一个固定接口,这导致人工智能训练芯片不仅要适配不同框架,还要支持多样化的算法,而算法框架接口多样化导致AI芯片对算法支持工作量剧增,这就带来了高昂的适配成本,成为人工智能训练芯片快速迭代、进入市场的障碍。
开源算法体系,构建高效繁荣的AI生态
构建一个能够助力芯片发展的生态,最关键的就是要打破障碍和瓶颈,这样才能够促进整个生态上下游共同发展和繁荣。
如何实现这一目标?算法是直接支撑应用的,从智慧城市领域中的场景分类、
车牌识别等算法,到医学图像分析领域中的语义分割、病灶检测等算法,通常都会经过一个基于应用场景的分解过程,最后形成一个大算法家族的族谱。
经过多年发展,商汤在AI算法领域形成了深厚的积累,但只有将这些算法为整个业界所用,才能引导整个产业上下游的发展,最大限度的发挥价值。基于从应用对算法分解的认知,商汤在2018年启动了OpenMMLab开源算法体系。
近4年来,OpenMMLab的国际影响力持续增长,目前在GitHub上获得了58,000个Stars,超过了业内顶级的深度学习框架PyTorch的数量。同时,OpenMMLab还支持了上千篇论文的发表,并协助几十项比赛选手在垂直领域获得了冠军。此外,在生态影响力方面也有所建树。
OpenMMLab在商业领域的应用也非常广泛,目前有超过600家企业和科研机构使用OpenMMLab进行技术研发,其中不乏大型央企、头部科技企业和互联网企业,已形成了广泛的影响力。
基于开源开放的算法体系,商汤希望实现训练框架和AI芯片的双向价值引导,携手业界同仁共同构建高效的人工智能上下游生态。
构建标准化体系,打造算法芯片协同发展的技术基础设施
为了推动训练框架和AI芯片的协同发展,商汤将算法分解成为各种算子,并告知开发者哪些算子在整个算法层、应用场景层最为重要。通过这样的引导,可以帮助行业伙伴将有限的算力资源应用到真正有价值的业务场景当中。
在技术层面,商汤构建了两套标准化体系,其一是算法的分级体系,另一个是标准算子接口体系。
针对算法分级体系的构建,商汤根据社区反馈,从影响力、性能、部署广度等多重维度,初步将算法分成P0、P1、P2三个级别:
P0级是任何芯片必须完全支持的算法;
P1级是在业务场景里使用较多,但并不是完全必需的算法;
P2级是使用和关注度都相对较少的算法。
基于算法的分级,商汤“以业务应用为导向,以算法为抓手”,形成了一整套面向训练框架、推理引擎、训练芯片、集群环境的适配和评测体系,从而给予下游的软件和芯片厂商一个非常明确、清晰的优化适配指引。
针对标准算子接口体系,商汤根据算法的导引,将标准化之后的算子提取出来。在这之中,商汤已经完成了两项重要工作:
其一是统一算子接口和函数签名,包含算子接口和输入输出等信息;
其二是一致性测试套件,包括标准化的测试用例以及相关的工具体系,可以校验算子的正确性,评测在不同环境、不同配置下的执行效率。
这两项工作为评测不同芯片提供了一个标准化的抓手。这套技术层面的基础设施,可以促进产业协同向前。
此外,如今的适配方式与传统方式相比也有很大优势。传统芯片与框架一对一适配的方式,其经验很难在跨芯片或跨场景中复用。
商汤基于标准算子接口体系的芯片-框架多对多的适配流程,可以将沟通成本、工作难度、适配工作量降到最低。一次性可接入数百种标准算子接口,通过一致性测试,能够自动适配到不同的算法和芯片上面,实现更快迭代。
未来,商汤将致力于通过更多人工智能技术上的构建,积极促成产业上下游的合作协同,助力更高效从芯片到价值闭环的打通。