神经拟态芯片初创公司Rain Neuromorphics与Mila合作进行的一项研究证明,使用全模拟硬件训练神经网络是可能的,显示出创建端到端模拟神经网络的可能性。这对整个神经拟态计算和AI硬件领域都具有重大意义:完全采用模拟AI芯片可以进行训练与推理,从而可以大大节省算力、能耗,并缩减延迟时间和产品尺寸。
神经拟态芯片初创公司Rain Neuromorphics与加拿大蒙特利尔学习算法研究所(Mila)共同进行的一项研究证明,使用全模拟硬件训练神经网络是可能的,显示出创建端到端模拟神经网络的可能性。这对整个神经拟态计算和AI硬件领域都具有重大意义:完全采用模拟AI芯片可以进行训练与推理,从而可以大大节省算力、能耗,并缩减延迟时间和产品尺寸。这项突破性研究成果将电气工程与深度学习有机结合,将为具备AI功能的机器人的普及打开大门,让这些机器人可以更像人类一样在现场进行自我学习。
在与“AI教父”之一、图灵奖获得者Yoshua Bengio合著的论文“Training End-to-End Analog Neural Networks with Equilibrium Propagation”中,研究人员表明可以使用忆阻器的交叉阵列来训练神经网络。这类似于如今商用AI加速器芯片所采用的存内处理器(processor-in-memory)技术,但却没有在网络的每一层之间使用相应的ADC和DAC阵列。这一研究成果将可能极大地提高AI硬件的能效。
在EE Times的视频采访中,Bengio和其他合著者Jack Kendall、Ben Scellier,以及Rain Neuromorphics首席执行官Gordon Wilson,解释了这项研究工作的重要意义。
Wilson说:“如今,能耗和成本是阻止我们部署新型人工智能的最大障碍。我们非常希望找到一种效率更高的计算处理硬件基底,它从根本上更节能,使我们不仅不受大型数据中心AI训练的限制,而且可以将我们带入一个想象中的世界,其中独立、自治、能量无限的设备可以自主学习。我们所做的工作正在打开通向这个世界的大门。”
研究人员已经在MNIST分类(美国国家标准与技术研究院手写数字数据库的修订版)上进行了端到端模拟神经网络的仿真训练,证明其性能与基于软件的同等大小神经网络相当或更好。
交叉阵列
忆阻元件交叉阵列是模拟计算技术的基础。如今,Mythic、Syntiant和Gyrfalcon等公司推出的ASIC芯片均采用存储单元作为忆阻元件,执行矩阵矢量乘法的功耗比CPU和GPU要少得多。然而,大部分功耗实际上都是被计算层之间所必需的ADC和DAC所消耗的,需要它们来减轻器件不匹配或存储单元性能上的轻微不理想状况,否则这些状况会影响最终结果的准确性。
迄今为止,这些不理想状况恰恰是神经网络尚未完全在模拟硬件上实现的原因。这些状况使推理变得很麻烦,而对训练却是致命的,因为反向传播(当今最常见的训练算法)所需的前向和后向数据路径会加剧这种影响。
前面提到的论文合著者之一,同时也是Rain Neuromorphics CTO的Kendall表示:“(其他公司)专注于推理是因为在模拟器件上进行AI训练实际上非常困难。如果尝试在模拟器件上进行反向传播,将会得到来自两个独立数据路径的正向激活和反向激活。这是因为,当通过网络反向传播时,器件的不匹配和非理想状况导致的错误往往会不断累积。因此,如果在模拟器件上查看反向传播的实施,其表现是非常糟糕的。”
Wilson认为,按照当前的行业做法,将模拟器件上的AI训练和推理划分为两个独立的问题,最终是错误的。
“如果想在模拟器件中进行推理,那么系统会有噪声。那些一直在构建模拟推理芯片的人们意识到他们需要建立全新的训练范式,他们会插入噪声以反映模拟推理芯片中的东西。” Wilson说。“这是一种成本高且效率低的方法,因为硬件的不匹配将需要使用单独的硬件分别进行训练和推理。但是,如果将其组合到一个平台中,不仅可以不断地自适应学习,而且在训练和推理器件之间也不会出现不匹配的情况。”
平衡传播
平衡传播(EqProp,Equilibrium Propagation)是Bengio和Scellier于2017年发明的一种技术。这种训练算法只有一条数据路径,因此避免了模拟硬件中反向传播引起的问题。但是必须注意:EqProp仅适用于能量模型网络。
Scellier解释说:“能量模型(EBM)是一种依赖平衡状态的仿生神经网络。最近四十年来,我们实际上是采用传统的数字计算机来仿真物理定律,并且是通过使这些能量函数最小化的方式来实现的。在我们与Rain Neuromorphics的合作中,关键的发现在于,我们不是通过仿真这些物理定律来最小化能量消耗,而是使用物理定律来构建有效的模拟网络。”
这项新研究揭示的一项令人惊讶的结果:根据基尔霍夫定律,电路理论首次与神经网络直接联系起来。这意味着,一整套新的电气工程学数学工具可以应用于深度学习,并将之从一个领域转移到另一个领域。
Scellier说:“在这项工作中,我们取得的成就是填补了数学能量和物理能量之间的概念鸿沟。关于如何分析神经网络、能量模型,以及如何用电路理论分析和训练电路,这项新研究为我们提供了新的洞见。这非常令人兴奋,因为在数学层面上能做的工作很多。”
片上学习
虽然EqProp的概念自2017年就有了,但这项新研究将一个抽象概念变成了可以通过电路在物理上实现的东西。这将使端到端的模拟计算成为可能,而不必再将每个计算步骤都转换成数字形式。
Bengio说:“我们利用物理学直接实现所需的计算,而不必进行非常复杂的构造来将物理世界发生的事情转换为我们通常在软件中所做的东西。因此,我们可以在计算、时间、能耗和电路尺寸方面节省很多。”
Bengio解释说,通过算法了解到不匹配的器件或器件的非理想情况并不重要,其实它根本不必在乎这些了。
“如果能够调整每个器件以修改其某些特性,例如电阻,从而使整个电路都能按要求执行,那么就不必在乎每个功能模块,例如乘法器或人工神经元 ,是否与邻居做的事情完全相同。深度学习的核心原则之一是,所期望的是整体计算,即整个电路一起执行想要它完成的任务。不必在乎每个单独的器件在做什么,只要我们可以对其进行调整,以便它们可以与其他器件一起工作,实现我们想要的计算即可。”
Bengio将芯片上的计算单元描述为大脑中的神经元:每个单元都会随着学习的进步而稍作修改,因此最终结果将变得更加准确。但是深度学习过程本身并不需要数学上完全相同的计算单元。他认为是因为我们坚持用软件进行计算,才导致了效率低下。
“人们一直在尝试的方式是诱使模拟器件进行理想化的乘法和加法运算。这当然很困难,不同的器件所做的也不一样。”Bengio说道。“结果,花费大量能量和时间来完成计算,因为要强迫每个单元去完成这一理想化的工作,这个工作就是通过一个方程式来表达;但我们真的不应该关心这个问题,因为不需要。我们需要的是整个电路,就像人的大脑一样。”
端到端模拟神经网络的主要缺点是,芯片之间的器件失配和非理想情况显然是不同的。 因此,每个芯片都需要一定程度的训练,而不是像我们现在做的那样,简单地实施一个预训练模型。Bengio建议可以在工厂中进行某种初始化,这样也许不需要从头开始进行训练,而只需调整即可。
他说:“这有点像人类。没有两个人是完全相同的!因为我们的神经元不完全相同,我们的经验也不完全相同。这些电路也可能会像那样,两颗芯片不会做完全相同的事情。”
深度学习的未来
研究人员指出,该项研究可以为新一代超高速、低功耗神经网络硬件的开发提供指导,这种新的神经网络硬件将同时支持推理和片上学习。当前,大多数模型的数量级约为数百万个神经元,但这类技术最终可能使模拟神经网络的规模扩展到人脑的大小(860亿个神经元)。
除了可能为AI提供高效、可扩展的模拟芯片之外,该项研究还具有一个更广泛的意义,即,采用EqProp作为训练框架的模拟计算,为主流深度学习的未来发展提供了一条路径。如今,许多神经拟态方法都采用基于尖峰神经网络(SNN)的不同仿脑范式,有望实现更为节能的训练与推理。
Wilson说:“从性能方面来讲,SNN从未真正胜过反向传播模型。这是因为,采用训练尖峰神经网络的算法STDP(spike timing dependent plasticity),从根本上无法像反向传播那样访问全局梯度信息。而采用我们的能量模型,在进入模拟世界时,我们保留了反向传播的这些优势。”
研究人员还指出,训练SNN缺乏理论框架,而EqProp和能量模型则提供了训练端到端模拟神经网络的理论框架(通过随局部权重更新机制而下降的随机梯度)。尽管这似乎使两种范式相互矛盾,但Kendall 和Bengio均认为它们最终可能会统一。
Rain Neuromorphics的计划
对于Rain Neuromorphics而言,他们正计划构建专用硬件来充分利用这一突破性研究成果。Wilson说,该公司正在致力于两项主要技术的商用化:基于新EqProp算法的端到端模拟神经网络硬件,以及该公司的忆阻纳米线神经网络芯片(MN3)。这两项技术并没有真正的关联,只是Kendall在两项突破中都发挥了作用,而且它们都跟仿脑技术相关。
“我们最终将结合这两种硬件创新,” Wilson说。“最初,我们只是将MN3作为协处理器来商用,而协处理器仍需要数模和模数转换。现在,我们终于计划将MN3与EqProp结合起来,实现大批量、规模化、稀疏化、端到端模拟神经网络的商用。”
MN3由Kendall和材料科学教授Juan Nino(Rain Neuromorphics的第三位共同创始人)于2014年在佛罗里达大学发明,主要用于实现模拟计算硬件的扩展。尽管如今的模拟芯片可以非常快速地执行矩阵乘法,但由于输入和输出局限在芯片的两个边缘,因此阵列的扩展性很差。MN3芯片具有与随机沉积的忆阻纳米线相连的神经元阵列,这些忆阻纳米线形成突触,可以构建同时处理训练和推理的低功耗芯片。
Wilson说:“ MN3将忆阻单元从CMOS内部移到CMOS顶部,从而使整个CMOS 层布满输入和输出网格。这种阵列架构的转变使模拟矩阵乘法得以大规模扩展。”
如今的模拟矩阵乘法阵列有多达4000个输入和4000个输出,而MN3可将其扩展至数十万个。这个想法利用的是一种特殊类型的稀疏性——小世界稀疏性,它反映了在大脑中观察到的稀疏性模式。
一年前,Rain Neuromorphics的MN3测试芯片采用台积电180 nm晶圆工艺成功流片,名为Cumulus。该公司计划今年晚些时候流片第二个(更大)版本。而基于EqProp的测试芯片流片计划于2021年推出。