技术动态 > 正文
法国研究员用光子系统跑递归神经网络 行为识别将新突破
2019/11/15 11:04   智东西      关键字:光子系统 神经网络 行为识别      浏览量:
研究人员在论文中表明,光子计算系统以当下流行的KTH数据库为基准,其中包含由25位受试者作出的六种不同动作的视频记录,如步行、慢跑、跑步、拳击、挥手和拍手。
  近日,法国研究人员提出了一种用光子硬件跑递归神经网络的方法,比现有硬件方法的处理速度更快。该神经网络具有16384个节点,可扩展到数十万个节点。

  同时,该系统基于水库计算(Reservoir Computing)范式,经过训练可以使用原始帧作为输入,或使用定向梯度直方图(Histogram of Oriented Gradients)提取一组特征,以训练识别来自KTH人体行为数据库中六个人的动作。

  该研究成果已于美国时间2019年11月12日发表在学术界顶级期刊《自然机器智能(Nature Machine Intelligence)》杂志上,名为《大型脑启发式光子计算机对人类行为的识别(Human action recognition with a large-scale brain-inspired photonic computer)》。

  研究人员在论文中表示,该报告的分类精度为91.3%,可与最先进的数字实现相媲美。同时,由于光子结构能提供的大规模并行处理能力,因此他们预期这项工作将为实时视频处理的简单可重构,以及节能解决方案带来更好的发展。

  该论文研究人员为Piotr Antonik、Nicolas Marsal、Daniel Brunner和Damien Rontani,来自法国洛林大学、勃艮第-弗朗什孔泰大学、巴黎中央理工-高等电力学院、法国贝桑松光学实验室和LMOPS EA 4423实验室。

  一、深度学习识别人类行为研究的难点

  近年来,人类行为识别已经成为计算机视觉领域中最热门的研究领域之一。这一发展背后的驱动力,则是监控、控制和分析等领域的潜在应用范围。

  其中,监控主要指随着时间的推移,跟踪一个或多个对象并检测特定的行为,例如人们为了防止汽车被盗而对停车场进行监控便是如此。

  而控制,则主要是指与系统控制相关的应用程序利用捕捉到的运动,在游戏、虚拟环境或远程设备中提供控制功能。

  分析在这里主要指运动自分析,可用于骨科患者的临床研究,或帮助运动员提高成绩。

  这么看来,从视频序列中识别人类活动无疑是一个挑战,研究人员需要克服背景杂乱、尺度或视角变化、照明和外观等问题。

  如今,深度学习已成功应用于语音识别、自然语言处理和推荐系统中。同时,它还被引入到基于视频的人类行为识别研究中,通过原始视频输入,系统能自动进行特征推断,以及识别复杂行为。

  然而,这一方法也存在缺点,它需要庞大的数据集、非平凡的超参数调优(non-trivial tuning of hyperparameters),以及耗时耗力的训练过程。这些过程通常需要如GPU等专用的高端硬件。

  二、通过光学方法和水库计算构建光子计算设备

  针对深度学习在人类行为识别研究中的难点,研究人员提出了光学信号处理系统的方法,该方法能基于视频对人类行为进行分类。

  实际上,光计算已被科学家们研究了几十年。

  由于光子不产生热量,也不会受感应和电容效应的影响而导致信号退化。因此,它在光信号传输等任务中具有高度的并行性,而并行信号传输将为神经网络带来巨大的好处。

  与此同时,光互连的使用在现代计算系统中越来越多,这表明并行信号传输是光子学的强大特性之一。

  因此,光学方法可以用来构建高速和节能的光子计算设备。

  研究人员用实验光学系统在水库计算范式下构建了一个浅层递归神经网络(Shallow Recur-Rent Neural Network)。其中,水库计算是一套用于设计和训练人工神经网络的机器学习方法。

  他们计划利用一个随机递归神经网络的动力学来处理时间序列,只训练一个线性输出层。由此得到了一个更容易训练的系统,它只有读出层是通过求解一个线性方程组来优化的。

  此外,由于系统在训练过程中推断出的参数比以往更少,因此研究人员可以在更小的数据集上对网络进行训练,而不会有过度拟合的风险。

  与此同时,水库计算在电子学、光电子学、光学和集成电路等领域的大量实验,在无线信道均衡、音素识别和混沌时间序列演进等一系列基准任务上,可与其他数字算法相媲美。

  实验结果表明,光子存储计算机的读取层可以通过数字微镜设备进行光学训练。

  在实验中,研究人员们提到了一个光学水库计算机(Optoelectronic Reservoir Computer)。该系统采用空间光调制器(SLM)对空间扩展的平面波进行相位调制。

  研究人员通过对水库计算机的节点进行同步光学处理,提供了显著的并行化潜力,而SLM的物理分辨率定义了最大的网络规模。

  从结果来看,该方法不仅可以显着提高网络的可伸缩性,同时对成功解决计算机视觉中的难点至关重要。

  此外,实验装置可以容纳16384个节点,而该概念的物理限制高达262144个神经元,同时算法还实现了输入层、输出层和网络的递归。

  三、识别KTH数据库准确率高达100%

  研究人员在论文中表明,光子计算系统以当下流行的KTH数据库为基准,其中包含由25位受试者作出的六种不同动作的视频记录,如步行、慢跑、跑步、拳击、挥手和拍手。

  在预处理阶段,研究人员利用定向梯度直方图(HOG)算法从单个视频帧中提取空间和形状信息,接着再利用光子水库计算机对六种运动进行分类,得到相应的HOG特征。

  每个受试者都分别执行四次重复动作,产生了600个长度不等的视频序列数据集,大小从24帧到239帧不等。

  随后,研究人员所有的视频拼接在一起,并分割成单独的帧,得到原始视频流,再进入预处理阶段。

  待处理完毕后,研究人员再对水库计算机进行训练。该训练是在450个视频序列子集上进行,每个视频序列包含一个单独的运动序列。

  在训练过程中,研究人员采用归一化均方误差(NMSE)代价函数,以将水库输出和目标类别之间的误差最小化。

  最后,研究人员使用混淆矩阵来计算来衡量水库计算机性能的指标,由对角线元素之和给出。从结果来看,水库计算机性能为600分,也就是说,该计算机识别数据集中六个动作的准确率为100%。

  此外,研究人员还调查了这一方法在网络规模从1024到16384个节点下的可伸缩性,报告分类精度高达92%。

  这表明,使用简单的光子系统可以有效解决当前计算机视觉任务所面临的难点。

  结语:为解决图像、视频处理难点带来新思路

  总的来说,虽然研究人员设计的这个光子系统较为简单,但它在KTH数据集上的性能可以与目前最新的深度学习方法相媲美,并优于梯度化的LSTM网络。

  在研究人员看来,这项研究提出的视频信息处理硬件解决方案,在训练时长和复杂性方面,都将有可能优于深度学习。

  虽然,每一项技术研究从学术界逐渐落地到产业界还需要很长的时间,对它进行实践与优化。但这一方法的提出,也为解决当下安防、物联网和AI等领域的图像处理和视频处理的任务难点,带来了新的思路和方向。

  论文链接:https://www.nature.com/articles/s42256-019-0110-8文章来源:Nature

微信扫描二维码,关注公众号。