技术动态 > 正文
NVIDIA扩展其面向超大规模数据中心的深度学习推理能力
2018/3/28 09:50   中国安防行业网      关键字:NVIDIA,超大规模,数据中心,深度学习,推理能力      浏览量:
数据中心的运营者需要不断地寻求性能与效率的平衡,以使其服务器群保持最大的生产力。针对深度学习推理应用与服务,NVIDIA Tesla GPU加速的服务器能够替代数个机架的CPU服务器,从而释放宝贵的机架空间,并减低能源与降温需求。

  2018年3月27日—NVIDIA(纳斯达克代码:NVDA)宣布了一系列新技术与合作,将其潜在的推理市场扩展至全球3000万台超大规模服务器,同时为交付基于深度学习的服务大幅降低成本。

  在GTC 2018 主题演讲中,NVIDIA创始人兼首席执行官黄仁勋表示,基于在数据中心、汽车应用、以及包括机器人和无人机等嵌入式设备领域中,诸如语音识别、自然语言处理、推荐系统、以及图像识别等新功能的支持,面向深度学习推理的GPU加速正在获得越来越多的关注。

  NVIDIA宣布推出新版TensorRT推理软件,并将TensorRT集成至谷歌的TensorFlow框架。NVIDIA还宣布,最受欢迎的语音识别框架Kaldi现已针对GPU进行了优化。NVIDIA与亚马逊、Facebook及微软等合作伙伴的紧密协作,让开发者更易于使用ONNX与WinML充分发挥GPU加速的优势。

  NVIDIA加速计算副总裁兼总经理Ian Buck表示:“即便是最大规模的神经网络,面向量产型深度学习推理的GPU加速也能够让其以最低成本实时运行。随着对更多智能应用及框架支持的快速扩展,我们现在能够提高深度学习的质量,并帮助降低3000万台超大规模服务器的成本。”

  TensorRT和TensorFlow集成

  NVIDIA发布了TensorRT 4 软件,以针对广泛的应用加速深度学习推理。TensorRT提供高度精确的INT8与FP16网络执行,最高可减少70% 的数据中心成本。(1)

  TensorRT 4可用于快速优化、验证及部署在超大规模数据中心、嵌入式与汽车GPU平台中经过训练的神经网络。相比CPU,针对计算机视觉、神经网络机器翻译、自动语音识别、语音合成与推荐系统等常见应用,该软件最高可将深度学习推理的速度加快190倍。(2)

  为了进一步精简开发,NVIDIA与谷歌的工程师已将TensorRT集成至TensorFlow 1.7,使得在GPU上运行深度学习推理应用更加容易。

  谷歌工程总监Rajat Monga表示:“TensorFlow团队正在与NVIDIA密切协作,致力于将NVIDIA GPU的最佳性能推向深度学习社群。现在,通过TensorFlow与NVIDIA TensorRT的集成,可利用Volta Tensor Core技术将NVIDIA深度学习平台的推理吞吐量提高8倍(相比低延迟目标下的普通GPU执行),从而让GPU在TensorFlow内的推理实现了最高性能。”

  NVIDIA优化了全球领先的语音框架Kaldi,以实现运行于GPU的更快性能。GPU语音加速意味着消费者将获得更加准确与实用的虚拟助手,并降低数据中心运营商的部署成本。

  广泛的业界支持

  全球各地众多公司的开发者正在使用TensorRT从数据中获取新洞察,并部署面向企业与消费者的智能服务。

  NVIDIA与亚马逊、Facebook及微软密切合作,确保使用Caffe 2、Chainer、CNTK、MXNet与Pytorch等ONNX框架的开发者现在可以在NVIDIA深度学习平台轻松部署。

  SAP机器学习负责人Markus Noga表示:“通过在NVIDIA Tesla V100 GPU上运行我们基于深度学习的推荐应用,我们对TensorRT进行了评估。相比基于CPU的平台,我们在推理速度与吞吐量方面获得了45倍的提升。我们相信,TensorRT能够大幅提高我们企业客户的生产力。”

  Twitter Cortex负责人Nicolas Koumchatzky表示:“通过使用GPU,在我们的平台上得以实现媒体识读,这不仅显著减少了媒体深度学习模型训练时间,而且还能够让我们在推理时间获得对于即时影像的实时解读。”

  近期,微软也宣布了针对Windows 10应用的人工智能支持。NVIDIA与微软合作创建了GPU加速的工具,帮助开发者向Windows应用引入更多智能特性。

  NVIDIA还宣布了面向Kubernetes的GPU加速,以促进企业在多云GPU集群上的推理部署。NVIDIA将针对开源社群强化GPU性能,以支持Kubernetes生态系统。

  此外,MATLAB软件开发商MathWorks今天宣布了TensorRT与MATLAB的集成。工程师与科学家现在可以利用MATLAB自动生成面向NVIDIA DRIVE?、Jetson?与Tesla?平台的高性能推理引擎。

  面向数据中心的推理

  数据中心的运营者需要不断地寻求性能与效率的平衡,以使其服务器群保持最大的生产力。针对深度学习推理应用与服务,NVIDIA Tesla GPU加速的服务器能够替代数个机架的CPU服务器,从而释放宝贵的机架空间,并减低能源与降温需求。

  面向自动驾驶汽车、嵌入式平台的推理

  TensorRT也可以部署在NVIDIA DRIVE自动驾驶车辆与NVIDIA Jetson嵌入式平台上。基于各个框架的深度神经网络均可在数据中心内的NVIDIA DGX?系统中加以训练,然后部署至包括从机器人到自动驾驶车辆的所有类型的设备,并在终端实现实时推理。

  利用TensorRT,开发者可以集中于开发基于深度学习的新型应用,而非针对推理部署进行性能调节。利用可显著降低延迟的INT8或FP16精度,开发者可使用TensorRT交付闪电般快速的推理,这对于嵌入式与汽车平台上的目标检测与路径规划等功能而言至关重要。

  NVIDIA 开发者计划成员可了解关于TensorRT 4 候选发布版的更多信息:https://developer.nvidia.com/tensorrt。

  关于NVIDIA

  NVIDIA(纳斯达克股票代码:NVDA)是一家人工智能计算公司。它在1999年发明的GPU激发了PC游戏市场的增长,重新定义了现代计算机显卡,并且对并行计算进行了革新。最近,通过将GPU作为可以感知和理解世界的计算机、机器人乃至自动驾驶汽车的大脑,GPU深度学习再度点燃了全新的计算时代——现代人工智能。

微信扫描二维码,关注公众号。