Google AI和DeepMind推出新RL智能体-技术动态-中国安全防范产品行业协会

Google AI和DeepMind推出新RL智能体

2020/3/23 14:05 Google AI 关键字：Google AI DeepMind 智能体浏览量：

为了推动这项研究挑战的进展，Google AI 与 DeepMind 合作，提出了深度规划网络 (Deep Planning Network, PlaNet)，该智能体仅从图像输入中学习世界模型 (world model)，并成功地利用它进行规划。

　　Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

　　通过强化学习 (RL)，对 AI 智能体如何随着时间的推移提高决策能力的研究进展迅速。

　　对于强化学习，智能体在选择动作 (例如，运动命令) 时会观察一系列感官输入(例如，相机图像)，并且有时会因为达成指定目标而获得奖励。

　　RL 的无模型方法 (Model-free) 旨在通过感官观察直接预测良好的行为，这种方法使 DeepMind 的 DQN 能够玩雅达利游戏，使其他智能体能够控制机器人。

　　然而，这是一种黑盒方法，通常需要经过数周的模拟交互才能通过反复试验来学习，这限制了它在实践中的有效性。

　　相反，基于模型的 RL 方法 (Model-basedRL) 试图让智能体了解整个世界的行为。这种方法不是直接将观察结果映射到行动，而是允许 agent 明确地提前计划，通过 “想象” 其长期结果来更仔细地选择行动。

　　Model-based 的方法已经取得了巨大的成功，包括 AlphaGo，它设想在已知游戏规则的虚拟棋盘上进行一系列的移动。然而，要在未知环境中利用规划(例如仅将像素作为输入来控制机器人)，智能体必须从经验中学习规则或动态。

　　由于这种动态模型原则上允许更高的效率和自然的多任务学习，因此创建足够精确的模型以成功地进行规划是 RL 的长期目标。

　　PlaNet 解决了各种基于图像的控制任务，在最终性能上可与先进的 model-free agent 竞争，同时平均数据效率提高了 5000%。研究团队将发布源代码供研究社区使用。

微信扫描二维码，关注公众号。