为了推动这项研究挑战的进展,Google AI 与 DeepMind 合作,提出了深度规划网络 (Deep Planning Network, PlaNet),该智能体仅从图像输入中学习世界模型 (world model),并成功地利用它进行规划。
Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet),这是一个纯粹基于模型的智能体,能从图像输入中学习世界模型,完成多项规划任务,数据效率平均提升50倍,强化学习又一突破。
通过强化学习 (RL),对 AI 智能体如何随着时间的推移提高决策能力的研究进展迅速。
对于强化学习,智能体在选择动作 (例如,运动命令) 时会观察一系列感官输入(例如,相机图像),并且有时会因为达成指定目标而获得奖励。
RL 的无模型方法 (Model-free) 旨在通过感官观察直接预测良好的行为,这种方法使 DeepMind 的 DQN 能够玩雅达利游戏,使其他智能体能够控制机器人。
然而,这是一种黑盒方法,通常需要经过数周的模拟交互才能通过反复试验来学习,这限制了它在实践中的有效性。
相反,基于模型的 RL 方法 (Model-basedRL) 试图让智能体了解整个世界的行为。这种方法不是直接将观察结果映射到行动,而是允许 agent 明确地提前计划,通过 “想象” 其长期结果来更仔细地选择行动。
Model-based 的方法已经取得了巨大的成功,包括 AlphaGo,它设想在已知游戏规则的虚拟棋盘上进行一系列的移动。然而,要在未知环境中利用规划(例如仅将像素作为输入来控制机器人),智能体必须从经验中学习规则或动态。
由于这种动态模型原则上允许更高的效率和自然的多任务学习,因此创建足够精确的模型以成功地进行规划是 RL 的长期目标。
为了推动这项研究挑战的进展,Google AI 与 DeepMind 合作,提出了深度规划网络 (Deep Planning Network, PlaNet),该智能体仅从图像输入中学习世界模型 (world model),并成功地利用它进行规划。
PlaNet 解决了各种基于图像的控制任务,在最终性能上可与先进的 model-free agent 竞争,同时平均数据效率提高了 5000%。研究团队将发布源代码供研究社区使用。