Google利用卷积神经网络创造一个新世界模型,可用于指导现实中的导航

人工智源库 2021-09-27

卷积新世界机器学习

1281 字丨阅读本文需 3 分钟

在未知设施周围导航时,人类使用各种视觉、空间和语义线索来帮助他们快速到达目的地。

机器人代理很难在新建筑中利用语义线索和统计规律。一个常见的策略是采用无模型强化学习用于导航。但是,以这种方式学习的导航提示不仅学习成本高昂,而且很难在不重新开始的情况下使用。

世界模型是机器人导航和规划代理的有趣替代方案。世界模型封装了有关其周围环境的丰富且相关的信息,并允许代理对其环境中的可操作事件进行明确的预测。这些模型取得了惊人的成果,引发了对机器人、模拟和强化学习的广泛兴趣。

与游戏环境相比,现实世界的环境非常复杂和多样化。

Google AI 最近推出了一种名为 Pathdreamer 的新世界模型,该模型仅使用少量种子观察和建议的导航轨迹即可生成建筑物部分的高分辨率视觉观察。

它可以从单一的角度创建一个身临其境的场景,预测如果代理移动到不同的角度甚至是以前看不见的区域(例如拐角处)会看到什么。该解决方案还可以通过编纂有关人类环境的知识来帮助自主代理在现实世界中导航。

Pathdreamer 将一系列过去的观察结果作为输入,并生成对未来地点轨迹的预测,与返回的观察结果交互的代理可以预先或迭代地提供这些预测。RGB、语义分割和深度图片用于输入和预测。在内部,Pathdreamer 使用 3D 点云表示世界中的表面。对云中每个点的 RGB 颜色值进行标记和语义分割类,例如墙壁、椅子或桌子。

在新地点预测视觉观察时,首先将点云重新投影到新地点的 2D 中,以提供“指导”图像。Pathdreamer 然后使用这些图像生成逼真的高分辨率 RGB、语义分割和深度。随着模型的“移动”,点云中会积累新的观察结果。使用点云进行记忆具有时间一致性的优点:重新访问区域的表示方式与先前的观察相同。

第一阶段将场景的可能的高级语义表示概念化,然后在第二阶段将其渲染为逼真的彩色图像。卷积神经网络可用于两个阶段。

在高度模糊的区域中可能出现许多不同的场景,例如被认为在拐角处或在未知房间中的位置。结构生成器基于噪声变量,表示未记录在引导图像中的下一个位置的随机信息,包括随机视频制作的原理。

Pathdreamer 可以通过对多个噪声变量进行采样来合成不同的景观,从而允许代理对给定路线的各种可能的结果进行采样。这些不同的输出反映在第一阶段的输出和生成的 RGB 图像中。

Pathdreamer 在接受来自 Matterport3D 的照片和 3D 环境重建训练后,能够合成逼真的视觉效果以及连续的视频序列。由于输出图像具有高分辨率和 360 度,因此现有导航代理可以轻松地对其进行调整以用于任何相机视野。

Pathdreamer 作为提高任务性能的视觉世界模型

研究人员将 Pathdreamer 用于视觉和语言导航 (VLN) 任务。在 VLN 中,实体代理应该使用自然语言指令前往现实 3D 世界中的某个地方。他们使用了房间到房间 (R2R) 数据集,其中指令遵循代理通过模拟环境中的各种替代可通行路径,根据导航指令对每个路径进行排名,并执行排名最佳的路径,从而提前做好准备。他们分析了以下三种不同的场景:

Ground-Truth 设置,其中代理通过与实际环境接触进行计划,即通过移动。

代理提前计划而不移动的基线设置。相反,它与对建筑物的可导航路径进行编码但不提供任何视觉观察的导航图进行交互。

Pathdreamer 设置,其中代理通过与导航图交互并接收 Pathdreamer 创建的适当视觉观察而提前计划而不移动。

在 Pathdreamer 设置中,导航成功率达到 50.4%。这个分数明显高于没有 Pathdreamer 的 Baseline 设置中 40.6% 的成功率。这表明 Pathdreamer 编码了有关现实世界室内环境的有意义且可访问的视觉、空间和语义知识。在 Ground-Truth 设置中,代理的成功率为 59%。在这种情况下,代理必须投入大量的时间和资源来物理探索大量轨迹,这在现实世界中会非常昂贵。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:人工智源库
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...