橙色云资讯 - 工业互联网行业信息门户

Google利用卷积神经网络创造一个新世界模型，可用于指导现实中的导航

人工智源库 2021-09-27

卷积新世界机器学习

1281 字丨阅读本文需 3 分钟

在未知设施周围导航时，人类使用各种视觉、空间和语义线索来帮助他们快速到达目的地。

机器人代理很难在新建筑中利用语义线索和统计规律。一个常见的策略是采用无模型强化学习用于导航。但是，以这种方式学习的导航提示不仅学习成本高昂，而且很难在不重新开始的情况下使用。

世界模型是机器人导航和规划代理的有趣替代方案。世界模型封装了有关其周围环境的丰富且相关的信息，并允许代理对其环境中的可操作事件进行明确的预测。这些模型取得了惊人的成果，引发了对机器人、模拟和强化学习的广泛兴趣。

与游戏环境相比，现实世界的环境非常复杂和多样化。

Google AI 最近推出了一种名为 Pathdreamer 的新世界模型，该模型仅使用少量种子观察和建议的导航轨迹即可生成建筑物部分的高分辨率视觉观察。

它可以从单一的角度创建一个身临其境的场景，预测如果代理移动到不同的角度甚至是以前看不见的区域（例如拐角处）会看到什么。该解决方案还可以通过编纂有关人类环境的知识来帮助自主代理在现实世界中导航。

Pathdreamer 将一系列过去的观察结果作为输入，并生成对未来地点轨迹的预测，与返回的观察结果交互的代理可以预先或迭代地提供这些预测。RGB、语义分割和深度图片用于输入和预测。在内部，Pathdreamer 使用 3D 点云表示世界中的表面。对云中每个点的 RGB 颜色值进行标记和语义分割类，例如墙壁、椅子或桌子。

在新地点预测视觉观察时，首先将点云重新投影到新地点的 2D 中，以提供“指导”图像。Pathdreamer 然后使用这些图像生成逼真的高分辨率 RGB、语义分割和深度。随着模型的“移动”，点云中会积累新的观察结果。使用点云进行记忆具有时间一致性的优点：重新访问区域的表示方式与先前的观察相同。

第一阶段将场景的可能的高级语义表示概念化，然后在第二阶段将其渲染为逼真的彩色图像。卷积神经网络可用于两个阶段。

在高度模糊的区域中可能出现许多不同的场景，例如被认为在拐角处或在未知房间中的位置。结构生成器基于噪声变量，表示未记录在引导图像中的下一个位置的随机信息，包括随机视频制作的原理。

Pathdreamer 可以通过对多个噪声变量进行采样来合成不同的景观，从而允许代理对给定路线的各种可能的结果进行采样。这些不同的输出反映在第一阶段的输出和生成的 RGB 图像中。

Pathdreamer 在接受来自 Matterport3D 的照片和 3D 环境重建训练后，能够合成逼真的视觉效果以及连续的视频序列。由于输出图像具有高分辨率和 360 度，因此现有导航代理可以轻松地对其进行调整以用于任何相机视野。

Pathdreamer 作为提高任务性能的视觉世界模型

研究人员将 Pathdreamer 用于视觉和语言导航 (VLN) 任务。在 VLN 中，实体代理应该使用自然语言指令前往现实 3D 世界中的某个地方。他们使用了房间到房间 (R2R) 数据集，其中指令遵循代理通过模拟环境中的各种替代可通行路径，根据导航指令对每个路径进行排名，并执行排名最佳的路径，从而提前做好准备。他们分析了以下三种不同的场景：

Ground-Truth 设置，其中代理通过与实际环境接触进行计划，即通过移动。

代理提前计划而不移动的基线设置。相反，它与对建筑物的可导航路径进行编码但不提供任何视觉观察的导航图进行交互。

Pathdreamer 设置，其中代理通过与导航图交互并接收 Pathdreamer 创建的适当视觉观察而提前计划而不移动。

在 Pathdreamer 设置中，导航成功率达到 50.4%。这个分数明显高于没有 Pathdreamer 的 Baseline 设置中 40.6% 的成功率。这表明 Pathdreamer 编码了有关现实世界室内环境的有意义且可访问的视觉、空间和语义知识。在 Ground-Truth 设置中，代理的成功率为 59%。在这种情况下，代理必须投入大量的时间和资源来物理探索大量轨迹，这在现实世界中会非常昂贵。

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：人工智源库

0 0

参与评论

登录后参与讨论 0/1000

下一篇更复杂的体系结构能保证更好的模型吗？

使用的数据集和数据预处理我们将使用Kaggle...

2022-04-19

Google利用卷积神经网络创造一个新世界模型，可用于指导现实中的导航

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

Google利用卷积神经网络创造一个新世界模型，可用于指导现实中的导航

参与评论

为你推荐

人脸识别技术哪家强？OPPO专利解读：多帧超分与深度学习结合提升精度

C++版OpenCV里的机器学习

HPC、AI与云计算：当智能时代三叉戟在亚马逊云科技完美融合

亚马逊云计算AWS与自动驾驶

视觉 Transformer 研究的关键问题: 现状及展望

CNN结构演变总结（一）经典模型

一年完成三轮融资，深势科技用“AI+分子模拟”解决微尺度工业设计难题

这家公司的人工智能，对自然语言的理解超过谷歌、Facebook

建立卷积神经网络模型

程序员必须知道的9大数据挖掘工具

机器学习初学者指南：机器学习黑客马拉松竞赛经验分享

padding在深度学习模型中重要吗？

使用 PoseNet 和实时深度学习项目进行姿势检测

施耐德电气选择亚马逊云科技作为首选云和机器学习服务提供商 构建智能工厂

计算机视觉简史：为了让机器学会“看”，人类到底有多努力

千倍设计效率提升，EDA终极形式，用AI设计芯片会成为未来趋势吗？

一文读懂语义分割与实例分割

基于卷积神经网络的图像分类

EfficientNet通过AutoML模型缩放提高准确效率

谷歌DeepMind将机器学习引入天气预报，打败传统预测方式

端到端深度学习项目：第1部分

2021年十大数据和分析趋势

使用自动编码器进行图像去噪 - 深度学习项目的初学者指南

使用 CNN 进行图像分类 - 理解计算机视觉

使用卷积神经网络进行图像分类

用于数据科学的六种必备Python工具

2021年计算机视觉工程师学习路线

COVID-19：使用深度学习的医学诊断

出门处处离不开刷脸，人脸识别到底安不安全？

计算机视觉专业术语/名词总结(一)构建知识体系

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

施耐德电气选择亚马逊云科技作为首选云和机器学习服务提供商构建智能工厂