上得厅堂、下得厨房!史上最强“通用机器人智能体”,轻松泛化100多种未知任务

自动化最前线 2023-08-23
2425 字丨阅读本文需 6 分钟

爆火的大模型,正在重塑通用机器人智能体的研究。前段时间,谷歌DeepMind推出了耗时7个月打造的项目RT-2,能数学推理、辨认明星,在网上爆火了一把。除了谷歌,来自Meta、CMU的研究人员用了2年的时间,打造出史上最强的通用机器人智能体RoboAgent。不同的是,RoboAgent,仅在7500个轨迹上完成了训练。

具体来说,RoboAgent在38个任务中,实现了12种不同的复杂技能,烘培、拾取物品、上茶、清洁厨房等等。甚至,它的能力还能够泛化到100种未知的场景中。可以说,上得了厅堂,下得了厨房。有趣的是,不论你怎么干扰它,RoboAgent依旧设法去完成任务。

耗时2年,打造“通用机器人智能体”

仅在 7500 条轨迹数据上进行训练,能够在 38 个任务中展示 12 种多样的操作技能,不仅限于拾取/推动,还包括关节对象操纵和物体重新定位,并能将这些技能推广应用于数百个不同的未知情境(未知物体、未知任务,甚至完全未知的厨房环境),这样的机器人够不够酷?

几十年来,创造一个能够在不同环境中操纵任意物体的机器人一直是一个遥不可及的目标。一部分原因是,缺乏多样化的机器人数据集,无法训练这样的智能体,同时也缺乏能够生成此类数据集的通用智能体。

为了突破这一困境,来自 CMU、Meta AI 的作者历时两年开发了一个通用的 RoboAgent。他们将重点放在开发一种高效的范例上,能够在实际数据有限的情况下训练一个能够获得多种技能的通用智能体,并将这些技能推广应用于多样的未知情境。

Meta和CMU的研究人员希望,RoboAgent能够成为一个真正的通用机器人智能体。能够在各种不同的环境中自主地执行各种任务。通过深度学习和强化学习等先进技术的应用,RoboAgent能够从大量的数据中学习和适应,不断提升自己的性能和智能水平。这种通用性使得RoboAgent在各种实际应用场景中都能发挥重要的作用,为人们的生活带来便利和效益。

RoboAgent是多向研究的集合体,同时也是未来更多研究方向的起点。我们有理由相信RoboAgent将进一步发展和完善,成为更加智能和强大的机器人智能体。它可能会在工业制造、医疗保健、家庭服务等领域展现出更多的应用潜力,为人类社会带来更多的创新和发展。同时,这也需要相关领域的研究人员和企业共同努力,推动机器人智能体技术的发展和应用,使其更好地服务于人类的需求和利益。

超强功能:烘焙、上茶、擦桌子全能手

首先,RoboAgent可以很流畅地拉开或关上抽屉。虽然在打开时险些碰倒了酸奶,但动作的衔接上基本没有卡顿,丝滑地完成了推拉的动作。除了抽屉,RoboAgent还能轻松打开或关上微波炉的门。但它没有像人类一样抓握把手,而是将自己卡进了把手与门之间的空隙中,再使力开合了微波炉的门。

同样地,面对瓶瓶罐罐上的盖子,RoboAgent也能精准拿捏,打开、盖上——绝不拖泥带水。然而在厨房中,除了盖着的调料罐,也有一些需要拧开的罐子,比如料酒和老干妈等等……好在,对于各种拾取和放置类任务,RoboAgent基本是不在话下的。

RoboAgent从抽屉里拿出东西、又或是把茶包放进杯子里,打开微波炉将碗放进去等。展示的便是RoboAgent能够理解泡茶、加热食物等任务中包含的一系列动作。对以上九个动作进行排列组合,基本就可以覆盖在厨房中一系列任务。例如为烘焙做准备、打扫厨房、上菜汤、泡茶、收纳餐具等。

为烘焙做准备时,首先要拉开抽屉,然后找到放在里面的黄油。找到后把黄油放到案板上,最后关上抽屉。看起来RoboAgent这一系列动作的前后逻辑顺序已经和真实的生活场景十分接近了。但RoboAgent依旧不像人类一样灵活,先不提人类有两只手,可以一只手拿黄油,另一只手关抽屉。就算只用一只手,人类也可以拿着黄油的同时侧手把抽屉推回去。而RoboAgent只能先把黄油放下,然后才去关抽屉。看起来没有那么灵活的样子。

打扫厨房时,RoboAgent也是四步走:先关上抽屉,再关上微波炉。然后从旁边拿出一个毛巾,最后擦案板。上菜汤时,RoboAgent先打开微波炉,然后从微波炉里拿出放在里面的碗。之后把碗放在桌子上,最后把微波炉关上。但这里RoboAgent的表现就没有那么让人放心了。只能说还好演示视频中的碗是空的,如果真让RoboAgent这样在现实中拿装了食物的碗盆,估计它刚拿起来食物就洒地到处都是了。

不过,RoboAgent对泡茶倒是得心应手:先取开茶罐上的盖子,从里面拿出茶包,然后把茶包精准降落在杯子里,最后捡起盖子放回到罐子上。但这离完美的一杯茶还差了一步:倒水。还是说RoboAgent是在请我们喝有茶香的空气吗?

纵观上述RoboAgent的表现,虽然大部分任务都能顺利完成,但只有一只手还是太不方便了。希望Meta和CMU能多给RoboAgent安几只手,这样它就能同时干好几件事,大大提高效率。

史上最强‍RoboAgent是如何实现的?

‍RoboAgent 由以下模块化构成 :一个采用通用硬件构建的分布式机器人基础设施,能够长期不间断运行;一个统一的框架,用于在模拟和真实世界操作中进行机器人学习;一个高质量的数据集,代表了各种场景中使用日常物品的多种技能;一种高效的语言条件多任务离线模仿学习框架,通过在现有机器人经验的基础上创建多样的语义增强集合,从而扩大了离线数据集,并采用了一种新颖的策略架构和高效的动作表示方法,在有限的数据预算下恢复出性能良好的策略。

数据集:构建一个能够在许多不同情境下推广的机器人智能体,首先需要一个具有广泛覆盖范围的数据集。鉴于扩大规模的努力通常会有所帮助(例如,RT-1 展示了约 130,000 条机器人轨迹的结果),因此需要在数据集有限的情况下理解学习系统的效率和泛化原则,低数据情境往往会导致过拟合。因此,作者的主要目标是开发一种强大的范例,可以在低数据情境下学习可推广的通用策略,同时避免过拟合问题。

用于训练 RoboAgent 的数据集 RoboSet(MT-ACT)仅包括 7,500 条轨迹(比 RT-1 的数据少 18 倍)。该数据集提前收集并保持冻结状态。该数据集由在多个任务和场景中使用商品机器人硬件(Franka-Emika 机器人配备 Robotiq 夹具)进行人类遥操作收集的高质量轨迹组成。RoboSet(MT-ACT)在几个不同的情境下稀疏地涵盖了 12 种独特技能。数据通过将日常厨房活动(如泡茶、烘焙)分为不同的子任务来收集,每个子任务代表一个独特的技能。数据集包括常见的拾取 - 放置技能,还包括接触丰富的技能,如擦拭、盖盖子,以及涉及关节物体的技能。

离线模仿学习框架:RoboAgent 基于两个关键洞察在低数据情境下学习通用策略。它利用基础模型的世界先验知识以避免模式崩溃,并采用了一种新颖的高效策略表示,能够摄取高度多模态的数据。

1、语义增强:RoboAgent 通过对 RoboSet(MT-ACT)进行语义增强,将来自现有基础模型的世界先验知识注入其中。由此产生的数据集将机器人的经验与世界先验知识相结合,而无需额外的人力 / 机器人成本。使用 SAM 对目标物体进行分割,并在形状、颜色、纹理变化方面对其进行语义增强。2、高效策略表示:由此产生的数据集是严重多模态的,包含丰富多样的技能、任务和情景。将动作分块方法适应于多任务设置,开发了 MT-ACT 一种新颖的高效策略表示,能够在低数据量情境中摄取高度多模态的数据集,同时避免过拟合问题。

文章来源: 机器之心Pro,新智元,科技创新探索者

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:自动化最前线
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...