会转笔、盘核桃!英伟达开源最新AI机器人,专为执行困难任务设计

南薇透视 2023-10-24
2036 字丨阅读本文需 6 分钟

近日,英伟达日前公布了一个名为 Eureka 的 AI 系统,该系统以 OpenAI 的 GPT-4 为基础,能够让机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等 30 多种复杂动作。

经过查询得知,英伟达研究院主导开发了 Eureka,该 AI 系统可令开发者配合英伟达自家物理模拟软件 Isaac Gym 进行强化学习(reference learning)。英伟达 AI 研究部门资深总监 Anima Anandkumar 认为,过去 10 年以来“强化式学习”虽然有所进展,但仍存在不少挑战,例如“奖赏设计”等环节,现在还停留在“试错”阶段。而目前英伟达公布的 Eureka,则是为执行困难的任务而设计,结合生成式 AI 与强化式学习算法,进行首次尝试。

机器人学会转笔、盘核桃

在学习方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。这个名叫 Eureka的机器人,是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研究。这项研究结合了大型语言模型和强化学习的研究成果:用 GPT-4 来完善奖励函数,用强化学习来训练机器人控制器。

借助 GPT-4 写代码的能力,Eureka 拥有了出色的奖励函数设计能力,它自主生成的奖励在 83% 的任务中优于人类专家的奖励。这种能力可以让机器人完成很多之前不容易完成的任务,比如转笔、打开抽屉和柜子、抛球接球和盘球、操作剪刀等。不过,这一切暂时都是在虚拟环境中完成的。

此外,Eureka 还实现了一种新型的 in-context RLHF,它能够将人类操作员的自然语言反馈纳入其中,以引导和对齐奖励函数。它可以为机器人工程师提供强大的辅助功能,帮助工程师设计复杂的运动行为。英伟达高级 AI 科学家 Jim Fan 也是该论文的作者之一,他将这项研究比喻为“物理模拟器 API 空间中的旅行者号(美国研制并建造的外层星系空间探测器)”。

实验部分对 Eureka 进行了全面的评估,包括生成奖励函数的能力、解决新任务的能力以及对人类各种输入的整合能力。实验环境包括 10 个不同的机器人以及 29 个任务,其中,这 29 个任务由 IsaacGym 模拟器实现。实验采用了 IsaacGym (Isaac) 的 9 个原始环境,涵盖从四足、双足、四旋翼、机械手到机器人的灵巧手的各种机器人形态。除此以外,本文还通过纳入 Dexterity 基准测试中的 20 项任务来确保评估的深度。

Eureka 可以产生超人类水平的奖励函数。在 29 项任务中,Eureka 给出的奖励函数在 83% 的任务上比专家编写的奖励表现得更好,平均提高了 52%。特别是,Eureka 在高维 Dexterity 基准测试环境中实现了更大的收益。Eureka 能够进化奖励搜索,使奖励随着时间的推移而不断改善。Eureka 通过结合大规模的奖励搜索和详细的奖励反思反馈,逐步产生更好的奖励,最终超过人类的水平。

“混合梯度架构”是设计创新点

Eureka的关键创新在于采用了一种混合梯度架构,结合了无梯度的情境学习和强化学习。这个系统使用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化。在外循环中,GPT-4细化奖励函数,而内循环则使用强化学习来训练机器人控制器。这种方法让机器人能够通过强化学习来掌握复杂的技能,而不需要特定的提示工程和奖励模版。

Eureka还支持一种新形式的上下文强化学习,它能够将人类操作员的反馈融入自然语言中,以引导和调整奖励功能。Eureka能够轻松吸收人类提供的奖励和文字反馈,从而进一步完善自己的奖励生成机制。具体而言,Eureka 利用了 OpenAI 的 GPT-4 来编写用于机器人的试错学习的奖励程序。这意味着该系统并不依赖于人类特定任务的提示或预设的奖励模式。

Eureka 通过在 Isaac Gym 中使用 GPU 加速的仿真,能够快速评估大量候选奖励的优劣,从而实现更有效率的训练。接着,Eureka 会生成训练结果的关键统计信息摘要,并指导 LLM(Language Model,语言模型)改进奖励函数的生成。通过这种方式,AI 智能体能够独立地改善对机器人的指令。

最令人惊讶的是,Eureka在处理复杂、高维电机控制的任务上表现更佳,有时甚至与人类奖励的相关性负相关。这表明它的策略在某些情况下比人类策略更为有效,类似于AlphaGo在下棋策略上的表现。这一成就为机器人学习和强化学习领域带来了革命性的突破,也引发了广泛的关注和期待。

“Eureka 成功地弥补了高层推理(编码)和低层运动控制之间的鸿沟。其采用了一种被称为混合梯度架构:一个纯推理的黑盒子 LLM(Language Model,语言模型)引导一个可学习的神经网络。在这个架构中,外层循环运行 GPT-4 来优化奖励函数(无梯度),而内层循环则运行强化学习以训练机器人的控制器(基于梯度)。”NVIDIA的高级研究科学家Linxi Jim Fan表示。

可实现灵巧的机器人控制

在过去的十年中,强化学习取得了巨大的成功,但我们必须承认其中仍存在持续的挑战。之前虽然有尝试引入类似的技术,但与使用语言模型(LLM)来辅助奖励设计的 L2R(Learning to Reward)相比,Eureka 更为突出,因为它消除了特定任务提示的需要。Eureka 之所以能比 L2R 更出色,是因为它能够创建自由表达的奖励算法,并利用环境源代码作为背景信息。

英伟达的研究团队进行了一项调查,以探索在使用人类奖励函数启动时,是否能提供一些优势。实验的目的是想看看是否你们能顺利地用初始 Eureka 迭代的输出替代原始的人类奖励函数。

Nvidia表示Eureka结合LLM和Nvidia GPU模拟技术的产物,相信它可实现灵巧的机器人控制,并为动画作者提供生成逼真实体动作的新方法。Nvidia研究院之前也发布过Voyager,后者是以GPT-4打造能自己玩《Minecraft》的AI系统。Nvidia上周也宣布和甲骨文云计算服务的进一步合作。继今年3月及7月缔结生成式AI服务及超级计算机服务DGX Cloud搬上甲骨文云基础架构(Oracle Cloud Infrastructure,OCI)后,现在Nvidia DGX Cloud及Nvidia AI Enterprise软件服务,已经在服务市场上架,提供OCI客户采购。

Nvidia 的这项开创性研究在强化学习和奖励设计领域开辟了新的疆界。他们的通用奖励设计算法 Eureka 利用了大型语言模型和上下文进化搜索的力量,能够在广泛的机器人任务领域生成人类水平的奖励,而无需特定任务提示或人工干预,这在很大程度上改变了我们对 AI 和机器学习的理解。

文章来源: 大数据文摘,十轮网,站长之家,IT之家

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:南薇透视
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...