橙色云资讯 - 工业互联网行业信息门户

会转笔、盘核桃！英伟达开源最新AI机器人，专为执行困难任务设计

南薇透视 2023-10-24

2036 字丨阅读本文需 6 分钟

近日，英伟达日前公布了一个名为 Eureka 的 AI 系统，该系统以 OpenAI 的 GPT-4 为基础，能够让机器人执行例如“转笔”、“开抽屉”、“拿剪刀”、“双手互传球”等 30 多种复杂动作。

经过查询得知，英伟达研究院主导开发了 Eureka，该 AI 系统可令开发者配合英伟达自家物理模拟软件 Isaac Gym 进行强化学习（reference learning）。英伟达 AI 研究部门资深总监 Anima Anandkumar 认为，过去 10 年以来“强化式学习”虽然有所进展，但仍存在不少挑战，例如“奖赏设计”等环节，现在还停留在“试错”阶段。而目前英伟达公布的 Eureka，则是为执行困难的任务而设计，结合生成式 AI 与强化式学习算法，进行首次尝试。

机器人学会转笔、盘核桃

在学习方面，GPT-4 是一个厉害的学生。在消化了大量人类数据后，它掌握了各门知识，甚至在聊天中能给数学家陶哲轩带来启发。与此同时，它也成为了一名优秀的老师，而且不光是教书本知识，还能教机器人转笔。这个名叫 Eureka的机器人，是来自英伟达、宾夕法尼亚大学、加州理工学院和得克萨斯大学奥斯汀分校的一项研究。这项研究结合了大型语言模型和强化学习的研究成果：用 GPT-4 来完善奖励函数，用强化学习来训练机器人控制器。

借助 GPT-4 写代码的能力，Eureka 拥有了出色的奖励函数设计能力，它自主生成的奖励在 83% 的任务中优于人类专家的奖励。这种能力可以让机器人完成很多之前不容易完成的任务，比如转笔、打开抽屉和柜子、抛球接球和盘球、操作剪刀等。不过，这一切暂时都是在虚拟环境中完成的。

此外，Eureka 还实现了一种新型的 in-context RLHF，它能够将人类操作员的自然语言反馈纳入其中，以引导和对齐奖励函数。它可以为机器人工程师提供强大的辅助功能，帮助工程师设计复杂的运动行为。英伟达高级 AI 科学家 Jim Fan 也是该论文的作者之一，他将这项研究比喻为“物理模拟器 API 空间中的旅行者号（美国研制并建造的外层星系空间探测器）”。

实验部分对 Eureka 进行了全面的评估，包括生成奖励函数的能力、解决新任务的能力以及对人类各种输入的整合能力。实验环境包括 10 个不同的机器人以及 29 个任务，其中，这 29 个任务由 IsaacGym 模拟器实现。实验采用了 IsaacGym (Isaac) 的 9 个原始环境，涵盖从四足、双足、四旋翼、机械手到机器人的灵巧手的各种机器人形态。除此以外，本文还通过纳入 Dexterity 基准测试中的 20 项任务来确保评估的深度。

Eureka 可以产生超人类水平的奖励函数。在 29 项任务中，Eureka 给出的奖励函数在 83% 的任务上比专家编写的奖励表现得更好，平均提高了 52%。特别是，Eureka 在高维 Dexterity 基准测试环境中实现了更大的收益。Eureka 能够进化奖励搜索，使奖励随着时间的推移而不断改善。Eureka 通过结合大规模的奖励搜索和详细的奖励反思反馈，逐步产生更好的奖励，最终超过人类的水平。

“混合梯度架构”是设计创新点

Eureka的关键创新在于采用了一种混合梯度架构，结合了无梯度的情境学习和强化学习。这个系统使用GPT-4的零样本生成、代码编写以及上下文改进功能，对奖励执行策略进行优化。在外循环中，GPT-4细化奖励函数，而内循环则使用强化学习来训练机器人控制器。这种方法让机器人能够通过强化学习来掌握复杂的技能，而不需要特定的提示工程和奖励模版。

Eureka还支持一种新形式的上下文强化学习，它能够将人类操作员的反馈融入自然语言中，以引导和调整奖励功能。Eureka能够轻松吸收人类提供的奖励和文字反馈，从而进一步完善自己的奖励生成机制。具体而言，Eureka 利用了 OpenAI 的 GPT-4 来编写用于机器人的试错学习的奖励程序。这意味着该系统并不依赖于人类特定任务的提示或预设的奖励模式。

Eureka 通过在 Isaac Gym 中使用 GPU 加速的仿真，能够快速评估大量候选奖励的优劣，从而实现更有效率的训练。接着，Eureka 会生成训练结果的关键统计信息摘要，并指导 LLM（Language Model，语言模型）改进奖励函数的生成。通过这种方式，AI 智能体能够独立地改善对机器人的指令。

最令人惊讶的是，Eureka在处理复杂、高维电机控制的任务上表现更佳，有时甚至与人类奖励的相关性负相关。这表明它的策略在某些情况下比人类策略更为有效，类似于AlphaGo在下棋策略上的表现。这一成就为机器人学习和强化学习领域带来了革命性的突破，也引发了广泛的关注和期待。

“Eureka 成功地弥补了高层推理（编码）和低层运动控制之间的鸿沟。其采用了一种被称为混合梯度架构：一个纯推理的黑盒子 LLM（Language Model，语言模型）引导一个可学习的神经网络。在这个架构中，外层循环运行 GPT-4 来优化奖励函数（无梯度），而内层循环则运行强化学习以训练机器人的控制器（基于梯度）。”NVIDIA的高级研究科学家Linxi Jim Fan表示。

可实现灵巧的机器人控制

在过去的十年中，强化学习取得了巨大的成功，但我们必须承认其中仍存在持续的挑战。之前虽然有尝试引入类似的技术，但与使用语言模型（LLM）来辅助奖励设计的 L2R（Learning to Reward）相比，Eureka 更为突出，因为它消除了特定任务提示的需要。Eureka 之所以能比 L2R 更出色，是因为它能够创建自由表达的奖励算法，并利用环境源代码作为背景信息。

英伟达的研究团队进行了一项调查，以探索在使用人类奖励函数启动时，是否能提供一些优势。实验的目的是想看看是否你们能顺利地用初始 Eureka 迭代的输出替代原始的人类奖励函数。

Nvidia表示Eureka结合LLM和Nvidia GPU模拟技术的产物，相信它可实现灵巧的机器人控制，并为动画作者提供生成逼真实体动作的新方法。Nvidia研究院之前也发布过Voyager，后者是以GPT-4打造能自己玩《Minecraft》的AI系统。Nvidia上周也宣布和甲骨文云计算服务的进一步合作。继今年3月及7月缔结生成式AI服务及超级计算机服务DGX Cloud搬上甲骨文云基础架构（Oracle Cloud Infrastructure，OCI）后，现在Nvidia DGX Cloud及Nvidia AI Enterprise软件服务，已经在服务市场上架，提供OCI客户采购。

Nvidia 的这项开创性研究在强化学习和奖励设计领域开辟了新的疆界。他们的通用奖励设计算法 Eureka 利用了大型语言模型和上下文进化搜索的力量，能够在广泛的机器人任务领域生成人类水平的奖励，而无需特定任务提示或人工干预，这在很大程度上改变了我们对 AI 和机器学习的理解。

文章来源：大数据文摘，十轮网，站长之家，IT之家

免责声明：凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处本网。非本网作品均来自其他媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容，请依照下方联系方式进行沟通，我们将第一时间进行处理。

0赞好资讯，需要你的鼓励

来自：南薇透视

0 0

参与评论

登录后参与讨论 0/1000

下一篇六个关键词回顾2021年的游戏行业

再有两天2021年就翻篇了。回顾过去的一年里...

2021-12-30

会转笔、盘核桃！英伟达开源最新AI机器人，专为执行困难任务设计

参与评论

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

会转笔、盘核桃！英伟达开源最新AI机器人，专为执行困难任务设计

参与评论

为你推荐

天玑8000加持！Redmi Note 12系列入网：首次搭载旗舰级芯片

智能网联汽车周报(6月第三周) | 《汽车软件升级通用技术要求》征求意见；中国牵头成立ISO车载激光雷达工作组

智能网联汽车周报(7月第一周) | 广州智能网联自动驾驶混行试点南沙首发；浙江德清颁发L4级自动驾驶卡车路测牌照

半年融资827亿，1.2万字看懂新能源汽车产业图谱

燧原科技完成C＋轮融资，大基金二期入股｜ 镁客网每周硬科技领域投融资汇总（8.6-8.12）

智能网联汽车周报(3月第三周) | 工信部将开展汽车软件在线升级管理试点；湖南发布智能网联汽车产业“十四五”规划

智能网联汽车周报(6月第一周) | 长安6月30日起关闭远程智能泊车等功能；首款前装量产全无人驾驶环卫车批量交付

智能网联汽车周报(1月第一周) | 首个自动驾驶公交车标准发布；京台高速部分路段为智能网联车测试道路

中国智慧城市“药方”如何化解海外城市治理症结？

智能网联汽车周报(11月第三周) | 工信部发布十四五信息通信行业发展规划，福特车路协同系统正式落地广州

AI新基建：AIoT领域群雄逐鹿，七家标杆企业各有什么过人之处？

RISC-V只适用于嵌入式芯片？以IoT为立足点，RISC-V正在“征服”整个半导体世界

下一个消费电子蓝海，VR/AR市场海外玩家走到哪一步，中国大厂布局情况又如何？

虚拟偶像、虚拟主播逐渐出现在人们的视野中，未来虚拟人行业将向何发展？

“灯塔工厂”的中国路径：智造从点到面铺开

国产屏厂TCL华星要打入苹果供应链：为iPad、MacBook出货LCD

国产CIS开始向2亿像素时代迈进，巨头垄断格局或将被打破

AI健身/3D试衣/AI烤肉……黑科技扎堆的AWE2021都有哪些硬货？

Nreal国内首发AR眼镜，消费级AR眼镜潮即将爆发，VR/AR产业链开启“卡位战”

研究人员研发仿生二合一纳米电子传感器，可同时测量细胞电气和机械反应

国家电投与阿里巴巴宣布战略合作，数字化转型这条路上，央企各显神通

新材料七国的竞争版图：热门行业分布大集锦，未来10年的市场机会或许在这

智能网联汽车周报(8月第一周) | 自然资源部开展汽车高精度地图应用试点；智能网联汽车测试示范区评估结果发布

SiC迎来“奇点时刻”，盘点近期产能、需求量、交易等行业大事件

智能网联汽车周报(1月第三周) | 北京建设2022年高级别自动驾驶示范区3.0；上海将制定智能网联汽车终端发展计划

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜ 镁客网每周硬科技领域投融资汇总

下一个10年，将会发生的12个趋势

从工业机器人产业链看智能制造机会

最新总结：冬奥会的100个创业机会

后疫情时代，OTA如何回血

相关推荐

协同+研发

400-800-1557

我是需求方

我是服务商

交易保障

帮助中心

工程社区

燧原科技完成C＋轮融资，大基金二期入股｜镁客网每周硬科技领域投融资汇总（8.6-8.12）

年内 IPO 上市？哪吒汽车完成超 20 亿融资｜镁客网每周硬科技领域投融资汇总