“玩游戏”会让机器人更聪明?机器人智能提升又发现一个新“窍门”

机器人大侠 2022-07-01

机器人人工智能虚拟技术

4713 字丨阅读本文需 11 分钟

6月27日,腾讯游戏发布会上,公布了一个特殊的项目——游戏驱动机器人加速智能学习项目,利用游戏技术和AI ,帮助腾讯首个全自研的四足机器人Robotics X Max实现智能控制、决策,并提升训练效率,这或许能成为机器人研发领域一个创新的突破口。

智能机器人训练成本高、优化难?

游戏技术来攻关

近年来,机器人的“技能树”逐渐枝繁叶茂,从早期能完成简单的单一动作,发展到具备力觉、触觉、听觉等多重感官,再到同时能进行多项复杂任务,甚至试图学会“思考”。

腾讯首席科学家、腾讯 AI Lab 及腾讯 Robotics X 实验室主任张正友将智能机器人的核心技术概括为A2G:A是人工智能(AI),B是机器人本体,C是控制,D是发育学习(developmental learning),E是情商,F是灵巧操控。通过学习能力、情感能力、操控能力及与其他要素的交互,机器人就会成为G,即人类的守护天使(guardian angel)。

这七个技术方向,推动机器从采集信息向分析决策、实现有意识自主的高阶智能发展——感知、学习、执行、规划。

说起来容易,但要实现真正的智能进阶,仍然有相当多的难题横亘在前。

就像人类在成长过程中通过学习、实践、试错,逐渐建立思考能力一样,研究人员希望给机器人设定一个目标,通过设计合理的奖励机制,让它自己摸索着学会感知和适应动态的环境变化。

而在真实场景中做这种训练,会非常“费钱”,因为实体机器人一旦磕磕碰碰,很容易损毁硬件,更别提还需耗费大量的数据和训练时间。

无独有偶,伴随着游戏产品的迭代升级,NPC(非玩家角色)似乎也在变得越来越“智能”。

在今天的游戏中,“状态机”是最常见的智能模拟方案,从《吃豆人》的鬼魂,到《暴力摩托》的摩托车手,再到《荒野大镖客》随处能与玩家进行交互的市民,随着游戏的进化和迭代,状态机智能已能做到真假难辨。

但即便是将NPC做到足够逼真的《荒野大镖客2》,也仅仅实现了“运动匹配”。其技术总监曾在一次访谈中回顾说,他们给马设计了几百种不同的动作动画,就连喘气都有上百条不同的声音。而这些,并不是真正的智能,只是庞大行为树和动画资源堆叠的成果。

那么如何通往真正的智能?怎样实现更高质量的虚拟角色,使其既能拥有更加自然真实的动作表现,又能显著降低开发成本?

面对这项游戏与机器人研发的共同核心课题,腾讯游戏技术团队和机器人团队进行了智能体动作生成技术的合作研发,并在游戏虚拟环境中应用和训练NPC,让NPC通过不断自主学习,学会更加拟真的动作、反应和表达。

研究期间,合作团队意识到,游戏里累积的大量技术经验与虚拟模拟的训练条件,可以为机器人的智能研发提供帮助,同时帮助解决成本高、优化难的两大研发痛点。

在合作过程中,以腾讯Robotics X实验室为主的机器人部门负责设计核心算法,包括定义任务环境和目标、构建和训练AI算法、搭建机器人智能控制系统整体框架、真机部署等。

以天美J3工作室、天美技术中心、腾讯互娱旗下 START 团队、腾讯 AI Lab 为主的游戏和AI部门,则主要基于游戏NPC动作模拟的智能体动作生成技术,助力实现机器人的自主决策并适配不同场景;同时提供高效和逼真的虚拟仿真能力,如环境场景搭建、核心物理引擎加速等,强化机器人训练效率和速度。

两大核心游戏技术加持

机器人越来越“聪明”

智东西获悉,经腾讯多个团队合作,机器狗 Robotics X Max 的训练效率得到大幅提升。

此外,机器狗能基于对虚拟场景中周边环境和自身状态感知到的信息,实现更好的姿态和行为控制,在智能感知、智能控制和智能决策方面的能力有明显进步。

这背后,两个游戏中的技术起到关键作用:

智能体动作生成技术能让虚拟环境中无论是NPC还是机器人都能提高“思考能力”,使其作出符合环境交互特点的拟真动作和反应。

需注意的是,这跟以往“填鸭式”教机器人、编码设定固定动作的逻辑大不相同。

具体来说,该技术利用AI强化学习算法,学习动作捕捉数据,通过数据驱动的自适应算法,让NPC或机器人根据玩家操作或环境变化等不同外界反应,基于运动学原理来自主生成和调节动作,仿佛帮助NPC或机器人形成大脑,让它们进行自主决策,自动生成更像真实生物的动作、反应与表达。

有了这一技术加持,机器狗在向着既定目标运动的过程中,即使临时碰到预先不知道的障碍物,也能轻轻一闪,灵巧避开,灵活自主地修改运动轨迹,用不同路线方案完成既定目标。

通过对学习算法中奖励函数的进一步设计优化,智能体动作生成技术做到了让机器人更灵动,该技术被用于研究训练之后,机器狗 Robotics X Max 的运动轨迹规划将会更加自然流畅,能够实现更细颗粒动作的智能生成、控制、决策,使动作表现体现高度智能。

智能体动作生成技术可以帮助解决机器人自主动作生成和控制,但是需要进行大量的仿真训练。

而在游戏中被广泛使用并积累了丰富经验的实时物理模拟技术,便是本次项目投入应用的另一个核心技术。它可以基于动力学搭建出高度拟真的虚拟环境,打破物理世界的局限性,满足机器人研发对复杂训练环境和多样化场景样本的需求。

游戏是模拟现实世界的最佳场所,也是最好的虚拟模拟和训练环境。相比直接在真实场景中训练实体机器人,该技术能降低试错成本,避免出现危险,进一步提升受力、碰撞等模拟效果的精确性,还有助于尽早发现机器人研发中的潜在问题。

利用实时物理模拟技术,研究团队可在游戏中快速搭建不同拟真虚拟训练场景,将机器狗 Robotics X Max 的训练场搬到虚拟空间,参照现实中的运动数据,让机器狗在仿真的复杂地形中完成行走、奔跑、相互协作等训练,并通过引擎加速能力,大力缩减机器人在现实世界完成训练所需的过程与时间。

据项目技术团队介绍,原本在现实世界需要几年的时间收集的数据量,可以在加速后的虚拟环境下,缩短成几小时来生成。

在机器人智能控制领域,基于强化学习的机器人智能控制方法是一个非常有前景的技术方向。因为游戏技术的加入,这一通过反复控制机器人运动、设计合理的奖励,来指导机器人怎么学习稳定地完成指定任务,以达到强化学习的技术方法,也不再因为需要耗费大量训练时间和金钱成本而不可想象。技术团队可以让机器人模型在虚拟世界中从零开始训练学习,再把总结出来的控制算法应用到真实机器人上,使机器人研发更加高效和节省资源。

目前,项目技术团队已实现在虚拟环境中,单只机器狗经过引擎加速后效率提升20倍,且同时训练的机器狗数量越多,训练效果越好,当同时存在50只机器狗训练,训练效率能实现百倍提速。

未来,结合GPU加速技术,腾讯游戏技术团队将助力进一步提升虚拟环境中机器狗的训练效率。

实现更好的动作表现,是游戏和机器人领域共同的重要研究目标。腾讯游戏正在与腾讯 Robotics X 实验室联合研发下一代智能机器人。

在将游戏技术和AI集成应用到机器人智能控制和决策这个课题面前,还存在诸如对于各类接触和碰撞高效且稳定的的仿真、对于触觉传感器信号的利用和仿真,以及如何稳定地将虚拟训练中得到的神经网络控制策略迁移到真机上等问题。

但技术团队正在借助游戏技术等探索稳定的解决方案,以期将原本需要数周甚至数月的,完成一个从动作设计、模拟仿真到真机调试的机器人控制任务的过程缩短到数天。

同时,他们希望借助游戏技术构建一套不断进化的智能系统,实现多机器人协作、精准控制,适应复杂环境变化,从虚拟到现实帮助机器人解决智能控制与自主决策问题。

当机器人能在游戏搭建的虚拟环境中实时感知、分析决策和行动的时候,它们将来或可应用于养老陪护等惠民服务和更多新场景,成为人类的好帮手。

特斯拉人形机器人即将掀起风潮

马斯克表示将在 9 月底“特斯拉 AI 日”发布 Optimus 人型机器人原型机。2021年 8 月,马斯克于特斯拉 AI 日宣布将在 2022 年推出原型机器人。今年 4 月 7 日,Cyber Rodeo 活动器件,Tesla 在制造工厂展示了该产品并表示将在 2023 年投入生产。6 月 3 日,马斯克在其推特上预告将在 9 月 30 日今年的特斯拉 AI 日正式发布Optimus 人形机器人原型机。根据去年 AI 日发布的介绍显示,Tesla 机器人身高 1 米72,体重 56 公斤,可负载 20 公斤,行动速度最高 8 公里每小时,该机器人旨在执行繁琐的日常任务或危险的工作,如体力劳动和家务等。

特斯拉机器人不仅具有灵巧的“四肢”,还拥有聪明的“眼睛”。介绍特斯拉机器人的系统组成结构。Teslabot 将具有人类级别的手和两只脚,其全身搭载了 40 个机电执行器,其脚部具备压力反馈感知能力,手部装载 12 个机电执行器,这意味着特斯拉机器人不仅能像人一样在负重时保持平衡行走,并且可以执行一些精密的人类手工作业。传感技术方面,Teslabot 延续特斯拉汽车以视觉为主技术路线,使用 Autopilot摄像头充当感知系统,在采集信息后,通过强大的神经网络处理和识别不同任务,依靠其胸腔内部搭载的 FSD 全套计算机完成。此外,得益于 Dojo 计算机等特斯拉日益强大的 AI 训练能力和自动驾驶场景模拟系统,特斯拉机器人在出厂前就将具备对环境路径、周围物体的识别和路径规划能力。

基于视觉的神经网络技术已经在特斯拉电动车 FSD 得到实战验证,有望借助于Dojo 加速训练芯片实现升级。特斯拉 FSD 目前已完成了横跨美国绝大多数道路的数据采集,每辆特斯拉每天采集的数据近 4GB,累计采集数据达 1.5PB,特斯拉汽车积累的海量数据和算法,有助于帮助机器人实现更复杂“自动驾驶”快速落地。

特斯拉 FSD 工作流程包括识别、预测、规划三个步骤。1)通过路测采集和计算机模拟,特斯拉积累了多达 100 万个 10 秒视频并通过无监督机器学习给 60 亿个物体贴上了深度、速度和加速度的标签;2)特斯拉的 FSD 能够对收集到的数据加入时间戳以形成一定的“记忆”能力,对车辆的相对位置、速度以及不在视野范围内的障碍物等将做出实时预测,这弥补了纯视觉算法对于障碍物遮挡下实时决策的限制,成为FSD 更加“智能”的关键;3)FSD 完成了对多种常见驾驶场景的路线规划算法迭代,如“有车变道”、窄道遇车、停车场寻位等。由于特斯拉全球独一无二庞大的数据量和领先的 AI 预测与算法,特斯拉认为目前纯视觉方案也能较好弥补深度传感器缺失带来的不足。

去年 AI Day 上,特斯拉 AI 超算 Dojo 亮相,这款芯片单芯片算力为 362TFLOPS,25 个芯片一组组成一个训练模块,算力可达 9PFLOPS,接口带宽为 36TB/s,目前Dojo 组成的机柜集群由 120 个训练模块组成,内置 3000 个 Dojo 芯片,超过 100 万个训练节点。通过自研最先进的 AI 训练基础设施,特斯拉省去了购买昂贵的 GPU 服务器的大量成本并不需要依赖其他云服务商的能力,保障了数据和算法的安全。特斯拉有望将 Dojo 超算强大的 AI 大数据训练能力赋能 Teslabot,从而大大缩短机器人上线和后续软件迭代的速度。

各大平台着力打造机器人技术平台,AI 下一波浪潮已开启。我们在之前关于GTC2022 的点评中指出,AI 的下一波应用爆发浪潮为机器人,从 AGV 小车到自动驾驶再到人形机器人,AI 正在从固定的计算机进化成可移动的机器人形态。特斯拉搭建的自动驾驶场景模拟平台已帮助特斯拉积累标记 3.71 亿个模拟图像和 4.8 亿个立方体。特斯拉自动驾驶模拟系统由准确传感器模拟、逼真渲染、各种路上的事物和定位、可扩展的场景生成以及情景重构组成,这些能帮助特斯拉模拟一些现实中很少遇到的事故场景并提高数据冗余度。

而英伟达通过 Omniverse replicator 在 DRIVE Sim 和Isaac Sim 的加持下,通过仿真平台中的虚拟摄像机和传感器,合成难以标记的真值数据,并帮助 AI 工程师构建这些数据,弥补现实世界中不容易发现的数据缺口。各大自动驾驶巨头纷纷布局机器人技术开发平台和模拟工具,人形机器人有望接棒汽车成为重要的“机器人应用”。

机器人的进步比我们想象的更快

人形机器人表面上的先进能力往往掩盖了它们的局限性。它们让我们忘记,尽管如此,我们正在处理的是程序化的、没有创造力的、纯粹的机械生物。

即使机器人一天比一天聪明,在他们学会并能够独立执行要求更高的任务之前,仍然需要大量的人类帮助。只有这样,他们才能通过观察、互动和交流,不断地自主学习,积极参与我们的生活。

一个重要的下一步是模拟算法学会学习 - 无需程序员进行手动改进。否则,我们将不得不永远使用我们自制的机器,而它们永远不会独立行动,并且在我们不断变化和混乱的世界中真正有用。

在这种情况下,进一步的问题出现了:我们愿意将多少权力交给自主机器?谁对机器人 AI 的错误决策负责?机器人会很快接管我们的工作吗?

尽管有理由担心机器人可能会给人类带来一场社会和生存危机,但人与机器有朝一日也有可能和谐共存,大多数活动不会完全被机器人取代,而是伴随着机器人带来利润。

机器人已经生活在我们中间:作为真空吸尘器、割草机、个人助理、服务和护理机器人或用于娱乐,它们在我们日常生活的许多领域中变得不可或缺。但仍有巨大的进步潜力。

让我们想象一下,他是您家中每个人都负担得起的人形机器人,它结合了这里描述的所有技能:他吸尘、打扫、精确分类我们的垃圾、用多种语言聪明而有趣地交谈,可以灵活地行走,搬运物品、爬楼梯、制作音乐和跳舞,甚至掌握翻筋斗等优雅的特技。他的面部表情与人类一样逼真。当我们给他一个目标而不必训练他时,他会学到新东西。

还要多久,我们才能模仿人类如此完美的奇迹?这个机器人搭档在我们身边成为现实需要多长时间?鉴于从一百年前这个词的创造到最近由人工智能驱动的跑步发现的快速发展,这可能比我们想象的要快。

文章来源:智东西,远瞻智库,无人机网

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:机器人大侠
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...