研究人员提出强化学习法,可以让机器狗适应每一种外部环境

制造业科技汇 2021-11-02

机器人强化学习机器学习

1044 字丨阅读本文需 3 分钟

腿部机器人有许多优点,包括能够长途跋涉和在广泛的陆地环境中航行。然而,到目前为止,腿部机器人主要被训练成在特定环境中移动,而不是适应周围环境并在众多不同的环境中有效地运行。造成这种情况的一个关键原因是,预测机器人在运行时可能遇到的所有环境条件,并训练它对这些条件作出最佳反应是非常具有挑战性的。

伯克利人工智能研究中心和加州大学伯克利分校的研究人员最近开发了一种基于强化学习的计算技术,该技术可以规避这一问题,让腿部机器人主动从其周围环境中学习,并不断提高其运动技能。在arXiv上预先发表的一篇论文中介绍的这项技术,可以在现实世界中微调机器人的运动策略,使其能够在各种环境中更有效地移动。

"我们无法以这样的方式预先训练机器人,使它们在部署到现实世界时永远不会失败,因此,机器人要想实现自主,它们必须能够从失败中恢复和学习。在这项工作中,我们开发了一个在现实世界中执行RL的系统,使机器人能够做到这一点。"进行这项研究的研究人员之一劳拉-史密斯说道。

史密斯和她的同事设计的强化学习方法建立在加州大学伯克利分校的研究人员过去开发的运动模仿框架之上。这个框架允许腿部机器人通过观察和模仿动物的运动,轻松获得运动技能。

此外,研究人员推出的新技术利用了纽约大学(NYU)的一个团队设计的无模型强化学习算法,被称为随机集合双Q学习(REDQ)算法。从本质上讲,这是一种计算方法,允许计算机和机器人系统以非常有效的方式不断学习先前的经验。

首先,我们预先训练了一个模型,在模拟中赋予机器人运动技能,包括一个恢复控制器,然后,当机器人被部署在现实世界的新环境中时,我们只是继续训练它,用学到的控制器重新设置它。我们的系统只依赖于机器人的机载传感器,所以我们能够在非结构化的户外环境中训练机器人。

研究人员在一系列实验中评估了他们的强化学习系统,将其应用于一个四条腿的机器人,并观察它如何学会在不同的地形和材料上移动,包括地毯、草坪、泡沫材料和门垫。他们的发现是非常有希望的,因为他们的技术允许机器人在所有不同的表面上移动时自主地微调其运动策略。

研究人员还发现,他们可以将恢复控制器视为另一种学习的运动技能,并利用它在试验之间自动重置机器人,而不需要专家来设计恢复控制器或有人在学习过程中进行人工干预。

在未来,这个研究小组开发的新的强化技术可用于大幅提高现有和新开发的腿部机器人的运动技能,使它们能够在各种各样的表面和地形上移动。这反过来可以促进这些机器人用于复杂的任务,包括在陆地上长距离旅行,同时通过具有不同特征的众多环境。

史密斯说:"我们现在很高兴将我们的系统改编成一个终身学习的过程,在这个过程中,当机器人受到它在现实世界中遇到的多样化、不断变化的情况时,它永远不会停止学习。"

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:制造业科技汇
1

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...