会抢断、会射门、会防守……,强化深度学习让“AI足球运动员”越来越专业

机械手达人 2023-08-28
2751 字丨阅读本文需 7 分钟

足球,是一项全球流行的球类运动,讲究身体对抗与团队配合。在现实生活中,不管踢不踢,踢得好还是踢得不好,每当看(听)到“足球”这个词,人们都会似懂非懂地聊上几句。确实,足球这一运动,有太多的新闻,并不稀奇,但是,如果一个人工智能(AI)学会了踢足球,而且踢得还不错,那算不算一件比较稀奇的事情呢?毕竟,当前的 AI 有时连“500 年前的美国总统是不是林肯”这样的问题都回答不上来,

柯洁与AlphaGo人机大战之后,围棋界公认AlphaGo在围棋领域已远远超过人类棋手的棋力,是人类难以企及的新高度,已然不能被人类所击败。继AlphaGo之后,其开发者DeepMind的研究人员将目标对准了足球,让AI足球运动员学会了踢足球。尽管偶尔不讲规则,比如比赛中没有角球、点球和任意球等定位球(set piece),但研究团队认为,这一研究推动了人工系统向人类水平运动智能向前迈进。

AI足球运动员踢球大放水,是智能还是智障?

早在2016年,AlphaGo在围棋上战胜李世石后没多久,Deepmind就开始琢磨让AI踢足球了。

当年6月,DeepMind的研究人员让AI控制一只蚂蚁形状的物体去追逐小球,然后带球直至将其送进球门得分。根据DeepMind小组负责人David Silver的说法,借助当时谷歌最新开发出异步Actor-Critic算法,即A3C,AI不仅完成了这个项目,而且在整个过程中不需要向他灌输有关力学的知识。这项实验,让“AI踢足球”迎来了开门红。

到了2019年,DeepMind已经训练了许多 Player,它们分别由不同训练计划制作而成的,DeepMind从中选择10个双人足球团队。这10个团队每个都有250亿帧的学习经验,DeepMind收集了它们之间的100万场比赛。然后DeepMind设置环境,让多个AI一起踢足球赛,并且提前设置了规则,奖励整个“足球队”而不是去鼓励某个“AI球员”的个人成绩,以促成整个球队的进步。DeepMind用这种方式证明了,AI是可以互相合作的。

看起来一切顺利,然而到了2020年,DeepMind的AI球员出问题了。根据脑极体提供的资料,在一场比赛中,一方的足球机器人排成一排向球门发起射击,但机器人守门员却并没有准备防守,而是一屁股倒在地上开始胡乱摆动起了双腿。你以为这就完了?too naive!接着,担任前锋的机器人球员跳了一段十分令人困惑的舞蹈,跺跺脚,挥挥手,啪叽一下摔倒在地上。

这一幕让观众极为震惊:见过放水的,没见过这么放水的!为何会这样呢?这还要从背后的原理说起。

“AI踢足球”的开始,研究人员就采用了强化学习这条道路。此前,AlphaGo的学习是基于监督学习,即通过标记好的数据集来进行训练的。但这种方式对数据的“洁净”程度要求高:一旦数据有问题,AI就会犯错。与之相比,强化学习是模仿人类的学习模式,AI以“试错”的方式进行学习,对了受奖,错了受罚,从而建立正确的联系。

看起来比传统的监督学习智能了不少,但还是有漏洞。比如,AI会对奖惩措施产生错误的理解,因而生成奇怪的策略。OpenAI曾经设计了一个赛艇游戏,AI原本的任务是完成比赛。研究者设置了两种奖励,一是完成比赛,二是收集环境中的得分。结果就是智能体找到了一片区域,在那里不停地转圈“刷分”,最后自然没能完成比赛,但它的得分反而更高。

强化学习放大招,足球机器人变专业

DeepMind又有大动作,研究团队通过使用深度强化学习训练了一个具有20个驱动关节的微型仿生机器人OP3,在为其设置了多种单一行为策略后,OP3可以逐渐掌握在动态环境中组合自身行为应对复杂情况的能力,例如,两个OP3就可以进行简单的一对一足球比赛。

在对OP3进行训练时,研究团队首先对其训练单一的行为技能,然后使其通过自我博弈方式端到端的组合这些单一技能,通过这种方式产生的组合行为展现出了惊人的运动潜能。例如OP3可以流畅地完成行走、转身、运球、射门等复杂足球行为。除了上述专业足球动作,研究团队还着重考虑了OP3对外界环境的适应能力,例如快速跌倒恢复动作,如果将运动中的OP3直接推到,它能够快速平稳的重新站立,展现出了较强的环境适应能力。

研究团队提到,OP3的所有行为都是从一系列的外界奖励累积产生的,这也正是深度强化学习算法的核心所在。研究团队首先在一个模拟环境中训练代理模型,然后以zero-shot的形式将学习到的技能迁移到OP3机器人身上。由于模拟环境与机器人所处的真实环境具有不可忽视的域差异,因而在模拟训练期间,作者设计了一种结合了高频控制、动力学随机化和随机扰动加噪的混合优化方法,这一方法使得代理模型与OP3之间的高质量运动能力迁移成为可能。

这具体的过程到底是如何实现的?研究团队首先在一个定制的足球仿真环境中训练了智能体,然后将策略转移到对应的真实环境中,该环境由一个长5米、宽4米的足球场构成,其中设置了两个球门,每个球门的开口宽度为0.8米。在仿真环境和真实环境中,足球场的周围都设置有坡道,确保球保持在边界内。真实的足球场上铺有橡胶地板砖,以增加机器人与地面的摩擦力。

在第一阶段,研究团队首先训练了一个教师模型,教师模型主要使用两个特定技能进行训练,即从地面起身(getting up from the ground)和进攻对手得分(scoring goals)。需要注意的是,在训练进攻对手得分任务时,智能体必须处于站立状态,如果没有对该条件进行限制,智能体会陷入一个局部最小值陷阱,即在地面上滚动来将球送入球门,而不是通过行走运球和射门,这是强化学习训练中常见的问题。

对于教师模型的进攻得分任务,团队设置了多种训练情景,当智能体发生摔倒、出界、进入球门禁区或被对手进球等情况时,训练会直接终止,停止奖励反馈。而当智能体进球或者相对于对手带球进攻时,为智能体累积奖励分数,最终的总奖励是各奖励成分的加权和。此外,作者发现,对教师模型训练从地面起身技能(getting up from the ground)可以帮助智能体来获得更加完善的足球技能。

在第二阶段,研究团队使用第一阶段训练得到的教师模型来指导智能体学习如何有效地对抗越来越强的对手。这里团队采用了自我博弈的形式,即对手是从智能体的先前训练版本中随机采样得到的。这是一种自动课程学习的方式,对手的强度随着智能体的改进而增加。此外,为了提高后续策略迁移的泛化能力,作者在智能体训练过程中加入了域随机化、随机扰动和传感器噪声等增强手段。

在第二阶段,智能体将与越来越强的对手进行竞争,同时根据教师模型的引导进行正则化。这一过程可以产生多个能够进行各种足球技能的单一智能体,例如行走、踢球、从地面起身、进球和防守。当智能体或对手得分时训练会被终止,当智能体处于倒地状态、越界或球门禁区时,它在这些时间段都会收到一个固定的惩罚,所有的积极奖励成分都被忽略。

研究团队在研究过程中发现,在训练时加入例如域随机化、传感器噪声等扰动手段,可以达到意想不到的迁移效果。通过两阶段式的强化学习训练,以及蒸馏学习和自我博弈,OP3可以将所学单个运动技能灵活无缝的结合在一起,明显超过了人为设置的控制脚本。DeepMind表示,如果将类似的方法应用于更强大的机器人上,应该可以解决一些更加实际的现实世界任务。

AI足球机器人展望:

AlphaGo发展了四个版本,第一个版本即战胜樊麾时的人工智能,第二个版本是2016年战胜李世石的阿尔法围棋,第三个是在围棋对弈平台名为“Master”(大师)的版本,其在与人类顶尖棋手的较量中取得60胜0负的骄人战绩。而最新版的人工智能开始学习围棋3天后便以100:0横扫了第二版本的阿尔法围棋,学习40天后又战胜了在人类高手看来不可企及的第三个版本“大师”。

今年,DeepMind官宣AlphaFold可以预测出2亿多个蛋白质结构,从近100万个结构增加到超过2亿个结构,AlphaFold 数据库扩大了200倍,几乎覆盖了整个“蛋白质宇宙”。

现在AI足球只是相差了20人,相信在不久的将来,AI足球运动员通过不断地学习,在生成复杂运动策略方面的潜力会得以释放。到时候,更复杂战术和策略会从虚拟映射到真实世界的足球场上。

文章来源: 机器人大讲堂,将门创投,学术头条,中国人工智能学会

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处本网。非本网作品均来自其他媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如您发现有任何侵权内容,请依照下方联系方式进行沟通,我们将第一时间进行处理。

0赞 好资讯,需要你的鼓励
来自:机械手达人
0

参与评论

登录后参与讨论 0/1000

为你推荐

加载中...