资讯详情

从运动控制到体现智能

DeepMind2022-09-02 09:19:444636

使用人类和动物的动作来教机器人运球，并模拟人形角色搬运箱子和踢足球。

人形角色通过反复试验学习穿越障碍课程，这可能会导致特殊的解决方案。海斯等人。“丰富环境中运动行为的出现”（2017 年）。

五年前，我们接受了教授一个完全清晰的人形角色穿越障碍课程的挑战。这展示了强化学习 (RL) 可以通过反复试验来实现什么，但也突出了解决具身智能的两个挑战：

重用先前学习的行为：代理需要大量数据才能“起步”。在没有任何初步知识对每个关节施加什么力的情况下，代理开始随机抽搐并迅速跌倒在地。这个问题可以通过重用以前学习的行为来缓解。

特殊行为：当智能体最终学会导航障碍路线时，它会以不自然（尽管很有趣）的运动模式进行，这对于机器人等应用来说是不切实际的。

在这里，我们描述了一个解决这两个挑战的解决方案，称为神经概率运动原语 (NPMP)，涉及使用源自人类和动物的运动模式进行引导学习，并讨论如何在我们的Humanoid Football 论文中使用这种方法，该论文今天发表在 Science Robotics 上。

我们还讨论了这种相同的方法如何通过视觉实现人形全身操作，例如携带物体的人形，以及现实世界中的机器人控制，例如运球的机器人。

使用 NPMP 将数据提取为可控电机原语

NPMP 是一种通用电机控制模块，可将短视距电机意图转换为低级控制信号，并通过模仿运动捕捉 (MoCap) 数据离线或通过 RL进行训练，这些数据由跟踪器记录的人类或动物执行以下动作兴趣。

一个学习模仿 MoCap 轨迹的智能体（以灰色显示）。

该模型有两个部分：

采用未来轨迹并将其压缩为运动意图的编码器。

一个低级控制器，在给定代理的当前状态和这个运动意图的情况下产生下一个动作。

我们的 NPMP 模型首先将参考数据提取到低级控制器（左）。然后，该低级控制器可用作新任务的即插即用电机控制模块（右）。

训练后，低级控制器可以重新用于学习新任务，其中高级控制器被优化以直接输出电机意图。这可以实现有效的探索——因为即使是随机采样的运动意图也会产生连贯的行为——并限制最终的解决方案。

人形足球中的紧急团队协调

足球一直是体现智力研究的长期挑战，需要个人技能和协调的团队合作。在我们最新的工作中，我们使用 NPMP 作为指导学习运动技能的先验。

结果是一群球员从学习追球技巧发展到最终学会协调。以前，在一项具有简单实施例的研究中，我们已经表明协调行为可以出现在相互竞争的团队中。NPMP 使我们能够观察到类似的效果，但在需要更先进的电机控制的情况下。

代理首先模仿足球运动员的运动来学习 NPMP 模块（上）。使用 NPMP，代理然后学习足球特定技能（底部）。

我们的代理人获得了包括敏捷运动、传球和分工在内的技能，这些技能由一系列统计数据（包括现实世界体育分析中使用的指标）证明。球员们表现出敏捷的高频运动控制和长期决策，包括预测队友的行为，从而实现协调的团队合作。

使用多智能体 RL 学习有竞争力地踢足球的智能体。

使用视觉的全身

学习使用手臂与物体交互是另一个困难的控制挑战。NPMP 还可以实现这种类型的全身操作。通过与盒子交互的少量 MoCap 数据，我们能够训练一个智能体将一个盒子从一个位置带到另一个位置，使用以自我为中心的视觉并且只有一个稀疏的奖励信号：

使用少量 MoCap 数据（上），我们的 NPMP 方法可以解决一个盒子搬运任务（下）。

同样，我们可以教智能体接球和扔球：

模拟人形接球和投球。

使用 NPMP，我们还可以处理涉及运动、感知和记忆的迷宫任务：

模拟人形机器人在迷宫中收集蓝色球体。

安全高效地控制现实世界的机器人

NPMP 还可以帮助控制真正的机器人。有规律的行为对于在崎岖地形上行走或处理易碎物体等活动至关重要。抖动的动作可能会损坏机器人本身或其周围环境，或者至少会耗尽其电池。因此，通常会投入大量精力来设计学习目标，使机器人能够按照我们的意愿行事，同时以安全有效的方式行事。

作为替代方案，我们调查了使用源自生物运动的先验是否可以为有腿机器人提供规则化、外观自然和可重复使用的运动技能，例如适合部署在现实世界机器人上的步行、跑步和转弯.

从人类和狗的 MoCap 数据开始，我们采用 NPMP 方法在模拟中训练技能和控制器，然后可以分别部署在真正的类人机器人 (OP3) 和四足机器人 (ANYmal B) 上。这允许用户通过操纵杆操纵机器人或以自然且稳健的方式将球运到目标位置。

ANYmal 机器人的运动技能是通过模仿狗的动作捕捉来学习的。

然后可以将运动技能重新用于可控步行和运球。

使用神经概率运动原语的好处

总之，我们已经使用 NPMP 技能模型来学习模拟和现实世界机器人中具有人形角色的复杂任务。NPMP 以可重用的方式打包了低级运动技能，从而更容易学习通过非结构化试错法难以发现的有用行为。使用动作捕捉作为先验信息的来源，它将运动控制的学习偏向自然运动的学习。

NPMP 使具体代理能够使用 RL 更快地学习；学习更多自然主义的行为；学习更安全、高效、稳定的适用于现实世界机器人的行为；并将全身运动控制与更长视野的认知技能相结合，例如团队合作和协调。