MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

观点

2021

11/11

08:38

亚设网

11 月 11 日消息，本周一，麻省理工学院计算机科学与人工智能实验室（MIT CSAIL）公布了一项新成果 —— 一个能够灵活控制机械手的程序框架。

MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

在很长一段时间里，机械手的操纵物体能力还不如刚满一岁的婴儿灵活。即使现在机械手可以做的不仅仅是捡起和放下物体，但在发力和复杂手部动作方面，它还没有完全模仿到位。

目前，在该领域已经有多个 AI 实验室致力于机械手训练，例如 OpenAI 的 Dactyl 机器手、DeepMind 的 RGB 堆叠技术（RGB-Stacking）等，都在一定程度上促进了机器人行业的发展。

MIT CSAIL 研究人员提出的程序框架可以让机械手操纵超过 2000 个不同物体的方向，利用简单的“师生”训练方法，在模拟环境中训练”教师“网络，再应用到现实世界的“学生”中，解决机械手技术的复杂问题。

该论文将在 2021 年机器人学习会议（Conference on Robot Learning，CORL）上发表。

一、从魔方到 2000 多种不同物体，任意玩转

OpenAI 2019 年 10 月 15 日在官网博客发布了 Dactyl 机械手的视频，视频内容是 Dactyl 机械手在约 4 分钟的时间里成功还原了一个三阶魔方，这是在机械手控制领域，从定向任务编程迈向更通用 AI 技术的重要一步。

MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

▲ Dactyl 机械手还原魔方视频（GIF 来源为 YouTube）

2021 年 10 月 12 日 DeepMind 发布 RGB 堆叠技术（RGB-Stacking）对机械手进行强化学习训练，这是一个基于视觉的学习系统，评估多个研究对象的行为和动作来提高机械手能力。

MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

▲ RGB 堆叠技术机械手训练过程（图片来源为 VentureBeat）

MIT CSAIL 的科学家们也一直致力于让机器提高模仿人类的能力，他们创建了一个更大的程序框架：无论机械手朝上还是朝下，都可以重置 2000 多个物体的方向。从杯子到金枪鱼罐头、奶酪盒子等，甚至可以延伸到生活中不常见的物体，这个程序框架都可以帮助机械手以特定的方式，在合适的位置快速拾取和放置物体。

此前机械手通常只能完成单一任务或者只能在垂直位置上移动，而现在机械手可以具备灵巧的“手部动作”，有助于满足物流和制造行业一些常见的需求。例如将物品装入插槽中进行装配，或灵活操纵距离更远的工具。MIT CSAIL 的团队使用了具有 24 个自由度的拟人机械手，证明了该程序框架可以在未来转移到真正的机器人系统上。

MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

▲ MIT CSAIL 研究团队的机械手演示动画（GIF 来源为 GitHub）

二、从零重力到正常条件，机械手性能提高

MIT CSAIL 博士生、Improbable AI Lab 研究小组首席研究员陈涛（Tao Chen）说：“在工业中，由于控制简单，最常用的是平行爪夹持器，如下图所示。但实际上它无法处理我们在日常生活中看到的许多工具。即使用该夹持器控制钳子也很困难，因为它不能灵活地只移动其中一个手柄。我们的程序框架将允许多指机械手灵巧地操纵此类工具，这为机械手应用开辟了一个新领域。”

MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

▲ 平行爪夹持器（图片来源为 YouTube）

机械手操纵物体时需要控制大量电机，并且手指与物体之间的接触状态也在频繁变化，因此，机械手重置物体方向一直是一个具有挑战性的技术难题。该程序框架需要通过 2000 多个对象进行学习。

当机械手朝下时，问题就变得更加棘手。机械手不仅需要操纵物体，还需要克服重力使其不会掉落。

MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

▲ 机械手朝下时操纵物体（GIF 来源为 GitHub）

该团队发现一种简单的方法可以解决复杂的问题。他们使用了深度学习的无模型强化学习算法，意味着该程序框架必须从与环境的交互中找出价值函数，以及所谓的“师生”训练方法。

为此，研究人员利用物体和机械手的信息对“教师”网络进行训练，这些信息无法在现实世界中获得，只能在模拟环境中获得，例如指尖的位置或物体移动速度。

为了确保机械手可以在模拟环境之外工作，“教师”网络学习到的内容将被提炼为现实世界中可以获取的观察结果，并提供给“学生”网络，例如摄像机捕获的深度图像、物体姿态和机械手的关节位置。

他们还使用了“重力课程”的学习方法，机械手首先在零重力环境中学习技能，然后慢慢地让控制器适应正常的重力条件，以这种形式训练机械手确实提高了其整体性能。

看似不是正常的学习过程，但被称为机械手“大脑”的单个控制器可以通过这种训练方法重新放置大量物体，即使这些物体它以前从未见过并且不知道形状。

三、机械手成功率受物体形状制约

麻省理工学院教授、该研究论文作者 Pulkit Agrawal 说：“我们最初认为，在机械手操纵物体时推断形状的视觉感知算法将是主要挑战。相反，我们的结果表明，机械手可以学习与形状无关的强大控制策略。这表明视觉感知对于操纵的重要性可能远不如我们习惯的思维方式重要，而更简单的感知处理策略可能就足够了。”

例如苹果、网球、弹珠等小的球形物体在用机械手重新放置时，其成功率接近 100%。而对于勺子、螺丝刀和剪刀等更复杂的物体放置的成功率较低，只有约 30%。

MIT 机械手新研究：玩转 2000 多个物体，球体成功率近 100%

▲ 机械手操纵球形物体（GIF 来源为 GitHub）

由于其成功率因对象形状而有所偏差，该团队指出，在未来基于物体形状训练模型可以进一步提高机械手性能。