DeepMind 用新 AI 超越自己：提速 200 倍，在所有雅达利游戏上胜过人类

观点

2022

09/21

10:38

亚设网

DeepMind 又对雅达利游戏下手了！

这次，他们最新推出的智能体 MEME，在效果不变的前提下，比两年前的 Agent57 提速了 200 倍！

Agent57，是 DeepMind 在 2020 年搞的一个智能体，史上首次在所有 57 个雅达利游戏中超过了人类基准表现。

但它有一个致命缺陷是效率低：需要近 800 亿帧的数据训练才能实现。

现在，MEME 的出现完美解决了这一问题。

有网友看完表示：这就是真正的样本高效吧。

话不多说，赶紧来一睹为快吧。

新的智能体：MEME

Agent57，作为首个在所有雅达利游戏中超越人类基准表现的智能体，性能上已足够先进。

但问题是，要想达到这一目标，背后需要 780 亿帧的庞大的经验训练，这在时间和成本上都是一笔大开支。

因此，以 Agent57 为起点，DeepMind 采用了一系列不同的策略，来实现训练效率上的提升。

他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈，并提出了有效的解决方案，最后建立一个更加强大和高效的智能体：MEME。

新的 MEME 智能体主要针对 Agent57 的 4 个方面进行改善，分别是：

A.实现与罕见事件相关的学习信号的快速传播；

B.在不同的价值尺度下稳定学习；

C.改进神经网络结构；

D.在快速变化的政策下使更新更加稳健。

为了达到这四个目标，DeepMind 采取了以下方法，与上述四点相对应。

A1.用在线网络进行引导；

A2.有公差的目标计算；

B1.损失和优先权归一化；

B2.交叉混合训练；

C1.无归一化的躯干网络；

C2.带有综合损失的共享躯干；

D.通过策略提炼的鲁棒行为。

这些方法旨在提高 Agent57 的数据效率，但这种效率的提高不能以牺牲终端性能为代价。

因此，为了检验经过上述步骤的智能体 MEME 的效率和性能，研究团队分别在 2 亿、10 亿、200 亿、900 亿帧环境进行了训练。

通过下图可以直观的看出，新智能体 MEME 在 3.9 亿帧时就超过了人类基准，比 Agent57 快了两个数量级，并且在将参数量从 90B 减少到 1B 的情况下，取得了类似的最终表现。

可以说相比 Agent57 而言，MEME 既提升了效率，又保持了性能。

研究团队

MEME 的研究团队来自 DeepMind。

其中三位 Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell 也是之前 Agent57 的论文作者。

值得一提的是，Steven Kapturowski 在两篇论文中都是一作。

他毕业于美国科罗拉多大学博尔德分校，曾在苹果、微软、Glassdoor 等公司工作过，现在是 DeepMind 的一名高级研究工程师。

参考

[1]https://arxiv.org/pdf/2209.07550.pdf

[2]https://arxiv.org/pdf/2003.13350.pdf

[3]https://www.linkedin.cn/incareer/in/stevenkapturowski

THE END

DeepMind 人类游戏胜过达利

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表亚设网的观点和立场。

热文榜单

创业

关于我们

关于我们

关于我们

银保监会发布银行保险机构消费者权益保护管理办法

财经

天价母婴消费，收割“廉价爸妈”

创业

测评12款不粘锅：爱仕达等5款样品不粘与耐磨性排名均靠后

家电

智己LS6员工内购折扣！便宜7万-比名爵6混动还便宜

汽车

沙特土豪签下6亿支票，投给前百度天才设计师

创业

机构奔走忙调研，嘉实基金成勤奋生之首，埃斯顿最受关注，外资青睐医药、消费

观点

关于我们

微信扫一扫，加关注

DeepMind 用新 AI 超越自己：提速 200 倍，在所有雅达利游戏上胜过人类

新的智能体：MEME

研究团队

推荐阅读

热文榜单

关于我们