王者绝悟：AI江湖里的“武林高手”

专栏

2021

07/11

10:31

懂懂笔记

王者绝悟：AI江湖里的“武林高手”

2021世界人工智能大会走到了第四年，给人最明显的感受就是AI已经慢慢从酷炫的概念，逐渐被应用到了更多的场景中。化有形于无形，润物细无声，不知不觉中人们与AI的交集已经越来越多。

不过，就如马化腾在开幕式中提到的“对AI的未知仍然大于已知”，在考虑到未来“通用AI”成熟后面临的道德摇摆问题之前，可能先要去解决的是路径上的技术难题。而在这次的AI大会上，腾讯带来的策略协作型AI王者绝悟，也许能够成为未来通用AI探索之路上的一个“急先锋”。

王者绝悟：AI江湖里的“武林高手”

王者绝悟的“武林高手”晋升之路

王者绝悟，实际上是王者荣耀与腾讯AI Lab在游戏场景下研究的成果。

用通俗一点的话来理解“策略协作型AI”，“策略”指的是AI能够通过获取到的信息，分析局势优化策略，做出更有利于获胜的行为；“协作”指的是操作不同英雄的多个智能体能够互相配合，协同推进博弈。

一旦明白了所谓的“策略协作型AI”的定义，也许就能理解为什么在8日下午的“职业人气选手 VS 王者绝悟”表演赛上，王者绝悟能够表现如此出色 —— 团战越塔收割，完美撤退；以一敌众，掩护队友撤退，稳固优势等等。

王者绝悟：AI江湖里的“武林高手”

2021世界人工智能大会

“职业人气选手 VS 王者绝悟”表演赛现场

有趣的是，王者绝悟并非一开始就这么“聪明”。事实上，回顾它的发展历程，特别像经典武侠小说里，一个武林高手的成长故事。

在18年面世的时候，王者绝悟通过监督学习，模拟了职业选手的操作，达到了顶尖业余水平。19年，它开始往深度强化学习课题上深入，达到了职业电竞水平。

好比一个初出茅庐的毛头小子，开始只能靠跟着师傅，“模仿”招式学习武功。但毕竟只是“模仿”，运气好学到的是“九阳神功”，运气不好可能就只能学到个“葵花点穴手”。而到了深度学习阶段，他决定不再模仿，而是开始自己修炼，逐渐摆脱了那些“套路化”的招式。

到了2020年，王者绝悟又通过课程化自我博弈，从单个或者固定英雄组合，高效地扩充到更多英雄组合的学习。

而在腾讯AI Lab高级研究员、王者绝悟AI模型负责人邱福浩描述的王者绝悟最新版本中，它进一步引用了多轮组合博弈和层次化的强化学习算法。也就是说，现在王者绝悟不仅能和你直接战斗，甚至在战斗之前的BP环节，就已经开始思考策略，并且战局中也能够持续调整策略来应对各种局面。

用邱福浩的来说，如今的王者绝悟，已经达到全英雄职业电竞水平。

王者绝悟：AI江湖里的“武林高手”

王者荣耀与腾讯AI Lab团队成员现场答疑

但是，就像改变世界的是“武道”，不是“武术”。王者绝悟在游戏场景、电竞行业中都有着直接、有效的帮助。但是，这还不足以称其为“通用AI路径上的一个急先锋”。

真正值得一提的，是王者绝悟背后所代表的技术发展浪潮。

王者绝悟：AI江湖里的“武林高手”

“人工+智能”向自主智能的进化

现如今，AI对于各行各业的赋能，已经不用多说，从上下班打卡的人像识别、到陪玩游戏的语音助理… 其价值已经被大家广泛认知并认可。

但是，AI的开发、训练、调试的过程中，如果完全放到现实中去进行，存在成本高、风险大的问题。因此，游戏是最好的虚拟化场景。从简单到复杂、从低级到高级，AI研究的不同历史时期，都能找到对应的、不同复杂度的游戏作为测试相关技术主要难题的技术试验场。

2016年，AlphaGo一战成名。作为许多年前的“第一批AI网红”， AlphaGo的技术逻辑并不难理解：通过“走棋网络”模仿棋手，然后借助树搜索，分析战况，推演未来的每一步棋的变化，接着凭借估值网络，分析局势，判断胜率，最后做出行动。

王者绝悟：AI江湖里的“武林高手”

AlphaGo对阵李世石

但是，AlphaGo仅仅是单体智能决策，而且围棋是一个规则明确、完全信息透明的单人游戏。如今，真正在各个场景下发挥重大应用价值的，是技术相对更加复杂的多智能体决策，这也就对测试环境提出了更高的要求。

简而言之，就是要模拟出一个工厂之类的环境，测试如何让工厂里的各个机器人在不吵架（或者可以吵架）的前提下，既完成自己的小目标，也完成好组织要求的“装好一辆汽车”的大目标。

现实情况下，不可能天天给科学家们找几家工厂来实验。于是，谷歌、Facebook、特斯拉等公司，开始直接或者让投资组合下的公司开启多智能体AI在多人竞技游戏环境下的实验，而在中国，王者荣耀与腾讯AI Lab一同推出了王者绝悟。

不过，为什么偏偏是王者绝悟；或者说，为什么说王者荣耀能成为一个绝佳的研究环境呢？

“王者荣耀的游戏机制具有很强的多人协作性、在不对称信息下博弈空间极大、协作竞技性很强，非常适合使用多智能体人工智能技术来提高生产和测试效率。此外，王者荣耀产品中的视野非全局性，敌我双方的实时位置、状态能信息非理想透明，游戏测试环境中能提供丰富的数据，模拟的场景，为研究模仿学习提供了保障；再者，天然的层次结构，在高层次对应大局观，在低层次中对应了微操，适合层次强化学习研究。”腾讯互动娱乐天美L1工作室总经理、王者荣耀执行制作人黄蓝枭说到。

王者绝悟：AI江湖里的“武林高手”