普通人的元宇宙第一站，谁是向导？

观点

2023

02/17

16:33

亚设网

对于电影爱好者来说，面部捕捉是一个既熟悉又陌生的概念，熟悉是因为在魔幻电影当中，动作捕捉和面部捕捉是常用技术，不少经典非人类角色，都是依靠这两项技术完成的。正是技术进步，我们才得以见证《指环王》里恢弘的中土大陆和其中多样的种族，《阿凡达》里的外星奇观，也能看到，人类在荧幕上与其他物种建立联系。

说陌生，则是因为对于大多数人而言，面部捕捉是一项听过见过，但是没体验过的技术。我们一直是这项技术的旁观者，而非亲历者。

但技术进步的曲线，往往有两条分支，一支往前，向更远的地方进发；另一支往下，从高成本到低成本，从影响寥寥数人，到惠及千万大众。有时候，两条线也会齐头并进，交织在一起，产生更大的能量。

在元宇宙里做面部捕捉，很难

普通人的元宇宙第一站，谁是向导？

在 2016 年的电影《魔兽》中，依靠动作捕捉和面部捕捉，亚洲洲草候选人吴彦祖在电影中扮演了一位丑陋邪恶的兽人古尔丹。

普通人的元宇宙第一站，谁是向导？

在动作捕捉和面部捕捉领域，甚至还有一位巨星名叫安迪·瑟金斯，他扮演了《指环王》三部曲里的关键人物咕噜，以及《猩球崛起》三部曲的主角大猩猩凯撒。

普通人的元宇宙第一站，谁是向导？

▲ 去年微软上线的元宇宙演示

电影，是我们身处其外的虚拟世界，元宇宙，则是未来我们可以身处其中的虚拟世界。不过，尝鲜过元宇宙 VR 应用的用户，可能已经深刻意识到，这里的「我」，还远远不是真正的「我」，这里建模粗糙，甚至一开始都没法把用户的腿给映射进去，更别说用户丰富的表情了。

所以，有时候，作为尝鲜者，我会羡慕起电影表演中的面部捕捉技术，希望元宇宙当中的我，不是那个如同 QQ 秀一样的卡通小人，而是能纵横中土大陆，艾泽拉斯世界或者潘多拉星球的幻想者。

但也不是没有例外，爱奇艺热播的首个虚拟现实游戏闯关真人秀《元音大冒险》，将一众炫酷科技带到了真人秀的节目制作中，让嘉宾得以登上虚拟世界——元音大陆，开启了一场奇趣爆笑的闯关冒险之旅。

普通人的元宇宙第一站，谁是向导？

这里可能是为数不多有「精致感」的元宇宙内容，这种精致感，正是源自虚拟人物与对应明星的「神似」，这种「神似」背后，则是前面提到的面部捕捉技术。

元宇宙当中，工业级，少数人能接触到的电影级别面部捕捉，显然不是普惠型技术，如果能用一个手机就能完成面部捕捉，那自然是最好。

但，想要实现工业级到消费级的跨越，自然是难度重重。

在如今成熟的工业电影当中，实现精确的面部捕捉，几乎遵循着高投入高质量产出的规律。

普通人的元宇宙第一站，谁是向导？

▲《阿凡达》特效制作前后

这里的投入既包括了时间也包括了金钱，就拿曾经给我们带来视觉奇观的《阿凡达》来说，导演詹姆斯·卡梅隆从萌生拍摄的想法再到项目落地，当中花去了 10 年的时间。

而在电影花絮当中，每个演员都需要在面部进行打黑点标记，再由面前的摄像机捕捉，同时，周围再分布几台摄像机进行肢体动作的捕捉。

当所有剧情拍摄完毕之后，并不意味着电影制作已经结束，后续还需要大致一倍甚至两倍的拍摄时间对摄像机采集的面部表情和肢体动作，一同拟合到虚拟人物当中。

普通人的元宇宙第一站，谁是向导？

▲《阿凡达》特效制作前后

且为了达到足够震撼的结果，往往需要庞大的后期团队一同完成。这种传统的工业级流水线，效果虽好，精度拉满，走的是好事多磨路线，放弃了速度。

面部捕捉的速度和精度，有些类似于鱼与熊掌，在 AI 算法的设计领域，它们与功耗通常构成了一个不可能的三角形，也就是「三元悖论」，通俗一点就是一个三难选择。

人脸当中有着 43 块肌肉来协同表达我们的情感，很多表情既复杂又细微，不同表情的区别，往往也只有一河之隔。

普通人的元宇宙第一站，谁是向导？

想要在元宇宙里精确地表达出真情实感，或者说是将现实当中的面部微表情传达到虚拟世界中，其捕捉精度必须达到一定的程度，需要准确掌握数百个特征点，再配合模型算法进行还原。

值得注意的是，我们提及的「元宇宙」并非是创作，可以拥有一定的后期制作，想要身临其感，并做到实时反馈，面部捕捉和传达需要保持同步计算，并实时反馈。

即便按照电影 24 帧的标准来看，它仍然需要每秒内实时处理 24 帧高精度的图片，从几百个特征点里抓取重点，完成对表情的重构。

光是对复杂而灵动的人脸进行面部捕捉，已经是个工程量巨大的工作了，人脸之外，还有很多很多外部因素和突发情况，也会影响面部捕捉的效果，在元宇宙里，我们不可能创造一个电影影棚，专业打光和后期电脑来完成这项工作。

一切，都是当下发生，当下记录。

所以，想要更好的效果，还需要把不同的光影变化，所佩戴头盔、摄像头等设备的抖动，以及面部部分遮挡等客观、主观等因素加入在内。

普通人的元宇宙第一站，谁是向导？

总之，面部捕捉，听起来可能只不过是一个图像捕捉的技术，但实际上，它需要把与面部相关的各种信息点，以及微表情变化，光线环境等因素考虑在内。

它并不是人脸的肌肉变化一一呈现到虚拟世界里，而是把现实当中的情绪，准确而实时的传递过去。

为什么骁龙能做到元宇宙里的面部捕捉？

对于面部表情的记录和呈现，实际上我们身边早已有了相应的应用，也就是大部分厂商在聊天 app 当中加入的「动画表情」。

它的作用像是一个丰富聊天的娱乐功能，精确度要求不高，也只能记录几个比较有特征的表情，细微表情实际上很难被呈现出来。

普通人的元宇宙第一站，谁是向导？

对于爱奇艺《元音大冒险》这档节目来说，「动画表情」这种形式远远不够。

挑战的是面部捕捉算法的鱼与熊掌兼得的难题，并且人脸面部捕捉的难度，要大于人类动作捕捉，和动物面部捕捉。

因而硬件，软件，硬件对软件的支持度，这三个层面，决定了骁龙能不能做好面部捕捉，也就是说需要手机芯片平台强大的底层算力以及神经网络算法支撑。

普通人的元宇宙第一站，谁是向导？

早在元宇宙概念大火之前，骁龙芯片的影像算法就足以识别一定的人脸数据，并通过相应算法进行针对性的优化。

不过对于面部捕捉，或者说利用面部捕捉技术参与到《元音大冒险》节目的制作，尚属首次。

首先是基于原有的技术对相应的算法进行调试，先从精度入手，训练一个计算量庞大的复杂模型，尽可能的覆盖所有可能性的表情，然后反复对比调试，完成适配节目录制的需求。

普通人的元宇宙第一站，谁是向导？

再考虑到减小计算量而进行「裁剪计算」，换句话说就是减负，但前提是保面部捕捉一定精度的情况下，进行减少计算量。

此前，对于面部数据计算的 AI 算法是使用手机 CPU，在保持一定精度的情况下，只能维持到 30fps，且在高频率的计算过程中，会容易引起设备的积热，和在部分复杂光线表情下卡顿的情况。

为了解决功耗续航的问题，在这套算法上高通引入了骁龙 SNPE 工具（骁龙神经处理引擎，是一个针对骁龙加速深层神经网络的运行时软件）优化，并启用 AI 引擎。

普通人的元宇宙第一站，谁是向导？

如此，原本的 AI 算法能够达到 60fps 运行，并可以持续运行三个小时，几乎完美解决了精度与速度，让「鱼与熊掌兼得」。

而让人较为震惊的是，在节目录制时，这个方案还只是基于上一代的骁龙 8+ 芯片，AI 引擎也是上一代。

还有一点，提前曝光的录制花絮当中，参与录制的明星面部并没有传统的密集的数据采样点，只佩戴了一个仅固定设备用的头盔与 Android 手机终端。

普通人的元宇宙第一站，谁是向导？

不需要特殊标记点，也不需要多个摄像机的多角度摄录，一台基于骁龙芯片的 Android 手机就能完成对面部 300 个特征点的采集，并利用终端的 AI 引擎对繁复的 AI 算法进行实时呈现。

对于面部捕捉来说，最终通过算法、AI 引擎、NPU 硬件加速实现了精度与速度的兼得。另一方面，对于《元音大冒险》来说，骁龙的技术实力，让这档节目也从构想到了实际行动上。

针对人脸之外的种种干扰，高通骁龙和相芯科技也一起针对各个细节，进行了技术突破。

比如艺人在唱歌时，由于话筒非常接近面部，会对面捕造成较严重的遮挡，技术设计上就需要考虑这一点，最终他们实现了即便嘴部部分遮挡，也能稳定捕捉嘴部动作，保持虚拟形象的面部稳定性、避免因为捕捉不到位而出现「抽搐、抖动」等影响现场效果的情况。

元宇宙第一站，骁龙做向导

可以看到，《元音大冒险》已经证明，在未来我们可以通过骁龙 8 系移动平台的手机，来完成面部捕捉，像明星一样，在元宇宙世界里映射本我，展现自我。就像小鬼王琳凯那样，形象是古灵精怪的小丑，表情则依旧是自己的喜怒哀乐。

▲ 可点击播放

过去，我们可以清晰地感知手机 SoC 进步带来的各种进步：单核 CPU 到多核 CPU，让手机不再卡顿了；GPU 进步，能玩的游戏，从《愤怒的小鸟》到了桌面级别的《原神》，以及手游帧率，从 30fps 走向了 120fps 级别；网络也是类似，得益于 Modem 的进步，网速也从 kb 到 mb 再到现在的 gb 级别。

更关键的是，如前面说说，技术不仅要往前，也要往下，如果现在手机操作系统的界面，依旧需要输入指令符，而不是现在的图形触控界面，那骁龙芯片算力再强，也难以每年数亿级别出货。

普通人的元宇宙第一站，谁是向导？