【新智元导读】谷歌 Research Lead,负责 VideoPoet 项目的蒋路,即将加入 TikTok,负责视频生成 AI 的开发。
谷歌 VideoPoet 项目 Research Lead,CMU 兼职教授蒋路的 Google Scholar 资料显示已加入 TikTok。
最近,有传闻 TikTok 招募了某篇论文的作者作为北美技术部门负责人,研发能和 Sora 对抗的视频生成 AI。
而蒋路 3 周前在 Linkedin 上发布了离职谷歌的消息,也向外界揭开了谜底。
他作为谷歌 VideoPoet 项目的负责人,将离开 Google Research,不过会留在湾区,继续视频生成领域的工作。
「人才第一,数据第二,算力第三」,谢赛宁的 AI 突破「3 要素」,已经为大厂在未来构建自己的 AI 护城河指明了方向。
而蒋路带领谷歌团队在去年年底推出了在技术路线上与 Sora 相似的视频生成技术:VideoPoet,让他成为了世界上为数不多的有能力构建最前沿 AI 视频生成技术的科学家。
VideoPoet 在 Sora 发布之前就已经将 AI 视频的前沿推进到了生成 10 秒长,一致性非常强,动作幅度大且连贯的视频。
而与此同时,他还是 CMU 的兼职教授,有非常丰富的科研经历和成果。
蒋路这样既有深厚的理论功底,又有最前沿大型项目的工程和管理经验的复合型专家,自然成为了大厂必争的 AI 基石型人才。
蒋路在 Google 担任研究科学家和管理岗位,同时也是卡内基梅隆大学计算机科学学院语言技术研究所的兼职教授。
在 CMU,他不仅指导研究生的科研项目,还亲自讲授课程。
他的研究成果在自然语言处理(ACL)和计算机视觉(CVPR)等领域的顶级会议上屡获佳绩,还在 ACM ICMR、IEEE SLT 和 NIST TRECVID 等重要会议上获奖。
他的研究对多款谷歌产品的开发和完善起到了至关重要的作用:包括 YouTube、Cloud、Cloud AutoML、Ads、Waymo 和 Translate 等。
这些产品每天服务全球数十亿用户。
除了上述这些内容以外,还有另一个侧面能很好地说明蒋路学术水平的高度:他与众多计算机视觉和自然语言处理领域的顶尖研究者都有过合作。
2017 至 2018 年期间,他是 Google Cloud AI 首批研究团队的创始成员,由李佳博士和李飞飞博士亲自挑选。
随后,他加入了 Google Research,与 Weilong Yang 博士(2019-2020)、Ce Liu 博士(2020-2021)、Madison Le(2021-2022)和 Irfan Essa 博士(2023)等人都有过合作。
此外,在卡内基梅隆大学读博期间,他的论文由 Tat-Seng Chua 博士和 Louis-Philippe Morency 博士共同指导。2017 他在 Alexander Hauptmann 博士和 Teruko Mitamura 博士的帮助下成功毕业。
他在雅虎、谷歌和微软研究院的实习时,得到了 Liangliang Cao 博士、Yannis Kalantidis 博士、Sachin Farfade、Paul Natsev 博士、Balakrishnan Varadarajan 博士、Qiang Wang 博士和 Dongmei Zhang 博士等人的指导。
从他在领英上的履历可以看出,很多科技大厂都留有过他的足迹。
在 CMU 和 NSF 都有过实习经历。
而在毕业之前,他在雅虎,谷歌,微软都实习过。
他本科毕业于西安交通大学,研究生毕业于布鲁塞尔自由大学,博士毕业于 CMU。
他在谷歌带领的团队在去年底推出的 VideoPoet,已经用 Transformer 代替了传统的 UNet,成为 AI 视频生成当时的 SOTA.
这项成就,也成为了 TikTok 相中他最主要的原因。
相比起只能生成小幅动作的 Gen-2,VideoPoet 一次能够生成 10 秒超长,且连贯大动作视频,可以说是实现了完全碾压!
另外,VideoPoet 也并非基于扩散模型,而是多模态大模型,便可拥有 T2V、V2A 等能力,或将成为未来视频生成的主流。
相比起其他模型,谷歌的方法是将多种视频生成功能无缝集成到单一的大语言模型中,而不依赖针对各个任务分别训练的专用组件。
具体来说,VideoPoet 主要包含以下几个组件:
预训练的 MAGVIT V2 视频 tokenizer 和 SoundStream 音频 tokenizer,能将不同长度的图像、视频和音频剪辑转换成统一词汇表中的离散代码序列。这些代码与文本型语言模型兼容,便于与文本等其他模态进行结合。
自回归语言模型可在视频、图像、音频和文本之间进行跨模态学习,并以自回归方式预测序列中下一个视频或音频 token。
在大语言模型训练框架中引入了多种多模态生成学习目标,包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复 / 扩展、视频风格化和视频到音频等。此外,这些任务可以相互结合,实现额外的零样本功能(例如,文本到音频)。
VideoPoet 能够在各种以视频为中心的输入和输出上进行多任务处理。其中,LLM 可选择将文本作为输入,来指导文本到视频、图像到视频、视频到音频、风格化和扩图任务的生成
使用 LLM 进行训练的一个关键优势是,可以重用现有 LLM 训练基础设施中引入的许多可扩展的效率改进。
不过,LLM 是在离散 token 上运行的,这可能会给视频生成带来挑战。
幸运的是,视频和音频 tokenizer,可以将视频和音频剪辑编码为离散 token 序列(即整数索引),并可以将其转换回原始表示。
VideoPoet 训练一个自回归语言模型,通过使用多个 tokenizer(用于视频和图像的 MAGVIT V2,用于音频的 SoundStream)来跨视频、图像、音频和文本模态进行学习。
一旦模型根据上下文生成了 token,就可以使用 tokenizer 解码器将这些 token 转换回可查看的表示形式。
VideoPoet 任务设计:不同模态通过 tokenizer 编码器和解码器与 token 相互转换。每个模态周围都有边界 token,任务 token 表示要执行的任务类型
相比于之前的视频生成模型,VideoPoet 有这么三个比较大的优势。
一个是能生成更长的视频,一个是用户能对生成的视频有更好的控制能力,最后一个则是 VideoPoet 还可以根据文本提示,生成不同的运镜手法。
而在测试中,VideoPoet 也是拔得头筹,碾压了不少其它视频生成模型。