AI视频生成领域又迎来一个重磅工具。
日前,AI科学家李飞飞团队与谷歌合作,推出了视频生成模型W.A.L.T(Window Attention Latent Transformer)——一个在共享潜在空间中训练图像和视频生成的、基于Transformer架构的扩散模型。
W.A.L.T可以通过自然语言提示,生成3秒长的每秒8帧、分辨率达512×896的逼真视频,可以让一张静态图片变为一个的动态感十足的动图,还可以用于生成3D摄像机运动的视觉效果。
李飞飞是华裔女科学家、世界顶尖的AI专家,现为美国斯坦福大学终身教授、斯坦福大学人工智能实验室主任,曾任谷歌副总裁和谷歌云首席科学家。
前OpenAI研究员、曾担任特斯拉人工智能和自动驾驶视觉总监的Andrej Karpathy便是其得意弟子。
从展示的案例来看,W.A.L.T的效果媲美Gen-2比肩Pika。
英伟达高级科学家Jim Fan转发评论道:2022年是影像之年,2023是声波之年,而2024,是视频之年!
A.L.T的方法有两个关键决策。首先,研究者使用因果编码器在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。
其次,为了提高记忆和训练效率,研究者使用了为空间和时空联合生成建模量身定制的窗口注意力架构。
通过这两个关键决策,团队在已建立的视频(UCF-101 和 Kinetics-600)和图像(ImageNet)生成基准测试上实现了SOTA,而无需使用无分类器指导。
最后,团队还训练了三个模型的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒8帧的速度,生成512 x 896分辨率的视频。
Transformer是高度可扩展和可并行的神经网络架构,是目前最当红的构架。
这种理想的特性也让研究界越来越青睐Transformer,而不是语言 、音频、语音、视觉、机器人技术等不同领域的特定领域架构。
这种统一的趋势,使研究人员能够共享不同传统领域的进步,这样就造就了有利于Transformer的模型设计创新和改进的良性循环。
然而,有一个例外,就是视频的生成建模。扩散模型已成为图像和视频生成建模的领先范例。然而,由一系列卷积层和自注意力层组成的U-Net架构一直是所有视频扩散方法的主流。
这种偏好源于这样一个事实:Transformer中完全注意力机制的记忆需求,与输入序列的长度呈二次方缩放。在处理视频等高维信号时,这种缩放会导致成本过高。
潜在扩散模型可以通过在从自动编码器派生的低维潜在空间中运行,来降低计算要求。
在这种情况下,一个关键的设计选择,就是所使用的潜在空间的类型:空间压缩 (每帧潜在) 与时空压缩。
空间压缩通常是首选,因为它可以利用预训练的图像自动编码器和LDM,它们在大型成对图像文本数据集上进行训练。
然而,这种选择增加了网络复杂性,并限制了Transformer作为骨干网的使用,尤其是由于内存限制而生成高分辨率视频时。
另一方面,虽然时空压缩可以缓解这些问题,但它排除了配对图像文本数据集的使用,后者比视频数据集更大、更多样化。
因此,研究者提出了窗口注意力潜在Transformer (W.A.L.T) :一种基于Transformer的潜在视频扩散模型 (LVDM) 方法。
该方法由两个阶段组成。首先,自动编码器将视频和图像映射到统一的低维潜在空间中。
这种设计能够在图像和视频数据集上联合训练单个生成模型,并显著减少生成高分辨率视频的计算负担。
随后,研究者提出了一种用于潜在视频扩散建模的Transformer块的新设计,由在非重叠、窗口限制的空间和时空注意力之间交替的自注意力层组成。
这种设计有两个主要好处——首先,使用局部窗口注意力,可以显著降低计算需求。
其次,它有利于联合训练,其中空间层独立处理图像和视频帧,而时空层致力于对视频中的时间关系进行建模。
虽然概念上很简单,但团队的方法让Transformer在公共基准上潜在视频传播中表现出了卓越的质量和参数效率,这是第一个经验证据。
具体来说,在类条件视频生成 (UCF-101) 、帧预测 (Kinetics-600) 和类条件图像生成 (ImageNet)上, 不使用无分类指导,就取得了SOTA。
最后,为了证明这种方法的可扩展性和效率,研究者还生成了逼真的文本到视频生成效果。
他们训练了由一个基本潜在视频扩散模型和两个视频超分辨率扩散模型组成的级联模型,以每秒8帧的速度生成512X896分辨率的视频,并且在UCF-101基准测试中,取得了SOTA的zero-shot FVC分数。
在视频生成领域,Runway Gen-2、Zero Scope等应用珠玉在前,一大波“后浪”汹涌而至。
加上W.A.L.T,近期已有多个视频生成应用惊艳亮相,包括爆火出圈的Pika,以及三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA。
Pika的投资人名单几乎集齐了硅谷的半壁江山,其他应用背后均站着科技巨头。
W.A.L.T在内的工具的密集出现,再次说明一个问题:各方势力竞相加码,但相关应用的优化迭代速度和商业化进程均较慢,大公司与初创团队势均力敌,终局之战远未到来,文生视频应用的潜力还没有彻底被开发。
Transformer是高度可扩展和可并行的神经网络架构,是目前AI 大模型最主流的架构。
这种理想的特性也让研究界越来越青睐Transformer,而不是语言 、音频、语音、视觉、机器人技术等不同领域的特定领域架构。
但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。
李飞飞团队采用基于Transformer的潜在视频扩散模型 (LVDM) 方法,成功解决了Transformer原本缩放视频时成本较高的缺点,并降低了计算要求。
其次这种方法还有利于联合训练,其中空间层独立处理图像和视频帧,而时空层致力于对视频中的时间关系进行建模。团队此次的方法进展加深了Transformer架构的应用范围和可延展性。
作为多模态应用的重要分支,视频生成与机器人的视觉感知力有着密切的关系。基于此,李飞飞团队投身视频生成模型,并没有偏离其具身智能研究。未来如何?我们静观其变。
评论0