谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人

“VideoPoet: A Large Language Model for Zero-Shot Video Generation”

近日，谷歌推出了全新的 AI 视频生成模型 VideoPoet。VideoPoet可以执行多种视频生成任务，例如文本生成视频、图像生成视频、视频风格化以及修补和扩展功能，甚至视频到音频的转化 VideoPoet 都能胜任，并且可以节省大量数据和计算资源。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

项目主页：http://sites.research.google/videopoet/

论文地址：https://storage.googleapis.com/videopoet/paper.pdf

摘要

VideoPoet可以从多种输入信号中合成高质量的视频和音频。它采用解码器-只变压器架构，可以处理图像、视频、文本和音频等多模态输入。该模型采用大型语言模型（LLMs）的训练协议，包括预训练和任务特定的适应。在预训练阶段，VideoPoet在自回归变压器框架中结合多模态生成目标。经过预训练后，该模型可以适应各种视频生成任务，并展现出零样本视频生成的最先进能力，特别是在生成高保真度的动作方面。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

简介

本文介绍了近年来出现的生成视频模型，包括文本到视频、图像到视频、视频风格化和视频编辑等任务。现有模型通常采用扩散方法，而本文提出了一种基于语言模型的视频生成模型VideoPoet，它采用解码器型的语言模型架构，可以处理图像、视频和音频模态。VideoPoet的训练包括预训练和任务适应两个阶段，预训练采用多模态预训练目标，任务适应可以进一步微调模型以提高生成质量或执行新任务。实验结果表明，VideoPoet在生成大规模高保真度运动的视频方面具有最先进的能力，并且具有零样本视频生成的能力。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

本文贡献在于：

提出了一种用于视频生成任务的大型语言模型（LLM）的简单训练方法，利用标记的视频和音频数据，无缝地结合了文本配对和未配对的视频数据。
提出了一种超分辨率方法，利用具有高效窗口局部注意力的双向变压器在潜在的令牌空间内增加视频分辨率。
展示了LLM在生成逼真有趣的动作方面的竞争性表现。

相关工作

视频扩散模型。大多数视频生成工作使用基于扩散的方法进行文本到视频和视频到视频的编辑。由于视频扩散模型通常来源于文本到图像的扩散模型，因此可以通过推理技巧、架构变化和适配器层来添加额外的任务和模式。尽管这些模型在训练后是可组合的，但它们并不是在一个统一的模型中进行端到端训练的。我们在单一模型中的多任务预训练策略提高了性能，并提供了零样本视频生成能力。

视频和图像生成的语言模型。相比之下，视频语言模型来源于基于Transformer的通用语言模型，它可以轻松地在预训练中组合多个任务，并展示强大的零样本能力。由于视频语言模型可以灵活地整合许多任务，包括视频到视频，我们在这项工作中使用跨许多任务的协同预训练策略将该工作扩展到文本和多模态条件任务。

LLM预训练任务设计。由于语言模型很容易包含多个训练任务，因此任务选择是一个重要的研究领域。GPT-3和PaLM表明，在不同的任务上训练LLM对零样本任务和少次任务具有正的缩放效应。我们的预训练策略可以使用相同的视频进行多个训练任务，即使没有配对文本。这种设计有助于在大量的视频示例上进行训练，从而减少了对视频文本对的需求。

模型概述

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

模型由三个主要组件组成：(1) 模态特定的标记器，(2) 语言模型主干，(3) 超分辨率模块。标记器将输入数据（图像像素、视频帧和音频波形）映射为统一词汇表中的离散标记。语言模型接受图像、视频和音频标记作为输入，同时还接受文本嵌入，并负责生成多任务和多模态建模。VideoPoet在文本嵌入、视觉标记和音频标记的条件下，自回归地预测视觉和音频标记。随后，超分辨率模块提高视频输出的分辨率，同时提高视觉细节以获得更高质量。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

标记器

我们使用MAGVIT-v2和SoundStream分别对图像、视频和音频进行标记，并将它们表示为一个统一的词汇表。该模型还使用预训练的T5 XL编码器对文本进行编码。其中，MAGVIT-v2对视频进行标记，SoundStream对音频进行标记，而T5 XL对文本进行编码。此外，该模型还使用COMMIT编码来处理掩模目标。

语言模型骨干

通过将所有模态划分为离散的标记，我们可以直接重用语言模型在标记空间中生成视频和音频。我们使用一个仅有解码器的前缀语言模型作为骨干结构。通过在训练过程中构建不同的输入标记到输出标记的模式，我们可以控制模型能够执行的任务类型。我们使用共享的多模态词汇来表示所有模态的生成问题。这样产生的总词汇量约为30万。

超分辨率

本文介绍了一种用于高效高质量生成视频的自然语言处理模型——超分辨率非自回归视频变换器。该模型采用局部自注意力机制和交叉注意力机制，结合文本嵌入和MAGVIT目标函数进行训练。在推理过程中，采用非自回归采样和无分类器指导。该模型能够在较短的时间内生成高分辨率的视频。

LLM预训练

VideoPoet通过训练大量的多模态目标来展示了通用的生成式视频建模能力。这些目标共同作用，使得可以将各个任务链接在一起，展示了超越任何单个任务的零样本能力。

任务提示设计

本文介绍了一种用于生成通用视频的预训练模型的设计，包括无条件视频生成、文本到视频、视频未来预测、图像到视频、视频修补、视频风格化、音频到视频和视频到音频等任务。为了提高模型生成视频的质量，我们采用了一些设计决策，如将图像表示为视频、使用特殊的条件标记来指示生成视频的格式、使用文本、光流和深度信号来进行视频风格化等。在输入输出序列布局方面，模型的输入序列可能包括文本标记、视觉标记和音频标记，而输出序列则包括视觉标记和音频标记。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

为了减少序列长度，当任务中不包含某种模态时，对应的输入或输出令牌将被省略。通过条件来指示任务类型，不同的输出类型有唯一的令牌。视频到视频的任务使用COMMIT编码来获取任务令牌。文本被编码为T5 XL嵌入，并插入到令牌之后的保留序列位置中。模型可以学习如何将多种上下文信号混合到同一输出类型中。

训练策略

模型使用图像文本对和有/无文本或音频的视频进行训练，训练数据量达到2万亿个tokens。采用加速交替梯度下降算法进行多任务训练，避免填充率过高。通过两阶段预训练策略，先训练图像数据，再训练视频数据，以提高模型性能。经过微调后，模型在文本到视频和图像到视频任务上表现更好，避免了预测重复token的问题，提高了输出多样性和质量。还可以通过微调训练模型进行视频到音频生成。

实验

实验设置

训练任务包括文本到图像、文本到视频、图像到视频、视频到视频等多种任务。模型在多个数据集上进行了评估，包括 MSR-VTT、UCF101、Kinetics 600、SomethingSomething V2 和 DAVIS 等。评估指标使用了 FVD、CLIP 相似度分数和 Inception Score 等指标。模型采用了零样本生成评估协议，未在目标基准数据分布上进行训练。

预训练任务分析

本文研究了使用不同的预训练任务组合对具有3亿参数的模型的学习能力。预训练任务包括文本到视频、文本到图像和四个自监督学习任务。结果表明，使用所有预训练任务的组合可以获得最佳的性能。此外，我们还进行了零样本评估，结果表明预训练模型可以在不进行微调的情况下在多个任务上表现良好。最后，我们还训练了一个具有80亿参数的模型，获得了更好的性能。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

模型规模

实验使用了训练集的子集来研究模型规模的影响，评估视频生成质量使用了Fr ´echet Video Distance（FVD），评估音频生成质量使用了Fr ´echet Audio Distance（FAD）。随着模型大小和训练数据量的增加，视觉和音频视觉任务的性能都有所提高。增加模型大小可以改善时间一致性、任务忠实度和动态运动，同时增加了有限的文本渲染、空间理解和计数能力。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

与SOTA比较

文本到视频

本文介绍了在MSR-VTT和UCF-101数据集上进行的零样本文本到视频评估。使用了CLIP相似度分数、FVD和Inception Score等指标来评估模型性能。结果表明，预训练的基础模型已经在所有指标上表现出竞争力。在高质量的文本-视频子集上进行微调后，VideoPoet在MSR-VTT上的CLIPSIM表现更好。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

人类评估

本文研究了VideoPoet模型在文本到视频和视频风格化两个任务上的表现。通过与其他模型的比较，发现VideoPoet在文本忠实度、视频质量、动态“趣味性”和真实性等方面表现优异，尤其在动态方面表现最为显著。在时间一致性方面，VideoPoet与Phenaki和VideoCrafter表现相当，但略逊于Show-1模型。我们认为这是动态趣味性与时间一致性之间的固有权衡。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

视频风格化

我们从公共DAVIS 2016- 2数据集中选择了20个视频，并为每个视频提供2个风格提示。VideoPoet在深度条件下的表现大大优于Control-A-Video。我们还与Control-A-Video进行了如上所述的人工评估。人类评分者始终更喜欢我们的文本保真度和视频质量，如图7所示。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

负责任的人工智能和公平性分析

我们评估了模型生成的输出是否公平，涉及到受保护的属性，如感知年龄、感知性别表达和感知肤色。我们使用306个模板构建了提示，生成了8个视频，并对每个视频进行了近似的属性推断。我们发现，模型的输出通常会引入更强的分布偏移，但改变提示模板中的副词可以显著改变输出分布。这表明需要继续研究以减轻问题并提高视频生成的公平性。

LLM的视频生成能力

零样本视频编辑和任务链接

模型可以通过文本控制来进行图像修复。模型还可以通过多任务预训练来实现任务泛化，从而实现多种任务的链式操作。我们认为这种能力部分归功于多模态任务设计和LMM transformer框架。与其他模型不同，我们的方法可以使用单个Transformer架构对多模态内容进行建模。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

相干长视频生成和图像到视频

基于解码器的语言模型的优点，包括生成更长的视频和将图像转换为视频。通过使用MAGVIT-v2标记器，可以将图像编码为视频的第一帧，然后预测后续帧的令牌以生成视频。模型能够保持物体的运动、风格和身份在超过8秒的视频输出中保持一致。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

3D结构，相机运动，视觉风格

我们的训练方法，可以让模型理解世界的多个方面，包括3D结构、相机运动和视觉风格。即使没有特别添加训练数据或损失函数来鼓励3D一致性，该模型也能够旋转物体并预测物体背面的合理可视化。此外，该模型可以使用短文本提示来应用各种相机运动到图像和视频生成中，这在许多最先进的视频生成模型中被认为是困难的。此外，该模型可以在各种风格之上添加控制，如水彩或油画。这种训练源主要观察文本-图像训练数据中的风格化。该模型的理解能力强，可以在时间上下文中跨越和组合这些不同类型的风格，以产生大的运动。

《谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

VideoPoet是一个基于大型语言模型的视频生成工具，能够生成高质量、大规模、复杂的动作。该模型通过多模态任务的统一架构和词汇表进行训练，具备多任务视频创作的能力，并可用于多种视频编辑功能。

谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人

评论0

微信公众号

客服微信

谷歌多模态大模型VideoPoet，可生成无限长视频，效果惊人

猜你喜欢

评论0