PoseAnimate:首个高质量零样本角色动画生成方法

PoseAnimate: Zero-shot high fidelity pose controllable character animation论文地址:https://arxiv.org/pdf/2404.13680.pdf

摘要

PoseAnimate是一个零样本图像到视频生成框架,用于角色动画。框架包含三个关键组件:Pose-Aware Control Module(PACM)、Dual Consistency Attention Module(DCAM)和MaskGuided Decoupling Module(MGDM),以及一个Pose Alignment Transition Algorithm(PATA)。实验结果表明,该方法在角色一致性和细节保真度方面优于现有的基于训练的方法,并且在生成的动画中保持了高水平的时间连贯性。

简介

角色动画在电视制作、游戏开发、在线零售和艺术创作等领域有着广泛的应用。然而,实现高度逼真和视觉一致的动画仍然存在挑战。最近,扩散模型展示了具有突破性的生成能力,但现有的训练方法仍然存在精度和细节丢失等问题。

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

本文提出了一种零样本重建的I2V框架PoseAnimate,用于生成具有姿态可控的角色动画视频。该框架引入了一个姿态感知控制模块(PACM),以优化文本嵌入,同时保持角色独立场景的一致性。为了解决目标姿态与原始姿态不同导致的身份和背景重建问题,提出了双一致性注意力模块(DCAM)和面具引导解耦模块(MGDM)。此外,还设计了一个姿态对齐转换算法(PATA)来适应不同尺度和位置的目标姿态序列。实验结果表明,PoseAnimate在角色一致性和图像保真度方面优于现有的基于训练的方法。

相关工作

生成具有人体姿势的视频是当前流行的任务之一,因为人体姿势可以更好地指导视频中的动作合成,确保良好的时间一致性。DisCo实现了对人类前景、背景和姿势的解耦控制,从而实现了忠实的人类视频生成。DreamPose提出了一个适配器来模拟CLIP和VAE图像嵌入,以增加对参考人类图像的忠实度。MagicAnimate采用ControlNet提取运动条件,并引入外观编码器来模拟参考图像嵌入。Animate Anyone设计了一个ReferenceNet来从参考图像中提取详细特征,结合姿势指南来保证运动生成。

方法

PoseAnimate采用渐进式的方法将源角色图像平滑地过渡到目标动作序列。该模型包括Pose Alignment Transition Algorithm(PATA)、pose-aware control module(PACM)、dual consistency attention module(DCAM)和mask-guided decoupling module(MGDM)等模块,用于优化生成的动作的姿态、一致性和细节表现。同时,该模型还引入了Stable Diffusion和motion awareness等技术,提高了生成动作的质量和真实感。

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

姿态感知控制模块

为了从源图像中生成高保真度的角色动画,需要完成两个任务。首先,在生成的动画中,保持角色与背景的一致性至关重要,我们通过一种计算高效的基于重建的方法来实现。其次,生成的帧中的动作需要与目标姿态保持一致。尽管预训练的OpenPose控制网络在可控条件合成中具有很大的空间控制能力,但本文的目的是抛弃原始姿态并生成新的连续运动。因此,直接通过ControlNet引入姿态信号可能会与原始姿态产生冲突,导致运动区域出现严重的鬼影和模糊。

本文提出姿态感知控制模块,分别基于原始姿态和目标姿态,通过两次优化嵌入文本实现姿态信号感知。在第一个优化中,即姿态感知反转,我们迭代优化原文本嵌入,以准确重建源图像在原始姿态下的复杂细节。

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

在此过程中得到的优化源嵌入的基础上,我们继续进行第二次优化,即姿态感知嵌入优化,将目标姿态信号注入到优化的姿态感知嵌入中。感知目标姿态信号,这些优化的姿态感知嵌入确保生成的角色动作和目标姿态之间的完美对齐,同时保持角色独立内容的一致性。

为了纳入姿态信号,将ControlNet集成到模块的所有过程中。不同于通过优化无条件嵌入实现图像重建的空文本反转,我们的姿态感知反转在重建过程中优化了文本提示的条件嵌入。其动机源于观察到条件嵌入包含更丰富和更鲁棒的语义信息,这赋予了它编码姿态信号的更高潜力。

对偶一致注意力模块

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

虽然姿态感知控制模块准确地捕获和注入人体姿态,但由于引入了不同的姿态信号,可能会无意中改变角色的身份和背景细节。由于U-Net中的自注意力层在控制外观、形状和细粒度细节方面起着至关重要的作用,现有的注意力融合范式通常采用跨帧注意力,以促进跨帧的空间信息交互:

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

由于姿态p1与原始姿态ps相同,帧x0的重建保持不变,允许源图像Is的完美恢复。因此,我们可以计算每个后续帧{xi}与帧x0之间的跨帧注意力,以确保保留身份和复杂的细节。然而,仅在注意力融合中涉及帧x0会使生成的动作偏向于原始动作,从而导致鬼影和闪烁。通过用对偶一致注意力(DC Attention)取代自注意力层,通过双重一致性注意力模块(DCAM),解决外观不一致的问题并改善时间一致性。DC注意力机制对每个后续帧xi的操作如下:

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

除此之外,同时保留当前帧和前一帧相对较小的特征交互,有望增强运动稳定性并改善生成动画的时间一致性。

此外,重要的是要注意,我们不会将所有的U-Net Transformer块替换为DCAM。仅将DC注意力纳入U-Net架构的上采样块,而保持其余不变,可以保持与源的身份和背景细节的一致性,而不影响当前帧的姿态和布局。

掩码引导解耦模块

直接利用整个图像特征进行注意力融合会导致细粒度细节的大量丢失。针对这一问题,本文提出掩码引导的解耦模块,将人物和背景解耦,并通过帧间交互进一步细化空间特征感知。

对于源图像Is,我们获得了一个精确的人体掩码Ms,通过一个现成的分割模型将字符从背景中分离。目标姿态先验信息不足以为生成的每个角色帧推导出身体掩码。考虑到提示到提示中交叉注意力层具有较强的语义对齐能力,从交叉注意力图中提取每一帧对应的人体掩码。利用Ms和M xi,根据掩码引导的解耦模块,只计算对应区域内的特征和背景注意力:

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

然后我们可以得到最终的DC注意力输出:

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

解耦模块在字符和背景之间引入了显式的学习边界,允许网络独立关注它们各自的内容,而不是混合特征。因此,角色和背景的复杂细节都得到了保留,从而大大提高了动画的保真度。

实验

实验设置

PoseAnimate是基于ControlNet和Stable Diffusion v1.5的预训练权重实现的,生成的角色动画包含16帧,分辨率为512×512,实验在一台NVIDIA A100 GPU上完成。

 

结果

将PoseAnimate与MagicAnimate和Disco进行了比较。值得注意的是,这些方法都是基于训练的,而我们的方法不需要训练。

定性结果。通过设置两种不同水平的姿态进行实验,充分证明了该方法的优越性。视觉对比结果如图4所示,左侧显示简单动作,右侧显示复杂动作。PoseAnimate在图像保真到源图像方面表现出最好的性能,并有效地保留了复杂的细粒度外观细节和时间一致性。

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

定量结果。为了进行定量分析,随机采样了50对真实的图像-文本和10个不同的不同姿态序列进行评估。采用了四个评价指标:

  • LPIPS衡量了生成帧和源图像之间的保真度。
  • CLIP-I表示生成帧与源图像之间CLIP图像嵌入的相似度。
  • 帧一致性(FC)通过计算连续两帧的平均剪辑余弦相似度来评估视频的连续性。
  • 扭曲误差(WE)通过光流算法评估生成动画的时间一致性。

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

PoseAnimate在LPIPS和CLIP-I上取得了最好的分数,并在对源图像的保真度方面大大超过了其他比较方法,表现出了杰出的细节保持能力。此外,PoseAnimate在帧间一致性方面也优于其他两种基于训练的方法。也取得了良好的扭曲误差分数,表明所提出方法能够在没有额外训练的情况下保持良好的时间一致性。

消融分析

进行消融研究以验证框架每个组件的有效性,结果见图5。第一行最左边的是源图像,其他的是目标姿态序列。以下行是没有某些组件的生成结果:

  • 位姿感知控制模块(PACM),有效地消除了字符原始姿态的干扰,并保持与字符无关内容的一致性
  • 双一致性注意力模块(DCAM),保持源图像的保真度并提高时间一致性
  • 保留图像细节的掩模引导解耦模块(MGDM)
  • 解决不对齐问题的姿态对齐过渡算法(PATA)

《PoseAnimate:首个高质量零样本角色动画生成方法》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

本文首次提出一种新的零样本方法PoseAnimate来实现角色动画。PoseAnimate可以为任意图像在不同姿态序列下生成时间一致且高保真的动画。实验结果表明,poseanimate在角色一致性和细节保真度方面优于目前最先进的基于训练的方法。

0

评论0

请先
显示验证码