清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成

CharacterGen: Efficient 3D Character Generation from Single Images with Multi-View Pose Canonicalization

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

 

游戏建模需要专业的人员,消耗大量时间完成。近日,清华发表了CharacterGen,通过AI生成游戏角色,助力游戏行业发展。

论文地址:https://arxiv.org/pdf/2402.17214.pdf

 

摘要

本文提出CharacterGen,一种高效生成3D角色的框架。CharacterGen引入了一个流线型的生成管道以及一个图像条件化的多视角扩散模型。该模型有效地将输入姿态校准为标准形式,同时保留输入图像的关键属性,从而解决了不同姿态带来的挑战。另一个核心组件是基于transformer的通用稀疏视图重建模型,有助于从多视图图像中创建详细的3D模型。采用纹理反投影策略生成高质量的纹理图。此外,策划了一个以多种姿势和视角渲染的动漫角色数据集,以训练和评估模型。通过定量和定性实验对所提出方法进行了彻底评估,表明其在生成具有高质量形状和纹理的3D角色方面的熟练程度,为索具和动画等下游应用做好了准备。

简介

CharacterGen可以从单个图像中生成3D角色模型。该方法通过将每个姿势转换为规范的“Apose”,同时确保多个视图之间的图像一致性,有效地解决了自遮挡和模糊人体姿势的挑战,从而显著简化了后续的重建、绑定和动画阶段。该方法可以应用于各种领域,包括电影、视频游戏、在线流媒体和虚拟现实。

CharacterGen包括两个紧密相连的阶段:首先将单个图像提升到多个视角,同时规范化输入姿势;然后使用规范化姿势重建3D角色。该方法通过关注规范化姿势,简化了从有限视角重建几何和纹理的任务。该方法还提供了一个多姿态、多视角的动漫角色数据集Anime3D,为未来的3D角色生成研究提供了一个多样化的训练和评估资源。

相关工作

基于扩散的3D物体生成

。一些先驱性的工作利用预训练的2D扩散模型提供梯度引导,用于文本到3D生成任务。其他工作利用隐式四面体场来支持高分辨率的渲染。还有一些工作利用LoRA网络来提取梯度分数,以更好地学习3D物体的分布。还有一些工作利用多视角扩散模型在3D物体生成过程中提供高度一致的引导。还有一些工作利用3D数据训练扩散模型进行直接的3D物体生成,但输出多样性较差。

3D头像生成

使用强大的人体先验模型,如SMPL和SMPL-X,可以生成高质量的人体化身。现有的大多数方法主要关注文本到3D角色的生成,无法利用图像提示进行可控制的角色生成。DreamBooth方法受到“Janus”问题的严重影响,因为单个输入图像会导致强烈的前视偏见。

方法

Anime3D数据集

为了进一步提高扩散模型对3D角色的理解能力并缓解“Janus”问题,研究人员准备了Anime3D数据集,其中包含13,746个风格化角色主题。

从VRoidHub收集了近14,500个卡通人物模型,并去除了非人形的数据,最终得到了13,746个人物模型。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

使用三维渲染框架将对象渲染成图像格式,以优化二维扩散模型。训练过程中,使用四个A-pose图像和一个姿态图像作为一对,渲染所有对象的方位角为{0°,90°,180°,270°},俯仰角为0°。为了增强模型对空间身体布局的理解,还渲染了三个具有随机初始方位角的组。此外,还渲染了4个完全随机的方位角和俯仰角视图,以优化可推广的重建模型。

多视角图像生成与姿态规范化

使用IDUNet将输入图像的补丁级外观特征转移到多视角去噪UNet中,同时引入姿态嵌入网络提供更多的角色布局信息来辅助姿态规范化任务。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

IDUNet

IDUNet旨在保留原始图像的特征并确保四个生成视图之间的高一致性。与之前的IP-Adapter不同,IDUNet引入了像素级别的指导来更好地融合输入图像的特征。该模型采用了VAE来编码无噪声的输入图像,并利用交叉注意力机制在生成过程中引入像素级别的指导。

Multi-view UNet 

Multi-view UNet目标是从单个姿势输入图像生成高度一致外观的多视角Apose图像。该模型采用了空间自注意模块和交叉注意模块,以捕捉不同视角之间的全局关系,确保生成的图像具有高一致性。在训练过程中,采用了零样本噪声比率(SNR)的方法,以提高生成质量。最终的优化目标是通过输出速度来生成噪声,并将其添加到多视角Apose图像中。

 

姿态规范化

本方法结合了OpenPose预测的姿势嵌入作为额外条件,以解决角色布局错位和不相关身体部位出现的问题。在推理阶段,选择Anime3D数据集中CLIP分数最高的OpenPose图像作为输入姿势条件。

3D角色生成

首先使用两阶段的基于Transformer的网络重建角色的几何和粗糙外观。然后采用纹理反投影策略,利用生成的高分辨率四视图图像快速改善纹理质量。最后使用泊松混合技术减少纹理贴图上的接缝。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

粗糙纹理下的字符重建

使用多视角扩散模型生成的四视图图像来重建人物,通过预训练Objaverse数据集和Fine-tune Anime3D数据集来保留处理3D对象和风格化人物的能力。为了获得更加精确的表面几何,该方法采用两阶段Fine-tune策略,使用三面体NeRF表示法建立人物的粗略几何和外观,然后修改解码器模块以预测符号距离函数。此外,该方法还使用遮罩损失和LPIPS损失来监督重建外观。

3D角色细化

由于UV展开过程中丢失了外观信息,生成的网格仍然缺乏纹理细节。为了解决这个问题,作者利用生成的四视图图像,采用纹理反投影技术来提高生成的纹理质量。为了有效地进行光栅化,作者使用了NvDiffRast作为渲染器。为了避免纹理下采样问题,作者将四视图图像投影到纹理空间中,并采用深度测试来消除遮挡的像素。作者还采用了基于法线的过滤方法来消除角色轮廓上的噪点。最后,作者使用Poisson Blending来减少最终纹理中的接缝。

实验

数据准备

在训练阶段,将Anime3D数据集分为训练集和测试集,比例为50:1。在推理阶段,除了使用测试集外,还会加入来自互联网的图像。

结果

2D视图生成

与其他模型相比,CharacterGen在处理复杂的身体姿势时表现更好,生成的图像质量更高。作者在Anime3D数据集上进行了实验,结果表明CharacterGen的生成质量和一致性都优于其他模型。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

3D角色生成

本文比较了不同的图像提示3D角色生成方法,包括ImageDream、Magic123、TeCH等。与其他方法相比,我们的CharacterGen通过四视图重建机制有效避免了Janus问题,并且能够生成具有满意外观的3D角色网格。其他方法生成的3D角色网格存在面部凝聚问题,难以进行绑定和动画。CharacterGen能够成功地从具有棘手姿势的角色中生成规范姿势网格,便于下游图形应用。此外,我们还使用Animate Anyone对其他方法进行了评估。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

生成速度

与其他基于图像的3D生成方法进行了比较。结果表明,该方法比其他方法更快。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

消融分析

IDUNet

通过冻结预训练的稳定扩散2.1模型的IDUNet,单独训练CharacterGen网络生成的四视图图像显示,生成的图像无法保留足够的输入图像特征,导致相似性降低。这表明需要联合微调IDUNet和干净的姿势图像,以增强其提取详细服装和面部外貌的能力。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

姿态嵌入网络

使用姿势嵌入网络对于生成四视图图像中的角色布局至关重要。在没有姿势嵌入网络的情况下生成的角色图像可能不会位于图像中央,并且缺乏布局指导可能会导致不一致的服装部件生成,这可能会影响后续的3D重建。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

应用

CharacterGen可以生成具有详细纹理贴图的A-pose 3D角色,从而简化后续的绑定过程。我们使用AccuRig自动绑定生成的角色网格。这些绑定的3D角色可以直接用作各个领域中的动画3D资产。我们在Warudo中渲染了各种动画绑定模型,并在图7中展示了一些结果。

《清华发表CharacterGen:高质量高效率3D角色生成,助力游戏角色生成》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

本文提出了一种新颖高效的图像提示3D角色生成框架CharacterGen。作者编译了一个新的多姿态、风格化的角色数据集Anime3D来训练该框架。设计了IDUNet来提取输入条件图像的补丁级特征,以指导多视角A姿态角色图像的生成。随后,利用基于Transformer的网络重建3D角色网格,并提出利用纹理反投影细化策略进一步改善重建角色网格的外观。实验表明,CharacterGen可以高效地生成适用于多个下游应用的高质量3D角色。

0

评论0

请先
显示验证码