“ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars”
项目主页:https://3dthemestation.github.io/
论文地址:https://arxiv.org/pdf/2403.15383
Github地址:https://github.com/3DTopia/ThemeStation
摘要
ThemeStation是一个主题感知的3D到3D生成方法,可以根据给定的几个示例合成定制的3D资产。它有两个目标:
- 1)生成与给定示例主题一致的3D资产;
- 2)生成具有高度变化的3D资产。
为了实现目标,ThemeStation设计了一个两阶段的框架,首先绘制一个概念图像,然后进行基于参考的3D建模。它提出了一种新颖的双重分数蒸馏(DSD)损失,可以同时利用输入示例和合成概念图像的先验知识。实验证明,ThemeStation在生成多样化的主题感知3D模型方面优于先前的方法。ThemeStation还可以实现各种应用,如可控的3D到3D生成。
简介
虚拟现实和视频游戏等应用中,需要创建大量的三维模型,这些模型在主题上保持一致,但又各不相同。自动化这个劳动密集型的过程是否可行,以及生成系统是否能够产生许多独特的三维模型,这些模型在风格上保持一致但又不同。最近,扩散模型通过显著降低手动工作量,彻底改变了三维内容创建任务。这使得即使是初学者也能够通过文本提示或参考图像轻松创建三维资产。早期的研究集中在使用经过训练的图像扩散模型从文本提示中生成三维资产。后续的研究将这种方法扩展到从单个图像中创建三维模型。虽然这些方法表现出色,但由于输入模态的三维信息有限,仍然存在三维模糊和不一致的问题。
本文提出了一种新的方法ThemeStation,利用3D样本来指导3D生成过程,以生成与输入样本主题一致但不同的3D模型。与文本和图像相比,3D样本提供了更丰富的几何和外观信息,减少了3D建模的歧义,从而可以创建更高质量的3D模型。ThemeStation旨在实现3D生成过程中的统一性和多样性,即生成的模型与输入样本主题一致,同时具有高度的变化。
ThemeStation包含两阶段,用于生成具有统一性和多样性的3D模型,只需一个或几个3D样本。第一阶段使用预训练的图像扩散模型对渲染图像进行微调,生成多样化的概念图像。第二阶段将合成的概念图像转换为3D模型,使用参考模型提供几何和多视角外观信息。为了解决两个扩散先验之间的冲突,提出了参考信息双分数蒸馏(DSD)方法。实验结果表明,ThemeStation可以生成具有吸引力和多样性的3D模型,具有更精细的细节,即使只有一个输入样本。
方法
ThemeStation旨在模拟3D建模的实际工作流程,引入概念艺术设计步骤,然后再进行3D建模。首先使用预训练的文本到图像(T2I)扩散模型生成一系列概念图像,然后使用基于优化的方法将每个概念图像转换为最终的3D模型。同时,提出了新颖的双分数蒸馏(DSD)方法,利用概念图像和示例的先验知识进行优化过程。
主题驱动的概念图像生成
概念图像设计是一种传达想法和预览最终3D模型的视觉工具。它通常是3D建模工作流程中的第一步,充当设计师和建模者之间的桥梁。在这一阶段,我们的目标是根据输入的示例{𝒎𝑟}生成特定主题的各种概念图像{𝒙𝑐}。我们的目标是生成一组多样化的主题,这些主题表现出主题的一致性,但显示相对于示例的内容变化。因此,不是通过过拟合输入来刺激预训练扩散模型的主体保留能力,而是寻求在保留输入样本主题的同时保留其想象能力。
我们观察到,通过对输入样本{𝒎𝑟}的渲染图像{𝒙𝑟}进行更少的迭代进行微调的扩散模型已经能够学习样本{𝒎𝑟}的主题。因此,它能够生成在主题上与输入样本一致的新主题。为进一步解开主题(语义和风格)和样例的内容(主题),在微调过程中,明确指出使用所有样例的共享文本提示来学习主题。
参考信息三维资产建模
给定一个合成的概念图像𝒙𝑐和输入样本{𝒎𝑟},我们在第二阶段进行参考信息3D资产建模。与从基本基元开始的实际3D建模工作流程类似,我们从一个粗略的初始3D模型开始𝒎𝑖𝑛𝑖𝑡,使用现成的图像到3D技术生成给出概念图像𝒙𝑐,以加速我们的3D资产建模过程。
由于合成的概念图像以及初始的3D模型可能具有不一致的空间结构和不令人满意的伪影,因此没有强制最终生成的模型与概念图像严格对齐。然后,我们将概念图像和初始模型作为中间输出,并精心开发初始模型为最终生成的3D模型𝒎𝑜。本文提出对偶分数蒸馏(DSD)损失来同时利用两个扩散先验作为指导。这里,一个扩散模型记为𝜙𝑐,作为基本概念(概念先验),提供来自概念图像𝒙𝑐的扩散先验,以确保概念重建;另一个模型记为𝜙𝑟,作为咨询参考(参考先验),生成与输入参考模型{𝒎𝑟}相关的扩散先验,以协助恢复细微特征,缓解多视图不一致。
对偶分数蒸馏(Dual Score Distillation,DSD)
DSD结合了概念先验和参考先验的优点来指导生成过程。这两种先验都是通过微调预训练的T2I扩散模型得到的。
预备知识。DreamFusion通过使用参数𝜃优化3D表示来实现文本到3D的生成,以便在不同的相机姿势下随机渲染的图像𝒙=𝑔(𝜃)看起来像针对给定文本提示𝑦的预训练T2I扩散模型的2D样本。在这里,𝑔是一个类似nerf的渲染引擎。T2I扩散模型𝜙通过预测采样噪声𝜖𝜙(𝒙𝑡;𝑦,𝑡)的渲染视图𝒙𝑡在噪声水平𝑡为给定的文本提示𝑦。为了在文本条件扩散先验下将所有渲染图像移动到更高密度的区域,分数蒸馏采样(SDS)将更新𝜃的梯度估计为:
其中𝜔(𝑡)是一个权重函数。
在SDS之后,变分蒸馏(VSD)进一步提高了生成的多样性和质量,它将以文本为条件的3D表示视为SDS中的随机变量,而不是单个数据点。梯度的计算方法如下:
其中𝑐是相机参数,𝜖 lora通过预训练T2I扩散模型的低秩自适应(lora)计算含噪渲染图像的分数。尽管VSD和SDS的质量很好,但它们主要从单一扩散模型中提取一元先验,在遇到相互冲突的扩散模型的混合先验时可能会崩溃。
概念先验的学习。为了学习概念先验,我们不仅利用概念图像本身,还利用其初始3D模型中的3D一致性信息𝒎𝑖𝑛𝑖𝑡。初始模型存在纹理模糊和几何过度平滑的问题,这不足以提供高质量的概念先验。因此,我们增加的初始视图呈现{𝒙𝑖𝑛𝑖𝑡}的𝒎𝑖𝑛𝑖𝑡为增强视图{𝒙𝑖𝑛ˆ𝑖𝑡},在𝑎(·)是image-to-image翻译操作。这些增强视图作为概念主题的伪多视图图像,为进一步的3D建模提供额外的3D信息。最后,通过对给定的T2I扩散模型{𝑥𝑐,{𝒙𝑖𝑛ˆ𝑖𝑡},𝑦}进行微调,得到具有概念先验的扩散模型𝜙𝑐,其中𝑦是带有特殊标识符的文本提示符。
参考先验的学习。为了学习参考先验,我们利用彩色图像{𝒙𝑟}和在随机视角下从参考模型{𝒎𝑟}渲染的法线图{𝒏𝑟}。绘制的彩色图像主要提供纹理上的3D一致性先验信息,而绘制的法线图则侧重于编码细节的几何信息。这两种效果图的联合使用,有助于在优化过程中建立更全面的参考先验,以引入3D一致的细节。为了理清图像先验和正常先验的学习,我们还合并了不同的文本提示,𝑦𝑥和𝑦𝑛,用于彩色图像,和法线贴图。最后,通过对给定{{𝒙𝑟},𝑦𝑥,{𝒏𝑟},𝑦𝑛}的预训练T2I扩散模型进行微调,得到具有参考先验的扩散模型𝜙𝑟。虽然将3D参考模型转换为2D空间,但它们的3D信息仍然在一致的多视图渲染彩色图像和法线贴图中被隐式保留。此外,由于预训练的T2I扩散模型已被证明具有关于视觉世界的丰富2D和3D先验,我们还可以继承这些先验,通过将3D输入投影到2D空间来提高建模质量。
对偶分数蒸馏是如何工作的?这两种先验的直接聚合是对扩散模型𝜙𝑐和𝜙𝑟不加区分地执行两次vanilla分数蒸馏采样,并汇总损失。然而,这两个先验的朴素堆叠在优化过程中会导致损失冲突,并产生扭曲的结果(图7的(b))。为了解决这个问题,引入了双分数蒸馏(DSD)损失,在反向扩散过程中在不同的噪声水平(去噪时间步长)应用两个扩散先验。
我们观察到,在反向扩散过程中存在一个由粗到细的基于时间步长的动态。高噪声水平,即早期的去噪时间步𝑡ℎ,控制着被去噪图像的全局布局和粗糙的颜色分布。随着反向扩散逐渐进入低噪声水平,即后期去噪时间步𝑡𝑙,产生高频细节。这种有趣的基于时间步的T2I扩散模型动态过程非常符合我们的概念先验和参考先验的功能。受图像风格迁移的启发,利用预训练神经网络的不同层来控制不同级别的图像内容,我们在高噪声水平下应用先验概念𝜙𝑐𝑡ℎ,通过整体调整布局和颜色来加强概念保真度,并在低噪声水平下应用参考先验𝜙𝑟𝑡𝑙来恢复更精细的元素细节。
基于等式2,在给定概念先验的情况下,更新模型的3D表示𝜃的梯度为:
对于参考模型,将其应用于已渲染的彩色图像和法线贴图,利用从参考模型中学习到的图像先验和法线先验来联合恢复细节纹理和几何形状。给定参考先验的梯度是:
最后,我们的DSD损失的梯度是:
实验 与SOTA比较 基准。我们收集了66个参考模型的数据集,涵盖了广泛的主题。这些三维模型主要包括3类,包括15个立体模型、25个独立物体和26个人物。 对比方法。据我们所知,本文是第一个专注于具有扩散先验的主题感知3d到3d生成的工作。由于现有方法不能同时将图像和三维模型作为输入,文中方法从两个方面与7种基准方法进行了比较。一方面,我们比较了五种图像到3D的方法,包括Wonder3D、SyncDreamer(SyncD)、LRM、Shape-E、Magic123,以评估将概念图像提升为3D模型的第二阶段。另一方面,我们还比较了两种3D变分方法:Sin3DM和Sin3DGen,以评估我们方法的整体3D到3D性能。 定量结果。我们采用了两个指标:1)CLIP得分来衡量全局语义相似性,2)上下文距离来估计像素级别的语义距离。对于3D-to-3D,使用生成模型之间的成对IoU距离(1-IoU)和不同视图的平均LPIPS分数,分别衡量视觉多样性和几何多样性。为了测量视觉质量和几何质量,使用LAION 2美学预测器来预测视觉和几何美学分数,给定多视图渲染图像(视觉)和法线贴图(几何)。结果表明,本方法在生成多样性、质量和多视图语义一致性方面超越了基线。本方法在几何和纹理方面生成了与主题一致的新颖3D资产,具有多样化和合理的变化。 用户研究。我们公开邀请30名用户完成一份问卷,进行两两比较。我们在补充材料中解释了这个用户研究的详细设置。就人类偏好而言,所提出方法在图像到3d和3d到3d任务中都明显优于现有方法。
定性结果。之前的方法的生成结果存在形状不完整、外观模糊和多视图不一致的问题。本方法结合了输入3D样本的先验和预训练的T2I扩散模型,产生了各种语义上有意义的3D变化,这些变化在内容上发生了重大修改,同时在主题上与输入样本保持一致。
消融分析
通过比较不同设置下的语义一致性、视觉质量和几何质量等指标,发现引入参考先验和DSD损失可以显著提高模型质量。作者还探讨了DSD损失中噪声水平的选择对模型性能的影响,发现将概念先验和参考先验分别应用于高噪声和低噪声水平可以有效减少损失冲突。
总结
ThemeStation用于主题感知的3D到3D生成任务。该方法通过两个阶段的生成方案,首先绘制概念图像作为粗略指导,然后将其转换为3D模型。该方法使用两个先验,一个来自输入的3D示例(参考先验),另一个来自第一阶段生成的概念图像(概念先验)。同时,提出了双重得分蒸馏(DSD)损失函数,以解开这两个先验并减轻损失冲突。通过用户研究和广泛的实验验证了该方法的有效性。然而,该方法仍有一些限制需要进一步改进,例如优化时间较长和初始化不良等问题。未来的工作可以考虑训练一个前馈的主题感知3D到3D生成模型。
评论0