苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒

HUGS: Human Gaussian Splats

创建一个赛博虚拟人分身需要多久?现在只需半个小时即可实现!近日,苹果发布了3D数字人生成模型HUGS,可以从一段30分钟内的视频当中提取出人物骨骼,从而合成数字分身,并驱动它做出任意动作。

论文地址:https://arxiv.org/pdf/2311.17910.pdf

Github地址:https://github.com/apple/ml-hugs

 

摘要

本文介绍了一种名为HUGS的方法,利用3D Gaussian Splatting技术表示可动人物和场景。该方法只需要使用少量(50-100)帧的单目视频,就能自动学习分离静态场景和可完全动画化的人物角色。同时,该方法还能够捕捉SMPL模型无法建模的细节,如衣物和头发。为了解决动画时产生的伪影问题,该方法还提出了一种联合优化线性混合蒙皮权重的方法。该方法能够实现新姿势合成和新视角合成,并且在渲染速度和质量方面都达到了最先进的水平。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

简介

人体的逼真渲染和动画是一个重要的研究领域,具有在增强现实/虚拟现实、视觉效果、视觉试穿、电影制作等方面的许多应用。早期的研究主要依赖于多摄像机捕捉系统、大量计算和大量手动工作来创建人体化身。最近的研究通过直接从视频中生成3D化身来解决这些问题,使用像SMPL这样的3D参数化身体模型,具有高效的光栅化和适应未知变形的能力。然而,参数化模型的固定拓扑结构限制了对服装、复杂发型和其他几何细节的建模。最近的进展探索了使用神经场来建模3D人体化身,通常使用参数化身体模型作为变形建模的支架。神经场在捕捉服装、配饰和头发等细节方面表现出色,超过了使用纹理和其他属性对参数化模型进行光栅化所能达到的质量。然而,它们也存在一些问题,尤其是训练和渲染效率较低。此外,以一种多功能的方式变形神经场存在挑战,通常需要使用低效的根查找循环,这对训练和渲染时间产生不利影响。为了解决这些挑战,我们引入了一种新的化身表示方法HUGS——人类高斯斑点。HUGS将人体和场景都表示为3D高斯,并利用3D高斯斑点(3DGS)进行训练和渲染,相比隐式NeRF表示具有更快的速度。虽然使用3D高斯表示允许对人体变形进行明确控制,但也带来了新的问题。具体而言,实现人体动作的逼真动画需要协调各个高斯斑点以保持表面完整性(即不生成空洞或弹出)。

本文介绍了一种新的人体变形模型HUGS,它使用3D高斯函数表示人体,并预测高斯函数的平移、旋转和缩放来适应不同的人体形状。同时,HUGS还可以模拟人体的细节(如头发和服装),并通过学习线性混合蒙皮权重来协调高斯函数的运动。HUGS可以通过单个单目视频进行训练,并学习到人体和场景的分离表示,使得其可以在不同场景中灵活使用。

本文贡献如下:

  • 提出了一种名为HUGS的神经表示方法,用于场景中的人物,可以实现人物的新姿势合成和新视角合成。
  • 提出了一种新颖的前向变形模块,使用3D高斯函数将目标人物表示为规范空间,并学习使用LBS将其动画化到未观察到的姿势。
  • HUGS可以从野外单目视频中快速创建和渲染可动画的人物角色,只需使用50-100帧进行训练,训练时间为30分钟,相比基线方法提高了约100倍,同时以60帧每秒的速度在高清分辨率下进行渲染。
  • HUGS在NeuMan数据集和ZJU-Mocap数据集上实现了基线方法(如NeuMan和Vid2Avatar)无法达到的最先进的重建质量。

相关工作

早期的逼真渲染和动画使用传统的计算机图形流水线,需要使用大型多摄像机设置(如光线舞台)来捕捉人体的细节纹理和材质。人体动画涉及到艺术家创建的人体网格模板的绑定。引入统计人体形状模型使得可以通过单一模型来表示多样化的人体形状和动画,减少了创建模板网格和绑定的手动工作。然而,这些形状模型并不考虑服装、头发、配饰等细节。后续的研究通过增加衣物等附加层或选择不同的表示方法(如占用)来改进几何估计。然而,如何在没有大型捕捉设置的情况下捕捉外观仍然是一个挑战。

最近的研究提出了一种称为NeRF的方法,可以联合表示几何和外观,用于多视图图像的视图合成。NeRF已经被扩展用于捕捉动态移动的人物,并且还有一些方法可以加快NeRF的训练和渲染速度。最近的研究还提出了一种称为3D Gaussian Splatting的方法,可以用一组3D高斯函数来表示场景,并通过喷洒和光栅化高斯函数来渲染场景。我们的方法基于3D Gaussian Splatting框架,并利用SMPL身体形状模型作为先验,并学习了一个变形模型来控制动画。我们使用三个MLP来协调高斯函数的旋转、缩放、颜色和LBS权重。

方法

本文介绍了一种自动分离和表示人体和静态场景的方法,使用3D高斯模型。该方法使用SMPL身体模型和COLMAP的结构光点云初始化人体和场景高斯模型。文章首先简要回顾了3D Gaussian Splatting和SMPL身体模型,然后介绍了在3D高斯框架中建模和动画人体时所面临的挑战以及提出的解决方法。

预备知识

3D Gaussian Splatting(3DGS)是一种用3D高斯函数表示场景的方法,每个高斯函数由位置、不透明度、中心、协方差矩阵和球谐函数组成。在渲染时,高斯函数被投影到图像平面上形成2D高斯函数,通过alpha混合计算像素颜色。SMPL是一个参数化的人体模型,可以控制姿态和形状,通过姿态和形状参数将模板人体网格转换到形状空间。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

SMPL模型是一个可动画的人体网格模型,它利用线性混合蒙皮技术将人体网格动画化。该模型适用于身体类型的标准化,但不包括头发和服装等细节。我们的方法利用SMPL网格和LBS技术进行初始化,然后利用高斯函数来模拟头发和服装等细节。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

人类高斯图像

使用预训练的SMPL回归器来估计每个图像的SMPL姿势参数和共享的身体形状参数。使用学习的LBS驱动3D高斯模型来表示人体,并输出高斯模型的位置、旋转、缩放、球谐系数和相对于关节的LBS权重。人体高斯模型构建在一个规范空间中,其中包含一个特征三面板和三个多层感知器(MLPs)来预测高斯模型的属性。规范空间是SMPL的一个预定义姿势空间。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

渲染过程。给定关节配置G,渲染图像的过程如下:对于每个高斯函数,首先在其中心位置µi处插值三维平面,得到特征向量fxi,fyi,fzi∈Rd。特征fi表示第i个高斯函数,是fxi,fyi,fzi的连接。将fi作为输入,外观MLP DA输出第i个高斯函数的RGB颜色和不透明度;几何MLP DG输出到中心位置的偏移量∆µi,旋转矩阵Ri(由前两列参数化)和三个轴的比例Si;变形MLP DD输出该高斯函数的LBS权重Wi∈Rnk。使用LBS和关节变换G来转换人体高斯函数,然后将其与场景高斯函数合并并投射到图像平面上。渲染过程是端到端可微分的。

优化。优化中心位置、特征三面体和三个MLP的参数。使用L1损失、SSIM损失和感知损失来比较渲染图像和真实图像。还使用预训练的分割模型获取人体区域,并使用相同的损失函数进行比较。通过ℓ2损失将学习到的LBS权重W约束为接近SMPL的权重。最终的损失函数由多个部分组成,使用Adam优化器进行优化。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

使用SMPL网格模型的顶点作为高斯分布的中心,并使用预训练的特征三面板和MLP来输出RGB颜色、透明度、旋转和缩放等参数。预训练过程中,使用了SMPL网格模型和LBS权重进行初始化和正则化。在测试过程中,不再使用SMPL网格模型和LBS权重。

本文介绍了一种基于高斯混合模型的人体建模方法。该方法使用三维高斯分布来表示人体的形状和姿态,并通过优化来拟合输入的人体数据。在优化过程中,使用克隆、分裂和修剪高斯分布来避免局部最小值。

测试时渲染。优化后,可以直接使用LBS权重来动态渲染人体姿态,无需重新计算高斯分布。该方法的优点是可以高效地表示人体形状和姿态,并且可以直接应用于动态渲染。

实验

数据集

NeuMan数据集包含六个视频,每个视频持续时间在10到20秒之间,使用手机拍摄单个人物,适合多视角重建。ZJU-MoCap数据集包含六个展示不同动作的主体,使用多视角捕捉设备拍摄。在评估过程中,使用了数据集提供的相机矩阵、身体姿势和分割。数据集的帧被分为80%的训练帧、10%的验证帧和10%的测试帧。

定性结果

与SOTA比较。在场景背景区域,HUGS的重建质量优于Vid2Avatar和NeuMan,HUGS显示出更好的重建质量,并保留了放大区域中的这些细节。在人体区域,Vid2Avatar显示手部区域的伪影,脚和手臂区域的模糊重建。NeuMan在某些情况下获得了脚区域的更好细节,并在其他情况下引入手部和脚区域的伪影。HUGS保留了手部和足部周围的细节,表现出更好的重建质量。总之,与之前的方法相比,HUGS显示了更好的场景和人的重建质量,同时训练和渲染速度快了几个数量级。

 

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

人体形状。HUGS捕捉了人类脚和手周围的细微细节,保留了面部丰富的细节,能够在动画阶段实现高重建质量。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

人与场景的分离。HUGS允许通过分别存储人类和场景的高斯特征来解缠表示,这允许我们将人移动到不同的场景。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

定量结果

在NeuMan数据集和ZJU Mocap数据集上的实验结果表明,HUGS在重建质量和速度方面均优于现有方法NeRF-T、HyperNeRF、NeuMan和Vid2Avatar。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

在渲染速度方面,HUGS比NeuMan快了7600倍,比Vid2Avatar快了3800倍。

 

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

消融分析

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

实验结果表明,HUGS可以有效地重建人体模型,并且在去除LBS、禁用densification、去除Lh loss和直接优化3DGS参数等方面进行了实验和分析。在NeuMan数据集上,该方法在人体区域的PSNR、SSIM和LPIPS指标上表现出色。

《苹果发表最快3D数字人生成器HUGS,30分钟创建赛博数字人分身,渲染仅需16毫秒》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

HUGS是一种新的方法,通过将可变形模型引入高斯点渲染框架,实现了场景中嵌入人物的新视角和新姿态合成。该方法能够从野外单目视频中重建人物和场景表示,训练和渲染速度快,质量也有所提高。然而,该方法存在一些局限性,如无法捕捉松散服装的一般可变形结构等。

未来的工作将致力于解决这些问题,并通过学习外观先验知识和考虑环境光照等因素来进一步提高模型的性能。

0

评论0

请先
显示验证码