清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作

“GENEOH DIFFUSION: TOWARDS GENERALIZABLE HAND-OBJECT INTERACTION DENOISING VIA DENOISING DIFFUSION”

电影《钢铁侠》中史塔克可以通过挥动双手直接操作全息投影中的内容，我们目前离这个目标又迈进了一大步。近日，清华大学提出了GENEOH DIFFUSION，让机器更好的理解手物交互，提高手部操作识别效果。

项目主页：https://meowuu7.github.io/GeneOH-Diffusion/

论文地址：https://arxiv.org/pdf/2402.14810

Github地址：https://github.com/Meowuu7/GeneOH-Diffusion

摘要

本文提出了一种新的手部–物体交互去噪方法，名为GeneOH Diffusion。该方法采用了一种创新的基于接触的手部–物体交互表示方法GeneOH，以及一种新的领域通用的去噪方案。GeneOH Diffusion能够有效地去除交互噪声，包括不自然的手部姿势和错误的手部–物体关系，并且具有良好的泛化性能。该方法在四个基准测试中表现出了优异的效果，并且具有广泛的应用前景。

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

简介

手部与物体的交互跟踪是游戏、虚拟现实、机器人和人机交互等领域的重要应用，但由于复杂的动态和遮挡等因素，现有的跟踪算法往往难以产生合理和真实的结果。因此，需要对嘈杂的跟踪结果进行优化，以满足下游任务的需求。本文关注手部轨迹的优化，以清除噪声和伪影，从而提高应用的效果。然而，数据先验的利用面临着许多困难，如复杂的交互噪声、不同交互轨迹之间的差异以及数据分布的偏移等。因此，需要开发更有效的数据驱动模型来解决这些问题。

GeneOH Diffusion用于处理高维人物-物体-交互（HOI）数据的去噪问题。该方法通过设计有效的HOI表示和学习一个规范化的去噪模型来解决挑战。GeneOH表示包括手部轨迹、手部–物体体空间关系和手部–物体时间关系，并采用接触为中心的视角和规范化策略来提高泛化能力。去噪模型通过学习从白化噪声空间到数据流形的映射来处理不同噪声分布的输入轨迹。实验证明该方法在不同数据集上具有显著的效果和泛化能力。

基于去噪DIFFUSION的手部–物体交互去噪

本文针对手部–物体交互序列中手部轨迹存在噪声的情况，提出了一种有效的去噪方法。该方法设计了一种新的HOI表示方法，可以准确地参数化HOI过程，并促进模型在不同交互中的泛化。同时，该方法还采用了一种渐进去噪策略，可以有效地去除复杂噪声，并且可以适应不同的输入噪声模式。该方法的应用范围广泛，可以在各种领域中得到应用。

Geneoh：广义的以接触为中心的手部–物体空间和时间关系

理想的HOI表示应该准确地捕捉交互过程，突出任何异常现象，如空间穿透，并促进不同交互序列的对齐。我们引入GeneOH来实现这一点。它综合了人手轨迹、人手-对象空间关系和人手-对象时间关系来忠实地表示人手交互过程。进一步引入了有效的规范化策略，以增强不同交互的对齐。以接触感知的方式，将手部轨迹和物体轨迹紧凑表示为手部关键点轨迹，记为J，交互区域序列P。

广义接触点。交互区域是基于接近手部轨迹的物体表面采样点建立的，称为“广义接触点”。它们是物体表面点采样的N个点，它们到手部轨迹的距离不超过阈值rc(设为5mm)。这些点在所有帧中的序列表示为P。每个Pk与一个6D的姿态相关联，包括物体的方向(或铰接物体的第一部分的方向)Rk，和Pk的中心tk。

规范化手部轨迹。在表示中包括手部轨迹，以有效地对手部运动进行建模。利用手部关键点对手部进行建模，因为它们提供了紧凑和富有表现力的表示。我们将手部轨迹表示为21个手部关键点的序列，记为J。使用广义接触点的姿态进一步规范化手部轨迹J，以消除物体姿态的影响，产生了GeneOH中的规范化手部轨迹J¯。

广义接触为中心的手部–物体空间关系。在GeneOH中进一步提出一种手部–物体空间表示。该表示方法基于手关键点和广义接触点，继承了它们的优点。以每个广义接触点ok为中心的空间关系包括ok到每个手型关键点hk的相对偏移量。这些统计随后使用广义接触点的6D姿态规范化，以鼓励交叉交互对齐。以ok为中心的空间表示形式定义为：

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

空间关系S由每个广义接触点上的Sk组成：

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

通过对物体法线和手部–物体相对偏移量进行编码，S可以揭示非自然的手部–物体空间关系，如穿透。

广义的以接触为中心的手-对象时序关系。考虑到上述两种表示在揭示人手部–物体运动不一致导致的不正确操作等时间错误方面的局限性，进一步引入人手部–物体时间关系来显式地参数化HOI时间信息。再次利用手的关键点J表示手的形状，广义接触点P表示物体的形状，以发挥它们良好的支持泛化能力。时序关系编码了帧k处每个手部点ok与手部关键点hk之间的相对速度，每个点对之间的欧氏距离，以及表示中的物体速度。我们进一步引入两个统计数据通过使用对象点正常的规范化,导致两个规范化统计：

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区和

这种规范化和编码策略旨在鼓励模型为两种相对速度学习不同的去噪策略，通过分解出物体姿态来增强交叉交互泛化，并强调非常接近的手部–物体点对之间的相对运动。时间表示T是通过将所有帧中每个手部–物体点对的上述统计信息组合在一起来定义的：

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

它通过编码物体速度、手部–物体距离和相对速度来揭示时间误差。

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

GeneOH表示。整体表示形式GeneOH包含上述三个组成部分。它忠实地捕捉交互过程，通过编码相应的统计信息来揭示噪声，并通过精心设计的规范化策略来提高泛化能力。

GeneOH Diffusion：基于去噪DIFFUSION的渐进HOI去噪

虽然GeneOH擅长忠实地编码交互过程，突出错误以促进去噪，并减少各种交互序列之间的差异，但设计有效的去噪模型仍然面临复杂的交互噪声的挑战，即使是来自训练期间未见过的分布。

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

为缓解新的交互噪声带来的挑战，本文提出一种新的去噪范式，学习一个典型的去噪模型，并利用它进行域泛化去噪。它描述了各种噪声尺度下的噪声数据从白化噪声空间到数据流形的映射。白化的噪声空间由通过扩散过程从干净数据中扩散出来的噪声数据样本填充，该扩散过程根据方差计划逐渐向数据中添加高斯噪声。利用典型的去噪器，利用”扩散去噪”策略以一种可泛化的方式处理具有各种噪声模式的输入轨迹。它首先通过扩散过程将输入轨迹xˆ扩散到靠近白化噪声空间的另一个样本x~。然后，该模型将扩散样本x~投影到数据流形。为平衡去噪的泛化能力和去噪结果对输入的保真度，扩散的x~需要忠实于输入的xˆ。引入一个扩散时间步Tdiff，决定添加多少个扩散步骤。将去噪模型的功能和训练实现为基于扩散的生成模型中的得分函数。它是一个多步随机降噪器，逐步消除输入的噪声，逐步为零。这种去噪方法可以灵活地处理不同尺度的噪声，并能对不适定的模糊去噪问题给出多种解。

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

基于域可泛化去噪策略，设计单一数据驱动模型在一个阶段去除异构交互噪声仍然是不可行的。相互作用噪声包含各种不同尺度的噪声，其产生的原因各不相同。因此，相应的噪声到数据的映射是非常高维的，从有限的数据中学习非常具有挑战性。解决这种复杂性的一个有希望的解决方案是采取渐进式方法并学习多个专家，每个专家专注于清理特定类型的噪声信息。然而，多阶段的制定带来了新的困难。它需要仔细考虑每一阶段要清理的信息，以防止当前阶段损害前一阶段实现的自然性。幸运的是，我们对GeneOH表示的设计促进了这个问题的解决方案。人的信息可以表示为三个相对相同的部分:J¯、S和T。此外，它们之间的关系通过跨三个阶段对手部轨迹的J¯、S和T表示进行去噪，确保了手部轨迹的顺序细化，从而避免了破坏问题。

渐进式HOI去噪。我们设计了一个三阶段的去噪方法，每个阶段致力于清理表示的一个方面:J¯、S和T。在每个阶段，针对对应的表示学习一个典型的去噪模型，并使用“扩散去噪”策略进行去噪。给定输入GeneOH input，

第一阶段，称为MotionDiff，将带噪声的规范手部轨迹Jˆ¯input去噪到J¯阶段1。通过使用对象姿态对J¯阶段1进行反规范化，可以很容易地计算出一个阶段去噪的手部轨迹J stage 1。GeneOH输入也可以相应地更新为GeneOH stage 1。

第二阶段SpatialDiff对含有噪声的空间关系Sˆstage 1到S stage 2进行去噪处理。两阶段-去噪手部轨迹J阶段2可以由S阶段2中的手部-物体相对偏移量转化为：

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

之后，GeneOH阶段1将更新为GeneOH阶段2。

最后一个阶段称为TemporalDiff，对Tˆ阶段2到T阶段3进行去噪。由于相对速度等时间信息在T中冗余编码，通过优化J阶段2来计算三个阶段-去噪手部轨迹J阶段3，使其诱导的时间表示与T阶段3相一致。我们将J阶段3作为最终的去噪输出，记为J。每一阶段都不会破坏前一阶段之后所取得的自然性。

拟合手网格轨迹。结合去噪后的轨迹J和对象轨迹，优化了一个由MANO参数表示的参数化手部序列，以更好地拟合J。

实验

实验设置

训练数据集。所有模型都在GRAB数据集上训练。

评估数据集。在四个不同的测试集上评估了所提出的模型和基线，包括带有高斯噪声的GRAB测试集、从Beta分布中采样的噪声的GRAB (Beta)测试集、HOI4D数据集、ARCTIC数据集。

指标。使用两套评估指标。第一组集中于评估模型从噪声输入中恢复GT轨迹的能力，包括平均每个关节/顶点位置误差(MPJPE/MPVPE)，测量去噪手部关节或顶点与相应GT位置之间的平均距离，以及评估去噪轨迹引起的接触图与GT之间的相似性的接触IoU (C-IoU)。第二组量化了去噪结果的质量，包括固体相交体积(IV)和穿透深度，测量穿透度，接近误差，评估去噪轨迹与GT之间的手部–物体接近度差异，以及HO运动一致性，评估手部–物体运动一致性。

基线。与现有HOI去噪模型进行比较，与TOCH的变体进行比较：“TOCH (w/ MixStyle)”、”TOCH (w/ aug)”。

评价设置。在评估我们的模型时，我们从100个随机采样的去噪轨迹中选择最接近输入噪声轨迹的轨迹，使用从0到99的种子。对于确定性去噪模型，报告了一次运行的性能。由于我们的模型可以为单个输入提供多个解决方案，我们在附录中以平均标准差的形式报告了我们模型的性能，第二个度量质量的指标集。

HOI去噪

结果表明，本方法能够有效地从嘈杂的输入中产生视觉上令人满意的交互序列，并且在处理难以穿透的物体形状和动态运动时表现出色。与之前的基线方法相比，该方法能够更好地恢复GT序列并产生高质量的结果。

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

随机HOI去噪

图5展示了我们能够为单个噪声输入提供多个合理的去噪结果的能力。值得注意的是，我们观察到这些结果之间存在离散的操作模式。例如，在图5最左边的例子中，我们的模型生成了不同的手势姿势来解决第二帧中两个手指穿过相机的不自然现象。类似地，在最右边的例子中，我们的结果提供了两种不同的方式来旋转剪刀到某个角度。

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

应用

本模型可以有效地清理由ArcticNet-LSTM估计得到的手部轨迹估计结果，并且在清理直接重定向产生的噪声时表现出色。与TOCH相比，该模型可以更好地解决穿透问题。

《清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作》- 投稿作者:灵度智能 - 发布于:GetAI社区

总结

本文提出了GeneOH Diffusion方法来解决HOI去噪问题。通过设计信息丰富的HOI表示和学习通用的去噪模型，我们解决了这一挑战。实验证明了我们的高去噪能力和泛化能力。然而，该方法的主要限制在于对准确的物体姿态轨迹的假设，如果HOI序列是从野外视频中估计得到的，则可能不成立。同时改进物体姿态和手姿态是一个有价值且实际的研究方向。

清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作

评论0

微信公众号

客服微信

清华发表GeneOH Diffusion，让AI看懂手物交互动作，迈进全息操作

猜你喜欢

评论0