基于图像到UV Map映射的3D手部高保真重建网络（ICCV2021）

Tom Hardy

分类：机器学习

发布时间 2024.04.23阅读数 131 评论数 0

论文地址：https://arxiv.org/pdf/2102.03725v2.pdf

Introduction

Challenge：由于不同的手部姿势和严重的遮挡，目前方法的结果缺乏准确性和保真度。

Main Contribution：提出了一个I2UV-HandNet模型，用于精确的手部姿态和形状估计，以及三维手部超分辨率重建。

具体来说，（1）提出了第一个基于UV的三维手部的形状表示；（2）设计了AffineNet，以图像到图像的转换方式从输入预测UV位置贴图；（3）利用额外的SRNet网络将低分辨率UV贴图转换为高分辨率UV贴图。

Related Work

3D Hand Pose Estimation：三维手部姿态估计任务的目的是预测手部关节的三维位置。近年来，从深度图像或RGB图像中估计三维手姿态得到了很好的探索。由于三维关节标注难以直接从二维图像中获取，许多方法利用三维关节与其二维投影的对应关系来提高三维姿态估计。在本文中，作者仅使用输出的三维关节来帮助评估手部网格建模的性能。

Hand Pose and Shape Estimation：由于稀疏关键点对三维形状的表示方式有限，最近的工作将稀疏姿态估计与密集形状重建相结合，以提供更好的形状表示。该领域的方法可分为两类——是否使用先验模型。虽然参数模型带来了三维形状先验，但从RGB图像中估计模型的参数打破了二维像素之间的空间关系。在这项工作中，作者提出了一个更通用的高保真手部重建解决方案，输入一个低分辨率的UV位置图，并输出一个高分辨率的UV位置图。

Dense Shape Representation：虽然通过参数模型或三维网格来表示三维形状既简单又易于监督，但也有其他工作提出以更密集的方式来表示三维表面。引入UV表示法来表示图像到曲面的对应关系，然后可以直接利用2D CNN来学习图像到UV的映射，但是会出现坐标歧义的问题。在本文中，作者首次将UV位置图引入手部重建任务，并提出了一个连接模块减少坐标歧义的问题。

Method

3D Hand Representation：MANO是一种从手部扫描中学习的参数化手部模型，它定义了从姿势和形状参数到包含778个顶点和1538个面的网格之间的映射，其中面拓扑是固定的，以指示手部曲面中顶点的连接。根据预定义的顶点索引，作者使用MANO模型推断得到16个关节和5个指尖。

Hand Surface as UV Position Map：给定一个手部表面，如MANO手部网格时，可以将该表面展开成一个UV图，这样可以将三维表面表示为一个图像。UV映射定义网格顶点和图像像素之间的对应关系，如下图所示。

在训练时，AffineNet直接从输入图像中输出UV位置图，而SRNet从UV位置图输入中输出另一种UV位置图，最后通过上述定义的UV映射，从UV位置图中重新恢复三维手部网格模型。

AffineNet：为了预测手部形状的UV位置图，采用编码器-解码器结构将输入图像映射到UV图像中。给定一个手在其范围内的彩色图像I，使用ResNet-50作为主干网络将图像编码为一系列具有不同分辨率的编码特征{Eⁱ|i=1,2,3,4,5}。在扩展路径中，每一步都对特征图和预测的UV图进行上采样，同时使用相应的编码特征图，得到一系列解码特征{Dⁱ|i=0,1,2,3,4}和预测的UV位置图{Iⁱ_UV | i=0,1,2,3,4}：

其中，Eⁱ是在第i层编码的特征图，Aⁱ是通过仿射变换的UV对齐特征，Dⁱ是特征图，F_up表示2倍上采样，F_ac表示仿射连接操作，f_conv表示卷积层，π表示从UV位置图到图像坐标系的投影。

SRNet：由于3D手部表面由UV位置图表示的，因此通过UV图像空间中的超分辨率获得更精细的手部表面。作者提出了一种SRNet来将低分辨率的UV位置转移到一个高分辨率的图中。SRNet的网络结构类似于超分辨率卷积神经网络(SRCNN)，但是输入和输出的是UV位置映射，而不是RGB图像。通过SRNet回归高分辨率UV位置图后，可以重建具有较高保真度的手部网格模型。

Training Objective

Losses of the AffineNet：为了学习AffineNet，使用了三种对齐损失，分别是UV对齐E_UV、UV梯度对齐E_grad和网格对齐E_verts：

UV对齐：作者提出了一种基于真实UV位置图Iˆ_UV和输出UV位置图I_UV之间L1距离的对齐损失E_UV：

UV梯度对齐：理想的手部表面应该是连续的，UV位置图也应该是连续的。为此，作者引入了一种UV梯度对齐，以鼓励预测的UV位置图与真实的UV位置图共享相同的梯度：

网格对齐：除了在2D UV位置图空间中计算形状重建的E_UV和E_grad外，作者还引入了网格对齐损失E_verts，以强制预测的3D手部网格与真实网格对齐：

Losses of the SRNet：SRNet的输出是UV位置图，它与AffineNet的输出相似，只是SRNet可以产生一个具有更高分辨率的UV图。在这里，作者采用了类似的损失函数：

将E_UV中的组件替换为SRNet中相应的组件来表示E_UV—SR，E_verts—SR也是采用同样的方式。

Experiments

在FreiHAND测试集上的主要结果的比较

在HO3D测试机上的主要结果的比较

转载自以下公众号

人工智能深度学习计算机视觉三维重建

转载原出处：

打赏 0

上一篇：SegICP：一种集成深度语义分割和位姿估计的框架（附代码）

基于图像到UV Map映射的3D手部高保真重建网络（ICCV2021）

Tom Hardy

Introduction

Related Work

Method

Training Objective

Experiments

为你推荐

Haar特征级联分类器的训练与检测

简单易懂的自动编码器

手语检测识别

win10安装Mujoco150和mujoco-py 1.50.1.0

卷积神经网络（ResNet-18）识别Fashion-MNIST数据集（Pytorch版）

基于linux远程服务器端配置paddlpaddle环境

关于作者

Tom Hardy

37

0

150

3

三维重建算法综述|传统+深度学习

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation（自动驾驶领域轻量级模型）

3D人脸重建算法汇总

相关推荐

机器学习笔记(6) 线性回归

python实现神经网络激活函数

强化学习基础 Ⅺ: Actor-Critic & A2C 原理与实现

YOLOV5训练自己的数据集（踩坑经验之谈）

精选DI-engine强化学习入门（十又二分之一）如何使用RNN——数据处理、隐藏状态、Burn-in

langchain主要模块(四)：Memory

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

基于图像到UV Map映射的3D手部高保真重建网络（ICCV2021）

Tom Hardy

Introduction

Related Work

Method

Training Objective

Experiments

为你推荐

Haar特征级联分类器的训练与检测

简单易懂的自动编码器

手语检测识别

win10安装Mujoco150和mujoco-py 1.50.1.0

卷积神经网络（ResNet-18）识别Fashion-MNIST数据集（Pytorch版）

基于linux远程服务器端配置paddlpaddle环境

评论（0）

关于作者

Tom Hardy

37

0

150

3

三维重建算法综述|传统+深度学习

ESPNet: Efficient Spatial Pyramid of Dilated Convolutions for Semantic Segmentation（自动驾驶领域轻量级模型）

3D人脸重建算法汇总

相关推荐

机器学习笔记(6) 线性回归

python实现神经网络激活函数

强化学习基础 Ⅺ: Actor-Critic & A2C 原理与实现

YOLOV5训练自己的数据集（踩坑经验之谈）

精选DI-engine强化学习入门（十又二分之一）如何使用RNN——数据处理、隐藏状态、Burn-in

langchain主要模块(四)：Memory

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板