论文地址:https://arxiv.org/pdf/2102.03725v2.pdf

Introduction

Challenge:由于不同的手部姿势和严重的遮挡,目前方法的结果缺乏准确性和保真度。

Main Contribution:提出了一个I2UV-HandNet模型,用于精确的手部姿态和形状估计,以及三维手部超分辨率重建。

具体来说,(1)提出了第一个基于UV的三维手部的形状表示;(2)设计了AffineNet,以图像到图像的转换方式从输入预测UV位置贴图;(3)利用额外的SRNet网络将低分辨率UV贴图转换为高分辨率UV贴图。

Related Work

3D Hand Pose Estimation:三维手部姿态估计任务的目的是预测手部关节的三维位置。近年来,从深度图像或RGB图像中估计三维手姿态得到了很好的探索。由于三维关节标注难以直接从二维图像中获取,许多方法利用三维关节与其二维投影的对应关系来提高三维姿态估计。在本文中,作者仅使用输出的三维关节来帮助评估手部网格建模的性能。

Hand Pose and Shape Estimation:由于稀疏关键点对三维形状的表示方式有限,最近的工作将稀疏姿态估计与密集形状重建相结合,以提供更好的形状表示。该领域的方法可分为两类——是否使用先验模型。虽然参数模型带来了三维形状先验,但从RGB图像中估计模型的参数打破了二维像素之间的空间关系。在这项工作中,作者提出了一个更通用的高保真手部重建解决方案,输入一个低分辨率的UV位置图,并输出一个高分辨率的UV位置图。

Dense Shape Representation:虽然通过参数模型或三维网格来表示三维形状既简单又易于监督,但也有其他工作提出以更密集的方式来表示三维表面。引入UV表示法来表示图像到曲面的对应关系,然后可以直接利用2D CNN来学习图像到UV的映射,但是会出现坐标歧义的问题。在本文中,作者首次将UV位置图引入手部重建任务,并提出了一个连接模块减少坐标歧义的问题。

Method

3D Hand Representation:MANO是一种从手部扫描中学习的参数化手部模型,它定义了从姿势和形状参数到包含778个顶点和1538个面的网格之间的映射,其中面拓扑是固定的,以指示手部曲面中顶点的连接。根据预定义的顶点索引,作者使用MANO模型推断得到16个关节和5个指尖。

Hand Surface as UV Position Map:给定一个手部表面,如MANO手部网格时,可以将该表面展开成一个UV图,这样可以将三维表面表示为一个图像。UV映射定义网格顶点和图像像素之间的对应关系,如下图所示。

在训练时,AffineNet直接从输入图像中输出UV位置图,而SRNet从UV位置图输入中输出另一种UV位置图,最后通过上述定义的UV映射,从UV位置图中重新恢复三维手部网格模型。

AffineNet:为了预测手部形状的UV位置图,采用编码器-解码器结构将输入图像映射到UV图像中。给定一个手在其范围内的彩色图像I,使用ResNet-50作为主干网络将图像编码为一系列具有不同分辨率的编码特征{Ei|i=1,2,3,4,5}。在扩展路径中,每一步都对特征图和预测的UV图进行上采样,同时使用相应的编码特征图,得到一系列解码特征{Di|i=0,1,2,3,4}和预测的UV位置图{IiUV | i=0,1,2,3,4}:

其中,Ei是在第i层编码的特征图,Ai是通过仿射变换的UV对齐特征,Di是特征图,Fup表示2倍上采样,Fac表示仿射连接操作,fconv表示卷积层,π表示从UV位置图到图像坐标系的投影。

SRNet:由于3D手部表面由UV位置图表示的,因此通过UV图像空间中的超分辨率获得更精细的手部表面。作者提出了一种SRNet来将低分辨率的UV位置转移到一个高分辨率的图中。SRNet的网络结构类似于超分辨率卷积神经网络(SRCNN),但是输入和输出的是UV位置映射,而不是RGB图像。通过SRNet回归高分辨率UV位置图后,可以重建具有较高保真度的手部网格模型。

Training Objective

Losses of the AffineNet:为了学习AffineNet,使用了三种对齐损失,分别是UV对齐EUV、UV梯度对齐Egrad和网格对齐Everts

UV对齐:作者提出了一种基于真实UV位置图IˆUV和输出UV位置图IUV之间L1距离的对齐损失EUV

UV梯度对齐:理想的手部表面应该是连续的,UV位置图也应该是连续的。为此,作者引入了一种UV梯度对齐,以鼓励预测的UV位置图与真实的UV位置图共享相同的梯度:

网格对齐:除了在2D UV位置图空间中计算形状重建的EUV和Egrad外,作者还引入了网格对齐损失Everts,以强制预测的3D手部网格与真实网格对齐:

Losses of the SRNet:SRNet的输出是UV位置图,它与AffineNet的输出相似,只是SRNet可以产生一个具有更高分辨率的UV图。在这里,作者采用了类似的损失函数:

将EUV中的组件替换为SRNet中相应的组件来表示EUV—SR,Everts—SR也是采用同样的方式。

Experiments

在FreiHAND测试集上的主要结果的比较

在HO3D测试机上的主要结果的比较

转载自以下公众号