论文: 3D human pose estimation in video with temporal convolutions and semi-supervised training

Githubhttps://github.com/facebookresearch/VideoPose3D

Human3.6M数据集:https://drive.google.com/drive/folders/1kgVH-GugrLoc9XyvP6nRoaFpw3TmM5xK

链接:https://pan.baidu.com/s/1eIMomRUti5HMs4RXHF5ckA 提取码:aabb

 

CVPR2019

 

论文提出了使用了传统膨胀卷积(dilated temporal convolutions)对时序2d关键点序列进行处理,得到3d时序关键点。同时提出了基于反向投影的半监督训练方法。最终实现在 Human3.6M仅仅6mm的平均误差。

网络结构

B:block块的数目,4个

J:关键点的数目,17个

2J:输入为2*J=34个通道

3d1:卷积核大小为3*3,膨胀率为1

网络输入为243帧图片,每个图片17个2d关键点,输出为中间图片,即122张图片对应的17个关键点的3d坐标。

论文中的2d关键点检测,使用了2种方法。 Mask R-CNN 和cascaded pyramid network (CPN) 。

 

半监督训练策略

对于标记的2d数据,Pose model回归3d坐标,loss为MPJPE loss,Trajectory model回归视频序列的轨迹,loss为WMPJPE loss。

对于未标记怼数据,Pose model和Trajectory model进行反投影,实现3d向2d的投影,然后计算2d MPJPE loss。同时对于Pose model加入了软约束Bone length L2 loss,使得标注数据和未标注数据的平均骨骼长度相匹配。

To do so, we found it effective to add a soft constraint to approximately match the mean bone lengths of the subjects in the unlabeled batch to the subjects of the labeled batch 

其中,WMPJPE loss表示 weighted mean per-joint position error (WMPJPE),

yz表示相机坐标空间中,groundtruth的深度。

 

实验结果

 

总结

  1. 对于视频时序的处理中,使用膨胀卷积来替代lstm的方法,在速度和精度上都取得不了不错的效果。
  2. 基于半监督的训练方法,使得整体精度更上一层楼。