论文:Joint COCO and Mapillary Workshop at ICCV 2019:Keypoint Detection Challenge Track

GitHubhttps://github.com/leoxiaobin/deep-high-resolution-net.pytorch

 

ICCV 2019

 

论文对于高IOU情况下的遮挡问题,比如一个框中有2个物体这样的情况,提出了instance cue + recurrent refinement的姿态估计方法。

最终在coco测试集上取得了单模型76.2的mAP,多模型集成77.3的mAP,经过额外的微调网络后处理可以达到77.8的mAP。

网络结构:

论文的整体网络结构,基于HintPose这样的姿态估计框架。在该框架的基础上,提出了instance cue + recurrent refinement两个改进点。

训练过程中,对于一个目标框中有2个目标的情况,分别使用各自目标对应的instance cue分别送入该网络结构2次。

When there are multiple cues in a bounding box, the same cropped image are fed into the model multiple times with each cue

instance cue

一个基于目标物体的,经过高斯处理的单通道的热力图,将其作为一个embedding,也就是instance cue。

那么在训练和测试的时候,这个instance cue分别怎么得到呢?

训练的时候,可以基于分割或者关键点的信息得到。在测试的时候,可以先使用一个简单的网络预测得到分割信息,从而得到该instance cue。

 

recurrent refinement

这里使用了2个1*1的卷积模块。第一个是为了使用上一步输出的特征图来更新当前的特征图信息。另一个是为了给下一步提取有用的特征图信息。

one is to update feature maps using information from the previous output and another is to extract meaningful information for the next hop

整个的recurrent refinement循环了3次,也就是3个hops。

 

实验结果:

可以看出,instance cue和recurrent refinement都对最终的mAP有一定的提升。

 

未来工作:

使用分割的特征图来代替论文的高斯滤波后的基于点的特征图,来作为最终的instance cue。

Another way to improve our model can be to use a different type of instance cue, such as segmentation maps