本文目录


基于视频的行人重识别
  一、传统方法
  二、深度学习方法
  三、基于视频的行人重识别常见数据集
  四、参考文献


基于视频的行人重识别


一、传统方法

摄像机拍摄的数据大多都是视频信息,可以提供更多的信息帮助我们更好地进行行人匹配与再识别。

不少方法尝试去提取视频中的三维数据来进行外貌表征,如HOG3D以及3DSIFT等特征都是从广泛使用的2D扩展而来的。不少工作拿步态来研究基于视频的行人再识别问题,然而步态的获取需要行人轮廓信息域者身体部位信息等,而没有考虑行人的外貌信息。在遮挡较多、背景较复杂的监控环境下,如何提取到精确的行人轮廓或身体部位信息,仍是一个比较棘手的问题。

Simonnet等提出了用动态时间弯曲距离,对视频序列进行度量学习。Wang等提出一种基于时空描述子对行人进行重识别的方法,融合了HOG3D、步态能量图(GEI),提取视频中光流强度值(FEP)进行步态周期检测,进而提取出运动特征。

提出通过运动能量强度,将视频在时间上分割为不同的片段,并在匹配的过程中通过学习的方法训练一个排序模型,自动地选择最具判定性的片段。You等提出TDL,在特征提取上融合了颜色特征、LBP特征和HOG3D特征,并通过改进了LMNN算法提出TDL算法。

LMNN的目标是缩小附近正样本间的差异,惩罚附近所有的负样本;而TDL的目标是缩小正样本间的差异,惩罚离得最近的负样本;所以TDL比LMNN有更强的约束。

二、深度学习方法

近些年来,随着深度学习发展,在基于视频的行人重识别也有所应用。以往的数据集规模不大,因此Zheng等建立了一个更大规模的基于视频序列的行人重识别数据集MARS,并用深度学习的方法在此数据集上进行实验,获得了不错的结果。未来的研究中,包括MARS在内的越来越多的大规模数据集将会作为基准数据集使用,将深度学习的方法引入到研究中,可以获得较好的重识别结果。在基于视频的行人重识别任务中,数据集是由行人序列构成,仅采用和基于图像相同的研究方法不能很好地利用数据的时间信息。

然而,由于行人重识别的数据集本身较为模糊,具有很大的挑战性,传统的光流、HOG3D以及步态等提取图像运动信息的方法已经很难取得突破性进展。随着CNN在基于图像的任务中应用的成熟,部分研究者把其运用到了基于视频的领域中,此外,为了弥补CNN只能处理空间维度信息的缺陷,获取更多的时间信息,研究者们开始将RNN以及其改进模型LSTM等用于序列建模。

不同于CNN的深度体现在网络层数及参数规模上,RNN/LSTM的深度主要体现在时间节点上的深度。Yan等提出提出了一种RFA-Net,先提取图像的颜色特征和LBP特征,获得基于图像的特征,然后与LSTM结合,获得基于序列的特征,充分利用序列数据集的信息。

Mclaughlin等提出将输入的信息分为外观特征和光流信息,将CNN和RNN网络相结合,在CNN的基础上加入RNN使得该网络可以处理视频序列,而在RNN层上加入时域池化层使得该网络可以处理任意长度的视频,进行联合调参。Zhou等提出利用深度神经网络将特征学习和度量学习统一在一个框架下,进行端到端的训练和推理。在特征学习阶段,我们利用基于时序的注意模型来自动识别具有判别力的帧,使其在特征学习阶段具有较大的权重;度量学习阶段,我们首先逐个位置计算一对视频片段的相似度量,然后利用基于空间的循环神经网络模型来考虑空间位置的信息,使得相似度度量融合进了上下文信息而变得鲁棒,目前都取得了不错的效果。

Liu等提出基于是累积运动上下文的视频人重识别,采用了时间和空间分离的两路卷积网络结构,之后将获得的表观特征和运动特征融合,作为RNN的输入,和目前现有的方法相比,该方法的rank-1非常高。

三、基于视频的行人重识别常见数据集

首先解释single-shot和multi-shot的区别。single-shot是指每个行人在每个场景中只有一幅图像;multi-shot是指每个行人在每个场景中对应一个视频或者若干图像序列。

  1. ETH
    公布于2007年。拍摄场景-街景。由1个摄像头移动拍摄,包含个3个视频。快照版数据集包含853528行人的8580张图片,图片未统一分辨率。/图片分辨率统一为128X48。multi-shot。
  2. 3DPES
    公布于2011年。拍摄场景-大学校园。由8个摄像头拍摄。快照版数据集包含192行人的1011张图片,图片未统一分辨率。multi-shot。
  3. PRID2011
    公布于2011年。拍摄场景-街景。由2个摄像头拍摄。快照版数据集包含934行人的24541张图片,图片分辨率统一为128X64。multi-shot。
  4. iLIDS-VID
    公布于2014年。拍摄场景-机场大厅。由2个摄像头拍摄。快照版数据集包含300行人的42495张图片,图片未统一分辨率。multi-shot。
  5. MARS
    公布于2016年。拍摄场景-大学校园。由6个摄像头拍摄。快照版数据集包含1261行人的1191003张图片,图片分辨率统一为256X128。multi-shot。


四、参考文献

[1] 宋婉茹, 赵晴晴, 陈昌红, 等. 行人重识别研究综述[J]. 智能系统学报, 2017, 12(06): 770-780.
[2] 张化祥, 刘丽. 行人重识别研究综述[J]. 山东师范大学学报, 2018, 33(04): 379-387.
[3] S. Liao,Y. Hu, Xiangyu Zhu and S. Z. Li, Person re-identification by Local Maximal Occurrence representation and metric learning[C]. CVPR, 2015: 2197-2206.
[4] MA B, SU Y, JURIE F. Local descriptors encoded by fisher vectors for person re-identification[C]. ICCV, 2012: 413–422.
[5] CHEN D, YUAN Z, HUA G, 等. Similarity learning on an explicit polynomial kernel feature map for person re-identification[C]. CVPR, 2015: 1565–1573.
[6] GOU M, ZHANG X, RATES-BORRAS A, 等. Person re-identification in appearance impaired scenarios[C]. British Machine Vision Conference, 2016: 1–48.
[7] KARANAM S, LI Y, RADKE R J. Person re-identification with discriminatively trained viewpoint invariant dictionaries[C]. ICCV, 2015: 4516–4524.
[8] SUGIYAMA. Local fisher discriminant analysis for supervised dimensionality reduction[J]. Machine learning, 2010, 78(1/2): 35-61.
[9] MATSUKAWA T, OKABE T, SUZUKI E, 等. Hierarchical gaussian descriptor for person re-identification[C]. CVPR, 2016: 1363–1372.
[10] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems, 2012: 1097–1105.
[11] MCLAUGHLIN N, RINCON J M, MILLER P. Recurrent Convolutional Network for Video-based Person Re-Identification[C]. CVPR, 2012: 51–58.
[12] XIAO T, LI H, OUYANG W, 等. Learning deep feature representations with domain guided dropout for person re-identification[C]. CVPR, 2016: 1249–1258.
[13] WEINBERGER K Q, SAUL K L. Distance metric learning for large margin nearest neighbor classification[J]. Journal of machine learning research, 2009, 10(1): 207–244.
[14] DIKMEN M, AKBAS E, HUANG T S, 等. Pedestrian recognition with a learned metric[J]. Lecture notes in computer science, 2010,6495: 501-512.
[15] GUILLAUMIN M, VERBEEK J, SCHMID C. Is that you? Metric learning approaches for face identification[C]. ICCV, 2009: 498–505.
[16] ZHENG W, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison[C]. CVPR, 2011: 649–656.
[17] ZHENG W S, GONG S, XIANG T. Re-identification by relative distance comparison[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(3): 653.
[18] YI D, LEI Z, LI S Z. Deep metric learning for practical person re-identification[C]. CVPR, 2014: 34–39.
[19] LIU H, MA B, QIN L, 等. Set-label modeling and deep metric learning on person re-identification[J]. Neurocomputing, 2015(151): 1283–1292.
[20] LI W, ZHAO R, XIAO T, 等. Deepreid: Deep filter pairing neural network for person re-identification[C]. CVPR, 2014: 152–159.
[21] DING S, LIN L, WANG G, 等. Deep feature learning with relative distance comparison for person re-identification[J]. Pattern recognition, 2015, 48(10): 2993-3003.
[22] PEDAGADI S, ORWELL J, VELASTIN S, 等. Local fisher discriminant analysis for pedestrian re-identification[C]. CVPR, 2013: 3318–3325.
[23] KOESTINGER M, HIRZER M, WOHLHART P, 等. Large scale metric learning from equivalence constraint[C].CVPR , 2012: 2288–2295.
[24] ENGEL C, BAUMGARTNE P, HOLZMANN M, 等. Person re-identification by support vector ranking[C]. British Machine Vision Conference, 2010: 1–11.
[25] SCOVANNER P, ALI S, SHAH M. A 3-dimensional sift descriptor and its application to action recognition[C]. 15th ACM International Conference on Multimedia, 2007: 357–360.
[28] BEDAGKAR-GALA A, SHAH S K. Gait-assisted person re-identification in wide area surveillance[C]. Asian Conference on Computer Vision, 2014: 633–649.
[29] SIMONNET D, LEWANDOWSKI M, VELASTIN S.A, 等. Re-identification of pedestrians in crowds using dynamic time warping[C]. ICCV, 2012: 423–432.
[30] MAN J,BHANU B. Individual recognition using gait energy image[J]. IEEE transactions on pattern analysis and machine intelligence, 2006, 28(2): 316–322.
[31] WANG T, GONG S G, ZHU X, 等. Person re-identification by video ranking[C]. European Conference on Computer Vision, 2014: 688–703.
[32] KLASER A, MARSZALEK M, SCHMID C. A spatiotemporal descriptor based on 3D-gradients[C]. British Machine Vision Conference, British, 2008: 152–159.
[34] YOU J, WU A, LI X, 等. Top-push video-based person re-identification[C]. CVPR, 2016: 1345–1353.
[35] YAN Y, NI B, SONG Z, 等. Person Re-identification via recurrent feature aggregation[C]. European Conference on Computer Vision. Springer International Publishing, 2016: 701–716.
[36] ZHOU Z,HUANG Y, WANG W, 等. See the forest for the trees: joint spatial and temporal recurrent neural networks in video-based person re-identification[C]. CVPR, 2017: 143–147.
[37] LIU H, JIE Z, JAYASHREE K, 等. Video-based person re-identification with accumulative motion context[J]. IEEE transactions on circuits and systems for video technology, 2017(99): 23–29.
[38] Zhang X , Luo H , Fan X , 等. AlignedReID: Surpassing Human-Level Performance in Person Re-Identification[J]. arXiv preprint arXiv:1711.08184, 2017.
[39] WEI L, ZHANG S, GAO W, 等. Person transfer GAN to bridge domain gap for person re-identification[C]. CVPR, 2018: 79-88.
[40] 罗浩, 姜伟, 范星, 张思朋. 基于深度学习的行人重识别研究进展. 自动化学报, 2019, 45(11): 2032-2049

————————————————