论文:Deep Facial Expression Recognition: A Survey

资源:http://www.pris.net.cn/introduction/teacher/dengweihong

 北邮模式识别实验室,邓伟洪
 

 人脸表情识别facial expression recognition (FER),主要面临2大挑战问题,

1.缺乏高效的数据导致的过拟合
2.表情相关变化,比如,关照,人脸姿态,不同人脸之间的差异。
 

人脸表情识别的进化史:

 

人脸表情数据集:

Database Samples Subject Condit. Elicit. Expression distribution Access
CK+ 593 image sequences 123 Lab P & S 6 basic expressions plus contempt and neutral http://www.consortium.ri.cmu.edu/ckagree/
MMI 740 images and 2,900 videos 25 Lab P 6 basic expressions plus neutral https://mmifacedb.eu/
JAFFE  213 images 10 Lab P 6 basic expressions plus neutral http://www.kasrl.org/jaffe.html
TFD 112,234 images N/A Lab P 6 basic expressions plus neutral josh@mplab.ucsd.edu
FER-2013 35,887 images N/A Web P & S 6 basic expressions plus neutral https://www.kaggle.com/c/challenges-in-representation-learning-facial-expression-recognition-challenge
AFEW 7.0 1,809 videos N/A Movie P & S 6 basic expressions plus neutral https://sites.google.com/site/emotiwchallenge/
SFEW 2.0  1,766 images N/A Movie P & S 6 basic expressions plus neutral https://cs.anu.edu.au/few/emotiw2015.html
Multi-PIE 755,370 images 337 Lab P Smile, surprised, squint, disgust, scream and neutr http://www.flintbox.com/public/project/4742/
BU-3DFE 2,500 images 100 Lab P 6 basic expressions plus neutral http://www.cs.binghamton.edu/∼lijun/Research/3DFE/3DFE Analysis.html
Oulu-CASIA 2,880 image sequences 80 Lab P 6 basic expressions http://www.cse.oulu.fi/CMV/Downloads/Oulu-CASIA
RaFD 1,608 images 67 Lab P 6 basic expressions plus contempt
and neutral
http://www.socsci.ru.nl:8180/RaFD2/RaFD
KDEF  4,900 images 70 Lab P 6 basic expressions plus neutral http://www.emotionlab.se/kdef/
EmotioNet  1,000,000 images N/A Web P & S 23 basic expressions or compound expressions http://cbcsl.ece.ohio-state.edu/dbform emotionet.html
RAF-DB  29672 images N/A Web P & S 6 basic expressions plus neutral and
12 compound expressions
http://www.whdeng.cn/RAF/model1.html
AffectNet  450,000 images (labeled) N/A Web P & S 6 basic expressions plus neutral http://mohammadmahoor.com/databases-codes/
ExpW 91,793 images N/A Web P & S 6 basic expressions plus neutral http://mmlab.ie.cuhk.edu.hk/projects/socialrelation/index.htm

人脸表情识别的预处理操作:

主要包括,人脸对齐,归一化操作。

其中,

人脸对齐常用的人脸关键点检测算法,

人脸标准化操作,包括,关照归一化(Illumination normalization)和姿态归一化(Pose normalization)

 

人脸表情识别的整体流程:

输入的数据可以是单张图片,也可以是视频序列图片。首先会使用一个人脸检测模型,检测出图片中的人脸和人脸关键点。然后会经过数据增强,数据标准化操作。将得到的图片输入网络进行训练学习。所输入的网络可以是传统的cnn(Convolutional neural network),深度信念网络DBN(Deep belief network),RNN(Recurrent neural network),DAE(Deep autoencoder),GAN(Generative Adversarial Network)等等。最终经过分类操作,得到最终的情绪表情的类别结果。

 

预训练和微调:

首先整个网络在imagenet上进行预训练。第一阶段分4个分支,在FER32的不同子集和EmotiW上进行微调。第二阶段在EmotiW上进行微调。

比较代表性的,FaceNet2ExpNet。第一阶段,固定FaceNet的训练权重,训练EmotionNet。第二阶段,随机初始化全连接层,和EmotionNet联合训练。

 

差异化的网络输入:

网络的输入可以是原始rgb图,也可以是rgb图和LBP纹理图的叠加图,或者rgb图和sift特征图的叠加图。

 

额外分支辅助训练:

HoloNet是一个经典的表情识别的网络,里面采用了Crelu激活,和残差结构。

Supervised Scoring Ensemble (SSE) 模块被设计来确保网络的学习能力,SSE模块融合了浅层,中层,深层的特征。

island loss和locality-preserving loss (LP loss)被设计出,联合softmax loss 一起训练,来改进模型的能力。

exponential triplet-based loss 会在训练过程中,给予难例样本更多的权重。) (N+M)-tuples

cluster loss 被设计出,用来缓解anchor选择困难和triplet loss中的阈值验证问题。

 

网络集成:

模型集成,主要用在打比赛刷分的场合。分为,特征层的集成,决策层的集成。

 

多任务网络:

MSCNN网络,会同时输入一对图片。网络可以学习到2个图片中的差异。表情识别的loss是交叉熵损失,人脸识别的loss是contrastive loss。这样训练可以减少由于表情变化带来的干扰。

 

AUaware deep network (AUDN) 网络,分为3个前后顺序分支。

第一个分支,一个2层的cnn被训练用来提取全局特征。

第二个分支,主要训练学习AU(action unit)单元。

第三个分支,基于多层RBM模块,训练来学习层次结构的特征。

 

PPDN算法,训练过程输入2张不同表情的图片,使用L2 loss和交叉熵loss进行联合训练。测试过程中,输入一张静态图片就可以。

 

基于视频的表情识别:

从上到下进行视频处理。对于超过10帧的图片,取平均得到最终结果。对于少于10张图片的,随机重复图片以凑够10帧。

 

基于视频的表情识别,主要使用3dcnn,LSTM

3DCNN-DAP,输入n张序列图片,使用3d卷积进行处理。

PHRNN提取人脸关键点特征,MSCNN提取人脸ID特征。最后融合这2个特征,得到最终的特征。

DTAGN方法,也是结合了提取人脸id特征的网络DTAN,提取人脸关键点特征的DTGN网络。DTAN输出 softMax1和softMax3,DTGN输出softMax2和softMax3。然后将2个softMax3进行element-wise的方式相加,得到最终的输出特征。

 

 总结:

人脸表情识别的一篇很好的综述性质的论文。

表情识别的发展方向,

单一表情--->复合表情

单帧图片--->视频序列
————————————————