Telechargé par adelfr2009

main

publicité
État de l’art sur les systèmes de reconnaissance des
expressions faciales
Boughida Adil
Université 8 Mai 1945 Guelma
Guelma, Algérie
[email protected]
Kouahla Mohamed
Nadjib
Université 8 Mai 1945 Guelma
Guelma, Algérie
[email protected]
RÉSUMÉ
Les expressions faciales sont un moyen important par lequel les humains interagissent socialement. La reconnaissance automatique de ces expressions faciales est restée un
problème difficile et intéressant en vision par ordinateur, car
les gens peuvent varier considérablement dans la manière
dont ils montrent leurs expressions. Ce papier aborde un
bref état de l’art sur quelques travaux sur les systèmes de
reconnaissance des expressions faciales. De plus, une taxonomie a été proposé.
Mots-clés
expressions faciales, émotions, classification, extraction des
caractéristiques
1.
INTRODUCTION
Le rôle des émotions est important dans notre façon de
penser et de nous comporter. Les émotions que nous ressentons chaque jour peuvent nous obliger à agir et à influencer
les décisions que nous prenons au sujet de nos vies, grandes
et petites. Selon [1], la reconnaissance des expressions faciales (REF) est mentionnée comme le thème le plus abordé
dans neuf thèmes de recherche fondamentale en reconnaissance automatique des émotions. Les conférences et les revues (c’est-à-dire les transactions sur l’informatique affective lancées par l’IEEE en 2010) s’intéressent aux systèmes
de reconnaissance des expressions faciales [2].
Pour ces raisons, nous avons abordé un bref état de l’art
sur les systèmes réalisés de reconnaissances des émotions à
partir des expressions faciales, et nous proposons une taxonomie.
2.
TAXONOMIE
Dans la figure 1, nous avons proposé une taxonomie pour
la reconnaissance des expressions faciales. Puisque la majorités des travaux existantes sur REF se concentre sur l’extraction des meilleurs caractéristiques du visage qui sépare
.
Lafifi Yacine
Université 8 Mai 1945 Guelma
Guelma, Algérie
[email protected]
bien les émotions, notre taxonomie proposé sera construite
à partir du type de caractéristiques extraites.
Les caractéristiques extraités peuvent etre divisé en caractéristique ”Hand Crafted” (Hand Crafted features), et des caractéristiques appris (learned features). Les caractéristiques
”Hand Crafted” sont les propriétés dérivées à l’aide de divers algorithmes utilisant les informations présentes dans le
visage elle-même 1 , comme les contours, les coins, les points
d’intérêts . . . etc. Alors que les caractéristiques appris sont
automatiquement appris à partir des données d’apprentissage [3], ces le cas des approches de Deep Learning (principalement avec Convolutional Neural Network CNN).
Les caractéristique ”Hand Crafted ” peuvent également être
divisées en apparence, géométrique et hybride entre les deux.
Les caractéristiques d’apparence utilisent les informations
d’intensité de l’image, tandis que les caractéristiques géométriques mesurent les distances, les déformations, les courbures et d’autres propriétés géométriques [3].
3.
ÉTAT DE L’ART ET COMPARAISON
Cette section discute brièvement un état de l’art sur quelques
systèmes (classés par le type de l’algorithme d’extraction des
caractéristiques utilisé) de reconnaissance des expressions faciales.
3.1
Caractéristiques d’apparence
Littlewort et Al. dans [6] ont modélisé un système qui permet de détecter l’émotion par l’expression faciale en temps
réel. Concernant les caractéristiques, ils ont utilisé les filtres
de Gabors, qui sont réduis par AdaBoost. Ces caractéristiques seront utilisés ensuite par une combinaison de classifieurs binaire SVM (AdaSVM) pour attribuer forcement
une des sept émotions. La classification avec SVM passe
par 2 étapes : Premièrement, la décision est partitionnée
en plusieurs décisions binaires linières. Trois stratégies sont
utilisées : One vs. One, One vs. All et All possible partitions. One vs. All sera utilisé par les auteurs en raison de
leur performance. Dans ce cas, 6 classifieurs binaires serons
entraı̂nais. Deuxièmement, la combinaison des sorties des
classifieurs SVM binaires, où les auteurs ont implémenté et
évalué 3 approches : par vote, par KNN et par la régression
logistique multinomiale (MLR). Un classifieur AdaBoost est
utilisé pour diminuer le nombre de caractéristiques de Gabor
employés, avec un taux de reconnaissance égale à 93.3%
1. https ://datascience.stackexchange.com/questions/22782/whatis-the-meaning-of-hand-crafted-features-in-computer-visionproblems
Figure 1: Taxonomie pour la reconnaissance des expressions faciales
Les auteurs dans [4] ont proposé un système REF, où
il combine deux type de caractéristique : PHOG et LPQ.
Pour l’extraction des caractéristiques PHOG, ils ont dévisé
chaque visage en segments de 3x3 dans tous les L niveaux
de pyramides (les auteurs fixe L par 3) pour le calcul de
gradient. Puis les gradients seront réunis à chaque niveau de
la pyramide pour la construire les histogrammes de chaque
segment. D’une autre part pour les LPQ, basée sur LBP,
l’idée générale est basée sur la comparaison du niveau de luminance de chaque pixel de visage avec le niveau de ces voisins. Avant de faire la classification avec SVM, ils ont réduit
le nombre de caractéristique PHOG et LPQ avec L’ACP.
Juxiang et Al. [18] proposent un nouvelle technique qui va
permettre d’extraire les caractéristiques par Transformation
de curvelet. Dans ce cas, les coefficients de curvelet dans les
échelles et les angles sélectionnés sont utilisés comme caractéristiques. La motivation de l’utilisation de cette technique
- selon les auteurs - est de permettre de prendre en charge
les caractéristiques de curves et edges contrairement à la
transformation de wavelet. La taille de ces caractéristiques
de curvelet sont réduites et par LDA et PCA. Enfin, ils ont
utilisé KNN pour la reconnaissance. Le taux de reconnaissance pour avec la base données JAFFE égale à 96.57%.
3.2
Caractéristiques géométriques
Barmana et Al. [21] ont détecté les landmarks avec l’algorithme de Fast-Sic Active Appearance Model (Fast-Sic
AAM). Ensuite, ils ont sélectionné quelques landmarks (trois
points sur le sourcil, quatre points sur l’œil, trois points sur
le nez et quatre points sur la région de la bouche) pour former une grille composée de distances euclidiennes entres les
landmarks. A partir de la grille, les signatures de distances
sont calculées, qui sont les caractéristiques. La classification
est faite avec le perception multicouche.
Ghimire et Al. [19] détecte les landmarks avec l’algorithme
de Elastic Bunch Graph Matching (EBGM ) [27], et le suivi
de ces points est établi avec Kanade-Lucas-Tomaci (KLT )
[28, 29] depuis une séquence d’images vidéo. Deuxièmement,
trois types de caractéristiques géométriques seront extraits,
composés de landmarks : les points, les lignes, et les triangles, en réduisant les caractéristiques avec l’algorithme de
AdaBoost. A partir de caractéristiques géométriques sélectionnées, un classifieur SVM sera formé dans la phase d’apprentissage, pour permettre de faire la tâche de reconnaissance.
3.3
Caractéristiques appris
Fathallah et Al. ont proposé dans le papier [30] une nouvelle architecture basé sur CNN pour la reconnaissance des
expressions faciales, où il ont affiné leurs architecture avec
Visual Geometry Group VGG pour améliorer les résultats.
L’expérimentation est établi avec expérimentation avec CK+,
MUG, and RAFD.
3.4
Comparaison entre les systèmes abordés
et synthèse
Le tableau comparatif 1 compare entre les travaux de
l’état de l’art en fonction du modèle d’extraction des caractéristiques, l’algorithme sélection des caractéristiques, le
classifieur, les bases de données utilisées dans l’expérimentation, et le taux de reconnaissance.
Synthèse
— La majorité des travaux traitent des caractéristiques
de type apparence.
— L’utilisation fréquente du SVM comme classifieur.
— AdaBoost et ACP sont les plus utilisées pour la sélection des meilleurs caractéristiques.
— La majorité des travaux restantes utilisent les techniques du Deep Learning
— Les bases de données CK, CK+ et JAFFE sont les plus
utilisées dans les tests.
4.
RÉFÉRENCES
[1] Pedro Marrero-Fernández, Arquı́medes
Montoya-Padrón, Antoni Jaume-i Capó, and
Refs.
Littlewort 2004[6]
Dhall 2011[4]
DataSets
DFAT-504 et POFA
GEMP-FERA
Class.
SVM
SVM et LMNN
Extraction des cars.
Gabor Filters
PHOG et LPQ
Selection des cars.
AdaBoost
ACP
Zhou 2010[18]
JAFFE et CK
KNN
curvelet
LDA et PCA
Barman 2017[21]
CK+,
JAFFE, MMI MUG
Perceptron
multicouche
Ghimire 2017[19]
CK+, MMI, MUG
SVM
distances et triangles
à partir deslandmarks
points, distances et triangles
à partir deslandmarks
fathallah 2017 [30]
CK+, MUG, and RAFD
CNN
CNN
AdaBoost
CNN
Taux
93.3%
88.7%
96.57%
(JAFFE)
96.4%
(JAFFE)
97.80%
(CK+)
96.93%
(CK+)
Table 1: Tableau comparatif des travaux abordés dans l’état de l’art
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
Jose Maria Buades Rubio. Evaluating the research in
automatic emotion recognition. IETE Technical
Review, 31(3) :220–232, 2014.
Samta Jain Goyal, Arvind K Upadhyay, RS Jadon,
and Rajeev Goyal. Real-life facial expression
recognition systems : A review. In Smart Computing
and Informatics, pages 311–331. Springer, 2018.
Ciprian Adrian Corneanu, Marc Oliu Simón, Jeffrey F
Cohn, and Sergio Escalera Guerrero. Survey on rgb,
3d, thermal, and multimodal approaches for facial
expression recognition : History, trends, and
affect-related applications. IEEE transactions on
pattern analysis and machine intelligence,
38(8) :1548–1568, 2016.
A. Dhall, A. Asthana, R. Goecke, and T. Gedeon.
Emotion recognition using phog and lpq features. In
Proc. Face and Gesture 2011, pages 878–883, March
2011.
Bo Sun, Liandong Li, Tian Zuo, Ying Chen, Guoyan
Zhou, and Xuewen Wu. Combining multimodal
features with hierarchical classifier fusion for emotion
recognition in the wild. In Proceedings of the 16th
International Conference on Multimodal Interaction,
pages 481–486. ACM, 2014.
G. Littlewort, M.S. Bartlett, I. Fasel, J. Susskind, and
J. Movellan. Dynamics of facial expression extracted
automatically from video. In 2004 Conference on
Computer Vision and Pattern Recognition Workshop.
IEEE, 2004.
T. H. H. Zavaschi, A. L. Koerich, and L. E. S.
Oliveira. Facial expression recognition using ensemble
of classifiers. In 2011 IEEE International Conference
on Acoustics, Speech and Signal Processing (ICASSP).
IEEE, may 2011.
Jiangang Yu and Bir Bhanu. Evolutionary feature
synthesis for facial expression recognition. Pattern
Recognition Letters, 27(11) :1289–1298, 2006.
Sheheryar Khan, Lijiang Chen, and Hong Yan.
Co-clustering to reveal salient facial features for
expression recognition. IEEE Transactions on
Affective Computing, pages 1–1, 2017.
Khadija Lekdioui, Rochdi Messoussi, Yassine Ruichek,
Youness Chaabi, and Raja Touahni. Facial
decomposition for expression recognition using
texture/shape descriptors and SVM classifier. Signal
Processing : Image Communication, 58 :300–312, oct
2017.
[11] Uroš Mlakar, Iztok Fister, Janez Brest, and Božidar
Potočnik. Multi-objective differential evolution for
feature selection in facial expression recognition
systems. Expert Systems with Applications,
89 :129–137, 2017.
[12] Ali Moeini, Karim Faez, Hossein Moeini, and
Armon Matthew Safai. Facial expression recognition
using dual dictionary learning. Journal of Visual
Communication and Image Representation, 45 :20–33,
may 2017.
[13] Muzammil Abdulrahman, Tajuddeen R. Gwadabe,
Fahad J. Abdu, and Alaa Eleyan. Gabor wavelet
transform based facial expression recognition using
PCA and LBP. In 2014 22nd Signal Processing and
Communications Applications Conference (SIU).
IEEE, apr 2014.
[14] Rizwan Ahmed Khan, Alexandre Meyer, Hubert
Konik, and Saı̈da Bouakaz. Framework for reliable,
real-time facial expression recognition for low
resolution images. Pattern Recognition Letters,
34(10) :1159–1168, jul 2013.
[15] Chao Qi, Min Li, Qiushi Wang, Huiquan Zhang,
Jinling Xing, Zhifan Gao, and Huailing Zhang. Facial
expressions recognition based on cognition and
mapped binary patterns. IEEE Access, pages 1–1,
2018.
[16] Huma Qayyum, Muhammad Majid, Syed Muhammad
Anwar, and Bilal Khan. Facial expression recognition
using stationary wavelet transform features.
Mathematical Problems in Engineering, 2017 :1–9,
2017.
[17] Yang Lu, Shigang Wang, Wenting Zhao, Yan Zhao,
and Jian Wei. A novel approach of facial expression
recognition based on shearlet transform. In 2017 IEEE
Global Conference on Signal and Information
Processing (GlobalSIP). IEEE, nov 2017.
[18] Juxiang Zhou, Yunqiong Wang, Tianwei Xu, and
Wanquan Liu. A novel facial expression recognition
based on the curvelet features. In Image and Video
Technology (PSIVT), 2010 Fourth Pacific-Rim
Symposium on, pages 82–87. IEEE, 2010.
[19] Deepak Ghimire, Joonwhoan Lee, Ze-Nian Li, and
Sunghwan Jeong. Recognition of facial expressions
based on salient geometric features and support vector
machines. Multimedia Tools and Applications,
76(6) :7921–7946, 2017.
[20] Caiyou Yuan, Qingxiang Wu, Caiyun Wu, Pengfei Li,
[21]
[22]
[23]
[24]
[25]
[26]
[27]
[28]
[29]
[30]
.
Yanan Zhang, and Yao Xiao. Expression recognition
algorithm based on the relative relationship of the
facial landmarks. In 2017 10th International Congress
on Image and Signal Processing, BioMedical
Engineering and Informatics (CISP-BMEI). IEEE, oct
2017.
Asit Barman and Paramartha Dutta. Facial
expression recognition using distance and shape
signature features. Pattern Recognition Letters, 2017.
Joshua Susskind, Volodymyr Mnih, Geoffrey Hinton,
et al. On deep generative models with applications to
recognition. In Computer Vision and Pattern
Recognition (CVPR), 2011 IEEE Conference on,
pages 2857–2864. IEEE, 2011.
Salah Rifai, Yoshua Bengio, Aaron Courville, Pascal
Vincent, and Mehdi Mirza. Disentangling factors of
variation for facial expression recognition. In
Computer Vision–ECCV 2012, pages 808–822.
Springer, 2012.
Mengyi Liu, Shiguang Shan, Ruiping Wang, and Xilin
Chen. Learning expressionlets on spatio-temporal
manifold for dynamic facial expression recognition. In
Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, pages 1749–1756,
2014.
Samira Ebrahimi Kahou, Christopher Pal, Xavier
Bouthillier, Pierre Froumenty, Çaglar Gülçehre,
Roland Memisevic, Pascal Vincent, Aaron Courville,
Yoshua Bengio, Raul Chandias Ferrari, et al.
Combining modality specific deep neural networks for
emotion recognition in video. In Proceedings of the
15th ACM on International conference on multimodal
interaction, pages 543–550. ACM, 2013.
Mengyi Liu, Shaoxin Li, Shiguang Shan, and Xilin
Chen. Au-aware deep networks for facial expression
recognition. In FG, pages 1–6, 2013.
Laurenz Wiskott, Jean-Marc Fellous, Norbert Krüger,
and Christoph Von Der Malsburg. Face recognition by
elastic bunch graph matching. In International
Conference on Computer Analysis of Images and
Patterns, pages 456–463. Springer, 1997.
Bruce D Lucas, Takeo Kanade, et al. An iterative
image registration technique with an application to
stereo vision. 1981.
Carlo Tomasi and Takeo Kanade. Detection and
tracking of point features. 1991.
Abir Fathallah, Lotfi Abdi, and Ali Douik. Facial
expression recognition via deep learning. In Computer
Systems and Applications (AICCSA), 2017
IEEE/ACS 14th International Conference on, pages
745–750. IEEE, 2017.
Téléchargement