État de l’art sur les systèmes de reconnaissance des expressions faciales Boughida Adil Université 8 Mai 1945 Guelma Guelma, Algérie [email protected] Kouahla Mohamed Nadjib Université 8 Mai 1945 Guelma Guelma, Algérie [email protected] RÉSUMÉ Les expressions faciales sont un moyen important par lequel les humains interagissent socialement. La reconnaissance automatique de ces expressions faciales est restée un problème difficile et intéressant en vision par ordinateur, car les gens peuvent varier considérablement dans la manière dont ils montrent leurs expressions. Ce papier aborde un bref état de l’art sur quelques travaux sur les systèmes de reconnaissance des expressions faciales. De plus, une taxonomie a été proposé. Mots-clés expressions faciales, émotions, classification, extraction des caractéristiques 1. INTRODUCTION Le rôle des émotions est important dans notre façon de penser et de nous comporter. Les émotions que nous ressentons chaque jour peuvent nous obliger à agir et à influencer les décisions que nous prenons au sujet de nos vies, grandes et petites. Selon [1], la reconnaissance des expressions faciales (REF) est mentionnée comme le thème le plus abordé dans neuf thèmes de recherche fondamentale en reconnaissance automatique des émotions. Les conférences et les revues (c’est-à-dire les transactions sur l’informatique affective lancées par l’IEEE en 2010) s’intéressent aux systèmes de reconnaissance des expressions faciales [2]. Pour ces raisons, nous avons abordé un bref état de l’art sur les systèmes réalisés de reconnaissances des émotions à partir des expressions faciales, et nous proposons une taxonomie. 2. TAXONOMIE Dans la figure 1, nous avons proposé une taxonomie pour la reconnaissance des expressions faciales. Puisque la majorités des travaux existantes sur REF se concentre sur l’extraction des meilleurs caractéristiques du visage qui sépare . Lafifi Yacine Université 8 Mai 1945 Guelma Guelma, Algérie [email protected] bien les émotions, notre taxonomie proposé sera construite à partir du type de caractéristiques extraites. Les caractéristiques extraités peuvent etre divisé en caractéristique ”Hand Crafted” (Hand Crafted features), et des caractéristiques appris (learned features). Les caractéristiques ”Hand Crafted” sont les propriétés dérivées à l’aide de divers algorithmes utilisant les informations présentes dans le visage elle-même 1 , comme les contours, les coins, les points d’intérêts . . . etc. Alors que les caractéristiques appris sont automatiquement appris à partir des données d’apprentissage [3], ces le cas des approches de Deep Learning (principalement avec Convolutional Neural Network CNN). Les caractéristique ”Hand Crafted ” peuvent également être divisées en apparence, géométrique et hybride entre les deux. Les caractéristiques d’apparence utilisent les informations d’intensité de l’image, tandis que les caractéristiques géométriques mesurent les distances, les déformations, les courbures et d’autres propriétés géométriques [3]. 3. ÉTAT DE L’ART ET COMPARAISON Cette section discute brièvement un état de l’art sur quelques systèmes (classés par le type de l’algorithme d’extraction des caractéristiques utilisé) de reconnaissance des expressions faciales. 3.1 Caractéristiques d’apparence Littlewort et Al. dans [6] ont modélisé un système qui permet de détecter l’émotion par l’expression faciale en temps réel. Concernant les caractéristiques, ils ont utilisé les filtres de Gabors, qui sont réduis par AdaBoost. Ces caractéristiques seront utilisés ensuite par une combinaison de classifieurs binaire SVM (AdaSVM) pour attribuer forcement une des sept émotions. La classification avec SVM passe par 2 étapes : Premièrement, la décision est partitionnée en plusieurs décisions binaires linières. Trois stratégies sont utilisées : One vs. One, One vs. All et All possible partitions. One vs. All sera utilisé par les auteurs en raison de leur performance. Dans ce cas, 6 classifieurs binaires serons entraı̂nais. Deuxièmement, la combinaison des sorties des classifieurs SVM binaires, où les auteurs ont implémenté et évalué 3 approches : par vote, par KNN et par la régression logistique multinomiale (MLR). Un classifieur AdaBoost est utilisé pour diminuer le nombre de caractéristiques de Gabor employés, avec un taux de reconnaissance égale à 93.3% 1. https ://datascience.stackexchange.com/questions/22782/whatis-the-meaning-of-hand-crafted-features-in-computer-visionproblems Figure 1: Taxonomie pour la reconnaissance des expressions faciales Les auteurs dans [4] ont proposé un système REF, où il combine deux type de caractéristique : PHOG et LPQ. Pour l’extraction des caractéristiques PHOG, ils ont dévisé chaque visage en segments de 3x3 dans tous les L niveaux de pyramides (les auteurs fixe L par 3) pour le calcul de gradient. Puis les gradients seront réunis à chaque niveau de la pyramide pour la construire les histogrammes de chaque segment. D’une autre part pour les LPQ, basée sur LBP, l’idée générale est basée sur la comparaison du niveau de luminance de chaque pixel de visage avec le niveau de ces voisins. Avant de faire la classification avec SVM, ils ont réduit le nombre de caractéristique PHOG et LPQ avec L’ACP. Juxiang et Al. [18] proposent un nouvelle technique qui va permettre d’extraire les caractéristiques par Transformation de curvelet. Dans ce cas, les coefficients de curvelet dans les échelles et les angles sélectionnés sont utilisés comme caractéristiques. La motivation de l’utilisation de cette technique - selon les auteurs - est de permettre de prendre en charge les caractéristiques de curves et edges contrairement à la transformation de wavelet. La taille de ces caractéristiques de curvelet sont réduites et par LDA et PCA. Enfin, ils ont utilisé KNN pour la reconnaissance. Le taux de reconnaissance pour avec la base données JAFFE égale à 96.57%. 3.2 Caractéristiques géométriques Barmana et Al. [21] ont détecté les landmarks avec l’algorithme de Fast-Sic Active Appearance Model (Fast-Sic AAM). Ensuite, ils ont sélectionné quelques landmarks (trois points sur le sourcil, quatre points sur l’œil, trois points sur le nez et quatre points sur la région de la bouche) pour former une grille composée de distances euclidiennes entres les landmarks. A partir de la grille, les signatures de distances sont calculées, qui sont les caractéristiques. La classification est faite avec le perception multicouche. Ghimire et Al. [19] détecte les landmarks avec l’algorithme de Elastic Bunch Graph Matching (EBGM ) [27], et le suivi de ces points est établi avec Kanade-Lucas-Tomaci (KLT ) [28, 29] depuis une séquence d’images vidéo. Deuxièmement, trois types de caractéristiques géométriques seront extraits, composés de landmarks : les points, les lignes, et les triangles, en réduisant les caractéristiques avec l’algorithme de AdaBoost. A partir de caractéristiques géométriques sélectionnées, un classifieur SVM sera formé dans la phase d’apprentissage, pour permettre de faire la tâche de reconnaissance. 3.3 Caractéristiques appris Fathallah et Al. ont proposé dans le papier [30] une nouvelle architecture basé sur CNN pour la reconnaissance des expressions faciales, où il ont affiné leurs architecture avec Visual Geometry Group VGG pour améliorer les résultats. L’expérimentation est établi avec expérimentation avec CK+, MUG, and RAFD. 3.4 Comparaison entre les systèmes abordés et synthèse Le tableau comparatif 1 compare entre les travaux de l’état de l’art en fonction du modèle d’extraction des caractéristiques, l’algorithme sélection des caractéristiques, le classifieur, les bases de données utilisées dans l’expérimentation, et le taux de reconnaissance. Synthèse — La majorité des travaux traitent des caractéristiques de type apparence. — L’utilisation fréquente du SVM comme classifieur. — AdaBoost et ACP sont les plus utilisées pour la sélection des meilleurs caractéristiques. — La majorité des travaux restantes utilisent les techniques du Deep Learning — Les bases de données CK, CK+ et JAFFE sont les plus utilisées dans les tests. 4. RÉFÉRENCES [1] Pedro Marrero-Fernández, Arquı́medes Montoya-Padrón, Antoni Jaume-i Capó, and Refs. Littlewort 2004[6] Dhall 2011[4] DataSets DFAT-504 et POFA GEMP-FERA Class. SVM SVM et LMNN Extraction des cars. Gabor Filters PHOG et LPQ Selection des cars. AdaBoost ACP Zhou 2010[18] JAFFE et CK KNN curvelet LDA et PCA Barman 2017[21] CK+, JAFFE, MMI MUG Perceptron multicouche Ghimire 2017[19] CK+, MMI, MUG SVM distances et triangles à partir deslandmarks points, distances et triangles à partir deslandmarks fathallah 2017 [30] CK+, MUG, and RAFD CNN CNN AdaBoost CNN Taux 93.3% 88.7% 96.57% (JAFFE) 96.4% (JAFFE) 97.80% (CK+) 96.93% (CK+) Table 1: Tableau comparatif des travaux abordés dans l’état de l’art [2] [3] [4] [5] [6] [7] [8] [9] [10] Jose Maria Buades Rubio. Evaluating the research in automatic emotion recognition. IETE Technical Review, 31(3) :220–232, 2014. Samta Jain Goyal, Arvind K Upadhyay, RS Jadon, and Rajeev Goyal. Real-life facial expression recognition systems : A review. In Smart Computing and Informatics, pages 311–331. Springer, 2018. Ciprian Adrian Corneanu, Marc Oliu Simón, Jeffrey F Cohn, and Sergio Escalera Guerrero. Survey on rgb, 3d, thermal, and multimodal approaches for facial expression recognition : History, trends, and affect-related applications. IEEE transactions on pattern analysis and machine intelligence, 38(8) :1548–1568, 2016. A. Dhall, A. Asthana, R. Goecke, and T. Gedeon. Emotion recognition using phog and lpq features. In Proc. Face and Gesture 2011, pages 878–883, March 2011. Bo Sun, Liandong Li, Tian Zuo, Ying Chen, Guoyan Zhou, and Xuewen Wu. Combining multimodal features with hierarchical classifier fusion for emotion recognition in the wild. In Proceedings of the 16th International Conference on Multimodal Interaction, pages 481–486. ACM, 2014. G. Littlewort, M.S. Bartlett, I. Fasel, J. Susskind, and J. Movellan. Dynamics of facial expression extracted automatically from video. In 2004 Conference on Computer Vision and Pattern Recognition Workshop. IEEE, 2004. T. H. H. Zavaschi, A. L. Koerich, and L. E. S. Oliveira. Facial expression recognition using ensemble of classifiers. In 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, may 2011. Jiangang Yu and Bir Bhanu. Evolutionary feature synthesis for facial expression recognition. Pattern Recognition Letters, 27(11) :1289–1298, 2006. Sheheryar Khan, Lijiang Chen, and Hong Yan. Co-clustering to reveal salient facial features for expression recognition. IEEE Transactions on Affective Computing, pages 1–1, 2017. Khadija Lekdioui, Rochdi Messoussi, Yassine Ruichek, Youness Chaabi, and Raja Touahni. Facial decomposition for expression recognition using texture/shape descriptors and SVM classifier. Signal Processing : Image Communication, 58 :300–312, oct 2017. [11] Uroš Mlakar, Iztok Fister, Janez Brest, and Božidar Potočnik. Multi-objective differential evolution for feature selection in facial expression recognition systems. Expert Systems with Applications, 89 :129–137, 2017. [12] Ali Moeini, Karim Faez, Hossein Moeini, and Armon Matthew Safai. Facial expression recognition using dual dictionary learning. Journal of Visual Communication and Image Representation, 45 :20–33, may 2017. [13] Muzammil Abdulrahman, Tajuddeen R. Gwadabe, Fahad J. Abdu, and Alaa Eleyan. Gabor wavelet transform based facial expression recognition using PCA and LBP. In 2014 22nd Signal Processing and Communications Applications Conference (SIU). IEEE, apr 2014. [14] Rizwan Ahmed Khan, Alexandre Meyer, Hubert Konik, and Saı̈da Bouakaz. Framework for reliable, real-time facial expression recognition for low resolution images. Pattern Recognition Letters, 34(10) :1159–1168, jul 2013. [15] Chao Qi, Min Li, Qiushi Wang, Huiquan Zhang, Jinling Xing, Zhifan Gao, and Huailing Zhang. Facial expressions recognition based on cognition and mapped binary patterns. IEEE Access, pages 1–1, 2018. [16] Huma Qayyum, Muhammad Majid, Syed Muhammad Anwar, and Bilal Khan. Facial expression recognition using stationary wavelet transform features. Mathematical Problems in Engineering, 2017 :1–9, 2017. [17] Yang Lu, Shigang Wang, Wenting Zhao, Yan Zhao, and Jian Wei. A novel approach of facial expression recognition based on shearlet transform. In 2017 IEEE Global Conference on Signal and Information Processing (GlobalSIP). IEEE, nov 2017. [18] Juxiang Zhou, Yunqiong Wang, Tianwei Xu, and Wanquan Liu. A novel facial expression recognition based on the curvelet features. In Image and Video Technology (PSIVT), 2010 Fourth Pacific-Rim Symposium on, pages 82–87. IEEE, 2010. [19] Deepak Ghimire, Joonwhoan Lee, Ze-Nian Li, and Sunghwan Jeong. Recognition of facial expressions based on salient geometric features and support vector machines. Multimedia Tools and Applications, 76(6) :7921–7946, 2017. [20] Caiyou Yuan, Qingxiang Wu, Caiyun Wu, Pengfei Li, [21] [22] [23] [24] [25] [26] [27] [28] [29] [30] . Yanan Zhang, and Yao Xiao. Expression recognition algorithm based on the relative relationship of the facial landmarks. In 2017 10th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI). IEEE, oct 2017. Asit Barman and Paramartha Dutta. Facial expression recognition using distance and shape signature features. Pattern Recognition Letters, 2017. Joshua Susskind, Volodymyr Mnih, Geoffrey Hinton, et al. On deep generative models with applications to recognition. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 2857–2864. IEEE, 2011. Salah Rifai, Yoshua Bengio, Aaron Courville, Pascal Vincent, and Mehdi Mirza. Disentangling factors of variation for facial expression recognition. In Computer Vision–ECCV 2012, pages 808–822. Springer, 2012. Mengyi Liu, Shiguang Shan, Ruiping Wang, and Xilin Chen. Learning expressionlets on spatio-temporal manifold for dynamic facial expression recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1749–1756, 2014. Samira Ebrahimi Kahou, Christopher Pal, Xavier Bouthillier, Pierre Froumenty, Çaglar Gülçehre, Roland Memisevic, Pascal Vincent, Aaron Courville, Yoshua Bengio, Raul Chandias Ferrari, et al. Combining modality specific deep neural networks for emotion recognition in video. In Proceedings of the 15th ACM on International conference on multimodal interaction, pages 543–550. ACM, 2013. Mengyi Liu, Shaoxin Li, Shiguang Shan, and Xilin Chen. Au-aware deep networks for facial expression recognition. In FG, pages 1–6, 2013. Laurenz Wiskott, Jean-Marc Fellous, Norbert Krüger, and Christoph Von Der Malsburg. Face recognition by elastic bunch graph matching. In International Conference on Computer Analysis of Images and Patterns, pages 456–463. Springer, 1997. Bruce D Lucas, Takeo Kanade, et al. An iterative image registration technique with an application to stereo vision. 1981. Carlo Tomasi and Takeo Kanade. Detection and tracking of point features. 1991. Abir Fathallah, Lotfi Abdi, and Ali Douik. Facial expression recognition via deep learning. In Computer Systems and Applications (AICCSA), 2017 IEEE/ACS 14th International Conference on, pages 745–750. IEEE, 2017.