Sujet de stage Master inter équipes Vertigo

publicité
Sujet de stage Master inter équipes Vertigo/MSDMA 2016-2017
Deep Learning et mesure de risque
Mots-clés : Sciences pour l’ingénieur, apprentissage profond, statistiques et mesure de risque
1
Contexte
L’annotation sémantique de données consiste à effectuer des tâches de reconnaissance automatique
sur les contenus, e.g. associer des labels de haut niveau sémantique aux données brutes. Cette problématique revêt des enjeux cruciaux dans l’ère actuel du big data, puisque les énormes volumes de données
rendent les méthodes d’annotation manuelle totalement caduques : à titre d’exemple, plus d’un milliard
de nouvelles photos sont postées chaque jour par les utilisateurs du réseau social Facebook.
Cette thématique d’annotation sémantique de données a connu un cataclysme récemment avec les
modèles d’apprentissage profond ("Deep Learning"). Le succès du deep learning a été ponctué par des
résultats expérimentaux spectaculaires, avec des performances des modèles d’apprentissage profond surclassant largement les descripteurs précédemment état de l’art, manuellement définis en fonction de la
tâche et nécessitant une expertise du domaine. Le succès de l’apprentissage profond a été initié par des
très bonnes performances dans le contexte de la reconnaissance vocale en 2011 [DYDA12], avant d’atteindre un succès historique pour la reconnaissance visuelle lors du challenge ImageNet 2012 [KSH12],
avec l’application de réseaux de neurones convolutifs (ConvNets) pour la classification d’images. Le deep
learning a depuis pénétré l’ensemble des champs de la science des données, allant du traitement du langage naturel (Natural Language Processing, NLP), en passant par l’analyse multi-modale des données
ou encore l’application pour la résolution de problèmes, avec le succès récent au Go utilisant des modèles d’apprentissage par renforcement. L’apprentissage profond a permis de franchir un pallier en terme
d’apprentissage de représentations intermédiaires, qui se traduit par un renouveau de problématiques
historiques en intelligence artificielle (Artificial Intelligence, AI), comme la réponse aux questions ou la
réponse aux questions visuelles (Question Answering et Visual Question Answering).
2
Enjeux et objectifs
En dépit de leurs performances spectaculaires, la compréhension formelle des modèles d’apprentissage profond est encore limitée et fragile. En particulier, les architectures profondes ne bénéficient pas
naturellement de garantie de robustesse des sorties et de mesure fiable du risque de prédiction.
Un exemple emblématique dans ce contexte de la reconnaissance visuelle est celui des exemples
adversaires, souligné dans [SZS+ 14] et illustré à la figure 2 : une modification imperceptible d’une image
peut donner lieu à une modification brutale de la prédiction de la classe de sortie.
Ce problème devient critique dans des domaines ou l’obtention d’une mesure d’incertitude et de
risque fiable de la prédiction est critique, car une erreur d’interprétation peut avoir des conséquences très
sensibles, comme le domaine de la santé ou de l’aviation. On peut le cas échéant préférer des modèles
aux performances prédictives inférieures mais dont l’erreur est bornée par une mesure fine d’incertitude.
Ce stage vise à étudier de nouveaux modèles d’apprentissage profond combinant la force du deep
learning pour l’apprentissage de représentations et des modèles statistiques de mesure de risque.
On s’appuiera des travaux récemment menés dans l’équipe MSDMA pour l’estimation de zone de rejet
où le modèle est incertain [HBH16]. Une première étape consistera à prendre en main ce modèle, puis
à l’adapter pour l’apprentissage de réseaux de neurones profonds. En particulier, la méthode proposée
en [HBH16] suppose de disposer de modèles de prédiction existants, et ce stage visera à étendre ces
travaux pour l’apprentissage joint du modèle de décision et de la zone de rejet.
1
Figure 1 – Exemples adversaires pour les modèles d’apprentissage profond. Toutes les images de la
colonne de gauche sont correctement reconnues par le modèle. En bruitant chaque image de manière
imperceptible, donnant lieu à l’image de la troisième colonne, une modification brutale de prédiction est
observée : toutes les images sont identifiées comme appartenant à la classe autruche (ostrich).
Une évaluation expérimentale des modèles développés sera menée tout d’abord sur les bases publiques
de la littérature, comme les bases d’images couramment utilisées (e.g. ImageNet, PASCAL VOC). On
s’intéressera en particulier à valider l’amélioration des performances en généralisation du modèle induit
par la modélisation explicite de la mesure de risque. Ensuite, une campagne d’expérimentation du modèle
sera mise en place sur les données médicales de l’équipe MSDMA et les données visuelles de l’équipe
VERTIGO.
3
Profil recherché et organisation
Des connaissances en apprentissage statistique et optimisation sont nécessaires. Un bon niveau de
programmation notamment en Python est demandé, l’utilisation de modèle d’apprentissage profond
nécessitant l’utilisation de librairies pour l’entraînement des modèles (e.g. TensorFlow, Theano), avec
portage du code sur GPU en particulier pour les données visuelles.
Le stage doit débuter au printemps 2017 et durera 6 mois, sous la co-direction de Nicolas Thome et
Avner Bar-Hen (MSDMA), et Michel Crucianu (VERTIGO).
Références
[DYDA12] G.E. Dahl, Dong Yu, Li Deng, and A. Acero. Context-dependent pre-trained deep neural networks for largevocabulary speech recognition. Audio, Speech, and Language Processing, IEEE Transactions on, 20(1) :30 –42,
jan. 2012.
[HBH16]
Blaise Hanczar and Avner Bar-Hen. Controlling the cost of prediction in using a cascade of reject classifiers for
personalized medicine. In 7th International Conference on Bioinformatics Models, Methods and Algorithms
(BIOINFORMATICS 2016), pages 42–50, Rome, Italy, February 2016.
[KSH12]
Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural
networks. In Advances in neural information processing systems, pages 1097–1105, 2012.
[SZS+ 14]
Christian Szegedy, Wojciech Zaremba, Ilya Sutskever, Joan Bruna, Dumitru Erhan, Ian J. Goodfellow, and Rob
Fergus. Intriguing properties of neural networks. In International Conference on Learning Representations
(ICLR), 2014.
2
Téléchargement