Calibration de modèles virtuels à partir des scènes réelles Lieu : Centre de Robotique (CAOR) –Mines-ParisTech, 60 boulevard Saint-Michel, 75272 Paris Cedex 06 Maître de stage: Bogdan Stanciulescu Financement: sous réserve de contrat avec Thales Mots-clés: vision par ordinateur, traitement d’images, reconnaissance de formes, tracking, fusion multi-capteurs, machine learning, vidéosurveillance. Contexte Un des axes importants des travaux du centre de Robotique de l’Ecole des Mines de Paris est la mise au point d’outils, algorithmes et applications d’analyse en temps-réel de flux issus de multiples capteurs, dont des caméras. De nombreuses applications ont ainsi été développées dans les domaines de la réalité virtuelle et augmentée, du traitement d’images et du signal, notamment au cadre des projets relevant de la vidéo-surveillance et des systèmes embarqués d’assistance à la conduite (car safety - ACC, ADAS, etc…) exploitant une analyse temps-réel de l’environnement. Des outils et des algorithmes performants de reconnaissance visuelle de catégorie d’objet (personnes, voitures, visages, etc..) ont été développés dans ce contexte. Ces activités s'appuient en partie sur la plate-forme du CAOR: une salle immersive complétement équipée en capteurs et en technologies de réalité virtuelle. Pour la conception d'applications logicielles les chercheurs du Centre de Robotique disposent d'un environnement de développement ainsi que d'une infrastructure d'exécution, directement issus des travaux du Centre en ingénierie logicielle. Cette plate-forme logicielle est aujourd'hui commercialisée par l'entreprise INTEMPORA sous le nom de RT-MAPS pour Real Time Multisensor Advanced Prototyping Software. Elle permet l’acquisition et le prototypage puis l’exécution de traitement temps-réel de flux de données synchronisés, étant utilisée par de nombreux acteurs industriels et académiques tels que Valeo, PSA, Renault, l'INRIA, l'INRETS, etc. Enfin le laboratoire a acquis une certaine expertise dans l’utilisation temps-réel de diverses méthodes pour la fusion de données (filtrage particulaire, théorie des possibilités, etc). Sujet Le stage proposé portera principalement sur la calibration des modèles virtuels à partir des scènes réelles. Le cœur de la recherche proposée est de pouvoir fusionner et injecter des informations virtuelles et réalistes dans des scènes dynamiques issues d’une plate-forme vidéo, principalement à partir d’images mono-vision. Il s’inscrit dans le cadre d’un projet commun Thales – Mines-ParisTech. Ceci implique en particulier des recherches sur les axes suivants : • • étude sur les différents types d’algorithmes de caractérisation visuelle de scènes réelles, extérieures. algorithmes de traitement d’images pour la détection de personnes et autres objets mobiles et l’extraction de trajectoires à partir des séquences vidéo mono-vision. Segmentation de scènes dynamiques à partir des trajectoires. Calibration de modèles virtuels à partir des caractéristiques réelles des scènes. Injection en temps-réel d’avatars dans les scènes réelles. Pour ce qui est du premier axe, un état de l’art sera effectué sur les algorithmes de vision monocamera pour la compréhension de catégories de scènes réelles. Par exemple : carrefour, rue piétonne, jardin public, tunnel, etc. Une étude sur les algorithmes additionnels permettant de caractériser les différents éléments (features) visuels urbains sera requise. Cette partie pourrait comporter aussi l’utilisation des techniques d’apprentissage artificiel. Le deuxième enjeu du stage consiste dans une caractérisation et segmentation dynamique de la scène observée. Ceci se ferra à l’aide des algorithmes de détection de personnes, et éventuellement des autres catégories d’objets (véhicules,..), permettant l’extraction des trajectoires et la segmentation dynamique de la scène (plans de mouvement, plans fixes, etc.). Pour ces deux axes, le CAOR dispose déjà des outils permettant l’apprentissage de détecteurs à partir d’une base d’exemples constituée d’imagettes préalablement extraites de séquences vidéos. Ces outils s’appuient sur des algorithmes de type SVM, AdaBoost, et autres algorithmes binaires et multiclasse, qui assemble et pondère des détecteurs élémentaires correspondant chacun à une primitive visuelle simple. L’enjeu essentiel du stage sera de concevoir une famille d’algorithmes de recalages et de calibration de modèles virtuels calculés à partir d’une base d’images ou d’un tronçon vidéo. Ces modèles intégreront l’information spatiale de manière robuste (indépendance à l’éclairage, contraste,..), afin d’être embarqués dans un même ensemble avec la scène observée. La présence des avatars et leur positionnement dans la scène seront estimés au « runtime », par comparaison avec la détection des personnes dans la vidéo. L’information dynamique engendrée par les personnes en mouvement pourrait être exploitée, en tant que source supplémentaire d’information pour le générateur de comportement. Profil du candidat Le candidat devra être inscrit dans un Master Recherche et/ou diplômé d'une grande école d'ingénieur (de niveau assurant si nécessaire l’équivalence d’un Master). Il devra par ailleurs obligatoirement : • • • disposer d’une expérience et d’excellentes connaissances en vision par ordinateur et en traitement d’images ; Avoir de très bonnes compétences en développement informatique (C/C++/Java). Des connaissances dans le domaine de l’apprentissage artificiel. Candidature : Merci d'adresser vos candidatures à Fabien Flacher ([email protected]), Christophe MEYER ([email protected]) et Bogdan Stanciulescu ([email protected]). Les candidatures devront être accompagnées d'un CV récent et détaillé ainsi que d'une lettre de motivation. Contacts: [email protected] [email protected] Tél : 01.40.51.94.98 Christophe Meyer : [email protected]