Proposition de stage 1

publicité
Calibration de modèles virtuels à partir des scènes réelles
Lieu : Centre de Robotique (CAOR) –Mines-ParisTech, 60 boulevard Saint-Michel, 75272 Paris Cedex
06
Maître de stage: Bogdan Stanciulescu
Financement: sous réserve de contrat avec Thales
Mots-clés: vision par ordinateur, traitement d’images, reconnaissance de formes, tracking, fusion
multi-capteurs, machine learning, vidéosurveillance.
Contexte
Un des axes importants des travaux du centre de Robotique de l’Ecole des Mines de Paris est la mise
au point d’outils, algorithmes et applications d’analyse en temps-réel de flux issus de multiples
capteurs, dont des caméras. De nombreuses applications ont ainsi été développées dans les
domaines de la réalité virtuelle et augmentée, du traitement d’images et du signal, notamment au
cadre des projets relevant de la vidéo-surveillance et des systèmes embarqués d’assistance à la
conduite (car safety - ACC, ADAS, etc…) exploitant une analyse temps-réel de l’environnement. Des
outils et des algorithmes performants de reconnaissance visuelle de catégorie d’objet (personnes,
voitures, visages, etc..) ont été développés dans ce contexte.
Ces activités s'appuient en partie sur la plate-forme du CAOR: une salle immersive complétement
équipée en capteurs et en technologies de réalité virtuelle. Pour la conception d'applications
logicielles les chercheurs du Centre de Robotique disposent d'un environnement de développement
ainsi que d'une infrastructure d'exécution, directement issus des travaux du Centre en ingénierie
logicielle.
Cette plate-forme logicielle est aujourd'hui commercialisée par l'entreprise INTEMPORA sous le nom
de RT-MAPS pour Real Time Multisensor Advanced Prototyping Software. Elle permet l’acquisition et
le prototypage puis l’exécution de traitement temps-réel de flux de données synchronisés, étant
utilisée par de nombreux acteurs industriels et académiques tels que Valeo, PSA, Renault, l'INRIA,
l'INRETS, etc.
Enfin le laboratoire a acquis une certaine expertise dans l’utilisation temps-réel de diverses
méthodes pour la fusion de données (filtrage particulaire, théorie des possibilités, etc).
Sujet
Le stage proposé portera principalement sur la calibration des modèles virtuels à partir des scènes
réelles. Le cœur de la recherche proposée est de pouvoir fusionner et injecter des informations
virtuelles et réalistes dans des scènes dynamiques issues d’une plate-forme vidéo, principalement à
partir d’images mono-vision. Il s’inscrit dans le cadre d’un projet commun Thales – Mines-ParisTech.
Ceci implique en particulier des recherches sur les axes suivants :

•
•
étude sur les différents types d’algorithmes de caractérisation visuelle de scènes réelles,
extérieures.
algorithmes de traitement d’images pour la détection de personnes et autres objets mobiles et
l’extraction de trajectoires à partir des séquences vidéo mono-vision. Segmentation de scènes
dynamiques à partir des trajectoires.
Calibration de modèles virtuels à partir des caractéristiques réelles des scènes. Injection en
temps-réel d’avatars dans les scènes réelles.
Pour ce qui est du premier axe, un état de l’art sera effectué sur les algorithmes de vision monocamera pour la compréhension de catégories de scènes réelles. Par exemple : carrefour, rue
piétonne, jardin public, tunnel, etc. Une étude sur les algorithmes additionnels permettant de
caractériser les différents éléments (features) visuels urbains sera requise. Cette partie pourrait
comporter aussi l’utilisation des techniques d’apprentissage artificiel.
Le deuxième enjeu du stage consiste dans une caractérisation et segmentation dynamique de la
scène observée. Ceci se ferra à l’aide des algorithmes de détection de personnes, et éventuellement
des autres catégories d’objets (véhicules,..), permettant l’extraction des trajectoires et la
segmentation dynamique de la scène (plans de mouvement, plans fixes, etc.).
Pour ces deux axes, le CAOR dispose déjà des outils permettant l’apprentissage de détecteurs à partir
d’une base d’exemples constituée d’imagettes préalablement extraites de séquences vidéos. Ces
outils s’appuient sur des algorithmes de type SVM, AdaBoost, et autres algorithmes binaires et multiclasse, qui assemble et pondère des détecteurs élémentaires correspondant chacun à une primitive
visuelle simple.
L’enjeu essentiel du stage sera de concevoir une famille d’algorithmes de recalages et de calibration
de modèles virtuels calculés à partir d’une base d’images ou d’un tronçon vidéo. Ces modèles
intégreront l’information spatiale de manière robuste (indépendance à l’éclairage, contraste,..), afin
d’être embarqués dans un même ensemble avec la scène observée. La présence des avatars et leur
positionnement dans la scène seront estimés au « runtime », par comparaison avec la détection des
personnes dans la vidéo. L’information dynamique engendrée par les personnes en mouvement
pourrait être exploitée, en tant que source supplémentaire d’information pour le générateur de
comportement.
Profil du candidat
Le candidat devra être inscrit dans un Master Recherche et/ou diplômé d'une grande école
d'ingénieur (de niveau assurant si nécessaire l’équivalence d’un Master). Il devra par ailleurs
obligatoirement :
•
•
•
disposer d’une expérience et d’excellentes connaissances en vision par ordinateur et en
traitement d’images ;
Avoir de très bonnes compétences en développement informatique (C/C++/Java).
Des connaissances dans le domaine de l’apprentissage artificiel.
Candidature :
Merci d'adresser vos candidatures à Fabien Flacher ([email protected]), Christophe
MEYER ([email protected]) et Bogdan Stanciulescu ([email protected]). Les candidatures devront être accompagnées d'un CV récent et détaillé ainsi que d'une
lettre de motivation.
Contacts:
[email protected]
[email protected]
Tél : 01.40.51.94.98
Christophe Meyer : [email protected]
Téléchargement