étude sur les différents types d’algorithmes de caractérisation visuelle de scènes réelles,
extérieures.
• algorithmes de traitement d’images pour la détection de personnes et autres objets mobiles et
l’extraction de trajectoires à partir des séquences vidéo mono-vision. Segmentation de scènes
dynamiques à partir des trajectoires.
• Calibration de modèles virtuels à partir des caractéristiques réelles des scènes. Injection en
temps-réel d’avatars dans les scènes réelles.
Pour ce qui est du premier axe, un état de l’art sera effectué sur les algorithmes de vision mono-
camera pour la compréhension de catégories de scènes réelles. Par exemple : carrefour, rue
piétonne, jardin public, tunnel, etc. Une étude sur les algorithmes additionnels permettant de
caractériser les différents éléments (features) visuels urbains sera requise. Cette partie pourrait
comporter aussi l’utilisation des techniques d’apprentissage artificiel.
Le deuxième enjeu du stage consiste dans une caractérisation et segmentation dynamique de la
scène observée. Ceci se ferra à l’aide des algorithmes de détection de personnes, et éventuellement
des autres catégories d’objets (véhicules,..), permettant l’extraction des trajectoires et la
segmentation dynamique de la scène (plans de mouvement, plans fixes, etc.).
Pour ces deux axes, le CAOR dispose déjà des outils permettant l’apprentissage de détecteurs à partir
d’une base d’exemples constituée d’imagettes préalablement extraites de séquences vidéos. Ces
outils s’appuient sur des algorithmes de type SVM, AdaBoost, et autres algorithmes binaires et multi-
classe, qui assemble et pondère des détecteurs élémentaires correspondant chacun à une primitive
visuelle simple.
L’enjeu essentiel du stage sera de concevoir une famille d’algorithmes de recalages et de calibration
de modèles virtuels calculés à partir d’une base d’images ou d’un tronçon vidéo. Ces modèles
intégreront l’information spatiale de manière robuste (indépendance à l’éclairage, contraste,..), afin
d’être embarqués dans un même ensemble avec la scène observée. La présence des avatars et leur
positionnement dans la scène seront estimés au « runtime », par comparaison avec la détection des
personnes dans la vidéo. L’information dynamique engendrée par les personnes en mouvement
pourrait être exploitée, en tant que source supplémentaire d’information pour le générateur de
comportement.
Profil du candidat
Le candidat devra être inscrit dans un Master Recherche et/ou diplômé d'une grande école
d'ingénieur (de niveau assurant si nécessaire l’équivalence d’un Master). Il devra par ailleurs
obligatoirement :
• disposer d’une expérience et d’excellentes connaissances en vision par ordinateur et en
traitement d’images ;
• Avoir de très bonnes compétences en développement informatique (C/C++/Java).
• Des connaissances dans le domaine de l’apprentissage artificiel.
Candidature :
Merci d'adresser vos candidatures à Fabien Flacher (fabien.flacher@thalesgroup.com), Christophe
MEYER
(
christophe.me[email protected]om) et Bogdan Stanciulescu (bogdan.stanciulescu@mines-paristech.fr). Les candidatures devront être accompagnées d'un CV récent et détaillé ainsi que d'une
lettre de motivation.