
 étude  sur  les  différents  types  d’algorithmes  de  caractérisation  visuelle  de  scènes  réelles, 
extérieures. 
• algorithmes de traitement d’images pour la détection de personnes et autres objets mobiles et 
l’extraction  de trajectoires à  partir  des  séquences  vidéo mono-vision.  Segmentation  de  scènes 
dynamiques à partir des trajectoires. 
•  Calibration  de  modèles  virtuels  à  partir  des  caractéristiques  réelles  des  scènes.  Injection  en 
temps-réel d’avatars dans les scènes réelles. 
Pour ce qui  est du premier axe, un  état de l’art sera effectué sur  les algorithmes de vision mono-
camera  pour  la  compréhension  de  catégories  de  scènes  réelles.  Par  exemple :  carrefour,  rue 
piétonne,  jardin  public,  tunnel,  etc.  Une  étude  sur  les  algorithmes  additionnels  permettant  de 
caractériser  les  différents  éléments  (features)  visuels  urbains  sera  requise.  Cette  partie  pourrait 
comporter aussi l’utilisation des techniques d’apprentissage artificiel. 
Le  deuxième  enjeu  du  stage  consiste  dans  une  caractérisation  et  segmentation  dynamique  de  la 
scène observée. Ceci se ferra à l’aide des algorithmes de détection de personnes, et éventuellement 
des  autres  catégories  d’objets  (véhicules,..),  permettant  l’extraction  des  trajectoires  et  la 
segmentation dynamique de la scène (plans de mouvement, plans fixes, etc.).  
Pour ces deux axes, le CAOR dispose déjà des outils permettant l’apprentissage de détecteurs à partir 
d’une  base  d’exemples  constituée  d’imagettes  préalablement  extraites  de  séquences  vidéos.  Ces 
outils s’appuient sur des algorithmes de type SVM, AdaBoost, et autres algorithmes binaires et multi-
classe, qui assemble et pondère des détecteurs élémentaires correspondant chacun à une primitive 
visuelle simple.  
L’enjeu essentiel du stage sera de concevoir une famille d’algorithmes de recalages et de calibration 
de  modèles  virtuels  calculés  à  partir  d’une  base  d’images  ou  d’un  tronçon  vidéo.  Ces  modèles 
intégreront l’information spatiale de manière robuste (indépendance à l’éclairage, contraste,..), afin 
d’être embarqués dans un même ensemble avec la scène observée. La présence des avatars et leur 
positionnement dans la scène seront estimés au « runtime », par comparaison avec la détection des 
personnes  dans  la  vidéo.  L’information  dynamique  engendrée  par  les  personnes  en  mouvement 
pourrait  être  exploitée,  en  tant  que  source  supplémentaire  d’information  pour  le  générateur  de 
comportement. 
Profil du candidat 
Le  candidat  devra  être  inscrit  dans  un  Master  Recherche  et/ou  diplômé  d'une  grande  école 
d'ingénieur  (de  niveau  assurant  si  nécessaire  l’équivalence  d’un  Master).  Il  devra  par  ailleurs 
obligatoirement : 
• disposer  d’une  expérience  et  d’excellentes  connaissances  en  vision  par  ordinateur  et  en 
traitement d’images ; 
• Avoir de très bonnes compétences en développement informatique (C/C++/Java). 
• Des connaissances dans le domaine de l’apprentissage artificiel. 
 
Candidature : 
Merci  d'adresser  vos  candidatures  à  Fabien  Flacher  (fabien.flacher@thalesgroup.com),  Christophe 
MEYER 
(
christophe.me[email protected]om) et Bogdan Stanciulescu (bogdan.stanciulescu@mines-paristech.fr). Les candidatures devront être accompagnées d'un CV récent et détaillé ainsi que d'une 
lettre de motivation.