Modèles d`indexation multimedia pour la description automatique de

UNIVERSITÉ PARIS VI – PIERRE ET MARIE CURIE
ÉCOLE DOCTORALE EDITE
IRCAM – CENTRE POMPIDOU
COMMISSARIAT À L‘ÉNERGIE ATOMIQUE
THÈSE DE DOCTORAT
spécialité
ACOUSTIQUE, TRAITEMENT DU SIGNAL ET INFORMATIQUE
APPLIQUÉS À LA MUSIQUE
présentée par
BERTRAND DELEZOIDE
pour obtenir le grade de
DOCTEUR de l’UNIVERSITÉ PARIS VI – PIERRE ET MARIE CURIE
Modèles d’indexation multimedia
pour la description automatique
de films de cinéma
soutenue le 24 Avril 2006
devant le jury composé de
Xavier RODET Université Paris VI Directeur de thèse
Christian FLUHR CEA/LIC2M Co-directeur de thèse
Françoise PRÉTEUX INT d’Évry Rapporteuse
François PACHET Sony CSL-Paris Rapporteur
Liming CHEN École Centrale de Lyon Examinateur
Patrick GALLINARI Université Paris VI Examinateur
Marcin DETYNIECKI Université Paris VI Examinateur
Fluctuat nec mergitur.
Résumé
Modèles d’indexation multimedia pour la description automatique
de films de cinéma
Depuis une quinzaine d’année, l’analyse automatique des films de cinéma se focalise sur la descrip-
tion de l’ « histoire » transmise par le support cinématographique. La recherche et l’estimation de cette
information constituent un travail d’indexation de données. Il existe deux types d’information attachés à
un document : la structure et le contenu. L’extraction de la structure d’un film met en évidence l’organisa-
tion temporelle de la narration. La détermination du contenu vise à décrire les caractéristiques physiques
et sémantiques des éléments de la structure. Les premières méthodes d’indexation existantes, fondées sur
l’analyse spatiale et temporelle des caractéristiques numériques du signal image et son fournissent des
résultats satisfaisants pour des modèles d’index assez simples. Mais généralement leurs performances en
termes de temps de calcul et de résultats se dégradent lorsque la structure et le contenu deviennent plus
complexes.
Notre hypothèse suppose que ces méthodes ne prennent suffisamment en compte les relations parti-
culières de dépendance pouvant exister entre les données de l’index (numériques, textuelles, sonores et
visuelles). Nous proposons d’y remédier par la création d’un modèle de structure et de contenu spécifique
au film, fondé sur la fusion de l’information fournie par ces différentes descriptions.
Dans ce travail, nous justifions cette hypothèse par l’étude des informations pertinentes présentes
dans le contenu des films et de leur exploitation par les méthodes existantes de classification et de seg-
mentation. Inspiré par les modèles d’analyse hiérarchique par réseau bayésien (RB) et support vector
machine (SVM), nous construisons ensuite un modèle probabiliste de fusion adapté aux différentes rela-
tions entre descripteurs. Afin de valider notre modèle, nous donnons quelques exemples expérimentaux
de détermination automatique de contenu audio, image et multimedia nécessaires à la description d’un
film. Enfin, nous utilisons la coopération des descriptions ainsi extraites pour la segmentation de la struc-
ture hiérarchique des films.
Mots-clefs : indexation automatique multimedia, segmentation de la structure, extraction automatique
du contenu, fusion des données, films de cinéma
5
1 / 156 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !