- 1 -
Classification du signal sonore en vue
d’une indexation par le contenu des
documents multimédias
Manuscrit de thèse par
Hadi Harb
Thèse sous la supervision de
Prof. Liming Chen, Lab. LIRIS, Ecole Centrale de Lyon
- 2 -
- 3 -
Résumé
Les humains ont une aptitude remarquable de classifier les signaux sonores en des classes:
musique, parole, applaudissement, explosion, etc. Face à une profusion de documents
multimédias, nous proposons dans cette thèse de développer des approches de classification
du contenu d’un signal sonore en s’inspirant de principes de la perception auditive humaine.
Une classification sonore peut jouer un rôle important dans des applications riches et variés,
allant de l'indexation de documents audiovisuels à la pige des émissions audio et vidéo afin
d'une meilleur protection du droit d'auteur et du respect du pluralisme sur les antennes radio
et TV.
Compte tenu de la diversité des besoins de ces applications potentielles en classification
sonore, notre objectif est de proposer une approche généraliste de classification sonore qui
peut facilement s'adapter aux classes qu'un utilisateur peut définir en fonction de son
application particulière. Une approche généraliste de classification sonore qui pourrait être
considérée comme une alternative intéressante des approches existantes a été proposée dans
ce travail. L’approche proposée s’appuie sur un modèle de mémoire à court terme,
Modélisation Gaussienne Incrémentale (MGI) d’inspiration psychoacoustique. Le modèle
MGI couplé avec un classificateur basé sur les réseaux de neurones a été expérimenté sur
quatre problèmes classiques de classification sonore : la classification en musique/parole,
homme/femme, action/non - action, et la reconnaissance du genre de la musique. Les
précisions de classification du classificateur sonore basé sur la MGI ont pu être améliorés par
l’utilisation d’une approche multi-experts basée sur le principe de fusion de données.
Deux applications ont été développées dans le cadre de cette thèse. La première concerne la
structuration d'une vidéo en scènes sonores en vue de faciliter la recherche et la navigation au
sein de celle-ci, conduisant à un prototype vAudioBrowser. La deuxième application s'est
inscrite dans le cadre du projet RNRT Cyrano pour une distribution personnalisée de vidéos
sur l'Internet. Elle consiste en la réalisation d'un indexeur sonore automatique, Cyndi, qui
permet la segmentation d'une bande sonore en musique/parole, la transcription d'un segment
de parole en mots clés et la recherche de titres musicaux similaires à un segment de musique.
Mots-clés:
Indexation sonore, classification sonore, recherche par le contenu sonore, macro-
segmentation de la vidéo, multi-experts
- 4 -
Remerciements
Le travail de recherche, comme tout autre travail, nécessite de la motivation pour être
accomplie d’une manière optimale. Pendant mes années de thèse j’ai été motivé, et ce comme
conséquence du compromis entre responsabilités, liberté, et confiance que Liming Chen
veille à donner aux doctorants de cette jolie équipe de recherche qu’il dirige, LIM.
Le travail de recherche n’exclut pas des moments difficiles pour des raisons psychologiques,
sociales, administratives, techniques, et autre. Je tiens à remercier celles et ceux qui ont veillé
à que ces moments difficiles soient les plus courts grâce à leur écoute, encouragement,
affection, et aide.
- 5 -
1 / 203 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !