- 3 -
Résumé
Les humains ont une aptitude remarquable de classifier les signaux sonores en des classes:
musique, parole, applaudissement, explosion, etc. Face à une profusion de documents
multimédias, nous proposons dans cette thèse de développer des approches de classification
du contenu d’un signal sonore en s’inspirant de principes de la perception auditive humaine.
Une classification sonore peut jouer un rôle important dans des applications riches et variés,
allant de l'indexation de documents audiovisuels à la pige des émissions audio et vidéo afin
d'une meilleur protection du droit d'auteur et du respect du pluralisme sur les antennes radio
et TV.
Compte tenu de la diversité des besoins de ces applications potentielles en classification
sonore, notre objectif est de proposer une approche généraliste de classification sonore qui
peut facilement s'adapter aux classes qu'un utilisateur peut définir en fonction de son
application particulière. Une approche généraliste de classification sonore qui pourrait être
considérée comme une alternative intéressante des approches existantes a été proposée dans
ce travail. L’approche proposée s’appuie sur un modèle de mémoire à court terme,
Modélisation Gaussienne Incrémentale (MGI) d’inspiration psychoacoustique. Le modèle
MGI couplé avec un classificateur basé sur les réseaux de neurones a été expérimenté sur
quatre problèmes classiques de classification sonore : la classification en musique/parole,
homme/femme, action/non - action, et la reconnaissance du genre de la musique. Les
précisions de classification du classificateur sonore basé sur la MGI ont pu être améliorés par
l’utilisation d’une approche multi-experts basée sur le principe de fusion de données.
Deux applications ont été développées dans le cadre de cette thèse. La première concerne la
structuration d'une vidéo en scènes sonores en vue de faciliter la recherche et la navigation au
sein de celle-ci, conduisant à un prototype vAudioBrowser. La deuxième application s'est
inscrite dans le cadre du projet RNRT Cyrano pour une distribution personnalisée de vidéos
sur l'Internet. Elle consiste en la réalisation d'un indexeur sonore automatique, Cyndi, qui
permet la segmentation d'une bande sonore en musique/parole, la transcription d'un segment
de parole en mots clés et la recherche de titres musicaux similaires à un segment de musique.
Mots-clés:
Indexation sonore, classification sonore, recherche par le contenu sonore, macro-
segmentation de la vidéo, multi-experts