La géométrie de l’information pour l’analyse et le traitement des flux audio
5e Journées Jeunes Chercheurs en Audition, Acoustique musicale et Signal audio (JJCAAS 2009)
Arnaud Dessein
IRCAM
1, place Igor Stravinsky
75004 Paris
Page web : http://imtr.ircam.fr/index.php/Arnaud_Dessein
Introduction
ÞObjectifs :
ÞEtudier la géométrie intrinsèque des flux audio.
ÞPrendre en compte leurs natures temporelle et probabiliste.
ÞDéfinir des structures d’analyse et de traitement alternatives.
ÞCadre de travail :
ÞLa géométrie de l’information (Cramer, Rao, Chentsov, Amari, etc.).
ÞProbabilités et information vues par la géométrie différentielle.
ÞEspaces où chaque point est une distribution de probabilités représen-
tant une trame du flux audio.
ÞMotivations :
ÞAnalyse des contenus audio.
ÞAnalyse, transformation, synthèse des sons.
ÞAide à la composition et à l’analyse musicale.
ÞImprovisation assistée par ordinateur.
Géométrie différentielle élémentaire
ÞVariété topologique :
ÞUne variété topologique est un espace localement semblable à Rn.
ÞLe couple (U,φ)est une carte locale de M.
ÞUne famille de cartes locales recouvrant Mest un atlas de M.
FIGURE 1 – Variété topologique et carte locale.
ÞVariété différentiable :
ÞUne variété différentiable est une variété topologique possédant un at-
las tel que les changements de coordonnées entre deux cartes locales
s’intersectant sont différentiables.
ÞLespace tangent au point p M est une linéarisation de Men p.
FIGURE 2 – Variété différentiable et espace tangent.
ÞVariété riemannienne :
ÞSous certaines conditions, on peut munir les espaces tangents de pro-
duits scalaires qui forment une métrique riemannienne.
ÞUne variété riemannienne est une variété différentiable munie d’une
métrique riemannienne.
ÞLes structures engendrées par les espaces tangents et la métrique rie-
mannienne sont locales et donnent accès à la notion de longueur d’une
courbe.
ÞOn peut munir une variété riemannienne d’une connexion affine qui
relie ces structures locales et donne accès aux notions de torsion, de
courbure et de géodésique.
FIGURE 3 – Variété riemannienne et connexion affine.
Structure géométrique des modèles statistiques
ÞModèles statistiques :
ÞUn modèle statistique est une famille de distributions de probabilités
S=pξ=p(x;ξ):ξ= [ξ1, . . . , ξn]Ξ
ÞSous certaines conditions, Sest une variété différentiable alors appe-
lée variété statistique.
ÞExemple : Sest la variété statistique des distributions normales
p(x;ξ) = 1
2πσ exp ((xµ)2
2σ2)avec ξ= [µ,σ]
ÞMétrique d’information de Fisher :
ÞLa matrice d’information de Fisher de Sen ξest la matrice G(ξ)telle que
gij(ξ) = Z
ξi
log p(x;ξ)·
ξj
log p(x;ξ)·p(x;ξ)·dx
ÞSous certaines conditions, G(ξ)engendre l’unique métrique rieman-
nienne gsur S,gest alors appelée la métrique d’information de Fisher.
ÞConnexions affines alpha :
ÞIl existe une famille de connexions affines {(α)}αsur (S,g). Cette fa-
mille est paramétrable par αRet est unique. On appelle les {(α)}α
les connexions affines α.
ÞLes connexions (α)et (α)sont des connexions affines duales par rap-
port à g. La connexion duale d’une connexion est notée ?.
ÞDivergences :
ÞUne divergence sur Sest une distance généralisée D:S ×S Rtelle
que pour tous p,q∈ S,ona:D(pkq)>0, et D(pkq) = 0 ssi p=q.
ÞLa divergence duale d’une divergence Dest la divergence D?définie
par D?(pkq) = D(qkp)pour tous p,q.
ÞLes notions de connexions duales ,?et de divergences duales D,D?
sont étroitement liées et permettent de définir la notion de similarité.
Exemple applicatif
ÞOracle audio :
ÞThèse d’Arshia Cont, article IEEE TASLP en cours de révision.
ÞAutomate pour la segmentation et l’apprentissage de structures.
ÞSimilarité entre états par la géométrie de l’information de (S,g,,?).
ÞDétection incrémentale des répétitions et dépendances long-terme.
ÞApplication :
ÞModélisation du contenu spectral par une distribution multinomiale.
ÞDécouverte de la structure du flux audio en temps-réel.
ÞAccès direct aux répétitions grâce à l’apprentissage par automate.
ÞReprésentation parcimonieuse par une matrice de similarité.
FIGURE 4 – Analyse d’un extrait de la Sonate pour piano no1de Beethoven.
Structure subjective sur la forme d’onde (en haut). Matrices de similarité
classique (en bas à gauche) et avec l’oracle audio (en bas à droite).
ÞRessources supplémentaires :
Þhttp://imtr.ircam.fr/index.php/Music_Information_Geometry
Þhttp://imtr.ircam.fr/index.php/Audio_Oracle
1 / 1 100%