poster - IMTR

publicité
La géométrie de l’information pour l’analyse et le traitement des flux audio
5e Journées Jeunes Chercheurs en Audition, Acoustique musicale et Signal audio (JJCAAS 2009)
Arnaud Dessein
IRCAM
1, place Igor Stravinsky
75004 Paris
Courriel : [email protected]
Page web : http://imtr.ircam.fr/index.php/Arnaud_Dessein
Introduction
Structure géométrique des modèles statistiques
Þ Objectifs :
Þ Modèles statistiques :
Þ Etudier la géométrie intrinsèque des flux audio.
Þ Prendre en compte leurs natures temporelle et probabiliste.
Þ Définir des structures d’analyse et de traitement alternatives.
Þ Cadre de travail :
Þ La géométrie de l’information (Cramer, Rao, Chentsov, Amari, etc.).
Þ Probabilités et information vues par la géométrie différentielle.
Þ Espaces où chaque point est une distribution de probabilités représentant une trame du flux audio.
Þ Motivations :
Þ
Þ
Þ
Þ
Analyse des contenus audio.
Analyse, transformation, synthèse des sons.
Aide à la composition et à l’analyse musicale.
Improvisation assistée par ordinateur.
Géométrie différentielle élémentaire
Þ Variété topologique :
n
Une
variété
topologique
est
un
espace
localement
semblable
à
R
.
Þ
Þ Le couple (U, φ) est une carte locale de M.
Þ Une famille de cartes locales recouvrant M est un atlas de M.
Þ Un modèle statistique est une famille de distributions de probabilités
1
n
S = pξ = p( x; ξ ) : ξ = [ξ , . . . , ξ ] ∈ Ξ
Þ Sous certaines conditions, S est une variété différentiable alors appelée variété statistique.
Þ Exemple : S est la variété statistique des distributions normales
(
)
2
( x − µ)
1
p( x; ξ ) = √
exp −
avec ξ = [µ, σ ]
2
2σ
2πσ
Þ Métrique d’information de Fisher :
Þ La matrice d’information de Fisher de S en ξ est la matrice G (ξ ) telle que
gij (ξ ) =
Z
∂
∂
log p( x; ξ ) ·
log p( x; ξ ) · p( x; ξ ) · dx
∂ξ i
∂ξ j
Þ Sous certaines conditions, G (ξ ) engendre l’unique métrique riemannienne g sur S , g est alors appelée la métrique d’information de Fisher.
Þ Connexions affines alpha :
Þ Il existe une famille de connexions affines {∇(α) }α sur (S , g). Cette fa(α)
mille est paramétrable par α ∈ R et est unique. On appelle les {∇ }α
les connexions affines α.
Þ Les connexions ∇(α) et ∇(−α) sont des connexions affines duales par rapport à g. La connexion duale d’une connexion ∇ est notée ∇?.
Þ Divergences :
F IGURE 1 – Variété topologique et carte locale.
Þ Variété différentiable :
Þ Une variété différentiable est une variété topologique possédant un atlas tel que les changements de coordonnées entre deux cartes locales
s’intersectant sont différentiables.
Þ L’espace tangent au point p ∈ M est une linéarisation de M en p.
Þ Une divergence sur S est une distance généralisée D : S × S → R telle
que pour tous p, q ∈ S , on a : D( p k q) > 0, et D( p k q) = 0 ssi p = q.
Þ La divergence duale d’une divergence D est la divergence D ? définie
par D ? ( p k q) = D(q k p) pour tous p, q.
?
?
Les
notions
de
connexions
duales
∇
,
∇
et
de
divergences
duales
D
,
D
Þ
sont étroitement liées et permettent de définir la notion de similarité.
Exemple applicatif
Þ Oracle audio :
Þ
Þ
Þ
Þ
Thèse d’Arshia Cont, article IEEE TASLP en cours de révision.
Automate pour la segmentation et l’apprentissage de structures.
Similarité entre états par la géométrie de l’information de (S , g, ∇, ∇? ).
Détection incrémentale des répétitions et dépendances long-terme.
Þ Application :
F IGURE 2 – Variété différentiable et espace tangent.
Þ
Þ
Þ
Þ
Modélisation du contenu spectral par une distribution multinomiale.
Découverte de la structure du flux audio en temps-réel.
Accès direct aux répétitions grâce à l’apprentissage par automate.
Représentation parcimonieuse par une matrice de similarité.
Þ Variété riemannienne :
Þ Sous certaines conditions, on peut munir les espaces tangents de produits scalaires qui forment une métrique riemannienne.
Þ Une variété riemannienne est une variété différentiable munie d’une
métrique riemannienne.
Þ Les structures engendrées par les espaces tangents et la métrique riemannienne sont locales et donnent accès à la notion de longueur d’une
courbe.
Þ On peut munir une variété riemannienne d’une connexion affine qui
relie ces structures locales et donne accès aux notions de torsion, de
courbure et de géodésique.
F IGURE 4 – Analyse d’un extrait de la Sonate pour piano no1 de Beethoven.
Structure subjective sur la forme d’onde (en haut). Matrices de similarité
classique (en bas à gauche) et avec l’oracle audio (en bas à droite).
Þ Ressources supplémentaires :
F IGURE 3 – Variété riemannienne et connexion affine.
Þ http://imtr.ircam.fr/index.php/Music_Information_Geometry
Þ http://imtr.ircam.fr/index.php/Audio_Oracle
Téléchargement