4ème atelier sur la Fouille de données complexes dans un processus d'extraction des connaissancesv Un modèle pour la représentation et la caractérisation de données musicales Auteurs: M. Naccache, M. Amel Borgi, Pr Khaled Ghédira Stratégies d’Optimisation des Informations et de la connaissancE 23/01/2007 1 Plan • Problématique • Démarche proposée : reconnaissance de formes • Représentation des données musicales • Mise en œuvre de l’apprentissage artificiel • Mode expérimental • Conclusion 23/01/2007 Fouille de données complexes 2 Problématique : caractérisation des données musicales Objectif : découverte automatique des facteurs qui font que l’être humain arrive à se faire une certaine idée d’une mélodie donnée et la classer avec d’autres (méta-données, CAO, analyse…) expertise humaine : seule connaissance a priori. Pas de prise en considération (représentation/algo) du critère de classification Îles exemples : contiennent les connaissances qu’il faudra exploiter Î les exemples étiquetés reflètent une certaine expérience d’écoute 23/01/2007 Fouille de données complexes 3 Problématique modèle proposé : un cadre générique pour la classification des données musicales dans un processus de reconnaissance de formes représentation des données : description exhaustive, minimiser la perte d’informations (caractéristiques retenues, manière de les structurer) apprentissage artificiel : utilisation des algorithmes usuels 23/01/2007 Fouille de données complexes 4 Reconnaissance de formes pistes mélodiques χ espace de représentation R espace de mesure (exemples classés par l’expert) représentation pré-traitement ensemble des classes φ construite par un algorithme d’AA espace de décision fichiers Midi 23/01/2007 Fouille de données complexes 5 Représentation des données musicales : les données une observation = séquence musicale, suite d’évènements hauteur début durée 23/01/2007 Fouille de données complexes 6 Représentation des données musicales : structure littérature : - attributs MIDI (instruments, métronome …) - description à l’aide d’estimateurs statistiques - information sous forme de distributions - représentations liées aux algorithmes (chaînes de markov, dictionnaires de motifs, grammaires…) Îreprésentation sous forme d’histogrammes: - vue générale sur les séquences - la perception auditive est sensible à la distribution des notes - conservation des objets musicaux ( moins de perte ) ?? Difficulté liée à l’espace de représentation ?? 23/01/2007 Fouille de données complexes 7 Représentation des données musicales : caractéristiques hauteurs de notes intervalles de hauteurs entre les notes consécutives direction mélodique durées des notes durées des silences significatifs durées séparant les onsets … 23/01/2007 Fouille de données complexes 8 Représentation des données musicales : exemple attribut : hauteurs des notes 4 3 1 do do# ré ré# mi fa fa# sol sol# la la# si attribut : Intervalles de hauteurs entre les notes consécutives 7 5 3 2 1 0 1 2 3 4 5 6 7 8 9 10 11 12 Intervalles en demi tons 23/01/2007 Fouille de données complexes 9 Mise en œuvre de l’Apprentissage Artificiel les algorithmes d’apprentissage usuels opèrent sur des attributs numériques ou symboliques. la représentation en histogrammes pose alors problème domaines des attributs ?? solution proposée : faire émerger les domaines des attributs à partir des données d’apprentissage Î partitionner l’espace de représentation de chaque attribut. Ainsi chaque cluster devient une modalité 23/01/2007 Fouille de données complexes 10 Mise en œuvre de l’AA : domaines des attributs clustering (E-M) G3i G1i T valeurs de Di présentes dans l’ensemble d’apprentissage 23/01/2007 G4i G2i D’i Fouille de données complexes 11 Mise en œuvre de l’AA : domaines des attributs pistes mélodiques χ espace de mesure (exemples classés par l’expert) espace de représentation R T pré-traitement ensemble des classes fichiers Midi 23/01/2007 φ construite par un algorithme d’AA Nouvel espace de représentation R’ Fouille de données complexes 12 Mode expérimental trois classifieurs avec des critères indépendants - genre musical (classique/jazz) - contenu émotionnel (triste/joyeux) - style de composition constitution de trois corpus supervisés distincts évaluation à l’aide de l’expertise humaine 23/01/2007 Fouille de données complexes 13 Conclusion problématique Î caractérisation des données musicales représentation des données: - structure en histogrammes - identification des propriétés mélodiques problème lié à la complexité des données ainsi représentées Î transformation de l’espace de représentation (clustering) perspective immédiate : implémentation et validation 23/01/2007 Fouille de données complexes 14 Merci 23/01/2007 Fouille de données complexes 15