Un modèle pour la représentation et la caractérisation de données

publicité
4ème atelier sur la Fouille de données complexes
dans un processus d'extraction des connaissancesv
Un modèle pour la représentation et la
caractérisation de données musicales
Auteurs:
M. Naccache, M. Amel Borgi, Pr Khaled Ghédira
Stratégies d’Optimisation des Informations et de la connaissancE
23/01/2007
1
Plan
• Problématique
• Démarche proposée : reconnaissance de formes
• Représentation des données musicales
• Mise en œuvre de l’apprentissage artificiel
• Mode expérimental
• Conclusion
23/01/2007
Fouille de données complexes
2
Problématique : caractérisation des données musicales
ƒ Objectif : découverte automatique des facteurs qui font que
l’être humain arrive à se faire une certaine idée d’une mélodie
donnée et la classer avec d’autres
(méta-données, CAO, analyse…)
ƒ expertise humaine : seule connaissance a priori. Pas de prise en
considération (représentation/algo) du critère de classification
Îles exemples : contiennent les connaissances qu’il faudra
exploiter
Î les exemples étiquetés reflètent une certaine expérience
d’écoute
23/01/2007
Fouille de données complexes
3
Problématique
ƒ modèle proposé : un cadre générique pour la classification
des données musicales dans un processus de reconnaissance
de formes
™ représentation des données : description exhaustive,
minimiser la perte d’informations
(caractéristiques retenues, manière de les structurer)
™ apprentissage artificiel : utilisation des algorithmes usuels
23/01/2007
Fouille de données complexes
4
Reconnaissance de formes
pistes mélodiques
χ
espace de représentation R
espace de mesure
(exemples classés par l’expert)
représentation
pré-traitement
ensemble
des classes
φ construite par
un algorithme
d’AA
espace de décision
fichiers Midi
23/01/2007
Fouille de données complexes
5
Représentation des données musicales : les données
ƒ une observation = séquence musicale, suite d’évènements
hauteur
début
durée
23/01/2007
Fouille de données complexes
6
Représentation des données musicales : structure
ƒ littérature :
- attributs MIDI (instruments, métronome …)
- description à l’aide d’estimateurs statistiques
- information sous forme de distributions
- représentations liées aux algorithmes (chaînes de
markov, dictionnaires de motifs, grammaires…)
Îreprésentation sous forme d’histogrammes:
- vue générale sur les séquences
- la perception auditive est sensible à la distribution des
notes
- conservation des objets musicaux ( moins de perte )
?? Difficulté liée à l’espace de représentation ??
23/01/2007
Fouille de données complexes
7
Représentation des données musicales : caractéristiques
ƒ hauteurs de notes
ƒ intervalles de hauteurs entre les notes consécutives
ƒ direction mélodique
ƒ durées des notes
ƒ durées des silences significatifs
ƒ durées séparant les onsets
ƒ…
23/01/2007
Fouille de données complexes
8
Représentation des données musicales : exemple
attribut :
hauteurs des notes
4
3
1
do do# ré ré# mi fa fa# sol sol# la la# si
attribut :
Intervalles de hauteurs entre
les notes consécutives
7
5
3
2
1
0
1
2
3
4
5
6
7
8 9 10 11 12
Intervalles en demi tons
23/01/2007
Fouille de données complexes
9
Mise en œuvre de l’Apprentissage Artificiel
ƒ les algorithmes d’apprentissage usuels opèrent sur des
attributs numériques ou symboliques.
ƒ la représentation en histogrammes pose alors problème
ƒ domaines des attributs ??
ƒ solution proposée : faire émerger les domaines des attributs à
partir des données d’apprentissage
Î partitionner l’espace de représentation de chaque
attribut. Ainsi chaque cluster devient une modalité
23/01/2007
Fouille de données complexes
10
Mise en œuvre de l’AA : domaines des attributs
clustering (E-M)
G3i
G1i
T
valeurs de Di présentes dans
l’ensemble d’apprentissage
23/01/2007
G4i
G2i
D’i
Fouille de données complexes
11
Mise en œuvre de l’AA : domaines des attributs
pistes mélodiques
χ
espace de mesure
(exemples classés par l’expert)
espace de représentation R
T
pré-traitement
ensemble
des classes
fichiers Midi
23/01/2007
φ construite par
un algorithme
d’AA
Nouvel espace de
représentation R’
Fouille de données complexes
12
Mode expérimental
ƒ trois classifieurs avec des critères indépendants
- genre musical (classique/jazz)
- contenu émotionnel (triste/joyeux)
- style de composition
ƒ constitution de trois corpus supervisés distincts
ƒ évaluation à l’aide de l’expertise humaine
23/01/2007
Fouille de données complexes
13
Conclusion
ƒ problématique Î caractérisation des données musicales
ƒ représentation des données:
- structure en histogrammes
- identification des propriétés mélodiques
ƒ problème lié à la complexité des données ainsi représentées
Î transformation de l’espace de représentation
(clustering)
ƒ perspective immédiate : implémentation et validation
23/01/2007
Fouille de données complexes
14
Merci
23/01/2007
Fouille de données complexes
15
Téléchargement