ESILV 30/06/2006
M. Crucianu 1
30 juin 2006 ESILV 1
Fouille de données
multimédia
Michel Crucianu
http://cedric.cnam.fr/~crucianm/
30 juin 2006 ESILV 2
Contenu de la séance
Qu’est-ce que la fouille de données ?
Quelles méthodes pour la fouille de données ?
Qu’est-ce que la fouille de données multimédia ?
3 exemples illustratifs
Représentation du contenu multimédia
Description du contenu
Identification de « composantes »
Spécificités de la fouille de données multimédia
Quelles relations entre quelles représentations ?
Malédiction de la dimension (curse of dimensionality)
Accès à de très grands volumes de données
Conclusion
ESILV 30/06/2006
M. Crucianu 2
30 juin 2006 ESILV 3
Fouille de données
«process of nontrivial extraction of implicit, previously unknown and
potentially useful information (such as knowledge rules, constraints,
regularities) from data in databases » (G. Piatetski-Shapiro)
Quelles structures/régularités ?
Globales (modèles) : domaine = l’ensemble des données
Locales (motifs, patterns) : domaine = fraction « intéressante » des
données
Quelle approche ?
Exploratoire : découverte à partir des données plutôt qu’estimation ou
test de modèles pré-spécifiés
… mais on ne se limite pas à des étapes de description des
observations, le but ultime est prédictif (décisionnel)
30 juin 2006 ESILV 4
Secteurs d’application de la fouille
Source : http://www.kdnuggets.com, 2005
ESILV 30/06/2006
M. Crucianu 3
30 juin 2006 ESILV 5
Méthodes de fouille de données
Source : http://www.kdnuggets.com, 2005
30 juin 2006 ESILV 6
Exemples dethodes
Quelques méthodes descriptives
Extraction de règles d’association
Classification automatique : méthode des centres mobiles
Classification ascendante hiérarchique
Une méthode prédictive
Machines à vecteurs support pour la discrimination
ESILV 30/06/2006
M. Crucianu 4
30 juin 2006 ESILV 7
Règles d’association
Recherche de règles du type
« si pour une observation la variable X1 a la valeur vx1 et la
variable X2 la valeur vx2, alors avec une probabilité de 0,9 la
variable Ya la valeur vy »
Caractérisation d’une règle
Support :
Confiance :
Lift :
Critères de sélection des règles
Support et confiance : supérieurs à des seuils (entre 0 et 1)
Lift : nettement supérieur à 1
(
)
( )
(
)
( ) ( )
YPXP
XYP
YP
XYP
=
(
)
XYP
(
)
XYP
30 juin 2006 ESILV 8
Classification automatique
(cluster analysis, clustering)
Objectif général : répartir un ensemble donné d’individus en
groupes (catégories, classes, taxons, clusters) de façon à
regrouper les individus similaires et à séparer les individus
dissimilaires
Aucune information n’est disponible concernant l’appartenance de
certaines données à certaines classes ; le nombre de groupes
recherchés peut être connu a priori ou non
Utilisations :
Mettre en évidence une structure (simple) dans un ensemble de
données
Résumer un grand ensemble de données par les représentants des
groupes
ESILV 30/06/2006
M. Crucianu 5
30 juin 2006 ESILV 9
Méthode des centres mobiles
Objectif : répartir les nindividus en kgroupes disjoints
(inconnus a priori) en optimisant une fonctionnelle de coût
Données : ensemble de nindividus décrits par pvariables à
valeurs dans
Distance dans (euclidienne usuelle, Mahalanobis, Minkowsky,
etc.) qui définit la nature des (dis)similarités
Fonctionnelle à optimiser ( : centre de gravité du groupe ) :
(= somme inerties intra-classe)
Principe de la méthode : à partir d’une initialisation aléatoire de k
vecteurs , alterner entre une étape de (ré)affectation des
individus aux groupes (à partir de leur distances aux différents )
et une étape de (re)calcul des centres de gravité
k
EEE ,,, 21 K
E
( )
( )
∑ ∑
= ∈
=k
jji
ji
dJ 1
2,
ExmxΜ
R
p
R
j
mj
E
j
m
j
m
30 juin 2006 ESILV 10
Centres mobiles : algorithme
Initialisation aléatoire (Ré)affectation des points
Partition finale
Calcul des centres de gravité
1 / 25 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !