Fouille de données multimédia

Téléchargement

ESILV 30/06/2006

M. Crucianu 1

30 juin 2006 ESILV 1

Fouille de données

multimédia

Michel Crucianu

http://cedric.cnam.fr/~crucianm/

30 juin 2006 ESILV 2

Contenu de la séance

Qu’est-ce que la fouille de données ?

Quelles méthodes pour la fouille de données ?

Qu’est-ce que la fouille de données multimédia ?

3 exemples illustratifs

Représentation du contenu multimédia

Description du contenu

Identification de « composantes »

Spécificités de la fouille de données multimédia

Quelles relations entre quelles représentations ?

Malédiction de la dimension (curse of dimensionality)

Accès à de très grands volumes de données

Conclusion

ESILV 30/06/2006

M. Crucianu 2

30 juin 2006 ESILV 3

Fouille de données

«process of nontrivial extraction of implicit, previously unknown and

potentially useful information (such as knowledge rules, constraints,

regularities) from data in databases » (G. Piatetski-Shapiro)

Quelles structures/régularités ?

Globales (→modèles) : domaine = l’ensemble des données

Locales (→motifs, patterns) : domaine = fraction « intéressante » des

données

Quelle approche ?

Exploratoire : découverte à partir des données plutôt qu’estimation ou

test de modèles pré-spécifiés

… mais on ne se limite pas à des étapes de description des

observations, le but ultime est prédictif (décisionnel)

30 juin 2006 ESILV 4

Secteurs d’application de la fouille

Source : http://www.kdnuggets.com, 2005

ESILV 30/06/2006

M. Crucianu 3

30 juin 2006 ESILV 5

Méthodes de fouille de données

Source : http://www.kdnuggets.com, 2005

30 juin 2006 ESILV 6

Exemples de méthodes

Quelques méthodes descriptives

Extraction de règles d’association

Classification automatique : méthode des centres mobiles

Classification ascendante hiérarchique

Une méthode prédictive

Machines à vecteurs support pour la discrimination

ESILV 30/06/2006

M. Crucianu 4

30 juin 2006 ESILV 7

Règles d’association

Recherche de règles du type

« si pour une observation la variable X1 a la valeur vx1 et la

variable X2 la valeur vx2, alors avec une probabilité de 0,9 la

variable Ya la valeur vy »

Caractérisation d’une règle

Support :

Confiance :

Lift :

Critères de sélection des règles

Support et confiance : supérieurs à des seuils (entre 0 et 1)

Lift : nettement supérieur à 1

(

)

( )

(

)

( ) ( )

YPXP

XYP

XYP ∩

(

)

XYP

(

)

XYP ∩

30 juin 2006 ESILV 8

Classification automatique

(cluster analysis, clustering)

Objectif général : répartir un ensemble donné d’individus en

groupes (catégories, classes, taxons, clusters) de façon à

regrouper les individus similaires et à séparer les individus

dissimilaires

Aucune information n’est disponible concernant l’appartenance de

certaines données à certaines classes ; le nombre de groupes

recherchés peut être connu a priori ou non

Utilisations :

Mettre en évidence une structure (simple) dans un ensemble de

données

Résumer un grand ensemble de données par les représentants des

groupes

ESILV 30/06/2006

M. Crucianu 5

30 juin 2006 ESILV 9

Méthode des centres mobiles

Objectif : répartir les nindividus en kgroupes disjoints

(inconnus a priori) en optimisant une fonctionnelle de coût

Données : ensemble de nindividus décrits par pvariables à

valeurs dans

Distance dans (euclidienne usuelle, Mahalanobis, Minkowsky,

etc.) qui définit la nature des (dis)similarités

Fonctionnelle à optimiser ( : centre de gravité du groupe ) :

(= somme inerties intra-classe)

Principe de la méthode : à partir d’une initialisation aléatoire de k

vecteurs , alterner entre une étape de (ré)affectation des

individus aux groupes (à partir de leur distances aux différents )

et une étape de (re)calcul des centres de gravité

EEE ,,, 21 K

( )

∑ ∑

= ∈

jji

dJ 1

ExmxΜ

30 juin 2006 ESILV 10

Centres mobiles : algorithme

Initialisation aléatoire (Ré)affectation des points

Partition finale

Calcul des centres de gravité

1 / 25 100%

Documents connexes

Version Word

0 si x 0 F (x) x si 0 x 1 1 si x 1 ≤ =

titre sur 1 ou 2 lignes maximum

Fiche d`inscription

Informatique (Fouille - Management de Projets Informatiques) (7 ects)

Le Risque de crédit Bancaire – Cours en ligne

La fouille des règles d`association est un processus qui permet de

Jeux de langue

Ecole Supérieure d`Ingénieurs Léonard de Vinci de Projet

Bases De Donnees

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Fouille de données multimédia

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Fouille de données multimédia

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib