Représentation des données pour l`apprentissage supervisé.

publicité
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Représentation des données pour l'apprentissage
supervisé.
Stéphane Lallich et Elie Prudhomme
Laboratoire ERIC
Université Lumière Lyon 2
3èmes Journées thématiques AAFD'08
Apprentissage Articiel & Fouille de Données
mardi 8 et mercredi 9 avril 2008
Université Paris 13, Institut Galilée
S. Lallich, E. Prudhomme
1/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Principe de la représentation des données
Cadre de l'apprentissage supervisé
n exemples
décrits par d descripteurs, X1 , X2 , . . . , Xd
les exemples sont étiquetés par Y , une variable de classe
catégorielle, à p modalités
But
prédire l'étiquette d'un nouvel exemple dont on connaît la
description
S. Lallich, E. Prudhomme
2/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Principe de la représentation des données
Stratégie de représentation
visualisation des proximités issues des descripteurs : graphe de
voisinage, arbres phylogénétiques, analyse factorielle, SOM
visualisation des étiquettes de classe
Intérêt
préparation des données : outliers, sélection de variables
navigation intelligente dans les données, contextualisation
S. Lallich, E. Prudhomme
3/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Graphes de voisinage (1)
Graphe de voisinage
deux exemples voisins au sens des prédicteurs sont reliés par
une arête (graphe connexe et symétrique).
les sommets du graphe sont étiquetés par Y .
Graphe de Toussaint
d (a, b) ≤ max d (a, c ), d (b, c ), ∀c , c 6= a, c 6= b
S. Lallich, E. Prudhomme
4/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Graphes de voisinage (2)
Qualité globale et locale : arêtes coupées
arête coupée : arête qui joint 2 exemples de classe diérente
qualité globale et test de structure : proportion d'arêtes
coupées et p-value
qualité locale et test d'atypicité : proportion d'arêtes coupées
autour de l'exemple i et p −value
S. Lallich, E. Prudhomme
5/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Le laboratoire ERIC et la représentation (1)
Travaux
graphes de voisinage (D. Zighed)
réétiquetage par relaxation (C. Largeron, Y. Amghar)
nombre d'arêtes coupées (M. Sebban)
statistique globale et statistique locale (F. Muhlenbach)
visualisation de données complexes et recherche d'informations
(J. Clech)
structure d'indexation fondée sur les graphes pour manipuler
et interroger les données complexes (H. Hacid)
S. Lallich, E. Prudhomme
6/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Le laboratoire ERIC et la représentation (2)
Produit
représentation des proximités, navigation intelligente,
contextualisation
test de séparabilité (étiquette catégorielle) ou de structure
(étiquette numérique)
détection des outliers, recherche des variables pertinentes
interrogation, recherche d'informations
S. Lallich, E. Prudhomme
7/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Principe de la représentation
Méthodes ensemblistes
Exemple : Graphes de Voisinage
Applications
Le laboratoire ERIC et la représentation
Expérimentations
Nouveaux enjeux
Navigation
Nouveaux enjeux
Un constat : développement des moyens de stockage, de création
automatique ou d'acquisition des données
Des conséquences sur les données
nature des données
complexes, de nature et de source hétérogène,
souvent bruitées
volumétrie
grand nombre d'exemples
grand nombre de variables
étiquetage
étiquetage incomplet
→
S. Lallich, E. Prudhomme
8/36
→ complexité, outliers
→ malédiction, redondance
apprentissage semi-supervisé
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Une nouvelle stratégie de représentation
Conséquence
Un intérêt accru pour la représentation des données !
Une double adaptation est proposée
complexité : substituer les cartes de Kohonen aux graphes de
voisinage
grandes dimensions : recours à un ensemble de cartes de
Kohonen
S. Lallich, E. Prudhomme
9/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Principe de la représentation
Exemple : Graphes de Voisinage
Le laboratoire ERIC et la représentation
Nouveaux enjeux
Sommaire
1
Cartes auto-organisatrices
Présentation
Adaptation à l'apprentissage supervisé
Validation statistique
2
Méthodes ensemblistes
Présentation
Division de l'espace
Agrégation
3
Applications
Données bruitées
Apprentissage semi-supervisé
4
Expérimentations
Comparaison en apprentissage supervisé
Résistance au bruit
En apprentissage semi-supervisé
5
Visualisation et Navigation
S. Lallich, E. Prudhomme
10/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Adaptation à l'apprentissage supervisé
Validation statistique
Navigation
Cartes auto-organisatrices : présentation (1)
Principe (T. Kohonen, 82)
Apprentissage non supervisé
Auto-organisation :
wit +1 = wit + h(t ) × (xj − wit )
S. Lallich, E. Prudhomme
11/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Adaptation à l'apprentissage supervisé
Validation statistique
Navigation
Cartes auto-organisatrices : présentation (2)
Résultats
Projection non linéaire de l'espace des entrées
Les neurones représentent des parties de l'espace
Avantages
Conservation de la topologie locale
Représentation des données
Complexité linéaire sur les exemples et les prédicteurs
S. Lallich, E. Prudhomme
12/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Adaptation à l'apprentissage supervisé
Validation statistique
Navigation
Cartes auto-organisatrices : apprentissage supervisé (1)
Solutions
LVQ (Kohonen, 88), LASSO (Midenent & al, 94).
Kohonen-Opt issu de Kohonen-KNN (Zupan & al, 94).
Indépendance entre la position des neurones et leur étiquette.
Principe de Kohonen-Opt
Apprentissage non supervisé
Étiquetage de la carte
Prédiction
S. Lallich, E. Prudhomme
13/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Adaptation à l'apprentissage supervisé
Validation statistique
Navigation
Cartes auto-organisatrices : apprentissage supervisé (2)
Processus :
S. Lallich, E. Prudhomme
14/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Adaptation à l'apprentissage supervisé
Validation statistique
Navigation
Validation : statistique d'auto-corrélation spatiale
Test d'indépendance
proximité dans l'espace de représentation W
proximité au sens des classes U
Statistique cross-product J = WU , corrélée avec le taux d'erreur en
généralisation
S. Lallich, E. Prudhomme
15/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Division de l'espace
Agrégation
Navigation
Méthodes ensemblistes : présentation
Agrégation de classieurs faibles
Améliorer l'apprentissage
S. Lallich, E. Prudhomme
16/36
1. Boosting, Bagging, ...
2. Random Forest, ...
3. Error Coding Output Code.
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Division de l'espace
Agrégation
Navigation
Méthodes ensemblistes : exemple introductif
Jury de Condorcet
S. Lallich, E. Prudhomme
17/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Division de l'espace
Agrégation
Navigation
Diversité : régression
Diversité entre 2 classieurs
Commettre des erreurs sur des régions diérentes de l'espace
Diversité participe à performance (Brown et al, 2005)
Pas de corrélation nette diversité / T.E.
En régression (Krogh and Vedelsby, 1995)
1X k
1X
2
2
2
¯
E
= (f − r ) =
K
k
(f − r ) −
K
k
(f k − f¯)2
2
biais + var et var et covar
Ambiguïté : moyenne des écarts à la moyenne des prédictions
S. Lallich, E. Prudhomme
18/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Division de l'espace
Agrégation
Navigation
Diversité : classication
Modèle de Zanda et al, 2007
Régression : Pi − Pj = Pij → cible et fi − fj = fij → estimateur
1X k
1X¯
2
2
k 2
Z̄ = (fij − Pij )
=
K
k
(fij − Pij ) −
K
k
(fij − fij )
,→ 1 composante d'erreur sur chaque carte
,→ 1 composante d'ambiguité entre les cartes
S. Lallich, E. Prudhomme
19/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Division de l'espace
Agrégation
Navigation
Division de l'espace
Solutions proposées
Non supervisé : clustering des prédicteurs
7−→ Apprentissage semi-supervisé
Supervisé : optimisation de Z
7−→ Performance
1
2
S. Lallich, E. Prudhomme
20/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Division de l'espace
Agrégation
Navigation
Non supervisé : clustering des variables
S. Lallich, E. Prudhomme
21/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Présentation
Division de l'espace
Agrégation
Navigation
Agrégation
Vote majoritaire
Vote pondéré
S. Lallich, E. Prudhomme
22/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Données bruitées
Apprentissage Semi-Supervisé
Navigation
Application aux données bruitées
Avantages :
La classe n'est pas utilisée pour construire l'ensemble de cartes
Correction au niveau des neurones.
Correction au niveau de l'ensemble.
S. Lallich, E. Prudhomme
23/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Données bruitées
Apprentissage Semi-Supervisé
Navigation
Application à l'apprentissage semi-supervisé (1)
Présentation
Jeu de données partiellement étiqueté
Comment proter des exemples non-étiquetés ?
Idée : 2 étapes
Transduction : obtenir des données totalement étiquetées.
Apprentissage supervisé (bruité) par ensemble de cartes.
1
2
S. Lallich, E. Prudhomme
24/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Données bruitées
Apprentissage Semi-Supervisé
Navigation
Application à l'apprentissage semi-supervisé (2)
Etape 1 : transduction
Varclus pour obtenir 2 cartes
Co-training (Blum et Mitchell, 1998) : transfert des
connaissances
⇒ Jeu de données étiquetées mais bruitées
Etape 2 : apprentissage supervisé
k cartes par dégroupage des clusters de Varclus
Prédiction à l'aide de l'ensemble de cartes.
S. Lallich, E. Prudhomme
25/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Thèmes traités
Apprentissage supervisé.
Résistance au bruit.
Semi-supervisé.
Même paramétrage basique
Prétraitement : normalisation de Milligan et Cooper.
Cartes : taille de 20 × 20, ∼ 10000 cycles, décroissance
linéaire de α et du voisinage.
S. Lallich, E. Prudhomme
26/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Données
Jeux de données
Intitulé
(1) Ionosphère
(2) Spambase
(3) Multi-features (a)
(4) Multi-features (b)
S. Lallich, E. Prudhomme
Prédicteurs Classes Exemples
34
54
76
216
27/36
2
2
10
10
351
5000
2000
2000
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Résultats comparatifs
Comparaisons de méthodes
Ensemble de cartes compétitif
Jeu (3) : eondrement du boosting
S. Lallich, E. Prudhomme
28/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Données Spambase
Spambase
54 attributs, 2 classes (∼ 60/40), 5000 exemples
Ajout jusqu'à 50% de bruit sur la classe
Répartition uniforme
Utilisation de la stratégie ensemble de cartes (Varclus + vote
majoritaire)
S. Lallich, E. Prudhomme
29/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Résultat
Impact du bruit très faible tant que le niveau de bruit n'a pas
trop rapproché les probabilités des classes.
S. Lallich, E. Prudhomme
30/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Apprentissage semi supervisé
Données de Chapelle & al, 2006
5 jeux de données
10 ou 100 exemples étiquetés choisis par Chapelle
Résultats existant pour 11 autres méthodes
Modication des paramètres
Cartes : taille de 10 × 10 pour 100 exemples étiquetés et 6 × 6
pour 10
Utilisation de la stratégie ensemble de cartes (Varclus + vote
majoritaire)
S. Lallich, E. Prudhomme
31/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Résultats (100 exemples étiquetés)
S. Lallich, E. Prudhomme
32/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Généralités
Apprentissage supervisé
Résistance au bruit
Semi supervisé
Résultats (10 exemples étiquetés)
S. Lallich, E. Prudhomme
33/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Visualisation
Stacking géographique : carte des cartes
S. Lallich, E. Prudhomme
34/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Navigation
Intéressant pour données images/textuelles
S. Lallich, E. Prudhomme
35/36
Représentation des données pour l'apprentissage supervisé.
Cartes auto-organisatrices
Méthodes ensemblistes
Applications
Expérimentations
Navigation
Conclusion et perspectives
Stratégie globale pour l'apprentissage sup. de données volumineuses
cartes de Kohonen : volumétrie des exemples, navigation
approche ensembliste : dimensionnalité, performance
Des premiers résultats prometteurs
bruit sur la classe
apprentissage semi-supervisé
Perspectives
expérimentales : validation rigoureuse
utilisateurs : stratégie d'étiquetage
théoriques : améliorer le contrôle de la diversité des cartes
S. Lallich, E. Prudhomme
36/36
Représentation des données pour l'apprentissage supervisé.
Téléchargement