Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Représentation des données pour l'apprentissage supervisé. Stéphane Lallich et Elie Prudhomme Laboratoire ERIC Université Lumière Lyon 2 3èmes Journées thématiques AAFD'08 Apprentissage Articiel & Fouille de Données mardi 8 et mercredi 9 avril 2008 Université Paris 13, Institut Galilée S. Lallich, E. Prudhomme 1/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Principe de la représentation des données Cadre de l'apprentissage supervisé n exemples décrits par d descripteurs, X1 , X2 , . . . , Xd les exemples sont étiquetés par Y , une variable de classe catégorielle, à p modalités But prédire l'étiquette d'un nouvel exemple dont on connaît la description S. Lallich, E. Prudhomme 2/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Principe de la représentation des données Stratégie de représentation visualisation des proximités issues des descripteurs : graphe de voisinage, arbres phylogénétiques, analyse factorielle, SOM visualisation des étiquettes de classe Intérêt préparation des données : outliers, sélection de variables navigation intelligente dans les données, contextualisation S. Lallich, E. Prudhomme 3/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Graphes de voisinage (1) Graphe de voisinage deux exemples voisins au sens des prédicteurs sont reliés par une arête (graphe connexe et symétrique). les sommets du graphe sont étiquetés par Y . Graphe de Toussaint d (a, b) ≤ max d (a, c ), d (b, c ), ∀c , c 6= a, c 6= b S. Lallich, E. Prudhomme 4/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Graphes de voisinage (2) Qualité globale et locale : arêtes coupées arête coupée : arête qui joint 2 exemples de classe diérente qualité globale et test de structure : proportion d'arêtes coupées et p-value qualité locale et test d'atypicité : proportion d'arêtes coupées autour de l'exemple i et p −value S. Lallich, E. Prudhomme 5/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Le laboratoire ERIC et la représentation (1) Travaux graphes de voisinage (D. Zighed) réétiquetage par relaxation (C. Largeron, Y. Amghar) nombre d'arêtes coupées (M. Sebban) statistique globale et statistique locale (F. Muhlenbach) visualisation de données complexes et recherche d'informations (J. Clech) structure d'indexation fondée sur les graphes pour manipuler et interroger les données complexes (H. Hacid) S. Lallich, E. Prudhomme 6/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Le laboratoire ERIC et la représentation (2) Produit représentation des proximités, navigation intelligente, contextualisation test de séparabilité (étiquette catégorielle) ou de structure (étiquette numérique) détection des outliers, recherche des variables pertinentes interrogation, recherche d'informations S. Lallich, E. Prudhomme 7/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Principe de la représentation Méthodes ensemblistes Exemple : Graphes de Voisinage Applications Le laboratoire ERIC et la représentation Expérimentations Nouveaux enjeux Navigation Nouveaux enjeux Un constat : développement des moyens de stockage, de création automatique ou d'acquisition des données Des conséquences sur les données nature des données complexes, de nature et de source hétérogène, souvent bruitées volumétrie grand nombre d'exemples grand nombre de variables étiquetage étiquetage incomplet → S. Lallich, E. Prudhomme 8/36 → complexité, outliers → malédiction, redondance apprentissage semi-supervisé Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Une nouvelle stratégie de représentation Conséquence Un intérêt accru pour la représentation des données ! Une double adaptation est proposée complexité : substituer les cartes de Kohonen aux graphes de voisinage grandes dimensions : recours à un ensemble de cartes de Kohonen S. Lallich, E. Prudhomme 9/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Principe de la représentation Exemple : Graphes de Voisinage Le laboratoire ERIC et la représentation Nouveaux enjeux Sommaire 1 Cartes auto-organisatrices Présentation Adaptation à l'apprentissage supervisé Validation statistique 2 Méthodes ensemblistes Présentation Division de l'espace Agrégation 3 Applications Données bruitées Apprentissage semi-supervisé 4 Expérimentations Comparaison en apprentissage supervisé Résistance au bruit En apprentissage semi-supervisé 5 Visualisation et Navigation S. Lallich, E. Prudhomme 10/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Adaptation à l'apprentissage supervisé Validation statistique Navigation Cartes auto-organisatrices : présentation (1) Principe (T. Kohonen, 82) Apprentissage non supervisé Auto-organisation : wit +1 = wit + h(t ) × (xj − wit ) S. Lallich, E. Prudhomme 11/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Adaptation à l'apprentissage supervisé Validation statistique Navigation Cartes auto-organisatrices : présentation (2) Résultats Projection non linéaire de l'espace des entrées Les neurones représentent des parties de l'espace Avantages Conservation de la topologie locale Représentation des données Complexité linéaire sur les exemples et les prédicteurs S. Lallich, E. Prudhomme 12/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Adaptation à l'apprentissage supervisé Validation statistique Navigation Cartes auto-organisatrices : apprentissage supervisé (1) Solutions LVQ (Kohonen, 88), LASSO (Midenent & al, 94). Kohonen-Opt issu de Kohonen-KNN (Zupan & al, 94). Indépendance entre la position des neurones et leur étiquette. Principe de Kohonen-Opt Apprentissage non supervisé Étiquetage de la carte Prédiction S. Lallich, E. Prudhomme 13/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Adaptation à l'apprentissage supervisé Validation statistique Navigation Cartes auto-organisatrices : apprentissage supervisé (2) Processus : S. Lallich, E. Prudhomme 14/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Adaptation à l'apprentissage supervisé Validation statistique Navigation Validation : statistique d'auto-corrélation spatiale Test d'indépendance proximité dans l'espace de représentation W proximité au sens des classes U Statistique cross-product J = WU , corrélée avec le taux d'erreur en généralisation S. Lallich, E. Prudhomme 15/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Division de l'espace Agrégation Navigation Méthodes ensemblistes : présentation Agrégation de classieurs faibles Améliorer l'apprentissage S. Lallich, E. Prudhomme 16/36 1. Boosting, Bagging, ... 2. Random Forest, ... 3. Error Coding Output Code. Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Division de l'espace Agrégation Navigation Méthodes ensemblistes : exemple introductif Jury de Condorcet S. Lallich, E. Prudhomme 17/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Division de l'espace Agrégation Navigation Diversité : régression Diversité entre 2 classieurs Commettre des erreurs sur des régions diérentes de l'espace Diversité participe à performance (Brown et al, 2005) Pas de corrélation nette diversité / T.E. En régression (Krogh and Vedelsby, 1995) 1X k 1X 2 2 2 ¯ E = (f − r ) = K k (f − r ) − K k (f k − f¯)2 2 biais + var et var et covar Ambiguïté : moyenne des écarts à la moyenne des prédictions S. Lallich, E. Prudhomme 18/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Division de l'espace Agrégation Navigation Diversité : classication Modèle de Zanda et al, 2007 Régression : Pi − Pj = Pij → cible et fi − fj = fij → estimateur 1X k 1X¯ 2 2 k 2 Z̄ = (fij − Pij ) = K k (fij − Pij ) − K k (fij − fij ) ,→ 1 composante d'erreur sur chaque carte ,→ 1 composante d'ambiguité entre les cartes S. Lallich, E. Prudhomme 19/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Division de l'espace Agrégation Navigation Division de l'espace Solutions proposées Non supervisé : clustering des prédicteurs 7−→ Apprentissage semi-supervisé Supervisé : optimisation de Z 7−→ Performance 1 2 S. Lallich, E. Prudhomme 20/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Division de l'espace Agrégation Navigation Non supervisé : clustering des variables S. Lallich, E. Prudhomme 21/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Présentation Division de l'espace Agrégation Navigation Agrégation Vote majoritaire Vote pondéré S. Lallich, E. Prudhomme 22/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Données bruitées Apprentissage Semi-Supervisé Navigation Application aux données bruitées Avantages : La classe n'est pas utilisée pour construire l'ensemble de cartes Correction au niveau des neurones. Correction au niveau de l'ensemble. S. Lallich, E. Prudhomme 23/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Données bruitées Apprentissage Semi-Supervisé Navigation Application à l'apprentissage semi-supervisé (1) Présentation Jeu de données partiellement étiqueté Comment proter des exemples non-étiquetés ? Idée : 2 étapes Transduction : obtenir des données totalement étiquetées. Apprentissage supervisé (bruité) par ensemble de cartes. 1 2 S. Lallich, E. Prudhomme 24/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Données bruitées Apprentissage Semi-Supervisé Navigation Application à l'apprentissage semi-supervisé (2) Etape 1 : transduction Varclus pour obtenir 2 cartes Co-training (Blum et Mitchell, 1998) : transfert des connaissances ⇒ Jeu de données étiquetées mais bruitées Etape 2 : apprentissage supervisé k cartes par dégroupage des clusters de Varclus Prédiction à l'aide de l'ensemble de cartes. S. Lallich, E. Prudhomme 25/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Thèmes traités Apprentissage supervisé. Résistance au bruit. Semi-supervisé. Même paramétrage basique Prétraitement : normalisation de Milligan et Cooper. Cartes : taille de 20 × 20, ∼ 10000 cycles, décroissance linéaire de α et du voisinage. S. Lallich, E. Prudhomme 26/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Données Jeux de données Intitulé (1) Ionosphère (2) Spambase (3) Multi-features (a) (4) Multi-features (b) S. Lallich, E. Prudhomme Prédicteurs Classes Exemples 34 54 76 216 27/36 2 2 10 10 351 5000 2000 2000 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Résultats comparatifs Comparaisons de méthodes Ensemble de cartes compétitif Jeu (3) : eondrement du boosting S. Lallich, E. Prudhomme 28/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Données Spambase Spambase 54 attributs, 2 classes (∼ 60/40), 5000 exemples Ajout jusqu'à 50% de bruit sur la classe Répartition uniforme Utilisation de la stratégie ensemble de cartes (Varclus + vote majoritaire) S. Lallich, E. Prudhomme 29/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Résultat Impact du bruit très faible tant que le niveau de bruit n'a pas trop rapproché les probabilités des classes. S. Lallich, E. Prudhomme 30/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Apprentissage semi supervisé Données de Chapelle & al, 2006 5 jeux de données 10 ou 100 exemples étiquetés choisis par Chapelle Résultats existant pour 11 autres méthodes Modication des paramètres Cartes : taille de 10 × 10 pour 100 exemples étiquetés et 6 × 6 pour 10 Utilisation de la stratégie ensemble de cartes (Varclus + vote majoritaire) S. Lallich, E. Prudhomme 31/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Résultats (100 exemples étiquetés) S. Lallich, E. Prudhomme 32/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Généralités Apprentissage supervisé Résistance au bruit Semi supervisé Résultats (10 exemples étiquetés) S. Lallich, E. Prudhomme 33/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Visualisation Stacking géographique : carte des cartes S. Lallich, E. Prudhomme 34/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Navigation Intéressant pour données images/textuelles S. Lallich, E. Prudhomme 35/36 Représentation des données pour l'apprentissage supervisé. Cartes auto-organisatrices Méthodes ensemblistes Applications Expérimentations Navigation Conclusion et perspectives Stratégie globale pour l'apprentissage sup. de données volumineuses cartes de Kohonen : volumétrie des exemples, navigation approche ensembliste : dimensionnalité, performance Des premiers résultats prometteurs bruit sur la classe apprentissage semi-supervisé Perspectives expérimentales : validation rigoureuse utilisateurs : stratégie d'étiquetage théoriques : améliorer le contrôle de la diversité des cartes S. Lallich, E. Prudhomme 36/36 Représentation des données pour l'apprentissage supervisé.