UNIVERSITÉ DE LA MÉDITERRANÉE (Aix-Marseille II) Faculté des Sciences de Luminy École Doctorale de Mathématiques et Informatique (E.D. 184) UNIVERSITÉ DE TUNIS Institut Supérieur de Gestion de Tunis THÈSE EN COTUTELLE pour obtenir le grade de DOCTEUR DE L’UNIVERSITÉ DE LA MÉDITERRANÉE Discipline : Informatique et Mathématiques et le grade de DOCTEUR DE L’UNIVERSITÉ DE TUNIS Discipline : Gestion (Option : Modélisation) présentée et soutenue publiquement le 6 septembre 2007 par Anis BEN ISHAK SÉLECTION DE VARIABLES PAR LES MACHINES À VECTEURS SUPPORTS POUR LA DISCRIMINATION BINAIRE ET MULTICLASSE EN GRANDE DIMENSION Directeurs de thèse : M. Badih GHATTAS / M. Abdelwahed TRABELSI JURY M. Claude DENIAU M. Khaled MELLOULI M. Jean-Michel POGGI M. Denys POMMERET M. Abdelwaheb REBAI Professeur émérite, Université de la Méditerranée Professeur, Université du 7 novembre de Carthage Professeur, Université Paris 5 Professeur, Université de la Méditerranée Professeur, Université de Sfax Président Rapporteur Rapporteur Examinateur Examinateur ii Remerciements Ce travail a été réalisé en cotutelle aux seins des Laboratoires BESTMOD de l’Institut Supérieur de Gestion de Tunis et l’Institut de Mathématiques de Luminy relevant de la Faculté des Sciences de Luminy à Marseille. Je remercie les membres du Laboratoire BESTMOD pour l’amitié qu’ils m’ont témoignée tout au long de ces années de thèse. Mes remerciements s’adressent également aux membres de l’équipe Méthodes Mathématiques pour le Génome de L’IML pour leur accueil et leur soutien. Je n’oublierai pas de remercier très cordialement les responsables de la coopération universitaire franco-tunisienne aussi bien au niveau du ministère de l’enseignement supérieur et de la recherche scientifique qu’au niveau de l’Institut Français de Coopération pour avoir financé mes séjours à Marseille durant mon parcours de thèse. Je tiens à exprimer ma profonde gratitude et ma sincère reconnaissance aux trois personnes qui m’ont encadré durant ces années de thèse. Monsieur Abedelwahed Trabelsi, directeur du Laboratoire BESTMOD, pour ses précieux conseils, son aide inestimable et son optimisme contagieux. Monsieur Badih Ghattas, Maître de Conférences à la Faculté des Sciences de Luminy, pour m’avoir fait partagé ses nombreuses connaissances et qui m’a souvent donné le courage d’avancer dans mes recherches, notamment en me remotivant lorsque j’en éprouvais le besoin et sans qui cette thèse n’aurait jamais pu être menée à bien. Monsieur Claude Deniau, Professeur émérite de la Faculté des Sciences de Luminy, pour les discussions fructueuses que j’ai eu avec lui et pour sa gentillesse et sa modestie inégalées. Merci à Monsieur Khaled Mellouli et à Monsieur Jean-Michel Poggi qui ont accepté de rapporter cette thèse et je les remercie du temps qu’ils y ont consacré. Je remercie également Monsieur Denys Pommeret et Monsieur Abdelwaheb Rebai pour avoir bien voulu faire partie du jury. Mes vifs remerciements s’adressent à Monsieur Abderrzak Ben Maatoug, Maître Assistant à l’Institut Supérieur de Gestion de Tunis, pour son enthousiasme et avec qui j’ai eu le plaisir de collaborer sur le sujet de la pollution atmosphérique. Merci à tous mes amis pour tous les moments de franche insouciance et de douce gaieté qu’il m’a été donné de partager avec eux entre les lignes de cette thèse. Enfin, je ne saurais terminer cette liste sans adresser un remerciement particulier à ceux qui m’ont soutenu dans l’ombre, mes parents, ma sœur et mes frères, sans qui ce travail n’aurait iii jamais pu voir le jour. Je leur dédie ce travail en témoignage de ma profonde affection pour toute la patience et les sacrifices qu’ils ont convertis pour moi et dont je serai à jamais redevable, et d’avoir porté ce travail à terme représente pour moi aujourd’hui la plus belle des récompenses. Que tous ceux qui m’ont aidé de près ou de loin dans l’élaboration de ce travail trouvent ici l’expression de ma sincère gratitude. iv À mes chers parents, À ma chère sœur, À mes chers frères, À tous ceux que j’aime. v Table des matières Table des figures viii Liste des tableaux x Introduction générale 1 1 Théorie de l’apprentissage statistique et principes d’induction 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Position du problème d’apprentissage statistique . . . . . . . . . . 1.2.1 Le modèle général . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Les principaux problèmes d’apprentissage . . . . . . . . . . 1.3 Principe de minimisation du risque empirique . . . . . . . . . . . 1.3.1 Condition de consistance . . . . . . . . . . . . . . . . . . . 1.3.2 Théorie des bornes de Vapnik-Chervonenkis . . . . . . . . 1.3.3 Borne de risque non-asymptotique . . . . . . . . . . . . . . 1.4 Problème de sélection de modèle . . . . . . . . . . . . . . . . . . . 1.4.1 Le dilemme biais-variance . . . . . . . . . . . . . . . . . . 1.4.2 Principe de minimisation du risque structurel . . . . . . . 1.4.3 Construction des algorithmes d’apprentissage . . . . . . . 1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Machines à vecteurs supports biclasses 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Problème de la classification linéaire . . . . . . . . . . . . . . 2.2.1 Formalisation du problème . . . . . . . . . . . . . . . . 2.2.2 Approche générale . . . . . . . . . . . . . . . . . . . . 2.2.3 Définitions de base . . . . . . . . . . . . . . . . . . . . 2.3 Machines à vecteurs supports . . . . . . . . . . . . . . . . . . 2.3.1 Hyperplan à marge maximale . . . . . . . . . . . . . . 2.3.2 Idée de relaxation . . . . . . . . . . . . . . . . . . . . . 2.3.3 SVM non-linéaires . . . . . . . . . . . . . . . . . . . . 2.3.4 Adéquation des SVM aux principes inductifs . . . . . . 2.3.5 Résolution des problèmes d’optimisation issus des SVM 2.4 Bornes sur l’erreur de généralisation pour les SVM . . . . . . . 2.4.1 Estimation basée sur un échantillon test . . . . . . . . 2.4.2 Borne basée sur la dimension de Vapnik-Chervonenkis . 2.4.3 Bornes obtenues par leave-one-out . . . . . . . . . . . . 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 6 7 7 8 10 12 13 13 15 17 18 . . . . . . . . . . . . . . . . 19 19 20 20 20 21 23 24 27 28 30 32 33 33 33 34 35 vi 3 Sélection de variables en grande dimension par les SVM biclasses 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Scores dérivés des SVM . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Scores d’ordre zéro . . . . . . . . . . . . . . . . . . . . . . . . 3.2.2 Scores par différence . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 Scores d’ordre un . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.4 Effet du réapprentissage sur les scores . . . . . . . . . . . . . . 3.2.5 Quelques équivalences entre les scores dans le cas linéaire . . . 3.2.6 Preuve des équivalences dans le cas non-linéaire . . . . . . . . 3.3 Présentation des données linéairement séparables . . . . . . . . . . . 3.3.1 Données simulées . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Données réelles . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Application sur les données simulées . . . . . . . . . . . . . . . . . . 3.4.1 Notre procédure de sélection de variables . . . . . . . . . . . . 3.4.2 Effet de la taille de l’échantillon . . . . . . . . . . . . . . . . . 3.4.3 Effet du nombre de variables . . . . . . . . . . . . . . . . . . . 3.4.4 Stabilisation des scores par bootstrap . . . . . . . . . . . . . . 3.5 Application sur les données réelles . . . . . . . . . . . . . . . . . . . . 3.5.1 La démarche suivie . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 Comparaison des résultats . . . . . . . . . . . . . . . . . . . . 3.5.3 Biais de sélection . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Simulations dans le cas non-linéaire . . . . . . . . . . . . . . . . . . . 3.6.1 Descriptif des données . . . . . . . . . . . . . . . . . . . . . . 3.6.2 Résultats et discussion . . . . . . . . . . . . . . . . . . . . . . 3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 39 40 40 42 43 45 47 47 48 49 50 50 52 54 56 56 57 59 61 61 63 65 4 Comparaison de méthodes de sélection de variables pour la classification binaire en grande dimension 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Méthodes séquentielles standards . . . . . . . . . . . . . . . . . . . . . . 4.1.3 Les méthodes choisies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Sélection basée sur les forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Hiérarchie des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Sélection basée sur les modèles linéaires généralisés . . . . . . . . . . . . . . . . 4.3.1 Régularisation de type L1 pour le choix du modèle . . . . . . . . . . . . 4.3.2 Hiérarchie des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Comparaison des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Résultats pour les données simulées . . . . . . . . . . . . . . . . . . . . . 4.4.2 Résultats pour les données de biopuces . . . . . . . . . . . . . . . . . . . 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 66 66 68 69 71 71 73 73 73 74 75 75 79 83 5 SVM multiclasses et sélection de variables en 5.1 Introduction . . . . . . . . . . . . . . . . . . . 5.2 Approches indirectes . . . . . . . . . . . . . . 5.2.1 Une-contre-reste . . . . . . . . . . . . . 5.2.2 Une-contre-une . . . . . . . . . . . . . 5.2.3 SVM floues . . . . . . . . . . . . . . . 5.2.4 Graphe de décision acyclique orienté . 85 85 87 87 90 92 94 grande . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vii 5.3 5.4 5.5 5.6 5.7 5.2.5 Graphe acyclique orienté adaptatif . . . . . . . . . . 5.2.6 Graphe acyclique orienté adaptatif réordonné . . . . Unification des méthodes par les codes correcteurs d’erreurs 5.3.1 SVM et codes correcteurs d’erreurs . . . . . . . . . . 5.3.2 Décodage basé sur la distance de Hamming . . . . . . 5.3.3 Décodage basé sur la fonction de perte . . . . . . . . 5.3.4 Quelques équivalences entre les approches . . . . . . Approches directes . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Optimisation globale . . . . . . . . . . . . . . . . . . 5.4.2 SVM binaire augmentée . . . . . . . . . . . . . . . . Sélection de variables . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Extension des scores . . . . . . . . . . . . . . . . . . 5.5.2 Données simulées multiclasses . . . . . . . . . . . . . Simulations et applications . . . . . . . . . . . . . . . . . . . 5.6.1 Hiérarchies des variables pour les données simulées . 5.6.2 Sélection de modèle pour les données simulées . . . . 5.6.3 Descriptif des données de biopuces . . . . . . . . . . 5.6.4 Résultats sur les données de biopuces . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 97 97 98 99 99 100 101 101 103 105 106 107 108 108 109 110 111 112 Conclusion générale et perspectives 113 Bibliographie 115 viii Table des figures 1.1 ŷ est une approximation, donnée par le prédicteur, de la dépendance par le lien et qui relie x à y. . . . . . . . . . . . . . . . . . . . . . . 1.2 Illustration du dilemme biais-variance. . . . . . . . . . . . . . . . . 1.3 Variation de la borne sur le risque espéré. . . . . . . . . . . . . . . . 2.1 2.2 2.3 2.4 réelle gérée . . . . . . . . . . . . . . . . . . . . . Variables d’écart à la marge objectif γ. . . . . . . . . . . . . . . . . . . . . . . . Formulation du programme de l’hyperplan à marge maximal. . . . . . . . . . . . Un cas de figure dans lequel le problème à marge maximale n’admet pas de solution. Exemple de plongement non-linéaire. . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Histogrammes des six premières variables des données simulées linéaires ; les six variables qui déterminent le modèle. 5000 observations sont utilisées. . . . . . . . 3.2 Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec tous les scores. Chaque panneau correspond à une taille. Le nombre de variables est fixé à 200. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Zoom sur le premier panneau de la figure précédente. . . . . . . . . . . . . . . . 3.4 Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec tous les scores. Le panneau de gauche correspond à 500 variables et celui de droite correspond à 1000 variables. La taille de l’échantillon est égale à 50. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Instabilité de la hiérarchie des variables suite à l’élimination d’une observation vecteur support (Les trois panneaux de la première ligne) et d’une observation non vecteur support (Les trois panneaux de la deuxième ligne). . . . . . . . . . . 3.6 Distribution bootstrap du score ∂Spb pour les 9 premières variables. La valeur moyenne est représentée par la ligne verticale interrompue. La ligne verticale continue représente la valeur observée en présence de toutes les observations. . . 3.7 Résultat sur Colon avec bootstrap : taux d’erreur moyen estimé par 50 partages aléatoires stratifiés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Variation du taux d’erreur et du nombre de variables au cours des 10 validations croisées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 Estimation des distributions des deux premières variables des données simulées non-linéaires ; les deux variables qui déterminent le modèle. 5000 observations sont utilisées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.10 Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec les scores SVM d’ordre un et le score FDS. On fait varier le nombre de variables d’un panneau à un autre. La taille de l’échantillon est fixée à 80. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 16 17 23 25 27 29 48 52 53 54 55 56 58 62 62 64 ix 4.1 Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données simulées ( p = 200 et l = 50, 100, 200). L’axe des abscisses indique le rang (normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées sont voisines. . . . . . . . . . . . . . . 4.2 Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données simulées ( p = 500, 1000 et l = 50). L’axe des abscisses indique le rang (normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées sont voisines. . . . . . . . . . . . . . . 4.3 Effet de la taille de l’échantillon. Taux d’erreur moyen calculé sur 50 échantillons tests pour différentes tailles. Le nombre de variables est fixé à 200. . . . . . . . . 4.4 Effet du nombre de variables. Taux d’erreur moyen calculé sur 50 échantillons tests en utilisant 500 variables (les panneaux de la première ligne) et 1000 variables (les panneaux de la deuxième ligne). La taille de l’échantillon est fixée à 50. . . . 4.5 Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les deux jeux de données Colon et Lymphoma. L’axe des abscisses indique le rang (normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées sont voisines. . . . . . . . . . . . . . . . . . . . . 4.6 Comparaison des hiérarchies SVM, SVM-FA, SVM-GLMpath et FA-GLMpath, pour les deux jeux de données Leukemia et Prostate. . . . . . . . . . . . . . . . 5.1 Deux hyperplans, chacun d’eux est associé à une classe. . . . . . . . . . . . . . . 5.2 L’espace hachuré représente la région d’ambiguïté pour l’approche une-contrereste suite à la prise de décision discrète. . . . . . . . . . . . . . . . . . . . . . . 5.3 Règle de décision continue : les bissectrices des secteurs d’ambiguïté forment la nouvelle frontière de classification. . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 La région d’ambiguïté hachurée est réduite pour l’approche une-contre-une. . . . 5.5 Chaque frontière définit une courbe de niveau pour la fonction Mk (x) d’adhésion à la classe k. Cette fonction vaut 1 sur tout point de la zone hachurée. . . . . . . 5.6 Résolution de la région d’ambiguïté par les FSVMs. . . . . . . . . . . . . . . . . 5.7 Graphe de décision acyclique orienté à trois classes. . . . . . . . . . . . . . . . . 5.8 DDAG favorise la feuille du milieu en y affectant la région d’ambiguïté. . . . . . 5.9 ADAG à huit classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.10 Illustration par listes d’un ADAG à sept classes. . . . . . . . . . . . . . . . . . . 5.11 Les différentes étapes du RADAG. . . . . . . . . . . . . . . . . . . . . . . . . . . 5.12 Exemples de séparations linéaires par morceaux. . . . . . . . . . . . . . . . . . . 5.13 Répartition des classes en fonction des deux premières variables. Chaque couleur correspond à une classe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.14 Estimation des distributions des deux premières variables des données simulées multiclasses. Ces deux variables déterminent le modèle. . . . . . . . . . . . . . . 5.15 Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux correspond à une approche multiclasse et chaque ligne de panneaux correspond à un nombre de variables (p = 500, 1000). Le nombre de classes est fixé à m = 3 et le nombre d’observations à l = 60. . . . . . . . . . . . . . . . . . . . . . . . . . . 5.16 Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux correspond à une approche multiclasse et chaque ligne de panneaux correspond à un nombre de variables (p = 500, 1000). Le nombre de classes est fixé à m = 6 et le nombre d’observations à l = 60. . . . . . . . . . . . . . . . . . . . . . . . . . . 77 77 78 79 81 81 88 89 90 91 93 93 94 95 96 97 98 103 107 108 110 111 x Liste des tableaux 3.1 Les scores indexés par la lettre r sont calculés par réapprentissage. Les scores marqués par le même nombre d’astérisques donnent des hiérarchies identiques. . 3.2 Description des données réelles, p désigne le nombre de variables, l et l0 désignent respectivement la taille de l’échantillon d’apprentissage et de l’échantillon test. . 3.3 Procédure de sélection de variables à partir d’une hiérarchie. À la sortie de la procédure, on récupère le nombre optimal de variables. . . . . . . . . . . . . . . 3.4 Les six variables occupant les six premiers rangs de la hiérarchie. . . . . . . . . . 3.5 Effet de la taille de l’échantillon. Rang maximal au bout duquel sont apparues les six variables importantes. l = 50, 100, 200 et p = 200. . . . . . . . . . . . . . 3.6 Effet du nombre de variables. Rang maximal au bout duquel sont apparues les six variables importantes. p = 200, 500, 1000 et l = 50. . . . . . . . . . . . . . . . 3.7 Rangs des six premières variables. Les hiérarchies sont établies selon la valeur moyenne sur 500 échantillons bootstrap. p = 200 et l = 50. . . . . . . . . . . . . 3.8 Colon : matrice de corrélation des rangs de Spearman pour les 10 scores calculés par 100 échantillons bootstrap. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.9 Nombre de variables (mis entre parenthèses) nécessaires pour atteindre le taux d’erreur minimal, Avec Bootstrap (AB) et Sans Bootstrap (SB). . . . . . . . . . 3.10 Comparaison des scores sur Colon : nombre de variables communes sélectionnées par les différents scores calculés avec bootstrap. . . . . . . . . . . . . . . . . . . 3.11 Nombre de variables sélectionnées par un même score calculé avec ou sans bootstrap. 3.12 10-validations croisées de la procédure de sélection de variables décrite dans le tableau 3.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.13 Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées est entre parenthèses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.14 Pour 50, 100, 200 et 300 variables, chaque ligne donne les rangs auxquels sont apparues dans la hiérarchie une puis les deux variables importantes. La taille de l’échantillon est fixée à 80. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 SVM-RFE : Élimination récursive des variables. . . . . . . . . . . . . . . . . . . 4.2 Importance des variables dans les forêts aléatoires. OOBk est constitué des observations de l’échantillon d’apprentissage qui ne sont pas utilisées dans l’arbre k de la forêt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Pour 50, 100 et 200 observations chaque ligne donne le rang auquel quatre, cinq puis six variables parmi les variables importantes sont apparues dans la hiérarchie. Le nombre de variables est fixé à 200. La hiérarchie est établie sur 200 échantillons bootstrap pour les quatre premiers scores et sur 500 échantillons bootstrap pour GLMpath. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 49 50 51 51 53 57 59 59 60 60 61 61 63 70 72 76 xi 4.4 Pour 500 et 1000 variables, chaque ligne donne le rang auquel quatre, cinq puis six variables importantes sont apparues dans la hiérarchie. La taille de l’échantillon est fixée à 50. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Taux d’erreur moyen calculé sur 50 échantillons tests obtenu suite à l’introduction séquentielle des variables selon l’ordre d’importance décroissant. Le nombre optimal de variables est mis entre parenthèses. Pour la méthode GLMpath le taux d’erreur est obtenu par validation croisée sur l’échantillon d’apprentissage. . . . 4.6 Nombre de variables communes parmi les 50 les plus importantes pour les quatre comparaisons établies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.7 Nombre de variables communes parmi les 100 les plus importantes pour les quatre comparaisons établies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Résultats des applications sur les données biopuces. On donne entre parenthèses le nombre minimal de variables pour lequel le taux d’erreur moyen atteint son minimum. Ce taux d’erreur est calculé sur 50 échantillons tests obtenus par partages aléatoires stratifiés. On garde le même partage pour les différentes méthodes utilisées. Pour le jeu de données Leukemia le taux d’erreur et estimé sur l’échantillon test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9 Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées est entre parenthèses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 79 80 82 82 83 5.1 Matrice de corrélations des rangs de Spearman pour les huit scores moyens obtenus sur 100 échantillons bootstrap ; l = 60, p = 3000 et m = 6. . . . . . . . . . . . . 109 xii Notations et abréviations b Biais d’un modèle linéaire. C Paramètre contrôlant le compromis entre erreur empirique et marge. C Compact de X . d Degré d’un noyau polynomial. E∗ Ensemble fini de r poits de X . F Ensemble de fonctions de X dans Y. FL Classe des fonctions linéaires f de X dans R. G Matrice de Gram, (K (xi , xj ))1≤i,j≤l . H Ensemble des hyperplans h définis par les fonctions de FL . Ksv Matrice de Gram calculée sur les vecteurs supports. K̃sv Matrice agrandie obtenue à partir de Ksv . K (., .) Fonction noyau. L Fonction de perte, dite aussi de coût. L Fonction de Lagrange. Taille de l’échantillon. ¡ ¢ MS H(w,b) La distribution des marges de l’hyperplan H(w,b) sur l’échantillon S. ¡ ¢ mS H(w,b) La marge de l’hyperplan H(w,b) . l N Loi normale. P Distrbution de probabilité génératrice des observations de S. R Espérance du risque, dit aussi espérance de perte ou de l’erreur. Remp Risque empirique. R Le rayon de la plus petite boule recouvrant l’échantillon S. S Échantillon d’apprentissage. S Span d’un vecteur support, dite aussi étendue. T ⊂ Rq Espace transformé implicitement induit par le noyau K. W (α) Fonction objectif du problème dual. w Vecteur de poids d’un modèle SVM. X ⊂ Rp Domaine des variables explicatives. x ∈ Rp Vecteur de p variables explicatives. Y L’ensemble des toutes les classes. xiii y Classe de x, dite aussi label ou étiquette. Z Domaine des couples (x, y) = z. αi , β i Multiplicateur de Lagrange. b β(λ) Paramètres d’un modèle linéaire généralisé sous contrainte de type L1 . γ Marge d’un modèle SVM. ∆ Oprérateur désigant le calcul de la variation. δ Probabilité de confiance sur le majorant de l’erreur de généralisation. θ ∈ Rp Vecteur de p pondérartions artificielles. Λ Ensemble des combinaisons linéaires contraites des vecteurs supports. µ Moyenne d’une variable aléatoire. ξ ∈ Rl Vecteur des variables d’écart à la marge. σ Largeur de la bande d’un noyau gaussien. φ Fonction de plongement non-linéaire iduite par K. Ω, Ωk Sous-ensemles de Rp × R. ADAG Graphe orienté acyclique adaptatif. DDAG Graphe orienté acyclique de décision. dim V C La dimension de Vapnik-Chervonenkis. FA Forêts aléatoires. F DS Score de discrimination de Fisher. F SV M Machines à vecteurs supports floues. GLMpath Modèles linéaires généralisés et régularisés. perr Proportion d’erreur. RADAG Graphe orienté acyclique adaptatif réordonné. RF E Élimination récursive des variables. RW La borne rayon-marge pour un modèle SVM. SMO Optimisation minimale séquentielle. Spb La span-borne pour un modèle SVM. SV M Machine à vecteurs supports. W Le carré de la norme du vecteur de poids d’un modèle SVM. xiv Opérateur de dérivation partielle. ∂ P −→ Symbole de convergence en probabilité. ·T La transposée d’une matrice. k.k Norme euclidienne. h. · .i Poduit scalaire standard. (. · .) Produit vectoriel terme à terme (Componentwise). # Cardinal d’un ensemble. 1 Vecteur dont toutes les composantes valent 1. 0 Vecteur dont toutes les composantes valent 0. l→+∞ 1 Introduction générale Cette thèse s’inscrit dans le cadre de l’apprentissage statistique et s’intéresse essentiellement au problème de sélection de variables en grande dimension pour la classification binaire et multiple. Elle comporte à la fois des aspects théoriques, méthodologiques et pratiques. Problématique En apprentissage statistique supervisé on cherche à modéliser puis prédire une variable dépendante (continue ou catégorielle) à partir d’un ensemble de variables explicatives. Le problème du fléau de dimension en statistique désigne les situations où l’on dispose de peu d’observations alors que le nombre de variables explicatives est très grand. Cette situation est de plus en plus fréquente dans les applications, en particulier celles liées aux biopuces. Une biopuce fournit une seule observation de plusieurs milliers de gènes simultanément. Cette observation correspond en général à une seule condition expérimentale (une cellule par exemple) et à une seule classe parmi deux ou plusieurs (cellule saine ou cellule cancéreuse par exemple). Les gènes jouent le rôle des variables, et le nombre d’observations (donc de biopuces) est très faible pour des raisons de coût. Dans ce contexte, on cherche à réduire le nombre de variables explicatives, parmi lesquelles, peu sont informatives en général, et les autres constituent essentiellement du bruit. Le problème auquel nous nous intéressons ici est celui de la détermination des variables explicatives importantes pour un modèle de type machines à vecteurs supports. En particulier, nous traitons cette question dans le cadre de la classification supervisée (cas où la variable à prédire est catégorielle) binaire, puis nous considérons des extensions méthodologiques aux cas multiclasse (cas où la variable dépendante a plus que deux modalités). Notre objectif est donc de réduire la dimension de l’espace des variables explicatives sans perte significative de performance pour le modèle utilisé. Introduction générale État de l’art D’un point de vue statistique, la réduction de la dimension des variables explicatives évite le problème de surapprentissage. Sans préalablement réduire la dimension, les méthodes statistiques standards en classification supervisée, ne sont pas très performantes. Les techniques de régularisation, telles que les machines à vecteurs supports et les modèles linéaires généralisés régularisés, semblent résister au problème de surapprentissage sans avoir besoin de réduire la dimension. Un grand nombre d’algorithmes de sélection de variables est disponible dans la littérature mais rares sont les méthodes capables de relever le défi sur lequel nous nous focalisons. On distingue deux grands types de méthodes : les approches du type analyse de données et les approches du type “stepwise”. Le premier type d’approches combine les variables afin de réduire la dimension. Quant aux approches du deuxième type, elles consistent à éliminer les variables considérées moins importantes selon un certain critère et en suivant une certaine stratégie de sélection. Les performances de ces approches dépendent fortement de la nature du critère et de la stratégie utilisés. Les méthodes alternatives que nous proposons dans ce travail s’insèrent dans la deuxième catégorie d’approches. Plusieurs travaux récents de ce type ont fait preuve de leur efficacité sur des applications de biopuces. Certains appliquent une stratégie d’élimination récursive (ou/et d’ajout récursif) des variables jusqu’à en conserver un sous-ensemble optimal comme le font [Guyon et al., 2002] et [Rakotomamonjy, 2003]. D’autres combinent la sélection de variables et l’apprentissage du classifieur en une seule étape (comme le font par exemple [Chapelle et al., 2002] et [Weston et al. 2003]). Les forêts aléatoires introduites par Breiman [18] offrent une méthode originale pour calculer une hiérarchie des variables explicatives. Cette méthode a été utilisée avec succès dans le cadre des applications aux biopuces (Diáz-Uriarte et al. [29]). Enfin, des approches du type “régularisation” ont été proposées ces trois dernières années pour aborder directement le problème de la sélection de variables en le prenant en compte dans l’étape de l’estimation du modèle. Park et al. ([66], 2006) ont suggéré d’estimer des modèles linéaires généralisés en pénalisant la vraisemblance et en imposant des contraintes de type L1 sur les coefficients du modèle. Cette idée a aussi servi dans les machines à vecteurs supports, et elle est à la base par exemple de la variante dite “one-norm SVM” (Zhu et al. [101]). La littérature abondante portant depuis plusieurs décennies sur le problème de sélection de 2 Introduction générale variables témoigne non pas seulement de son importance mais aussi des difficultés qu’il ne cesse de poser. Ce domaine de recherche restera à jamais actif tant qu’il est motivé par l’évolution des systèmes de collecte et de stockage des données d’une part et par les exigences des applications réelles très variées d’autre part. Contributions Notre contribution pour l’analyse de l’importance des variables explicatives est à la fois sur le plan théorique et sur le plan des simulations et des applications. La sélection des variables dans les machines à vecteurs supports est basée sur des critères dont le calcul permet d’obtenir une hiérarchie des variables. Plusieurs critères ont été introduits dans la littérature (Guyon et al. [45] et Rakotomamonjy [77]). Nous avons d’une part introduit quelques critères supplémentaires et nous avons pu démontrer d’autre part des équivalences entre ces critères pour les machines à vecteurs supports linéaires binaires. Pour le cas non-linéaire nous avons aussi obtenu des résultats d’équivalences entre les critères dans un cadre réduit, celui de l’utilisation de noyaux polynomiaux. Nous avons montré empiriquement que ces critères peuvent être instables et nous avons préféré utiliser leur estimation par bootstrap. Dans le chapitre 3 nous avons proposé une approche séquentielle d’introduction des variables importantes dans le modèle utilisé. Cette approche similaire à celle utilisée par Ghattas et al. [41] et Poggi et al. [73] permet de déterminer le nombre de variables importantes à conserver. Notre procédure a été analysée et expérimentée dans différentes conditions sur des données simulées, puis appliquée avec succès sur des données de biopuces. Dans le chapitre 4 nous avons comparé notre approche à plusieurs méthodes basées sur les machines à vecteurs supports, mais aussi aux forêts aléatoires et aux modèles linéaires généralisés sous contraintes du type L1 . Le dernier chapitre présente entre autres une extension du calcul des critères d’importance des variables pour les machines à vecteurs supports multiclasses. Dans ce cadre nous avons pu démontrer des équivalences entre certaines approches multiclasses, et nous nous sommes limités à analyser des critères d’importances de variables sur la base de simulations. Bilan et Perspectives 3 Introduction générale Les résultats obtenus dans ce travail de recherche ont des aspects et des intérêts divers. Certains sont d’ordre méthodologiques, ils proposent des recommandations et de nouvelles approches de résolution pour le problème de sélection de variables en classification binaire et multicatégorielle. D’autres ont plutôt un aspect théorique et constituent une modeste contribution au contexte des scores d’importance dérivés des machines à vecteurs supports binaires et multiclasses. Les perspectives du présent travail se situent essentiellement dans le contexte de la discrimination multiclasse. Des progrès peuvent être réalisés notamment en explorant les travaux théoriques récents [Darcy et al. 2005] et [Guermeur et al. 2005]. Les bornes établies dans ces travaux sur l’erreur de généralisation pourraient constituer des critères assez fins pour évaluer l’importance des variables. L’extension de notre procédure de sélection de variables aux machines à vecteurs supports en régression reste encore à explorer. Un travail important sera certainement nécessaire pour en dériver des scores d’importance sur les variables. Les méthodes proposées ici donnent des résultats satisfaisants sur les données issues des biopuces, mais il serait aussi intéressant d’élargir le spectre d’application en abordant des thèmes liés à l’environnement, à la pollution atmosphérique, à la chimiométrie et à l’analyse des données économiques et financières,...etc. La diversification des applications permettra d’enrichir la base des résultats et des recommandations auxquels nous sommes parvenus. Le cas de dépendance non-linéaire reste sans doute le plus délicat à traiter dès que le nombre de variables dépasse quelques centaines. Il serait particulièrement intéressant de porter plus d’intérêts à ce contexte afin d’identifier les outils statistiques les mieux adaptés au problème de fléau de la dimension. Nous envisageons d’étudier le comportement de notre procédure en utilisant les forêts aléatoires, la non-linéarité inhérente à ces modèles devrait mener à de bons résultats dans ce cadre. 4 5 Chapitre 1 Théorie de l’apprentissage statistique et principes d’induction 1.1 Introduction L’objectif de la théorie de l’apprentissage statistique est l’étude d’un modèle conceptuel basé sur le principe de minimisation du risque empirique. Pour cela, Vapnik et Chervonenkis se sont posés la question ; “Quelle est l’utilité de la théorie asymptotique tant que notre but est de construire des algorithmes d’apprentissage à partir d’un nombre limité d’observations ?” La théorie de l’apprentissage statistique est brièvement exposée dans ce chapitre. Elle se situe à la frontière de plusieurs disciplines, incluant bien évidemment la statistique, la théorie de l’information et l’analyse fonctionnelle. Dans cette théorie on essaye de concevoir des machines basées sur des algorithmes capables de généralisation, c’est-à-dire ayant de bonnes performances dans des situations non apprises à l’avance. Le sujet de l’apprentissage statistique a été considéré par Vapnik [92] comme étant un problème d’inférence statistique basée sur un nombre limité d’observations. Le principe d’induction automatique qui constitue le raisonnement fondamental de l’apprentissage statistique, a pour but de créer des systèmes automatiques pouvant passer d’observations particulières à des lois générales. Cette approche est innovante par rapport aux statistiques classiques puisqu’elle fournit des bornes non-asymptotiques sur la confiance de l’estimation de l’erreur de généralisation du modèle par l’erreur empirique. Ce chapitre présente les bases de la théorie de l’apprentissage statistique : le principe de minimisation du risque empirique et le principe de minimisation du risque structurel. Ces deux principes ont donné naissance à des algorithmes d’apprentissage capables de contrôler d’une Chapitre 1 1.2. Position du problème d’apprentissage statistique Générateur de Vecteurs Aléatoires x Prédicteur Lien ŷ y Fig. 1.1: ŷ est une approximation, donnée par le prédicteur, de la dépendance réelle gérée par le lien et qui relie x à y. façon nouvelle le dilemme biais-variance. 1.2 Position du problème d’apprentissage statistique 1.2.1 Le modèle général Le modèle général du problème d’apprentissage à partir d’un échantillon d’observations est composé de trois parties : i) Un générateur de vecteurs aléatoires x ∈ Rp , identiquement et indépendamment distribués selon la loi de probabilité P(x) fixe mais inconnue. ii) Le lien qui associe une valeur à la réponse y pour chaque vecteur d’entrée x et ceci suivant une distribution de probabilité conditionnelle P(y/x) fixe mais inconnue. iii) Un prédicteur capable d’opérer sur une classe F de fonctions, qui à x associe y, pour en choisir la meilleure approximation de P(y/x). La recherche de la fonction désirée dans F est basée sur un échantillon d’apprentissage Sl Sl = {z1 = (x1 , y1 ), . . . , zl = (xl , yl )} , contenant l réalisations du couple aléatoire (x, y) = z, identiquement et indépendamment distribuées selon la loi de probabilité jointe P(z) = P(x, y) = P(x)P(y/x). 6 Chapitre 1 1.2.2 1.3. Principe de minimisation du risque empirique Les principaux problèmes d’apprentissage Soit Z l’univers de toutes les réalisations possibles du vecteur aléatoire z = (x, y). On définit sur Z × F une fonction réelle que l’on appellera fonction de perte : L : Z × F −→ R (z, f ) 7−→ L(z, f ) Cette fonction quantifie la différence entre la réponse réelle y donnée par le lien et l’approximation ŷ fournie par le prédicteur pour un vecteur x donné. Un algorithme d’apprentissage est un algorithme qui cherche à minimiser sur F la fonction de perte moyenne : R : F −→ R Z f− 7 → R(f ) = L(z, f )dP(z) Z avec pour seule information disponible celle contenue dans Sl . Le risque R(f ) est appelé aussi l’erreur de généralisation de f . La minimisation de R(f ) n’est pas un simple problème d’optimisation vu que P(z) est inconnue. La formulation générale du problème d’apprentissage peut contenir plusieurs versions spécifiques mais on distingue habituellement trois principaux problèmes d’apprentissage : la classification, la régression et l’estimation de densité. Dans chacun de ces trois cas, le but est d’inférer une fonction f ∈ F à partir d’un échantillon de données. Ici nous nous intéressons uniquement au problème de l’apprentissage supervisé et plus particulièrement à la classification. Dans le paradigme de l’apprentissage supervisé, les données sont des couples (xi , yi ) dont xi désigne la variable explicative et yi sera la variable expliquée. Typiquement, nous noterons X l’espace des variables explicatives et Y le domaine de la variable expliquée. Souvent, nous prenons X ⊆ Rp , tandis que Y = {1, 2, . . . , m} . Lorsque m > 2 on parle de discrimination multiclasse et lorsque m = 2 on parle de discrimination biclasse et l’on note Y = {−1, +1} . Dans ce cas on pose généralement L(z, f ) = 0 si f (x) = y et 1 sinon. Notre but est de déterminer la dépendance entre x et y en se basant sur Sl . Dans ce qui suit nous allons nous intéresser à la classification binaire (Y = {−1, +1}) pour expliciter les principes de base de la théorie de l’apprentissage statistique. 1.3 Principe de minimisation du risque empirique Dans l’apprentissage statistique on s’intéresse à la minimisation du risque R(f ). La distribution P étant inconnue, R(f ) est estimé par le risque empirique dit aussi erreur d’apprentissage 7 Chapitre 1 1.3. Principe de minimisation du risque empirique et qui est défini par : 1X Remp (f, Sl ) = L(zi , f ). l i=1 l Le risque empirique mesure le taux d’erreurs commises par la fonction f sur l’échantillon Sl . Il est à noter que Remp (f, Sl ) est un estimateur sans biais de R(f ). En effet : Z l 1X E [Remp (f, Sl )] = L(zi , f )dP(z) Z l i=1 l Z 1X = L(zi , f )dP(z) l i=1 Z Z L(z, f )dP(z), (f est choisie indépendamment de Sl et les zi sont i.i.d.) = Z = R(f ). Le principe de minimisation du risque empirique1 , qui est à la base d’un grand nombre d’algorthmes d’apprentissage, consiste à minimiser le risque empirique Remp en espérant ainsi d’atteindre le minimum du risque R(f ). Remarque 1.3.1 Le problème de la minimisation du risque empirique est mal posé dans le sens qu’il peut y avoir plusieurs fonctions f, éventuellement en nombre infini, pour lesquelles Remp est minimal. De plus une légère perturbation de l’échantillon d’apprentissage peut entraîner une large différence entre les fonctions estimées. Des méthodes de régularisation sont apparues au milieu des années 60 pour pallier ce problème. Grâce à la loi faible des grands nombres (voir chapitre 2 de Vapnik [92]), pour une fonction f ∈ F fixée on a : ∀ε > 0, P [|Remp (f, Sl ) − R(f )| > ε] −→ 0. l→+∞ Autrement dit, le risque empirique de f converge en probabilité vers le risque. Cette convergence constitue la motivation principale du principe inductif de la minimisation du risque empirique. Ce principe d’inférence inductive est dit consistant si : P inf Remp (f, Sl ) −→ inf R(f ). l→+∞ F f ∈F 1.3.1 Condition de consistance La loi faible des grands nombres ne garantit pas la consistance du processus d’apprentissage car toute fonction fS∗l vérifiant fS∗l = arg inf Remp (f, Sl ), f ∈F 1 ERM : Empirical Risk Minimisation, en anglais. 8 Chapitre 1 1.3. Principe de minimisation du risque empirique est dépendante de l’échantillon d’apprentissage Sl . Si par contre, nous avions la convergence uniforme2 du risque empirique vers le risque · ¸ ∀ε > 0, P sup |Remp (f, Sl ) − R(f )| > ε −→ 0, l→+∞ f ∈F alors le principe de minimisation du risque empirique sera consistant. En effet, on a R(fS∗l ) − R(f ∗ ) ≥ 0 et R(fS∗l )−R(f ∗ ) = R(fS∗l ) − Remp (fS∗l , Sl ) + Remp (fS∗l , Sl ) − Remp (f ∗ , Sl ) + Remp (f ∗ , Sl ) − R(f ∗ ) {z } {z } | {z } | | −→0 −→0 ≤0 l−→+∞ L o i fo rte d es g ra n d s n o m b re s l−→+∞ L o i fa ib le d es g ra n d s n o m b re s Pa r d éfi n itio n d e f ∗ Sl (1.1) où f ∗ = arg inf R(f ). f ∈F Cette preuve traduit bien la convergence en probabilité du risque empirique de fS∗l vers le risque de la meilleure fonction f ∗ ∈ F quand la taille l de l’échantillon d’apprentissage tend vers l’infini. Le théorème suivant, dit théorème fondamental de la théorie de l’apprentissage statistique (cf. chapitre 2 de Vapnik [92]), garantit la consistance du principe de minimisation du risque empirique. Théorème 1.3.1 Supposons que pour toute distribution P, il existe deux constantes A et B telles que, quelle que soit f dansF, A ≤ R(f ) ≤ B, alors la condition nécessaire et suffisante de consistance est donnée par : · ¸ ∀ε > 0, P sup (R(f ) − Remp (f, Sl )) > ε −→ 0. l→+∞ f ∈F (1.2) Ce théorème établit un lien direct entre le principe de minimisation du risque empirique et la loi uniforme des grands nombres. Comme l’uniformité de la convergence porte sur F, le problème d’induction est ainsi translaté et il devient nécessaire d’étudier les caractéristiques des classes de fonctions F pour lesquelles la condition de consistance (1.2) est vérifiée ou pas. Intuitivement, si F est trop riche 3 la relation (1.2) peut ne pas avoir lieu. Il paraît donc clair que le choix de F est déterminant dans la mesure où il conditionne la validité du principe de minimisation du risque empirique. 2 Convergence selon la loi uniforme des grands nombres dite aussi loi forte des grands nombres. L’uniformité portant ici sur F. 3 On dit richesse ou complexité de F. La classe la plus riche est celle qui contient toutes les fonctions imaginables et possibles de X −→ Y. 9 Chapitre 1 1.3. Principe de minimisation du risque empirique Il est intéressant de signaler que le principe de minimisation du risque empirique est un problème mal posé à cause de la non-unicité et l’instabilité de l’estimation face à une légère perturbation de l’échantillon d’apprentissage (voir la remarque 1.3.1). Pour ces raisons on préfère limiter la complexité de la classe de fonctions F, cela étant accompli au moyen de techniques issues de la théorie de régularisation. Ainsi, minimiser un risque régularisé est équivalent à minimiser le risque empirique sur une classe restreinte de fonctions. Le lecteur intéressé peut se reporter au travail de Evgeniou et al. [33] pour une revue des récents développements dans la théorie de régularisation. 1.3.2 Théorie des bornes de Vapnik-Chervonenkis Le but de cette théorie est d’établir des bornes non-asymptotiques sur la convergence de (1.2). Ces bornes dépendent du risque empirique et de la complexité de F. Les travaux de Vapnik et Chervonenkis sur cette théorie, depuis les années 1970, font surgir une condition nécessaire pour avoir la convergence uniforme dépendant de ce qu’ils appellent la capacité h de la classe F de fonctions dite aussi la dimension de Vapnik-Chervonenkis (dim V C), qui est une mesure de sa complexité. Remarque 1.3.2 • La loi faible des grands nombres implique la convergence uniforme dans le cas où le cardinal de F est fini. Ce problème se posera uniquement si l’ensemble F est de cardinal infini. Vapnik et Chervonenkis ont introduit la dimension suivante comme mesure de la complexité de F. Définition 1.3.1 (Dimension de Vapnik-Chervonenkis, Vapnik et Chervonenkis 1971) La dimension de Vapnik-Chervonenkis h d’une classe de fonctions F en classification binaire est définie comme étant le cardinal maximal d’un sous-ensemble A ⊂ X tel qu’on puisse toujours trouver une fonction f ∈ F qui classifie parfaitement tous les éléments de A quelles que soit leurs étiquettes. En d’autres termes : n o h = max |A| / ∀θi ∈ {−1, +1}|A| , ∃f ∈ F telle que ∀xi ∈ A, f (xi ) = θi Cette définition est assez complexe, et souvent il est plus commode de comprendre la dim V C a contrario : si le nombre des élements de A est plus grand que la dim V C, alors il existe des dichotomies qui ne sont pas réalisées par F. 10 Chapitre 1 1.3. Principe de minimisation du risque empirique Par exemple, si on se place dans le plan et F la classe des fonctions affines on est toujours capable de séparer trois points (non alignés) quel que soit leur étiquetage en utilisant des lignes. Par contre on est incapable de le faire pour quatre points. • • o o • • • (a) (b) Le problème du XOR : (a) Trois points non alignés du plan sont linéairement séparables quelque soit leur étiquetage. (b) Cette répartition de quatre points est non linéairement séparable. Ainsi, la dimension de Vapnik-Chervonenkis pour l’ensemble des droites sur R2 est égale à trois. Pour certaines classes de fonctions F on peut calculer explicitement la valeur de dim V C sinon on la majore. Le théorème suivant donne la dim V C pour la classe des hyperplans définis dans Rp . Théorème 1.3.2 (Vapnik 1998) Soit F l’ensemble des hyperplans dans Rp , F = {x 7→ sign(hw · xi + b), w ∈ Rp , b ∈ R} La dimension de Vapnik-Chervonenkis pour F est égale à p + 1. Remarque 1.3.3 Notons que pour l’ensemble des hyperplans définis sur Rp la dimension de Vapnik-Chervonenkis est égale au nombre de paramètres (w, b) = (w1 , w2 , . . . , wp , b) qui définissent un hyperplan. Ce n’est qu’une coïncidence qui ne peut pas être généralisée. Ainsi, la dim V C peut être supérieure ou inférieure au nombre de paramètres desquels dépend la classe des fonctions utilisées (voir pp : 76-79, Vapnik [92]). Le résultat suivant (voir Vapnik [92], pp 72-79) montre que la dim V C est responsable des capacités de généralisation d’un modèle d’apprentissage. Ce résultat permet de minimiser Remp sur des classes de fonctions ayant un énorme nombre de paramètres mais une dim V C relativement très réduite. 11 Chapitre 1 1.3. Principe de minimisation du risque empirique Théorème 1.3.3 Si F possède une dimension de Vapnik-Chervonenkis finie h, que l > h et τ = sup L − inf L alors pour un η > 0 donné, on a F F s η 2l h(Log h + 1) − Log 4 P sup |Remp (f, Sl ) − R(f )| ≥ τ ≤η f ∈F l (1.3) Ce théorème nous permet d’en dériver directement une borne non-asymptotique sur l’erreur de généralisation de toute fonction f ∈ F et en particulier de celles qui minimisent le risque empirique. En utilisant la majoration (1.1) il vient alors, s η 2l h(Log h + 1) − Log 4 P R(fS∗l ) − R(f ∗ ) ≤ 2τ ≥1−η l (1.4) Autrement dit, avec une confiance 1−η donnée, le risque de l’une des fonctions qui minimisent le risque empirique se rapproche du minimum sur F du risque lorsque la taille de l’échantillon d’apprentissage augmente, et ce, d’autant plus vite que la dim V C de F est faible. La loi des grands nombres et la convergence uniforme nous permettent de conclure que, à dim V C finie, le risque et le risque empirique de fS∗l convergent tous les deux en probabilité vers le minimum du risque sur F. On dit alors que l’algorithme d’apprentissage est consistant. En 1991 Vapnik [94] a en fait montré que la finitude de la dim V C est aussi une condition nécessaire pour cette consistance. De la formule (1.3) on déduit qu’avec une confiance 1 − η on a, s h(Log 2lh + 1) − Log η4 ∗ ∗ R(fSl ) ≤ Remp (fSl , Sl ) + τ l (1.5) Cette dernière équation nous donne une borne sur le risque de fS∗l après calcul de son risque empirique. L’utilité pratique de la borne donnée par (1.5) dépend de la taille l de l’échantillon d’apprentissage et de la dim V C de la classe de fonctions F. Ainsi, Vapnik considère que la taille l d’un échantillon d’apprentissage Sl est faible pour estimer une fonction dans une classe de dimension h si le rapport 1.3.3 l h est petit, soit l h < 20. Borne de risque non-asymptotique La borne donnée par l’inégalité (1.4) est quasiment inutilisable en pratique à cause du fait que la dim V C de F est souvent extrêmement élevée. Pour estimer en pratique le risque d’une fonction f ∈ F, et donc pour mesurer sa performance, on dispose souvent d’un échantillon aléatoire Sl0 , idépendant de Sl , issu de la même distribution et ayant la même taille que Sl . Ce nouvel échantillon est dit échantillon test. 12 Chapitre 1 1.4. Problème de sélection de modèle En utilisant l’inégalité de Hoeffding [49], 2l ∀ε > 0, P [|Remp (f, Sl ) − R(f )| > τ ε] ≤ 2e−2ε avec une probabilité 1 − η nous aurons, r r −Log η −Log η Remp (fS∗l , Sl0 ) − τ ≤ R(fS∗l ) ≤ Remp (fS∗l , Sl0 ) + τ 2l 2l ¶ µ où τ est un majorant de sup L − inf L . Pour un développement plus détaillé le lecteur peut F F se reporter à la section 5.1 du chapitre 5 du livre de Vapnik [91]. Ainsi, dans le cas de la classification binaire on a τ = 1, donc il suffit de 15000 = l observations dans l’échantillon test pour estimer le risque de fS∗l à un taux d’erreurs de ±1% avec une probabilité de 95% tout en étant sûr que R(fS∗l ) est proche de R(f ∗ ) = inf R(f ). La borne ainsi F donnée est très pratique vu qu’elle est basée sur un nombre limité d’observations. 1.4 Problème de sélection de modèle Nous avons vu dans la section précédente que la borne sur l’erreur de généralisation dépend de deux termes ; le minimum du risque empirique et la complexité de la classe de fonctions F. Le contrôle de l’échange qui relie ces deux termes est l’un des principaux problèmes en apprentissage statistique. Ce problème est connu par le dilemme biais-variance. Le biais caractérise l’écart des estimations aux exemples d’apprentissage, et la variance exprime la sensibilité du modèle aux données utilisées pour son apprentissage. L’objectif est donc de trouver un compromis entre qualité de l’apprentissage et capacité de généralisation. 1.4.1 Le dilemme biais-variance La majoration (1.5) du risque de la fonction fS∗l est la somme de deux composantes, à savoir : ∗ ¨ Remp q (fSl , 2lSl ) : Le ηrisque empirique dit aussi biais. h(Log h +1)−Log 4 : La largeur de l’intervalle de confiance dite aussi variance. ¨ 2τ l L’intervalle de confiance est d’autant plus large que la dim V C de l’espace F est élevée. D’autre part, le risque empirique est d’autant plus élevé que la dim V C de l’espace F est réduite. Plus précisément, le choix de la classe de fonctions F est crucial en apprentissage statistique. En effet, si la dim V C de F est assez élevée on peut tomber dans le problème de surapprentis- sage4 ce qui engendre un risque empirique très réduit et un intervalle de confiance assez large. 4 "Overfitting" ; La fonction choisie f s’ajuste trop aux données d’apprentissage. 13 Chapitre 1 1.4. Problème de sélection de modèle Par contre, si la dim V C de F est assez petite on se retrouve face à un problème de sous- apprentissage5 caractérisé par une large différence entre minR(f ) et minR(f ), où F̄ est une F 6 F̄ classe plus riche que F (contenant plus de fonctions, et donc probablement une fonction plus rapprochée de la “vraie fonction”). Donc, le problème de choix de modèle revient au choix de la classe de fonctions F qui assure le bon compromis entre le biais et la variance. Ce phénomène s’explique souvent de manière plus simple par ce que l’on appelle le dilemme biais-variance. Pour cela, on décompose l’erreur de généralisation en trois parties. Par exemple, dans le cadre de la régression et pour une fonction de perte quadratique, on peut décomposer l’erreur de généralisation en des termes explicites de biais et de variance qui fournissent beaucoup d’intuition sur les contributions respectives de différents facteurs à l’erreur globale. Cette décomposition est classique en statistique pour la régression linéaire. Pour plus de précision, nous considérons que la sortie y est une fonction déterministe f de l’entrée x, perturbée par un bruit additif δ indépendant des x, y = f (x) + δ tel que E(δ) = 0 et E(δ 2 ) = σ 2 . La fonction fS∗l trouvée par l’algorithme d’apprentissage statistique est celle qui minimise le risque empirique7 sur un échantillon d’apprentissage aléatoire Sl , par conséquent fS∗l est aussi aléatoire. L’erreur quadratique de généralisation de fS∗l pour un exemple x0 donné, en espérance sur les différents tirages d’un échantillon d’apprentissage de taille l, s’exprime par : E h¡ i ¢2 ¡ ¢ ¡ ¢ ¤2 £ y − fS∗l (x) | x = x0 = E f (x0 ) + δ + E fS∗l (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) £ ¡ ¡ ¢¢ ¡ ¡ ¢¢¤2 = E δ + f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 ) £ ©¡ ¡ ¢¢ ¡ ¡ ¢¢ª = E δ 2 + 2δ f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 ) ¡ ∗ ¢¢ ¡ ∗ ¡ ∗ ¢¢ª2 i ©¡ + f (x0 ) − E fSl (x0 ) − fSl (x0 ) − E fSl (x0 ) ¡ ¢¢ ¡ ¡ ¢¢ª¤ £ ©¡ £ ¤ = E δ 2 + 2E δ f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 ) | {z } 0 h©¡ ¡ ¢¢ ¡ ¡ ¢¢ª2 i +E f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 ) ¡ ¢¤2 £ ¡ ¢¤2 £ £ ¤ = E δ 2 + E f (x0 ) − E fS∗l (x0 ) + E fS∗l (x0 ) − E fS∗l (x0 ) £¡ ¡ ¢¢ ¡ ¡ ¢¢¤ −2E f (x0 ) − E fS∗l (x0 ) × fS∗l (x0 ) − E fS∗l (x0 ) | {z } =0 ¡ ¡ ¢¢2 £ ¡ ¢¤2 = σ 2 + f (x0 ) − E fS∗l (x0 ) + E fS∗l (x0 ) − E fS∗l (x0 ) | {z } | {z } Biais2 5 V ariance "Underfitting" ; La fonction choisie f ne s’ajuste pas assez aux données d’apprentissage. dim V C(F) ≤ dim V C(F̄) 7 L’erreur quadratique, dans le cadre de la régression. 6 14 Chapitre 1 1.4. Problème de sélection de modèle Le deuxième terme de la cinquième ligne est nul car δ est indépendant des x et E(δ) = 0. et le terme de covariance qui appraît à l’avant dernière ligne est nul car : £¡ ¡ ¢¢ ¡ ¡ ¢¢¤ E f (x0 ) − E fS∗l (x0 ) × fS∗l (x0 ) − E fS∗l (x0 ) ¡ ¡ ¢¢ £ ¡ ¢¤ = f (x0 ) − E fS∗l (x0 ) × E fS∗l (x0 ) − E fS∗l (x0 ) ¡ ¡ ¢¢ ¡ ¡ ¢ ¡ ¢¢ = f (x0 ) − E fS∗l (x0 ) × E fS∗l (x0 ) − E fS∗l (x0 ) | {z } 0 = 0. D’après ce développement l’erreur en une observation donnée est l’assemblage de trois composantes : ◦ L’erreur due au fait que l’ensemble de fonctions F ne contient pas nécessairement la solution optimale du problème. Cette erreur est appelée biais. ◦ L’erreur due au fait que fS∗l n’est pas forcément la meilleure fonction dans F : elle minimise Remp (f, Sl ) mais pas forcément R(f ). On appelle cette partie de l’erreur la variance car elle provient de la variabilité entre les différents ensembles d’apprentissage de taille l possibles tirés au hasard suivant la distribution P(x, y). ◦ L’erreur due au bruit δ : cette erreur est incontrôlable et par conséquent elle est irréductible. Ainsi, la borne majorante proposée par l’inégalité (1.5) est composée de deux parties conformément à la décomposition du risque. La figure 1.2 donne une illustration des sources de biais et de variance. 1.4.2 Principe de minimisation du risque structurel Nous avons vu que la classe F doit être restreinte afin d’avoir une dim V C appropriée. Le choix de la classe de fonctions F est dit un problème de sélection de modèle. Dans ce problème, le dilemme biais-variance exprime le conflit entre le désir de réduire simultanément le biais et la variance. En effet, lorsque l’on augmente la dim V C de F, le biais diminue parce qu’on a plus de chance d’obtenir une solution proche de la solution du problème. En revanche, la variance augmente parce que le nombre de solutions adaptées à l’ensemble d’apprentissage augmente et on a donc plus de chance d’obtenir une solution plus adaptée à cet ensemble et moins adaptée globalement. En général, ce problème est difficile, mais dans le cadre de la théorie de Vapnik et Chervonenkis la recherche de la bonne classe de fonctions F peut être basée sur la minimisation de la borne donnée par (1.5). Cette idée est à la base du principe inductif de minimisation du risque 15 Chapitre 1 1.4. Problème de sélection de modèle S l0 Zone de variance fS*l0 S l1 s ai Bi * fS*1l • F • F « Vraie fonction » Fig. 1.2: Illustration du dilemme biais-variance. structurel8 . Ce principe minimise la borne du risque en agissant simultanément sur le risque empirique et la largeur de l’intervalle de confiance en utilisant la dimension de Vapnik-chevonenkis comme variable de contrôle. Pour avoir une idée de comment nous pouvons contrôler le risque lorsque la dim V C de F varie, munissons-nous maintenant de N espaces de fonctions emboîtés Fi , F1 ⊂ F2 ⊂ · · · ⊂ FN dont les capacités hi sont ordonnées et finies, h1 ≤ h2 ≤ · · · ≤ hN . En appelant fS∗,il le minimum du risque empirique sur Fi , on peut déduire de (1.5) que l’on aura toujours, avec une probabilité 1 − η, R(fS∗,il ) ≤ Remp (fS∗,il , Sl ) +τ s h(Log 2lh + 1) − Log η4 . l Cette dernière borne est appelée risque structurel et dépend de la classe Fi . Suivant ce principe, il est possible, par rapport à un tirage de Sl , de définir les performances d’un modèle par rapport à un autre en comparant leurs bornes. 8 SRM : Structural Risk Minimisation. 16 Chapitre 1 1.4. Problème de sélection de modèle erreur Borne sur l’espérance du risque Largeur de l’intervalle de confiance : Variance Risque empirique : Biais h1 h* F1 hN h F * FN Fig. 1.3: Variation de la borne sur le risque espéré. Comme on peut obtenir aisément , Sl ) ≤ · · · ≤ Remp (fS∗,1 , Sl ), Remp (fS∗,N l l on en déduit sur la figure 1.3 l’allure de la borne majorante du risque. Même si l’allure de la courbe qu’on obtient est celle de la borne du risque, l’expérience montre que le minimum du risque lui même suit ce genre de variations. Ainsi, dans un premier temps la borne décroît : on dit alors que f sous-estime, puis le risque passe par un minimum et croît : on dit alors que f surestime. Le bon compromis entre le biais et la variance est ainsi atteint pour la complexité h∗ . En définitif, le principe de minimisation du risque structurel consiste en la recherche d’une fonction dont le risque empirique s’approche du risque, par optimisation d’un critère qui intègre également la capacité de l’ensemble des fonctions candidates, définies au sein d’une séquence emboîtée de classes. Toutefois, nous pouvons dire qu’un risque structurel faible induit une faible erreur de généralisation malgré que les problèmes réels auxquels sont confrontées les machines ne constituent pas l’ensemble de tous les problèmes pouvant exister. Néanmoins, il est remarquable de constater qu’un tel principe est valable dans la pratique. 1.4.3 Construction des algorithmes d’apprentissage Pour mettre en œuvre le principe de minimisation du risque structurel, nous avons besoin d’algorithmes d’apprentissage capables de minimiser le risque sur une classe donnée de fonctions en contrôlant le biais et la variance. 17 Chapitre 1 1.5. Conclusion Dans le cadre du principe de minimisation du risque structurel, la borne sur le risque s’écrit sous la forme générale suivante : R(fS∗,k ) ≤ Remp (fS∗,k , Sl ) + ϕ( l l l ), hk où hk = dim V C(Fk ) et ϕ( hlk ) est l’intervalle de confiance correspondant à Fk . On distingue deux approches de minimisation de cette borne : la première approche fixe la largeur de l’intervalle de confiance et s’intéresse à la minimisation du risque empirique. Cette approche est mise en œuvre par les réseaux de neurones. Quant à la deuxième approche, elle fixe le risque empirique et s’intéresse à la minimisation de l’intervalle de confiance. L’algorithme des machines à vecteurs supports suit cette démarche en annulant le risque empirique par la recherche de l’hyperplan à marge maximale9 . La maximisation de la marge entraîne la réduction de l’intervalle de confiance. L’expérience a montré que les réseaux de neurones présentent pas mal de défauts tels que le problème de minimums locaux et l’instabilité de la solution. En outre, il s’est avéré, à travers la panoplie des applications menées jusqu’à aujourd’hui, que cet algorithme d’apprentissage est une boîte noire mal contrôlée. 1.5 Conclusion La théorie de l’apprentissage recouvre un large spectre de préoccupations qui vont de considérations très théoriques jusqu’à des questions plus pratiques à savoir comment résoudre efficacement un problème de minimisation des bornes établies. Dans ce chapitre nous avons présenté, avec un bref survol, les concepts centraux de cette théorie qui montre à quel point ses motivations sont tournées vers la pratique grâce aux bornes de risque garantissant les conditions de consistance. 9 C’est l’hyperplan qui sépare parfaitement les données de Sl et qui est le plus éloigné des deux classes. 18 19 Chapitre 2 Machines à vecteurs supports biclasses 2.1 Introduction Les machines à vecteurs supports (SVM1 ) introduites au début des années 90, constituent la mise en pratique du principe de minimisation du risque structurel. Elles réalisent ainsi un grand succès de la théorie de l’apprentissage statistique. Aujourd’hui, nous pouvons dire sans exagérer que ces machines ont supplanté les réseaux de neurones et les autres techniques d’apprentissage. En effet, elles sont largement répandues en apprentissage statistique et ont eu beaucoup de succès dans quasiment tous les domaines où elles ont été appliquées. Les machines à vecteurs supports exploitent les concepts relatifs à la théorie de l’apprentissage statistique et à la théorie des bornes de Vapnik et Chervonenkis pour aborder d’une façon nouvelle la question du dilemme biais-variance. Le compromis entre la capacité d’apprentissage et la capacité de généralisation pour ces machines est respectivement accompli en minimisant l’erreur empirique et dans le même temps, en essayant de maximiser une marge géométrique. La justification intuitive de cette méthode d’apprentissage est la suivante : si l’échantillon d’apprentissage est linéairement séparable, il semble naturel de séparer parfaitement les éléments des deux classes de telle sorte qu’ils soient le plus loin possible de la frontière choisie. Ces fameuses machines ont été inventées en 1992 par Boser et al. [15], mais leur dénomination par SVM n’est apparue qu’en 1995 avec Cortes et al. [24]. Depuis lors, de nombreux développements ont été réalisés pour proposer des variantes traitant le cas non-linéaire, pour adapter cette méthode d’apprentissage à la régression ou pour introduire d’autres formulations des SVM ayant des liens avec les méthodes de régularisation. Dans la première partie de ce chapitre nous présenterons en détail les machines à vecteurs 1 En anglais, Support Vector Machines. Chapitre 2 2.2. Problème de la classification linéaire supports dans le cadre de la classification binaire et nous décrirons leur extension pour traiter le cas non-linéairement séparable. Nous mettrons également en évidence l’adéquation de l’algorithme des SVM aux principes d’induction décrits dans le chapitre précédent. La deuxième partie de ce chapitre sera consacrée à la présentation des bornes les plus connues établies sur l’erreur de généralisation d’un modèle SVM. 2.2 Problème de la classification linéaire Le problème de la discrimination linéaire remonte aux années 1930 quand Fisher a proposé la première procédure de classification binaire. Jusqu’à nos jours, plusieurs autres procédures ont été introduites dont certaines manquent de bases théoriques encourageantes. Entre les années 1960 et 1980 les statistiques ont connu une révolution menée par l’apparition de la théorie de l’apprentissage statistique. Et depuis 1992, les machines à vecteurs supports en sont le plus grand succès. 2.2.1 Formalisation du problème Le problème de classification rentre dans le cadre de l’apprentissage statistique supervisée. Le but est de prévoir la classe y d’un vecteur p−dimensionnel x en se basant sur les mesures des variables qui l’expliquent avec pour seule information celle contenue dans l’échantillon d’apprentissage S. Dans le cas de la discrimination biclasse, nous supposons que les données sont des couples (xi , yi )1≤i≤l ∈ X × Y, où X désigne l’espace des variables explicatives souvent pris dans Rp , Y = {−1, +1} et l est la taille de l’échantillon. L’appartenance d’une observation xi à une classe ou à une autre est matérialisée ici par la valeur −1 ou 1 de son étiquette yi . L’échantillon d’apprentissage S est ainsi une collection de réalisations i.i.d. du couple aléatoire (x, y) dont la distribution P est fixe mais inconnue. Cet ensemble est souvent dénoté par : S = {(x1 , y1 ) , (x2 , y2 ) , . . . , (xl , yl )} ⊆ (X × Y)l . 2.2.2 Approche générale Généralement, la classification binaire est accomplie au moyen d’une fonction à valeurs réelles f : X ⊆ Rp −→ R. Toute observation xi est affectée à la classe qui correspond au signe de f (xi ) : si f (xi ) ≥ 0, xi est affecté à la classe positive (+1) sinon elle sera dans la classe négative (−1). 20 Chapitre 2 2.2. Problème de la classification linéaire En classification linéaire la fonction f est linéaire en xi et elle prend la forme générale suivante, f (xi ) = hw · xi i + b, où (w, b) ∈ Rp × R sont les paramètres à estimer de la fonction de décision f et l’opérateur h·i désigne le produit scalaire usuel dans Rp . La règle de décision est donc donnée par sign (f (xi )). On convient que sign (0) = 1. La méthodologie d’apprentissage implique que ces paramètres doivent être estimés à partir des données d’apprentissage. La fonction sign (f (·)) est appelée classifieur. Ses propriétés peuvent être déduites de celles de f par l’intermédiaire de la notion de marge que nous définirons plus loin. Géométriquement, ce classifieur divise l’espace des variables explicatives X en deux demiespaces correspondant chacun à une classe. Cette séparation est réalisée par l’hyperplan H(w,b) défini par l’équation hw · xi + b = 0 où w est un vecteur normal à l’hyperplan de séparation qu’on appelle vecteur de poids, tandis que la variation du paramètre b, appelé biais, engendre une simple translation de l’hyperplan séparateur. Il est donc nécessaire d’employer une représentation à (p + 1) paramètres de liberté pour parcourir l’ensemble de tous les hyperplans dans Rp . L’objectif de la discrimination linéaire est de trouver la bonne2 fonction de décision f dans la classe des toutes les fonctions linéaires de X dans R que nous noterons FL . La classe de tous les hyperplans qui en découle sera notée H. Cette forme simple de classifieur a été énormément utilisée dans la classification binaire. Cette procédure est appelée discrimination linéaire pour les statisticiens (Fisher 1936) et perceptron dans le domaine des réseaux de neurones (Rosenblatt 1956). Les termes “vecteur de poids” pour le vecteur w et “biais” pour le paramètre b sont empruntés de la littérature des réseaux de neurones. Parfois, (−b) est remplacé par θ, une quantité connue sous le nom de seuil. Plusieurs algorithmes itératifs simples motivés par l’optimisation de différentes fonctions de coûts ont été introduits dans les années 1960 pour séparer linéairement des observations issues de deux populations différentes. Les machines à vecteurs supports cherchent plutôt à séparer parfaitement les deux classes de telle sorte que leurs éléments soient le plus loin possible de l’hyperplan trouvé. C’est pour définir cette notion de “plus loin” que l’on introduit la marge. 2.2.3 Définitions de base Dans ce paragraphe nous introduisons la notion de marge pour la classe des fonctions linéaires FL . Cette grandeur est au cœur des SVM et elle jouera un rôle important tout au long de la 2 En terme de capacité de généralisation conformément aux consignes du chapitre précédent. 21 Chapitre 2 2.2. Problème de la classification linéaire suite de ce chapitre. Définition 2.2.1 (Marge biclasse) Soit f une fonction de FL . La marge d’une observation (xi , yi ) ∈ S relativement à la fonction f est définie par γ i = yi f (xi ) . Cette marge peut prendre une valeur négative. Elle dépend de la fonction f et non du classifieur sign (f (xi )). Si g est un multiple de f , les classifieurs pour ces deux fonctions sont les mêmes mais pas leurs marges. La valeur absolue de γ i est proportionnelle à la distance euclidienne séparant le point xi de l’hyperplan H(w,b) associé à f . Ces deux quantités ne coïncident que lorsque kwk = 1, dans ce cas nous parlons de la marge euclidienne. Enfin, l’observation (xi , yi ) est bien classée par le classifieur f si et seulement si γ i > 0. Nous donnons maintenant d’autres définitions qui découlent de la précédente : • La distribution de marges d’un hyperplan H(w,b) par rapport à l’échantillon d’apprentissage S est définie par : ¡ ¢ MS H(w,b) = {γ i = yi (hw · xi i + b) ; i = 1, 2, . . . , l} • La marge de l’hyperplan H(w,b) par rapport à l’échantillon d’apprentissage S est définie par : ¡ ¢ ¡ ¢ mS H(w,b) = min MS H(w,b) 1≤i≤l Comme nous l’avons signalé précédemment, si nous normalisons w, notre hyperplan aura comme équation : H( w , b ) : kwk kwk ¿ À w b ·x + = 0. kwk kwk Les hyperplans H(w,b) et H( w , b ) sont les mêmes mais ils donnent lieu à des marges kwk kwk différentes. Ainsi, c’est la métrique euclidienne que nous utilisons en calculant les marges plus tard. Ce changement d’échelle va jouer un rôle important dans la formulation des problèmes de maximisation de la marge, au sens euclidien, pour les machines à vecteurs supports. • Finalement, on définit sur S la marge de l’échantillon d’apprentissage mS comme étant le maximum de la marge euclidienne sur l’ensemble des hyperplans normalisés HN où : n o HN = H( w , b ) : (w, b) ∈ Rp × R , kwk kwk et mS = max HN ½ ³ min MS H( 1≤i≤l 22 w , b kwk kwk ) ´¾ . Chapitre 2 2.3. Machines à vecteurs supports γ ξi = max(0, γ- γi ) Soit xj+ une observation de la classe positive : Si xj+ ∈R0 ⇔ ξj = 0 Si xj+ ∈R1 ⇔ 0 ≤ ξj ≤ γ Si xj+ ∈R2 ⇔ ξj ≥ γ + - - ξj - + + γi ξl ξi> γ ⇔ (xi,yi) est mal classé - : Classe négative. + : Classe positive. + + ξk + + - + + + + + + R0 R1 R2 Fig. 2.1: Variables d’écart à la marge objectif γ. L’hyperplan qui réalise ce maximum est appelé l’hyperplan à marge maximale et la valeur de sa marge sera positive dans le cas où S est linéairement séparable. Dans le cas où l’échantillon d’apprentissage est non-linéairement séparable, un tel hyperplan n’existe pas. En pratique, l’hypothèse que l’échantillon S est linéairement séparable est assez forte. De ce fait, d’autres mesures plus flexibles ont été utilisées afin d’autoriser quelques violations de la marge et pour prendre en compte des propriétés plus générales de l’échantillon d’apprentissage. Définition 2.2.2 Soit γ un réel strictement positif. On définit la variable d’écart à la marge d’une observation (xi , yi ) relativement à l’hyperplan H(w,b) par : ξ i = max (0, γ − yi (hw · xi i + b)) . Le réel γ est appelé marge cible. Cette quantité mesure l’échec d’un point à atteindre la marge cible γ vis-à-vis de l’hyperplan H(w,b) . Si ξ i > γ alors xi est mal classé par H(w,b) . La norme du vecteur d’écart à la marge ξ = (ξ 1 , ξ 2 , . . . , ξ l ) quantifie le coût de tous les exemples d’apprentissage ayant échoués à avoir comme marge γ et tiendra en compte toute fausse classification. La figure 2.1 illustre ce propos. 2.3 Machines à vecteurs supports Au cours de cette section nous allons présenter les principaux problèmes et résultats de l’apprentissage des machines à vecteurs supports dans le cadre de la classification binaire. Tous 23 Chapitre 2 2.3. Machines à vecteurs supports les algorithmes qui seront exposés sont motivés par la théorie des bornes développée par Vapnik et Chervonenkis qui propose différents majorants de l’erreur de généralisation. Par exemple nous pouvons nous intéresser à l’optimisation de la marge, la marge relaxée par l’introduction des variables d’écarts ξ i ou le nombre des vecteurs supports,...etc. Dans ce paragraphe nous allons mettre en lumière la formulation la plus utilisée qui transforme le problème de recherche de l’hyperplan séparateur en la minimisation de la norme de son vecteur de poids w. 2.3.1 Hyperplan à marge maximale L’hyperplan à marge maximale est le modèle le plus simple des machines à vecteurs supports et il constitue le point de départ pour d’autres algorithmes plus complexes. L’estimation des paramètres (w∗ , b∗ ) de cet hyperplan se fait en résolvant le problème d’optimisation suivant : n o (w∗ , b∗ ) = arg max min [yi (hw · xi i + b)] , kwk = 1 . (w,b) i (2.1) Par conséquent ce que nous optimisons dans le problème (2.1) est la marge au sens de la norme euclidienne vu que nous imposons la contrainte kwk = 1. Cette contrainte n’implique aucune restriction sur l’ensemble des hyperplans H de Rp . En effet : H = {h/h (x) = sign (hw · xi + b)} À ¶¾ ½ µ¿ b w ·x + = h/h (x) = sign kwk kwk = {h/h (x) = sign (hw · xi + b) ; kwk = 1} . (2.2) Dire que les deux classes de l’échantillon d’apprentissage S sont linéairement séparables est équivalent à dire qu’il existe des paramètres (w∗ , b∗ ) ∈ Rp × R tels que l’on a pour tout i ∈ {1, . . . , l} : hw∗ ·xi i + b∗ > 0 si yi = +1 hw∗ ·xi i + b∗ < 0 si yi = −1 ce qui est équivalent à : yi (hw∗ ·xi i + b∗ ) > 0 ∀i ∈ {1, . . . , l} . ³ ´ En normalisant les paramètres (w∗ , b∗ ) par mini [yi (hw∗ ·xi i + b∗ )], nous obtenons w̃, b̃ tels que : ³ ´ yi hw̃·xi i + b̃ > 1 ∀i ∈ {1, . . . , l} . 24 (2.3) Chapitre 2 2.3. Machines à vecteurs supports γ= - : Classe négative. + : Classe positive. (+), (-) : Vecteurs supports. 2 w {x ; <w. x> = +1} + {x ; <w. x> = -1} (+) + x+ + x- (-) - + b w - + w - {x ; <w. x> = 0} Fig. 2.2: Formulation du programme de l’hyperplan à marge maximal. Ainsi la marge γ de l’hyperplan H(w̃,b̃) est la distance entre les hyperplans d’équations hw̃·xi + b̃ = 1 et hw̃·xi + b̃ = −1 qui sont parallèles à H(w̃,b̃) et lui sont équidistants. Soient x+ et x− deux points vérifiant respectivement les deux équations précédentes, nous écrivons alors : À ¿ À ¿ w̃ − w̃ + − (2.4) ·x ·x γ = kw̃k kw̃k 2 . = kw̃k En regardant autrement les formules (2.3) et (2.4) nous comprenons le principe du changement d’échelles utilisé : nous partons d’une marge non forcément euclidienne en l’imposant supérieure ou égale à 2 et on cherche à minimiser la norme du vecteur de poids kw̃k ce qui entraîne la maximisation de la marge γ au sens euclidien. La relation entre la marge et la norme du vecteur de poids est représentée par la figure 2.2. Ce développement basé sur un simple jeu d’échelles montre que l’hyperplan à marge maximale est la solution du problème d’optimisation suivant : Minimiser w,b kwk2 , sous (2.5) yi (hw · xi i + b) ≥ 1, i = 1, 2, . . . , l. Nous nous retrouvons ainsi face à un problème d’optimisation quadratique convexe sous contraintes linéaires, donc les méthodes classiques de programmation mathématique peuvent être utilisées, voir Bazaraa and Shetty [11]. 25 Chapitre 2 2.3. Machines à vecteurs supports Pour résoudre le problème (2.5), on construit le Lagrangien L qui possède un unique point selle pour ce genre de problèmes. Soit alors : X 1 αi [yi (hw · xi i + b) − 1] , L (w, b, α) = kwk2 − 2 i=1 l (2.6) où les αi , i = 1, . . . , l, sont des réels positifs désignant les multiplicateurs de Lagrange associés3 aux contraintes du problème (2.5). Le coefficient 1 2 qui apparaît ici est rajouté juste pour simplifier les calculs de dérivée qui vont venir ultérieurement. Pour trouver le point selle, on est appelé à minimiser L par rapport à w et b et la maximiser par rapport aux αi . Le point selle doit donc satisfaire les conditions nécessaires de stationnarité : X ∂L (w, b, α) αi yi xi = 0 ⇐⇒ w = ∂w i=1 (2.7) X ∂L (w, b, α) αi yi = 0 = 0 ⇐⇒ ∂b i=1 (2.8) P P Maximiser α W (α) = li=1 αi − 12 li,j=1 yi yj αi αj hxi ·xj i , Pl sous i=1 yi αi = 0, (2.9) l l En substituant (2.7) et (2.8) dans (2.6), nous obtenons le problème dual équivalent suivant : αi ≥ 0, i = 1, 2, . . . , l. Ce dernier problème peut être résolu en utilisant des méthodes standards de programmation quadratique. Une fois la solution optimale α∗ = (α∗1 , . . . , α∗l ) du problème (2.9) obtenue, le vecteur de poids de l’hyperplan à marge maximale recherché s’écrit : ∗ w = l X α∗i yi xi . (2.10) i=1 Comme le paramètre b ne figure pas dans le problème dual, sa valeur optimale b∗ peut être dérivée à partir des contraintes primales, soit donc : b∗ = − maxyi =−1 (hw∗ ·xi i) + minyi =+1 (hw∗ ·xi i) . 2 Il est à noter que les conditions de Karush-Kuhn-Tucker (KKT), α∗i [yi (hw∗ ·xi i + b∗ ) − 1] = 0, i = 1, 2, . . . , l (2.11) qui expriment le fait qu’à l’optimum le produit des variables duales et des contraintes associées doit être nul, nous donnent une information très utile sur la structure de la solution. 3 On les appelle aussi variables duales. 26 Chapitre 2 2.3. Machines à vecteurs supports γ () () () Fig. 2.3: Un cas de figure dans lequel le problème à marge maximale n’admet pas de solution. Les conditions (2.11) impliquent que les α∗i sont nuls pour les contraintes non saturées. Les éléments xi de l’échantillon d’apprentissage pour lesquels les coefficients α∗i sont non nuls, sont appelés les vecteurs supports. Compte tenu des conditions de KKT, ces vecteurs définissent à eux seuls la solution du problème (2.5). Ils constituent donc la partie active de l’échantillon d’apprentissage. Si un vecteur non support est supprimé de l’échantillon d’apprentissage nous retrouvons la même solution optimale que celle obtenue pour (2.5). Cette propriété rend les machines à vecteurs supports très attractives car elles permettent d’extraire les éléments représentatifs de l’échantillon d’apprentissage. Soit sv = {i ∈ {1, 2, . . . , l} : α∗i 6= 0} l’ensemble des indices des vecteurs supports. Une fois les paramètres α∗ et b∗ calculés, la règle de classification d’une nouvelle observation x basée sur l’hyperplan à marge maximale est donnée par : ! à X yi α∗i hxi ·xi + b∗ . h (x) = sign i∈sv 2.3.2 Idée de relaxation Comme nous l’avons déjà mentionné, l’hypothèse que S soit linéairement séparable conditionne beaucoup la résolution du problème (2.5). En effet, il suffit qu’une observation des deux classes viole la contrainte (2.3) pour que ce problème n’ait plus de solution. La figure 2.3 montre une telle situation. Pour tenter de résoudre ce problème, une première idée simple consiste à relâcher les contraintes (2.3) dans le but d’autoriser quelques erreurs de classification. Cette généralisation de 27 Chapitre 2 2.3. Machines à vecteurs supports l’hyperplan à marge maximale à été proposée par Cortes et al. [24] en introduisant les variables d’écart à la marge (ξ i )1≤i≤l . Le problème (2.5) devient alors : kwk2 + C Pl Minimiser w,b,ξ 1 2 sous yi (hw · xi i + b) ≥ 1 − ξ i , i = 1, 2, . . . , l i=1 ξi, ξ i ≥ 0, (2.12) i = 1, 2, . . . , l Autrement dit, on cherche à maximiser la marge en s’autorisant pour chaque contrainte une erreur positive ξ i , la plus petite possible. La paramètre supplémentaire C qui apparaît ici est une constante positive fixée à l’avance qui permet de contrôler l’importance de l’erreur que l’on s’autorise par rapport à la taille de la marge. Plus C est important, moins d’erreurs sont autorisées. En suivant la même démarche du Lagrangien que précédemment, nous aboutissons à la forme duale P P Maximiser α W (α) = li=1 αi − 12 li,j=1 yi yj αi αj hxi ·xj i , Pl sous i=1 yi αi = 0 0 ≤ αi ≤ C , (2.13) i = 1, 2, . . . , l La seule différence par rapport au problème (2.9) est la majoration des αi par C. On montre aisément que si S est linéairement séparable et quand C est suffisamment grand, les problèmes (2.9) et (2.13) deviennent équivalents. Une deuxième forme du problème (2.12) tente de minimiser 1 2 kwk2 + C Pl i=1 ξ 2i sous les mêmes contraintes. Dans cette formulation les erreurs élevées sont les plus pénalisées. Pour plus de détails, le lecteur pourra consulter Cristianini et al. [25]. 2.3.3 SVM non-linéaires Les machines à vecteurs supports présentées ci-dessus ne concernent que les modèles linéaires. Il serait complètement illusoire de se dire que l’on pourrait séparer efficacement n’importe quel jeu de données par un simple hyperplan. Si par exemple les données des deux classes se chevauchent sévèrement comme dans la figure 2.4 de gauche, aucun hyperplan séparateur ne sera satisfaisant. En remarquant que dans la résolution des problèmes (2.9) et (2.13), seuls les produits scalaires hxi ·xj i sont nécessaires, les SVM peuvent être étendues pour traiter le cas non-linéaire. La ruse qui fait vraiment la force des SVM repose sur les noyaux autoreproduisants. L’idée de Boser et al. [15] fut alors de plonger les observations xi dans un espace de Hilbert T de dimension q plus élevée que p, voire infinie, à l’aide d’une fonction non-linéaire φ : Rp −→ T choisie a priori. 28 Chapitre 2 2.3. Machines à vecteurs supports φ G1 G2 Fig. 2.4: Exemple de plongement non-linéaire. L’espace T ainsi obtenu est appelé espace des caractéristiques 4 ou aussi espace transformé. Tout ce qu’il nous reste à faire c’est de résoudre le problème (2.9) ou (2.13) dans l’espace T , en remplaçant hxi ·xj i par hφ (xi ) ·φ (xj )i . L’hyperplan séparateur obtenu dans l’espace T est appelé hyperplan optimal généralisé. La figure 2.4 montre un exemple de plongement de R2 dans R3 . Sous certaines hypothèses sur φ, le produit scalaire hφ (xi ) ·φ (xj )i peut se calculer facilement à l’aide d’une fonction symétrique K, dite noyau, définie par : K (xi , xj ) = hφ (xi ) ·φ (xj )i . (2.14) Dans la pratique on choisit un noyau K qui satisfait les conditions de Mercer afin de garantir la décomposition (2.14). Théorème 2.3.1 (Mercer 1909) Soit K (x, z) une fonction symétrique et continue sur L2 (X 2 ). Alors, il existe une fonction φ telle que K (x, z) = +∞ X φ (x)i φ (z)i , i=1 si et seulement si, pour tout compact C de X et pour toute fonction g ∈L2 (C) on a : Z K (x, z) g (x) g (z) dxdz ≥ 0. (2.15) C×C D’après ce théorème, le produit scalaire entre φ (x) et φ (z) se ramène donc au calcul de K (x, z) sans avoir besoin de connaître φ explicitement. Un noyau qui satisfait les conditions de ce théorème est appelé un noyau de Mercer. Notons que dans certains cas, il est difficile de vérifier si les conditions de Mercer sont satisfaites, puisque la relation (2.15) doit être valable pour tout compact C et pour toute fonction 4 Feature space en anglais. 29 Chapitre 2 2.3. Machines à vecteurs supports g. Par contre, il est très facile de voir par des arguments d’approximation de fonctions que les conditions de Mercer sont équivalentes au fait que la matrice5 G = (K (xi , xj ))1≤i,j≤l est semidéfinie positive pour tout ensemble fini {x1 , . . . , xn } ⊂ C (voir le chapitre 3 du livre de Cristianini et al. [25]). Quelques noyaux de Mercer classiques : • Noyau polynomial : K (x, z) = (hx · zi + c)d , où c ∈ R+ et d ∈ N désigne son degré. ¡ ¢ • Noyau gaussien : K (x, z) = exp − kx − zk2 /2σ 2 , où σ ∈ R∗+ est la largeur de sa bande. La dimension de l’espace transformé induit par un noyau polynomial6 est de l’ordre de (p+d)! , p!d! où p est la dimension de l’espace de départ. Quant au noyau gaussien, il induit un espace transformé de dimension infinie. Par exemple, la figure 2.4 représente le plongement de vecteurs bidimensionnels par un noyau polynomial de degré 2 avec c = 0, soit donc la décomposition : hx · zi2 = hφ (x) ·φ (z)i avec φ : X ≡ R2 −→ R3 φ(x)1 x1 7−→ φ(x) = x= φ(x)2 x2 φ(x)3 ≡T x21 = x2 √ 2 2x1 x2 . (2.16) Les noyaux du type tangente hyperbolique sont aussi largement utilisés dans la pratique, K (x, z) = tanh (a hx · zi − b) , bien qu’ils ne satisfassent les conditions de Mercer que pour certaines valeurs bien choisies des paramètres a et b. L’intérêt de ces noyaux est qu’ils permettent de retrouver la structure des réseaux de neurones perceptrons multicouches usuels, mais n’en donnent pas de justification théorique. 2.3.4 Adéquation des SVM aux principes inductifs Dans ce paragraphe nous mettons au clair l’adéquation des SVM aux principes d’induction en établissant le lien avec le premier chapitre et en argumentant par quelques résultats théoriques supplémentaires. Une question importante se pose alors suite à l’idée de plongement dans un espace de grande dimension : Peut-on perdre la consistance du principe de minimisation du 5 6 Cette matrice est dite de Gram. Les propriétés de cette famille de noyaux seront étudiées plus en détails au chapitre suivant. 30 Chapitre 2 2.3. Machines à vecteurs supports risque empirique en faisant l’apprentissage dans des espaces à dimensions très élevées où même parfois infinies ? Nous avons vu dans le chapitre précédent que la finitude de la capacité d’une classe de fonction F est une condition suffisante pour avoir la consistance du principe de minimisation du risque empirique. Et on sait aussi qu’à petite capacité on évite le problème de sur-apprentissage. En tenant compte de ces deux facteurs, l’algorithme de l’hyperplan à marge maximale opère sur une classe bien déterminée d’hyperplans dite structure d’hyperplans canoniques. Soit H l’ensemble des hyperplans définis sur Rp et soit E ∗ = {x1 , x2 , . . . , xr } un ensemble de points de Rp . On définit l’ensemble des hyperplans canoniques relativement à l’ensemble des points E ∗ par : ½ ¾ Hc = h ∈ H / min∗ |hw · xi i + b| = 1 . xi ∈E Nous rappelons que d’après (2.2) les ensembles H et Hc sont les mêmes sauf qu’on impose la normalisation des paramètres pour la structure canonique. L’idée de construire une machine qui fixe le risque empirique et qui minimise l’intervalle de confiance est basée sur le résultat suivant : Théorème 2.3.2 (Vapnik [92], Chapitre 5, pp 128.) Soit Hc∗ = {h ∈ Hc / kwk ≤ T } pour T ∈ R+ , alors dim V C(Hc∗ ) ≤ min ([R2 T 2 ] , p) + 1, où R est le rayon de la petite boule de Rp contenant E ∗ . Ce théorème prouve le fait que la dim V C(Hc∗ ) peut être largement inférieure à dim V C(H) = p + 1. Ainsi, la largeur de l’intervalle de confiance est d’autant plus réduite que la norme du vecteur de poids kwk est plus petite. Donc le problème revient à la recherche d’une structure à capacité réduite en minimisant kwk sous des contraintes qui fixent le risque empirique7 . On retrouve donc ici le principe de minimisation du risque structurel. Ce résultat est valable dans le cas non-linéairement séparable. Le théorème suivant vient confirmer ce propos. Théorème 2.3.3 (Vapnik [92], Chapitre 5, pp 135.) Si les l − 1 exemples d’apprentissage de Sl−1 sont séparables par un hyperplan optimal (ou même un hyperplan optimal généralisé), alors l’espérance des proportions d’erreurs commises sur les différents tirages d’un échantillon test de taille l est majorée par : · ¸ nombre d’erreurs E [nombre des vecteurs supports] E ≤ . l l−1 7 Dans le cas linéairement séparable le risque empirique est nul. 31 Chapitre 2 2.3. Machines à vecteurs supports Il est à remarquer que cette borne ne dépend ni de la dimension de l’espace où on effectue la séparation ni de la norme kwk . Ainsi, plus le nombre de vecteurs supports est réduit relativement à la taille de l’échantillon d’apprentissage plus les capacités de généralisation de l’hyperplan construit sont meilleures et ceci demeure vrai même en dimension infinie. D’autres bornes majorant le taux d’erreur d’un modèle SVM seront exposées vers la fin de ce chapitre. 2.3.5 Résolution des problèmes d’optimisation issus des SVM Dans la section précédente nous avons vu que l’apprentissage des SVM se ramène à la maximisation d’une forme quadratique convexe sous des contraintes linéaires. Dans ces cas il n’y a pas de problèmes de minimums locaux et la solution peut être trouvée en utilisant des algorithmes efficaces. Par contre les méthodes classiques de résolution sont inadaptées aux problèmes de grande taille. Pour gérer les problèmes de grande taille il existe des méthodes dites de décomposition. Elles reviennent à décomposer le problème en plusieurs petits sous-problèmes tels que la résolution de chacun d’eux fournisse une approximation toujours meilleure de l’optimum. L’algorithme d’optimisation minimale séquentielle (Sequential Minimal Optimization, SMO) proposé par Platt [71] est un cas extrême de ces méthodes. On trouve dans la littérature plusieurs raffinements de cet algorithme. L’algorithme SMO optimise la fonction objectif duale du problème global en opérant à chaque itération sur un ensemble réduit à deux multiplicateurs de Lagrange. La puissance de cette procédure réside dans le fait que le problème d’optimisation dépendant uniquement de deux variables peut être résolu analytiquement. P La contrainte li=1 yi αi = 0 qui doit être vérifiée à chaque itération implique que le plus petit nombre de multiplicateurs à optimiser dans chaque étape est de deux. Chaque fois qu’un multiplicateur est mis à jour, un autre multiplicateur au moins doit être ajusté afin de maintenir la contrainte précédente satisfaite. A chaque étape l’algorithme SMO choisit deux éléments αi et αj et les optimise conjointement. Il détermine les valeurs optimales de ces deux variables tout en gardant les autres multiplicateurs fixés puis il met à jour le vecteur solution α = (α1 , α2 , . . . , αl ) correspondant. Le choix des deux points xi et xj est réalisé à l’aide d’une heuristique alors que l’optimisation de leurs multiplicateurs correspondants se fait analytiquement. l’étape de résolution analytique évite pas mal d’itérations emboîtées. En plus de ses per32 Chapitre 2 2.4. Bornes sur l’erreur de généralisation pour les SVM formances en terme de temps de convergence, l’algorithme SMO n’est pas gourmand en espace mémoire vu qu’il n’utilise pas des opérations sur la totalité de la matrice de Gram. Le seul inconvénient de cette méthode est son critère d’arrêt basée sur les conditions de KKT, qui n’est pas toujours facile à contrôler. À l’heure actuelle, cette méthode est la plus courante pour appliquer les SVM à des problèmes de grande taille. 2.4 Bornes sur l’erreur de généralisation pour les SVM La conception d’un classifieur SVM nécessite l’emploi de plusieurs techniques permettant le réglage de ses paramètres ; à savoir, le paramètre C et les paramètres du noyau employé (voir Bengio [13] et Chapelle et al. [23]). Dans l’idéal, nous souhaitons choisir les bons paramètres qui minimisent le risque pour un modèle SVM, inaccessible en pratique mais pour laquelle on dispose soit d’estimations soit de majorants. 2.4.1 Estimation basée sur un échantillon test Si nous disposons d’un grand nombre d’observations, il est possible de construire un modèle SVM sur une partie (échantillon d’apprentissage) et estimer son erreur sur le reste (échantillon test). L’estimation que nous obtenons est non biaisée en plus sa variance est d’autant plus réduite que la taille l0 de l’échantillon test est grande. Cette estimation est donnée par : l0 1X T = 0 sign (yi0 f (x0i )) l i=1 où {(x0i , yi0 )}1≤i≤l0 est l’échantillon test. 2.4.2 Borne basée sur la dimension de Vapnik-Chervonenkis Il a été démontré par Vapnik [92] que l’erreur de généralisation des SVM est bornée par R2 /γ 2 , où R est le rayon de la plus petite boule recouvrant S et γ désigne la marge obtenue sur S. De plus, dans le cas où S est linéairement séparable, la quantité T = R2 /γ 2 fournit une estimation de l’erreur de généralisation. Plus précisément, Bartlett et Shawe-Taylor [9] démontrent le théorème suivant : Théorème 2.4.1 Soient S = {(x1 , y1 ) , (x2 , y2 ) , . . . , (xl , yl )} un échantillon d’apprentissage, R le rayon de la plus petite boule contenant S, et h un classifieur de X dans {−1, 1} . Alors, il 33 Chapitre 2 2.4. Bornes sur l’erreur de généralisation pour les SVM existe une constante c, telle que avec une probabilité d’au moins 1 − δ, pour tout classifieur h réalisant une marge supérieure à γ, son erreur de généralisation est majorée par · µ ¶¸ c R2 1 2 . log l + log 2 l γ δ Cette borne devient k + l s · µ ¶¸ c R2 1 2 log l + log , l γ2 δ lorsque k éléments de S ont une marge inférieure à γ. 2.4.3 Bornes obtenues par leave-one-out La majorité des bornes de l’erreur de généralisation des SVM se base sur le lemme de Luntz et Brailovsky [61], qui utilise la procédure de validation leave-one-out. C’est une validation croisée dont les échantillons tests sont réduits à un seul élément. Depuis la première borne proposée par Vapnik [92] et qui emploie le nombre des vecteurs supports, plusieurs majorants ont été proposés à travers les années. Sous certaines conditions, nous pouvons toujours établir une relation entre les différentes bornes proposées. Voir Vapnik et al. [95], Chapelle et al. [23] et Chapelle [22] pour une revue détaillée. Nous nous limitons à la présentation des deux bornes les plus utilisées dans les applications. • Borne Rayon-Marge : Pour un classifieur SVM sans biais et sans erreur d’apprentissage Vapnik [91] a proposé le majorant suivant : 1 El−1 (perr ) ≤ El l µ R2 γ2 ¶ (2.17) , où γ est la marge réalisée sur un échantillon d’apprentissage de taille l et perr le taux de mauvaises classifications estimé par leave-one-out pour le prédicteur SVM construit à partir d’un échantillon d’apprentissage de taille l−1. Les espérances E. (·) sont calculées sur les différents tirages des échantillons d’apprentissage de taille l −1 pour le premier membre et de taille l pour le second membre. Notons que la détermination de R est accomplie en résolvant le problème quadratique suivant (Vapnik [91]) : Maximiser β R2 = l P i=1 sous l P β i K(xi , xi ) − β i = 1, l P β i β j K(xi , xj ), i,j=1 (2.18) i=1 β i ≥ 0, i = 1, 2, . . . l. Il est à noter que toutes les applications menées durant les dernières années ont mis en évidence la sous-optimalité de cette borne. 34 Chapitre 2 2.5. Conclusion • Span borne : Cette borne proposée par Vapnik et al. [95] est beaucoup plus fine que la première. Ce majorant du taux de mauvaises classifications perr estimé par leave-one-out s’écrit comme suit : à ! X 1 El−1 (perr ) ≤ El α∗t Sp2t , l t∈sv (2.19) où la span 8 Spt est la distance entre les vecteurs supports xt et un ensemble Λt de combinaisons linéaires contraintes des autres vecteurs supports : Λt = ( l X λi xi : i=1,i6=t l X i=1,i6=t ) λi = 1, and ∀i 6= t, α∗i + yi yt α∗t λi ≥ 0 . Le carré de Spt est lié à la matrice agrandie K̃sv obtenue à partir de la matrice de Gram Ksv des vecteur supports : par l’équation K̃sv = Ksv 1 1T 0 , 1 ´ . Sp2t = ³ −1 K̃sv (2.20) (2.21) tt Où 1 est le vecteur colonne unitaire de longueur9 #sv et 1T son transposé, K̃sv une matrice ³ ´ −1 −1 carrée d’ordre (#sv + 1) et K̃sv le tème coefficient diagonal de la matrice10 K̃sv . tt 2.5 Conclusion Les SVM réalisent des séparations non-linéaires dans l’espace des données d’apprentissage à partir de séparations linéaires dans un espace transformé de dimension potentiellement grande, et ce grâce à l’idée des noyaux de Mercer. Depuis leur apparition les SVM ont connu beaucoup de succès sur des applications provenant de domaines très variés, surtout dans les cas où le nombre de variables explicatives est largement supérieur à la taille de l’échantillon d’apprentissage. Les applications issues de la bioinformatique et concernant les données de biopuces en sont des exemples stimulants. L’élégance de la construction des SVM ne masque pas les difficultés de leur mise en œuvre. La minimisation quadratique est une tâche délicate lorsqu’il s’agit de traiter des problèmes de grande taille. En plus le problème de réglage des paramètres C et ceux des noyaux semble lourd à résoudre. Pour ce faire, on fait souvent appel à la procédure de validation croisée ou 8 En français, nous appellerons cette quantité : l’étendue. # est le cardinal de l’ensemble sv. 10 Quand la matrice K̃sv est singulière, une stabilisation du type ridge est utilisée. 9 35 Chapitre 2 2.5. Conclusion à des méthodes numériques minimisant l’une des bornes de généralisation par rapport à ces paramètres, comme il a été fait dans Chapelle et al. [23] et Bengio [13]. Plus récemment un algorithme de type itératif, inspiré de l’idée de Efron et al. [32], a été proposé par Hastie et al. [48] pour le réglage du paramètre C. Ce chapitre a eu pour objectif d’exposer les SVM en classification binaire en faisant le lien avec la théorie de l’apprentissage statistique. Ainsi, des éléments de réponse ont été apportés à la question de la consistance des principes inductifs en dimension élevée ou même infinie. Quelques bornes sur l’erreur de généralisation des SVM ont été succinctement présentées. Dans le prochain chapitre nous allons nous intéresser au problème de sélection de variables pour la classification binaire en grande dimension. Notre procédure de sélection sera essentiellement basée sur les propriétés des SVM que nous avons présentées tout au long de ce chapitre. 36 37 Chapitre 3 Sélection de variables en grande dimension par les SVM biclasses 3.1 Introduction Aujourd’hui plusieurs méthodes d’apprentissage nous permettent d’inférer sur l’information à partir d’énormes bases de données. Cette information est par la suite exploitée pour bien comprendre le processus générateur des données et mener des prévisions. La prolifération des systèmes d’acquisition et de stockage de données met à notre disposition des banques de données pour la résolution d’un problème d’inférence statistique. Le problème de la classification basé sur un échantillon d’apprentissage consiste à inférer un lien plausible entre les variables explicatives présentées sous forme d’un vecteur de p mesures appelées caractéristiques ou attributs, et leur étiquette. Nous nous retrouvons de plus en plus dans des situations où le nombre de variables p a tendance à être beaucoup plus grand que le nombre d’observations l. Par exemple, dans le cadre des données de biopuces il est courant de disposer d’un grand nombre p de variables explicatives (les gènes), de l’ordre de quelques milliers, et de peu d’observations l (les facteurs d’expériences), de l’ordre de quelques dizaines. Dans un ensemble de mesures effectuées sur le phénomène originel, toutes ne sont pas aussi pertinentes. Il est possible que certaines variables correspondent à du bruit ou qu’elles soient peu informatives, corrélées et redondantes ou même inutiles au problème de classification. Il est très naturel que le succès d’un classifieur dans ce genre de situation soit fortement conditionné par la qualité des données et des variables qui les caractérisent. De ce fait il est devenu indispensable de proposer des méthodes efficaces pour sélectionner les variables pertinentes. Chapitre 3 3.2. Scores dérivés des SVM La thématique de sélection de caractéristiques est un domaine de recherche actif depuis plusieurs décennies. Elle consiste à extraire de l’ensemble des variables explicatives disponibles un ensemble optimal des caractéristiques les plus importantes à un système donné afin de mener à bien la tâche pour laquelle il a été conçu. De nombreux travaux et publications traitent de ces techniques qui sont appliquées dans un grand nombre de domaines là où le nombre de variables ne devrait pas dépasser quelques centaines. Pendant ces quelques dernières années de nouvelles techniques ont été proposées pour aborder cette stimulante tâche en présence de milliers de variables explicatives. Ces techniques sont essentiellement basées sur les machines à vecteurs supports. Le choix des SVM pour faire face à ce défi est expliqué par le grand succès qu’a connu cette méthode d’apprentissage dans différents domaines d’applications et surtout par la richesse de son fondement théorique. Le fondement théorique des SVM, abordé dans les deux premiers chapitres de ce mémoire, nous apprend que l’augmentation du nombre d’attributs ne devrait pas nuire à la qualité de la discrimination qu’elles réalisent. En revanche la qualité des données pose néanmoins des problèmes majeurs dans les applications. Cependant la sélection appropriée d’attributs porte des avantages multiples : améliorer la performance prédictive du modèle construit, faciliter l’interprétation des données et réduire le temps de calcul. Dans ce chapitre nous nous intéressons à la sélection de variables en grande dimension par les SVM biclasses. Notre procédure de sélection de variables est basée sur des scores d’importance calculés à partir de critères liés aux SVM. En utilisant un score calculé à partir du critère de la marge d’un modèle SVM, Guyon et al. [45] ont suggéré un algorithme d’élimination récursive des variables nommé SVM-RFE. Plus récemment Rakotomamonjy [77] a utilisé le même algorithme mais en se basant sur plus de scores qu’il a dérivés des SVM. Nous complétons ici la liste des scores suggérés par Rakotomamonjy [77] et nous proposons une procédure de sélection du type stepwise, plus fine que la précédente, se basant sur ces différents scores estimés par bootstrap. Nous menons une étude comparative intensive entre les différents scores et nous démontrons des équivalences pour certains d’entre eux. 3.2 Scores dérivés des SVM La richesse du bagage théorique des SVM a permis de construire les bornes de risque (2.17) et (2.19) présentées dans le chapitre précédent. Ces bornes ont servi à définir trois critères permettant d’établir un ordre d’importance sur les variables explicatives. Ces critères ont été 38 Chapitre 3 3.2. Scores dérivés des SVM introduits partiellement par Guyon et al. [45] et Rakotomamonjy [77] puis complétés par Ben Ishak et al. [12]. Trois critères sont utilisés pour évaluer le degré d’importance d’une variable. L’importance d’une variable peut être mesurée soit en fonction de sa contribution à la marge γ = 2 , kw∗ k soit selon son influence sur l’une des bornes de risque (2.17) et (2.19). Dans notre présentation, Nous noterons ces critères par : W = kw∗ k2 , RW = R2 kw∗ k2 et Spb = X α∗i Sp2i . i∈sv L’idée principale est d’évaluer la contribution de chacune des variables explicatives par chacun de ces critères. Une variable est d’autant plus importante que sa contribution au critère est forte. Cette contribution est mesurée de trois manières différentes donnant ainsi lieu à trois types de scores. 3.2.1 Scores d’ordre zéro Le score d’ordre zéro d’une variable est égal à la valeur du critère calculée après avoir éliminé la variable en question. Les trois scores d’ordre zéro correspondant à la kème variable sont1 : l ° ° ´ ³ ° ∗ (−k) °2 X ∗ ∗ (−k) (−k) αi αj yi yj K xi , xj W (k) = °(w ) ° = 0 (3.1) i,j=0 °2 ¢2 ° ¡ ° ° RW 0 (k) = R(−k) °(w∗ )(−k) ° Sbp0 (k) = X i∈sv α∗i µ³ ´−1 ¶ (−k) K̃ sv (3.2) (3.3) ii La notation (−k) que nous mettons en exposant désigne l’élimination de la kème variable. Le rayon R(−k) est obtenu en résolvant le problème (2.18) après avoir supprimé la kème variable et ³ ´−1 la matrice K̃ (−k) est obtenue à partir de celle introduite dans l’équation (2.21) en omettant sv la k ème variable. La variable la plus importante est celle qui minimise le score d’ordre zéro. 1 ´ D E ³ (−k) (−k) (−k) (−k) sera remplacé par un simple produit xi scalaire lorsqu’il s’agira du Le noyau K xi , xj · xj cas linéaire. 39 Chapitre 3 3.2.2 3.2. Scores dérivés des SVM Scores par différence Le score par différence d’une variable est égal à la différence entre la valeur du critère calculée en présence de cette variable et sa valeur calculée sans en tenir compte. Les trois scores obtenus par différence pour la kème variable sont : ¯ °2 ¯¯ ¯ ∗ 2 ° ° °¯ (−k) ∗ ∆W (k) = ¯¯kw k − °(w ) °¯ ¯ °2 ¯¯ ¯ 2 ¡ (−k) ¢2 ° ° °¯ 2 (−k) ∗ ∗ ∆RW (k) = ¯¯R kw k − R °(w ) °¯ ¯ ¯ ¯ ¯ ¯X ¯ ¯ ¯ 1 1 ∗ ¯ ∆Sbp (k) = ¯¯ αi ´−1 ¶ ³ −1 ´ − µ³ ¯ ¯i∈sv ¯ K̃sv (−k) K̃ ¯ ¯ ii sv (3.4) (3.5) (3.6) ii La variable la plus importante est celle qui maximise le score calculé par différence. Les scores d’ordre zéro et par différence tels qu’ils sont donnés ci-dessus sont calculés sans réapprentissage, c’est-à-dire que les paramètres α∗i , i = 1, . . . , l, de notre modèle SVM sont estimés une seule fois en utilisant toutes les variables disponibles. Toutefois, nous sommes appelés ³ ³ ´´ (−k) (−k) à recalculer seulement la matrice de Gram K xi , xj en omettant la kème variable, 1≤i,j≤l sans avoir besoin de résoudre le problème (2.13) autant de fois qu’il y a de variables. Nous utiliserons ces scores avec et sans réapprentissage dans nos applications. La lettre r que nous mettrons en indice de ces scores désignera l’emploi du réapprentissage. De plus, en procédant par réapprentissage dans le calcul des scores d’ordre zéro, la variable la plus importante sera plutôt celle qui maximise leur valeur. Quant aux scores par différence, la règle d’importance reste inchangée. Ce propos sera plus détaillé vers la fin de la section courante. 3.2.3 Scores d’ordre un Le score d’ordre un est obtenu en calculant la dérivée du critère par rapport à un vecteur artificiel de pondérations des variables. Soit θ = (θ1 , . . . , θ p )T ∈ Rp le vecteur de pondérations artificielles utilisé et notons par (·) l’opérateur effectuant le produit terme à terme entre deux vecteurs de même longueur. Le facteur de pondération θk est remis à l’unité après avoir calculé la dérivée partielle du critère par rapport à celui-ci. Pour calculer les dérivées des différents critères par rapport à θ nous faisons appel au résultat introduit par Chapelle et al. dans [23]. 40 Chapitre 3 3.2. Scores dérivés des SVM Lemme 3.2.1 Etant donnés un vecteur vθ ∈ Rp et une matrice carrée Pθ d’ordre p dépendant de manière continue du paramètre θ ∈ R. Considérons la fonction : 1 L(θ) = max xT vθ − xT Pθ x x∈F 2 où ª © F = x / bT x = c, x > 0 Soit x̃ le vecteur x pour lequel le maximum de L(θ) est atteint. Si ce maximum est unique alors : ∂L(θ) 1 ∂Pθ = x̃T vθ − x̃T x̃ ∂θ 2 ∂θ Ce lemme signifie qu’il est possible de dériver L par rapport à θ comme si x̃ ne dépendait pas de θ. Notons que ce résultat reste valable même en supprimant partiellement ou totalement les contraintes définissant F . En appliquant ce lemme aux problèmes (2.13), (2.18) et à la relation (2.21) nous obtenons les trois scores d’ordre un correspondant à la kème variable : ¯ ¯Ã l ! ¯ X ∂K ((θ · x ) , (θ · x )) ¯ i j ∂W (k) = ¯ α∗i α∗j yi yj ¯ ∂θk ¯ i,j=1 (θ k ¯ ¯ ¯ ¯ ¯ ¯ ¯ =1) (3.7) ¯( ) ¯ X l ¯ £ 2 ¡ ¢¤ ∂K ((θ · x ) , (θ · x )) i j 2 ∂RW (k) = ¯¯ R yi yj α∗i α∗j + kw∗ k β ∗i δ ij − β ∗i β ∗j ∂θ k ¯ i,j=1 (θ k où δ ij = 1 si i = j et 0 sinon. ¯( à ! #) ¯ X" µ ¶ ¯ ∂H ∂ K̃ sv −1 −1 Sp2i −H −1 (α∗ , b∗ )T + α∗i Sp4i K̃sv ∂Sbp (k) = ¯¯ K̃sv ∂θ ∂θ k k ¯ i∈sv i ii (θ La matrice H = Y Ksv Y T k ¯ ¯ ¯ ¯ , (3.8) ¯ ¯ =1) ¯ ¯ ¯ ¯ ¯ ¯ =1) (3.9) Y est carrée d’ordre2 |sv|+1, Ksv étant la matrice carrée d’ordre Y 0 ¡ Y¢ |sv| obtenue par Ksv ij = yi yj (Ksv )ij et Y est le vecteur des classes des vecteurs supports. La matrice K̃sv est celle introduite par (2.20). Sur le plan du calcul notons que la question de réapprentissage ne se pose pas pour les scores d’ordre un. La variable la plus importante est celle qui maximise le score d’ordre un. Enfin la dérivée de la fonction noyau K est donnée par : 2 |sv| désigne la cardinal de l’ensemble sv des indices des vecteurs supports. 41 Chapitre 3 3.2. Scores dérivés des SVM • Noyau polynomial : µ ¶ ∂K ((θ · x) , (θ · z)) = 2d.xk zk × (hx · zi + c)d−1 . ∂θk (θk =1) On retrouve le cas linéaire en prenant d = 1. • Noyau gaussien : µ ¶ ¶ µ ∂K ((θ · x) , (θ · z)) 1 1 2 2 = − 2 (xk − zk ) × exp − 2 kx − zk . ∂θk σ 2σ (θk =1) 3.2.4 Effet du réapprentissage sur les scores Guyon et al. [45] ont considéré que le calcul du score (3.4) avec réapprentissage (∆Wr ) n’apporte pas une amélioration significative par rapport aux résultats obtenus avec le même score sans réapprentissage (∆W ). En outre le score ∆Wr est beaucoup plus coûteux en temps de calcul. Nous nous proposons d’analyser dans ce paragraphe l’effet du réapprentissage. Dans le cas où nous procédons par réapprentissage nous cherchons toujours à calculer la valeur exacte des trois critères W, RW et Spb. À l’ordre zéro, les scores Wr0 (k), RWr0 (k) et Spb0r (k) donnent des estimations exactes de la marge et des bornes de risque du modèle SVM construit sur la base de l’échantillon d’apprentissage S duquel nous avons supprimé la kème variable. Par contre, sans réapprentissage nous évaluons la contribution partielle de la variable k aux critères W, RW et Spb calculés une fois pour toutes sur la base de l’échantillon S tout entier. Par conséquent, les scores W 0 (k), RW 0 (k) et Spb0 (k) n’ont absolument aucune relation avec la marge et la capacité de généralisation connues pour les SVM. Par exemple le score ∆Wr (k) = |W − Wr0 (k)| mesure la différence entre deux vecteurs de poids : le premier, W , correspond au modèle SVM obtenu sur S et le deuxième, Wr0 (k), correspond au nouveau modèle SVM obtenu sur S dépourvu de la variable k. En revanche, le score ∆W (k) = |W − W 0 (k)| mesure la contribution de la kème composante au vecteur de poids W estimé à partir de S. De ce fait on comprend pourquoi la règle d’importance basée sur les scores d’ordre zéro s’inverse dans le cas de réapprentissage. En effet sans réapprentissage la variable la plus importante est celle qui contribue le plus à la norme du vecteur de poids W, son élimination doit donc minimiser cette norme. Avec réapprentissage, intuitivement, l’élimination de la variable la plus importante donne lieu à la plus petite marge, ce qui correspond à la valeur maximale pour la norme du vecteur de poids du modèle SVM obtenu. Cette explication3 est valide pour les critères RW et Spb. Finalement, grâce à la valeur absolue, la règle d’importance ne s’inverse pas pour les scores par différence obtenus par réapprentissage. 3 Intuitivement, l’élimination d’une variable importante entraîne l’augmentation des bornes de risque. 42 Chapitre 3 3.2. Scores dérivés des SVM Enfin nous résumons toutes les règles d’importance des variables basées sur tous les scores par : ◦ La variable la plus importante est celle qui minimise les scores d’ordre zéro calculés sans réapprentissage. ◦ Dans tous les autres cas, la variable la plus importante est celle qui maximise la valeur du score. 3.2.5 Quelques équivalences entre les scores dans le cas linéaire Dans ce paragraphe nous démontrons quelques équivalences entre les hiérarchies fournies par certains scores dans le cas de données linéairement séparables. Lemme 3.2.2 Pour tout k ∈ {1, . . . , p} on a : W ≤ Wr0 (k) . Sachant qu’on est dans le cadre du réapprentissage, ce résultat équivaut à dire que la marge obtenue sur S est plus grande que celle obtenue sur S dépourvu de la k ème variable. Preuve. Il suffit de se rappeler que W et Wr0 (k) sont les résultats respectifs des problèmes d’optimisation suivants : Minimiser (w,b)∈Ω kwk2 et Minimiser (w,b)∈Ωk kwk2 , où ek est le kème vecteur de la base canonique de Rp et Ω = {w ∈Rp /yi (hw · xi i + b) ≥ 1, i = 1, 2, . . . , l.} × R Ωk = {w ∈Rp /yi (hw · xi i + b) ≥ 1, i = 1, 2, . . . , l et hw · ek i = 0} × R. Comme Ωk ⊂ Ω alors W ≤ Wr0 (k) . De ce lemme on déduit que les hiérarchies fournies par les scores Wr0 et ∆Wr sont identiques. En effet, puisque W ≤ Wr0 (k) alors ∆Wr (k) = |W − Wr0 (k)| = Wr0 (k) − W d’où, arg max Wr0 (k) = arg max ∆Wr (k) . k k Lemme 3.2.3 Pour tout k ∈ {1, . . . , p} on a : 1) W ≥ W 0 (k) 2) RW ≥ RW 0 (k) 3) Spb ≥ Spb0 (k) 43 Chapitre 3 3.2. Scores dérivés des SVM En d’autres termes, la valeur de chacun des trois critères W, RW, ou Spb calculée à partir de S est supérieure à celle calculée sans réapprentissage sur S en omettant une° variable. ° °P ∗ °2 0 ° Preuve. 1) La première inégalité est évidente. On a W = ° αi yi xi ° ° et W (k) = i∈sv ° ° ° P ∗ (−k) °2 ° αi yi xi ° ° ° d’où le résultat. i∈sv ¡ ¢2 2) Pour établir la deuxième inégalité, il suffit de prouver que R2 ≥ R(−k) . Pour ce faire nous faisons appel à la forme primale du problème d’optimisation (2.18). Nous avons : µ ¶ ª © 2 2 R = minp sup kxi − ak ; i = 1, 2, . . . l a∈R et i µ ½° ¾¶ °2 ¡ (−k) ¢2 ° (−k) (−k) ° = minp sup °xi − a . R ° ; i = 1, 2, . . . l a∈R i Le résultat se déduit facilement du fait que ½° ¾ °2 ª © ° (−k) 2 (−k) ° sup kxi − ak ; i = 1, 2, . . . l ≥ sup °xi − a ° ; i = 1, 2, . . . l . i i 3) Rappelons que la définition de l’étendue en présence de toutes les variables et en omettant une est, (−k) Spi Comme alors Spi = d(xi , Λi ) = min kxi − xk x∈Λi ° ° ° (−k) ° (−k) (−k) = d(xi , Λi ) = min °xi − x(−k) ° (−k) x(−k) ∈Λi ° ° ° (−k) ° kxi − xk > °xi − x(−k) ° ∀k, d(xi , Λi ) > d(xi (−k) (−k) , Λi ). Par le lemme 3.2.3 on déduit que dans le cas sans réapprentissage, les hiérarchies rendues par les scores d’ordre zéro sont identiques à celles de leurs correspondants calculés par différence. Enfin on montre très facilement que les scores ∂W et ∆W donnent exactement la même hiérarchie d’importance sur les variables. En effet, d’une part d’après la première inégalité du lemme 3.2.3 on a : ¯ ¯ ∆W (k) = ¯W − W 0 (k)¯ = W − W 0 (k) l ³ E´ D X (−k) (−k) = yi yj α∗i α∗j hxi ·xj i − xi ·xj i,j=1 = l X yi yj α∗i α∗j (xi )k (xj )k , i,j=1 44 Chapitre 3 3.2. Scores dérivés des SVM et d’autre part, ∂W (k) = l X 2yi yj α∗i α∗j (xi )k (xj )k , i,j=1 d’où l’équivalence des hiérarchies. Le tableau 3.1 résume les équivalences établies dans le cas linéairement séparable entre les scores basés sur les SVM. Zero-order Difference-order First-order 0 Weight vector W (∗) Wr (∗∗) ∆W (∗) ∆Wr (∗∗) ∂W (∗) Radius-margin bound RW 0 (∗ ∗ ∗) RWr0 ∆RW (∗ ∗ ∗) ∆RWr ∂RW 0 0 Span bound Spb (∗ ∗ ∗∗) Spbr ∆Spb(∗ ∗ ∗∗) ∆Spbr ∂Spb 0 Tab. 3.1: Les scores indexés par la lettre r sont calculés par réapprentissage. Les scores marqués par le même nombre d’astérisques donnent des hiérarchies identiques. Remarque 3.2.1 Dans le cas linéaire on vérifie aisément que le fait d’omettre une variable est équivalent à la mettre égale à zéro. Cette équivalence n’est pas aussi simple à vérifier dans le cas non-linéaire. La difficulté est due essentiellement à la méconnaissance de la fonction de plongement φ induite par les noyaux de Mercer non-linéaires. 3.2.6 Preuve des équivalences dans le cas non-linéaire Notre objectif est de déterminer, parmi les équivalences citées ci-dessus, celles qui restent valides dans le cas non-linéaire. Pour ce faire, nous avons commencé par les vérifier empiriquement dans un premier temps puis les prouver théoriquement. Les expériences que nous avons menées sur des jeux de données4 non-linéaires simulées montrent que toutes ces équivalences sont perdues pour le noyau gaussien et seules les quatre premières équivalences données par les lemmes 3.2.2 et 3.2.3 sont vérifiées lorsque nous employons un noyau polynomial. Cette propriété du noyau polynomial est due à la nature de la fonction non-linéaire φ qu’il induit. L’étude minutieuse de la forme et des propriétés de φ en fonction du degré d du noyau associé et de la dimension p de l’espace de départ est la clé de nos démonstrations de toutes les équivalences vérifiées empiriquement. Il est à noter qu’il n’est pas surprenant qu’une étude similaire pour le noyau gaussien semble impossible vu la complexité de sa fonction φ et au fait que l’espace transformé induit par cette famille de noyaux est de dimension infinie. 4 Nous décrirons ces données au moment où ils interviendront dans nos expérimentations. 45 Chapitre 3 3.2. Scores dérivés des SVM Pour étendre les résultats des lemmes 3.2.2 et 3.2.3 au cas de la dépendance non-linéaire en utilisant des noyaux polynomiaux, il suffit d’examiner la forme générale de la fonction φ induite par cette famille de noyaux et d’étudier surtout l’effet de l’omission d’une composante, dans l’espace de départ, sur φ et sur l’espace transformé. Soient x et z deux points de Rp . On a : ­ ® K(x, z) = (hx · zi + c)d = φp (x) · φp (z) . En développant l’expression (3.10), on voit facilement que ( ) p ¡√ ¢η0 η1 η2 ηp X φp (x) = cst (d, c) × c x1 x2 · · · xp / ηi = d , (3.10) (3.11) i=0 où cst (d, c) est une constante réelle qui ne dépend que des paramètres d et c. En se basant sur un raisonnement combinatoire, on montre que la fonction φp envoie le point x dans l’espace transformé Rq où q = (p+d)! . p!d! On se propose maintenant d’appliquer le même noyau sur les points x et z desquels on a omis la kème coordonnée, soit donc : ¡­ K(x(−k) , z(−k) ) = ® ¢d ­ ¡ ¢ ¡ ¢® x(−k) · z(−k) + c = φp−1 x(−k) · φp−1 z(−k) . D’une part, d’après la définition d’un noyau polynomial, il est clair que l’omission d’une coordonnée donne la même valeur pour K que lorsqu’on la met égale à zéro. D’autre part, on ne peut pas affirmer que φp ≡ φp−1 . Donc la question qui se pose à ce niveau est : y a-t-il quand même une relation entre les fonctions φp et φp−1 ? Sans perte de généralité supposons qu’on omet la 1ère composante de x. L’expression (3.11) devient : φp−1 (x) = ( ) p X ¡√ ¢η0 η2 ηp cst (d, c) × c x2 · · · xp / ηi = d . i=0,i6=1 En utilisant le même raisonnement combinatoire que précédemment, on montre que la fonc0 tion φp−1 envoie le point x(−1) dans l’espace transformé Rq où q0 = (p−1+d)! . (p−1)!d! Si au lieu d’omettre la 1ère composante de x on la met égale à zéro, alors l’expression (3.11) s’écrit : φp (x) = ( ) p X ¡√ ¢η0 η η2 η cst (d, c) × c 0 1 x2 · · · xpp / ηi = d . i=0 √ η η η Ainsi, tous les monômes ( c) 0 0η1 x22 · · · xpp pour lesquels η 1 6= 0 seront nuls. Par complé- mentarité on montre que le nombre des monômes non nuls est de l’ordre de q 0 . Ceci prouve que ¡ ¢ φp−1 x(−1) est la projection de φp (x) sur les axes de Rq ne faisant pas intervenir la première composante de x. 46 Chapitre 3 3.3. Présentation des données linéairement séparables Ce développement montre que l’élimination d’une variable dans Rp entraîne l’élimination de toutes les composantes de Rq faisant intervenir cette variable sans toucher au reste des composantes. Par conséquent nous prouvons la validité des lemmes 3.2.2 et 3.2.3 dans le cas non-linéaire avec des noyaux polynomiaux. 3.3 Présentation des données linéairement séparables Toutes les applications que nous avons menées dans le contexte de la classification linéaire utilisent des données simulées et des données réelles de biopuces. Afin d’éliminer certains effets d’échelle, on procède au préalable à une normalisation des données en centrant et réduisant toutes les variables. 3.3.1 Données simulées Ces données ont été introduites par Weston et al. [98]. Les six premières variables déterminent entièrement le modèle, les autres peuvent être assimilées à du bruit. Les deux classes sont équiprobables ; Pr (y = 1) = Pr (y = −1) = 12 . • Pour 70% des observations, les trois premières variables suivent une loi gaussienne dépendant du signe de y, xi ∼ yN (µi , 1), ayant respectivement les moyennes {−3, −2.2, −1.4} pour i = 1, 2, 3, et les trois suivantes xi ∼ yN (0, 1), i = 4, 5, 6. • Pour les 30% restantes, xi ∼ yN (0, 1) pour les trois premières i = 1, 2, 3, et xi ∼ yN (µi , 1), ayant respectivement les moyennes {−3, −2.2, −1.4} pour i = 4, 5, 6. • Les autres variables constituent du bruit, xi ∼ N (0, 20), i = 7, . . . , p. On voit clairement à partir de cette construction que les six premières variables présentent une redondance. En plus, ces données sont linéairement séparables avec une forte probabilité, qui est d’autant plus grande que l’échantillon est de faible taille. La figure 3.1 fournit une estimation par histogramme de la densité des six premières variables importantes pour l = 5000. L’examen des histogrammes de la figure 3.1 permet d’avoir une idée claire sur la nature de ces variables et la redondance qu’elles exhibent. Les quatre premières variables semblent avoir des distributions assez différentes des deux dernières qui sont approximativement gaussiennes. 47 Chapitre 3 3.3. Présentation des données linéairement séparables Fréquence x x 1 200 200 150 150 100 100 3 250 200 150 100 50 0 -5 50 0 x Fréquence x 2 5 50 0 -5 0 x 4 5 0 -5 x 5 300 300 300 250 250 250 200 200 200 150 150 150 100 100 100 50 50 50 0 -5 0 5 0 -5 0 0 5 0 -5 5 6 0 5 Fig. 3.1: Histogrammes des six premières variables des données simulées linéaires ; les six variables qui déterminent le modèle. 5000 observations sont utilisées. 3.3.2 Données réelles Nous avons utilisé des données de biopuces publiques, accessibles sur Internet, et très répandues dans la littérature portant sur l’apprentissage. Elles soulèvent toutes un problème de discrimination binaire, et disposent d’un grand nombre de variables, les gènes, et de peu d’observations. • Colon : Ce jeu de données est constitué de 62 profils d’expression issus de deux populations : 40 tissus tumoraux et 22 tissus sains. Chaque profil comporte 2000 niveaux d’expression de gènes. On trouvera dans Alon et al. [6] une description complète de ces données. • Lymphoma : Le problème de discrimination lié à ce jeu de données est décrit en détail dans Alizadeh [4]. Ce jeu de données est constitué de 96 profils d’expression issus de deux populations : 62 cas sont du type “DLCL”, “FL” ou “CLL” (maligne) et les 34 restants sont normaux. Chaque profil comporte 4026 gènes. • Prostate : Dans ce jeu de données le niveau d’expression de 12600 gènes est mesuré sur 102 tissus. L’objectif est de séparer les tissus normaux (52) des cancéreux (50). On trouvera une description complète de ces données dans Singh et al. [81]. • Leukemia : Ce jeu de données est constitué de 72 profils d’expression issus de deux populations : 47 tissus atteints de Leucémie lymphoblastique aiguë (ALL) et 25 tissus 48 Chapitre 3 3.4. Application sur les données simulées atteints de Leucémie myéloïde aiguë (AML). Il est à noter que ce jeu de données peut aussi être considéré comme problème de discrimination multiclasse dans la mesure où les 47 tissus ALL se subdivisent en deux populations selon que les cellules analysées sont de type B (38 cas) ou de type T (9 cas). Chaque profil comporte 7129 niveaux d’expression de gènes. L’échantillon test est de taille 34 (20 ALL/14 AML) quant à celui d’apprentissage est de taille 38 (27 ALL/11 AML). On trouvera dans Golub et al. [42] une description détaillée de ces données. Guyon et al. [45] ont montré une différence significative entre les distributions des échantillons d’apprentissage et test. Enfin, le tableau 3.2 résume les caractéristiques de ces quatre jeux de données. Données Colon Lymphoma Prostate Leukemia p l l 0 # d’observations +1/-1 2000 62 — 22/40 4026 96 — 62/34 12600 102 — 52/50 7129 38 34 27/11 - 20/14 Tab. 3.2: Description des données réelles, p désigne le nombre de variables, l et l0 désignent respectivement la taille de l’échantillon d’apprentissage et de l’échantillon test. 3.4 Application sur les données simulées Pour comparer les performances de hiérarchisation des variables par les différents scores dérivés des SVM dans le cas linéaire, nous avons utilisé les données artificielles présentées dans la section précédente. L’objectif est de montrer la capacité de chacun des dix scores restants5 à retrouver d’une part le bon ordre des variables, et d’autre part le “bon modèle”, au sens du bon nombre de variables à conserver. L’effet de la taille de l’échantillon et du nombre de variables sur leurs performances est aussi analysé. Dans le cas où il s’agit de données linéairement séparables nous construisons des modèles SVM standards à noyau linéaire. Nous avons retenu à titre de comparaison le critère de discrimination de Fisher comme un score d’importance supplémentaire. Ce score se calcule par : ¯ + ¯ ¯ µk − µ− ¯ k ¯ F DS(k) = ¯¯ + − ¯ ; k = 1, 2, . . . p, ηk + ηk ème où µ± variable respectivement dans la classe positive et négative, k est la valeur moyenne de la k et η ± k désigne l’écart type correspondant. L’intérêt de ce score est qu’il n’est basé sur aucun modèle. La variable la plus importante selon ce score est celle qui en maximise la valeur. 5 Les quinze scores de départ sont réduits à dix grâce aux équivalences établies. 49 Chapitre 3 3.4.1 3.4. Application sur les données simulées Notre procédure de sélection de variables Notre procédure de sélection de variables, décrite dans le tableau 3.3, s’effectue en deux étapes. Une fois la hiérarchie des variables établie, nous suivons la méthode décrite par Ghattas et al. [41] en régression et par Poggi et al. [73] dans un contexte similaire. Le principe de cette méthode consiste à introduire séquentiellement les variables une par une dans le modèle, dans l’ordre décroissant d’importance. On obtient ainsi une suite croissante de modèles emboîtés © kª M 1≤k≤p . La performance de chaque modèle de la suite est évaluée de différentes manières, soit sur un échantillon test, soit par validation croisée ou par plusieurs partages aléatoires stratifiés. Le modèle réalisant le taux d’erreur minimum est retenu comme étant celui ayant le nombre optimal de variables. D = données disponibles. B = 100 Nombre d’échantillons bootstrap. Calcul de Score(D, B) pour obtenir une hiérarchie X (1) , . . . , X (p) . Pour k = 1, . . . , p Pour l = 1, . . . , 50 Réaliser ¡un partage aléatoire ¢ stratifié de D = Al ∪ Tl k (1) (k) Ml = f X ¡ , . . . , X¢ , Al Erlk = T est Mlk , Tl P50 1 Erk = 50 Erlk © l=1 ª kopt = Arg mink Erk . Tab. 3.3: Procédure de sélection de variables à partir d’une hiérarchie. À la sortie de la procédure, on récupère le nombre optimal de variables. 3.4.2 Effet de la taille de l’échantillon Dans un premier temps, nous vérifions la capacité des différents scores à bien classer les variables importantes, les six premières, en présence de bruit en modifiant la taille de l’échantillon d’apprentissage. Dans un deuxième temps, nous évaluons la capacité de notre procédure de sélection à repérer le sous-ensemble optimal de variables en utilisant différents scores. Nous fixons le nombre de variables à p = 200 et nous faisons varier la taille de l’échantillon l de 50, 100 et 200. Les 200 variables sont rangées par ordre décroissant d’importance selon chaque score calculé à partir de l’échantillon d’apprentissage. Le tableau 3.4 donne les variables occupant les six premiers rangs des hiérarchies établies par les différents scores. Tous les scores, sauf Spb0 , classent cinq parmi les six variables importantes aux 6 premiers rangs. La 6ème variable n’apparaît jamais pour l = 50 et l = 100. En utilisant 200 observations, les six variables importantes occupent les six premières positions de toutes les hiérarchies à l’exception des scores Spb0r et ∆Spbr . De plus, les variables 5 et 6 n’apparaîtront qu’en dernier 50 Chapitre 3 3.4. Application sur les données simulées lieu. Ceci pourrait être expliqué par la redondance des variables ou par la forte ressemblance de leur distribution à une gaussienne, celle des variables bruits (voir la figure 3.1). 50 F DS RW 0 Spb0 ∆RW r ∆Spbr Wr0 RW 0r Spb0r ∂W ∂RW ∂Spb 2 2 111 2 2 2 2 2 2 2 2 1 1 171 4 1 1 4 1 1 1 1 4 4 42 1 4 4 1 4 4 4 4 5 5 63 5 123 5 5 123 5 5 5 100 3 123 138 123 5 123 123 5 123 123 3 122 3 116 3 3 3 3 3 3 3 123 1 1 39 1 1 1 1 1 1 1 1 2 2 168 2 2 2 2 2 2 2 2 3 3 151 3 3 3 3 3 3 3 3 200 5 5 17 5 5 5 5 5 5 5 5 4 4 56 4 4 4 4 4 4 4 4 148 148 14 194 194 148 194 194 148 148 148 1 1 74 1 1 1 1 1 1 1 1 2 2 172 2 2 2 2 2 2 2 2 3 4 189 4 4 4 4 4 4 4 4 4 3 7 3 5 3 3 5 3 3 3 5 5 28 5 37 5 5 143 5 5 5 Tab. 3.4: Les six variables occupant les six premiers rangs de la hiérarchie. Le tableau 3.5 montre les rangs maximaux auxquels sont apparues les six variables importantes dans les différentes hiérarchies. Nous remarquons clairement que les rangs des variables importantes s’améliorent en augmentant la taille de l’échantillon. Cette caractéristique semble moins vraie pour les scores Spb0r et ∆Spbr . Score / l F DS RW 0 Spb0 ∆RWr ∆Spbr Wr0 RWr0 Spb0r ∂W ∂RW ∂Spb 50 100 200 7 7 6 10 8 6 199 200 200 10 9 6 103 7 32 10 9 6 10 9 6 19 7 199 10 8 6 10 8 6 9 9 6 Tab. 3.5: Effet de la taille de l’échantillon. Rang maximal au bout duquel sont apparues les six variables importantes. l = 50, 100, 200 et p = 200. Les plus mauvais résultats sont obtenus avec les scores déduits du critère Spb à l’ordre zéro et par différence surtout lorsque nous procédons sans réapprentissage (Spb0 ). La faiblesse du score Spb0 pourrait être due à sa forte dépendance de l’ensemble des vecteurs supports qui devrait changer à l’élimination de chaque variable. Donc le fait de le calculer sans réapprentissage brise complètement la définition de la notion de l’étendue. 51 6 6 192 6 6 6 6 3 6 6 6 Chapitre 3 3.4. Application sur les données simulées 50 observations 100 observations 200 observations 0.2 0.2 0.2 0.15 0.15 0.15 0.1 0.1 0.1 0.05 0.05 0.05 0 0 10 10 2 0 0 10 10 2 0 0 10 10 2 Fig. 3.2: Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec tous les scores. Chaque panneau correspond à une taille. Le nombre de variables est fixé à 200. A la lumière des résultats exposés par les tableaux 3.4 et 3.5, le score Spb0 ne sera plus considéré dans les prochaines applications. La figure 3.2 montre l’évolution du taux d’erreur des modèles emboîtés obtenus suite à l’application de notre procédure décrite dans le tableau 3.3. Chaque panneau correspond à une taille et chaque courbe correspond à un score. Le taux d’erreur est estimé sur un échantillon test 50 fois plus grand que celui d’apprentissage. Nous remarquons que toutes les courbes partagent la même allure : elles décroissent pour atteindre un certain minimum global à partir duquel elles croissent. La forme de la courbe qui correspond au score ∆Spbr paraît un peu différente au niveau du premier panneau. De plus, le minimum global est atteint au bout de l’introduction de la quatrième variable pour tous les scores. Enfin, le taux d’erreur diminue en augmentant la taille de l’échantillon. La figure 3.3 nous donne une idée plus claire sur le premier panneau de la figure 3.2. 3.4.3 Effet du nombre de variables Dans un premier temps, nous vérifions la capacité des différents scores à bien classer les variables importantes, les six premières, en variant le nombre de variables bruits. Nous évaluons la capacité de notre procédure de sélection à repérer le sous-ensemble optimal de variables en augmentant le bruit. Nous menons les mêmes expériences que précédemment en fixant la taille de l’échantillon à 52 Chapitre 3 3.4. Application sur les données simulées 50 observations & 200 variables 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0 0 10 0.05 ∂RW ∂Spb 10 1 10 0 0 10 2 0.2 0.2 0.15 0.15 0.1 0.1 ∂W 0 W 0.05 0 Spb r ∆Spb 10 1 0 RW0 RW r ∆RW 0.05 r FDS 0 0 10 10 1 10 0 0 10 2 10 r 2 10 1 10 r 2 Fig. 3.3: Zoom sur le premier panneau de la figure précédente. l = 50 et le nombre de variables p à 500 puis à 1000. Les quatre premières variables importantes occupent les quatre premières positions de toutes les hiérarchies quel que soit le nombre de variables. Score / # de variables 200 500 1000 F DS 7 18 182 0 RW 10 11 180 ∆RWr 10 12 473 ∆Spbr 103 10 602 Wr0 10 12 180 0 RWr 10 12 178 Spb0r 19 10 176 ∂W 10 12 179 ∂RW 10 11 182 ∂Spb 9 10 594 Tab. 3.6: Effet du nombre de variables. Rang maximal au bout duquel sont apparues les six variables importantes. p = 200, 500, 1000 et l = 50. Le tableau 3.6 montre les rangs maximaux auxquels sont apparues les six variables importantes dans les différentes hiérarchies. Les variables 5 et 6 apparaissent tôt dans la hiérarchie en utilisant 500 variables et plus tard en utilisant 1000 variables. La figure 3.4 donne les courbes des taux d’erreur des modèles emboîtés. La forme des courbes est la même pour tous les sores quel que soit le nombre de variables. Le modèle incluant uniquement les 4 premières variables des hiérarchies réalise un taux 53 Chapitre 3 3.4. Application sur les données simulées Mean test error : 500 features Mean test error : 1000 features 0.35 0.35 0.3 0.3 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 10 10 1 10 2 10 3 0 0 10 10 1 10 2 10 3 Fig. 3.4: Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec tous les scores. Le panneau de gauche correspond à 500 variables et celui de droite correspond à 1000 variables. La taille de l’échantillon est égale à 50. d’erreur de l’ordre de 1%. Pour toutes les hiérarchies le taux d’erreur minimal est atteint en utilisant 7 variables parmi les 500 (0.8%), et 6 variables parmi les 1000 (0.76%). 3.4.4 Stabilisation des scores par bootstrap L’objectif des expériences menées dans ce paragraphe est de vérifier la stabilité des scores utilisés vis-à-vis des données d’apprentissage. Il est bien connu que la réestimation d’un modèle SVM en l’absence d’une observation non vecteur support de l’échantillon d’apprentissage ne change rien au paramètres du modèle déjà estimé en présence de toutes les observations disponibles. Néanmoins, nous allons mettre en évidence l’instabilité des scores considérés suite à l’omission d’une observation, que ce soit vecteur support ou pas. La figure 3.5 montre que la hiérarchie issue du score Wr0 est considérablement affectée surtout lorsque nous supprimons une observation vecteur support. Chaque graphique croise la hiérarchie obtenue en présence de toutes les observations (l’axe des ordonnées) avec celle obtenue suite à l’élimination d’une observation (l’axe des abscisses). Chaque panneau de la première ligne, respectivement de la deuxième ligne, correspond à la suppression d’une observation vecteur support, respectivement non vecteur support, choisie au hasard. Comme attendu les scores des variables sont complètement perturbés quand une observation vecteur support est omise. Cette perturbation est plus légère quand il s’agit d’une observation 54 Chapitre 3 3.4. Application sur les données simulées W 0 r : 50 observations & 200 variables 200 200 200 150 150 150 100 100 100 50 50 50 0 0 100 200 0 0 100 200 0 200 200 200 150 150 150 100 100 100 50 50 50 0 0 100 200 0 0 100 200 0 0 100 200 0 100 200 Fig. 3.5: Instabilité de la hiérarchie des variables suite à l’élimination d’une observation vecteur support (Les trois panneaux de la première ligne) et d’une observation non vecteur support (Les trois panneaux de la deuxième ligne). non vecteur support. Cette instabilité est vérifiée pour tous les scores considérés dans ce mémoire surtout lorsqu’il s’agit de la suppression d’une observation vecteur support. Une idée naturelle consiste à estimer la densité de ces scores par bootstrap. La figure 3.6 montre les distributions estimées sur 500 échantillons bootstrap du score ∂Spb calculé pour les neuf premières variables (les six premières sont importantes et les trois suivantes représentent du bruit). La ligne verticale interrompue désigne la valeur moyenne de la distribution, et celle continue représente la valeur du score calculée sur la base de toutes les observations disponibles. Pour les six premières variables les plus importantes par définition, la distribution bootstrap montre une grande variabilité et la valeur moyenne du score est significativement inférieure à sa valeur observée. Pour les variables bruits la distribution est beaucoup moins variable et la valeur moyenne du score est très proche de celle observée. Le tableau 3.7 donne les six variables occupant les premières positions et fournit le rang auquel apparaît la variable 6 dans la hiérarchie. Ces hiérarchies sont établies selon la valeur moyenne du score calculée sur 500 échantillons bootstrap (l = 50 et p = 200). En comparant les résultats des tableaux 3.4, 3.5 et 3.7, il ressort que l’utilisation de la valeur moyenne par bootstrap au lieu de la valeur observée du score, améliore le classement des variables importantes dans la hiérarchie. 55 Chapitre 3 3.5. Application sur les données réelles (1) (2) (3) 60 60 60 40 40 40 20 20 20 0 1 2 (4) 3 0 1 2 (5) 3 0 60 60 60 40 40 40 20 20 20 0 1 2 (7) 3 0 1 2 (8) 3 0 60 60 60 40 40 40 20 20 20 0 1 2 3 0 1 2 3 0 1 2 (6) 3 1 2 (9) 3 1 2 3 ∂Spb : 50 observations & 200 variables (500 bootstrap samples) Fig. 3.6: Distribution bootstrap du score ∂Spb pour les 9 premières variables. La valeur moyenne est représentée par la ligne verticale interrompue. La ligne verticale continue représente la valeur observée en présence de toutes les observations. 3.5 Application sur les données réelles Pour toutes les données réelles utilisées ici, nous ne disposons pas d’amples informations biologiques sur les gènes déterminants dans l’explication de la maladie en question. Ainsi, l’interprétation des résultats obtenus par notre procédure de sélection de variables est d’aspect purement statistique. 3.5.1 La démarche suivie Cette section est consacrée à l’application de notre procédure sur les quatre jeux de données réelles présentés dans le paragraphe 3.3.2. Pour Leukemia un échantillon test est aussi fourni ; il sera utilisé pour la comparaison des performances des différents scores sur ce jeu de données. Notons que les quatre jeux de données considérés sont linéairement séparables, nous utiliserons donc des modèles SVM linéaires standards. Les taux d’erreur moyens, estimés par 50 partages aléatoires stratifiés, enregistrés sur ces jeux de données en utilisant toutes les variables avec les SVM linéaires sont : Colon : 0.17, Lymphoma : 0.06, Prostate : 0.075. Pour Leukemia, le taux d’erreur estimé sur l’échantillon test est de l’ordre de 0.206. Pour les quatre jeux de données nous avons appliqué la procédure décrite dans le tableau 3.3 56 Chapitre 3 3.5. Application sur les données réelles F DS RW 0 ∆RWr ∆Spbr Wr0 RWr0 Spb0r ∂W ∂RW ∂Spb 1 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 3 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 3 3 3 3 3 3 3 3 3 3 6 Rang de la sixième variable 122 8 123 8 22 8 123 8 123 8 22 8 123 8 123 8 123 8 123 8 Tab. 3.7: Rangs des six premières variables. Les hiérarchies sont établies selon la valeur moyenne sur 500 échantillons bootstrap. p = 200 et l = 50. moyennant quelques petites modifications concernant le calcul des scores, avec ou sans bootstrap, et la façon d’estimer la performance des modèles de la suite emboîtée. Pour Leukemia, le taux d’erreur est toutefois estimé sur l’échantillon test. Pour Colon, Lymphoma et Prostate, nous avons essayé trois méthodes pour estimer le taux d’erreur : par 50 partages aléatoires stratifiés, par 10 validations croisées et par leave-one-out. Nous avons choisi de retenir la première méthode6 vu qu’elle permet de sélectionner plus de variables que les deux autres. En plus elle fournit des courbes d’erreur beaucoup plus lisses que celles rendues par validation croisée des courbes qui sont plutôt en escalier. 3.5.2 Comparaison des résultats La figure 3.7 montre l’évolution du taux d’erreur moyen estimé sur 50 partages aléatoires stratifiés pour le jeu de données Colon. Les hiérarchies sont établies sur la base des scores moyens calculés sur 100 échantillons bootstrap. Chaque courbe correspond à un score. Les courbes qui paraissent similaires sont superposées. Les chiffres mis dans les légendes des graphiques désignent le nombre optimal de variables sélectionnées par notre procédure. Nous remarquons que notre approche de sélection réalise un taux d’erreur nul avec 7 scores parmi les 10 utilisés. Le score F DS semble rendre le plus mauvais résultat. Afin d’examiner les similarités entre les scores, nous avons calculé les coefficients de corrélation des rangs de Spearman entre les 10 scores. Le tableau 3.8 présente la matrice de corrélations obtenue pour les 10 hiérarchies établies par bootstrap sur Colon. À partir de l’examen de la matrice de corrélation, nous remarquons principalement une forte 6 Pour des raisons d’homogénéité des comparaisons, nous avons utilisé le même partage pour tous les scores sur chaque jeu de données. 57 Chapitre 3 3.5. Application sur les données réelles ∂RW : 55 ∂Spb : 17 0.5 0 r 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 10 10 0 0 10 2 ∂W : 40 0 W : 40 0.5 FDS : 3 RW 0 : 55 RW r : 45 ∆RW : 43 r 0.4 0.3 0.2 0.2 0.1 0.1 10 2 0 0.3 0 0 10 10 0.5 r 0.4 Spb : 44 r ∆Spb : 36 0.5 0 0 10 2 10 2 Fig. 3.7: Résultat sur Colon avec bootstrap : taux d’erreur moyen estimé par 50 partages aléatoires stratifiés. corrélation entre les rangs issus des scores RW 0 et ∂RW d’une part, et des scores Wr0 et ∂W d’autre part. Les corrélations sont très proches de 1 malgré l’absence de parfaites équivalences entre ces scores. Le tableau 3.9 donne le nombre de variables nécessaires pour atteindre le taux d’erreur minimal avec et sans bootstrap. Pour des raisons d’accélération, notons que pour les jeux de données Lymphoma et Prostate, nous avons construit les suites de modèles emboîtés en introduisant les variables par paquet de dix. Une fois l’optimum localisé, nous avons affiné les résultats. L’approche par bootstrap sélectionne plus de variables que celle sans bootstrap et les taux d’erreur qu’elle réalise sont généralement moins optimistes. Les taux d’erreur ont été estimés également par leave-one-out et par 10 validations croisées. Les résultats obtenus sont très proches de ceux trouvés par 50 partages aléatoires stratifiés mais légèrement plus optimistes. À ce niveau, deux questions semblent intéressantes à explorer : celle du nombre de variables communes retenues par les différents scores et celle du nombre de variables retenues par le même score calculé avec ou sans bootstrap. Le tableau 3.10 présente le nombre de variables communément sélectionnées par chaque paire de scores pour Colon en procédant par bootstrap. On retrouve sur la diagonale le nombre de variables sélectionnées par chaque score. Les résultats de ce tableau confirment les fortes corrélations rencontrées au niveau du tableau 3.8. Les scores RW 0 et ∂RW et les scores Wr0 et ∂W retiennent exactement les mêmes paquets variables. Le tableau 3.11 donne le nombre de variables communément sélectionnées par chaque score 58 Chapitre 3 F DS RW 0 ∆RWr ∆Spbr Wr0 RWr0 Spb0r ∂W ∂RW ∂Spb 3.5. Application sur les données réelles F DS 1 RW 0 0.21 1 ∆RWr 0.12 0.86 1 ∆Spbr 0.17 0.49 0.39 1 Wr0 RWr0 0.31 0.31 0.74 0.31 0.49 0.14 0.69 0.63 1 0.81 1 Spb0r 0.23 0.5 0.36 0.45 0.57 0.5 1 ∂W ∂RW 0.31 0.21 0.74 0.99 0.49 0.86 0.69 0.49 0.99 0.74 0.81 0.31 0.57 0.5 1 0.74 1 ∂Spb 0.19 0.55 0.45 0.76 0.76 0.68 0.33 0.76 0.55 1 Tab. 3.8: Colon : matrice de corrélation des rangs de Spearman pour les 10 scores calculés par 100 échantillons bootstrap. Colon F DS RW 0 ∆RW r ∆Spbr Wr0 RW 0r Spb0r ∂W ∂RW ∂Spb AB 0.117(3) 0(55) 0(43) 0.005(36) 0.005(40) 0(45) 0.013(44) 0.005(40) 0(55) 0.005(17) SB 0.117(3) 0(25) 0(17) 0.063(384) 0(28) 0(17) 0.006(64) 0(28) 0(25) 0(23) Leukemia AB SB 0.088(7) 0.058(133) 0.088(22) 0.088(15) 0.118(15) 0.058(3) 0.118(16) 0.058(13) 0.118(2) 0.118(48) 0.118(15) 0.058(3) 0.088(17) 0.058(13) 0.118(2) 0.118(48) 0.088(22) 0.088(15) 0.118(11) 0.058(13) Lymphoma AB SB 0.034(88) 0.028(82) 0(44) 0(37) 0(111) 0(93) 0(54) 0(43) 0(66) 0(103) 0(108) 0(97) 0(50) 0(77) 0(65) 0(103) 0(44) 0(37) 0(83) 0(82) Prostate AB 0.034(195) 0.022(27) 0.02(40) 0.005(95) 0.024(42) 0.02(40) 0.007(53) 0.024(42) 0.022(27) 0.001(102) SB 0.037(84) 0.007(860) 0.015(421) 0.004(102) 0.012(1034) 0.015(418) 0.006(79) 0.012(1030) 0.007(860) 0.002(27) Tab. 3.9: Nombre de variables (mis entre parenthèses) nécessaires pour atteindre le taux d’erreur minimal, Avec Bootstrap (AB) et Sans Bootstrap (SB). lorsqu’il est calculé avec ou sans bootstrap. En joignant ces résultats à ceux exposé dans le tableau 3.9, nous pouvons voir que presque pour tous les scores et pour tous les jeux de données, les variables sélectionnées sans bootstrap sont aussi sélectionnées par bootstrap. 3.5.3 Biais de sélection Nous considérons que les résultats obtenus dans le paragraphe précédent sur les jeux de données Colon, Lymphoma et Prostate, sont optimistes et présentent donc un biais de sélection. Ceci est dû principalement au fait que la hiérarchie des variables a été calculée à partir de toutes les données disponibles (cf. Ambroise et MacLachlan [7], Reunanen et al. [79]). L’idée est donc d’appliquer notre procédure de sélection dans une étape externe à la phase d’évaluation des performances du modèle optimal retenu. Pour ce faire, nous réalisons une validation croisée de la procédure décrite dans le tableau 3.3. Les données disponibles sont partitionnées en V = 10 59 Chapitre 3 F DS RW 0 ∆RWr ∆Spbr Wr0 RWr0 Spb0r ∂W ∂RW ∂Spb 3.5. Application sur les données réelles F DS 3 RW 0 1 55 ∆RWr 2 38 43 ∆Spbr 1 32 25 36 Wr0 1 40 37 27 40 RWr0 2 39 43 26 38 45 Spb0r 1 35 27 29 29 28 44 ∂W 1 40 37 27 40 38 29 40 ∂RW 1 55 38 32 40 39 35 40 55 ∂Spb 2 15 16 14 15 16 15 15 15 17 Tab. 3.10: Comparaison des scores sur Colon : nombre de variables communes sélectionnées par les différents scores calculés avec bootstrap. F DS RW 0 ∆RWr ∆Spbr Wr0 RWr0 Spb0r ∂W ∂RW ∂Spb colon lymphoma leukemia Prostate 3 21 7 84 25 4 15 27 17 10 3 40 35 5 11 61 26 9 2 42 17 10 3 40 23 7 11 42 26 9 2 42 25 4 15 27 15 3 8 27 Tab. 3.11: Nombre de variables sélectionnées par un même score calculé avec ou sans bootstrap. parts égales par stratification, chaque partie joue le rôle d’échantillon test et son complémentaire est utilisé dans la procédure initiale du tableau 3.3. La procédure tenant compte du biais de sélection est décrite dans le tableau 3.12. Ainsi la hiérarchie des variables est calculée V fois en procédant par bootstrap et V modèles optimaux avec leurs nombres de variables et leurs performances sont obtenus. Nous n’allons employer ici que les scores d’ordre un car ils sont beaucoup moins coûteux en temps de clacul comparativement aux autres scores. Le nombre moyen de variables et le taux d’erreur minimal moyen sont présentés dans le tableau 3.13. En confrontant les résultats du tableau 3.13 à leurs correspondants obtenus dans le tableau 3.9, nous remarquons que les performances des modèles sont systématiquement dégradées. La dégradation est d’autant plus significative que le jeu de données comporte moins de variables. Les taux d’erreurs sont plus réalistes que les résultats obtenus sans validation croisée. Cependant, les gènes sélectionnés et leur nombre sont différents et très variables pour chaque échantillon de validation croisée. Ces taux sont donc des moyennes de performances de modèles très 60 Chapitre 3 3.6. Simulations dans le cas non-linéaire Soit D le jeu de données, et B le nombre d’échantillons bootstrap. Partitionner D avec stratification, D1 , ..., D10 . Soit D−j = D − Dj . Pour j = 1, . . . , 10 Score(D−j ,B) et conserver la hiérarchie X (1) , ..., X (p) Pour k = 1,¡. . . , p ¢ M k = f X (1) , ..., X (k) Erk = T estRS (M k , D−j ) koptj = Argmink {Erk } erj = Erreur moyenne de M koptj sur Dj . P10 1 Calcul de er ¯ = 10 j=1 erj . Tab. 3.12: 10-validations croisées de la procédure de sélection de variables décrite dans le tableau 3.3. Score/Données Colon Lymphoma Prostate ∂W 0.233 (35.1) 0.051 (86.5) 0.054 (756.6) ∂RW 0.214 (43.3) 0.042 (71) 0.053 (573.3) ∂Spb 0.197 (31.8) 0.073 (70.5) 0.052 (95.5) Tab. 3.13: Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées est entre parenthèses. différents a priori les uns des autres n’utilisant pas les mêmes sous-ensembles de variables. La figure 3.8 fournit les boxplots du taux d’erreur et du nombre de variables réalisés par les trois scores d’ordre un sur les trois jeux de données. 3.6 Simulations dans le cas non-linéaire Nous nous proposons maintenant d’évaluer la capacité des différents scores à retrouver les variables importantes lorsqu’il s’agit de données non-linéairement séparables. À cette fin, nous nous sommes limités à quelques essais d’hiérarchisation menés sur des données synthétiques largement répandues dans la littérature. Nous commençons par donner un descriptif de ces données puis nous exposons les résultats auxquels nous sommes parvenus. 3.6.1 Descriptif des données Ces données ont été introduites par Weston et al. [99]. Dans le cas de classification binaire avec des données non-linéairement séparables, les deux premières variables déterminent entièrement le modèle, les autres peuvent être assimilées à du bruit. Les deux classes sont équiprobables ; Pr (y = 1) = Pr (y = −1) = 12 . 61 Chapitre 3 3.6. Simulations dans le cas non-linéaire ∂W ∂RW ∂W ∂Spb ∂RW ∂W ∂Spb ∂RW ∂Spb 0.5 0.25 0.2 Error 0.4 0.2 0.15 0.3 0.15 0.1 0.2 0.1 0.1 0.05 0 0 0.05 0 Colon Lymphoma 100 Prostate 3000 200 2500 # of features 80 150 2000 60 1500 100 1000 40 500 50 20 0 Fig. 3.8: Variation du taux d’erreur et du nombre de variables au cours des 10 validations croisées. x 1 x 2 140 180 160 120 140 100 Fréquence Fréquence 120 80 60 100 80 60 40 40 20 20 0 -4 -2 0 2 4 0 -2 -1 0 1 2 Fig. 3.9: Estimation des distributions des deux premières variables des données simulées nonlinéaires ; les deux variables qui déterminent le modèle. 5000 observations sont utilisées. • Pour y = −1, les deux premières variables {x1 , x2 } sont tirées d’une façon équiprobable © ª selon deux gaussiennes, N (µ1 , I2 ) et N (µ2 , I2 ) de moyennes respectives7 µ1 = 34 , 3 et © ª µ2 = − 34 , −3 . • Pour y = 1, les deux premières variables {x1 , x2 } sont tirées d’une façon équiprobable selon deux gaussiennes, N (µ1 , I2 ) et N (µ2 , I2 ) de moyennes respectives µ1 = {3, −3} et µ2 = {−3, 3} . • Les autres variables constituent du bruit, xi ∼ N (0, 20), i = 3, . . . , p. Comme pour les données linéaires, on procède au préalable à une normalisation des données en centrant et réduisant toutes les variables. La figure 3.9 fournit une estimation par histogramme de la densité des deux premières variables importantes par construction. 7 I2 est la matrice identité d’ordre 2. 62 Chapitre 3 3.6. Simulations dans le cas non-linéaire Ces données sont parfaitement séparables par un hyperplan dans l’espace induit par un noyau polynomial de degré 2. D’autres auteurs comme Rakotomamonjy [77] ont par contre utilisé un noyau gaussien de paramètre σ = 3. 3.6.2 Résultats et discussion Nous cherchons à vérifier la capacité des scores SVM à bien classer les deux premières variables importantes parmi un grand nombre de variables bruits. Nous fixons la taille de l’échantillon à l = 80 et nous faisons varier le nombre de variables p de 50, 100, 200 et 300. Les variables sont rangées par ordre décroissant d’importance selon la valeur moyenne de chaque score calculée sur 100 échantillons bootstrap. Compte tenu des équivalences prouvées dans le paragraphe 3.2.6, nous ne considérons pas tous les scores SVM. Chaque ligne du tableau 3.14 donne les rangs auxquels sont apparues dans la hiérarchie une puis les deux variables importantes. Score/# de variables F DS W0 RW 0 Wr0 RWr0 Spb0r ∆RWr ∆Spbr ∂W ∂RW ∂Spb 50 20 44 1 2 2 4 1 2 1 2 1 2 2 3 1 2 1 2 1 2 1 2 100 28 71 1 3 3 17 2 4 14 23 1 2 18 28 1 2 1 4 1 4 1 2 200 132 198 1 33 1 65 1 41 49 86 1 13 72 179 1 22 1 35 1 37 1 22 300 30 161 80 159 45 86 92 170 214 221 8 174 219 297 15 181 30 161 73 179 2 180 Tab. 3.14: Pour 50, 100, 200 et 300 variables, chaque ligne donne les rangs auxquels sont apparues dans la hiérarchie une puis les deux variables importantes. La taille de l’échantillon est fixée à 80. La médiocrité du score de discrimination de Fisher F DS n’est pas surprenante puisque, 63 Chapitre 3 3.6. Simulations dans le cas non-linéaire par définition, il ne peut détecter que la dépendance linéaire. Pour les scores dérivés des SVM, nous remarquons que les deux variables importantes apparaissent de plus en plus tard dans la hiérarchie en augmentant le nombre de variables. En outre, les scores Spb0r , ∆Spbr et ∂Spb semblent dominer légèrement les autres. 80 observations Taux d'erreur 50 variables 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0.1 0.1 0 0 10 10 1 10 2 0 0 10 Taux d'erreur 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2 10 1 10 10 1 10 2 300 variables 200 variables 0.6 0.1 0 10 100 variables 2 10 3 0.1 0 10 FDS ∂W ∂RW ∂Spb 10 1 10 2 10 3 Fig. 3.10: Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec les scores SVM d’ordre un et le score FDS. On fait varier le nombre de variables d’un panneau à un autre. La taille de l’échantillon est fixée à 80. La figure 3.10 donne une idée sur l’évolution du taux d’erreur des modèles emboîtés calculé sur un échantillon test dix fois plus grand que celui d’apprentissage. Le nombre d’observations est fixé à l = 80 et nous faisons varier le nombre de variables p de 50, 100, 200 et 300. Notre procédure est incapable d’identifier le modèle optimal en utilisant le score F DS quel que soit le nombre de nombre de variables. Les scores SVM s’avèrent plus performants et plus particulièrement celui basé sur le critère Spb. En comparant ces résultats à ceux donnés dans le tableau 3.6, nous pouvons conclure que la dégradation des performances de ces scores en fonction du nombre de variables est d’autant plus rapide dans le cas de dépendance non-linéaire. Cette dégradation peut être expliquée par les renseignements apportés par le paragraphe 3.2.6. En effet, le plongement des observations dans l’espace transformé entraîne une forte combinaison des variables explicatives (ayant la forme de l’expression (3.11) pour un noyau polynomial). Par conséquent, l’importance de toute variable de l’espace de départ ne pourra jamais être mesurée individuellement dans l’espace transformé, quelle que soit la manière d’évaluation de la contribution de cette variable aux trois critères W, RW et Spb. 64 Chapitre 3 3.7 3.7. Conclusion Conclusion Nous avons proposé un algorithme de sélection de variables pour la classification binaire en grande dimension. Notre procédure est du type stepwise et elle est basée sur différents scores dérivés des SVM. En s’inspirant du travail de Guyon et al. [45], nous avons complété la liste des scores introduits par Rakotomamonjy [77]. Afin de remédier à l’instabilité de ces scores vis-à-vis des données, nous avons proposé de les estimer par bootstrap comme l’a fait Breiman dans [17] pour stabiliser les prédicteurs. Une fois la hiérarchie établie, nous construisons une suite croissante de modèles emboîtés en introduisant les variables séquentiellement dans l’ordre décroissant d’importance. Contrairement à d’autres procédures de sélection de variables, la notre permet de déterminer la taille exacte du paquet optimal. Le choix du nombre de variables à retenir dans le modèle a été souvent un problème bien complexe. D’un point de vue théorique nous avons établi des équivalences entre les hiérarchies fournies par certains scores dans le cas linéaire ainsi que dans le cas non-linéaire en utilisant des noyaux polynomiaux. Une explication de l’effet du réapprentissage sur les scores d’ordre zéro et par différence a été également donnée. D’un point de vue pratique les résultats obtenus dans le cas linéaire sur des données simulées et réelles de biopuces sont très satisfaisants pour tous les scores, sauf pour Spb0 . De fortes similarités entre les scores RW 0 et ∂RW et les scores Wr0 et ∂W sont mises en évidence. L’étude comparative intensive menée sur les scores SVM montre une légère différence entre les paquets des variables choisies. Les scores d’ordre un ont l’avantage majeur d’être beaucoup moins coûteux en temps de calcul. Par ailleurs, les résultats obtenus sur des données simulées non-linéaires sont nettement moins satisfaisants en présence d’un grand nombre de variables et de peu d’observations. Néanmoins, nous pouvons affirmer qu’en dimensions raisonnables, les scores dérivés des SVM constituent un moyen efficace pour retrouver les variables importantes dans le cas de dépendance non-linéaire. Un contexte là où nous ne disposons pas de suffisamment d’instruments statistiques pour accomplir une telle tâche avec succès. Il pourrait être intéressant de comparer ces scores sur des données dont on connait les propriétés biologiques pour pouvoir en déterminer le plus performant. Dans l’attente d’une telle occasion, nous nous proposons de comparer notre approche à d’autres méthodes récentes de sélection de variables. Cette comparaison fera l’objet du prochain chapitre. 65 66 Chapitre 4 Comparaison de méthodes de sélection de variables pour la classification binaire en grande dimension 4.1 4.1.1 Introduction Généralités Le problème de sélection de variables est crucial dans le domaine de l’apprentissage statistique et plus particulièrement dans le cadre de la classification supervisée. Les méthodes de sélection consistent à retenir un sous-ensemble de m variables parmi les p >> m variables disponibles. Une méthode de sélection de variables comprend généralement les trois composantes suivantes : • Un algorithme de recherche permettant d’explorer l’espace des combinaisons de variables. • Un critère d’évaluation pour mesurer la qualité d’un sous-ensemble de variables. • Une condition d’arrêt pour stopper la procédure de recherche. Selon Pudil et al. [75], la sélection de variables est vue comme un problème de recherche d’un sous-ensemble optimal de caractéristiques par rapport au critère de qualité utilisé. Ce problème est mal posé dans le sens qu’il peut y avoir plusieurs sous-ensembles de même taille et de même qualité. De plus, la non-monotonie du problème de sélection de variable est à l’origine de sa complexité. Cette propriété se traduit par le fait que “le meilleur” sous-ensemble de m variables ne contient pas forcément “le meilleur” sous-ensemble de m0 variables, (m0 < m) . Nous nous intéressons ici à la réduction de la dimension de l’espace des variables explicatives, Chapitre 4 4.1. Introduction sans pour autant transformer ses composantes comme dans les méthodes d’analyse factorielle. Dans ce contexte, les méthodes de sélection de variables diffèrent selon la nature de la solution trouvée (optimale ou sous-optimale), selon la nature de l’algorithme utilisé (déterministe ou stochastique) et selon la nature du critère d’évaluation adopté (filter ou wrapper). Kohavi et al. [57] et Guyon et al. [44] ont réparti les méthodes existantes en trois grandes catégories, selon le type du critère de sélection et la façon dont il est pris en compte dans la procédure de classification. La première catégorie dite ”filter” (ex : critère de discrimination de Fisher), évalue l’importance des variables en utilisant un critère statistique indépendant a priori du classifieur. La deuxième catégorie dite ”wrapper” (ex : notre procédure introduite dans le chapitre précédent et l’algorithme SVM-RFE, Guyon et al. [45]), intègre les performances prédictives du classifieur dans la procédure de recherche et d’évaluation de la qualité des sousensembles de variables. Les méthodes wrapper utilisent certaines propriétés du prédicteur utilisé. Quant à la troisième catégorie dite ”embedded” (ex : l’approche GLMpath de Park et al. [66], zero-norm-SVM de Weston et al. [99], 1-norm-SVM par Zhu et al. [101], les approches introduites par Neumann et al. [65] et par Chapelle et al. [23],...etc.), elle combine la sélection de variables et l’estimation du modèle en une seule tâche. John et al. [53] prétendent que l’approche wrapper est plus appropriée puisqu’elle utilise le taux de reconnaissance de la règle de classification comme critère d’évaluation de la pertinence du sous-ensemble de variables. La méthode de recherche exhaustive du sous-ensemble de variables optimal est irréaliste même pour un nombre de variables p assez modéré. Quand le nombre de variables désiré m n’est pas fixé au préalable, le nombre total des sous-ensembles en concurrence est donné par 2p − 1. Même si la valeur de m est décidée à l’avance, le nombre de sous-ensembles à évaluer est égal à p! (p−m)!m! ce qui trop élevé pour effectuer une recherche exhaustive. La seule alternative non-exhaustive permettant de trouver la solution optimale un peu plus rapidement est l’algorithme Branch-and-Bound (cf. Narenda et al. [64]). L’inconvénient majeur de cet algorithme c’est qu’il exige la monotonie du critère d’évaluation employé. Cela veut dire que l’ajout d’une nouvelle variable au sous-ensemble courant ne doit pas décroître la valeur actuelle du critère. Malheureusement, cette contrainte n’est pas satisfaite par la plupart des critères utilisés dans le contexte de sélection de variables. Malgré les différentes améliorations introduites à cet algorithme (cf. Yu et al. [100] et Somol et al. [83]), il reste inapplicable en grande dimension vue sa complexité prohibitive. Afin de contourner le problème de l’explosion combinatoire, il y a eu recours à des stratégies 67 Chapitre 4 4.1. Introduction de recherche sous-optimale réalisant une introduction séquentielle des variables de différentes manières. Ces heuristiques sont basées sur des parcours séquentiels et elles consistent à rajouter ou/et à éliminer itérativement des variables. Ces méthodes sont connues pour leur simplicité de mise en œuvre et leur rapidité. Ces heuristiques existent dans les deux versions déterministe et stochastique. Les méthodes stochastiques, telles que les algorithmes génétiques (cf. Raymer et al. [78]), sont comparables en performance mais très coûteuses en temps de calcul. 4.1.2 Méthodes séquentielles standards Les algorithmes de sélection séquentielle de variables sont des heuristiques déterministes basées sur des parcours séquentiels pour la recherche du meilleur sous-ensemble de variables. Plusieurs travaux se sont intéressés au développement et à l’amélioration de ces méthodes. Dans les algorithmes séquentiels, il est possible de partir d’un ensemble de variables vide et d’ajouter (forward) des variables, les plus significatives, à celles déjà sélectionnées (ex : SFS (cf. Kittler [55] et Devijver et al. [28]), GSFS et GSFS(r) (cf. Kittler [55])), ou de partir de l’ensemble de toutes les variables et d’en éliminer (backward) les moins significatives vis-à-vis du critère d’évaluation utilisé (remplacer la lettre F par la lettre B dans les acronymes précédents). Cette recherche séquentielle est répétée jusqu’à satisfaire la condition d’arrêt de l’algorithme. D’autres procédures de recherche alternant les deux stratégies forward et backward ont été également proposées (ex : PTA(l,r) (cf. Kittler [55]), GPTA(l,r) (cf. Devijver et al. [28]), (SFFS ) (cf. Pudil et al. [75]) et (ASFFS (r max , b, d)) (cf. Somol et al. [84])). Des versions backward de ces algorithmes sont aussi disponibles. Les résultats des études comparatives excessives menées durant les années précédentes (cf. Ferri et al. [34], Jain et al. [52], Kudo et al. [59] et Acuña [3]), ont mis en évidence l’efficacité des approches flottantes même dans des problèmes de moyennes dimensions. Il est aussi à signaler que l’algorithme SFFS assure le bon arbitrage entre le temps de calcul et la qualité du sous-ensemble de variables sélectionnées. Somol et al. [84], Somol et al. [76] et Pernkopf [67] ajoutent que l’amélioration apportée par la version adaptative est marginale comparativement à la méthode flottante simple. De plus, cette amélioration est accomplie au prix d’une complexité accrue. Finalement ces algorithmes sont généralement appliqués à des problèmes de taille réduite ou moyenne, c’est-à-dire que le nombre de variables de départ est inférieur à quelques dizaines. Pour un nombre supérieur il semble que peu d’algorithmes soient efficaces. Nous avons commencé ce travail par tester l’efficacité de la procédure SFFS sur les données 68 Chapitre 4 4.1. Introduction simulées. Nous avons fini par l’abandonner en raison de sa forte dépendance de l’ordre des variables dans les données d’origine. En effet, une simple permutation des variables change complètement le résultat rendu par cette procédure. 4.1.3 Les méthodes choisies Ce bref survol des différentes méthodes de sélection d’attributs montre que l’approche “stepwise”, d’introduction séquentielle de variables est la technique la plus courante dans ce contexte. Elle a été utilisée avec les modèles linéaires, la régression logistique et l’analyse discriminante. Pour des modèles non-paramétriques, peu d’outils permettent d’établir une sélection. Les arbres de décision (CART, Breiman et al. [19]) et les Forêts Aléatoires (FA, Breiman [18]) offrent une possibilité d’établir une hiérarchie des variables explicatives très liée à la structure du modèle. Plus récemment Guyon et al. [45] et Rakotomamonjy [77] ont suggéré des scores pour chaque variable explicative utilisée dans un modèle de type machine à vecteurs supports, permettant ainsi d’établir une hiérarchie des variables. Une fois une hiérarchie des variables obtenue, il est nécessaire de choisir celles à garder dans le modèle. En se basant sur un score calculé à partir des SVM, Guyon et al. [45] ont proposé un algorithme d’élimination récursive des variables, nommé SVM-RFE. Ben Ishak et al. [12] ont mis au point une procédure du type stepwise, plus fine que la précédente, et se basant sur différents scores estimés par bootstrap. Récemment Park et al. [66] ont abordé la sélection de variables par une approche originale consistant à introduire une pénalité dans le critère d’optimisation utilisé dans la méthode d’estimation des paramètres d’un modèle linéaire. C’est le principe de base de la technique “LARS” (Least Angle Regression1 , Efron et al. [32]) en régression pour le critère des moindres carrées, mais aussi de son équivalent pour les modèles linéaires généralisés pénalisant le critère de vraisemblance, technique dite GLMpath. Ici nous comparons trois approches différentes (SVM, FA, GLMpath) pour parvenir au même objectif : évaluer la capacité de chaque méthode à établir une “bonne” hiérarchie pour les variables explicatives et d’en sélectionner les essentielles pour le modèle. Les comparaisons seront effectuées d’abord sur les données simulées linéaires, puis sur les données réelles utilisées dans le chapitre précédent. Pour les SVM, Nous utiliserons ici deux procédures de sélection de variables basées sur les 1 La lettre“S” qui apparaît dans l’abréviation fait allusion aux méthodes “Lasso” de Tibshirani [88] et “Stagewise” qui sont des cas particuliers de “LARS”. 69 Chapitre 4 4.1. Introduction hiérarchies établies par les scores définis dans la section 3.2. • La première utilise l’algorithme SVM-RFE employé par Guyon et al. [45] et par Rakotomamonjy [77] et décrit dans le tableau 4.1. Cet algorithme a l’avantage d’être rapide puisqu’il élimine la moitié des variables à chaque étape. Par contre, le score ∆W est réestimé à chaque étape. Le modèle conservé est celui pour lequel le taux d’erreur estimé par leave-one-out ou sur 100 échantillons tests stratifiés est minimum. Tant qu’il reste plus que 100 variables : Estimer le modèle SVM et ordonner les variables selon le score ||w||2 calculé par différence . Estimer le taux d’erreur du modèle actuel sur 100 échantillons tests stratifiés. Éliminer la moitié des variables les moins importantes. Pour les 100 variables restantes, les éliminer une par une comme précédemment. Tab. 4.1: SVM-RFE : Élimination récursive des variables. • La deuxième procédure de sélection de variables a été introduite par Ghattas et al. [41] en régression et par Poggi et al. [73] dans un contexte similaire et reprise par Ben Ishak et al. [12] en classification par les SVM. Cette procédure est décrite dans le tableau 3.3. Nous conservons pour les comparaisons faites ultérieurement les trois scores à l’ordre un : ∂W , ∂RW et ∂Spb. En plus de leur fiabilité, ces scores ont l’avantage majeur d’être faciles à calculer. Pour des données disposant d’un grand nombre de variables cette procédure peut être accélérée en introduisant les variables par paquets de taille croissante, avec une croissance très faible en début de procédure, et de plus en plus rapide au fur et à mesure. Notre procédure est plus fine que SVM-RFE, et calcule la hiérarchie des variables par bootstrap une seule fois avant l’introduction séquentielle. De plus, Svetnik et al. [86] ont montré que le fait de recalculer la hiérarchie à chaque étape après élimination de sous-ensembles de variables fait introduire un fort biais dans le calcul de leurs importances. Nous avons programmé les différentes méthodes sous MATLAB et sous R en nous appuyant sur quelques librairies existantes (cf. Canu et al. [20]). Les premières sections introduisent les deux approches FA et GLMpath. La section suivante présentera les résultats des comparaisons. 70 Chapitre 4 4.2 4.2. Sélection basée sur les forêts aléatoires Sélection basée sur les forêts aléatoires Les forêts aléatoires (FA) combinent un grand nombre K d’arbres de décisions binaires construits sur des échantillons bootstrap de l’échantillon d’apprentissage. Ces techniques d’apprentissage par agrégation de modèles sont populaires et sont utilisées dans des applications provenant de domaines très variés. Les particularités des FA sont les suivantes : • Dans la construction des arbres, à chaque noeud un nombre faible de variables est tiré au hasard et la recherche de la meilleure règle de partage est faite sur ce sous ensemble de variables. • Les arbres construits sur chaque échantillon bootstrap ne sont pas optimisés, en particulier ils sont maximaux et non élagués. • Pour chaque arbre, la partie de l’échantillon d’apprentissage non utilisée pour la construction de l’arbre, dite “out of bag sample” (OOB), sert à l’évaluation de l’importance des variables. Notons que deux versions des FA existent : l’une dite “Random Input” qui utilise une seule variable pour chaque règles de décision, et l’autre dite “Random Features” qui utilise une combinaison linéaire des variables sélectionnées à chaque noeud, avec des coefficients tirés aussi au hasard. Les bonnes performances des FA s’expliquent par deux propriétés essentielles : la bonne performance des arbres individuels (qui ont un biais très faible mais une forte variance), et la faible corrélation entre les arbres de la forêt. La corrélation entre arbres est définie comme celle de leurs prévisions sur les échantillons OOB. Le fait qu’un faible nombre de variables soit utilisé à chaque noeud des arbres construits, permet de réduire considérablement la complexité algorithmique des FA. 4.2.1 Hiérarchie des variables Les forêts aléatoires fournissent un moyen original pour le calcul d’un indice d’importance pour les variables. La procédure utilisée est décrite dans le tableau 4.2. L’indice d’importance d’une variable correspond à la diminution en moyenne de la performance d’un arbre de la forêt quand on perturbe aléatoirement les valeurs observées pour cette variable dans l’échantillon OOB. Cet indice peut aussi être basé sur la diminution moyenne d’un autre critère, comme par exemple le critère de Gini utilisé dans la construction des arbres. Les forêts aléatoires dépendent de trois paramètres : le nombre d’arbres, le nombre de variables testées à chaque noeud d’un arbre et le nombre d’observations minimal dans les feuilles 71 Chapitre 4 4.2. Sélection basée sur les forêts aléatoires Initialiser Ni = 0, Mi = 0 et Mij = 0, pour i = 1, . . . , l et j = 1, . . . , p Ni = Nombre de fois où l’observation i apparaît dans un échantillon OOB. Mi = Nombre de fois où l’observation i apparaît dans un échantillon OOB, et est mal classée Mij = Nombre de fois où l’observation i apparaît dans un échantillon OOB, et est mal classée après permutation des valeurs de la variable j dans OOB. Pour chaque variable j = 1, . . . , p Pour chaque arbre de la forêt k = 1, . . . , K Si l’observation i est dans OOBk , Ni = Ni + 1 Si l’observation i est dans OOBk et est mal classée, Mi = Mi + 1 Permuter aléatoirement les valeurs de la variable j dans OOBk Si l’observation i est dans OOBk et est mal classée après permutation, Mij = Mij + 1 P L’importance de la variable j est : 1l li=1 Zi (j) où Zi (j) = (Mij − Mi )/Ni . Tab. 4.2: Importance des variables dans les forêts aléatoires. OOBk est constitué des observations de l’échantillon d’apprentissage qui ne sont pas utilisées dans l’arbre k de la forêt. des arbres. Nous avons utilisé des résultats de Diáz-Uriarte [29] et réalisé quelques simulations préalables afin de choisir un réglage optimal pour ces trois paramètres. • Dans nos expériences 200 arbres ont été construits pour chaque forêt. Au delà, le gain en performances dans nos simulations était négligeable. • Le nombre de variables testées pour chaque nœud d’un arbre est égal à √ p. Cette valeur suggérée par Breiman [18] en classification, a été confirmée par plusieurs travaux (Liaw et Wiener [60], Diáz-Uriarte [29]) qui ont montré son optimalité en terme de performance des forêts sur les échantillons OOB. Une forte diminution de ce paramètre réduit les chances que des variables importantes soient sélectionnées dans les arbres individuels, et dégradent les performances des forêts. • Le nombre d’observations minimum par feuille a été fixé à cinq. La réduction à un de cette valeur n’a pratiquement aucun effet sur l’amélioration des taux d’erreurs des forêts et augmente légèrement le temps de calcul. D’autre part, nous avons pu constater aussi que l’importance des variables dans les forêts aléatoires est : • insensible à la nature du rééchantillonnage utilisé (échantillon bootstrap avec ou sans remise). • stable en présence de variables explicatives corrélées. • invariante vis-à-vis de la normalisation (par l’écart type des Zi (j) calculée dans le tableau 4.2) • stable vis-à-vis de faibles perturbations des données. Il est donc inutile de la calculer par bootstrap. 72 Chapitre 4 4.2.2 4.3. Sélection basée sur les modèles linéaires généralisés Sélection de modèle Nous avons utilisé la procédure séquentielle décrite dans le tableau 3.3 du chapitre précédent en partant de la hiérarchie des variables calculées sur toutes les données sans bootstrap. Notons que l’avantage des forêts aléatoires dans ce contexte est la possibilité de les utiliser aussi en discrimination multiclasse et en régression, ce qui n’est pas le cas des procédures basées sur les SVM. L’inconvénient majeur est le temps de calcul important, essentiellement quand on dispose de plusieurs milliers de variables explicatives. Notons que dans ce contexte Diáz-Uriarte [29] a utilisé une procédure séquentielle descendante où les variables les moins importantes sont éliminées successivement, et le modèle optimal retenu est celui qui minimise l’erreur estimée sur les échantillons OOB. Les auteurs ont signalé que leur procédure a un double biais : elle a tendance à sélectionner très peu de gènes, et les erreurs calculées sur les échantillons OOB sont sous-estimées. 4.3 Sélection basée sur les modèles linéaires généralisés Les modèles linéaires généralisés (GLM), très largement utilisés depuis leur introduction en statistique (McCullagh et al. [62]), sont définis par : g(µ) = β 0 + β 1 x1 + ... + β p xp où µ = E(Y ) = P [Y = 1] est l’espérance de la variable Y ∈ {0, 1}, et g est une fonction dite de lien. Le cas le plus connu que nous utiliserons ici est celui qui correspond à g(µ) = µ , 1−µ i.e. au modèle logistique. L’estimation des paramètres est obtenue par maximum de vraisemblance. 4.3.1 Régularisation de type L1 pour le choix du modèle Park et al. [66] ont suggéré l’estimation des paramètres β k du modèle, sous contrainte de type L1 en pénalisant la vraisemblance : b β(λ) = argminβ {−logL(x; β) + λ kβk1 } où λ > 0 est un paramètre de régularisation, et β = (β 0 , ..., β p ) est le vecteur de paramètres à b estimer. La suite β(λ), 0 < λ < ∞ est appelée le path. Pour une valeur infinie de λ tous les coefficients sont nuls. L’augmentation de la valeur de λ 73 Chapitre 4 4.3. Sélection basée sur les modèles linéaires généralisés contraint plus de coefficients à devenir négligeables, voire nuls. Un algorithme dit predictorb corrector est utilisé pour estimer la suite β(λ) pour différentes valeurs de λ. Cette estimation b se fait en trois étapes. Park et al. [66] ont démontré que les valeurs β(λ) sont constantes par morceaux en λ et il suffit donc de repérer les seuils de changement pour λ. Ils ont procédé par itération de quatre étapes : À chaque étape k, on dispose d’une valeur pour λ, notée λk , et des valeurs β kj associées. 1) Calcul du pas nécessaire pour atteindre λk+1 . 2) Étape “predictor” : calcul d’une approximation linéaire β k+ , de βk+1 . 3) Étape “corrector” : calcul par optimisation convexe de βk+1 , utilisant comme valeur initiale βk+ . 4) Tester si l’ensemble des variables actives (de coefficient non nul), doit être modifié. À chaque itération l’ensemble des variables actives est modifié et on dispose d’une valeur du paramètre de régularisation λk et du modèle qui lui est associé (basé sur l’ensemble des variables actives correspondantes). Le choix du meilleur modèle, donc de la valeur optimale de λ, peut être obtenu par validation croisée, en optimisant soit le taux d’erreur de prévision, soit la vraisemblance. En fin de parcours on ne peut retrouver plus de variables que d’observations. Cette technique est mise en œuvre dans la librairie GLMpath du logiciel libre R. 4.3.2 Hiérarchie des variables Contrairement aux approches décrites dans les sections précédentes, GLMpath ne propose pas un moyen direct pour calculer un score pour chacune des variables. On dispose uniquement d’un ensemble optimal de variables, en nombre plus faible que le nombre d’observations. Pour établir une hiérarchie des variables nous avons choisi d’utiliser B échantillons bootstrap de l’échantillon d’apprentissage S. Sur chaque échantillon un modèle optimal est recherché, et la valeur des coefficients pour toutes les variables est conservée (celles qui ne sont pas actives ont un coefficient nul). L’ensemble des variables actives est différent pour les échantillons bootstrap, et varie selon les données de manière considérable. Nous avons calculé pour chaque variable j la B valeur moyenne de son coefficient sur B = 500 échantillons bootstrap, notée β̂ j . Les variables B sont ensuite ordonnées selon la valeur absolue de β̂ j . 74 Chapitre 4 4.4 4.4. Comparaison des méthodes Comparaison des méthodes Pour comparer les méthodes décrites ci-dessus avec celles du chapitre précédent nous avons utilisé les données synthétiques et de biopuces décrites dans ce chapitre. Pour les simulations, l’objectif est de montrer la capacité de chacune des trois méthodes à retrouver d’une part le bon ordre des variables, et d’autre part le “bon modèle”, au sens du bon nombre de variables à conserver. L’effet de la taille de l’échantillon et du nombre de variables est analysé. Pour les données réelles nous n’avons pu que nous limiter à comparer les hiérarchies et les performances des trois méthodes. Nous avons retenu à titre de comparaison le critère de discrimination de Fisher F DS introduit à la section 3.4 du chapitre précédent comme un score d’importance supplémentaire. 4.4.1 Résultats pour les données simulées Dans un premier temps, nous vérifions la capacité des différentes méthodes à retrouver les variables importantes en présence de bruit en modifiant la taille de l’échantillon et le nombre de variables. Dans un deuxième temps, nous évaluons la capacité de chacune de ces trois méthodes à repérer un sous-ensemble optimal de variables. Hiérarchie des variables Nous fixons le nombre de variables à p = 200 et nous faisons varier la taille de l’échantillon l de 50, 100 et 200. Les hiérarchies obtenues par les quatre premiers scores (F DS, ∂W , ∂RW , ∂Spb) sont calculées sur la base de 200 échantillons bootstrap. Pour GLMpath nous avons utilisé 500 échantillons bootstrap pour garantir la stabilité des estimations des coefficients. Les résultats sont présentés dans le tableau 4.3. Pour chaque taille d’échantillon utilisée, nous donnons les rangs auxquels sont apparues dans la hiérarchie quatre puis cinq puis les six variables importantes. Nous remarquons clairement que les rangs des variables importantes s’améliorent en augmentant la taille de l’échantillon. Cette caractéristique semble moins vraie pour la hiérarchie rendue par les forêts aléatoires. Dans le tableau 4.4 nous fixons la taille de l’échantillon à l = 50 et le nombre de variables p à 500 puis à 1000. En augmentant le nombre de variables, aucune méthode n’arrive à bien classer plus de quatre variables parmi les six importantes. Deux variables parmi les six importantes apparaissent d’autant plus tard dans la hiérarchie que le nombre de variables est plus élevé. Dans ce cas le modèle linéaire généralisé arrive à retrouver les variables importantes plus facilement 75 Chapitre 4 4.4. Comparaison des méthodes l/Score F DS 4 6 50 13 4 5 100 6 4 5 200 6 ∂W 4 5 17 4 5 7 4 5 6 ∂RW 4 5 16 4 5 6 4 5 6 ∂Spb 4 5 12 4 5 6 4 5 6 FA 4 6 12 4 5 6 4 5 9 GLMpath 4 5 8 4 5 6 4 5 6 Tab. 4.3: Pour 50, 100 et 200 observations chaque ligne donne le rang auquel quatre, cinq puis six variables parmi les variables importantes sont apparues dans la hiérarchie. Le nombre de variables est fixé à 200. La hiérarchie est établie sur 200 échantillons bootstrap pour les quatre premiers scores et sur 500 échantillons bootstrap pour GLMpath. p/Score 500 1000 F DS 4 5 18 4 34 173 ∂W 4 7 13 4 33 194 ∂RW 4 7 12 4 32 202 ∂Spb 4 5 11 4 31 224 FA 5 12 42 4 205 206 GLMpath 4 5 6 4 35 38 Tab. 4.4: Pour 500 et 1000 variables, chaque ligne donne le rang auquel quatre, cinq puis six variables importantes sont apparues dans la hiérarchie. La taille de l’échantillon est fixée à 50. que les autres techniques. Les figures 4.1 et 4.2 montrent pour les jeux de données simulées des courbes qui représentent l’intersection des hiérarchies en fonction du rang. L’axe des abscisses correspond au rang dans la hiérarchie (normalisé par le nombre de variables), et celui des ordonnées la proportion de variables communes aux hiérarchies. Les deux axes sont normalisés sur l’intervalle [0, 1]. Nous avons effectué quatre comparaisons : les scores SVM entre eux, les scores SVM avec les forêts aléatoires, les SVM avec GLMpath, et GLMpath avec les forêts aléatoires. Les courbes correspondantes à ces quatre comparaisons sont superposées. Plus la courbe est proche de la bissectrice, plus les hiérarchies sont voisines. La première partie de la courbe est particulièrement pertinente pour ces comparaisons, elle concerne la comparaison des variables les plus importantes. Pour les cinq jeux de données, nous remarquons que les hiérarchies basées sur les SVM sont très proches les unes des autres. Ensuite, celles fournies par les SVM et GLMpath semblent être aussi voisines. 76 Chapitre 4 4.4. Comparaison des méthodes 50obs-200var Fréquence relative 1 SVM SVM/FA SVM/GLMpath FA/GLMpath 0.5 0 0 0.1 0.2 0.3 0.4 0.5 0.6 100obs-200var 0.7 0.8 0.9 1 0.3 0.4 0.5 0.6 200obs-200var 0.7 0.8 0.9 1 0.3 0.4 0.5 0.6 Rang normalisé 0.7 0.8 0.9 1 Fréquence relative 1 SVM SVM/FA SVM/GLMpath FA/GLMpath 0.5 0 0 0.1 0.2 Fréquence relative 1 SVM SVM/FA SVM/GLMpath FA/GLMpath 0.5 0 0 0.1 0.2 Fig. 4.1: Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données simulées ( p = 200 et l = 50, 100, 200). L’axe des abscisses indique le rang (normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées sont voisines. 50obs-500var 1 SVM SVM/FA SVM/GLMpath FA/GLMpath Fréquence relative 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Rang normalisé 0.7 0.8 0.9 1 0.7 0.8 0.9 1 50obs-1000var 1 SVM SVM/FA SVM/GLMpath FA/GLMpath Fréquence relative 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Rang normalisé Fig. 4.2: Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données simulées ( p = 500, 1000 et l = 50). L’axe des abscisses indique le rang (normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées sont voisines. 77 Chapitre 4 4.4. Comparaison des méthodes Taux d'erreur 50 observations 0.4 0.2 Taux d'erreur 0 0 10 50 observations ∂W ∂RW ∂Spb 0.4 0.2 100 observations 10 2 0 0 10 0.2 100 observations 10 2 0 0 10 0.4 0.4 0.2 0.2 0.2 200 observations 10 2 0 0 10 200 observations 10 2 0 0 10 0.4 0.4 0.4 0.2 0.2 0.2 0 0 10 10 2 FA 0.4 0.4 0 0 10 Taux d'erreur 50 observations FDS 0 0 10 10 2 0 0 10 100 observations 200 observations 10 10 10 2 2 2 200 variables Fig. 4.3: Effet de la taille de l’échantillon. Taux d’erreur moyen calculé sur 50 échantillons tests pour différentes tailles. Le nombre de variables est fixé à 200. Sélection de modèle Nous évaluons ici la capacité de chaque méthode à trouver le modèle optimal. La figure 4.3 montre l’évolution du taux d’erreur moyen pour les différents scores utilisés. Les variables sont introduites séquentiellement, une par une, dans le modèle. Toutes ces courbes ont la même allure, elles décroissent pour atteindre un certain minimum global à partir duquel elles croissent. Chaque point de ces courbes indique le taux d’erreur moyen (en ordonnée) calculé sur les 50 échantillons tests pour le modèle utilisant les k variables (en abscisse) les plus importantes. Les trois premières colonnes du tableau 4.5 donnent le taux d’erreur moyen minimal ainsi que le nombre de variables qui le réalise pour les différentes tailles utilisées. Il est clair que le taux d’erreur moyen diminue lorsque la taille de l’échantillon augmente. Le taux d’erreur des forêts aléatoires est nettement supérieur à celui obtenu par chacune des autres méthodes. L’examen de ces résultats ne nous permet pas de hiérarchiser les méthodes utilisées. La figure 4.4 donne une idée sur l’allure globale du taux d’erreur moyen en présence d’un grand nombre de variables constituant du bruit. Nous retrouvons la même forme de courbe que précédemment sauf que la phase de croissance est beaucoup plus importante surtout pour les quatre premiers scores. Les deux dernières colonnes du tableau 4.5 contiennent les résultats pour une taille de l’échantillon égale à 50 et un nombre de variables valant 500 puis 1000. Nous remarquons que les taux 78 Chapitre 4 4.4. Comparaison des méthodes (50,200) 0.0208(6) 0.0084(5) 0.0084(5) 0.0084(5) 0.0476(8) 0.0188(1) 0.044(3) Score/(l, p) F DS ∂W ∂RW ∂Spb SV M − RF E GLMpath FA (100,200) (200,200) 0.0072(7) 0.0048(7) 0.012(6) 0.0048(7) 0.0072(7) 0.0048(7) 0.0096(6) 0.0044(8) 0.016(8) 0.006(4) 0.0252(3) 0.0074(4) 0.0272(6) 0.0064(25) (50,500) 0.0044(5) 0.008(7) 0.008(7) 0.0044(5) 0.0132(8) 0.008(4) 0.0252(12) (50,1000) 0.0084(5) 0.0084(5) 0.0076(6) 0.0084(5) 0.0104(4) 0.0192(2) 0.0656(4) Tab. 4.5: Taux d’erreur moyen calculé sur 50 échantillons tests obtenu suite à l’introduction séquentielle des variables selon l’ordre d’importance décroissant. Le nombre optimal de variables est mis entre parenthèses. Pour la méthode GLMpath le taux d’erreur est obtenu par validation croisée sur l’échantillon d’apprentissage. 500 variables Taux d'erreur : 50 observations 0.5 500 variables FDS 0.5 0.5 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0 0 10 10 2 0 0 10 1000 variables Taux d'erreur : 50 observations 500 variables ∂W ∂RW ∂Spb 10 2 0 0 10 1000 variables 0.5 0.5 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 10 2 0 0 10 10 2 10 2 1000 variables 0.5 0 0 10 FA 0.4 0 0 10 10 2 Fig. 4.4: Effet du nombre de variables. Taux d’erreur moyen calculé sur 50 échantillons tests en utilisant 500 variables (les panneaux de la première ligne) et 1000 variables (les panneaux de la deuxième ligne). La taille de l’échantillon est fixée à 50. d’erreur ne sont légèrement différents qu’avec 50 variables (voir première colonne du même tableau). Ceci est dû au fait qu’avec 500 et 1000 variables au moins quatre variables parmi les six importantes ont été retenues dans l’ensemble des méthodes. Les forêts aléatoires réalisent un taux d’erreur nettement supérieur à celui des autres scores. 4.4.2 Résultats pour les données de biopuces Notre objectif ici n’est pas d’interpréter les résultats obtenus quant aux gènes sélectionnés, mais juste de comparer les hiérarchies et les performances des méthodes. 79 Chapitre 4 4.4. Comparaison des méthodes Hiérarchie des variables Nous menons ici les mêmes expériences sur les quatre jeux de données décrits dans le paragraphe 3.3.2. Pour Leukemia l’échantillon test fourni sera utilisé pour les comparaisons des méthodes sur ce jeu de données. Pour comparer les méthodes, nous nous basons sur le nombre de variables communes aux hiérarchies comparées. Nous réalisons ces comparaisons uniquement pour les variables dont les coefficients β̂ j estimés dans les modèles GLM par bootstrap sont différents de zéro. L’ordre des variables avec cette méthode étant basé sur les valeurs moyennes des coefficients estimés sur 500 échantillons bootstrap, celles qui ont un coefficient nul ne peuvent être ordonnées. Le nombre de coefficients non nuls est 999 pour Colon, 1376 pour Lymphoma, 1190 pour Leukemia, et 2234 pour Prostate. Comme nous l’avons fait avec les données simulées, les figures 4.5 et 4.6 montrent pour les quatre jeux de données des courbes qui représentent l’intersection des hiérarchies en fonction du rang. Pour les quatre jeux de données, nous remarquons que les hiérarchies basées sur les SVM sont très proches les unes des autres. Ensuite, celles fournies par les SVM et GLMpath semblent être aussi voisines. En effet, comme les quatre jeux de données sont linéairement séparables, ces deux techniques semblent bien adaptées. Les forêts aléatoires semblent donner des hiérarchies assez différentes. Ce résultat sera retrouvé par la suite dans la comparaison des performances des modèles obtenus à partir de ces hiérarchies. Ces résultats sont conformes à ceux que nous avons obtenus sur les simulations. Les tableaux 4.6 et 4.7 donnent le nombre de variables communes pour les différentes comparaisons illustrées dans les graphiques précédents pour les 50 puis les 100 variables importantes. Nous remarquons que le nombre de variables communes est en général supérieur à 50% pour les hiérarchies données par les SVM et celles des SVM et de GLMpath. Ce taux est beaucoup plus élevé pour les données Colon et Lymphoma, qui ont en l’occurrence un nombre de variables plus faible que les deux autres jeux de données. Comparaison / Jeu de données Colon Lymphoma Prostate Leukemia SVM 37 37 32 30 SVM/GLMpath 33 26 24 21 SVM/FA 4 9 12 9 FA/GLMpath 10 12 16 21 Tab. 4.6: Nombre de variables communes parmi les 50 les plus importantes pour les quatre comparaisons établies. 80 Chapitre 4 4.4. Comparaison des méthodes Colon 1 SVM SVM/FA SVM/GLMpath FA/GLMpath Fréquence relative 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Rang normalisé 0.7 0.8 0.9 1 0.7 0.8 0.9 1 Lymphoma 1 SVM SVM/FA SVM/GLMpath FA/GLMpath Fréquence relative 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Rang normalisé Fig. 4.5: Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les deux jeux de données Colon et Lymphoma. L’axe des abscisses indique le rang (normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées sont voisines. Prostate 1 SVM SVM/FA SVM/GLMpath FA/GLMpath Fréquence relative 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Rang normalisé 0.7 0.8 0.9 1 0.7 0.8 0.9 1 Leukemia 1 SVM SVM/FA SVM/GLMpath FA/GLMpath Fréquence relative 0.8 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.4 0.5 0.6 Rang normalisé Fig. 4.6: Comparaison des hiérarchies SVM, SVM-FA, SVM-GLMpath et FA-GLMpath, pour les deux jeux de données Leukemia et Prostate. 81 Chapitre 4 4.4. Comparaison des méthodes Comparaison / Jeu de données Colon Lymphoma Prostate Leukemia SVM 76 68 61 67 SVM/GLMpath 68 51 53 44 SVM/FA 19 22 21 24 FA/GLMpath 31 29 27 39 Tab. 4.7: Nombre de variables communes parmi les 100 les plus importantes pour les quatre comparaisons établies. Sélection de modèle Pour les quatre premiers scores utilisés, nous avons appliqué la procédure décrite dans le tableau 3.3. L’introduction séquentielle des variables a été réalisée par paquets de taille croissante. La taille de ces paquets a été choisie telle que leur nombre soit constant pour tous les jeux de données environ (700) et que presque la moitié d’entre eux, ceux du début, ne contiennent qu’une seule variable. Le tableau 4.8 donne l’ensemble des résultats pour les quatre jeux de données et les sept méthodes. Score/Données F DS ∂W ∂RW ∂Spb SV M − RF E GLMpath FA variables communes Colon Lympoma Prostate Leukemia 0.1219(3) 0.0436(200) 0.0371(315) 0.0882(7) 0.0009(31) 0(186) 0.0269(83) 0.1176(2) 0.0029(33) 0(60) 0.0269(902) 0.0882(22) 0.0029(34) 0.0006(118) 0.0109(45) 0.1176(11) 0.0057(32) 0(64) 0(64) 0.0882(1) 0.064(2) 0(3) 0(3) 0(1) 0.0962(55) 0.0588(73) 0.0554(7) 0.0588(103) 377 2251 :461 6185 — Tab. 4.8: Résultats des applications sur les données biopuces. On donne entre parenthèses le nombre minimal de variables pour lequel le taux d’erreur moyen atteint son minimum. Ce taux d’erreur est calculé sur 50 échantillons tests obtenus par partages aléatoires stratifiés. On garde le même partage pour les différentes méthodes utilisées. Pour le jeu de données Leukemia le taux d’erreur et estimé sur l’échantillon test. Rappelons que les taux d’erreur moyens, estimés par 50 partages aléatoires stratifiés, réalisés sur ces jeux de données en utilisant toutes les variables avec les SVM linéaires sont : Colon : 0.17, Leukemia : 0.206, Lymphoma : 0.06, Prostate : 0.075. Biais de sélection Nous considérons que les résultats obtenus dans le paragraphe précédent sont optimistes et présentent donc un biais de sélection. Ceci est dû principalement au fait que la hiérarchie 82 Chapitre 4 4.5. Conclusion des variables a été calculée à partir de toutes les données (cf. Ambroise et MacLachlan [7], Reunanen et al. [79]). L’idée est donc de réaliser une validation croisée de la procédure décrite dans le tableau 3.3. Les données disponibles sont partitionnées en V = 10 parts égales par stratification. Chaque partie joue le rôle d’échantillon test. Son complémentaire est utilisé dans la procédure initiale du tableau 3.3. La procédure tenant compte du biais de sélection est décrite dans le tableau 3.12. Ainsi, la hiérarchie des variables est calculée V fois, et V modèles optimaux avec leurs nombres de variables et leurs performances sont obtenus. Le nombre moyen de variables et le taux d’erreur minimal moyen sont présentés dans le tableau 4.9. Données F DS ∂W ∂RW ∂Spb SV M − RF E GLMpath FA Colon Lymphoma Prostate 0.1595(15.1) 0.1233(83.7) 0.0882(126.4) 0.233 (35.1) 0.051 (86.5) 0.054 (756.6) 0.214 (43.3) 0.042 (71) 0.053 (573.3) 0.197 (31.8) 0.073 (70.5) 0.052 (95.5) 0.1452(26.4) 0.0878(16.8) 0.0582(43.2) 0.1809 (1.3) 0.0522 (2.8) 0.05909 (1.6) 0.106 (49.8) 0.052 (65.9) 0.059 (81) Tab. 4.9: Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées est entre parenthèses. Nous confrontons ces résultats à ceux obtenus dans le tableau 4.8. Les performances des modèles sont systématiquement dégradées. La dégradation pour les scores basés sur les SVM est d’autant plus significative que le jeu de données comporte moins de variables. Le nombre moyen des variables sélectionnées par GLMpath est similaire à celui obtenu sans validation croisée pour les trois jeux de données. La dégradation des performances des forêts aléatoires est très faible. Les taux d’erreurs sont plus réalistes que les résultats obtenus sans validation croisée. Cependant, les gènes sélectionnés et leur nombre sont différents et très variables pour chaque échantillon de validation croisée. Ces taux sont donc des moyennes de performances de modèles très différents a priori les uns des autres n’utilisant pas les mêmes sous-ensembles de variables. 4.5 Conclusion La sélection de variables est un domaine de recherche très actif, proposant un grand nombre d’algorithmes, anciens pour certains, satisfaisant un grand nombre de configurations. Au cours d’un bref tour d’horizon des différentes méthodes, nous avons remarqué que la plupart des algorithmes sont développés par des scientifiques travaillant dans les domaines de l’apprentissage 83 Chapitre 4 4.5. Conclusion statistique, en data mining et en reconnaissance de formes. La plupart des algorithmes développés, surtout dans les deux derniers domaines, ne sont pas adaptés aux problèmes disposant de centaines de variables et de quelques dizaines d’observations. Ce chapitre a été largement consacré à la comparaison de méthodes récentes que nous avons identifiées bien adaptées pour ce genre de situation. La comparaison de ces méthodes de sélection de variables a montré que les résultats obtenus avec les SVM sont assez voisins quel que soit le score utilisé. Le modèle linéaire généralisé sous contrainte L1 sur les coefficients du modèle donne des résultats proches de ceux des SVM, et paraît même plus performant dans le cas où p est très grand. Les forêts aléatoires semblent être moins performantes pour accomplir ces tâches, mais paraissent plus stables que les autres méthodes. Les résultats obtenus sur les données réelles confirment ceux obtenus par simulations. Notons que nous nous sommes limités ici aux situations où les données sont linéairement séparables et la variable à prédire est binaire. Ceci est le cas des données simulées utilisées mais aussi celles des données réelles (les quatre jeux de données sont parfaitement séparables par les SVM avec un noyau linéaire). L’extension de ce travail aux cas multiclasses fera l’objet du prochain chapitre. Les scores basés sur les SVM nécessitent une adaptation dépendant de l’approche multiclasse utilisée. Par contre pour les modèles linéaires généralisés et les forêts aléatoires les approches que nous avons employées ici peuvent être utilisées directement dans le cas multiclasse et le cas non-linéaire. 84 85 Chapitre 5 SVM multiclasses et sélection de variables en grande dimension 5.1 Introduction L’étude théorique des systèmes d’apprentissage s’est concentrée principalement sur des classifieurs à deux classes. Cette étude ne concerne que des fonctions dont les sorties sont dans {−1, 1}. Par conséquent les principes d’induction de même que les bornes obtenues aux deux premiers chapitres ne s’appliquent pas, du moins pas directement, à des ensembles de fonctions de X dans {1, 2, . . . , m} , m > 2, où m désigne le nombre de classes. Durant la dernière décennie les machines à vecteurs supports biclasses ont créé une nouvelle direction de recherche et d’applications dans le domaine de l’apprentissage et de la prévision. Elles ont dominé les anciennes méthodes surtout, quand la taille de l’échantillon d’apprentissage est réduite relativement au nombre des variables explicatives. Pour la plupart des modèles d’apprentissage, l’extension aux cas multiclasses est facile et semble parfois même naturelle. Les réseaux de neurones, les modèles linéaires généralisés et les forêts aléatoires en sont des exemples. En revanche, la suprématie des SVM ne cache pas la grande difficulté de leur adaptation aux problèmes de discrimination multiclasse. Depuis la première extension proposée par Vapnik [91], plusieurs chercheurs se sont attachés à utiliser les SVM dans des applications à plusieurs classes. Les approches employées jusqu’à nos jours sont diverses et elles peuvent être réparties en deux catégories. La première catégorie de méthodes, que nous qualifions d’indirectes, fait appel à des schémas de décomposition du type une-contre-reste ou une-contre-une ou d’une façon générale basée sur les codes correcteurs d’erreurs. La règle de décision multiclasse est ensuite dérivée en combinant Chapitre 5 5.1. Introduction toutes les règles de décision binaire issues du schéma de décomposition adopté. Plusieurs architectures de combinaisons ont été proposées tout en tenant compte du temps d’apprentissage, du temps de classification des nouvelles instances (dit aussi d’exécution) et des capacités de généralisation du classifieur multiclasse résultant. Peu d’architectures disposent de bornes de confiance sur le taux d’erreur commis. La deuxième catégorie de méthodes, que nous désignons par directes, consiste à résoudre le problème multiclasse en une seule étape sans le décomposer en une collection de sous-problèmes binaires. Cette méthode revient à résoudre un unique problème d’optimisation quadratique conformément à ce qui est fait lorsqu’il s’agit de deux classes. Deux approches directes d’esprits complètement différents seront exposées au cours de notre présentation. La plupart des méthodes provenant des deux catégories ne possèdent pas de justifications théoriques bien fondées. De ce fait le problème de l’extension des SVM aux cas multiclasses est actuellement un domaine de recherche très ouvert et fait encore l’objet de plusieurs travaux en cours. Malgré les tentatives d’extension de la notion de marge au cas multiclasse (cf. Darcy et al. [26]), il n’existe pas encore des SVM multiclasses directement construites sur la base d’un principe d’induction bien fondé théoriquement. Dans la pratique, malgré le fait qu’aucune borne sur le risque ne permette de justifier ces différentes approches multiclasses, elles réalisent en général des performances très acceptables. La difficulté de justification apparaît cependant lorsque l’on souhaite étendre la notion de marge maximale aux systèmes discriminants multiclasses. En effet la théorie des bornes telle qu’elle est actuellement développée sur la notion de marges se prête mal aux extensions multiclasses. Par ailleurs, les études comparatives menées sur des bancs d’essai ne confrontant pas toutes les approches multiclasses ont échoué à en identifier la plus performante. Il semble que le choix de l’approche appropriée au problème multiclasse en question dépend fortement de la complexité qu’il exhibe. Depuis leur introduction les machines à vecteurs supports ont prouvé leur efficacité dans le traitement de nombreuses tâches relevant des principaux domaines de la reconnaissance de formes. Le problème de sélection de variables par les SVM est parmi les tâches les plus stimulantes surtout lorsque l’on dispose d’un nombre d’observations très faible devant un grand nombre de variables explicatives. Les scores d’importance dérivés des SVM ont fait preuve de leur efficacité sur plusieurs exercices de classification binaire issus des biopuces. Un grand nombre des applications réelles exige l’emploi des techniques de sélection de variables dans le cadre d’une discrimination multiclasse. Ce problème de réduction de dimension 86 Chapitre 5 5.2. Approches indirectes en multiclasse constitue un volet motivant de la recherche qui demeure aujourd’hui encore ouvert et à développer. De manière plus spécifique la théorie statistique des SVM biclasses et la diversité des approches SVM multiclasses proposées n’autorisent pas une simple extension des critères d’importance des variables aux situations multiclasses. Tous ces handicaps n’ont pas empêché quelques auteurs de faire des tentatives d’extensions, mais totalement dépourvues de bases théoriques défendables. Dans ce chapitre nous nous proposons de présenter et analyser les différentes heuristiques d’extension des SVM aux cas multiclasses. Nous démontrons l’équivalence entre quelques unes de ces approches. Une fois cette présentation est mise en place, nous abordons le problème de sélection de variables. L’extension des scores basés sur les SVM nécessite une adaptation dépendant de l’approche multiclasse utilisée. Une étude comparative des différentes extensions, menée sur des données réelles et simulées, fera l’objet de la dernière section. 5.2 Approches indirectes Nous présentons ici les méthodes indirectes qui consistent à subdiviser le problème multiclasse initial en une collection de sous-problèmes biclasses. 5.2.1 Une-contre-reste Cette extension au cas multiclasse originellement proposée par Vapnik [91] peut être vue aussi comme une généralisation du cas binaire. À toute classe k est associé un hyperplan H(wk ,bk ) défini par la fonction de décision fk (x) = hwk · xi + bk dont le rôle est de discriminer entre les observations de la classe k et de l’ensemble des autres classes. Une observation x sera donc affectée à la classe k ∗ selon la règle de décision discrète, k∗ = Arg max hk (x) (5.1) 1≤k≤m avec hk (x) = sign (fk (x)) . Afin de bien comprendre cette généralisation, considérons le cas binaire où Y = {−1, +1} . À chaque classe est associé un hyperplan défini par les fonctions de décision fk (x) = hwk · xi + bk , k = −1, +1. H+1 = {x ∈ Rp ; f+1 (x) = 0} H−1 = {x ∈ Rp ; f−1 (x) = 0} 87 Chapitre 5 5.2. Approches indirectes w +1 Cl e( ass ) +1 ( se s a Cl -1) w -1 Fig. 5.1: Deux hyperplans, chacun d’eux est associé à une classe. H+1 est associé à la classe (+1) et H−1 est associé à la classe (−1). Une illustration graphique est donnée par la figure 5.1. Géométriquement, les deux hyperplans sont confondus, en revanche f+1 (x) = −f−1 (x) . Ainsi, si nous posons w = w+1 − w−1 et b = b+1 − b−1 nous pouvons réduire le problème en la recherche d’un seul hyperplan et c’est exactement ce qu’on fait dans le cas binaire. L’architecture la plus ancienne, utilisée pour les machines à vecteurs supports multiclasses, est probablement la méthode une-contre-reste. Elle construit m classifieurs binaires à vecteurs supports où m est le nombre total des classes. L’apprentissage du k ème classifieur à vecteurs supports s’effectue en considérant tous les exemples de la k ème classe dans la région positive et tous les autres exemples dans la région négative. Le kème classifieur à vecteurs supports s’obtient en résolvant le problème, Pl Minimiserwk ,ξ k ,b kwk k2 2 sous hwk .φ(xj )i + bk ≥ 1 − ξ kj , si yj = k, +C j=1 ξ kj , hwk .φ(xj )i + bk ≤ −1 + ξ kj , si yj 6= k, (5.2) ξ kj ≥ 0, j = 1, 2, . . . l. où les φ(xs ) sont les transformés des xs dans l’espace induit par la fonction φ et C est le paramètre de pénalité. La résolution du problème (5.2) pour chaque valeur de k ∈ {1, 2, . . . , m} donne lieu à m fonctions de décision : fk (x) = hwk .φ (x)i + bk , k ∈ {1, 2, . . . , m} (5.3) Pratiquement, nous résolvons le problème dual correspondant au problème (5.2) ayant exactement l variables duales. En total, nous aurons à résoudre m problèmes quadratiques chacun à l variables. Ainsi, le temps d’apprentissage de cette méthode croît linéairement en fonction de m. 88 Chapitre 5 5.2. Approches indirectes Une nouvelle observation x sera donc affectée à la classe k∗ selon la règle de décision discrète (5.1). Dans le cas multiclasses (m > 2), cette égalité peut être satisfaite pour plus qu’une classe. Dans ce cas, l’observation x est dite non-classifiable. Toutes les observations x non-classifiables forment la région d’ambiguïté dite aussi région non-classifiable. Cette région est schématisée dans la figure 5.2. D1(x) = 0 D3(x) = 0 Classe 1 w1 w2 Classe 2 w3 D2(x) = 0 Classe 3 Fig. 5.2: L’espace hachuré représente la région d’ambiguïté pour l’approche une-contre-reste suite à la prise de décision discrète. Afin de pouvoir classer une observation x tombant dans la région d’ambiguïté, la règle de décision continue a été utilisée. Cette règle est donnée par : k∗ = Arg max fk (x) (5.4) 1≤k≤m Géométriquement interprétée, tout nouveau exemple x est affecté à la classe qui correspond à l’hyperplan le plus éloigné. Ainsi, l’espace des variables explicatives X est subdivisé en m régions convexes, chacune correspondant à une classe. La figure 5.3 donne un exemple de subdivision de l’espace X . Cette approche est nommée “le gagnant emporte le tout” 1 . L’inconvénient majeur de cette heuristique est qu’elle ne conserve pas les m frontières de séparation (5.3). La figure 5.3 montre ce propos. Il est clair que cette heuristique a amélioré la règle de décision discrète, en revanche, elle perd totalement les capacités de généralisation des m hyperplans construits. Malheureusement, on ne dispose pas de borne pour l’erreur de généralisation de l’approche une-contre-reste. Des machines à vecteurs supports floues2 (FSVM) ont été proposées par S. Abe [2] dans le but de fournir une règle de décision au niveau de la région d’ambiguïté. Le même auteur a prouvé dans [1] l’équivalence des FSVM avec la méthode standard “le gagnant emporte le tout”. 1 2 The winner-takes-all. Fuzzy Support Vector Machines. 89 Chapitre 5 5.2. Approches indirectes D1(x) = 0 D3(x) = 0 Classe 1 w1 w2 Classe 2 w3 D2(x) = 0 Classe 3 Frontière de classification Fig. 5.3: Règle de décision continue : les bissectrices des secteurs d’ambiguïté forment la nouvelle frontière de classification. Une autre heuristique utilisant les hyperplans séparateurs construits pour chaque paire de classes a été proposée afin de conserver le maximum des propriétés des classifications binaires et de réduire la région d’ambiguïté. 5.2.2 Une-contre-une Ce schéma de décomposition a été adopté par S. Knerr et al. [56] et utilisé pour la première fois dans le contexte des machines à vecteurs supports par Kreßel [58]. Il consiste à construire ¡2¢ prédicteurs binaires chacun séparant uniquement deux classes tout en ignorant = m(m−1) m 2 les autres. L’hyperplan séparateur des classes k et s est la solution du problème d’optimisation suivant : P ks ks + C lt=1 ξt , ­ ks ® w .φ(xt ) + bks ≥ 1 − ξ ks t , si yt = k ­ ks ® w .φ(xt ) + bks ≤ −1 + ξ ks t , si yt = s 2 Minimiserwks ,ξ ks ,b sous kwks k 2 (5.5) ξ ks t ≥ 0, ∀t ∈ {1, . . . , lks } où lks est le nombre des observations issues des classes k et s. Pratiquement, nous résolvons le problème dual correspondant au problème (5.5) ayant lks variables duales. Si chaque classe contient en moyenne la phase d’apprentissage m(m−1) 2 l m exemples, nous aurons à résoudre dans problèmes quadratiques chacun dépendant à peu près de 2l m variables. L’approche une-contre-une consiste donc à construire un classifieur pour chaque paire de 90 Chapitre 5 5.2. Approches indirectes classes (k, s) définissant ainsi des fonctions de décision binaire hks : X ⊆ Rp → {−1, +1}, +1 si x ∈ à la classe k . (5.6) hks (x) = sign (fks (x)) = −1 si x ∈ à la classe s. Pour des raisons de symétrie hks ≡ −hsk et on convient que hkk ≡ 0 pour tout k ∈ {1, 2, . . . , m} . Sur la base des m(m−1) 2 fonctions de décision binaires hks , nous définissons m autres fonctions de décision de la façon suivante : hk (x) = m X hks (x) , k = 1, 2, . . . , m. (5.7) s=1 Et la règle de classification d’une nouvelle observation x est donnée par : k∗ = Arg max hk (x) (5.8) 1≤k≤m Cette règle3 proposée par Friedman [36] est connue sous le nom de vote majoritaire, et elle a été appliquée pour la première fois avec les SVM par Kreßel [58]. Il peut arriver que la règle (5.8) soit satisfaite par plus qu’une classe, ainsi, une nouvelle observation x est dite non-classifiable et elle appartient à la région d’ambiguïté. Cette région est présentée par la figure 5.4. Toute observation située dans la région d’ambiguïté est classée arbitrairement dans l’une des classes vérifiant la règle (5.8). w12 Classe1 f12(x) = 0 w13 f13(x) = 0 Classe2 Classe3 f23(x) = 0 w23 Fig. 5.4: La région d’ambiguïté hachurée est réduite pour l’approche une-contre-une. Les avantages majeurs de cette combinaison sont : la conservation de bonnes parties des m(m−1) 2 hyperplans préalablement construits et la diminution de la région d’ambiguïté relative- ment à l’approche une-contre-reste. En revanche, son erreur de généralisation n’a pas encore de majorant. 3 Dite “Max-Wins Algotithm”. 91 Chapitre 5 5.2. Approches indirectes Plusieurs méthodes ont été proposées pour combiner les différents classifieurs issus de toutes les paires de classes. Chaque architecture vise à réduire le temps d’apprentissage et le temps de classification d’une nouvelle observation tout en améliorant les capacités de généralisation de la machine. Dans ce qui suit, nous présentons, dans l’ordre chronologique de leur apparition, les différentes combinaisons proposées. Ces combinaisons diffèrent au niveau de la prise de décision au niveau de la région d’ambiguïté. 5.2.3 SVM floues D’une façon similaire aux FSVM proposées pour le schéma de décomposition en une-contrereste, S. Abe [2] a introduit pour la décomposition une-contre-une les fonctions d’adhésion4 définies pour chaque hyperplan séparateur Hks = {x ∈ X ; fks (x) = 0}, (k 6= s), de la façon suivante : 1 pour fks (x) ≥ 1 Mks (x) = f (x) sinon ks Les hyperplans Hks sont obtenus suite à la résolution des problèmes (5.5) pour toute paire de calsses k et s. Il est à noter que, selon la relation (5.6), l’observation x est bien classée par Hks si est seulement si fks (x) > 0. Dans le cas où l’observation x viole la marge on a Mks (x) = fks (x) . En d’autres termes, la valeur de la fonction d’adhésion Mks (·) mesure la difficulté que posent les observations critiques pour être classées par l’hyperplan Hks ; plus Mks (x) est petite plus la classification de x est difficile. En utilisant les fonctions Mks (x), (s 6= k, s = 1, 2, . . . , m), on définit la fonction d’adhésion à la classe k comme étant : Mk (x) = min s=1,2,...,m Mks (x) s6=k Cette dernière équation est équivalente à : Mk (x) = min(1, min s=1,2,...,m fks (x)) (5.9) s6=k La fonction d’adhésion à la classe k définit dans l’espace X des formes polyédriques tronquées. Une représentation de ces formes dans le plan est donnée par la figure 5.5 : plus la valeur de la fonction d’adhésion à la classe k est élevée plus l’observation x est proche de la classe k. On vérifie aisément que l’égalité Mk (x) = 1 ne peut être vérifiée que pour une seule classe. En effet d’après (5.9) Mk (x) = 1 si et seulement si fks (x) ≥ 1 ∀s d’où l’observation x est classée 4 Membership functions. 92 Chapitre 5 5.2. Approches indirectes Mk(x) = 1 Classe k Mk(x) = 0.8 Mk(x) = 0.7 Fig. 5.5: Chaque frontière définit une courbe de niveau pour la fonction Mk (x) d’adhésion à la classe k. Cette fonction vaut 1 sur tout point de la zone hachurée. dans k par toutes les fonctions binaires. Par conséquent la relation (5.9) peut être réduite à : Mk (x) = min s=1,2,...,m fks (x) s6=k Une nouvelle observation x sera donc classée suivant la règle : Arg max Mk (x) k=1,2,...,m Cette règle donne la même décison que celle donnée par (5.8) pour les observations qui n’appartiennent pas à la région d’ambiguïté montrée dans figure 5.4. Les FSVM partagent la région d’ambiguïté équitablement sur les classes selon leur proximité. Ce partage est illustré dans la figure 5.6. w12 Classe1 f12(x) = 0 w13 f13(x) = 0 Classe2 Classe3 f23(x) = 0 w23 Fig. 5.6: Résolution de la région d’ambiguïté par les FSVMs. 93 Chapitre 5 5.2.4 5.2. Approches indirectes Graphe de décision acyclique orienté Platt et al. [72] ont proposé une structure d’arbre de décision pour combiner les m(m−1) 2 clas- sifications binaires construites selon la décomposition une-contre-une. La phase d’apprentissage du DDAG5 est exactement la même que celle pour le vote majoritaire. Elle consiste à construire toutes les m(m−1) 2 classifications binaires. Par contre, l’étape test utilise un graphe binaire, enraciné6 , orienté et acyclique ayant m(m−1) 2 nœuds intérieurs répartis sur (m − 1) couches et m feuilles formant la dernière couche. Chaque nœud correspond à une classification binaire de la kème et la sème classes et chaque feuille désigne une classe. Une nouvelle observation x, partant du nœud racine, circule d’un nœud à un autre jusqu’à atteindre une feuille qui indiquera sa classe d’appartenance. Au niveau de chaque nœud, l’observation x se retrouve devant un choix binaire : passer à gauche ou à droite. Ce choix dépend de la décision de classification binaire prise au niveau de ce nœud. Une illustration graphique du DDAG pour m = 3 est donnée par la figure 5.7. 1 3 2 3 2 écarter3 1/2 écarter1 écarter2 3/2 1/3 écarter2 écarter1 2 3 1 3 écarter3 1 Fig. 5.7: Graphe de décision acyclique orienté à trois classes. Cette architecture peut être vue sous forme d’une liste à m classes, de laquelle chaque nœud élimine une classe. Cette liste est initialisée avec toutes les classes. Une nouvelle observation x sera évaluée par le nœud de décision binaire correspondant au premier et au dernier éléments de la liste. Lorsque ce nœud préfère l’une des deux classes confrontées, l’autre sera éliminée de la liste et l’algorithme se poursuit pour la nouvelle liste. Cet algorithme s’arrête quand la liste est réduite à une seule classe, celle-ci sera attribuée à x. Ainsi, pour un problème à m classes, (m − 1) nœuds de décision binaire sont évalués dans le but de classer toute nouvelle observation. L’avantage du DDAG par rapport aux autres approches multiclasses est que, grâce à sa structure particulière, son erreur de généralisation est bornée. En outre, son temps de classifi5 6 Decision Directed Acyclic Graph. Rooted. 94 Chapitre 5 5.2. Approches indirectes cation est réduit comparativement au vote majoritaire et aux FSVM. En revanche les capacités de généralisation du DDAG dépendent de l’ordre de la liste initiale sur laquelle il agit. Pour un même problème à m classes, il y a en tout m! 2 structures différentes du DDAG. L’ordre de la liste initiale du haut vers le bas est le même que celui qu’on retrouve sur les feuilles de droite à gauche. Ainsi, pour chaque DDAG la région d’ambiguïté est partagée sur les feuilles internes. Une illustration graphique du cas m = 3 est donnée par la figure 5.8. w12 Classe1 f12(x) = 0 w13 f13(x) = 0 Classe2 Classe3 f23(x) = 0 w23 Fig. 5.8: DDAG favorise la feuille du milieu en y affectant la région d’ambiguïté. 5.2.5 Graphe acyclique orienté adaptatif Pontil et al. [74] ont proposé une combinaison du type tournoi de tennis entre les classes afin d’optimiser les confrontations biclasses. Sans s’en rendre compte, Kijsirikul et al. [54] ont employé la même méthode, qu’ils ont nommée graphe orienté acyclique adaptatif, dans le but d’améliorer les performances du DDAG. Un ADAG7 est une structure triangulaire renversée du DDAG. Pour un problème à m classes, sa phase d’apprentissage est identique à celle du DDAG. Par contre, pour la phase de classification, les contient m 2 m(m−1) 2 nœuds sont arrangés sous forme d’un triangle renversé. Sa première couche nœuds, sa deuxième couche sera réduite à m 22 nœuds et ainsi de suite jusqu’à la dernière couche formée d’un seul nœud. Un ADAG contient exactement (m − 1) nœuds de décision binaire répartis sur log2 (m) couches. La structure d’un ADAG pour m = 8 est représentée dans la figure 5.9. Une nouvelle observation x sera testée au niveau de chacun des m 2 nœuds de la première couche. Au cours de cette première manche, chaque décision nœudale éliminera une classe. Par conséquent, le nombre des classes candidates sera réduit de moitié. Ce processus éliminatoire 7 Reordering Adaptive Directed Acyclic Graph. 95 Chapitre 5 5.2. Approches indirectes 1/8 2/7 3/6 4/5 A1 A2 A3 A4 A3/A4 A1/A2 Couche Adaptative A B2 B1 B1/B2 Couche Adaptative B Classe prévue Décision Finale Fig. 5.9: ADAG à huit classes. continue jusqu’à ce que ce tournoi atteint sa finale. Ainsi, la dernière couche du ADAG est réduite à un nœud unique de décision finale pour l’observation x. Notons que pour un ADAG, le nombre maximal de confrontations que peut avoir la classe correcte avec les autres classes est log2 (m). Ce nombre est considérablement inférieur à celui lié à la structure DDAG qui croît linéairement en fonction de m. Par conséquent, l’architecture ADAG réduit bien l’erreur cumulée commise par DDAG. Un ADAG peut être mis en œuvre en utilisant une liste, de laquelle chaque nœud élimine une classe. La liste initiale est constituée de toutes les m classes du problème. Une nouvelle observation x est évaluée au niveau du nœud de séparation binaire qui confronte la première et la dernière classes de la liste. La classe préférée par ce nœud est gardée dans la position extrême gauche de la liste de la seconde manche, tandis que l’autre classe est rejetée. Ensuite, cette observation x est testée au niveau du nœud qui correspond à la deuxième et l’avant dernière classes de la liste initiale. Le processus d’évaluation pour la première manche se termine quand au plus une classe reste non confrontée aux autres classes de la première liste. Dans le cas où une seule classe reste non confrontée aux autres, elle occupera la position extrême droite de la liste de la seconde manche. À la fin de cette première manche, la liste initiale à m classes est réduite en une liste à m 2 éléments si m est pair et en une liste à m+1 2 éléments si m est impair. Le processus de manches continue jusqu’à aboutir à une liste réduite à une seule classe à laquelle l’oservation x est affectée. Une illustration graphique est donnée par la figure 5.10 pour m = 7. Les structures DDAG et ADAG sont fortement liées. ADAG est une structure renversée du DDAG. Par exemple, pour m = 3, à chaque ADAG est associé un DDAG équivalent. Ce résultat n’est pas généralisable pour un nombre de classes m quelconque. Il est clair que l’ADAG est aussi instable vu qu’il dépend de l’ordre de la liste de chaque 96 Chapitre 5 5.3. Unification des méthodes par les codes correcteurs d’erreurs 1 2 3 4 5 6 7 Première m anche A1 A2 A3 A4 Deuxièm e manche B1 B2 Troisièm e manche Décision finale C1 Fig. 5.10: Illustration par listes d’un ADAG à sept classes. manche. En effet, pour un problème à m classes il y a m! m 2[ 2 ] [ m 2 ] cas de figures possibles pour la première couche de nœuds selon l’ordre de la liste initiale. 5.2.6 Graphe acyclique orienté adaptatif réordonné Dans le but de trouver une architecture optimale de l’ADAG, Phetkaew et al. [69] [70] ont proposé une version réordonnée de l’ADAG qu’ils ont nommé RADAD8 . Cette approche consiste à optimiser l’architecture d’un ADAG en introduisant une étape de mise en ordre de la liste qui précède la formation de chaque couche de nœuds. Cette étape est accomplie par un algorithme9 d’optimisation qui groupe tous les éléments de la liste par paires de classes en minimisant la somme des erreurs de généralisation de toutes les paires. Les paires trouvées forment la couche des nœuds associés à la manche courante. La figure 5.11 résume les différentes étapes du RADAG. Nous avons vu que l’approche une-contre-une est plus adoptée que l’approche une-contrereste pour les machines à vecteurs supports multiclasses. Plusieurs méthodes ont été introduites pour les deux approches dont chacune présente des atouts et des défauts. La prise de décision au niveau de la région d’ambiguïté est à l’origine des différences entre les algorithmes proposés. 5.3 Unification des méthodes par les codes correcteurs d’erreurs Allwein et al. [5] ont développé un cadre de travail qui unifie tous les schémas de décomposition d’un problème multiclasse en une collection de sous-problèmes binaires. Ce développement est basé essentiellement sur les codes correcteurs d’erreurs. Les mêmes auteurs ont proposé deux 8 9 Reordering Adaptive Directed Acyclic Graph. Cet algorithme est connu sous le nom de “couplage optimal”. Pour plus de détails voir Phetkaew et al. [69]. 97 Chapitre 5 5.3. Unification des méthodes par les codes correcteurs d’erreurs 1 2 3 4 5 6 7 8 Phase initiale Initialisation de la séquence 1/3 A1 2/8 4/7 A2 A3 5/6 A4 Réordonne la séquence A1/A3 A2/A4 B1 B2 Classification du nouvel exemple Classifie et réordonne B1/B2 Classificateur final Phase de sortie Classe prévue Fig. 5.11: Les différentes étapes du RADAG. méthodes de décodage afin d’en dériver des règles de classification. 5.3.1 SVM et codes correcteurs d’erreurs L’idée des codes correcteurs d’erreurs, introduite pour la première fois par Dietterich et al. [30], consiste à associer à chaque classe c ∈ Y la cième ligne d’une matrice de codage M ∈ M(m,n) ({−1, +1}) où n désigne la longueur du vecteur de codage. Chaque colonne s de la matrice M définit un problème de discrimination binaire dans lequel les observations de la classe c sont étiquetées par M (c, s). Après avoir estimé des modèles SVM binaires sur tous les jeux de données induits par les colonnes de la matrice M, nous obtenons n fonctions de décision fs , s = 1, . . . , n. Une nouvelle observation x est ainsi affectée à la classe qui correspond à la ligne de la matrice M la plus proche du vecteur (f1 (x) , . . . , fn (x)) . La version généralisée proposée par Allwein et al. [5] diffère de celle introduite par Dietterich et al. [30] par sa matrice de codage. En effet, la matrice de codage M est prise dans un espace plus vaste contenant le chiffre zéro, soit donc M ∈ M(m,n) ({−1, 0, +1}) . L’apparition du zéro dans la ligne c indique que nous ne prenons pas en considération les observations de la classe c. Pour l’approche une-contre-reste, la matrice de codage est carrée d’ordre m remplie de −1 sur la diagonale et de +1 ailleurs. Pour l’approche une-contre-une, M ∈ M(m,n) ({−1, 0, +1}) avec n= m(m−1) . 2 Dans cette matrice chaque colonne correspond à la confrontation des observations de deux classes distinctes c1 et c2 . Sur cette colonne nous plaçons +1 sur la ligne c1 , −1 sur la ligne c2 et 0 pour le reste des lignes. 98 Chapitre 5 5.3. Unification des méthodes par les codes correcteurs d’erreurs Il est donc clair que la subdivision du problème multiclasse en une collection de sousproblèmes binaires dépend étroitement de la forme de la matrice de codage employée. Le choix de la matrice de codage a une grande influence sur la complexité des sous-problèmes ainsi que sur la qualité des résultats obtenus. Soit M (c) la ligne c de la matrice de codage M et soit f (x) = (f1 (x) , . . . , fn (x)) le vecteur des prévisions obtenues pour une nouvelle observation x. Ainsi, cette observation x sera affecté à la classe c qui minimise la distance d (M (c) , f (x)) pour une certaine métrique d. La métrique la plus utilisée dans ce contexte est la distance de Hamming. Une autre distance, semble être plus adaptée à ce genre de problème, a été introduite par Allwein et al. [5] car elle tient compte de l’ampleur de la marge qui représente une mesure de confiance pour les SVM. Allwein et al. [5] ont comparé cinq types de matrices de codage sur différents jeux de données et ils ont abouti au fait que les performances prédictives de la décomposition une-contre-reste sont significativement inférieures à celles des autres codes y compris l’approche une-contre-une. En revanche, les résultats qu’ils ont obtenus ne permettent pas de distinguer le meilleur schéma de décomposition. 5.3.2 Décodage basé sur la distance de Hamming La distance de Hamming est définie initialement pour des vecteurs appartenant à {−1, +1}n . Une simple généralisation de cette distance entre deux vecteurs u et v ∈ {−1, 0, +1}n est donnée par : dH = n − hu · vi . 2 La règle de classification multiclasse basée sur la distance de Hamming est : k ∗ = Arg min dH (M (k) , sign (f (x))) . 1≤k≤m L’inconvénient majeur de cette méthode est qu’elle ne prend en considération que les signes des fonctions de décision fs (x) et ignore entièrement leurs ampleurs. Et on sait que pour les SVM, l’ampleur de fs (x) est en relation directe avec la marge qui est l’indicateur du degré de confiance en prévision. 5.3.3 Décodage basé sur la fonction de perte Allwein et al. [5] ont proposé une autre métrique qui tient compte de l’ampleur de fs (x) . Dans cette métrique, ils utilisent une fonction de perte dépendant de la marge. Le travail de 99 Chapitre 5 5.3. Unification des méthodes par les codes correcteurs d’erreurs Schölkopf et al. [80] montre que la fonction de perte spécifique aux SVM est de la forme L (z) = (1 − z)+ = max {1 − z, 0}. La règle de classification multiclasse basée sur la fonction de perte est : ∗ k = Arg min dL (M (k) , f (x)) = 1≤k≤m n X s=1 L (M (k, s) × fs (x)) . En d’autres termes, une nouvelle observation x est affectée à la classe qui minimise la perte totale réalisée par les fonctions fs (x) , s = 1, . . . , n. 5.3.4 Quelques équivalences entre les approches Dans ce paragraphe nous démontrons deux équivalences : la première entre les approches “winner-takes-all” (introduite au paragraphe 5.2.1) et la méthode de décodage basée sur la fonction de perte et la deuxième entre les approches “max-wins” (introduite au paragraphe 5.2.2) et la méthode de décodage basée sur la distance de Hamming. Winner-takes-all et décodage basé sur la fonction de perte Pour démontrer l’équivalence entre ces deux approches il suffit d’établir l’égalité suivante : Arg max fk (x) = Arg min 1≤k≤m 1≤k≤m n X s=1 L (M (k, s) × fs (x)) . (5.10) et on rappelle que L (M (k, s) × fs (x)) = (1 − M (k, s) fs (x))+ = max {1 − M (k, s) fs (x) , 0} , avec M (k, s) = 1 si k = s et −1 sinon pour l’approche de décomposition une-contre-reste. Sans perte de généralité supposons que f1 (x) ≥ f2 (x) ≥ · · · ≥ fm (x). Dans ce cas, Arg max fk (x) = 1. Pour établir l’égalité (5.10) on démontre sans difficulté les deux inégal1≤k≤m ités suivantes : u ≤ v =⇒ max {1 + u, 0} ≤ max {1 + v, 0} u ≤ v =⇒ max {1 − u, 0} ≥ max {1 − v, 0} D’après notre supposition et les inégalités précédentes on obtient £ ¤ L (M (1, s) fs (x)) − L (M (k, s) fs (x)) = (1 − f1 (x))+ + (1 + fk (x))+ − ¤ £ (1 + f1 (x))+ + (1 − fk (x))+ ≤ 0 ∀k 6= 1. Par suite Arg min 1≤k≤m Pp s=1 L (M (k, s) × fs (x)) = 1, d’où l’équivalence. 100 Chapitre 5 5.4. Approches directes Max-wins et décodage basé sur la distance de Hamming Pour démontrer l’équivalence entre ces deux approches, il suffit d’établir l’égalité suivante : Arg max hk (x) = Arg min dH (M (k) , sign (f (x))) 1≤k≤m où hk (x) = P s6=k 1≤k≤m sign (hks (x)) , M (k) est la kème ligne de la matrice de codes pour la dé- composition une-contre-une et f (x) = {fks (x) /k < s ; k, s ∈ {1, 2, . . . , m}} est un vecteur de longueur m(m−1) . 2 Pour le schéma de décomposition une-contre-une, la matrice de codes M appartient à : M(m, m(m−1) ) ({−1, 0, +1}) . 2 Chaque colonne de cette matrice correspond à une fonction de décision binaire fks (x) , k < s. Cette colonne contient 1 à la kème ligne, −1 à la sème ligne et des zéros ailleurs. Suite à cette vision du problème, on a dH (M (k) , sign (f (x))) = m(m−1) 2 − hM (k) .sign (f (x))i , 2 et comme fks (x) = −fsk (x), on vérifie facilement que hM (k) · sign (f (x))i = X sign (fks (x)) = hk (x), s6=k d’où l’équivalence entre les deux approches. 5.4 Approches directes Dans cette section nous présentons deux approches directes pour la discrimination multiclasse. Contrairement aux schémas de décomposition ces approches consistent à séparer les classes en résolvant un unique problème d’optimisation. 5.4.1 Optimisation globale Une façon naturelle pour résoudre les problèmes multiclasses consiste à réaliser une séparation linéaire par morceaux10 des m classes en résolvant un unique programme d’optimisation. Chaque classe est séparée du reste par une frontière linéaire par morceaux. Cette approche dite directe, a été proposée par Vapnik [91] et mise en œuvre par Weston et al. [97]. Le problème d’optimisation (2.12) donnant lieu à l’hyperplan à marge maximale peut 10 Voir Bennett et al. [14]. 101 Chapitre 5 5.4. Approches directes être facilement généralisé au cas multiclasse. Soit lk le nombre d’observations de Sl appartenant P à la classe k, on a donc m k=1 lk = l. Le problème à m classes est alors formulé comme suit : Pm kwk k2 + C Pm Plk ξ ki , Minimiserwk ,ξ,b 1 2 sous hwk · xi i + bk − hws · xi i − bs ≥ 2 − ξ ki , pour yi = k, k=1 k=1 i=1 (5.11) ξ ki ≥ 0, i = 1, . . . , lk , k = 1, . . . , m et s 6= k. Ce problème contient (m − 1)l contraintes et il donne lieu à la règle de décision f (x) = Arg max fk (x) = Arg max (hwk · xi + bk ) 1≤k≤m 1≤k≤m Notons tout d’abord que la somme sur les m classes fait la différence entre le problème (5.11) et celui du cas binaire. Pour m = 2 cette formulation du problème d’optimisation se réduit au problème (2.12) en posant w1 = −w−1 , b1 = −b−1 et ξ = 1 ξ 1 si x ∈ classe (+1) i i 2 i ξ = 1 ξ −1 si x ∈ classe (−1) i i 2 i En introduisant les multiplicateurs de Lagrange et en résolvant les conditions de stationnarité nous aboutissons à la forme duale du problème (5.11). Le problème dual correspondant consiste à maximiser " l m X X k X LD (α) = k=1 s6=k + i=1 lq ls X X i=1 j=1 sous les contraintes P s6=k Plk i=1 1X αk,s − i 2 q6=k à lk X i,j=1 ® k,s ­ k αk,q xi · xkj i αj !# lk X ls X ­ ® ­ ® q,k s,k xsi · xqj − 2 xki · xsj αs,k αk,q i αj i αj i=1 j=1 αk,s i = P s6=k 0≤ P Pls j=1 s6=k αs,k j , k = 1, 2, . . . , m., αk,s i ≤ C La solution de ce problème est un ensemble de fonctions fk (x), k = 1, 2, . . . , m., ayant l’expression suivante : fk (x) = lk XX s6=k i=1 αk,s i ls ­ k ® XX ­ s ® αs,k xi · x + xj · x + bk j s6=k j=1 Pour un développement plus détaillé le lecteur peut se reporter au chapitre 10 du livre de Vapnik [91] et au travail de Weston et al. [97]. Notons que pour m = 2 cette solution coïncide avec la solution trouvée pour le cas binaire. Pour m > 2, nous aurons à déterminer simultanément (m − 1)l paramètres αk,s i . 102 Chapitre 5 5.4. Approches directes Dans le cas non-linéairement séparable, nous n’avons qu’à remplacer le produit scalaire standard par un noyau de Mercer et tout le travail se ramène dans l’espace transformé induit par le noyau employé. La figure 5.12 montre des exemples de séparations linéaires par morceaux que nous pouvons obtenir suite à la résolution du problème (5.11). C lasse1 C lasse2 C lasse3 Fig. 5.12: Exemples de séparations linéaires par morceaux. À première vue, il paraît que l’approche directe est identique à l’approche une-contre-reste étant donnée que chacune des deux méthodes finit par définir m hyperplans séparateurs associés aux fonctions fk (x), k = 1, 2, . . . , m. En réalité, les deux approches sont différentes. En effet, l’approche directe cherche à déterminer simultanément les m hyperplans séparant une classe des autres, ce qui n’est pas le cas pour l’approche une-contre-reste dans laquelle chaque hyperplan est déterminé indépendamment des autres en résolvant séparément m problèmes d’optimisation. Vapnik a utilisé l’approche une-contre-reste dans ses expérimentations pour deux raisons : la première est purement calculatoire quant à la deuxième, elle lui a permis de diversifier les noyaux dans les m programmes, ce qui n’est pas possible dans l’approche directe vu que l’optimisation des m hyperplans séparateurs se fait simultanément. 5.4.2 SVM binaire augmentée Cette méthode consiste à remplacer le problème multiclasse par un problème binaire en restructurant l’architecture des données d’apprentissage au moyen d’une fonction de transformation. Cette technique a été adoptée dans les travaux Franc et al. [35], de Har-Peled et al. [46] et de Anguita et al. [8]. Étant donnée un échantillon S de taille l à m classes, sa transformation consiste à reproduire 103 Chapitre 5 5.4. Approches directes chaque observation m fois et enchaîner à chaque copie un vecteur vk de longueur m : (xi |v1 , yi1 ) (x |v2 , y 2 ) i i (xi , yi ) =⇒ . .. (x |vm , y m ) i (5.12) i où le symbole “|” désigne la concaténation de vecteurs et vk est défini par : +1 si i = k vik = −1 si i 6= k et +1 si k = yi . yik = −1 si k 6= y i Ainsi, on obtient un nouvel échantillon biclasse de taille ml; m observations sont dans la classe positive et les m(l − 1) autres observations sont dans la classe négative. Le nombre de variables explicatives est augmenté de m composantes. Après avoir transformé les données on résout le problème (2.5) pour obtenir la fonction de décision habituel f (z) = hw∗ · zi + b∗ où w∗ , z ∈ Rp+m et y ∈ {−1, +1} . Pour classer une nouvelle observation x, on lui applique la procédure de transformation décrite ci-dessus : z1 = x|v1 .. . x =⇒ zk = x|vk .. . z = x|vm m et la règle de classification multiclasse sera donnée par : ¡ ¢ k∗ = Arg max f x|vk , où x|vk est la kème copie augmentée de x. (5.13) 1≤k≤m Dans le cas où la procédure de transformation de l’échantillon initial S donne lieu à un jeu de données linéairement séparable, la méthode ci-dessus présentée fournit des résultats de prévision ¡ ¢ très médiocres. Pour mettre au clair ce défaut, il suffit de décomposer la fonction f x|vk de la façon suivante : ¡ ­ ¢ ­ ¢® ® ¡ f x|vk = w∗ · x|vk + b∗ = hw1∗ · xi + b∗ + w2∗ · vk , avec w∗ = w1∗ |w2∗ , w1∗ ∈ Rp et w2∗ ∈ Rm . 104 Chapitre 5 5.5. Sélection de variables On voit clairement que la quantité hw1∗ · xi + b∗ est constante pour toutes les m copies de x ­ ® et seule la partie w2∗ · vk varie en fonction de k. Ainsi, la règle de classification (5.13) se réduit à: ­ ® k∗ = Arg max w2∗ · vk . (5.14) 1≤k≤m Les règles de décision (5.4) et (5.14) sont identiques. Le défaut majeur de cette règle est qu’elle ignore complètement les variables explicatives initiales (i.e. les composantes initiales de l’observation x). Ainsi, la transformation (5.12) ne conserve aucune information du problème initial. Par conséquent, toutes les observations de l’échantillon test seront classées dans la même classe k∗ qui correspond au vecteur d’augmenta∗ tion vk , ce qui engendre un taux d’erreur assez élevé. En revanche, il semble que la méthode des SVM binaires augmentées donne des résultats acceptables dans le cas où la transformation (5.12) donne lieu à un jeu de données non-linéairement séparable. En effet, l’utilisation d’un noyau non-linéaire dans le problème d’apprentissage du modèle SVM combine, d’une façon ou d’une autre, les composantes du vecteur x|vk ce qui garantit le transfert des caractéristiques du problème initial à la règle de classification (5.13) (voir la formule (2.16) pour le cas polynomial). La combinaison des composantes initiales dépend de la nature du noyau employé. 5.5 Sélection de variables Beaucoup d’applications réelles nécessitent une sélection de variables dans le contexte d’une discrimination multiclasse. Ce problème de réduction de dimension constitue un volet motivant de la recherche qui demeure aujourd’hui ouvert et entièrement à développer. De manière plus spécifique, la théorie statistique des SVM biclasses et la diversité des approches SVM multiclasses proposées n’autorisent pas une simple extension des critères d’importance des variables introduits dans le chapitre 3 aux situations multiclasses. Toutes ces difficultés n’ont pas empêché quelques auteurs de faire des tentatives d’extension, mais totalement dépourvues de bases théoriques défendables. Face à l’accroissement rapide des tailles des bases de données, il est nécessaire de développer de nouveaux algorithmes de sélection de variables facilitant à la fois leur traitement et l’interprétation des résultats qui en découlent. Les algorithmes de sélection de variables permettent d’extraire une information non redondante et pertinente en vue d’une exploitation efficace des données. Ils font l’objet d’une littérature abondante depuis une dizaine d’années. 105 Chapitre 5 5.5.1 5.5. Sélection de variables Extension des scores Dans ce travail, nous nous focalisons principalement sur l’extension des scores d’importance dérivés des SVM que nous avons excessivement analysés au cours de notre troisième chapitre. L’extension de ces scores aux cas multiclasses n’est pas simple. En effet, la notion de marge globale n’existe pas dans le contexte multiclasse. Malgré cette difficulté, il est naturel de considérer comme score d’évaluation d’une variable son influence sur l’ensemble des marges ou des bornes issues des différents sous-problèmes de discrimination binaires de la décomposition adoptée. Pour cela, Weston et al. [98] ont considéré la somme des scores relatifs aux sous-problèmes binaires. En s’inspirant du concept de la séparabilité des classes dans le contexte de la reconnaissance de formes, Wang et al. [96] ont proposé une extension indirecte de la marge pour l’approche une-contre-une, soulignant qu’une extension directe n’est pas évidente dans la mesure où la notion de marge est spécifique au cas biclasse. Cette marge généralisée est la somme pondérée des marges correspondantes aux sous-problèmes binaires et elle est donnée par : γ̄ 2 = X Pk Ps γ 2ks , (5.15) 1≤k<s≤m où γ ks est la marge du modèle SVM obtenue en discriminant les classes k et s et Pk = lk , l (k = 1, . . . , m) est la probabilité a priori de la kème classe estimée à partir de l’échantillon d’apprentissage. Cette définition généralisée de la notion de marge pour l’approche une-contre-une permet d’obtenir des bornes majorantes pour son erreur de généralisation. De-Souza et al. [27] ont proposé de combiner les SVM et les algorithmes génétiques pour la sélection de variables dans le cadre des applications provenant de la technologie des biopuces. Il s’est avéré que cette approche se prête bien à ce genre de données vue le fléau de la dimension qu’elles présentent. La tâche de sélection de gènes est imbriquée dans la fonction coût11 relative aux algorithmes génétiques. Pour des raisons de complexité, nous allons nous restreindre aux scores d’ordre un, obtenus par différentiation. Nous adopterons les notations suivantes au cours de nos expériences : P P P • ∂W, ∂RW et ∂Spb pour les scores obtenus en faisant la somme sur tous les sous- 11 12 ovr ovr ovr ovo ovo ovo problèmes relatifs à la décomposition une-contre-reste12 . P P P • ∂W, ∂RW et ∂Spb pour les scores obtenus en faisant la somme sur tous les sousDite “fitness function” en anglais. L’indice ovr désigne le schéma de décomposition One-Versus-Rest. 106 Chapitre 5 5.5. Sélection de variables problèmes relatifs à la décomposition une-contre-une13 . P P • ∂W et ∂RW pour les scores obtenus sur la base de la marge généralisée (5.15). wei wei Rappelons que ces scores ne sont calculés que pour le schéma de décomposition unecontre-une14 . 5.5.2 Données simulées multiclasses Dans le but de vérifier la capacité des différents scores à retrouver les variables importantes, nous allons commencer par les comparer sur des données multiclasses simulées. Les m classes des données que nous proposons ici sont linéairement séparables par les deux schémas de décomposition ; une-contre-reste et une-contre-une. Les deux premières variables déterminent entièrement le modèle, les autres constituent le bruit. Les m classes sont équiprobables ; Pr (y = c) = 1 , m c = 1, . . . , m. Comme pour les données biclasses, on procède au préalable à une normalisation des données en centrant et réduisant toutes les variables. m=4 1 1 0 0 2 2 x x 2 m=3 2 -1 -2 -2 -1 -1 0 x 1 -2 -2 2 -1 1 0 x 1 2 1 2 1 m=5 m=6 1.5 1.5 1 1 0.5 0.5 2 x x 2 0 0 -0.5 -0.5 -1 -1 -1.5 -2 -2 -1 0 x 1 2 -1.5 -2 1 -1 0 x 1 Fig. 5.13: Répartition des classes en fonction des deux premières variables. Chaque couleur correspond à une classe. L’idée de construction consiste à subdiviser le disque en m morceaux égaux. Chaque région comprise entre l’arc et la corde correspondante est réservée à une classe. Les variables bruits ra13 14 L’indice ovo désigne le schéma de décomposition One-Versus-One. L’indice wei désigne la somme pondérée (weighted sum). 107 Chapitre 5 5.6. Simulations et applications joutées suivent la distribution gaussienne. On montre facilement que ces données restent linéairement séparables quels que soient le nombre et la distribution des variables bruits. De plus, on voit clairement que les deux premières variables, originellement importantes, ne sont pas linéairement corrélées. La figure 5.13 donne une idée graphique sur la conception des données, elle montre la répartition des individus en fonction de x1 et x2 pour différents nombres de classes. La figure 5.14 montre l’histogramme des deux variables importantes. x x 1 120 2 80 70 100 60 80 Fréquence Fréquence 50 60 40 30 40 20 20 10 0 -2 -1 0 1 2 0 -2 -1 0 1 2 Fig. 5.14: Estimation des distributions des deux premières variables des données simulées multiclasses. Ces deux variables déterminent le modèle. 5.6 Simulations et applications L’objectif de cette section est d’appliquer notre procédure de sélection de variables 3.3 aux données simulées et à des données de biopuces en utilisant différents scores du paragraphe précédent. Une comparaison avec les méthodes alternatives introduites au chapitre 4 est aussi envisagée. 5.6.1 Hiérarchies des variables pour les données simulées Dans ces expériences, nous vérifions la capacité des différents scores à bien classer les variables importantes, les deux premières, en présence d’un grand nombre de variables bruits. Nous fixons la taille des échantillons à l = 60 et nous faisons varier le nombre de variables p de 1000, 2000 et 3000 et le nombre de classes m de 3 à 6. À chaque configuration, les variables sont rangées par ordre décroissant d’importance selon le score moyen calculé sur 100 échantillons bootstrap. Dans chacune des 12 configurations considérées, les deux variables importantes occupent les deux premiers rangs des hiérarchies établies par tous les scores. 108 Chapitre 5 5.6. Simulations et applications Afin d’examiner les similarités entre les huit scores, nous avons calculé les coefficients de corrélation des rangs de Spearman. Le tableau 5.1 expose la matrice de corrélations obtenue pour les huit hiérarchies dans le cas où p = 3000 et m = 6. P P P P P ∂W ∂RW ∂Spb ∂W ∂RW ovr ovr ovr ovo ovo P ∂W 1 0.96 0.87 0.96 0.96 ovr P ∂RW 1 0.85 0.93 0.95 ovr P ∂Spb 1 0.85 0.85 ovr P ∂W 1 0.99 ovo P ∂RW 1 ovo P ∂Spb ovo P ∂W wei P ∂RW P ∂Spb ovo P ∂W wei 0.83 P ∂RW wei 0.93 0.90 0.81 0.89 0.89 0.89 0.80 0.77 0.88 0.90 0.86 0.88 0.89 0.85 1 0.77 0.70 1 0.97 1 wei Tab. 5.1: Matrice de corrélations des rangs de Spearman pour les huit scores moyens obtenus sur 100 échantillons bootstrap ; l = 60, p = 3000 et m = 6. L’examen de la matrice 5.1 révèle une corrélation relativement forte entre les scores déduits des critères ∂W et ∂RW. Cette corrélation est légèrement plus forte lorsqu’il s’agit de la même méthode d’agrégation. En revanche, les hiérarchies basées sur les scores dérivés du critère Spb semblent être les moins corrélées avec les autres. 5.6.2 Sélection de modèle pour les données simulées Nous évaluons ici la capacité de notre procédure de sélection de variable 3.3 introduite au chapitre 3 à trouver le modèle optimal en utilisant tous les scores présentés précédemment. Nous utilisons les trois approches indirectes RADAG, décodage basé sur la distance de Hamming et décodage basé sur la fonction de perte. La figure 5.15 montre l’évolution du taux d’erreur calculé sur un échantillon test dix fois plus grand que celui d’apprentissage. La taille l des échantillons d’apprentissage est fixée à 60, le nombre de classes à m = 3 et nous varions le nombre de variables p de 500 et 1000. Pour p = 500 nous introduisons séquentiellement les variables une par une selon l’ordre décroissant d’importance. Afin d’accélérer notre procédure dans le cas où p = 500, nous avons choisi d’introduire les 100 premières variables une par une, les deux suivantes par paquet de 5, les 200 d’après par paquet de 10 et le reste des variables par paquet de 20. L’allure des courbes obtenues est identique à celle du cas binaire. Le taux d’erreur décroît considérablement au 109 Chapitre 5 5.6. Simulations et applications m=3 Hamming-decoding Taux d'erreur : 500 variables RADAG 0.7 0.7 0.6 0.6 0.6 0.5 0.5 0.5 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0 0 10 Taux d'erreur : 1000 variables Loss-decoding 0.7 10 2 10 4 0 0 10 10 2 10 4 0 0 10 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.6 0.5 0.5 0.5 0.4 0.4 0.4 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0 10 0.1 0 10 10 2 10 4 10 2 10 4 0 0 10 10 10 2 2 10 10 4 4 Fig. 5.15: Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux correspond à une approche multiclasse et chaque ligne de panneaux correspond à un nombre de variables (p = 500, 1000). Le nombre de classes est fixé à m = 3 et le nombre d’observations à l = 60. moment où l’on introduit la deuxième variable la plus importante. L’approche RADAG semble être la plus efficace à retrouver le modèle optimal. La figure 5.16 est l’analogue de la figure 5.15 pour m = 6. Les deux panneaux de la première colonne de ce graphique confirment la bonne performance de l’approche RADAG. L’approche basée sur la distance de Hamming est plus fine en utilisant la décomposition une-contre-une. En effet, l’examen des deux panneaux de la deuxième colonne montre que les courbes correspondant à la décomposition une-contre-reste sont situées légèrement au dessus de celles qui correspondent à la décomposition une-contre-une. Ce n’étant pas le cas pour l’approche basée sur la fonction de perte. Nous remarquons que le taux d’erreur optimal obtenu dans tous les cas augmente en fonction du nombre de variables. 5.6.3 Descriptif des données de biopuces Les données de biopuces auxquelles nous nous intéressons ici concernent l’identification des gènes contrôlant la résistance de l’hôte au neuropaludisme (Plasmodium berghei ANKA). Ces données sont issues d’expériences géniques réalisées au sein de la faculté de médecine de Marseille. Des profils d’expression de cerveaux de souris ont été étudiés à l’aide de puces d’ADN chez 110 Chapitre 5 5.6. Simulations et applications m=6 Hamming-decoding RADAG Taux d'erreur : 500 variables 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0 0 10 Taux d'erreur : 1000 variables Loss-decoding 1 0.2 0.2 10 2 10 4 0 0 10 10 2 10 0 0 10 4 1 1 1 0.8 0.8 0.8 0.6 0.6 0.6 0.4 0.4 0.4 0.2 0.2 0.2 0 0 10 10 2 10 4 0 0 10 10 2 10 4 0 0 10 10 10 2 2 10 10 4 4 Fig. 5.16: Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux correspond à une approche multiclasse et chaque ligne de panneaux correspond à un nombre de variables (p = 500, 1000). Le nombre de classes est fixé à m = 6 et le nombre d’observations à l = 60. quatre lignées murines génétiquement bien définies : les lignées BALB/c et DBA/2, qui sont résistantes au neuropaludisme, et les lignées C57BL/6 et CBA/J, qui y sont sensibles. L’analyse biologique menée sur ces données a permis d’identifier une liste des gènes qui discrimine parfaitement les quatre lignées entre elles ainsi que les lignées résistantes des lignées sensibles au neuropaludisme. La liste des gènes présentant une expression différentielle significative entre les lignées résistantes et les lignées sensibles au neuropaludisme a été aussi identifiée. Les résultats biologiques obtenus démontrent que les analyses de puces à ADN peuvent être utiles à l’identification de gènes candidats potentiellement impliqués dans la résistance ou la sensibilité au neuropaludisme murin, et suggèrent que les gènes candidats identifiés chez la souris soient testés en priorité chez l’homme dans le cadre d’études d’association avec la sévérité de la maladie. Après avoir éliminé les gènes présentant des observations manquantes notre jeu de données est réduit à 1733 gènes pour 67 observations. 5.6.4 Résultats sur les données de biopuces Notre objectif principal est de confronter les résultats statistiques et biologiques concernant les gènes sélectionnés. Les résultats de ce paragraphe sont en cours d’analyse avec les biologistes. 111 Chapitre 5 5.7 5.7. Conclusion Conclusion Nous avons commencé ce chapitre par une synthèse des différentes approches des SVM multiclasses. L’ensemble de toutes ces approches est subdivisé en deux grandes familles : indirecte et directe. À travers une analyse minutieuse de ces approches nous avons pu mettre en lumière leurs atouts et leurs défauts. Des équivalences entre certains de ces approches ont été aussi établies. La généralisation de notre procédure de sélection de variables introduite au chapitre 3 est l’un des principaux objectifs de ce chapitre. Pour la famille des approches directes, l’extension des scores d’importance déduits des SVM consiste à considérer la somme ou la somme pondérée des scores calculés à partir des sous-problèmes binaires issus de la décomposition adoptée. Les résultats obtenus sur des données simulées linéairement séparables montrent l’efficacité de notre procédure à retrouver le modèle optimal en présence d’un grand nombre de variables bruits et pour différents nombres de classes. Le schéma de décomposition une-contre-une semble plus performant que celui de la décomposition une-contre-reste surtout lorsque le nombre de variables est assez élevé. De plus le décodage basé sur la fonction de perte domine en performance le décodage basé sur la distance de Hamming. Le deuxième objectif principal de ce chapitre s’articule autour d’une application sur des données de biopuces effectuée en collaboration avec des chercheurs en biologie médicale. Nous désirons donner un sens biologiques aux résultats statistiques obtenus par notre procédure de sélection de variables. Les premiers résultats sont prometteux et le reste de ce travail est en cours d’analyse avec les biologistes. 112 113 Conclusion générale et perspectives Le but de ce travail était le développement d’un nouvel algorithme permettant la sélection de variables pour la classification en grande dimension. Notre procédure exploite essentiellement la richesse du bagage théorique sur lequel sont basées les machines à vecteurs supports. L’analyse de l’existant nous a permis de mettre en évidence un certain nombre de faiblesses : l’instabilité des scores d’importance des variables vis-à-vis des données, le biais de sélection et la non efficacité de certaines méthodes de sélection. Les résultats présentés ont des aspects et des intérêts divers. Certains sont d’ordre méthodologiques, ils proposent de nouvelles approches de résolution pour le problème de sélection de variables en classification binaire et multicatégorielle. D’autres ont plutôt un aspect théorique et constituent une modeste contribution au contexte des scores d’importance dérivés des SVM d’une part et des SVM multiclasses d’autre part. À travers ce travail, nous souhaitons apporter, aux biologistes et aux praticiens intéressés par le thème de sélection de variables, des outils statistiques et des recommandations leur permettant de mieux purifier le grand nombre de variables recueilli lors des expérimentations. Mises à part les considérations statistiques, l’identification des variables importantes fait rapporter au praticien des gains importants. Notamment, en terme de temps qu’en terme de coût nécessaires pour conduire ses essais. Le thème de la sélection de variables en grande dimension demeure sans doute l’un des domaines de recherche les plus ouverts et les plus attrayants aussi bien en statistique qu’en bioinformatique. Le développement de cette thèse de doctorat a permis d’atteindre l’objectif visé : proposer une procédure efficace de sélection de variables pour la classification en grande dimension. Cependant, il est certain que les solutions proposées sont ni optimales ni générales et donc que certaines améliorations et extensions sont possibles. Techniquement, nous pensons à l’extension de ce travail au contexte de la régression. Par ailleurs, l’exploitation des développements récents sur les SVM multiclasses pourrait aider à proposer des approches directes et plus performantes pour la sélection de variables. Pratiquement, Conclusion générale et perspectives nous envisageons de multiplier les outils et diversifier les applications en collaborant avec des chercheurs travaillant dans différents domaines. Nous souhaitons que les idées recueillies dans cette étude servent pour des travaux empiriques et des futures recherches qui seront menés dans ce champ très actif. Enfin, il est toujours important de se rendre compte que la fin d’un travail de thèse n’est que le début de nouveaux projets de recherche et d’une carrière que nous espérons prospère ; “Chaque progrès donne un nouvel espoir, suspendu à la solution d’une nouvelle difficulté. Le dossier n’est jamais clos.” Claude Lévi-Strauss. Le Cru et le Cuit, (1964). 114 115 Bibliographie [1] S. Abe. Analysis of multiclass support vector machines. In Proceedings of International Conference on Computational Intelligence for Modelling Control and Automation, pages 385-396, Vienna, Austria, (2003). [2] S. Abe and T. Inoue. Fuzzy support vector machines for multiclass problems. In Proceedings of the Tenth European Symposium on Artificial Neural Networks, pages 116-118, Bruges, Belgium, (2002). [3] E. Acuña. A comparison of filters and wrappers methods for feature selection methods in supervised classification. Proceedings of the Interface 2003 Computing Science and Statistics, Vol 34, (2003). [4] A. A. Alizadeh. Distinct types of diffues large b-cell lymphoma identified by gene expression profiling. Nature, 403 : 503-511, (2000). [5] E. L. Allwein, R. E. Schapire, and Y. Singer. Reducing Multiclass to Binary : A Unifying Approach for Margin Classifiers. Journal of Machine Learning Research, 1 : 113-141, (2000). [6] U. Alon, N. Barkai, D. A. Notterman, K. Gish, S. Ybarra, D. Mack, and A. J. Levine. Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays. Proc Natl Acad Sci USA, Cell Biology, 96(12) : 6745-6750, (1999). [7] C. Ambroise and G. J. McLachlan. Selection bias in gene extraction on the basis of microarray gene-expression data. National Academy of Sciences, 99(10) : 6562-6566, (2002). [8] D. Anguita, S. Ridella, and D. Sterpi. A New Method for Multiclass Support Vector Machines. Proc. IEEE Int. Joint Conf. on Neural Networks, Budapest, Hungary, (2004). [9] P. L. Bartlett and J. Shawe-Taylor. Generalization performance of support vector machines and other pattern classifiers. In B. Schölkopf, C. J. C. Burges, and A. J. Smola, editors, Bibliographie Advances in Kernel Methods - Support Vector Learning, pages 43-54, The MIT Press, Cambridge, (1999). [10] P. L. Bartlett, S. Boucheron, and G. Lugosi. Model selection and error estimation. Machine Learning, 48(1-3) : 85—113, (2002). [11] M. Bazaraa and C. M. Shetty. Nonlinear programming. John Wiley, New York, (1979). [12] A. Ben Ishak and B. Ghattas. An efficient method for variable selection using svm-based criteria. Pré-publication de l’Institut de Mathématiques de Luminy, Marseille, France, (2005). [13] Y. Bengio. Gradient-based optimisation of hyper-parameters. Neural Computation, 12(8), (2000). [14] K. Bennett and O .L. Mangasarian. Multicategory discrimination via linear programming. Optimization Methods and Software, Vol. 3, pp. 27-39, (1993). [15] A. Boser, I. Guyon, and V. N. Vapnik. A training algorithm for optimal margin classifiers. In Fifth Annual Workshop on Computational Learning Theory, ACM, pages 144-152, Pittsburgh, (1992). [16] P. S. Bradley and O. L. Mangasarian. Feature selection via concave minimization and support vector machines. In Proc. 15th International Conference on Machine Learning, pages 82-90. Morgan Kaufmann, San Francisco, CA, (1998). [17] L. Breiman. Bagging predictors. Machine Learning, 24(2) : 123—140, (1996). [18] L. Breiman. Random forests. Machine Learning, 45(1) : 5—32, (2001). [19] L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification And Regression Trees. Wadsworth and Brooks„ (1984). [20] S. Canu, Y. Grandvalet, and A. Rakotomamonjy. SVM and Kernel Methods MATLAB Toolbox. Perception de Systèmes et Information, INSA de Rouen, France, http ://asi.insarouen.fr/~arakotom/toolbox/index, (2003). [21] N. Chapados and Y. Bengio. Comment améliorer la capacité de généralisation des algorithmes d’apprentissage pour la prise de décisions financières. Document de travail paru dans les cahiers de la série scientifique du CIRANO, Université de Montréal, (2003). [22] O. Chapelle. Support Vector Machines : Principes d’induction, Réglage automatique et Connaissances a priori. PhD thesis, Université Pierre et Marie Curie-Paris VI, (avril 2004). [23] O. Chapelle, V. N. Vapnik, O. Bousquet, and S. Mukherjee. Choosing multiple parameters for support vector machines. Machine Learning, 46(1-3) : 131-159, (2002). 116 Bibliographie [24] C. Cortes and V. N. Vapnik. Support vector networks. Machine Learning, 20(3) : 273-297, (1995). [25] N. Cristianini and J. Shawe-Taylor. Introduction to Support Vector Machines and other kernel-based learning methods. Cambridge University Press, United Kingdom, (2000). [26] Y. Darcy and Y. Guermeur. Radius-margin Bound on the Leave-one-out Error of Multiclass SVMs. Technical Report RR-5780, INRIA, (2005). [27] B. F. De-Souza and A. P. de Carvalho. Gene selection based on multi-class support vector machines and genetic algorithms. Genetics and Molecular Research, 4 (3) : 599-607, (2005). [28] P. A. Devijver and J. Kittler. Pattern Recognition : A Statistical Approach. Prentice-Hall International, Englewood Cliffs, NJ, (1982). [29] R. Díaz-Uriarte and S. Alvarez de Andrés. Gene Selection and classification of microarray data using random forest. BMC Bioinformatics, 7 : 3, pp : 1-13, (2006). [30] T. G. Dietterich and G. Bakiri. Solving multiclass learning problems via error-correcting output codes. Journal of Artificial Intelligence Research, 2 : 263-286, (1995). [31] S. Dudoit, J. Fridlyand, and T. Speed. Comparison of discrimination methods for the classification of tumors using gene expression data. Journal of the American Statistical Association, 97(457) : 77—87, (2002). [32] B. Efron, T. Hastie, I. Johnstone, and R. Tibshirani. Least angle regression. Annals of Statistics, 32(2) : 407—499, (2004). [33] T. Evgeniou, M. Pontil, and T. Poggio. Regularization networks and support vector machines. Advances in Computational Mathematics, 13(1) : 1-50, (2000). [34] F. Ferri, P. Pudil, M. Hatef, and J. Kittler. Comparative study of techniques for large scale feature selection. In E. Gelsema and L. Kanal, editors, Pattern Recognition in Practice IV, pages 403-413. Elsevier Science B. V., (1994). [35] V. Franc and V. Hlavac. Multi-class support vector machine. Proc. 16th IEEE Int. Conf. on Pattern Recognition, (2002). [36] J. H. Friedman. Another approach to Polychotomous classification. Technical report, Department of Statistics, Stanford University, (1996). [37] S. Gey and J. M. Poggi. Boosting and instability for regression trees. Computational Statistics And Data Analysis, 50(2) : 533—550, (2006). [38] B. Ghattas. Agrégation d’arbres de classification. Revue de Statistique Appliquée, XLVIII(2) : 85—98, (1999). 117 Bibliographie [39] B. Ghattas. Importance des variables dans les méthodes CART. Revue de Modulad, 24 : 29—39, (1999). [40] B. Ghattas. Agrégation d’arbres de décision binaires ; Application à la prévision de l’ozone dans les Bouches du Rhône. PhD thesis, Université de la Méditerranée, (2000). [41] B. Ghattas and G. Oppenheim. Etude de faisabilité : Modèles globaux pour la mise au point moteur. Rapport technique Renault, 6/12/2001, 56 pages. [42] T. R. Golub, D. K. Slonim, P. Tamayo, C. Huard, M. Gaasenbeek, J. P. Mesirov, H. Coller, M. L. Loh, J. R. Downing, M. A. Caligiuri, C. D. Bloomfield, and E. S. Lander. Molecular classification of cancer : Class discovery and class prediction by gene expression monitoring. Science, 286 : 531—537, (1999). [43] Y. Guermeur, A. Elisseff, and D. Zelus. A comparative study of multi-class support vector machines in the unifying framework of large margin classifiers. Applied Stochastic Models in Business and Industry, 21(2) : 199-214, (2005). [44] I. Guyon and A. Elisseff. An introduction to variable and feature selection. Journal of Machine Learning Research, 3 : 1157-1182, (2003). [45] I. Guyon, J. Weston, S. Barnhill, and V. N. Vapnik. Gene selection for cancer classification using support vector machines. Machine Learning, 46(1-3) : 389-422, (2002). [46] S. Har-Peled, D. Roth, and D. Zimak. Constraint Classification for multiclass classification and ranking. Proc. Advances in Neural Information Processing Systems 15, pp. 785-792, (2003). [47] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning ; Data Mining, Inference, and Prediction. Springer-Verlag, New York, (2001). [48] T. Hastie, S. Rosset, R. Tibshirani, and J. Zhu. The entire regularization path for support vector machine. Journal of Machine Learning Research, 5 : 1391—1415, (2004). [49] W. Hoeffding. Probability inequalities for sums of bounded random variables. Journal of the American Statistical Association, 58(301) : 13-30, (1963). [50] C. W. Hsu and C. J. Lin. A comparison of methods for multiclass Support Vector Machines. IEEE Trans. on Neural Networks, Vol. 13, pp. 415-425, (2002). [51] T. Inoue and S. Abe. Fuzzy support vector machines for pattern classification. In Proceedings of International Joint Conference on Neural Networks, volume 2, pages 1449-1454, (2001). 118 Bibliographie [52] A. Jain and D. Zongker. Feature selection : Evaluation, application and small sample performance. IEEE Transaction on Pattern Analysis and Machine Intelligence, 19(2) :153158, (1997). [53] G. H. John, R. Kohavi, and K. Pfleger. Irrelevant features and the subset selection problem. Proceedings of 11th International Conference on Machine Learning, 121-129, (1994). [54] B. Kijsirikul, N. Ussivakul, and S. Meknavin. Adaptive directed acyclic graphs for multiclass classification. In PRICAI 2002, pages 158-168, (2002). [55] J. Kittler. Feature set search algorithms. In C. H. Chen Edition, Pattern Recognition and signal Processing, Sijthoff and Noordhoff, Alphen and Rijin, 41-60, (1978). [56] S. Knerr, L. Personnaz, and G. Dreyfus. Single-layer learning revisited : a stepwise procedure for building and training a neural network. In Neurocmputing : Algorithms, Architectures and Applications, J. Fogelman, editor, Springer-Verlag, (1990). [57] R. Kohavi and G. H. John. Wrappers for Feature Subset Selection. Artificial Intelligence, 97(1-2) : 273-324, (1997). [58] U. H. G. Kreßel. Pairwise classification and support vector machines. In B. Schölkopf, C. J. C. Burges, and A. J. Smola, editors, Advances in Kernel Methods - Support Vector Learning, pages 255-268, The MIT Press, Cambridge, (1999). [59] M. Kudo and J. Sklansky. Comparison of algorithms that select features for pattern classifiers. Pattern Recognition, 33(1) : 25-41, (2000). [60] A. Liaw, M.Wiener. Classification and Regression by Random Forest. Rnews, 2 : 18-22, (2002). [61] A. Luntz and V. Brailovsky. On estimation of characters obtained in statistical procedure of recognition. Technicheskaya Kibernetica, 3, (1969). [62] P. McCullagh and J. Nelder. Generalized Linear Models. CHAPMAN & HALL/CRC, Boca Raton, (1989). [63] C. Merz and P. Murphy. UCI repository of machine learning databases. http ://www.ics.uci.edu/~mlearn/MLRepository.html, (1998). [64] P. Narendra and K. Fukunaga. A branch and bound algorithm for feature subset selection. In IEEE Transactions on Computers, 26(9) : 917-922, (1977). [65] J. Neumann, C. Schnörr, and G. Steidl. Combined SVM-Based Feature Selection and Classification. Machine Learning, 61(1-3) : 129-150, (2005). 119 Bibliographie [66] M. Y. Park and T. Hastie. L1 Regularization Path Algorithm for Generalized Linear Models. Technical report, Stanford University, February (2006). [67] F. Pernkopf. Bayesian network classifiers versus selective k-NN classifier. Pattern Recognition, 38(1) : 1-10, (2005). [68] J. Peyre. Analyse statistique des données issues des biopuces à ADN. PhD thesis, Université Joseph Fourier-Grenoble I, (septembre 2005). [69] T. Phetkaew, B. Kijsirikul, and W. Rivepiboon. Reordering adaptive directed acyclic graphs for multiclass support vector machines. In Proceedings of the Third International Conference on Intelligent Technologies, (2002). [70] T. Phetkaew, B. Kijsirikul, and W. Rivepiboon. Multiclass Classification of Support Vector Machines by Reordering Adaptive Directed Acyclic Graph. In International Workshop on Intelligent Systems, (2003). [71] J. C. Platt. Fast training of support vector machines using sequential minimal optimization. In B. Schölkopf, C. J. C. Burges, and A. J. Smola, editors, Advances in Kernel Methods — Support Vector Learning, pages 185-208. The MIT Press, (1999). [72] J. C. Platt, N. Cristianini, and J. Shawe-Taylor. Large margin DAGs for multiclass classification. In S. A. Solla, T. K. Leen, and K. R. Müller, editors, Advances in Neural Information Processing Systems 12, pages 547-553, The MIT Press, (2000). [73] J. M. Poggi and C. Tuleau. Classification supervisée en grande dimension. Application à l’agrément de conduite automobile. Revue de Statistique Appliquée, LIV (4), 39-58, (2006). [74] M. Pontil and A. Verri. Support vector machines for 3-d object recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(6) : 637-646, (1998). [75] P. Pudil, J. Novovic̆ová, and J. Kittler. Floating search methods in feature selection. Pattern Recognition Letters, 15 : 1119-1125, (1994). [76] P. Somol and P. Pudil. Feature selection toolbox. Pattern Recognition, 35 : 2749-2759, (2002). [77] A. Rakotomamonjy. Variable selection using SVM-based criteria. Journal of Machine Learning Research, 3 : 1357-1370, (2003). [78] M. L. Raymer,W. F. Punch, E. D. Goodman, L. A. Huhn, and A. K. Jain. Dimensionality reduction using genetic algorithms. IEEE Trans. on Evolutionary Computation, 4(2) :164— 171, July (2000). 120 Bibliographie [79] J. Reunanen. Overfitting in Making Comparisons Between Variable Selection Methods. Journal of Machine Learning Research, 3 : 1371-1382, (2003). [80] B. Schölkopf, A. Smola, R. Williamson, and P. L. Bartlett. New support vector algorithms. Technical report, NC2-TR-1998-053, NeuroColt2, (1998). [81] D. Singh, P. G. Febbo, K. Ross, D. G. Jackson, J. Manola, C. Ladd, P. Tamayo, A. A. Renshaw, A. V. D’Amico, J. P. Richie, E. S. Lander, M. Loda, P. W. Kantoff, T. R. Golub, and W. R. Sellers. Gene expression correlates of clinical prostate cancer behavior. Cancer Cell, 1 : 203-209, (2002). [82] A. Smola, P. L. Bartlett, B. Schölkopf, and D. Schuurmans. Advances in Large Margin Classifiers. MIT Press, (2000). [83] P. Somol, P. Pudil, F.J. Ferri, and J. Kittler. Fast branch & bound algorithm in feature selection. Proceedings of the SCI Conference, Vol. IIV :646-651, Orlando, FL, (2000). [84] P. Somol, P. Pudil, J. Novovic̆ová, and P. Paclik. Adaptive floating search methods in feature selection. Pattern Recognition Letters, 20 : 1157-1163, (1999). [85] D. Sterpi. Tecniche di modellizzazione statistica basate su Support Vector Machines. PhD thesis, Università degli Studi di Genova, (2005). [86] V. Svetnik, A. Liaw, C. Tong, and T. Wang. Application of Breiman’s random forest to modeling structure-activity relashionships of pharmaceutical molecules. Multiple Classifier Systems. Lecture Notes in Computer Science, Springer, 3077 : 334-343, (2004). [87] F. Takahashi and S. Abe. Optimizing Directed Acyclic Graph : Support Vector Machines. In IAPR-TC3, International Workshop on Artificial Neural Networks in Pattern Recognition, University of Florence, Italy, (2003). [88] R. Tibshirani. Regression shrinkage and selection via Lasso. Journal of the Royal Statistical Society Series B, 58(1) : 267—288, (1996). [89] C. Tuleau. Sélection de variables pour la discrimination en grande dimension et classification de données fonctionnelles. PhD thesis, Université Paris XI-Orsay, (décembre 2005). [90] N. Ussivakul and B. Kijsirikul. Multiclass support vector machines using adaptive directed acyclic graph. In IEEE/INNS International Joint Conference on Neural Networks, (2002). [91] V. N. Vapnik. Statistical learning theory. Wiley, New York, (1998). [92] V. N. Vapnik. The Nature of Statistical Learning Theory. Springer Verlag, New York, (1995). 121 Bibliographie [93] V. N. Vapnik and A. Y. Chevonenkis. On the uniform convergence of relative frequencies of events to their probabilities. Theory of Probability and its Applications, 16(2) : 264-280, (1971). [94] V. N. Vapnik and A. Y. Chevonenkis. The necessary and sufficient conditions for consistency in the empirical risk minimisation method. Pattern Recognition and Image Analysis, 1(3) : 283-305, (1991). [95] V. N. Vapnik and O. Chapelle. Bounds on error expectation for support vector machines. Neural Computation, 12 : 9, (2000). [96] L. Wang, P. Xue, and K. L. Chan. Generalized Radius-Margin Bounds for Model Selection in Multi-class SVMs. Technical report, School of Electrical and Electronic Engineering, Nanyang Technological University, Singapore, 639798, (2005). [97] J. Weston and C. Watkins. Support vector machines for multi-class pattern recognition. In Proceedings of the 6th European Symposium on Artificial Neural Networks, (1999). [98] J. Weston, A. Elisseff, B. Schoelkopf, and M. Tipping. Use of the zero norm with linear models and kernel methods. Journal of Machine Learning Research, 3 : 1439-1461, (2003). [99] J. Weston, S. Mukherjee, O. Chapelle, M. Pontil, T. Poggio, and V. N. Vapnik. Feature selection for support vector machines. In Neural Information Processing Systems, Cambridge, MA, MIT Press (2001b). [100] B. Yu and B. Yuan. A more efficient branch and bound algorithm for feature selection. Pattern Recognition, 26(6) : 883-889, (1993). [101] J. Zhu, S. Rosset, T. Hastie, and R. Tibshirani. 1-norm support vector machines. Advances in Neural Information Processing Systems 16, (2003). 122 Résumé Cette thèse est consacrée à la sélection de variables pour la discrimination binaire et multiclasse en grande dimension. Dans les deux premiers chapitres nous introduisons brièvement les concepts de base de la théorie de l’apprentissage statistique et des machines à vecteurs supports (SVM). Dans le troisième chapitre nous proposons une nouvelle méthode de sélection de variables basée sur des scores d’importance dérivés des SVM. Les variables sont introduites dans le modèle selon l’ordre d’importance décroissant. Dans le chapitre quatre nous comparons différentes méthodes récentes de sélection de variables basées sur les SVM, les GLM sous contrainte de type L1 et les forêts aléatoires. Le dernier chapitre traite de la généralisation de notre travail au cas multiclasse. Nous illustrons l’efficacité de nos approches sur des données simulées et sur des données de biopuces. Les résultats montrent une amélioration significative des performances de prédictives en utilisant peu de variables. Mots clés : Machines à vecteurs supports (SVM), Élimination récursive des variables (SVM-RFE), Forêts aléatoires, Modèles linéaires généralisés et régularisés (GLMpath), Hiérarchies de variables, Sélection de variables, Biopuces, Bootstrap, Biais de sélection, Stepwise, Multiclasse. Abstract This dissertation is dedicated to the problem of feature selection for binary and multiclass discrimination in high dimension. In the first two chapters we briefly introduce the basic concepts of statistical learning theory and support vector machines (SVM). In the third chapter we suggest a new method of feature selection based on ranking scores derived from SVM. Our feature selection algorithm consists in a forward selection strategy according to the decreasing order of the variable importance. In chapter four we compare several recent feature selection methods based on SVM, L1 constrained Generalized Linear Models and Random Forests. The last chapter deals with the generalization of our work to the multiclass classification case. We illustrate the effectiveness of our approaches on synthetic data and some challenging benchmark problems based on microarray data. Results demonstrate a significant improvement of generalization performance using a few variables. Key words : Support vector machines (SVM), Recursive feature elimination (SVM-RFE), Random forests, Generalized linear models with regularization (GLMpath), Variables hierarchy, Variable selection, Microarray, Bootstrap, Selection bias, Stepwise, Multiclass.