thèse en cotutelle sélection de variables par les machines à

publicité
UNIVERSITÉ DE LA MÉDITERRANÉE (Aix-Marseille II)
Faculté des Sciences de Luminy
École Doctorale de Mathématiques et Informatique (E.D. 184)
UNIVERSITÉ DE TUNIS
Institut Supérieur de Gestion
de Tunis
THÈSE EN COTUTELLE
pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ DE LA MÉDITERRANÉE
Discipline : Informatique et Mathématiques
et le grade de
DOCTEUR DE L’UNIVERSITÉ DE TUNIS
Discipline : Gestion (Option : Modélisation)
présentée et soutenue publiquement le 6 septembre 2007 par
Anis BEN ISHAK
SÉLECTION DE VARIABLES PAR LES MACHINES
À VECTEURS SUPPORTS
POUR LA DISCRIMINATION BINAIRE ET MULTICLASSE
EN GRANDE DIMENSION
Directeurs de thèse : M. Badih GHATTAS / M. Abdelwahed TRABELSI
JURY
M. Claude DENIAU
M. Khaled MELLOULI
M. Jean-Michel POGGI
M. Denys POMMERET
M. Abdelwaheb REBAI
Professeur émérite, Université de la Méditerranée
Professeur, Université du 7 novembre de Carthage
Professeur, Université Paris 5
Professeur, Université de la Méditerranée
Professeur, Université de Sfax
Président
Rapporteur
Rapporteur
Examinateur
Examinateur
ii
Remerciements
Ce travail a été réalisé en cotutelle aux seins des Laboratoires BESTMOD de l’Institut
Supérieur de Gestion de Tunis et l’Institut de Mathématiques de Luminy relevant de la Faculté des Sciences de Luminy à Marseille. Je remercie les membres du Laboratoire BESTMOD
pour l’amitié qu’ils m’ont témoignée tout au long de ces années de thèse. Mes remerciements
s’adressent également aux membres de l’équipe Méthodes Mathématiques pour le Génome de
L’IML pour leur accueil et leur soutien.
Je n’oublierai pas de remercier très cordialement les responsables de la coopération universitaire franco-tunisienne aussi bien au niveau du ministère de l’enseignement supérieur et de la
recherche scientifique qu’au niveau de l’Institut Français de Coopération pour avoir financé mes
séjours à Marseille durant mon parcours de thèse.
Je tiens à exprimer ma profonde gratitude et ma sincère reconnaissance aux trois personnes
qui m’ont encadré durant ces années de thèse. Monsieur Abedelwahed Trabelsi, directeur du
Laboratoire BESTMOD, pour ses précieux conseils, son aide inestimable et son optimisme contagieux. Monsieur Badih Ghattas, Maître de Conférences à la Faculté des Sciences de Luminy,
pour m’avoir fait partagé ses nombreuses connaissances et qui m’a souvent donné le courage
d’avancer dans mes recherches, notamment en me remotivant lorsque j’en éprouvais le besoin et
sans qui cette thèse n’aurait jamais pu être menée à bien. Monsieur Claude Deniau, Professeur
émérite de la Faculté des Sciences de Luminy, pour les discussions fructueuses que j’ai eu avec
lui et pour sa gentillesse et sa modestie inégalées.
Merci à Monsieur Khaled Mellouli et à Monsieur Jean-Michel Poggi qui ont accepté de
rapporter cette thèse et je les remercie du temps qu’ils y ont consacré. Je remercie également
Monsieur Denys Pommeret et Monsieur Abdelwaheb Rebai pour avoir bien voulu faire partie
du jury.
Mes vifs remerciements s’adressent à Monsieur Abderrzak Ben Maatoug, Maître Assistant à
l’Institut Supérieur de Gestion de Tunis, pour son enthousiasme et avec qui j’ai eu le plaisir de
collaborer sur le sujet de la pollution atmosphérique.
Merci à tous mes amis pour tous les moments de franche insouciance et de douce gaieté qu’il
m’a été donné de partager avec eux entre les lignes de cette thèse.
Enfin, je ne saurais terminer cette liste sans adresser un remerciement particulier à ceux qui
m’ont soutenu dans l’ombre, mes parents, ma sœur et mes frères, sans qui ce travail n’aurait
iii
jamais pu voir le jour. Je leur dédie ce travail en témoignage de ma profonde affection pour toute
la patience et les sacrifices qu’ils ont convertis pour moi et dont je serai à jamais redevable, et
d’avoir porté ce travail à terme représente pour moi aujourd’hui la plus belle des récompenses.
Que tous ceux qui m’ont aidé de près ou de loin dans l’élaboration de ce travail trouvent ici
l’expression de ma sincère gratitude.
iv
À mes chers parents,
À ma chère sœur,
À mes chers frères,
À tous ceux que j’aime.
v
Table des matières
Table des figures
viii
Liste des tableaux
x
Introduction générale
1
1 Théorie de l’apprentissage statistique et principes d’induction
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Position du problème d’apprentissage statistique . . . . . . . . . .
1.2.1 Le modèle général . . . . . . . . . . . . . . . . . . . . . . .
1.2.2 Les principaux problèmes d’apprentissage . . . . . . . . . .
1.3 Principe de minimisation du risque empirique . . . . . . . . . . .
1.3.1 Condition de consistance . . . . . . . . . . . . . . . . . . .
1.3.2 Théorie des bornes de Vapnik-Chervonenkis . . . . . . . .
1.3.3 Borne de risque non-asymptotique . . . . . . . . . . . . . .
1.4 Problème de sélection de modèle . . . . . . . . . . . . . . . . . . .
1.4.1 Le dilemme biais-variance . . . . . . . . . . . . . . . . . .
1.4.2 Principe de minimisation du risque structurel . . . . . . .
1.4.3 Construction des algorithmes d’apprentissage . . . . . . .
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Machines à vecteurs supports biclasses
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Problème de la classification linéaire . . . . . . . . . . . . . .
2.2.1 Formalisation du problème . . . . . . . . . . . . . . . .
2.2.2 Approche générale . . . . . . . . . . . . . . . . . . . .
2.2.3 Définitions de base . . . . . . . . . . . . . . . . . . . .
2.3 Machines à vecteurs supports . . . . . . . . . . . . . . . . . .
2.3.1 Hyperplan à marge maximale . . . . . . . . . . . . . .
2.3.2 Idée de relaxation . . . . . . . . . . . . . . . . . . . . .
2.3.3 SVM non-linéaires . . . . . . . . . . . . . . . . . . . .
2.3.4 Adéquation des SVM aux principes inductifs . . . . . .
2.3.5 Résolution des problèmes d’optimisation issus des SVM
2.4 Bornes sur l’erreur de généralisation pour les SVM . . . . . . .
2.4.1 Estimation basée sur un échantillon test . . . . . . . .
2.4.2 Borne basée sur la dimension de Vapnik-Chervonenkis .
2.4.3 Bornes obtenues par leave-one-out . . . . . . . . . . . .
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5
5
6
6
7
7
8
10
12
13
13
15
17
18
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
20
20
20
21
23
24
27
28
30
32
33
33
33
34
35
vi
3 Sélection de variables en grande dimension par les SVM biclasses
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Scores dérivés des SVM . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Scores d’ordre zéro . . . . . . . . . . . . . . . . . . . . . . . .
3.2.2 Scores par différence . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Scores d’ordre un . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Effet du réapprentissage sur les scores . . . . . . . . . . . . . .
3.2.5 Quelques équivalences entre les scores dans le cas linéaire . . .
3.2.6 Preuve des équivalences dans le cas non-linéaire . . . . . . . .
3.3 Présentation des données linéairement séparables . . . . . . . . . . .
3.3.1 Données simulées . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Données réelles . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Application sur les données simulées . . . . . . . . . . . . . . . . . .
3.4.1 Notre procédure de sélection de variables . . . . . . . . . . . .
3.4.2 Effet de la taille de l’échantillon . . . . . . . . . . . . . . . . .
3.4.3 Effet du nombre de variables . . . . . . . . . . . . . . . . . . .
3.4.4 Stabilisation des scores par bootstrap . . . . . . . . . . . . . .
3.5 Application sur les données réelles . . . . . . . . . . . . . . . . . . . .
3.5.1 La démarche suivie . . . . . . . . . . . . . . . . . . . . . . . .
3.5.2 Comparaison des résultats . . . . . . . . . . . . . . . . . . . .
3.5.3 Biais de sélection . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Simulations dans le cas non-linéaire . . . . . . . . . . . . . . . . . . .
3.6.1 Descriptif des données . . . . . . . . . . . . . . . . . . . . . .
3.6.2 Résultats et discussion . . . . . . . . . . . . . . . . . . . . . .
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
37
37
38
39
40
40
42
43
45
47
47
48
49
50
50
52
54
56
56
57
59
61
61
63
65
4 Comparaison de méthodes de sélection de variables pour la classification binaire en grande dimension
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.2 Méthodes séquentielles standards . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Les méthodes choisies . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Sélection basée sur les forêts aléatoires . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Hiérarchie des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Sélection basée sur les modèles linéaires généralisés . . . . . . . . . . . . . . . .
4.3.1 Régularisation de type L1 pour le choix du modèle . . . . . . . . . . . .
4.3.2 Hiérarchie des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Comparaison des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Résultats pour les données simulées . . . . . . . . . . . . . . . . . . . . .
4.4.2 Résultats pour les données de biopuces . . . . . . . . . . . . . . . . . . .
4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
66
66
66
68
69
71
71
73
73
73
74
75
75
79
83
5 SVM multiclasses et sélection de variables en
5.1 Introduction . . . . . . . . . . . . . . . . . . .
5.2 Approches indirectes . . . . . . . . . . . . . .
5.2.1 Une-contre-reste . . . . . . . . . . . . .
5.2.2 Une-contre-une . . . . . . . . . . . . .
5.2.3 SVM floues . . . . . . . . . . . . . . .
5.2.4 Graphe de décision acyclique orienté .
85
85
87
87
90
92
94
grande
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
dimension
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
vii
5.3
5.4
5.5
5.6
5.7
5.2.5 Graphe acyclique orienté adaptatif . . . . . . . . . .
5.2.6 Graphe acyclique orienté adaptatif réordonné . . . .
Unification des méthodes par les codes correcteurs d’erreurs
5.3.1 SVM et codes correcteurs d’erreurs . . . . . . . . . .
5.3.2 Décodage basé sur la distance de Hamming . . . . . .
5.3.3 Décodage basé sur la fonction de perte . . . . . . . .
5.3.4 Quelques équivalences entre les approches . . . . . .
Approches directes . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Optimisation globale . . . . . . . . . . . . . . . . . .
5.4.2 SVM binaire augmentée . . . . . . . . . . . . . . . .
Sélection de variables . . . . . . . . . . . . . . . . . . . . . .
5.5.1 Extension des scores . . . . . . . . . . . . . . . . . .
5.5.2 Données simulées multiclasses . . . . . . . . . . . . .
Simulations et applications . . . . . . . . . . . . . . . . . . .
5.6.1 Hiérarchies des variables pour les données simulées .
5.6.2 Sélection de modèle pour les données simulées . . . .
5.6.3 Descriptif des données de biopuces . . . . . . . . . .
5.6.4 Résultats sur les données de biopuces . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
95
97
97
98
99
99
100
101
101
103
105
106
107
108
108
109
110
111
112
Conclusion générale et perspectives
113
Bibliographie
115
viii
Table des figures
1.1 ŷ est une approximation, donnée par le prédicteur, de la dépendance
par le lien et qui relie x à y. . . . . . . . . . . . . . . . . . . . . . .
1.2 Illustration du dilemme biais-variance. . . . . . . . . . . . . . . . .
1.3 Variation de la borne sur le risque espéré. . . . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
réelle gérée
. . . . . . .
. . . . . . .
. . . . . . .
Variables d’écart à la marge objectif γ. . . . . . . . . . . . . . . . . . . . . . . .
Formulation du programme de l’hyperplan à marge maximal. . . . . . . . . . . .
Un cas de figure dans lequel le problème à marge maximale n’admet pas de solution.
Exemple de plongement non-linéaire. . . . . . . . . . . . . . . . . . . . . . . . .
3.1 Histogrammes des six premières variables des données simulées linéaires ; les six
variables qui déterminent le modèle. 5000 observations sont utilisées. . . . . . . .
3.2 Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre
procédure avec tous les scores. Chaque panneau correspond à une taille. Le nombre de variables est fixé à 200. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Zoom sur le premier panneau de la figure précédente. . . . . . . . . . . . . . . .
3.4 Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre
procédure avec tous les scores. Le panneau de gauche correspond à 500 variables
et celui de droite correspond à 1000 variables. La taille de l’échantillon est égale
à 50. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Instabilité de la hiérarchie des variables suite à l’élimination d’une observation
vecteur support (Les trois panneaux de la première ligne) et d’une observation
non vecteur support (Les trois panneaux de la deuxième ligne). . . . . . . . . . .
3.6 Distribution bootstrap du score ∂Spb pour les 9 premières variables. La valeur
moyenne est représentée par la ligne verticale interrompue. La ligne verticale
continue représente la valeur observée en présence de toutes les observations. . .
3.7 Résultat sur Colon avec bootstrap : taux d’erreur moyen estimé par 50 partages
aléatoires stratifiés. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 Variation du taux d’erreur et du nombre de variables au cours des 10 validations
croisées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9 Estimation des distributions des deux premières variables des données simulées
non-linéaires ; les deux variables qui déterminent le modèle. 5000 observations
sont utilisées. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10 Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre
procédure avec les scores SVM d’ordre un et le score FDS. On fait varier le
nombre de variables d’un panneau à un autre. La taille de l’échantillon est fixée
à 80. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
16
17
23
25
27
29
48
52
53
54
55
56
58
62
62
64
ix
4.1 Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données simulées ( p = 200 et l = 50, 100, 200). L’axe des abscisses indique le rang
(normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables
communes pour les méthodes comparées. Plus la courbe est proche de la première
bissectrice, plus les hiérarchies comparées sont voisines. . . . . . . . . . . . . . .
4.2 Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données simulées ( p = 500, 1000 et l = 50). L’axe des abscisses indique le rang
(normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables
communes pour les méthodes comparées. Plus la courbe est proche de la première
bissectrice, plus les hiérarchies comparées sont voisines. . . . . . . . . . . . . . .
4.3 Effet de la taille de l’échantillon. Taux d’erreur moyen calculé sur 50 échantillons
tests pour différentes tailles. Le nombre de variables est fixé à 200. . . . . . . . .
4.4 Effet du nombre de variables. Taux d’erreur moyen calculé sur 50 échantillons tests
en utilisant 500 variables (les panneaux de la première ligne) et 1000 variables
(les panneaux de la deuxième ligne). La taille de l’échantillon est fixée à 50. . . .
4.5 Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les deux
jeux de données Colon et Lymphoma. L’axe des abscisses indique le rang (normalisé) dans la hiérarchie et celui des ordonnées la proportion de variables communes
pour les méthodes comparées. Plus la courbe est proche de la première bissectrice,
plus les hiérarchies comparées sont voisines. . . . . . . . . . . . . . . . . . . . .
4.6 Comparaison des hiérarchies SVM, SVM-FA, SVM-GLMpath et FA-GLMpath,
pour les deux jeux de données Leukemia et Prostate. . . . . . . . . . . . . . . .
5.1 Deux hyperplans, chacun d’eux est associé à une classe. . . . . . . . . . . . . . .
5.2 L’espace hachuré représente la région d’ambiguïté pour l’approche une-contrereste suite à la prise de décision discrète. . . . . . . . . . . . . . . . . . . . . . .
5.3 Règle de décision continue : les bissectrices des secteurs d’ambiguïté forment la
nouvelle frontière de classification. . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4 La région d’ambiguïté hachurée est réduite pour l’approche une-contre-une. . . .
5.5 Chaque frontière définit une courbe de niveau pour la fonction Mk (x) d’adhésion
à la classe k. Cette fonction vaut 1 sur tout point de la zone hachurée. . . . . . .
5.6 Résolution de la région d’ambiguïté par les FSVMs. . . . . . . . . . . . . . . . .
5.7 Graphe de décision acyclique orienté à trois classes. . . . . . . . . . . . . . . . .
5.8 DDAG favorise la feuille du milieu en y affectant la région d’ambiguïté. . . . . .
5.9 ADAG à huit classes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.10 Illustration par listes d’un ADAG à sept classes. . . . . . . . . . . . . . . . . . .
5.11 Les différentes étapes du RADAG. . . . . . . . . . . . . . . . . . . . . . . . . . .
5.12 Exemples de séparations linéaires par morceaux. . . . . . . . . . . . . . . . . . .
5.13 Répartition des classes en fonction des deux premières variables. Chaque couleur
correspond à une classe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.14 Estimation des distributions des deux premières variables des données simulées
multiclasses. Ces deux variables déterminent le modèle. . . . . . . . . . . . . . .
5.15 Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux
correspond à une approche multiclasse et chaque ligne de panneaux correspond à
un nombre de variables (p = 500, 1000). Le nombre de classes est fixé à m = 3 et
le nombre d’observations à l = 60. . . . . . . . . . . . . . . . . . . . . . . . . . .
5.16 Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux
correspond à une approche multiclasse et chaque ligne de panneaux correspond à
un nombre de variables (p = 500, 1000). Le nombre de classes est fixé à m = 6 et
le nombre d’observations à l = 60. . . . . . . . . . . . . . . . . . . . . . . . . . .
77
77
78
79
81
81
88
89
90
91
93
93
94
95
96
97
98
103
107
108
110
111
x
Liste des tableaux
3.1 Les scores indexés par la lettre r sont calculés par réapprentissage. Les scores
marqués par le même nombre d’astérisques donnent des hiérarchies identiques. .
3.2 Description des données réelles, p désigne le nombre de variables, l et l0 désignent
respectivement la taille de l’échantillon d’apprentissage et de l’échantillon test. .
3.3 Procédure de sélection de variables à partir d’une hiérarchie. À la sortie de la
procédure, on récupère le nombre optimal de variables. . . . . . . . . . . . . . .
3.4 Les six variables occupant les six premiers rangs de la hiérarchie. . . . . . . . . .
3.5 Effet de la taille de l’échantillon. Rang maximal au bout duquel sont apparues
les six variables importantes. l = 50, 100, 200 et p = 200. . . . . . . . . . . . . .
3.6 Effet du nombre de variables. Rang maximal au bout duquel sont apparues les
six variables importantes. p = 200, 500, 1000 et l = 50. . . . . . . . . . . . . . . .
3.7 Rangs des six premières variables. Les hiérarchies sont établies selon la valeur
moyenne sur 500 échantillons bootstrap. p = 200 et l = 50. . . . . . . . . . . . .
3.8 Colon : matrice de corrélation des rangs de Spearman pour les 10 scores calculés
par 100 échantillons bootstrap. . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9 Nombre de variables (mis entre parenthèses) nécessaires pour atteindre le taux
d’erreur minimal, Avec Bootstrap (AB) et Sans Bootstrap (SB). . . . . . . . . .
3.10 Comparaison des scores sur Colon : nombre de variables communes sélectionnées
par les différents scores calculés avec bootstrap. . . . . . . . . . . . . . . . . . .
3.11 Nombre de variables sélectionnées par un même score calculé avec ou sans bootstrap.
3.12 10-validations croisées de la procédure de sélection de variables décrite dans le
tableau 3.3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.13 Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle
sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées
est entre parenthèses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.14 Pour 50, 100, 200 et 300 variables, chaque ligne donne les rangs auxquels sont
apparues dans la hiérarchie une puis les deux variables importantes. La taille de
l’échantillon est fixée à 80. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 SVM-RFE : Élimination récursive des variables. . . . . . . . . . . . . . . . . . .
4.2 Importance des variables dans les forêts aléatoires. OOBk est constitué des observations de l’échantillon d’apprentissage qui ne sont pas utilisées dans l’arbre k
de la forêt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Pour 50, 100 et 200 observations chaque ligne donne le rang auquel quatre, cinq
puis six variables parmi les variables importantes sont apparues dans la hiérarchie.
Le nombre de variables est fixé à 200. La hiérarchie est établie sur 200 échantillons
bootstrap pour les quatre premiers scores et sur 500 échantillons bootstrap pour
GLMpath. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
49
50
51
51
53
57
59
59
60
60
61
61
63
70
72
76
xi
4.4 Pour 500 et 1000 variables, chaque ligne donne le rang auquel quatre, cinq puis six
variables importantes sont apparues dans la hiérarchie. La taille de l’échantillon
est fixée à 50. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.5 Taux d’erreur moyen calculé sur 50 échantillons tests obtenu suite à l’introduction séquentielle des variables selon l’ordre d’importance décroissant. Le nombre
optimal de variables est mis entre parenthèses. Pour la méthode GLMpath le taux
d’erreur est obtenu par validation croisée sur l’échantillon d’apprentissage. . . .
4.6 Nombre de variables communes parmi les 50 les plus importantes pour les quatre
comparaisons établies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.7 Nombre de variables communes parmi les 100 les plus importantes pour les quatre
comparaisons établies. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Résultats des applications sur les données biopuces. On donne entre parenthèses le
nombre minimal de variables pour lequel le taux d’erreur moyen atteint son minimum. Ce taux d’erreur est calculé sur 50 échantillons tests obtenus par partages
aléatoires stratifiés. On garde le même partage pour les différentes méthodes utilisées. Pour le jeu de données Leukemia le taux d’erreur et estimé sur l’échantillon
test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9 Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle
sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées
est entre parenthèses. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
79
80
82
82
83
5.1 Matrice de corrélations des rangs de Spearman pour les huit scores moyens obtenus
sur 100 échantillons bootstrap ; l = 60, p = 3000 et m = 6. . . . . . . . . . . . . 109
xii
Notations et abréviations
b
Biais d’un modèle linéaire.
C
Paramètre contrôlant le compromis entre erreur empirique et marge.
C
Compact de X .
d
Degré d’un noyau polynomial.
E∗
Ensemble fini de r poits de X .
F
Ensemble de fonctions de X dans Y.
FL
Classe des fonctions linéaires f de X dans R.
G
Matrice de Gram, (K (xi , xj ))1≤i,j≤l .
H
Ensemble des hyperplans h définis par les fonctions de FL .
Ksv
Matrice de Gram calculée sur les vecteurs supports.
K̃sv
Matrice agrandie obtenue à partir de Ksv .
K (., .)
Fonction noyau.
L
Fonction de perte, dite aussi de coût.
L
Fonction de Lagrange.
Taille de l’échantillon.
¡
¢
MS H(w,b) La distribution des marges de l’hyperplan H(w,b) sur l’échantillon S.
¡
¢
mS H(w,b)
La marge de l’hyperplan H(w,b) .
l
N
Loi normale.
P
Distrbution de probabilité génératrice des observations de S.
R
Espérance du risque, dit aussi espérance de perte ou de l’erreur.
Remp
Risque empirique.
R
Le rayon de la plus petite boule recouvrant l’échantillon S.
S
Échantillon d’apprentissage.
S
Span d’un vecteur support, dite aussi étendue.
T ⊂ Rq
Espace transformé implicitement induit par le noyau K.
W (α)
Fonction objectif du problème dual.
w
Vecteur de poids d’un modèle SVM.
X ⊂ Rp
Domaine des variables explicatives.
x ∈ Rp
Vecteur de p variables explicatives.
Y
L’ensemble des toutes les classes.
xiii
y
Classe de x, dite aussi label ou étiquette.
Z
Domaine des couples (x, y) = z.
αi , β i
Multiplicateur de Lagrange.
b
β(λ)
Paramètres d’un modèle linéaire généralisé sous contrainte de type L1 .
γ
Marge d’un modèle SVM.
∆
Oprérateur désigant le calcul de la variation.
δ
Probabilité de confiance sur le majorant de l’erreur de généralisation.
θ ∈ Rp
Vecteur de p pondérartions artificielles.
Λ
Ensemble des combinaisons linéaires contraites des vecteurs supports.
µ
Moyenne d’une variable aléatoire.
ξ ∈ Rl
Vecteur des variables d’écart à la marge.
σ
Largeur de la bande d’un noyau gaussien.
φ
Fonction de plongement non-linéaire iduite par K.
Ω, Ωk
Sous-ensemles de Rp × R.
ADAG
Graphe orienté acyclique adaptatif.
DDAG
Graphe orienté acyclique de décision.
dim V C
La dimension de Vapnik-Chervonenkis.
FA
Forêts aléatoires.
F DS
Score de discrimination de Fisher.
F SV M
Machines à vecteurs supports floues.
GLMpath Modèles linéaires généralisés et régularisés.
perr
Proportion d’erreur.
RADAG
Graphe orienté acyclique adaptatif réordonné.
RF E
Élimination récursive des variables.
RW
La borne rayon-marge pour un modèle SVM.
SMO
Optimisation minimale séquentielle.
Spb
La span-borne pour un modèle SVM.
SV M
Machine à vecteurs supports.
W
Le carré de la norme du vecteur de poids d’un modèle SVM.
xiv
Opérateur de dérivation partielle.
∂
P
−→
Symbole de convergence en probabilité.
·T
La transposée d’une matrice.
k.k
Norme euclidienne.
h. · .i
Poduit scalaire standard.
(. · .)
Produit vectoriel terme à terme (Componentwise).
#
Cardinal d’un ensemble.
1
Vecteur dont toutes les composantes valent 1.
0
Vecteur dont toutes les composantes valent 0.
l→+∞
1
Introduction générale
Cette thèse s’inscrit dans le cadre de l’apprentissage statistique et s’intéresse essentiellement
au problème de sélection de variables en grande dimension pour la classification binaire et
multiple. Elle comporte à la fois des aspects théoriques, méthodologiques et pratiques.
Problématique
En apprentissage statistique supervisé on cherche à modéliser puis prédire une variable dépendante (continue ou catégorielle) à partir d’un ensemble de variables explicatives. Le problème
du fléau de dimension en statistique désigne les situations où l’on dispose de peu d’observations
alors que le nombre de variables explicatives est très grand. Cette situation est de plus en plus
fréquente dans les applications, en particulier celles liées aux biopuces. Une biopuce fournit une
seule observation de plusieurs milliers de gènes simultanément. Cette observation correspond en
général à une seule condition expérimentale (une cellule par exemple) et à une seule classe parmi
deux ou plusieurs (cellule saine ou cellule cancéreuse par exemple). Les gènes jouent le rôle des
variables, et le nombre d’observations (donc de biopuces) est très faible pour des raisons de coût.
Dans ce contexte, on cherche à réduire le nombre de variables explicatives, parmi lesquelles, peu
sont informatives en général, et les autres constituent essentiellement du bruit.
Le problème auquel nous nous intéressons ici est celui de la détermination des variables
explicatives importantes pour un modèle de type machines à vecteurs supports. En particulier,
nous traitons cette question dans le cadre de la classification supervisée (cas où la variable à
prédire est catégorielle) binaire, puis nous considérons des extensions méthodologiques aux cas
multiclasse (cas où la variable dépendante a plus que deux modalités).
Notre objectif est donc de réduire la dimension de l’espace des variables explicatives sans
perte significative de performance pour le modèle utilisé.
Introduction générale
État de l’art
D’un point de vue statistique, la réduction de la dimension des variables explicatives évite
le problème de surapprentissage. Sans préalablement réduire la dimension, les méthodes statistiques standards en classification supervisée, ne sont pas très performantes. Les techniques de
régularisation, telles que les machines à vecteurs supports et les modèles linéaires généralisés
régularisés, semblent résister au problème de surapprentissage sans avoir besoin de réduire la
dimension.
Un grand nombre d’algorithmes de sélection de variables est disponible dans la littérature
mais rares sont les méthodes capables de relever le défi sur lequel nous nous focalisons. On
distingue deux grands types de méthodes : les approches du type analyse de données et les
approches du type “stepwise”. Le premier type d’approches combine les variables afin de réduire
la dimension. Quant aux approches du deuxième type, elles consistent à éliminer les variables
considérées moins importantes selon un certain critère et en suivant une certaine stratégie de
sélection. Les performances de ces approches dépendent fortement de la nature du critère et de
la stratégie utilisés.
Les méthodes alternatives que nous proposons dans ce travail s’insèrent dans la deuxième
catégorie d’approches. Plusieurs travaux récents de ce type ont fait preuve de leur efficacité sur
des applications de biopuces. Certains appliquent une stratégie d’élimination récursive (ou/et
d’ajout récursif) des variables jusqu’à en conserver un sous-ensemble optimal comme le font
[Guyon et al., 2002] et [Rakotomamonjy, 2003]. D’autres combinent la sélection de variables et
l’apprentissage du classifieur en une seule étape (comme le font par exemple [Chapelle et al.,
2002] et [Weston et al. 2003]).
Les forêts aléatoires introduites par Breiman [18] offrent une méthode originale pour calculer
une hiérarchie des variables explicatives. Cette méthode a été utilisée avec succès dans le cadre
des applications aux biopuces (Diáz-Uriarte et al. [29]).
Enfin, des approches du type “régularisation” ont été proposées ces trois dernières années
pour aborder directement le problème de la sélection de variables en le prenant en compte dans
l’étape de l’estimation du modèle. Park et al. ([66], 2006) ont suggéré d’estimer des modèles
linéaires généralisés en pénalisant la vraisemblance et en imposant des contraintes de type L1
sur les coefficients du modèle. Cette idée a aussi servi dans les machines à vecteurs supports, et
elle est à la base par exemple de la variante dite “one-norm SVM” (Zhu et al. [101]).
La littérature abondante portant depuis plusieurs décennies sur le problème de sélection de
2
Introduction générale
variables témoigne non pas seulement de son importance mais aussi des difficultés qu’il ne cesse
de poser. Ce domaine de recherche restera à jamais actif tant qu’il est motivé par l’évolution des
systèmes de collecte et de stockage des données d’une part et par les exigences des applications
réelles très variées d’autre part.
Contributions
Notre contribution pour l’analyse de l’importance des variables explicatives est à la fois sur
le plan théorique et sur le plan des simulations et des applications.
La sélection des variables dans les machines à vecteurs supports est basée sur des critères
dont le calcul permet d’obtenir une hiérarchie des variables. Plusieurs critères ont été introduits
dans la littérature (Guyon et al. [45] et Rakotomamonjy [77]). Nous avons d’une part introduit
quelques critères supplémentaires et nous avons pu démontrer d’autre part des équivalences entre
ces critères pour les machines à vecteurs supports linéaires binaires. Pour le cas non-linéaire nous
avons aussi obtenu des résultats d’équivalences entre les critères dans un cadre réduit, celui de
l’utilisation de noyaux polynomiaux.
Nous avons montré empiriquement que ces critères peuvent être instables et nous avons
préféré utiliser leur estimation par bootstrap.
Dans le chapitre 3 nous avons proposé une approche séquentielle d’introduction des variables
importantes dans le modèle utilisé. Cette approche similaire à celle utilisée par Ghattas et al. [41]
et Poggi et al. [73] permet de déterminer le nombre de variables importantes à conserver. Notre
procédure a été analysée et expérimentée dans différentes conditions sur des données simulées,
puis appliquée avec succès sur des données de biopuces.
Dans le chapitre 4 nous avons comparé notre approche à plusieurs méthodes basées sur les
machines à vecteurs supports, mais aussi aux forêts aléatoires et aux modèles linéaires généralisés
sous contraintes du type L1 .
Le dernier chapitre présente entre autres une extension du calcul des critères d’importance
des variables pour les machines à vecteurs supports multiclasses. Dans ce cadre nous avons pu
démontrer des équivalences entre certaines approches multiclasses, et nous nous sommes limités
à analyser des critères d’importances de variables sur la base de simulations.
Bilan et Perspectives
3
Introduction générale
Les résultats obtenus dans ce travail de recherche ont des aspects et des intérêts divers.
Certains sont d’ordre méthodologiques, ils proposent des recommandations et de nouvelles approches de résolution pour le problème de sélection de variables en classification binaire et
multicatégorielle. D’autres ont plutôt un aspect théorique et constituent une modeste contribution au contexte des scores d’importance dérivés des machines à vecteurs supports binaires et
multiclasses.
Les perspectives du présent travail se situent essentiellement dans le contexte de la discrimination multiclasse. Des progrès peuvent être réalisés notamment en explorant les travaux
théoriques récents [Darcy et al. 2005] et [Guermeur et al. 2005]. Les bornes établies dans ces
travaux sur l’erreur de généralisation pourraient constituer des critères assez fins pour évaluer
l’importance des variables. L’extension de notre procédure de sélection de variables aux machines
à vecteurs supports en régression reste encore à explorer. Un travail important sera certainement
nécessaire pour en dériver des scores d’importance sur les variables.
Les méthodes proposées ici donnent des résultats satisfaisants sur les données issues des
biopuces, mais il serait aussi intéressant d’élargir le spectre d’application en abordant des thèmes
liés à l’environnement, à la pollution atmosphérique, à la chimiométrie et à l’analyse des données
économiques et financières,...etc. La diversification des applications permettra d’enrichir la base
des résultats et des recommandations auxquels nous sommes parvenus.
Le cas de dépendance non-linéaire reste sans doute le plus délicat à traiter dès que le nombre
de variables dépasse quelques centaines. Il serait particulièrement intéressant de porter plus
d’intérêts à ce contexte afin d’identifier les outils statistiques les mieux adaptés au problème
de fléau de la dimension. Nous envisageons d’étudier le comportement de notre procédure en
utilisant les forêts aléatoires, la non-linéarité inhérente à ces modèles devrait mener à de bons
résultats dans ce cadre.
4
5
Chapitre 1
Théorie de l’apprentissage statistique
et principes d’induction
1.1
Introduction
L’objectif de la théorie de l’apprentissage statistique est l’étude d’un modèle conceptuel
basé sur le principe de minimisation du risque empirique. Pour cela, Vapnik et Chervonenkis se
sont posés la question ; “Quelle est l’utilité de la théorie asymptotique tant que notre but est de
construire des algorithmes d’apprentissage à partir d’un nombre limité d’observations ?”
La théorie de l’apprentissage statistique est brièvement exposée dans ce chapitre. Elle se
situe à la frontière de plusieurs disciplines, incluant bien évidemment la statistique, la théorie de
l’information et l’analyse fonctionnelle. Dans cette théorie on essaye de concevoir des machines
basées sur des algorithmes capables de généralisation, c’est-à-dire ayant de bonnes performances
dans des situations non apprises à l’avance.
Le sujet de l’apprentissage statistique a été considéré par Vapnik [92] comme étant un problème d’inférence statistique basée sur un nombre limité d’observations. Le principe d’induction
automatique qui constitue le raisonnement fondamental de l’apprentissage statistique, a pour
but de créer des systèmes automatiques pouvant passer d’observations particulières à des lois
générales. Cette approche est innovante par rapport aux statistiques classiques puisqu’elle fournit des bornes non-asymptotiques sur la confiance de l’estimation de l’erreur de généralisation
du modèle par l’erreur empirique.
Ce chapitre présente les bases de la théorie de l’apprentissage statistique : le principe de
minimisation du risque empirique et le principe de minimisation du risque structurel. Ces deux
principes ont donné naissance à des algorithmes d’apprentissage capables de contrôler d’une
Chapitre 1
1.2. Position du problème d’apprentissage statistique
Générateur de Vecteurs Aléatoires
x
Prédicteur
Lien
ŷ
y
Fig. 1.1: ŷ est une approximation, donnée par le prédicteur, de la dépendance réelle gérée par
le lien et qui relie x à y.
façon nouvelle le dilemme biais-variance.
1.2
Position du problème d’apprentissage statistique
1.2.1
Le modèle général
Le modèle général du problème d’apprentissage à partir d’un échantillon d’observations est
composé de trois parties :
i) Un générateur de vecteurs aléatoires x ∈ Rp , identiquement et indépendamment distribués selon la loi de probabilité P(x) fixe mais inconnue.
ii) Le lien qui associe une valeur à la réponse y pour chaque vecteur d’entrée x et ceci
suivant une distribution de probabilité conditionnelle P(y/x) fixe mais inconnue.
iii) Un prédicteur capable d’opérer sur une classe F de fonctions, qui à x associe y, pour en
choisir la meilleure approximation de P(y/x).
La recherche de la fonction désirée dans F est basée sur un échantillon d’apprentissage Sl
Sl = {z1 = (x1 , y1 ), . . . , zl = (xl , yl )} ,
contenant l réalisations du couple aléatoire (x, y) = z, identiquement et indépendamment distribuées selon la loi de probabilité jointe P(z) = P(x, y) = P(x)P(y/x).
6
Chapitre 1
1.2.2
1.3. Principe de minimisation du risque empirique
Les principaux problèmes d’apprentissage
Soit Z l’univers de toutes les réalisations possibles du vecteur aléatoire z = (x, y). On définit
sur Z × F une fonction réelle que l’on appellera fonction de perte :
L : Z × F −→ R
(z, f ) 7−→ L(z, f )
Cette fonction quantifie la différence entre la réponse réelle y donnée par le lien et l’approximation ŷ fournie par le prédicteur pour un vecteur x donné. Un algorithme d’apprentissage est
un algorithme qui cherche à minimiser sur F la fonction de perte moyenne :
R : F −→ R
Z
f−
7 → R(f ) =
L(z, f )dP(z)
Z
avec pour seule information disponible celle contenue dans Sl .
Le risque R(f ) est appelé aussi l’erreur de généralisation de f . La minimisation de R(f )
n’est pas un simple problème d’optimisation vu que P(z) est inconnue.
La formulation générale du problème d’apprentissage peut contenir plusieurs versions spécifiques mais on distingue habituellement trois principaux problèmes d’apprentissage : la classification, la régression et l’estimation de densité. Dans chacun de ces trois cas, le but est d’inférer
une fonction f ∈ F à partir d’un échantillon de données. Ici nous nous intéressons uniquement
au problème de l’apprentissage supervisé et plus particulièrement à la classification.
Dans le paradigme de l’apprentissage supervisé, les données sont des couples (xi , yi ) dont
xi désigne la variable explicative et yi sera la variable expliquée. Typiquement, nous noterons
X l’espace des variables explicatives et Y le domaine de la variable expliquée. Souvent, nous
prenons X ⊆ Rp , tandis que Y = {1, 2, . . . , m} . Lorsque m > 2 on parle de discrimination
multiclasse et lorsque m = 2 on parle de discrimination biclasse et l’on note Y = {−1, +1} .
Dans ce cas on pose généralement L(z, f ) = 0 si f (x) = y et 1 sinon. Notre but est de déterminer
la dépendance entre x et y en se basant sur Sl .
Dans ce qui suit nous allons nous intéresser à la classification binaire (Y = {−1, +1}) pour
expliciter les principes de base de la théorie de l’apprentissage statistique.
1.3
Principe de minimisation du risque empirique
Dans l’apprentissage statistique on s’intéresse à la minimisation du risque R(f ). La distribution P étant inconnue, R(f ) est estimé par le risque empirique dit aussi erreur d’apprentissage
7
Chapitre 1
1.3. Principe de minimisation du risque empirique
et qui est défini par :
1X
Remp (f, Sl ) =
L(zi , f ).
l i=1
l
Le risque empirique mesure le taux d’erreurs commises par la fonction f sur l’échantillon Sl .
Il est à noter que Remp (f, Sl ) est un estimateur sans biais de R(f ). En effet :
Z
l
1X
E [Remp (f, Sl )] =
L(zi , f )dP(z)
Z l i=1
l Z
1X
=
L(zi , f )dP(z)
l i=1 Z
Z
L(z, f )dP(z), (f est choisie indépendamment de Sl et les zi sont i.i.d.)
=
Z
= R(f ).
Le principe de minimisation du risque empirique1 , qui est à la base d’un grand nombre
d’algorthmes d’apprentissage, consiste à minimiser le risque empirique Remp en espérant ainsi
d’atteindre le minimum du risque R(f ).
Remarque 1.3.1 Le problème de la minimisation du risque empirique est mal posé dans le sens
qu’il peut y avoir plusieurs fonctions f, éventuellement en nombre infini, pour lesquelles Remp
est minimal. De plus une légère perturbation de l’échantillon d’apprentissage peut entraîner une
large différence entre les fonctions estimées. Des méthodes de régularisation sont apparues au
milieu des années 60 pour pallier ce problème.
Grâce à la loi faible des grands nombres (voir chapitre 2 de Vapnik [92]), pour une fonction
f ∈ F fixée on a :
∀ε > 0, P [|Remp (f, Sl ) − R(f )| > ε] −→ 0.
l→+∞
Autrement dit, le risque empirique de f converge en probabilité vers le risque. Cette convergence constitue la motivation principale du principe inductif de la minimisation du risque
empirique. Ce principe d’inférence inductive est dit consistant si :
P
inf Remp (f, Sl ) −→ inf R(f ).
l→+∞ F
f ∈F
1.3.1
Condition de consistance
La loi faible des grands nombres ne garantit pas la consistance du processus d’apprentissage
car toute fonction fS∗l vérifiant
fS∗l = arg inf Remp (f, Sl ),
f ∈F
1
ERM : Empirical Risk Minimisation, en anglais.
8
Chapitre 1
1.3. Principe de minimisation du risque empirique
est dépendante de l’échantillon d’apprentissage Sl . Si par contre, nous avions la convergence
uniforme2 du risque empirique vers le risque
·
¸
∀ε > 0, P sup |Remp (f, Sl ) − R(f )| > ε −→ 0,
l→+∞
f ∈F
alors le principe de minimisation du risque empirique sera consistant.
En effet, on a R(fS∗l ) − R(f ∗ ) ≥ 0 et
R(fS∗l )−R(f ∗ ) = R(fS∗l ) − Remp (fS∗l , Sl ) + Remp (fS∗l , Sl ) − Remp (f ∗ , Sl ) + Remp (f ∗ , Sl ) − R(f ∗ )
{z
}
{z
} |
{z
} |
|
−→0
−→0
≤0
l−→+∞
L o i fo rte d es g ra n d s n o m b re s
l−→+∞
L o i fa ib le d es g ra n d s n o m b re s
Pa r d éfi n itio n d e f ∗
Sl
(1.1)
où f ∗ = arg inf R(f ).
f ∈F
Cette preuve traduit bien la convergence en probabilité du risque empirique de fS∗l vers le
risque de la meilleure fonction f ∗ ∈ F quand la taille l de l’échantillon d’apprentissage tend vers
l’infini.
Le théorème suivant, dit théorème fondamental de la théorie de l’apprentissage statistique
(cf. chapitre 2 de Vapnik [92]), garantit la consistance du principe de minimisation du risque
empirique.
Théorème 1.3.1 Supposons que pour toute distribution P, il existe deux constantes A et B
telles que, quelle que soit f dansF, A ≤ R(f ) ≤ B, alors la condition nécessaire et suffisante
de consistance est donnée par :
·
¸
∀ε > 0, P sup (R(f ) − Remp (f, Sl )) > ε −→ 0.
l→+∞
f ∈F
(1.2)
Ce théorème établit un lien direct entre le principe de minimisation du risque empirique
et la loi uniforme des grands nombres. Comme l’uniformité de la convergence porte sur F, le
problème d’induction est ainsi translaté et il devient nécessaire d’étudier les caractéristiques
des classes de fonctions F pour lesquelles la condition de consistance (1.2) est vérifiée ou pas.
Intuitivement, si F est trop riche 3 la relation (1.2) peut ne pas avoir lieu. Il paraît donc clair
que le choix de F est déterminant dans la mesure où il conditionne la validité du principe de
minimisation du risque empirique.
2
Convergence selon la loi uniforme des grands nombres dite aussi loi forte des grands nombres. L’uniformité
portant ici sur F.
3
On dit richesse ou complexité de F. La classe la plus riche est celle qui contient toutes les fonctions imaginables et possibles de X −→ Y.
9
Chapitre 1
1.3. Principe de minimisation du risque empirique
Il est intéressant de signaler que le principe de minimisation du risque empirique est un
problème mal posé à cause de la non-unicité et l’instabilité de l’estimation face à une légère
perturbation de l’échantillon d’apprentissage (voir la remarque 1.3.1). Pour ces raisons on préfère
limiter la complexité de la classe de fonctions F, cela étant accompli au moyen de techniques
issues de la théorie de régularisation. Ainsi, minimiser un risque régularisé est équivalent à
minimiser le risque empirique sur une classe restreinte de fonctions. Le lecteur intéressé peut se
reporter au travail de Evgeniou et al. [33] pour une revue des récents développements dans la
théorie de régularisation.
1.3.2
Théorie des bornes de Vapnik-Chervonenkis
Le but de cette théorie est d’établir des bornes non-asymptotiques sur la convergence de (1.2).
Ces bornes dépendent du risque empirique et de la complexité de F. Les travaux de Vapnik et
Chervonenkis sur cette théorie, depuis les années 1970, font surgir une condition nécessaire pour
avoir la convergence uniforme dépendant de ce qu’ils appellent la capacité h de la classe F de
fonctions dite aussi la dimension de Vapnik-Chervonenkis (dim V C), qui est une mesure de sa
complexité.
Remarque 1.3.2
• La loi faible des grands nombres implique la convergence uniforme dans
le cas où le cardinal de F est fini. Ce problème se posera uniquement si l’ensemble F est
de cardinal infini.
Vapnik et Chervonenkis ont introduit la dimension suivante comme mesure de la complexité
de F.
Définition 1.3.1 (Dimension de Vapnik-Chervonenkis, Vapnik et Chervonenkis 1971)
La dimension de Vapnik-Chervonenkis h d’une classe de fonctions F en classification binaire est
définie comme étant le cardinal maximal d’un sous-ensemble A ⊂ X tel qu’on puisse toujours
trouver une fonction f ∈ F qui classifie parfaitement tous les éléments de A quelles que soit
leurs étiquettes. En d’autres termes :
n
o
h = max |A| / ∀θi ∈ {−1, +1}|A| , ∃f ∈ F telle que ∀xi ∈ A, f (xi ) = θi
Cette définition est assez complexe, et souvent il est plus commode de comprendre la dim V C
a contrario : si le nombre des élements de A est plus grand que la dim V C, alors il existe des
dichotomies qui ne sont pas réalisées par F.
10
Chapitre 1
1.3. Principe de minimisation du risque empirique
Par exemple, si on se place dans le plan et F la classe des fonctions affines on est toujours
capable de séparer trois points (non alignés) quel que soit leur étiquetage en utilisant des lignes.
Par contre on est incapable de le faire pour quatre points.
•
•
o
o
•
•
•
(a)
(b)
Le problème du XOR : (a) Trois points non alignés du plan sont linéairement séparables
quelque soit leur étiquetage. (b) Cette répartition de quatre points est non linéairement
séparable.
Ainsi, la dimension de Vapnik-Chervonenkis pour l’ensemble des droites sur R2 est égale à
trois. Pour certaines classes de fonctions F on peut calculer explicitement la valeur de dim V C
sinon on la majore. Le théorème suivant donne la dim V C pour la classe des hyperplans définis
dans Rp .
Théorème 1.3.2 (Vapnik 1998) Soit F l’ensemble des hyperplans dans Rp ,
F = {x 7→ sign(hw · xi + b), w ∈ Rp , b ∈ R}
La dimension de Vapnik-Chervonenkis pour F est égale à p + 1.
Remarque 1.3.3 Notons que pour l’ensemble des hyperplans définis sur Rp la dimension de
Vapnik-Chervonenkis est égale au nombre de paramètres (w, b) = (w1 , w2 , . . . , wp , b) qui définissent un hyperplan. Ce n’est qu’une coïncidence qui ne peut pas être généralisée. Ainsi, la dim V C
peut être supérieure ou inférieure au nombre de paramètres desquels dépend la classe des fonctions utilisées (voir pp : 76-79, Vapnik [92]).
Le résultat suivant (voir Vapnik [92], pp 72-79) montre que la dim V C est responsable des capacités de généralisation d’un modèle d’apprentissage. Ce résultat permet de minimiser Remp sur
des classes de fonctions ayant un énorme nombre de paramètres mais une dim V C relativement
très réduite.
11
Chapitre 1
1.3. Principe de minimisation du risque empirique
Théorème 1.3.3 Si F possède une dimension de Vapnik-Chervonenkis finie h, que l > h et
τ = sup L − inf L alors pour un η > 0 donné, on a
F
F


s
η 

2l
h(Log h + 1) − Log 4
P sup |Remp (f, Sl ) − R(f )| ≥ τ
≤η
f ∈F

l
(1.3)
Ce théorème nous permet d’en dériver directement une borne non-asymptotique sur l’erreur
de généralisation de toute fonction f ∈ F et en particulier de celles qui minimisent le risque
empirique. En utilisant la majoration (1.1) il vient alors,


s
η 

2l
h(Log h + 1) − Log 4
P R(fS∗l ) − R(f ∗ ) ≤ 2τ
≥1−η


l
(1.4)
Autrement dit, avec une confiance 1−η donnée, le risque de l’une des fonctions qui minimisent
le risque empirique se rapproche du minimum sur F du risque lorsque la taille de l’échantillon
d’apprentissage augmente, et ce, d’autant plus vite que la dim V C de F est faible.
La loi des grands nombres et la convergence uniforme nous permettent de conclure que, à
dim V C finie, le risque et le risque empirique de fS∗l convergent tous les deux en probabilité vers
le minimum du risque sur F. On dit alors que l’algorithme d’apprentissage est consistant. En
1991 Vapnik [94] a en fait montré que la finitude de la dim V C est aussi une condition nécessaire
pour cette consistance.
De la formule (1.3) on déduit qu’avec une confiance 1 − η on a,
s
h(Log 2lh + 1) − Log η4
∗
∗
R(fSl ) ≤ Remp (fSl , Sl ) + τ
l
(1.5)
Cette dernière équation nous donne une borne sur le risque de fS∗l après calcul de son risque
empirique. L’utilité pratique de la borne donnée par (1.5) dépend de la taille l de l’échantillon
d’apprentissage et de la dim V C de la classe de fonctions F. Ainsi, Vapnik considère que la
taille l d’un échantillon d’apprentissage Sl est faible pour estimer une fonction dans une classe
de dimension h si le rapport
1.3.3
l
h
est petit, soit
l
h
< 20.
Borne de risque non-asymptotique
La borne donnée par l’inégalité (1.4) est quasiment inutilisable en pratique à cause du fait
que la dim V C de F est souvent extrêmement élevée. Pour estimer en pratique le risque d’une
fonction f ∈ F, et donc pour mesurer sa performance, on dispose souvent d’un échantillon
aléatoire Sl0 , idépendant de Sl , issu de la même distribution et ayant la même taille que Sl . Ce
nouvel échantillon est dit échantillon test.
12
Chapitre 1
1.4. Problème de sélection de modèle
En utilisant l’inégalité de Hoeffding [49],
2l
∀ε > 0, P [|Remp (f, Sl ) − R(f )| > τ ε] ≤ 2e−2ε
avec une probabilité 1 − η nous aurons,
r
r
−Log
η
−Log η
Remp (fS∗l , Sl0 ) − τ
≤ R(fS∗l ) ≤ Remp (fS∗l , Sl0 ) + τ
2l
2l
¶
µ
où τ est un majorant de sup L − inf L . Pour un développement plus détaillé le lecteur peut
F
F
se reporter à la section 5.1 du chapitre 5 du livre de Vapnik [91].
Ainsi, dans le cas de la classification binaire on a τ = 1, donc il suffit de 15000 = l observations
dans l’échantillon test pour estimer le risque de fS∗l à un taux d’erreurs de ±1% avec une
probabilité de 95% tout en étant sûr que R(fS∗l ) est proche de R(f ∗ ) = inf R(f ). La borne ainsi
F
donnée est très pratique vu qu’elle est basée sur un nombre limité d’observations.
1.4
Problème de sélection de modèle
Nous avons vu dans la section précédente que la borne sur l’erreur de généralisation dépend
de deux termes ; le minimum du risque empirique et la complexité de la classe de fonctions F. Le
contrôle de l’échange qui relie ces deux termes est l’un des principaux problèmes en apprentissage
statistique. Ce problème est connu par le dilemme biais-variance. Le biais caractérise l’écart des
estimations aux exemples d’apprentissage, et la variance exprime la sensibilité du modèle aux
données utilisées pour son apprentissage. L’objectif est donc de trouver un compromis entre
qualité de l’apprentissage et capacité de généralisation.
1.4.1
Le dilemme biais-variance
La majoration (1.5) du risque de la fonction fS∗l est la somme de deux composantes, à savoir :
∗
¨ Remp
q (fSl , 2lSl ) : Le ηrisque empirique dit aussi biais.
h(Log h +1)−Log 4
: La largeur de l’intervalle de confiance dite aussi variance.
¨ 2τ
l
L’intervalle de confiance est d’autant plus large que la dim V C de l’espace F est élevée.
D’autre part, le risque empirique est d’autant plus élevé que la dim V C de l’espace F est réduite.
Plus précisément, le choix de la classe de fonctions F est crucial en apprentissage statistique.
En effet, si la dim V C de F est assez élevée on peut tomber dans le problème de surapprentis-
sage4 ce qui engendre un risque empirique très réduit et un intervalle de confiance assez large.
4
"Overfitting" ; La fonction choisie f s’ajuste trop aux données d’apprentissage.
13
Chapitre 1
1.4. Problème de sélection de modèle
Par contre, si la dim V C de F est assez petite on se retrouve face à un problème de sous-
apprentissage5 caractérisé par une large différence entre minR(f ) et minR(f ), où F̄ est une
F
6
F̄
classe plus riche que F (contenant plus de fonctions, et donc probablement une fonction plus
rapprochée de la “vraie fonction”). Donc, le problème de choix de modèle revient au choix de la
classe de fonctions F qui assure le bon compromis entre le biais et la variance.
Ce phénomène s’explique souvent de manière plus simple par ce que l’on appelle le dilemme
biais-variance. Pour cela, on décompose l’erreur de généralisation en trois parties. Par exemple,
dans le cadre de la régression et pour une fonction de perte quadratique, on peut décomposer
l’erreur de généralisation en des termes explicites de biais et de variance qui fournissent beaucoup d’intuition sur les contributions respectives de différents facteurs à l’erreur globale. Cette
décomposition est classique en statistique pour la régression linéaire. Pour plus de précision,
nous considérons que la sortie y est une fonction déterministe f de l’entrée x, perturbée par un
bruit additif δ indépendant des x,
y = f (x) + δ
tel que E(δ) = 0 et E(δ 2 ) = σ 2 .
La fonction fS∗l trouvée par l’algorithme d’apprentissage statistique est celle qui minimise le
risque empirique7 sur un échantillon d’apprentissage aléatoire Sl , par conséquent fS∗l est aussi
aléatoire. L’erreur quadratique de généralisation de fS∗l pour un exemple x0 donné, en espérance
sur les différents tirages d’un échantillon d’apprentissage de taille l, s’exprime par :
E
h¡
i
¢2
¡
¢
¡
¢
¤2
£
y − fS∗l (x) | x = x0 = E f (x0 ) + δ + E fS∗l (x0 ) − E fS∗l (x0 ) − fS∗l (x0 )
£
¡
¡
¢¢ ¡
¡
¢¢¤2
= E δ + f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 )
£
©¡
¡
¢¢ ¡
¡
¢¢ª
= E δ 2 + 2δ f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 )
¡ ∗
¢¢ ¡ ∗
¡ ∗
¢¢ª2 i
©¡
+ f (x0 ) − E fSl (x0 ) − fSl (x0 ) − E fSl (x0 )
¡
¢¢ ¡
¡
¢¢ª¤
£ ©¡
£ ¤
= E δ 2 + 2E δ f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 )
|
{z
}
0
h©¡
¡
¢¢ ¡
¡
¢¢ª2 i
+E
f (x0 ) − E fS∗l (x0 ) − fS∗l (x0 ) − E fS∗l (x0 )
¡
¢¤2
£
¡
¢¤2
£
£ ¤
= E δ 2 + E f (x0 ) − E fS∗l (x0 ) + E fS∗l (x0 ) − E fS∗l (x0 )
£¡
¡
¢¢ ¡
¡
¢¢¤
−2E f (x0 ) − E fS∗l (x0 ) × fS∗l (x0 ) − E fS∗l (x0 )
|
{z
}
=0
¡
¡
¢¢2
£
¡
¢¤2
= σ 2 + f (x0 ) − E fS∗l (x0 )
+ E fS∗l (x0 ) − E fS∗l (x0 )
|
{z
} |
{z
}
Biais2
5
V ariance
"Underfitting" ; La fonction choisie f ne s’ajuste pas assez aux données d’apprentissage.
dim V C(F) ≤ dim V C(F̄)
7
L’erreur quadratique, dans le cadre de la régression.
6
14
Chapitre 1
1.4. Problème de sélection de modèle
Le deuxième terme de la cinquième ligne est nul car δ est indépendant des x et E(δ) = 0. et
le terme de covariance qui appraît à l’avant dernière ligne est nul car :
£¡
¡
¢¢ ¡
¡
¢¢¤
E f (x0 ) − E fS∗l (x0 ) × fS∗l (x0 ) − E fS∗l (x0 )
¡
¡
¢¢
£
¡
¢¤
= f (x0 ) − E fS∗l (x0 ) × E fS∗l (x0 ) − E fS∗l (x0 )
¡
¡
¢¢
¡ ¡
¢
¡
¢¢
= f (x0 ) − E fS∗l (x0 ) × E fS∗l (x0 ) − E fS∗l (x0 )
|
{z
}
0
= 0.
D’après ce développement l’erreur en une observation donnée est l’assemblage de trois composantes :
◦ L’erreur due au fait que l’ensemble de fonctions F ne contient pas nécessairement la
solution optimale du problème. Cette erreur est appelée biais.
◦ L’erreur due au fait que fS∗l n’est pas forcément la meilleure fonction dans F : elle minimise
Remp (f, Sl ) mais pas forcément R(f ). On appelle cette partie de l’erreur la variance car elle
provient de la variabilité entre les différents ensembles d’apprentissage de taille l possibles
tirés au hasard suivant la distribution P(x, y).
◦ L’erreur due au bruit δ : cette erreur est incontrôlable et par conséquent elle est irréductible.
Ainsi, la borne majorante proposée par l’inégalité (1.5) est composée de deux parties conformément à la décomposition du risque.
La figure 1.2 donne une illustration des sources de biais et de variance.
1.4.2
Principe de minimisation du risque structurel
Nous avons vu que la classe F doit être restreinte afin d’avoir une dim V C appropriée. Le
choix de la classe de fonctions F est dit un problème de sélection de modèle. Dans ce problème,
le dilemme biais-variance exprime le conflit entre le désir de réduire simultanément le biais et la
variance. En effet, lorsque l’on augmente la dim V C de F, le biais diminue parce qu’on a plus
de chance d’obtenir une solution proche de la solution du problème. En revanche, la variance
augmente parce que le nombre de solutions adaptées à l’ensemble d’apprentissage augmente et
on a donc plus de chance d’obtenir une solution plus adaptée à cet ensemble et moins adaptée
globalement.
En général, ce problème est difficile, mais dans le cadre de la théorie de Vapnik et Chervonenkis la recherche de la bonne classe de fonctions F peut être basée sur la minimisation de la
borne donnée par (1.5). Cette idée est à la base du principe inductif de minimisation du risque
15
Chapitre 1
1.4. Problème de sélection de modèle
S l0
Zone de variance
fS*l0
S l1
s
ai
Bi
*
fS*1l
•
F
•
F
« Vraie fonction »
Fig. 1.2: Illustration du dilemme biais-variance.
structurel8 . Ce principe minimise la borne du risque en agissant simultanément sur le risque empirique et la largeur de l’intervalle de confiance en utilisant la dimension de Vapnik-chevonenkis
comme variable de contrôle.
Pour avoir une idée de comment nous pouvons contrôler le risque lorsque la dim V C de F
varie, munissons-nous maintenant de N espaces de fonctions emboîtés Fi ,
F1 ⊂ F2 ⊂ · · · ⊂ FN
dont les capacités hi sont ordonnées et finies,
h1 ≤ h2 ≤ · · · ≤ hN .
En appelant fS∗,il le minimum du risque empirique sur Fi , on peut déduire de (1.5) que l’on
aura toujours, avec une probabilité 1 − η,
R(fS∗,il )
≤
Remp (fS∗,il , Sl )
+τ
s
h(Log 2lh + 1) − Log η4
.
l
Cette dernière borne est appelée risque structurel et dépend de la classe Fi . Suivant ce
principe, il est possible, par rapport à un tirage de Sl , de définir les performances d’un modèle
par rapport à un autre en comparant leurs bornes.
8
SRM : Structural Risk Minimisation.
16
Chapitre 1
1.4. Problème de sélection de modèle
erreur
Borne sur l’espérance du risque
Largeur de l’intervalle de confiance : Variance
Risque empirique : Biais
h1
h*
F1
hN
h
F * FN
Fig. 1.3: Variation de la borne sur le risque espéré.
Comme on peut obtenir aisément
, Sl ) ≤ · · · ≤ Remp (fS∗,1
, Sl ),
Remp (fS∗,N
l
l
on en déduit sur la figure 1.3 l’allure de la borne majorante du risque. Même si l’allure de la
courbe qu’on obtient est celle de la borne du risque, l’expérience montre que le minimum du
risque lui même suit ce genre de variations. Ainsi, dans un premier temps la borne décroît : on
dit alors que f sous-estime, puis le risque passe par un minimum et croît : on dit alors que f
surestime. Le bon compromis entre le biais et la variance est ainsi atteint pour la complexité h∗ .
En définitif, le principe de minimisation du risque structurel consiste en la recherche d’une
fonction dont le risque empirique s’approche du risque, par optimisation d’un critère qui intègre
également la capacité de l’ensemble des fonctions candidates, définies au sein d’une séquence
emboîtée de classes.
Toutefois, nous pouvons dire qu’un risque structurel faible induit une faible erreur de généralisation malgré que les problèmes réels auxquels sont confrontées les machines ne constituent pas
l’ensemble de tous les problèmes pouvant exister. Néanmoins, il est remarquable de constater
qu’un tel principe est valable dans la pratique.
1.4.3
Construction des algorithmes d’apprentissage
Pour mettre en œuvre le principe de minimisation du risque structurel, nous avons besoin
d’algorithmes d’apprentissage capables de minimiser le risque sur une classe donnée de fonctions
en contrôlant le biais et la variance.
17
Chapitre 1
1.5. Conclusion
Dans le cadre du principe de minimisation du risque structurel, la borne sur le risque s’écrit
sous la forme générale suivante :
R(fS∗,k
) ≤ Remp (fS∗,k
, Sl ) + ϕ(
l
l
l
),
hk
où hk = dim V C(Fk ) et ϕ( hlk ) est l’intervalle de confiance correspondant à Fk .
On distingue deux approches de minimisation de cette borne : la première approche fixe la
largeur de l’intervalle de confiance et s’intéresse à la minimisation du risque empirique. Cette
approche est mise en œuvre par les réseaux de neurones. Quant à la deuxième approche, elle
fixe le risque empirique et s’intéresse à la minimisation de l’intervalle de confiance. L’algorithme
des machines à vecteurs supports suit cette démarche en annulant le risque empirique par la
recherche de l’hyperplan à marge maximale9 . La maximisation de la marge entraîne la réduction
de l’intervalle de confiance.
L’expérience a montré que les réseaux de neurones présentent pas mal de défauts tels que le
problème de minimums locaux et l’instabilité de la solution. En outre, il s’est avéré, à travers
la panoplie des applications menées jusqu’à aujourd’hui, que cet algorithme d’apprentissage est
une boîte noire mal contrôlée.
1.5
Conclusion
La théorie de l’apprentissage recouvre un large spectre de préoccupations qui vont de considérations très théoriques jusqu’à des questions plus pratiques à savoir comment résoudre efficacement un problème de minimisation des bornes établies. Dans ce chapitre nous avons présenté,
avec un bref survol, les concepts centraux de cette théorie qui montre à quel point ses motivations sont tournées vers la pratique grâce aux bornes de risque garantissant les conditions de
consistance.
9
C’est l’hyperplan qui sépare parfaitement les données de Sl et qui est le plus éloigné des deux classes.
18
19
Chapitre 2
Machines à vecteurs supports biclasses
2.1
Introduction
Les machines à vecteurs supports (SVM1 ) introduites au début des années 90, constituent la
mise en pratique du principe de minimisation du risque structurel. Elles réalisent ainsi un grand
succès de la théorie de l’apprentissage statistique. Aujourd’hui, nous pouvons dire sans exagérer
que ces machines ont supplanté les réseaux de neurones et les autres techniques d’apprentissage.
En effet, elles sont largement répandues en apprentissage statistique et ont eu beaucoup de
succès dans quasiment tous les domaines où elles ont été appliquées.
Les machines à vecteurs supports exploitent les concepts relatifs à la théorie de l’apprentissage statistique et à la théorie des bornes de Vapnik et Chervonenkis pour aborder d’une façon
nouvelle la question du dilemme biais-variance. Le compromis entre la capacité d’apprentissage
et la capacité de généralisation pour ces machines est respectivement accompli en minimisant
l’erreur empirique et dans le même temps, en essayant de maximiser une marge géométrique.
La justification intuitive de cette méthode d’apprentissage est la suivante : si l’échantillon d’apprentissage est linéairement séparable, il semble naturel de séparer parfaitement les éléments
des deux classes de telle sorte qu’ils soient le plus loin possible de la frontière choisie.
Ces fameuses machines ont été inventées en 1992 par Boser et al. [15], mais leur dénomination par SVM n’est apparue qu’en 1995 avec Cortes et al. [24]. Depuis lors, de nombreux
développements ont été réalisés pour proposer des variantes traitant le cas non-linéaire, pour
adapter cette méthode d’apprentissage à la régression ou pour introduire d’autres formulations
des SVM ayant des liens avec les méthodes de régularisation.
Dans la première partie de ce chapitre nous présenterons en détail les machines à vecteurs
1
En anglais, Support Vector Machines.
Chapitre 2
2.2. Problème de la classification linéaire
supports dans le cadre de la classification binaire et nous décrirons leur extension pour traiter
le cas non-linéairement séparable. Nous mettrons également en évidence l’adéquation de l’algorithme des SVM aux principes d’induction décrits dans le chapitre précédent. La deuxième
partie de ce chapitre sera consacrée à la présentation des bornes les plus connues établies sur
l’erreur de généralisation d’un modèle SVM.
2.2
Problème de la classification linéaire
Le problème de la discrimination linéaire remonte aux années 1930 quand Fisher a proposé la
première procédure de classification binaire. Jusqu’à nos jours, plusieurs autres procédures ont
été introduites dont certaines manquent de bases théoriques encourageantes. Entre les années
1960 et 1980 les statistiques ont connu une révolution menée par l’apparition de la théorie de
l’apprentissage statistique. Et depuis 1992, les machines à vecteurs supports en sont le plus
grand succès.
2.2.1
Formalisation du problème
Le problème de classification rentre dans le cadre de l’apprentissage statistique supervisée.
Le but est de prévoir la classe y d’un vecteur p−dimensionnel x en se basant sur les mesures
des variables qui l’expliquent avec pour seule information celle contenue dans l’échantillon d’apprentissage S.
Dans le cas de la discrimination biclasse, nous supposons que les données sont des couples
(xi , yi )1≤i≤l ∈ X × Y, où X désigne l’espace des variables explicatives souvent pris dans Rp ,
Y = {−1, +1} et l est la taille de l’échantillon. L’appartenance d’une observation xi à une classe
ou à une autre est matérialisée ici par la valeur −1 ou 1 de son étiquette yi .
L’échantillon d’apprentissage S est ainsi une collection de réalisations i.i.d. du couple aléatoire (x, y) dont la distribution P est fixe mais inconnue. Cet ensemble est souvent dénoté par :
S = {(x1 , y1 ) , (x2 , y2 ) , . . . , (xl , yl )} ⊆ (X × Y)l .
2.2.2
Approche générale
Généralement, la classification binaire est accomplie au moyen d’une fonction à valeurs réelles
f : X ⊆ Rp −→ R. Toute observation xi est affectée à la classe qui correspond au signe de f (xi ) :
si f (xi ) ≥ 0, xi est affecté à la classe positive (+1) sinon elle sera dans la classe négative (−1).
20
Chapitre 2
2.2. Problème de la classification linéaire
En classification linéaire la fonction f est linéaire en xi et elle prend la forme générale
suivante,
f (xi ) = hw · xi i + b,
où (w, b) ∈ Rp × R sont les paramètres à estimer de la fonction de décision f et l’opérateur h·i
désigne le produit scalaire usuel dans Rp . La règle de décision est donc donnée par sign (f (xi )).
On convient que sign (0) = 1. La méthodologie d’apprentissage implique que ces paramètres
doivent être estimés à partir des données d’apprentissage.
La fonction sign (f (·)) est appelée classifieur. Ses propriétés peuvent être déduites de celles
de f par l’intermédiaire de la notion de marge que nous définirons plus loin.
Géométriquement, ce classifieur divise l’espace des variables explicatives X en deux demiespaces correspondant chacun à une classe. Cette séparation est réalisée par l’hyperplan H(w,b)
défini par l’équation hw · xi + b = 0 où w est un vecteur normal à l’hyperplan de séparation
qu’on appelle vecteur de poids, tandis que la variation du paramètre b, appelé biais, engendre une
simple translation de l’hyperplan séparateur. Il est donc nécessaire d’employer une représentation
à (p + 1) paramètres de liberté pour parcourir l’ensemble de tous les hyperplans dans Rp .
L’objectif de la discrimination linéaire est de trouver la bonne2 fonction de décision f dans
la classe des toutes les fonctions linéaires de X dans R que nous noterons FL . La classe de tous
les hyperplans qui en découle sera notée H. Cette forme simple de classifieur a été énormément
utilisée dans la classification binaire. Cette procédure est appelée discrimination linéaire pour les
statisticiens (Fisher 1936) et perceptron dans le domaine des réseaux de neurones (Rosenblatt
1956). Les termes “vecteur de poids” pour le vecteur w et “biais” pour le paramètre b sont
empruntés de la littérature des réseaux de neurones. Parfois, (−b) est remplacé par θ, une
quantité connue sous le nom de seuil.
Plusieurs algorithmes itératifs simples motivés par l’optimisation de différentes fonctions de
coûts ont été introduits dans les années 1960 pour séparer linéairement des observations issues
de deux populations différentes. Les machines à vecteurs supports cherchent plutôt à séparer
parfaitement les deux classes de telle sorte que leurs éléments soient le plus loin possible de
l’hyperplan trouvé. C’est pour définir cette notion de “plus loin” que l’on introduit la marge.
2.2.3
Définitions de base
Dans ce paragraphe nous introduisons la notion de marge pour la classe des fonctions linéaires
FL . Cette grandeur est au cœur des SVM et elle jouera un rôle important tout au long de la
2
En terme de capacité de généralisation conformément aux consignes du chapitre précédent.
21
Chapitre 2
2.2. Problème de la classification linéaire
suite de ce chapitre.
Définition 2.2.1 (Marge biclasse) Soit f une fonction de FL . La marge d’une observation
(xi , yi ) ∈ S relativement à la fonction f est définie par γ i = yi f (xi ) .
Cette marge peut prendre une valeur négative. Elle dépend de la fonction f et non du
classifieur sign (f (xi )). Si g est un multiple de f , les classifieurs pour ces deux fonctions sont
les mêmes mais pas leurs marges.
La valeur absolue de γ i est proportionnelle à la distance euclidienne séparant le point xi
de l’hyperplan H(w,b) associé à f . Ces deux quantités ne coïncident que lorsque kwk = 1, dans
ce cas nous parlons de la marge euclidienne. Enfin, l’observation (xi , yi ) est bien classée par le
classifieur f si et seulement si γ i > 0.
Nous donnons maintenant d’autres définitions qui découlent de la précédente :
• La distribution de marges d’un hyperplan H(w,b) par rapport à l’échantillon d’apprentissage
S est définie par :
¡
¢
MS H(w,b) = {γ i = yi (hw · xi i + b) ; i = 1, 2, . . . , l}
• La marge de l’hyperplan H(w,b) par rapport à l’échantillon d’apprentissage S est définie
par :
¡
¢
¡
¢
mS H(w,b) = min MS H(w,b)
1≤i≤l
Comme nous l’avons signalé précédemment, si nous normalisons w, notre hyperplan aura
comme équation :
H( w , b ) :
kwk kwk
¿
À
w
b
·x +
= 0.
kwk
kwk
Les hyperplans H(w,b) et H( w , b ) sont les mêmes mais ils donnent lieu à des marges
kwk kwk
différentes. Ainsi, c’est la métrique euclidienne que nous utilisons en calculant les marges plus
tard. Ce changement d’échelle va jouer un rôle important dans la formulation des problèmes de
maximisation de la marge, au sens euclidien, pour les machines à vecteurs supports.
• Finalement, on définit sur S la marge de l’échantillon d’apprentissage mS comme étant le
maximum de la marge euclidienne sur l’ensemble des hyperplans normalisés HN où :
n
o
HN = H( w , b ) : (w, b) ∈ Rp × R ,
kwk kwk
et
mS = max
HN
½
³
min MS H(
1≤i≤l
22
w
, b
kwk kwk
)
´¾
.
Chapitre 2
2.3. Machines à vecteurs supports
γ
ξi = max(0, γ- γi )
Soit xj+ une observation
de la classe positive :
Si xj+ ∈R0 ⇔ ξj = 0
Si xj+ ∈R1 ⇔ 0 ≤ ξj ≤ γ
Si xj+ ∈R2 ⇔ ξj ≥ γ
+
-
-
ξj
-
+
+
γi
ξl
ξi> γ ⇔ (xi,yi) est mal classé
- : Classe négative.
+ : Classe positive.
+
+
ξk
+
+
-
+
+
+
+ +
+
R0
R1
R2
Fig. 2.1: Variables d’écart à la marge objectif γ.
L’hyperplan qui réalise ce maximum est appelé l’hyperplan à marge maximale et la valeur de
sa marge sera positive dans le cas où S est linéairement séparable. Dans le cas où l’échantillon
d’apprentissage est non-linéairement séparable, un tel hyperplan n’existe pas.
En pratique, l’hypothèse que l’échantillon S est linéairement séparable est assez forte. De
ce fait, d’autres mesures plus flexibles ont été utilisées afin d’autoriser quelques violations de la
marge et pour prendre en compte des propriétés plus générales de l’échantillon d’apprentissage.
Définition 2.2.2 Soit γ un réel strictement positif. On définit la variable d’écart à la marge
d’une observation (xi , yi ) relativement à l’hyperplan H(w,b) par :
ξ i = max (0, γ − yi (hw · xi i + b)) .
Le réel γ est appelé marge cible.
Cette quantité mesure l’échec d’un point à atteindre la marge cible γ vis-à-vis de l’hyperplan
H(w,b) . Si ξ i > γ alors xi est mal classé par H(w,b) . La norme du vecteur d’écart à la marge
ξ = (ξ 1 , ξ 2 , . . . , ξ l ) quantifie le coût de tous les exemples d’apprentissage ayant échoués à avoir
comme marge γ et tiendra en compte toute fausse classification. La figure 2.1 illustre ce propos.
2.3
Machines à vecteurs supports
Au cours de cette section nous allons présenter les principaux problèmes et résultats de
l’apprentissage des machines à vecteurs supports dans le cadre de la classification binaire. Tous
23
Chapitre 2
2.3. Machines à vecteurs supports
les algorithmes qui seront exposés sont motivés par la théorie des bornes développée par Vapnik
et Chervonenkis qui propose différents majorants de l’erreur de généralisation. Par exemple nous
pouvons nous intéresser à l’optimisation de la marge, la marge relaxée par l’introduction des
variables d’écarts ξ i ou le nombre des vecteurs supports,...etc. Dans ce paragraphe nous allons
mettre en lumière la formulation la plus utilisée qui transforme le problème de recherche de
l’hyperplan séparateur en la minimisation de la norme de son vecteur de poids w.
2.3.1
Hyperplan à marge maximale
L’hyperplan à marge maximale est le modèle le plus simple des machines à vecteurs supports
et il constitue le point de départ pour d’autres algorithmes plus complexes. L’estimation des
paramètres (w∗ , b∗ ) de cet hyperplan se fait en résolvant le problème d’optimisation suivant :
n
o
(w∗ , b∗ ) = arg max min [yi (hw · xi i + b)] , kwk = 1 .
(w,b)
i
(2.1)
Par conséquent ce que nous optimisons dans le problème (2.1) est la marge au sens de la
norme euclidienne vu que nous imposons la contrainte kwk = 1. Cette contrainte n’implique
aucune restriction sur l’ensemble des hyperplans H de Rp . En effet :
H = {h/h (x) = sign (hw · xi + b)}
À
¶¾
½
µ¿
b
w
·x +
=
h/h (x) = sign
kwk
kwk
= {h/h (x) = sign (hw · xi + b) ; kwk = 1} .
(2.2)
Dire que les deux classes de l’échantillon d’apprentissage S sont linéairement séparables
est équivalent à dire qu’il existe des paramètres (w∗ , b∗ ) ∈ Rp × R tels que l’on a pour tout
i ∈ {1, . . . , l} :
hw∗ ·xi i + b∗ > 0 si yi = +1
hw∗ ·xi i + b∗ < 0 si yi = −1
ce qui est équivalent à :
yi (hw∗ ·xi i + b∗ ) > 0 ∀i ∈ {1, . . . , l} .
³
´
En normalisant les paramètres (w∗ , b∗ ) par mini [yi (hw∗ ·xi i + b∗ )], nous obtenons w̃, b̃ tels
que :
³
´
yi hw̃·xi i + b̃ > 1 ∀i ∈ {1, . . . , l} .
24
(2.3)
Chapitre 2
2.3. Machines à vecteurs supports
γ=
- : Classe négative.
+ : Classe positive.
(+), (-) : Vecteurs supports.
2
w
{x ; <w. x> = +1}
+
{x ; <w. x> = -1}
(+)
+
x+
+
x- (-)
-
+
b
w
-
+
w
-
{x ; <w. x> = 0}
Fig. 2.2: Formulation du programme de l’hyperplan à marge maximal.
Ainsi la marge γ de l’hyperplan H(w̃,b̃) est la distance entre les hyperplans d’équations
hw̃·xi + b̃ = 1 et hw̃·xi + b̃ = −1 qui sont parallèles à H(w̃,b̃) et lui sont équidistants. Soient x+
et x− deux points vérifiant respectivement les deux équations précédentes, nous écrivons alors :
À ¿
À
¿
w̃ −
w̃ +
−
(2.4)
·x
·x
γ =
kw̃k
kw̃k
2
.
=
kw̃k
En regardant autrement les formules (2.3) et (2.4) nous comprenons le principe du changement d’échelles utilisé : nous partons d’une marge non forcément euclidienne en l’imposant
supérieure ou égale à 2 et on cherche à minimiser la norme du vecteur de poids kw̃k ce qui
entraîne la maximisation de la marge γ au sens euclidien.
La relation entre la marge et la norme du vecteur de poids est représentée par la figure 2.2.
Ce développement basé sur un simple jeu d’échelles montre que l’hyperplan à marge maximale
est la solution du problème d’optimisation suivant :
Minimiser w,b kwk2 ,
sous
(2.5)
yi (hw · xi i + b) ≥ 1, i = 1, 2, . . . , l.
Nous nous retrouvons ainsi face à un problème d’optimisation quadratique convexe sous
contraintes linéaires, donc les méthodes classiques de programmation mathématique peuvent
être utilisées, voir Bazaraa and Shetty [11].
25
Chapitre 2
2.3. Machines à vecteurs supports
Pour résoudre le problème (2.5), on construit le Lagrangien L qui possède un unique point
selle pour ce genre de problèmes. Soit alors :
X
1
αi [yi (hw · xi i + b) − 1] ,
L (w, b, α) = kwk2 −
2
i=1
l
(2.6)
où les αi , i = 1, . . . , l, sont des réels positifs désignant les multiplicateurs de Lagrange associés3 aux contraintes du problème (2.5). Le coefficient
1
2
qui apparaît ici est rajouté juste pour
simplifier les calculs de dérivée qui vont venir ultérieurement.
Pour trouver le point selle, on est appelé à minimiser L par rapport à w et b et la maximiser
par rapport aux αi . Le point selle doit donc satisfaire les conditions nécessaires de stationnarité :
X
∂L (w, b, α)
αi yi xi
= 0 ⇐⇒ w =
∂w
i=1
(2.7)
X
∂L (w, b, α)
αi yi = 0
= 0 ⇐⇒
∂b
i=1
(2.8)
P
P
Maximiser α W (α) = li=1 αi − 12 li,j=1 yi yj αi αj hxi ·xj i ,
Pl
sous
i=1 yi αi = 0,
(2.9)
l
l
En substituant (2.7) et (2.8) dans (2.6), nous obtenons le problème dual équivalent suivant :
αi ≥ 0, i = 1, 2, . . . , l.
Ce dernier problème peut être résolu en utilisant des méthodes standards de programmation
quadratique. Une fois la solution optimale α∗ = (α∗1 , . . . , α∗l ) du problème (2.9) obtenue, le
vecteur de poids de l’hyperplan à marge maximale recherché s’écrit :
∗
w =
l
X
α∗i yi xi .
(2.10)
i=1
Comme le paramètre b ne figure pas dans le problème dual, sa valeur optimale b∗ peut être
dérivée à partir des contraintes primales, soit donc :
b∗ = −
maxyi =−1 (hw∗ ·xi i) + minyi =+1 (hw∗ ·xi i)
.
2
Il est à noter que les conditions de Karush-Kuhn-Tucker (KKT),
α∗i [yi (hw∗ ·xi i + b∗ ) − 1] = 0, i = 1, 2, . . . , l
(2.11)
qui expriment le fait qu’à l’optimum le produit des variables duales et des contraintes associées
doit être nul, nous donnent une information très utile sur la structure de la solution.
3
On les appelle aussi variables duales.
26
Chapitre 2
2.3. Machines à vecteurs supports
γ
()
()
()
Fig. 2.3: Un cas de figure dans lequel le problème à marge maximale n’admet pas de solution.
Les conditions (2.11) impliquent que les α∗i sont nuls pour les contraintes non saturées. Les
éléments xi de l’échantillon d’apprentissage pour lesquels les coefficients α∗i sont non nuls, sont
appelés les vecteurs supports. Compte tenu des conditions de KKT, ces vecteurs définissent
à eux seuls la solution du problème (2.5). Ils constituent donc la partie active de l’échantillon d’apprentissage. Si un vecteur non support est supprimé de l’échantillon d’apprentissage
nous retrouvons la même solution optimale que celle obtenue pour (2.5). Cette propriété rend
les machines à vecteurs supports très attractives car elles permettent d’extraire les éléments
représentatifs de l’échantillon d’apprentissage.
Soit sv = {i ∈ {1, 2, . . . , l} : α∗i 6= 0} l’ensemble des indices des vecteurs supports. Une fois
les paramètres α∗ et b∗ calculés, la règle de classification d’une nouvelle observation x basée sur
l’hyperplan à marge maximale est donnée par :
!
Ã
X
yi α∗i hxi ·xi + b∗ .
h (x) = sign
i∈sv
2.3.2
Idée de relaxation
Comme nous l’avons déjà mentionné, l’hypothèse que S soit linéairement séparable conditionne beaucoup la résolution du problème (2.5). En effet, il suffit qu’une observation des deux
classes viole la contrainte (2.3) pour que ce problème n’ait plus de solution. La figure 2.3 montre
une telle situation.
Pour tenter de résoudre ce problème, une première idée simple consiste à relâcher les contraintes (2.3) dans le but d’autoriser quelques erreurs de classification. Cette généralisation de
27
Chapitre 2
2.3. Machines à vecteurs supports
l’hyperplan à marge maximale à été proposée par Cortes et al. [24] en introduisant les variables
d’écart à la marge (ξ i )1≤i≤l . Le problème (2.5) devient alors :
kwk2 + C
Pl
Minimiser w,b,ξ
1
2
sous
yi (hw · xi i + b) ≥ 1 − ξ i , i = 1, 2, . . . , l
i=1
ξi,
ξ i ≥ 0,
(2.12)
i = 1, 2, . . . , l
Autrement dit, on cherche à maximiser la marge en s’autorisant pour chaque contrainte
une erreur positive ξ i , la plus petite possible. La paramètre supplémentaire C qui apparaît ici
est une constante positive fixée à l’avance qui permet de contrôler l’importance de l’erreur que
l’on s’autorise par rapport à la taille de la marge. Plus C est important, moins d’erreurs sont
autorisées.
En suivant la même démarche du Lagrangien que précédemment, nous aboutissons à la forme
duale
P
P
Maximiser α W (α) = li=1 αi − 12 li,j=1 yi yj αi αj hxi ·xj i ,
Pl
sous
i=1 yi αi = 0
0 ≤ αi ≤ C ,
(2.13)
i = 1, 2, . . . , l
La seule différence par rapport au problème (2.9) est la majoration des αi par C. On montre
aisément que si S est linéairement séparable et quand C est suffisamment grand, les problèmes
(2.9) et (2.13) deviennent équivalents.
Une deuxième forme du problème (2.12) tente de minimiser
1
2
kwk2 + C
Pl
i=1
ξ 2i sous les
mêmes contraintes. Dans cette formulation les erreurs élevées sont les plus pénalisées. Pour plus
de détails, le lecteur pourra consulter Cristianini et al. [25].
2.3.3
SVM non-linéaires
Les machines à vecteurs supports présentées ci-dessus ne concernent que les modèles linéaires.
Il serait complètement illusoire de se dire que l’on pourrait séparer efficacement n’importe
quel jeu de données par un simple hyperplan. Si par exemple les données des deux classes
se chevauchent sévèrement comme dans la figure 2.4 de gauche, aucun hyperplan séparateur ne
sera satisfaisant.
En remarquant que dans la résolution des problèmes (2.9) et (2.13), seuls les produits scalaires
hxi ·xj i sont nécessaires, les SVM peuvent être étendues pour traiter le cas non-linéaire. La ruse
qui fait vraiment la force des SVM repose sur les noyaux autoreproduisants. L’idée de Boser
et al. [15] fut alors de plonger les observations xi dans un espace de Hilbert T de dimension q
plus élevée que p, voire infinie, à l’aide d’une fonction non-linéaire φ : Rp −→ T choisie a priori.
28
Chapitre 2
2.3. Machines à vecteurs supports
φ
G1
G2
Fig. 2.4: Exemple de plongement non-linéaire.
L’espace T ainsi obtenu est appelé espace des caractéristiques 4 ou aussi espace transformé.
Tout ce qu’il nous reste à faire c’est de résoudre le problème (2.9) ou (2.13) dans l’espace T ,
en remplaçant hxi ·xj i par hφ (xi ) ·φ (xj )i . L’hyperplan séparateur obtenu dans l’espace T est
appelé hyperplan optimal généralisé. La figure 2.4 montre un exemple de plongement de R2 dans
R3 .
Sous certaines hypothèses sur φ, le produit scalaire hφ (xi ) ·φ (xj )i peut se calculer facilement
à l’aide d’une fonction symétrique K, dite noyau, définie par :
K (xi , xj ) = hφ (xi ) ·φ (xj )i .
(2.14)
Dans la pratique on choisit un noyau K qui satisfait les conditions de Mercer afin de garantir
la décomposition (2.14).
Théorème 2.3.1 (Mercer 1909) Soit K (x, z) une fonction symétrique et continue sur L2 (X 2 ).
Alors, il existe une fonction φ telle que
K (x, z) =
+∞
X
φ (x)i φ (z)i ,
i=1
si et seulement si, pour tout compact C de X et pour toute fonction g ∈L2 (C) on a :
Z
K (x, z) g (x) g (z) dxdz ≥ 0.
(2.15)
C×C
D’après ce théorème, le produit scalaire entre φ (x) et φ (z) se ramène donc au calcul de
K (x, z) sans avoir besoin de connaître φ explicitement. Un noyau qui satisfait les conditions de
ce théorème est appelé un noyau de Mercer.
Notons que dans certains cas, il est difficile de vérifier si les conditions de Mercer sont
satisfaites, puisque la relation (2.15) doit être valable pour tout compact C et pour toute fonction
4
Feature space en anglais.
29
Chapitre 2
2.3. Machines à vecteurs supports
g. Par contre, il est très facile de voir par des arguments d’approximation de fonctions que les
conditions de Mercer sont équivalentes au fait que la matrice5 G = (K (xi , xj ))1≤i,j≤l est semidéfinie positive pour tout ensemble fini {x1 , . . . , xn } ⊂ C (voir le chapitre 3 du livre de Cristianini
et al. [25]).
Quelques noyaux de Mercer classiques :
• Noyau polynomial : K (x, z) = (hx · zi + c)d , où c ∈ R+ et d ∈ N désigne son degré.
¡
¢
• Noyau gaussien : K (x, z) = exp − kx − zk2 /2σ 2 , où σ ∈ R∗+ est la largeur de sa bande.
La dimension de l’espace transformé induit par un noyau polynomial6 est de l’ordre de
(p+d)!
,
p!d!
où p est la dimension de l’espace de départ. Quant au noyau gaussien, il induit un espace
transformé de dimension infinie.
Par exemple, la figure 2.4 représente le plongement de vecteurs bidimensionnels par un noyau
polynomial de degré 2 avec c = 0, soit donc la décomposition :
hx · zi2 = hφ (x) ·φ (z)i
avec
φ : X ≡ R2 −→ R3



φ(x)1

x1
 7−→ φ(x) = 
x=
 φ(x)2

x2
φ(x)3
≡T
 
x21
 
 
=
x2
  √ 2
2x1 x2



.

(2.16)
Les noyaux du type tangente hyperbolique sont aussi largement utilisés dans la pratique,
K (x, z) = tanh (a hx · zi − b) ,
bien qu’ils ne satisfassent les conditions de Mercer que pour certaines valeurs bien choisies des
paramètres a et b. L’intérêt de ces noyaux est qu’ils permettent de retrouver la structure des
réseaux de neurones perceptrons multicouches usuels, mais n’en donnent pas de justification
théorique.
2.3.4
Adéquation des SVM aux principes inductifs
Dans ce paragraphe nous mettons au clair l’adéquation des SVM aux principes d’induction en
établissant le lien avec le premier chapitre et en argumentant par quelques résultats théoriques
supplémentaires. Une question importante se pose alors suite à l’idée de plongement dans un
espace de grande dimension : Peut-on perdre la consistance du principe de minimisation du
5
6
Cette matrice est dite de Gram.
Les propriétés de cette famille de noyaux seront étudiées plus en détails au chapitre suivant.
30
Chapitre 2
2.3. Machines à vecteurs supports
risque empirique en faisant l’apprentissage dans des espaces à dimensions très élevées où même
parfois infinies ?
Nous avons vu dans le chapitre précédent que la finitude de la capacité d’une classe de
fonction F est une condition suffisante pour avoir la consistance du principe de minimisation du
risque empirique. Et on sait aussi qu’à petite capacité on évite le problème de sur-apprentissage.
En tenant compte de ces deux facteurs, l’algorithme de l’hyperplan à marge maximale opère sur
une classe bien déterminée d’hyperplans dite structure d’hyperplans canoniques.
Soit H l’ensemble des hyperplans définis sur Rp et soit E ∗ = {x1 , x2 , . . . , xr } un ensemble
de points de Rp . On définit l’ensemble des hyperplans canoniques relativement à l’ensemble des
points E ∗ par :
½
¾
Hc = h ∈ H / min∗ |hw · xi i + b| = 1 .
xi ∈E
Nous rappelons que d’après (2.2) les ensembles H et Hc sont les mêmes sauf qu’on impose
la normalisation des paramètres pour la structure canonique.
L’idée de construire une machine qui fixe le risque empirique et qui minimise l’intervalle de
confiance est basée sur le résultat suivant :
Théorème 2.3.2 (Vapnik [92], Chapitre 5, pp 128.) Soit Hc∗ = {h ∈ Hc / kwk ≤ T } pour
T ∈ R+ , alors dim V C(Hc∗ ) ≤ min ([R2 T 2 ] , p) + 1, où R est le rayon de la petite boule de Rp
contenant E ∗ .
Ce théorème prouve le fait que la dim V C(Hc∗ ) peut être largement inférieure à dim V C(H) =
p + 1. Ainsi, la largeur de l’intervalle de confiance est d’autant plus réduite que la norme du
vecteur de poids kwk est plus petite. Donc le problème revient à la recherche d’une structure
à capacité réduite en minimisant kwk sous des contraintes qui fixent le risque empirique7 . On
retrouve donc ici le principe de minimisation du risque structurel.
Ce résultat est valable dans le cas non-linéairement séparable. Le théorème suivant vient
confirmer ce propos.
Théorème 2.3.3 (Vapnik [92], Chapitre 5, pp 135.) Si les l − 1 exemples d’apprentissage
de Sl−1 sont séparables par un hyperplan optimal (ou même un hyperplan optimal généralisé),
alors l’espérance des proportions d’erreurs commises sur les différents tirages d’un échantillon
test de taille l est majorée par :
·
¸
nombre d’erreurs
E [nombre des vecteurs supports]
E
≤
.
l
l−1
7
Dans le cas linéairement séparable le risque empirique est nul.
31
Chapitre 2
2.3. Machines à vecteurs supports
Il est à remarquer que cette borne ne dépend ni de la dimension de l’espace où on effectue la
séparation ni de la norme kwk . Ainsi, plus le nombre de vecteurs supports est réduit relativement
à la taille de l’échantillon d’apprentissage plus les capacités de généralisation de l’hyperplan
construit sont meilleures et ceci demeure vrai même en dimension infinie.
D’autres bornes majorant le taux d’erreur d’un modèle SVM seront exposées vers la fin de
ce chapitre.
2.3.5
Résolution des problèmes d’optimisation issus des SVM
Dans la section précédente nous avons vu que l’apprentissage des SVM se ramène à la maximisation d’une forme quadratique convexe sous des contraintes linéaires. Dans ces cas il n’y
a pas de problèmes de minimums locaux et la solution peut être trouvée en utilisant des algorithmes efficaces. Par contre les méthodes classiques de résolution sont inadaptées aux problèmes
de grande taille.
Pour gérer les problèmes de grande taille il existe des méthodes dites de décomposition. Elles
reviennent à décomposer le problème en plusieurs petits sous-problèmes tels que la résolution de
chacun d’eux fournisse une approximation toujours meilleure de l’optimum. L’algorithme d’optimisation minimale séquentielle (Sequential Minimal Optimization, SMO) proposé par Platt
[71] est un cas extrême de ces méthodes. On trouve dans la littérature plusieurs raffinements de
cet algorithme.
L’algorithme SMO optimise la fonction objectif duale du problème global en opérant à chaque
itération sur un ensemble réduit à deux multiplicateurs de Lagrange. La puissance de cette
procédure réside dans le fait que le problème d’optimisation dépendant uniquement de deux
variables peut être résolu analytiquement.
P
La contrainte li=1 yi αi = 0 qui doit être vérifiée à chaque itération implique que le plus
petit nombre de multiplicateurs à optimiser dans chaque étape est de deux. Chaque fois qu’un
multiplicateur est mis à jour, un autre multiplicateur au moins doit être ajusté afin de maintenir
la contrainte précédente satisfaite.
A chaque étape l’algorithme SMO choisit deux éléments αi et αj et les optimise conjointement. Il détermine les valeurs optimales de ces deux variables tout en gardant les autres
multiplicateurs fixés puis il met à jour le vecteur solution α = (α1 , α2 , . . . , αl ) correspondant.
Le choix des deux points xi et xj est réalisé à l’aide d’une heuristique alors que l’optimisation
de leurs multiplicateurs correspondants se fait analytiquement.
l’étape de résolution analytique évite pas mal d’itérations emboîtées. En plus de ses per32
Chapitre 2
2.4. Bornes sur l’erreur de généralisation pour les SVM
formances en terme de temps de convergence, l’algorithme SMO n’est pas gourmand en espace
mémoire vu qu’il n’utilise pas des opérations sur la totalité de la matrice de Gram.
Le seul inconvénient de cette méthode est son critère d’arrêt basée sur les conditions de KKT,
qui n’est pas toujours facile à contrôler. À l’heure actuelle, cette méthode est la plus courante
pour appliquer les SVM à des problèmes de grande taille.
2.4
Bornes sur l’erreur de généralisation pour les SVM
La conception d’un classifieur SVM nécessite l’emploi de plusieurs techniques permettant le
réglage de ses paramètres ; à savoir, le paramètre C et les paramètres du noyau employé (voir
Bengio [13] et Chapelle et al. [23]). Dans l’idéal, nous souhaitons choisir les bons paramètres
qui minimisent le risque pour un modèle SVM, inaccessible en pratique mais pour laquelle on
dispose soit d’estimations soit de majorants.
2.4.1
Estimation basée sur un échantillon test
Si nous disposons d’un grand nombre d’observations, il est possible de construire un modèle
SVM sur une partie (échantillon d’apprentissage) et estimer son erreur sur le reste (échantillon
test). L’estimation que nous obtenons est non biaisée en plus sa variance est d’autant plus réduite
que la taille l0 de l’échantillon test est grande. Cette estimation est donnée par :
l0
1X
T = 0
sign (yi0 f (x0i ))
l i=1
où {(x0i , yi0 )}1≤i≤l0 est l’échantillon test.
2.4.2
Borne basée sur la dimension de Vapnik-Chervonenkis
Il a été démontré par Vapnik [92] que l’erreur de généralisation des SVM est bornée par
R2 /γ 2 , où R est le rayon de la plus petite boule recouvrant S et γ désigne la marge obtenue
sur S. De plus, dans le cas où S est linéairement séparable, la quantité T = R2 /γ 2 fournit une
estimation de l’erreur de généralisation.
Plus précisément, Bartlett et Shawe-Taylor [9] démontrent le théorème suivant :
Théorème 2.4.1 Soient S = {(x1 , y1 ) , (x2 , y2 ) , . . . , (xl , yl )} un échantillon d’apprentissage, R
le rayon de la plus petite boule contenant S, et h un classifieur de X dans {−1, 1} . Alors, il
33
Chapitre 2
2.4. Bornes sur l’erreur de généralisation pour les SVM
existe une constante c, telle que avec une probabilité d’au moins 1 − δ, pour tout classifieur h
réalisant une marge supérieure à γ, son erreur de généralisation est majorée par
·
µ ¶¸
c R2
1
2
.
log l + log
2
l γ
δ
Cette borne devient
k
+
l
s ·
µ ¶¸
c R2
1
2
log
l
+
log
,
l γ2
δ
lorsque k éléments de S ont une marge inférieure à γ.
2.4.3
Bornes obtenues par leave-one-out
La majorité des bornes de l’erreur de généralisation des SVM se base sur le lemme de Luntz et
Brailovsky [61], qui utilise la procédure de validation leave-one-out. C’est une validation croisée
dont les échantillons tests sont réduits à un seul élément.
Depuis la première borne proposée par Vapnik [92] et qui emploie le nombre des vecteurs
supports, plusieurs majorants ont été proposés à travers les années. Sous certaines conditions,
nous pouvons toujours établir une relation entre les différentes bornes proposées. Voir Vapnik
et al. [95], Chapelle et al. [23] et Chapelle [22] pour une revue détaillée. Nous nous limitons à la
présentation des deux bornes les plus utilisées dans les applications.
• Borne Rayon-Marge : Pour un classifieur SVM sans biais et sans erreur d’apprentissage
Vapnik [91] a proposé le majorant suivant :
1
El−1 (perr ) ≤ El
l
µ
R2
γ2
¶
(2.17)
,
où γ est la marge réalisée sur un échantillon d’apprentissage de taille l et perr le taux
de mauvaises classifications estimé par leave-one-out pour le prédicteur SVM construit à
partir d’un échantillon d’apprentissage de taille l−1. Les espérances E. (·) sont calculées sur
les différents tirages des échantillons d’apprentissage de taille l −1 pour le premier membre
et de taille l pour le second membre. Notons que la détermination de R est accomplie en
résolvant le problème quadratique suivant (Vapnik [91]) :
Maximiser β R2 =
l
P
i=1
sous
l
P
β i K(xi , xi ) −
β i = 1,
l
P
β i β j K(xi , xj ),
i,j=1
(2.18)
i=1
β i ≥ 0, i = 1, 2, . . . l.
Il est à noter que toutes les applications menées durant les dernières années ont mis en
évidence la sous-optimalité de cette borne.
34
Chapitre 2
2.5. Conclusion
• Span borne : Cette borne proposée par Vapnik et al. [95] est beaucoup plus fine que la
première. Ce majorant du taux de mauvaises classifications perr estimé par leave-one-out
s’écrit comme suit :
Ã
!
X
1
El−1 (perr ) ≤ El
α∗t Sp2t ,
l
t∈sv
(2.19)
où la span 8 Spt est la distance entre les vecteurs supports xt et un ensemble Λt de combinaisons linéaires contraintes des autres vecteurs supports :
Λt =
(
l
X
λi xi :
i=1,i6=t
l
X
i=1,i6=t
)
λi = 1, and ∀i 6= t, α∗i + yi yt α∗t λi ≥ 0 .
Le carré de Spt est lié à la matrice agrandie K̃sv obtenue à partir de la matrice de Gram
Ksv des vecteur supports :
par l’équation

K̃sv = 
Ksv 1
1T
0

,
1
´ .
Sp2t = ³
−1
K̃sv
(2.20)
(2.21)
tt
Où 1 est le vecteur colonne unitaire de longueur9 #sv et 1T son transposé, K̃sv une matrice
³
´
−1
−1
carrée d’ordre (#sv + 1) et K̃sv
le tème coefficient diagonal de la matrice10 K̃sv
.
tt
2.5
Conclusion
Les SVM réalisent des séparations non-linéaires dans l’espace des données d’apprentissage à
partir de séparations linéaires dans un espace transformé de dimension potentiellement grande,
et ce grâce à l’idée des noyaux de Mercer. Depuis leur apparition les SVM ont connu beaucoup de
succès sur des applications provenant de domaines très variés, surtout dans les cas où le nombre
de variables explicatives est largement supérieur à la taille de l’échantillon d’apprentissage. Les
applications issues de la bioinformatique et concernant les données de biopuces en sont des
exemples stimulants.
L’élégance de la construction des SVM ne masque pas les difficultés de leur mise en œuvre.
La minimisation quadratique est une tâche délicate lorsqu’il s’agit de traiter des problèmes de
grande taille. En plus le problème de réglage des paramètres C et ceux des noyaux semble
lourd à résoudre. Pour ce faire, on fait souvent appel à la procédure de validation croisée ou
8
En français, nous appellerons cette quantité : l’étendue.
# est le cardinal de l’ensemble sv.
10
Quand la matrice K̃sv est singulière, une stabilisation du type ridge est utilisée.
9
35
Chapitre 2
2.5. Conclusion
à des méthodes numériques minimisant l’une des bornes de généralisation par rapport à ces
paramètres, comme il a été fait dans Chapelle et al. [23] et Bengio [13]. Plus récemment un
algorithme de type itératif, inspiré de l’idée de Efron et al. [32], a été proposé par Hastie et al.
[48] pour le réglage du paramètre C.
Ce chapitre a eu pour objectif d’exposer les SVM en classification binaire en faisant le lien
avec la théorie de l’apprentissage statistique. Ainsi, des éléments de réponse ont été apportés à la
question de la consistance des principes inductifs en dimension élevée ou même infinie. Quelques
bornes sur l’erreur de généralisation des SVM ont été succinctement présentées. Dans le prochain
chapitre nous allons nous intéresser au problème de sélection de variables pour la classification
binaire en grande dimension. Notre procédure de sélection sera essentiellement basée sur les
propriétés des SVM que nous avons présentées tout au long de ce chapitre.
36
37
Chapitre 3
Sélection de variables en grande
dimension par les SVM biclasses
3.1
Introduction
Aujourd’hui plusieurs méthodes d’apprentissage nous permettent d’inférer sur l’information
à partir d’énormes bases de données. Cette information est par la suite exploitée pour bien
comprendre le processus générateur des données et mener des prévisions.
La prolifération des systèmes d’acquisition et de stockage de données met à notre disposition
des banques de données pour la résolution d’un problème d’inférence statistique. Le problème
de la classification basé sur un échantillon d’apprentissage consiste à inférer un lien plausible
entre les variables explicatives présentées sous forme d’un vecteur de p mesures appelées caractéristiques ou attributs, et leur étiquette.
Nous nous retrouvons de plus en plus dans des situations où le nombre de variables p a
tendance à être beaucoup plus grand que le nombre d’observations l. Par exemple, dans le
cadre des données de biopuces il est courant de disposer d’un grand nombre p de variables
explicatives (les gènes), de l’ordre de quelques milliers, et de peu d’observations l (les facteurs
d’expériences), de l’ordre de quelques dizaines. Dans un ensemble de mesures effectuées sur le
phénomène originel, toutes ne sont pas aussi pertinentes. Il est possible que certaines variables
correspondent à du bruit ou qu’elles soient peu informatives, corrélées et redondantes ou même
inutiles au problème de classification.
Il est très naturel que le succès d’un classifieur dans ce genre de situation soit fortement conditionné par la qualité des données et des variables qui les caractérisent. De ce fait il est devenu
indispensable de proposer des méthodes efficaces pour sélectionner les variables pertinentes.
Chapitre 3
3.2. Scores dérivés des SVM
La thématique de sélection de caractéristiques est un domaine de recherche actif depuis
plusieurs décennies. Elle consiste à extraire de l’ensemble des variables explicatives disponibles
un ensemble optimal des caractéristiques les plus importantes à un système donné afin de mener
à bien la tâche pour laquelle il a été conçu. De nombreux travaux et publications traitent de ces
techniques qui sont appliquées dans un grand nombre de domaines là où le nombre de variables
ne devrait pas dépasser quelques centaines. Pendant ces quelques dernières années de nouvelles
techniques ont été proposées pour aborder cette stimulante tâche en présence de milliers de
variables explicatives. Ces techniques sont essentiellement basées sur les machines à vecteurs
supports. Le choix des SVM pour faire face à ce défi est expliqué par le grand succès qu’a connu
cette méthode d’apprentissage dans différents domaines d’applications et surtout par la richesse
de son fondement théorique.
Le fondement théorique des SVM, abordé dans les deux premiers chapitres de ce mémoire,
nous apprend que l’augmentation du nombre d’attributs ne devrait pas nuire à la qualité de
la discrimination qu’elles réalisent. En revanche la qualité des données pose néanmoins des
problèmes majeurs dans les applications. Cependant la sélection appropriée d’attributs porte
des avantages multiples : améliorer la performance prédictive du modèle construit, faciliter
l’interprétation des données et réduire le temps de calcul.
Dans ce chapitre nous nous intéressons à la sélection de variables en grande dimension par les
SVM biclasses. Notre procédure de sélection de variables est basée sur des scores d’importance
calculés à partir de critères liés aux SVM. En utilisant un score calculé à partir du critère de la
marge d’un modèle SVM, Guyon et al. [45] ont suggéré un algorithme d’élimination récursive des
variables nommé SVM-RFE. Plus récemment Rakotomamonjy [77] a utilisé le même algorithme
mais en se basant sur plus de scores qu’il a dérivés des SVM. Nous complétons ici la liste des
scores suggérés par Rakotomamonjy [77] et nous proposons une procédure de sélection du type
stepwise, plus fine que la précédente, se basant sur ces différents scores estimés par bootstrap.
Nous menons une étude comparative intensive entre les différents scores et nous démontrons des
équivalences pour certains d’entre eux.
3.2
Scores dérivés des SVM
La richesse du bagage théorique des SVM a permis de construire les bornes de risque (2.17)
et (2.19) présentées dans le chapitre précédent. Ces bornes ont servi à définir trois critères
permettant d’établir un ordre d’importance sur les variables explicatives. Ces critères ont été
38
Chapitre 3
3.2. Scores dérivés des SVM
introduits partiellement par Guyon et al. [45] et Rakotomamonjy [77] puis complétés par Ben
Ishak et al. [12].
Trois critères sont utilisés pour évaluer le degré d’importance d’une variable. L’importance
d’une variable peut être mesurée soit en fonction de sa contribution à la marge γ =
2
,
kw∗ k
soit
selon son influence sur l’une des bornes de risque (2.17) et (2.19). Dans notre présentation, Nous
noterons ces critères par :
W = kw∗ k2 , RW = R2 kw∗ k2 et Spb =
X
α∗i Sp2i .
i∈sv
L’idée principale est d’évaluer la contribution de chacune des variables explicatives par chacun de ces critères. Une variable est d’autant plus importante que sa contribution au critère
est forte. Cette contribution est mesurée de trois manières différentes donnant ainsi lieu à trois
types de scores.
3.2.1
Scores d’ordre zéro
Le score d’ordre zéro d’une variable est égal à la valeur du critère calculée après avoir éliminé
la variable en question.
Les trois scores d’ordre zéro correspondant à la kème variable sont1 :
l
°
°
´
³
° ∗ (−k) °2 X ∗ ∗
(−k)
(−k)
αi αj yi yj K xi , xj
W (k) = °(w )
° =
0
(3.1)
i,j=0
°2
¢2 °
¡
°
°
RW 0 (k) = R(−k) °(w∗ )(−k) °
Sbp0 (k) =
X
i∈sv
α∗i
µ³
´−1 ¶
(−k)
K̃
sv
(3.2)
(3.3)
ii
La notation (−k) que nous mettons en exposant désigne l’élimination de la kème variable. Le
rayon R(−k) est obtenu en résolvant le problème (2.18) après avoir supprimé la kème variable et
³
´−1
la matrice K̃ (−k)
est obtenue à partir de celle introduite dans l’équation (2.21) en omettant
sv
la k
ème
variable.
La variable la plus importante est celle qui minimise le score d’ordre zéro.
1
´
D
E
³
(−k)
(−k)
(−k)
(−k)
sera remplacé par un simple produit xi
scalaire lorsqu’il s’agira du
Le noyau K xi , xj
· xj
cas linéaire.
39
Chapitre 3
3.2.2
3.2. Scores dérivés des SVM
Scores par différence
Le score par différence d’une variable est égal à la différence entre la valeur du critère calculée
en présence de cette variable et sa valeur calculée sans en tenir compte.
Les trois scores obtenus par différence pour la kème variable sont :
¯
°2 ¯¯
¯ ∗ 2 °
°
°¯
(−k)
∗
∆W (k) = ¯¯kw k − °(w )
°¯
¯
°2 ¯¯
¯ 2
¡ (−k) ¢2 °
°
°¯
2
(−k)
∗
∗
∆RW (k) = ¯¯R kw k − R
°(w )
°¯
¯

¯
¯
¯
¯X
¯
¯

¯
1
1
∗
¯
∆Sbp (k) = ¯¯
αi 
´−1 ¶ 
 ³ −1 ´ − µ³
¯
¯i∈sv
¯
K̃sv
(−k)
K̃
¯
¯
ii
sv
(3.4)
(3.5)
(3.6)
ii
La variable la plus importante est celle qui maximise le score calculé par différence.
Les scores d’ordre zéro et par différence tels qu’ils sont donnés ci-dessus sont calculés sans
réapprentissage, c’est-à-dire que les paramètres α∗i , i = 1, . . . , l, de notre modèle SVM sont
estimés une seule fois en utilisant toutes les variables disponibles. Toutefois, nous sommes appelés
³ ³
´´
(−k)
(−k)
à recalculer seulement la matrice de Gram K xi , xj
en omettant la kème variable,
1≤i,j≤l
sans avoir besoin de résoudre le problème (2.13) autant de fois qu’il y a de variables.
Nous utiliserons ces scores avec et sans réapprentissage dans nos applications. La lettre r
que nous mettrons en indice de ces scores désignera l’emploi du réapprentissage.
De plus, en procédant par réapprentissage dans le calcul des scores d’ordre zéro, la variable
la plus importante sera plutôt celle qui maximise leur valeur. Quant aux scores par différence, la
règle d’importance reste inchangée. Ce propos sera plus détaillé vers la fin de la section courante.
3.2.3
Scores d’ordre un
Le score d’ordre un est obtenu en calculant la dérivée du critère par rapport à un vecteur
artificiel de pondérations des variables.
Soit θ = (θ1 , . . . , θ p )T ∈ Rp le vecteur de pondérations artificielles utilisé et notons par
(·) l’opérateur effectuant le produit terme à terme entre deux vecteurs de même longueur. Le
facteur de pondération θk est remis à l’unité après avoir calculé la dérivée partielle du critère
par rapport à celui-ci.
Pour calculer les dérivées des différents critères par rapport à θ nous faisons appel au résultat
introduit par Chapelle et al. dans [23].
40
Chapitre 3
3.2. Scores dérivés des SVM
Lemme 3.2.1 Etant donnés un vecteur vθ ∈ Rp et une matrice carrée Pθ d’ordre p dépendant
de manière continue du paramètre θ ∈ R. Considérons la fonction :
1
L(θ) = max xT vθ − xT Pθ x
x∈F
2
où
ª
©
F = x / bT x = c, x > 0
Soit x̃ le vecteur x pour lequel le maximum de L(θ) est atteint. Si ce maximum est unique alors :
∂L(θ)
1 ∂Pθ
= x̃T vθ − x̃T
x̃
∂θ
2
∂θ
Ce lemme signifie qu’il est possible de dériver L par rapport à θ comme si x̃ ne dépendait
pas de θ. Notons que ce résultat reste valable même en supprimant partiellement ou totalement
les contraintes définissant F .
En appliquant ce lemme aux problèmes (2.13), (2.18) et à la relation (2.21) nous obtenons
les trois scores d’ordre un correspondant à la kème variable :
¯
¯Ã l
!
¯ X
∂K
((θ
·
x
)
,
(θ
·
x
))
¯
i
j
∂W (k) = ¯
α∗i α∗j yi yj
¯
∂θk
¯ i,j=1
(θ
k
¯
¯
¯
¯
¯
¯
¯
=1)
(3.7)
¯(
)
¯ X
l
¯
£ 2
¡
¢¤
∂K
((θ
·
x
)
,
(θ
·
x
))
i
j
2
∂RW (k) = ¯¯
R yi yj α∗i α∗j + kw∗ k β ∗i δ ij − β ∗i β ∗j
∂θ
k
¯ i,j=1
(θ
k
où δ ij = 1 si i = j et 0 sinon.
¯(
Ã
! #)
¯ X"
µ
¶
¯
∂H
∂
K̃
sv
−1
−1
Sp2i −H −1
(α∗ , b∗ )T + α∗i Sp4i K̃sv
∂Sbp (k) = ¯¯
K̃sv
∂θ
∂θ
k
k
¯ i∈sv
i
ii
(θ

La matrice H = 
Y
Ksv
Y
T

k
¯
¯
¯
¯ , (3.8)
¯
¯
=1)
¯
¯
¯
¯
¯
¯
=1)
(3.9)
Y
 est carrée d’ordre2 |sv|+1, Ksv
étant la matrice carrée d’ordre
Y
0
¡ Y¢
|sv| obtenue par Ksv ij = yi yj (Ksv )ij et Y est le vecteur des classes des vecteurs supports. La
matrice K̃sv est celle introduite par (2.20).
Sur le plan du calcul notons que la question de réapprentissage ne se pose pas pour les scores
d’ordre un. La variable la plus importante est celle qui maximise le score d’ordre un.
Enfin la dérivée de la fonction noyau K est donnée par :
2
|sv| désigne la cardinal de l’ensemble sv des indices des vecteurs supports.
41
Chapitre 3
3.2. Scores dérivés des SVM
• Noyau polynomial :
µ
¶
∂K ((θ · x) , (θ · z))
= 2d.xk zk × (hx · zi + c)d−1 .
∂θk
(θk =1)
On retrouve le cas linéaire en prenant d = 1.
• Noyau gaussien :
µ
¶
¶
µ
∂K ((θ · x) , (θ · z))
1
1
2
2
= − 2 (xk − zk ) × exp − 2 kx − zk .
∂θk
σ
2σ
(θk =1)
3.2.4
Effet du réapprentissage sur les scores
Guyon et al. [45] ont considéré que le calcul du score (3.4) avec réapprentissage (∆Wr )
n’apporte pas une amélioration significative par rapport aux résultats obtenus avec le même
score sans réapprentissage (∆W ). En outre le score ∆Wr est beaucoup plus coûteux en temps
de calcul. Nous nous proposons d’analyser dans ce paragraphe l’effet du réapprentissage.
Dans le cas où nous procédons par réapprentissage nous cherchons toujours à calculer la
valeur exacte des trois critères W, RW et Spb. À l’ordre zéro, les scores Wr0 (k), RWr0 (k) et
Spb0r (k) donnent des estimations exactes de la marge et des bornes de risque du modèle SVM
construit sur la base de l’échantillon d’apprentissage S duquel nous avons supprimé la kème
variable. Par contre, sans réapprentissage nous évaluons la contribution partielle de la variable
k aux critères W, RW et Spb calculés une fois pour toutes sur la base de l’échantillon S tout
entier. Par conséquent, les scores W 0 (k), RW 0 (k) et Spb0 (k) n’ont absolument aucune relation
avec la marge et la capacité de généralisation connues pour les SVM.
Par exemple le score ∆Wr (k) = |W − Wr0 (k)| mesure la différence entre deux vecteurs
de poids : le premier, W , correspond au modèle SVM obtenu sur S et le deuxième, Wr0 (k),
correspond au nouveau modèle SVM obtenu sur S dépourvu de la variable k. En revanche,
le score ∆W (k) = |W − W 0 (k)| mesure la contribution de la kème composante au vecteur de
poids W estimé à partir de S. De ce fait on comprend pourquoi la règle d’importance basée sur
les scores d’ordre zéro s’inverse dans le cas de réapprentissage. En effet sans réapprentissage la
variable la plus importante est celle qui contribue le plus à la norme du vecteur de poids W, son
élimination doit donc minimiser cette norme. Avec réapprentissage, intuitivement, l’élimination
de la variable la plus importante donne lieu à la plus petite marge, ce qui correspond à la valeur
maximale pour la norme du vecteur de poids du modèle SVM obtenu. Cette explication3 est
valide pour les critères RW et Spb. Finalement, grâce à la valeur absolue, la règle d’importance
ne s’inverse pas pour les scores par différence obtenus par réapprentissage.
3
Intuitivement, l’élimination d’une variable importante entraîne l’augmentation des bornes de risque.
42
Chapitre 3
3.2. Scores dérivés des SVM
Enfin nous résumons toutes les règles d’importance des variables basées sur tous les scores
par :
◦ La variable la plus importante est celle qui minimise les scores d’ordre zéro calculés sans
réapprentissage.
◦ Dans tous les autres cas, la variable la plus importante est celle qui maximise la valeur du
score.
3.2.5
Quelques équivalences entre les scores dans le cas linéaire
Dans ce paragraphe nous démontrons quelques équivalences entre les hiérarchies fournies par
certains scores dans le cas de données linéairement séparables.
Lemme 3.2.2 Pour tout k ∈ {1, . . . , p} on a :
W ≤ Wr0 (k) .
Sachant qu’on est dans le cadre du réapprentissage, ce résultat équivaut à dire que la marge
obtenue sur S est plus grande que celle obtenue sur S dépourvu de la k ème variable.
Preuve. Il suffit de se rappeler que W et Wr0 (k) sont les résultats respectifs des problèmes
d’optimisation suivants :
Minimiser (w,b)∈Ω kwk2
et
Minimiser (w,b)∈Ωk kwk2 ,
où ek est le kème vecteur de la base canonique de Rp et
Ω = {w ∈Rp /yi (hw · xi i + b) ≥ 1, i = 1, 2, . . . , l.} × R
Ωk = {w ∈Rp /yi (hw · xi i + b) ≥ 1, i = 1, 2, . . . , l et hw · ek i = 0} × R.
Comme Ωk ⊂ Ω alors W ≤ Wr0 (k) .
De ce lemme on déduit que les hiérarchies fournies par les scores Wr0 et ∆Wr sont identiques.
En effet, puisque W ≤ Wr0 (k) alors ∆Wr (k) = |W − Wr0 (k)| = Wr0 (k) − W d’où,
arg max Wr0 (k) = arg max ∆Wr (k) .
k
k
Lemme 3.2.3 Pour tout k ∈ {1, . . . , p} on a :
1) W ≥ W 0 (k)
2) RW ≥ RW 0 (k)
3) Spb ≥ Spb0 (k)
43
Chapitre 3
3.2. Scores dérivés des SVM
En d’autres termes, la valeur de chacun des trois critères W, RW, ou Spb calculée à partir
de S est supérieure à celle calculée sans réapprentissage sur S en omettant
une° variable.
°
°P ∗
°2
0
°
Preuve. 1) La première inégalité est évidente. On a W = °
αi yi xi °
° et W (k) =
i∈sv
°
°
° P ∗ (−k) °2
°
αi yi xi °
°
° d’où le résultat.
i∈sv
¡
¢2
2) Pour établir la deuxième inégalité, il suffit de prouver que R2 ≥ R(−k) . Pour ce faire
nous faisons appel à la forme primale du problème d’optimisation (2.18). Nous avons :
µ
¶
ª
©
2
2
R = minp sup kxi − ak ; i = 1, 2, . . . l
a∈R
et
i
µ
½°
¾¶
°2
¡ (−k) ¢2
° (−k)
(−k) °
= minp sup °xi − a
.
R
° ; i = 1, 2, . . . l
a∈R
i
Le résultat se déduit facilement du fait que
½°
¾
°2
ª
©
° (−k)
2
(−k) °
sup kxi − ak ; i = 1, 2, . . . l ≥ sup °xi − a
° ; i = 1, 2, . . . l .
i
i
3) Rappelons que la définition de l’étendue en présence de toutes les variables et en omettant
une est,
(−k)
Spi
Comme
alors
Spi = d(xi , Λi ) = min kxi − xk
x∈Λi
°
°
° (−k)
°
(−k)
(−k)
= d(xi , Λi ) = min °xi − x(−k) °
(−k)
x(−k) ∈Λi
°
°
° (−k)
°
kxi − xk > °xi − x(−k) ° ∀k,
d(xi , Λi ) > d(xi
(−k)
(−k)
, Λi
).
Par le lemme 3.2.3 on déduit que dans le cas sans réapprentissage, les hiérarchies rendues par
les scores d’ordre zéro sont identiques à celles de leurs correspondants calculés par différence.
Enfin on montre très facilement que les scores ∂W et ∆W donnent exactement la même
hiérarchie d’importance sur les variables. En effet, d’une part d’après la première inégalité du
lemme 3.2.3 on a :
¯
¯
∆W (k) = ¯W − W 0 (k)¯ = W − W 0 (k)
l
³
E´
D
X
(−k) (−k)
=
yi yj α∗i α∗j hxi ·xj i − xi ·xj
i,j=1
=
l
X
yi yj α∗i α∗j (xi )k (xj )k ,
i,j=1
44
Chapitre 3
3.2. Scores dérivés des SVM
et d’autre part,
∂W (k) =
l
X
2yi yj α∗i α∗j (xi )k (xj )k ,
i,j=1
d’où l’équivalence des hiérarchies.
Le tableau 3.1 résume les équivalences établies dans le cas linéairement séparable entre les
scores basés sur les SVM.
Zero-order
Difference-order
First-order
0
Weight vector
W (∗)
Wr (∗∗)
∆W (∗)
∆Wr (∗∗)
∂W (∗)
Radius-margin bound RW 0 (∗ ∗ ∗)
RWr0
∆RW (∗ ∗ ∗)
∆RWr
∂RW
0
0
Span bound
Spb (∗ ∗ ∗∗)
Spbr
∆Spb(∗ ∗ ∗∗)
∆Spbr
∂Spb
0
Tab. 3.1: Les scores indexés par la lettre r sont calculés par réapprentissage. Les scores marqués
par le même nombre d’astérisques donnent des hiérarchies identiques.
Remarque 3.2.1 Dans le cas linéaire on vérifie aisément que le fait d’omettre une variable
est équivalent à la mettre égale à zéro. Cette équivalence n’est pas aussi simple à vérifier dans
le cas non-linéaire. La difficulté est due essentiellement à la méconnaissance de la fonction de
plongement φ induite par les noyaux de Mercer non-linéaires.
3.2.6
Preuve des équivalences dans le cas non-linéaire
Notre objectif est de déterminer, parmi les équivalences citées ci-dessus, celles qui restent
valides dans le cas non-linéaire. Pour ce faire, nous avons commencé par les vérifier empiriquement dans un premier temps puis les prouver théoriquement.
Les expériences que nous avons menées sur des jeux de données4 non-linéaires simulées montrent que toutes ces équivalences sont perdues pour le noyau gaussien et seules les quatre premières équivalences données par les lemmes 3.2.2 et 3.2.3 sont vérifiées lorsque nous employons
un noyau polynomial. Cette propriété du noyau polynomial est due à la nature de la fonction
non-linéaire φ qu’il induit.
L’étude minutieuse de la forme et des propriétés de φ en fonction du degré d du noyau
associé et de la dimension p de l’espace de départ est la clé de nos démonstrations de toutes
les équivalences vérifiées empiriquement. Il est à noter qu’il n’est pas surprenant qu’une étude
similaire pour le noyau gaussien semble impossible vu la complexité de sa fonction φ et au fait
que l’espace transformé induit par cette famille de noyaux est de dimension infinie.
4
Nous décrirons ces données au moment où ils interviendront dans nos expérimentations.
45
Chapitre 3
3.2. Scores dérivés des SVM
Pour étendre les résultats des lemmes 3.2.2 et 3.2.3 au cas de la dépendance non-linéaire en
utilisant des noyaux polynomiaux, il suffit d’examiner la forme générale de la fonction φ induite
par cette famille de noyaux et d’étudier surtout l’effet de l’omission d’une composante, dans
l’espace de départ, sur φ et sur l’espace transformé.
Soient x et z deux points de Rp . On a :
­
®
K(x, z) = (hx · zi + c)d = φp (x) · φp (z) .
En développant l’expression (3.10), on voit facilement que
(
)
p
¡√ ¢η0 η1 η2
ηp X
φp (x) = cst (d, c) × c x1 x2 · · · xp /
ηi = d ,
(3.10)
(3.11)
i=0
où cst (d, c) est une constante réelle qui ne dépend que des paramètres d et c.
En se basant sur un raisonnement combinatoire, on montre que la fonction φp envoie le point
x dans l’espace transformé Rq où q =
(p+d)!
.
p!d!
On se propose maintenant d’appliquer le même noyau sur les points x et z desquels on a
omis la kème coordonnée, soit donc :
¡­
K(x(−k) , z(−k) ) =
®
¢d ­
¡
¢
¡
¢®
x(−k) · z(−k) + c = φp−1 x(−k) · φp−1 z(−k) .
D’une part, d’après la définition d’un noyau polynomial, il est clair que l’omission d’une
coordonnée donne la même valeur pour K que lorsqu’on la met égale à zéro. D’autre part, on
ne peut pas affirmer que φp ≡ φp−1 . Donc la question qui se pose à ce niveau est : y a-t-il quand
même une relation entre les fonctions φp et φp−1 ?
Sans perte de généralité supposons qu’on omet la 1ère composante de x. L’expression (3.11)
devient :
φp−1 (x) =
(
)
p
X
¡√ ¢η0 η2
ηp
cst (d, c) × c x2 · · · xp /
ηi = d .
i=0,i6=1
En utilisant le même raisonnement combinatoire que précédemment, on montre que la fonc0
tion φp−1 envoie le point x(−1) dans l’espace transformé Rq où q0 =
(p−1+d)!
.
(p−1)!d!
Si au lieu d’omettre la 1ère composante de x on la met égale à zéro, alors l’expression (3.11)
s’écrit :
φp (x) =
(
)
p
X
¡√ ¢η0 η η2
η
cst (d, c) × c 0 1 x2 · · · xpp /
ηi = d .
i=0
√ η
η
η
Ainsi, tous les monômes ( c) 0 0η1 x22 · · · xpp pour lesquels η 1 6= 0 seront nuls. Par complé-
mentarité on montre que le nombre des monômes non nuls est de l’ordre de q 0 . Ceci prouve que
¡
¢
φp−1 x(−1) est la projection de φp (x) sur les axes de Rq ne faisant pas intervenir la première
composante de x.
46
Chapitre 3
3.3. Présentation des données linéairement séparables
Ce développement montre que l’élimination d’une variable dans Rp entraîne l’élimination
de toutes les composantes de Rq faisant intervenir cette variable sans toucher au reste des
composantes. Par conséquent nous prouvons la validité des lemmes 3.2.2 et 3.2.3 dans le cas
non-linéaire avec des noyaux polynomiaux.
3.3
Présentation des données linéairement séparables
Toutes les applications que nous avons menées dans le contexte de la classification linéaire
utilisent des données simulées et des données réelles de biopuces. Afin d’éliminer certains effets
d’échelle, on procède au préalable à une normalisation des données en centrant et réduisant
toutes les variables.
3.3.1
Données simulées
Ces données ont été introduites par Weston et al. [98]. Les six premières variables déterminent
entièrement le modèle, les autres peuvent être assimilées à du bruit. Les deux classes sont
équiprobables ; Pr (y = 1) = Pr (y = −1) = 12 .
• Pour 70% des observations, les trois premières variables suivent une loi gaussienne dépendant du signe de y, xi ∼ yN (µi , 1), ayant respectivement les moyennes {−3, −2.2, −1.4}
pour i = 1, 2, 3, et les trois suivantes xi ∼ yN (0, 1), i = 4, 5, 6.
• Pour les 30% restantes, xi ∼ yN (0, 1) pour les trois premières i = 1, 2, 3, et xi ∼
yN (µi , 1), ayant respectivement les moyennes {−3, −2.2, −1.4} pour i = 4, 5, 6.
• Les autres variables constituent du bruit, xi ∼ N (0, 20), i = 7, . . . , p.
On voit clairement à partir de cette construction que les six premières variables présentent
une redondance. En plus, ces données sont linéairement séparables avec une forte probabilité,
qui est d’autant plus grande que l’échantillon est de faible taille.
La figure 3.1 fournit une estimation par histogramme de la densité des six premières variables
importantes pour l = 5000.
L’examen des histogrammes de la figure 3.1 permet d’avoir une idée claire sur la nature de
ces variables et la redondance qu’elles exhibent. Les quatre premières variables semblent avoir
des distributions assez différentes des deux dernières qui sont approximativement gaussiennes.
47
Chapitre 3
3.3. Présentation des données linéairement séparables
Fréquence
x
x
1
200
200
150
150
100
100
3
250
200
150
100
50
0
-5
50
0
x
Fréquence
x
2
5
50
0
-5
0
x
4
5
0
-5
x
5
300
300
300
250
250
250
200
200
200
150
150
150
100
100
100
50
50
50
0
-5
0
5
0
-5
0
0
5
0
-5
5
6
0
5
Fig. 3.1: Histogrammes des six premières variables des données simulées linéaires ; les six variables qui déterminent le modèle. 5000 observations sont utilisées.
3.3.2
Données réelles
Nous avons utilisé des données de biopuces publiques, accessibles sur Internet, et très répandues dans la littérature portant sur l’apprentissage. Elles soulèvent toutes un problème de
discrimination binaire, et disposent d’un grand nombre de variables, les gènes, et de peu d’observations.
• Colon : Ce jeu de données est constitué de 62 profils d’expression issus de deux populations : 40 tissus tumoraux et 22 tissus sains. Chaque profil comporte 2000 niveaux
d’expression de gènes. On trouvera dans Alon et al. [6] une description complète de ces
données.
• Lymphoma : Le problème de discrimination lié à ce jeu de données est décrit en détail
dans Alizadeh [4]. Ce jeu de données est constitué de 96 profils d’expression issus de deux
populations : 62 cas sont du type “DLCL”, “FL” ou “CLL” (maligne) et les 34 restants
sont normaux. Chaque profil comporte 4026 gènes.
• Prostate : Dans ce jeu de données le niveau d’expression de 12600 gènes est mesuré sur
102 tissus. L’objectif est de séparer les tissus normaux (52) des cancéreux (50). On trouvera
une description complète de ces données dans Singh et al. [81].
• Leukemia : Ce jeu de données est constitué de 72 profils d’expression issus de deux
populations : 47 tissus atteints de Leucémie lymphoblastique aiguë (ALL) et 25 tissus
48
Chapitre 3
3.4. Application sur les données simulées
atteints de Leucémie myéloïde aiguë (AML). Il est à noter que ce jeu de données peut
aussi être considéré comme problème de discrimination multiclasse dans la mesure où les
47 tissus ALL se subdivisent en deux populations selon que les cellules analysées sont de
type B (38 cas) ou de type T (9 cas). Chaque profil comporte 7129 niveaux d’expression de
gènes. L’échantillon test est de taille 34 (20 ALL/14 AML) quant à celui d’apprentissage
est de taille 38 (27 ALL/11 AML). On trouvera dans Golub et al. [42] une description
détaillée de ces données. Guyon et al. [45] ont montré une différence significative entre les
distributions des échantillons d’apprentissage et test.
Enfin, le tableau 3.2 résume les caractéristiques de ces quatre jeux de données.
Données
Colon
Lymphoma
Prostate
Leukemia
p
l
l 0 # d’observations +1/-1
2000 62 —
22/40
4026 96 —
62/34
12600 102 —
52/50
7129 38 34
27/11 - 20/14
Tab. 3.2: Description des données réelles, p désigne le nombre de variables, l et l0 désignent
respectivement la taille de l’échantillon d’apprentissage et de l’échantillon test.
3.4
Application sur les données simulées
Pour comparer les performances de hiérarchisation des variables par les différents scores
dérivés des SVM dans le cas linéaire, nous avons utilisé les données artificielles présentées dans
la section précédente. L’objectif est de montrer la capacité de chacun des dix scores restants5 à
retrouver d’une part le bon ordre des variables, et d’autre part le “bon modèle”, au sens du bon
nombre de variables à conserver. L’effet de la taille de l’échantillon et du nombre de variables sur
leurs performances est aussi analysé. Dans le cas où il s’agit de données linéairement séparables
nous construisons des modèles SVM standards à noyau linéaire.
Nous avons retenu à titre de comparaison le critère de discrimination de Fisher comme un
score d’importance supplémentaire. Ce score se calcule par :
¯ +
¯
¯ µk − µ−
¯
k
¯
F DS(k) = ¯¯ +
− ¯ ; k = 1, 2, . . . p,
ηk + ηk
ème
où µ±
variable respectivement dans la classe positive et négative,
k est la valeur moyenne de la k
et η ±
k désigne l’écart type correspondant. L’intérêt de ce score est qu’il n’est basé sur aucun
modèle.
La variable la plus importante selon ce score est celle qui en maximise la valeur.
5
Les quinze scores de départ sont réduits à dix grâce aux équivalences établies.
49
Chapitre 3
3.4.1
3.4. Application sur les données simulées
Notre procédure de sélection de variables
Notre procédure de sélection de variables, décrite dans le tableau 3.3, s’effectue en deux
étapes. Une fois la hiérarchie des variables établie, nous suivons la méthode décrite par Ghattas
et al. [41] en régression et par Poggi et al. [73] dans un contexte similaire. Le principe de
cette méthode consiste à introduire séquentiellement les variables une par une dans le modèle,
dans l’ordre décroissant d’importance. On obtient ainsi une suite croissante de modèles emboîtés
© kª
M 1≤k≤p . La performance de chaque modèle de la suite est évaluée de différentes manières, soit
sur un échantillon test, soit par validation croisée ou par plusieurs partages aléatoires stratifiés.
Le modèle réalisant le taux d’erreur minimum est retenu comme étant celui ayant le nombre
optimal de variables.
D = données disponibles. B = 100 Nombre d’échantillons bootstrap.
Calcul de Score(D, B) pour obtenir une hiérarchie X (1) , . . . , X (p) .
Pour k = 1, . . . , p
Pour l = 1, . . . , 50
Réaliser ¡un partage aléatoire
¢ stratifié de D = Al ∪ Tl
k
(1)
(k)
Ml = f X ¡ , . . . , X¢ , Al
Erlk = T est Mlk , Tl
P50
1
Erk = 50
Erlk
© l=1
ª
kopt = Arg mink Erk .
Tab. 3.3: Procédure de sélection de variables à partir d’une hiérarchie. À la sortie de la procédure,
on récupère le nombre optimal de variables.
3.4.2
Effet de la taille de l’échantillon
Dans un premier temps, nous vérifions la capacité des différents scores à bien classer les
variables importantes, les six premières, en présence de bruit en modifiant la taille de l’échantillon
d’apprentissage. Dans un deuxième temps, nous évaluons la capacité de notre procédure de
sélection à repérer le sous-ensemble optimal de variables en utilisant différents scores.
Nous fixons le nombre de variables à p = 200 et nous faisons varier la taille de l’échantillon
l de 50, 100 et 200. Les 200 variables sont rangées par ordre décroissant d’importance selon
chaque score calculé à partir de l’échantillon d’apprentissage. Le tableau 3.4 donne les variables
occupant les six premiers rangs des hiérarchies établies par les différents scores.
Tous les scores, sauf Spb0 , classent cinq parmi les six variables importantes aux 6 premiers
rangs. La 6ème variable n’apparaît jamais pour l = 50 et l = 100. En utilisant 200 observations,
les six variables importantes occupent les six premières positions de toutes les hiérarchies à
l’exception des scores Spb0r et ∆Spbr . De plus, les variables 5 et 6 n’apparaîtront qu’en dernier
50
Chapitre 3
3.4. Application sur les données simulées
lieu. Ceci pourrait être expliqué par la redondance des variables ou par la forte ressemblance de
leur distribution à une gaussienne, celle des variables bruits (voir la figure 3.1).
50
F DS
RW 0
Spb0
∆RW r
∆Spbr
Wr0
RW 0r
Spb0r
∂W
∂RW
∂Spb
2
2
111
2
2
2
2
2
2
2
2
1
1
171
4
1
1
4
1
1
1
1
4
4
42
1
4
4
1
4
4
4
4
5
5
63
5
123
5
5
123
5
5
5
100
3
123
138
123
5
123
123
5
123
123
3
122
3
116
3
3
3
3
3
3
3
123
1
1
39
1
1
1
1
1
1
1
1
2
2
168
2
2
2
2
2
2
2
2
3
3
151
3
3
3
3
3
3
3
3
200
5
5
17
5
5
5
5
5
5
5
5
4
4
56
4
4
4
4
4
4
4
4
148
148
14
194
194
148
194
194
148
148
148
1
1
74
1
1
1
1
1
1
1
1
2
2
172
2
2
2
2
2
2
2
2
3
4
189
4
4
4
4
4
4
4
4
4
3
7
3
5
3
3
5
3
3
3
5
5
28
5
37
5
5
143
5
5
5
Tab. 3.4: Les six variables occupant les six premiers rangs de la hiérarchie.
Le tableau 3.5 montre les rangs maximaux auxquels sont apparues les six variables importantes dans les différentes hiérarchies. Nous remarquons clairement que les rangs des variables
importantes s’améliorent en augmentant la taille de l’échantillon. Cette caractéristique semble
moins vraie pour les scores Spb0r et ∆Spbr .
Score / l
F DS
RW 0
Spb0
∆RWr
∆Spbr
Wr0
RWr0
Spb0r
∂W
∂RW
∂Spb
50 100 200
7
7
6
10
8
6
199 200 200
10
9
6
103 7
32
10
9
6
10
9
6
19
7 199
10
8
6
10
8
6
9
9
6
Tab. 3.5: Effet de la taille de l’échantillon. Rang maximal au bout duquel sont apparues les six
variables importantes. l = 50, 100, 200 et p = 200.
Les plus mauvais résultats sont obtenus avec les scores déduits du critère Spb à l’ordre zéro et
par différence surtout lorsque nous procédons sans réapprentissage (Spb0 ). La faiblesse du score
Spb0 pourrait être due à sa forte dépendance de l’ensemble des vecteurs supports qui devrait
changer à l’élimination de chaque variable. Donc le fait de le calculer sans réapprentissage brise
complètement la définition de la notion de l’étendue.
51
6
6
192
6
6
6
6
3
6
6
6
Chapitre 3
3.4. Application sur les données simulées
50 observations
100 observations
200 observations
0.2
0.2
0.2
0.15
0.15
0.15
0.1
0.1
0.1
0.05
0.05
0.05
0
0
10
10
2
0
0
10
10
2
0
0
10
10
2
Fig. 3.2: Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure
avec tous les scores. Chaque panneau correspond à une taille. Le nombre de variables est fixé à
200.
A la lumière des résultats exposés par les tableaux 3.4 et 3.5, le score Spb0 ne sera plus
considéré dans les prochaines applications.
La figure 3.2 montre l’évolution du taux d’erreur des modèles emboîtés obtenus suite à
l’application de notre procédure décrite dans le tableau 3.3. Chaque panneau correspond à une
taille et chaque courbe correspond à un score. Le taux d’erreur est estimé sur un échantillon
test 50 fois plus grand que celui d’apprentissage.
Nous remarquons que toutes les courbes partagent la même allure : elles décroissent pour
atteindre un certain minimum global à partir duquel elles croissent. La forme de la courbe qui
correspond au score ∆Spbr paraît un peu différente au niveau du premier panneau. De plus,
le minimum global est atteint au bout de l’introduction de la quatrième variable pour tous les
scores. Enfin, le taux d’erreur diminue en augmentant la taille de l’échantillon.
La figure 3.3 nous donne une idée plus claire sur le premier panneau de la figure 3.2.
3.4.3
Effet du nombre de variables
Dans un premier temps, nous vérifions la capacité des différents scores à bien classer les
variables importantes, les six premières, en variant le nombre de variables bruits. Nous évaluons
la capacité de notre procédure de sélection à repérer le sous-ensemble optimal de variables en
augmentant le bruit.
Nous menons les mêmes expériences que précédemment en fixant la taille de l’échantillon à
52
Chapitre 3
3.4. Application sur les données simulées
50 observations & 200 variables
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0
0
10
0.05
∂RW
∂Spb
10
1
10
0
0
10
2
0.2
0.2
0.15
0.15
0.1
0.1
∂W
0
W
0.05
0
Spb
r
∆Spb
10
1
0
RW0
RW
r
∆RW
0.05
r
FDS
0
0
10
10
1
10
0
0
10
2
10
r
2
10
1
10
r
2
Fig. 3.3: Zoom sur le premier panneau de la figure précédente.
l = 50 et le nombre de variables p à 500 puis à 1000. Les quatre premières variables importantes
occupent les quatre premières positions de toutes les hiérarchies quel que soit le nombre de
variables.
Score / # de variables 200 500 1000
F DS
7
18 182
0
RW
10 11 180
∆RWr
10 12 473
∆Spbr
103 10 602
Wr0
10 12 180
0
RWr
10 12 178
Spb0r
19 10 176
∂W
10 12 179
∂RW
10 11 182
∂Spb
9
10 594
Tab. 3.6: Effet du nombre de variables. Rang maximal au bout duquel sont apparues les six
variables importantes. p = 200, 500, 1000 et l = 50.
Le tableau 3.6 montre les rangs maximaux auxquels sont apparues les six variables importantes dans les différentes hiérarchies. Les variables 5 et 6 apparaissent tôt dans la hiérarchie en
utilisant 500 variables et plus tard en utilisant 1000 variables.
La figure 3.4 donne les courbes des taux d’erreur des modèles emboîtés. La forme des courbes
est la même pour tous les sores quel que soit le nombre de variables.
Le modèle incluant uniquement les 4 premières variables des hiérarchies réalise un taux
53
Chapitre 3
3.4. Application sur les données simulées
Mean test error : 500 features
Mean test error : 1000 features
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
10
10
1
10
2
10
3
0
0
10
10
1
10
2
10
3
Fig. 3.4: Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec tous les scores. Le panneau de gauche correspond à 500 variables et celui de droite
correspond à 1000 variables. La taille de l’échantillon est égale à 50.
d’erreur de l’ordre de 1%. Pour toutes les hiérarchies le taux d’erreur minimal est atteint en
utilisant 7 variables parmi les 500 (0.8%), et 6 variables parmi les 1000 (0.76%).
3.4.4
Stabilisation des scores par bootstrap
L’objectif des expériences menées dans ce paragraphe est de vérifier la stabilité des scores
utilisés vis-à-vis des données d’apprentissage.
Il est bien connu que la réestimation d’un modèle SVM en l’absence d’une observation non
vecteur support de l’échantillon d’apprentissage ne change rien au paramètres du modèle déjà
estimé en présence de toutes les observations disponibles. Néanmoins, nous allons mettre en
évidence l’instabilité des scores considérés suite à l’omission d’une observation, que ce soit vecteur
support ou pas.
La figure 3.5 montre que la hiérarchie issue du score Wr0 est considérablement affectée surtout
lorsque nous supprimons une observation vecteur support. Chaque graphique croise la hiérarchie
obtenue en présence de toutes les observations (l’axe des ordonnées) avec celle obtenue suite
à l’élimination d’une observation (l’axe des abscisses). Chaque panneau de la première ligne,
respectivement de la deuxième ligne, correspond à la suppression d’une observation vecteur
support, respectivement non vecteur support, choisie au hasard.
Comme attendu les scores des variables sont complètement perturbés quand une observation
vecteur support est omise. Cette perturbation est plus légère quand il s’agit d’une observation
54
Chapitre 3
3.4. Application sur les données simulées
W
0
r
: 50 observations & 200 variables
200
200
200
150
150
150
100
100
100
50
50
50
0
0
100
200
0
0
100
200
0
200
200
200
150
150
150
100
100
100
50
50
50
0
0
100
200
0
0
100
200
0
0
100
200
0
100
200
Fig. 3.5: Instabilité de la hiérarchie des variables suite à l’élimination d’une observation vecteur
support (Les trois panneaux de la première ligne) et d’une observation non vecteur support (Les
trois panneaux de la deuxième ligne).
non vecteur support. Cette instabilité est vérifiée pour tous les scores considérés dans ce mémoire
surtout lorsqu’il s’agit de la suppression d’une observation vecteur support.
Une idée naturelle consiste à estimer la densité de ces scores par bootstrap. La figure 3.6
montre les distributions estimées sur 500 échantillons bootstrap du score ∂Spb calculé pour les
neuf premières variables (les six premières sont importantes et les trois suivantes représentent
du bruit). La ligne verticale interrompue désigne la valeur moyenne de la distribution, et celle
continue représente la valeur du score calculée sur la base de toutes les observations disponibles.
Pour les six premières variables les plus importantes par définition, la distribution bootstrap
montre une grande variabilité et la valeur moyenne du score est significativement inférieure à
sa valeur observée. Pour les variables bruits la distribution est beaucoup moins variable et la
valeur moyenne du score est très proche de celle observée.
Le tableau 3.7 donne les six variables occupant les premières positions et fournit le rang
auquel apparaît la variable 6 dans la hiérarchie. Ces hiérarchies sont établies selon la valeur
moyenne du score calculée sur 500 échantillons bootstrap (l = 50 et p = 200).
En comparant les résultats des tableaux 3.4, 3.5 et 3.7, il ressort que l’utilisation de la valeur
moyenne par bootstrap au lieu de la valeur observée du score, améliore le classement des variables
importantes dans la hiérarchie.
55
Chapitre 3
3.5. Application sur les données réelles
(1)
(2)
(3)
60
60
60
40
40
40
20
20
20
0
1
2
(4)
3
0
1
2
(5)
3
0
60
60
60
40
40
40
20
20
20
0
1
2
(7)
3
0
1
2
(8)
3
0
60
60
60
40
40
40
20
20
20
0
1
2
3
0
1
2
3
0
1
2
(6)
3
1
2
(9)
3
1
2
3
∂Spb : 50 observations & 200 variables (500 bootstrap samples)
Fig. 3.6: Distribution bootstrap du score ∂Spb pour les 9 premières variables. La valeur moyenne
est représentée par la ligne verticale interrompue. La ligne verticale continue représente la valeur
observée en présence de toutes les observations.
3.5
Application sur les données réelles
Pour toutes les données réelles utilisées ici, nous ne disposons pas d’amples informations
biologiques sur les gènes déterminants dans l’explication de la maladie en question. Ainsi, l’interprétation des résultats obtenus par notre procédure de sélection de variables est d’aspect
purement statistique.
3.5.1
La démarche suivie
Cette section est consacrée à l’application de notre procédure sur les quatre jeux de données
réelles présentés dans le paragraphe 3.3.2. Pour Leukemia un échantillon test est aussi fourni ;
il sera utilisé pour la comparaison des performances des différents scores sur ce jeu de données.
Notons que les quatre jeux de données considérés sont linéairement séparables, nous utiliserons
donc des modèles SVM linéaires standards. Les taux d’erreur moyens, estimés par 50 partages
aléatoires stratifiés, enregistrés sur ces jeux de données en utilisant toutes les variables avec les
SVM linéaires sont : Colon : 0.17, Lymphoma : 0.06, Prostate : 0.075. Pour Leukemia, le taux
d’erreur estimé sur l’échantillon test est de l’ordre de 0.206.
Pour les quatre jeux de données nous avons appliqué la procédure décrite dans le tableau 3.3
56
Chapitre 3
3.5. Application sur les données réelles
F DS
RW 0
∆RWr
∆Spbr
Wr0
RWr0
Spb0r
∂W
∂RW
∂Spb
1
2
2
2
2
2
2
2
2
2
2
2
1
1
1
1
1
1
1
1
1
1
3
4
4
4
4
4
4
4
4
4
4
4
5
5
5
5
5
5
5
5
5
5
5
3
3
3
3
3
3
3
3
3
3
6 Rang de la sixième variable
122
8
123
8
22
8
123
8
123
8
22
8
123
8
123
8
123
8
123
8
Tab. 3.7: Rangs des six premières variables. Les hiérarchies sont établies selon la valeur moyenne
sur 500 échantillons bootstrap. p = 200 et l = 50.
moyennant quelques petites modifications concernant le calcul des scores, avec ou sans bootstrap,
et la façon d’estimer la performance des modèles de la suite emboîtée. Pour Leukemia, le taux
d’erreur est toutefois estimé sur l’échantillon test. Pour Colon, Lymphoma et Prostate, nous
avons essayé trois méthodes pour estimer le taux d’erreur : par 50 partages aléatoires stratifiés,
par 10 validations croisées et par leave-one-out. Nous avons choisi de retenir la première méthode6
vu qu’elle permet de sélectionner plus de variables que les deux autres. En plus elle fournit des
courbes d’erreur beaucoup plus lisses que celles rendues par validation croisée des courbes qui
sont plutôt en escalier.
3.5.2
Comparaison des résultats
La figure 3.7 montre l’évolution du taux d’erreur moyen estimé sur 50 partages aléatoires
stratifiés pour le jeu de données Colon. Les hiérarchies sont établies sur la base des scores moyens
calculés sur 100 échantillons bootstrap. Chaque courbe correspond à un score. Les courbes qui
paraissent similaires sont superposées. Les chiffres mis dans les légendes des graphiques désignent
le nombre optimal de variables sélectionnées par notre procédure.
Nous remarquons que notre approche de sélection réalise un taux d’erreur nul avec 7 scores
parmi les 10 utilisés. Le score F DS semble rendre le plus mauvais résultat.
Afin d’examiner les similarités entre les scores, nous avons calculé les coefficients de corrélation des rangs de Spearman entre les 10 scores. Le tableau 3.8 présente la matrice de corrélations
obtenue pour les 10 hiérarchies établies par bootstrap sur Colon.
À partir de l’examen de la matrice de corrélation, nous remarquons principalement une forte
6
Pour des raisons d’homogénéité des comparaisons, nous avons utilisé le même partage pour tous les scores
sur chaque jeu de données.
57
Chapitre 3
3.5. Application sur les données réelles
∂RW : 55
∂Spb : 17
0.5
0
r
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
10
10
0
0
10
2
∂W : 40
0
W : 40
0.5
FDS : 3
RW 0 : 55
RW r : 45
∆RW : 43
r
0.4
0.3
0.2
0.2
0.1
0.1
10
2
0
0.3
0
0
10
10
0.5
r
0.4
Spb : 44
r
∆Spb : 36
0.5
0
0
10
2
10
2
Fig. 3.7: Résultat sur Colon avec bootstrap : taux d’erreur moyen estimé par 50 partages
aléatoires stratifiés.
corrélation entre les rangs issus des scores RW 0 et ∂RW d’une part, et des scores Wr0 et ∂W
d’autre part. Les corrélations sont très proches de 1 malgré l’absence de parfaites équivalences
entre ces scores.
Le tableau 3.9 donne le nombre de variables nécessaires pour atteindre le taux d’erreur minimal avec et sans bootstrap. Pour des raisons d’accélération, notons que pour les jeux de données
Lymphoma et Prostate, nous avons construit les suites de modèles emboîtés en introduisant les
variables par paquet de dix. Une fois l’optimum localisé, nous avons affiné les résultats.
L’approche par bootstrap sélectionne plus de variables que celle sans bootstrap et les taux
d’erreur qu’elle réalise sont généralement moins optimistes. Les taux d’erreur ont été estimés
également par leave-one-out et par 10 validations croisées. Les résultats obtenus sont très proches
de ceux trouvés par 50 partages aléatoires stratifiés mais légèrement plus optimistes.
À ce niveau, deux questions semblent intéressantes à explorer : celle du nombre de variables
communes retenues par les différents scores et celle du nombre de variables retenues par le
même score calculé avec ou sans bootstrap. Le tableau 3.10 présente le nombre de variables
communément sélectionnées par chaque paire de scores pour Colon en procédant par bootstrap.
On retrouve sur la diagonale le nombre de variables sélectionnées par chaque score. Les résultats
de ce tableau confirment les fortes corrélations rencontrées au niveau du tableau 3.8. Les scores
RW 0 et ∂RW et les scores Wr0 et ∂W retiennent exactement les mêmes paquets variables.
Le tableau 3.11 donne le nombre de variables communément sélectionnées par chaque score
58
Chapitre 3
F DS
RW 0
∆RWr
∆Spbr
Wr0
RWr0
Spb0r
∂W
∂RW
∂Spb
3.5. Application sur les données réelles
F DS
1
RW 0
0.21
1
∆RWr
0.12
0.86
1
∆Spbr
0.17
0.49
0.39
1
Wr0 RWr0
0.31 0.31
0.74 0.31
0.49 0.14
0.69 0.63
1
0.81
1
Spb0r
0.23
0.5
0.36
0.45
0.57
0.5
1
∂W ∂RW
0.31 0.21
0.74 0.99
0.49 0.86
0.69 0.49
0.99 0.74
0.81 0.31
0.57
0.5
1
0.74
1
∂Spb
0.19
0.55
0.45
0.76
0.76
0.68
0.33
0.76
0.55
1
Tab. 3.8: Colon : matrice de corrélation des rangs de Spearman pour les 10 scores calculés par
100 échantillons bootstrap.
Colon
F DS
RW 0
∆RW r
∆Spbr
Wr0
RW 0r
Spb0r
∂W
∂RW
∂Spb
AB
0.117(3)
0(55)
0(43)
0.005(36)
0.005(40)
0(45)
0.013(44)
0.005(40)
0(55)
0.005(17)
SB
0.117(3)
0(25)
0(17)
0.063(384)
0(28)
0(17)
0.006(64)
0(28)
0(25)
0(23)
Leukemia
AB
SB
0.088(7) 0.058(133)
0.088(22) 0.088(15)
0.118(15)
0.058(3)
0.118(16) 0.058(13)
0.118(2)
0.118(48)
0.118(15)
0.058(3)
0.088(17) 0.058(13)
0.118(2)
0.118(48)
0.088(22) 0.088(15)
0.118(11) 0.058(13)
Lymphoma
AB
SB
0.034(88) 0.028(82)
0(44)
0(37)
0(111)
0(93)
0(54)
0(43)
0(66)
0(103)
0(108)
0(97)
0(50)
0(77)
0(65)
0(103)
0(44)
0(37)
0(83)
0(82)
Prostate
AB
0.034(195)
0.022(27)
0.02(40)
0.005(95)
0.024(42)
0.02(40)
0.007(53)
0.024(42)
0.022(27)
0.001(102)
SB
0.037(84)
0.007(860)
0.015(421)
0.004(102)
0.012(1034)
0.015(418)
0.006(79)
0.012(1030)
0.007(860)
0.002(27)
Tab. 3.9: Nombre de variables (mis entre parenthèses) nécessaires pour atteindre le taux d’erreur
minimal, Avec Bootstrap (AB) et Sans Bootstrap (SB).
lorsqu’il est calculé avec ou sans bootstrap. En joignant ces résultats à ceux exposé dans le
tableau 3.9, nous pouvons voir que presque pour tous les scores et pour tous les jeux de données,
les variables sélectionnées sans bootstrap sont aussi sélectionnées par bootstrap.
3.5.3
Biais de sélection
Nous considérons que les résultats obtenus dans le paragraphe précédent sur les jeux de
données Colon, Lymphoma et Prostate, sont optimistes et présentent donc un biais de sélection.
Ceci est dû principalement au fait que la hiérarchie des variables a été calculée à partir de toutes
les données disponibles (cf. Ambroise et MacLachlan [7], Reunanen et al. [79]). L’idée est donc
d’appliquer notre procédure de sélection dans une étape externe à la phase d’évaluation des
performances du modèle optimal retenu. Pour ce faire, nous réalisons une validation croisée de
la procédure décrite dans le tableau 3.3. Les données disponibles sont partitionnées en V = 10
59
Chapitre 3
F DS
RW 0
∆RWr
∆Spbr
Wr0
RWr0
Spb0r
∂W
∂RW
∂Spb
3.5. Application sur les données réelles
F DS
3
RW 0
1
55
∆RWr
2
38
43
∆Spbr
1
32
25
36
Wr0
1
40
37
27
40
RWr0
2
39
43
26
38
45
Spb0r
1
35
27
29
29
28
44
∂W
1
40
37
27
40
38
29
40
∂RW
1
55
38
32
40
39
35
40
55
∂Spb
2
15
16
14
15
16
15
15
15
17
Tab. 3.10: Comparaison des scores sur Colon : nombre de variables communes sélectionnées par
les différents scores calculés avec bootstrap.
F DS
RW 0
∆RWr
∆Spbr
Wr0
RWr0
Spb0r
∂W
∂RW
∂Spb
colon lymphoma leukemia Prostate
3
21
7
84
25
4
15
27
17
10
3
40
35
5
11
61
26
9
2
42
17
10
3
40
23
7
11
42
26
9
2
42
25
4
15
27
15
3
8
27
Tab. 3.11: Nombre de variables sélectionnées par un même score calculé avec ou sans bootstrap.
parts égales par stratification, chaque partie joue le rôle d’échantillon test et son complémentaire
est utilisé dans la procédure initiale du tableau 3.3. La procédure tenant compte du biais de
sélection est décrite dans le tableau 3.12.
Ainsi la hiérarchie des variables est calculée V fois en procédant par bootstrap et V modèles
optimaux avec leurs nombres de variables et leurs performances sont obtenus. Nous n’allons
employer ici que les scores d’ordre un car ils sont beaucoup moins coûteux en temps de clacul
comparativement aux autres scores. Le nombre moyen de variables et le taux d’erreur minimal
moyen sont présentés dans le tableau 3.13.
En confrontant les résultats du tableau 3.13 à leurs correspondants obtenus dans le tableau
3.9, nous remarquons que les performances des modèles sont systématiquement dégradées. La
dégradation est d’autant plus significative que le jeu de données comporte moins de variables.
Les taux d’erreurs sont plus réalistes que les résultats obtenus sans validation croisée. Cependant, les gènes sélectionnés et leur nombre sont différents et très variables pour chaque échantillon de validation croisée. Ces taux sont donc des moyennes de performances de modèles très
60
Chapitre 3
3.6. Simulations dans le cas non-linéaire
Soit D le jeu de données, et B le nombre d’échantillons bootstrap.
Partitionner D avec stratification, D1 , ..., D10 .
Soit D−j = D − Dj .
Pour j = 1, . . . , 10
Score(D−j ,B) et conserver la hiérarchie X (1) , ..., X (p)
Pour k = 1,¡. . . , p
¢
M k = f X (1) , ..., X (k)
Erk = T estRS (M k , D−j )
koptj = Argmink {Erk }
erj = Erreur moyenne de M koptj sur Dj .
P10
1
Calcul de er
¯ = 10
j=1 erj .
Tab. 3.12: 10-validations croisées de la procédure de sélection de variables décrite dans le tableau
3.3.
Score/Données
Colon
Lymphoma
Prostate
∂W
0.233 (35.1) 0.051 (86.5) 0.054 (756.6)
∂RW
0.214 (43.3) 0.042 (71) 0.053 (573.3)
∂Spb
0.197 (31.8) 0.073 (70.5) 0.052 (95.5)
Tab. 3.13: Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées est entre
parenthèses.
différents a priori les uns des autres n’utilisant pas les mêmes sous-ensembles de variables. La
figure 3.8 fournit les boxplots du taux d’erreur et du nombre de variables réalisés par les trois
scores d’ordre un sur les trois jeux de données.
3.6
Simulations dans le cas non-linéaire
Nous nous proposons maintenant d’évaluer la capacité des différents scores à retrouver les
variables importantes lorsqu’il s’agit de données non-linéairement séparables. À cette fin, nous
nous sommes limités à quelques essais d’hiérarchisation menés sur des données synthétiques
largement répandues dans la littérature. Nous commençons par donner un descriptif de ces
données puis nous exposons les résultats auxquels nous sommes parvenus.
3.6.1
Descriptif des données
Ces données ont été introduites par Weston et al. [99]. Dans le cas de classification binaire
avec des données non-linéairement séparables, les deux premières variables déterminent entièrement le modèle, les autres peuvent être assimilées à du bruit. Les deux classes sont équiprobables ;
Pr (y = 1) = Pr (y = −1) = 12 .
61
Chapitre 3
3.6. Simulations dans le cas non-linéaire
∂W
∂RW
∂W
∂Spb
∂RW
∂W
∂Spb
∂RW
∂Spb
0.5
0.25
0.2
Error
0.4
0.2
0.15
0.3
0.15
0.1
0.2
0.1
0.1
0.05
0
0
0.05
0
Colon
Lymphoma
100
Prostate
3000
200
2500
# of features
80
150
2000
60
1500
100
1000
40
500
50
20
0
Fig. 3.8: Variation du taux d’erreur et du nombre de variables au cours des 10 validations
croisées.
x 1
x 2
140
180
160
120
140
100
Fréquence
Fréquence
120
80
60
100
80
60
40
40
20
20
0
-4
-2
0
2
4
0
-2
-1
0
1
2
Fig. 3.9: Estimation des distributions des deux premières variables des données simulées nonlinéaires ; les deux variables qui déterminent le modèle. 5000 observations sont utilisées.
• Pour y = −1, les deux premières variables {x1 , x2 } sont tirées d’une façon équiprobable
© ª
selon deux gaussiennes, N (µ1 , I2 ) et N (µ2 , I2 ) de moyennes respectives7 µ1 = 34 , 3 et
©
ª
µ2 = − 34 , −3 .
• Pour y = 1, les deux premières variables {x1 , x2 } sont tirées d’une façon équiprobable
selon deux gaussiennes, N (µ1 , I2 ) et N (µ2 , I2 ) de moyennes respectives µ1 = {3, −3} et
µ2 = {−3, 3} .
• Les autres variables constituent du bruit, xi ∼ N (0, 20), i = 3, . . . , p.
Comme pour les données linéaires, on procède au préalable à une normalisation des données
en centrant et réduisant toutes les variables. La figure 3.9 fournit une estimation par histogramme
de la densité des deux premières variables importantes par construction.
7
I2 est la matrice identité d’ordre 2.
62
Chapitre 3
3.6. Simulations dans le cas non-linéaire
Ces données sont parfaitement séparables par un hyperplan dans l’espace induit par un noyau
polynomial de degré 2. D’autres auteurs comme Rakotomamonjy [77] ont par contre utilisé un
noyau gaussien de paramètre σ = 3.
3.6.2
Résultats et discussion
Nous cherchons à vérifier la capacité des scores SVM à bien classer les deux premières variables importantes parmi un grand nombre de variables bruits. Nous fixons la taille de l’échantillon à l = 80 et nous faisons varier le nombre de variables p de 50, 100, 200 et 300. Les variables
sont rangées par ordre décroissant d’importance selon la valeur moyenne de chaque score calculée sur 100 échantillons bootstrap. Compte tenu des équivalences prouvées dans le paragraphe
3.2.6, nous ne considérons pas tous les scores SVM.
Chaque ligne du tableau 3.14 donne les rangs auxquels sont apparues dans la hiérarchie une
puis les deux variables importantes.
Score/# de variables
F DS
W0
RW 0
Wr0
RWr0
Spb0r
∆RWr
∆Spbr
∂W
∂RW
∂Spb
50
20
44
1
2
2
4
1
2
1
2
1
2
2
3
1
2
1
2
1
2
1
2
100
28
71
1
3
3
17
2
4
14
23
1
2
18
28
1
2
1
4
1
4
1
2
200
132
198
1
33
1
65
1
41
49
86
1
13
72
179
1
22
1
35
1
37
1
22
300
30
161
80
159
45
86
92
170
214
221
8
174
219
297
15
181
30
161
73
179
2
180
Tab. 3.14: Pour 50, 100, 200 et 300 variables, chaque ligne donne les rangs auxquels sont
apparues dans la hiérarchie une puis les deux variables importantes. La taille de l’échantillon
est fixée à 80.
La médiocrité du score de discrimination de Fisher F DS n’est pas surprenante puisque,
63
Chapitre 3
3.6. Simulations dans le cas non-linéaire
par définition, il ne peut détecter que la dépendance linéaire. Pour les scores dérivés des SVM,
nous remarquons que les deux variables importantes apparaissent de plus en plus tard dans
la hiérarchie en augmentant le nombre de variables. En outre, les scores Spb0r , ∆Spbr et ∂Spb
semblent dominer légèrement les autres.
80 observations
Taux d'erreur
50 variables
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
10
10
1
10
2
0
0
10
Taux d'erreur
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
10
1
10
10
1
10
2
300 variables
200 variables
0.6
0.1
0
10
100 variables
2
10
3
0.1
0
10
FDS
∂W
∂RW
∂Spb
10
1
10
2
10
3
Fig. 3.10: Évolution du taux d’erreur des modèles emboîtés obtenus en appliquant notre procédure avec les scores SVM d’ordre un et le score FDS. On fait varier le nombre de variables d’un
panneau à un autre. La taille de l’échantillon est fixée à 80.
La figure 3.10 donne une idée sur l’évolution du taux d’erreur des modèles emboîtés calculé
sur un échantillon test dix fois plus grand que celui d’apprentissage. Le nombre d’observations est
fixé à l = 80 et nous faisons varier le nombre de variables p de 50, 100, 200 et 300. Notre procédure
est incapable d’identifier le modèle optimal en utilisant le score F DS quel que soit le nombre de
nombre de variables. Les scores SVM s’avèrent plus performants et plus particulièrement celui
basé sur le critère Spb.
En comparant ces résultats à ceux donnés dans le tableau 3.6, nous pouvons conclure que la
dégradation des performances de ces scores en fonction du nombre de variables est d’autant plus
rapide dans le cas de dépendance non-linéaire. Cette dégradation peut être expliquée par les
renseignements apportés par le paragraphe 3.2.6. En effet, le plongement des observations dans
l’espace transformé entraîne une forte combinaison des variables explicatives (ayant la forme de
l’expression (3.11) pour un noyau polynomial). Par conséquent, l’importance de toute variable
de l’espace de départ ne pourra jamais être mesurée individuellement dans l’espace transformé,
quelle que soit la manière d’évaluation de la contribution de cette variable aux trois critères W,
RW et Spb.
64
Chapitre 3
3.7
3.7. Conclusion
Conclusion
Nous avons proposé un algorithme de sélection de variables pour la classification binaire en
grande dimension. Notre procédure est du type stepwise et elle est basée sur différents scores
dérivés des SVM.
En s’inspirant du travail de Guyon et al. [45], nous avons complété la liste des scores introduits
par Rakotomamonjy [77]. Afin de remédier à l’instabilité de ces scores vis-à-vis des données, nous
avons proposé de les estimer par bootstrap comme l’a fait Breiman dans [17] pour stabiliser les
prédicteurs. Une fois la hiérarchie établie, nous construisons une suite croissante de modèles
emboîtés en introduisant les variables séquentiellement dans l’ordre décroissant d’importance.
Contrairement à d’autres procédures de sélection de variables, la notre permet de déterminer la
taille exacte du paquet optimal. Le choix du nombre de variables à retenir dans le modèle a été
souvent un problème bien complexe.
D’un point de vue théorique nous avons établi des équivalences entre les hiérarchies fournies
par certains scores dans le cas linéaire ainsi que dans le cas non-linéaire en utilisant des noyaux
polynomiaux. Une explication de l’effet du réapprentissage sur les scores d’ordre zéro et par
différence a été également donnée.
D’un point de vue pratique les résultats obtenus dans le cas linéaire sur des données simulées
et réelles de biopuces sont très satisfaisants pour tous les scores, sauf pour Spb0 . De fortes similarités entre les scores RW 0 et ∂RW et les scores Wr0 et ∂W sont mises en évidence. L’étude
comparative intensive menée sur les scores SVM montre une légère différence entre les paquets
des variables choisies. Les scores d’ordre un ont l’avantage majeur d’être beaucoup moins coûteux en temps de calcul. Par ailleurs, les résultats obtenus sur des données simulées non-linéaires
sont nettement moins satisfaisants en présence d’un grand nombre de variables et de peu d’observations. Néanmoins, nous pouvons affirmer qu’en dimensions raisonnables, les scores dérivés
des SVM constituent un moyen efficace pour retrouver les variables importantes dans le cas de
dépendance non-linéaire. Un contexte là où nous ne disposons pas de suffisamment d’instruments
statistiques pour accomplir une telle tâche avec succès.
Il pourrait être intéressant de comparer ces scores sur des données dont on connait les
propriétés biologiques pour pouvoir en déterminer le plus performant. Dans l’attente d’une
telle occasion, nous nous proposons de comparer notre approche à d’autres méthodes récentes
de sélection de variables. Cette comparaison fera l’objet du prochain chapitre.
65
66
Chapitre 4
Comparaison de méthodes de sélection
de variables pour la classification
binaire en grande dimension
4.1
4.1.1
Introduction
Généralités
Le problème de sélection de variables est crucial dans le domaine de l’apprentissage statistique
et plus particulièrement dans le cadre de la classification supervisée. Les méthodes de sélection
consistent à retenir un sous-ensemble de m variables parmi les p >> m variables disponibles.
Une méthode de sélection de variables comprend généralement les trois composantes suivantes :
• Un algorithme de recherche permettant d’explorer l’espace des combinaisons de variables.
• Un critère d’évaluation pour mesurer la qualité d’un sous-ensemble de variables.
• Une condition d’arrêt pour stopper la procédure de recherche.
Selon Pudil et al. [75], la sélection de variables est vue comme un problème de recherche d’un
sous-ensemble optimal de caractéristiques par rapport au critère de qualité utilisé. Ce problème
est mal posé dans le sens qu’il peut y avoir plusieurs sous-ensembles de même taille et de même
qualité. De plus, la non-monotonie du problème de sélection de variable est à l’origine de sa
complexité. Cette propriété se traduit par le fait que “le meilleur” sous-ensemble de m variables
ne contient pas forcément “le meilleur” sous-ensemble de m0 variables, (m0 < m) .
Nous nous intéressons ici à la réduction de la dimension de l’espace des variables explicatives,
Chapitre 4
4.1. Introduction
sans pour autant transformer ses composantes comme dans les méthodes d’analyse factorielle.
Dans ce contexte, les méthodes de sélection de variables diffèrent selon la nature de la solution
trouvée (optimale ou sous-optimale), selon la nature de l’algorithme utilisé (déterministe ou
stochastique) et selon la nature du critère d’évaluation adopté (filter ou wrapper).
Kohavi et al. [57] et Guyon et al. [44] ont réparti les méthodes existantes en trois grandes
catégories, selon le type du critère de sélection et la façon dont il est pris en compte dans la
procédure de classification. La première catégorie dite ”filter” (ex : critère de discrimination
de Fisher), évalue l’importance des variables en utilisant un critère statistique indépendant a
priori du classifieur. La deuxième catégorie dite ”wrapper” (ex : notre procédure introduite dans
le chapitre précédent et l’algorithme SVM-RFE, Guyon et al. [45]), intègre les performances
prédictives du classifieur dans la procédure de recherche et d’évaluation de la qualité des sousensembles de variables. Les méthodes wrapper utilisent certaines propriétés du prédicteur utilisé.
Quant à la troisième catégorie dite ”embedded” (ex : l’approche GLMpath de Park et al. [66],
zero-norm-SVM de Weston et al. [99], 1-norm-SVM par Zhu et al. [101], les approches introduites
par Neumann et al. [65] et par Chapelle et al. [23],...etc.), elle combine la sélection de variables
et l’estimation du modèle en une seule tâche.
John et al. [53] prétendent que l’approche wrapper est plus appropriée puisqu’elle utilise le
taux de reconnaissance de la règle de classification comme critère d’évaluation de la pertinence
du sous-ensemble de variables.
La méthode de recherche exhaustive du sous-ensemble de variables optimal est irréaliste
même pour un nombre de variables p assez modéré. Quand le nombre de variables désiré m
n’est pas fixé au préalable, le nombre total des sous-ensembles en concurrence est donné par
2p − 1. Même si la valeur de m est décidée à l’avance, le nombre de sous-ensembles à évaluer est
égal à
p!
(p−m)!m!
ce qui trop élevé pour effectuer une recherche exhaustive. La seule alternative
non-exhaustive permettant de trouver la solution optimale un peu plus rapidement est l’algorithme Branch-and-Bound (cf. Narenda et al. [64]). L’inconvénient majeur de cet algorithme
c’est qu’il exige la monotonie du critère d’évaluation employé. Cela veut dire que l’ajout d’une
nouvelle variable au sous-ensemble courant ne doit pas décroître la valeur actuelle du critère.
Malheureusement, cette contrainte n’est pas satisfaite par la plupart des critères utilisés dans
le contexte de sélection de variables. Malgré les différentes améliorations introduites à cet algorithme (cf. Yu et al. [100] et Somol et al. [83]), il reste inapplicable en grande dimension vue sa
complexité prohibitive.
Afin de contourner le problème de l’explosion combinatoire, il y a eu recours à des stratégies
67
Chapitre 4
4.1. Introduction
de recherche sous-optimale réalisant une introduction séquentielle des variables de différentes
manières. Ces heuristiques sont basées sur des parcours séquentiels et elles consistent à rajouter
ou/et à éliminer itérativement des variables. Ces méthodes sont connues pour leur simplicité de
mise en œuvre et leur rapidité. Ces heuristiques existent dans les deux versions déterministe et
stochastique. Les méthodes stochastiques, telles que les algorithmes génétiques (cf. Raymer et
al. [78]), sont comparables en performance mais très coûteuses en temps de calcul.
4.1.2
Méthodes séquentielles standards
Les algorithmes de sélection séquentielle de variables sont des heuristiques déterministes
basées sur des parcours séquentiels pour la recherche du meilleur sous-ensemble de variables.
Plusieurs travaux se sont intéressés au développement et à l’amélioration de ces méthodes. Dans
les algorithmes séquentiels, il est possible de partir d’un ensemble de variables vide et d’ajouter
(forward) des variables, les plus significatives, à celles déjà sélectionnées (ex : SFS (cf. Kittler
[55] et Devijver et al. [28]), GSFS et GSFS(r) (cf. Kittler [55])), ou de partir de l’ensemble
de toutes les variables et d’en éliminer (backward) les moins significatives vis-à-vis du critère
d’évaluation utilisé (remplacer la lettre F par la lettre B dans les acronymes précédents). Cette
recherche séquentielle est répétée jusqu’à satisfaire la condition d’arrêt de l’algorithme. D’autres
procédures de recherche alternant les deux stratégies forward et backward ont été également
proposées (ex : PTA(l,r) (cf. Kittler [55]), GPTA(l,r) (cf. Devijver et al. [28]), (SFFS ) (cf.
Pudil et al. [75]) et (ASFFS (r max , b, d)) (cf. Somol et al. [84])). Des versions backward de ces
algorithmes sont aussi disponibles.
Les résultats des études comparatives excessives menées durant les années précédentes (cf.
Ferri et al. [34], Jain et al. [52], Kudo et al. [59] et Acuña [3]), ont mis en évidence l’efficacité
des approches flottantes même dans des problèmes de moyennes dimensions.
Il est aussi à signaler que l’algorithme SFFS assure le bon arbitrage entre le temps de calcul
et la qualité du sous-ensemble de variables sélectionnées. Somol et al. [84], Somol et al. [76]
et Pernkopf [67] ajoutent que l’amélioration apportée par la version adaptative est marginale
comparativement à la méthode flottante simple. De plus, cette amélioration est accomplie au
prix d’une complexité accrue.
Finalement ces algorithmes sont généralement appliqués à des problèmes de taille réduite
ou moyenne, c’est-à-dire que le nombre de variables de départ est inférieur à quelques dizaines.
Pour un nombre supérieur il semble que peu d’algorithmes soient efficaces.
Nous avons commencé ce travail par tester l’efficacité de la procédure SFFS sur les données
68
Chapitre 4
4.1. Introduction
simulées. Nous avons fini par l’abandonner en raison de sa forte dépendance de l’ordre des
variables dans les données d’origine. En effet, une simple permutation des variables change
complètement le résultat rendu par cette procédure.
4.1.3
Les méthodes choisies
Ce bref survol des différentes méthodes de sélection d’attributs montre que l’approche “stepwise”, d’introduction séquentielle de variables est la technique la plus courante dans ce contexte.
Elle a été utilisée avec les modèles linéaires, la régression logistique et l’analyse discriminante.
Pour des modèles non-paramétriques, peu d’outils permettent d’établir une sélection. Les
arbres de décision (CART, Breiman et al. [19]) et les Forêts Aléatoires (FA, Breiman [18])
offrent une possibilité d’établir une hiérarchie des variables explicatives très liée à la structure
du modèle. Plus récemment Guyon et al. [45] et Rakotomamonjy [77] ont suggéré des scores
pour chaque variable explicative utilisée dans un modèle de type machine à vecteurs supports,
permettant ainsi d’établir une hiérarchie des variables.
Une fois une hiérarchie des variables obtenue, il est nécessaire de choisir celles à garder dans
le modèle. En se basant sur un score calculé à partir des SVM, Guyon et al. [45] ont proposé un
algorithme d’élimination récursive des variables, nommé SVM-RFE. Ben Ishak et al. [12] ont mis
au point une procédure du type stepwise, plus fine que la précédente, et se basant sur différents
scores estimés par bootstrap.
Récemment Park et al. [66] ont abordé la sélection de variables par une approche originale consistant à introduire une pénalité dans le critère d’optimisation utilisé dans la méthode
d’estimation des paramètres d’un modèle linéaire. C’est le principe de base de la technique
“LARS” (Least Angle Regression1 , Efron et al. [32]) en régression pour le critère des moindres
carrées, mais aussi de son équivalent pour les modèles linéaires généralisés pénalisant le critère
de vraisemblance, technique dite GLMpath.
Ici nous comparons trois approches différentes (SVM, FA, GLMpath) pour parvenir au même
objectif : évaluer la capacité de chaque méthode à établir une “bonne” hiérarchie pour les
variables explicatives et d’en sélectionner les essentielles pour le modèle. Les comparaisons seront
effectuées d’abord sur les données simulées linéaires, puis sur les données réelles utilisées dans
le chapitre précédent.
Pour les SVM, Nous utiliserons ici deux procédures de sélection de variables basées sur les
1
La lettre“S” qui apparaît dans l’abréviation fait allusion aux méthodes “Lasso” de Tibshirani [88] et “Stagewise” qui sont des cas particuliers de “LARS”.
69
Chapitre 4
4.1. Introduction
hiérarchies établies par les scores définis dans la section 3.2.
• La première utilise l’algorithme SVM-RFE employé par Guyon et al. [45] et par Rakotomamonjy [77] et décrit dans le tableau 4.1. Cet algorithme a l’avantage d’être rapide
puisqu’il élimine la moitié des variables à chaque étape. Par contre, le score ∆W est réestimé à chaque étape. Le modèle conservé est celui pour lequel le taux d’erreur estimé par
leave-one-out ou sur 100 échantillons tests stratifiés est minimum.
Tant qu’il reste plus que 100 variables :
Estimer le modèle SVM et ordonner les variables selon le score ||w||2 calculé par différence .
Estimer le taux d’erreur du modèle actuel sur 100 échantillons tests stratifiés.
Éliminer la moitié des variables les moins importantes.
Pour les 100 variables restantes, les éliminer une par une comme précédemment.
Tab. 4.1: SVM-RFE : Élimination récursive des variables.
• La deuxième procédure de sélection de variables a été introduite par Ghattas et al. [41]
en régression et par Poggi et al. [73] dans un contexte similaire et reprise par Ben Ishak
et al. [12] en classification par les SVM. Cette procédure est décrite dans le tableau 3.3.
Nous conservons pour les comparaisons faites ultérieurement les trois scores à l’ordre un :
∂W , ∂RW et ∂Spb. En plus de leur fiabilité, ces scores ont l’avantage majeur d’être faciles à
calculer. Pour des données disposant d’un grand nombre de variables cette procédure peut être
accélérée en introduisant les variables par paquets de taille croissante, avec une croissance très
faible en début de procédure, et de plus en plus rapide au fur et à mesure.
Notre procédure est plus fine que SVM-RFE, et calcule la hiérarchie des variables par bootstrap une seule fois avant l’introduction séquentielle. De plus, Svetnik et al. [86] ont montré que
le fait de recalculer la hiérarchie à chaque étape après élimination de sous-ensembles de variables
fait introduire un fort biais dans le calcul de leurs importances.
Nous avons programmé les différentes méthodes sous MATLAB et sous R en nous appuyant
sur quelques librairies existantes (cf. Canu et al. [20]).
Les premières sections introduisent les deux approches FA et GLMpath. La section suivante
présentera les résultats des comparaisons.
70
Chapitre 4
4.2
4.2. Sélection basée sur les forêts aléatoires
Sélection basée sur les forêts aléatoires
Les forêts aléatoires (FA) combinent un grand nombre K d’arbres de décisions binaires
construits sur des échantillons bootstrap de l’échantillon d’apprentissage. Ces techniques d’apprentissage par agrégation de modèles sont populaires et sont utilisées dans des applications
provenant de domaines très variés. Les particularités des FA sont les suivantes :
• Dans la construction des arbres, à chaque noeud un nombre faible de variables est tiré au
hasard et la recherche de la meilleure règle de partage est faite sur ce sous ensemble de
variables.
• Les arbres construits sur chaque échantillon bootstrap ne sont pas optimisés, en particulier
ils sont maximaux et non élagués.
• Pour chaque arbre, la partie de l’échantillon d’apprentissage non utilisée pour la construction de l’arbre, dite “out of bag sample” (OOB), sert à l’évaluation de l’importance des
variables.
Notons que deux versions des FA existent : l’une dite “Random Input” qui utilise une seule
variable pour chaque règles de décision, et l’autre dite “Random Features” qui utilise une combinaison linéaire des variables sélectionnées à chaque noeud, avec des coefficients tirés aussi au
hasard. Les bonnes performances des FA s’expliquent par deux propriétés essentielles : la bonne
performance des arbres individuels (qui ont un biais très faible mais une forte variance), et
la faible corrélation entre les arbres de la forêt. La corrélation entre arbres est définie comme
celle de leurs prévisions sur les échantillons OOB. Le fait qu’un faible nombre de variables soit
utilisé à chaque noeud des arbres construits, permet de réduire considérablement la complexité
algorithmique des FA.
4.2.1
Hiérarchie des variables
Les forêts aléatoires fournissent un moyen original pour le calcul d’un indice d’importance
pour les variables. La procédure utilisée est décrite dans le tableau 4.2. L’indice d’importance
d’une variable correspond à la diminution en moyenne de la performance d’un arbre de la forêt
quand on perturbe aléatoirement les valeurs observées pour cette variable dans l’échantillon
OOB. Cet indice peut aussi être basé sur la diminution moyenne d’un autre critère, comme par
exemple le critère de Gini utilisé dans la construction des arbres.
Les forêts aléatoires dépendent de trois paramètres : le nombre d’arbres, le nombre de variables testées à chaque noeud d’un arbre et le nombre d’observations minimal dans les feuilles
71
Chapitre 4
4.2. Sélection basée sur les forêts aléatoires
Initialiser Ni = 0, Mi = 0 et Mij = 0, pour i = 1, . . . , l et j = 1, . . . , p
Ni = Nombre de fois où l’observation i apparaît dans un échantillon OOB.
Mi = Nombre de fois où l’observation i apparaît dans un échantillon OOB, et est mal classée
Mij = Nombre de fois où l’observation i apparaît dans un échantillon OOB, et est mal classée
après permutation des valeurs de la variable j dans OOB.
Pour chaque variable j = 1, . . . , p
Pour chaque arbre de la forêt k = 1, . . . , K
Si l’observation i est dans OOBk , Ni = Ni + 1
Si l’observation i est dans OOBk et est mal classée, Mi = Mi + 1
Permuter aléatoirement les valeurs de la variable j dans OOBk
Si l’observation i est dans OOBk et est mal classée après permutation, Mij = Mij + 1
P
L’importance de la variable j est : 1l li=1 Zi (j) où Zi (j) = (Mij − Mi )/Ni .
Tab. 4.2: Importance des variables dans les forêts aléatoires. OOBk est constitué des observations de l’échantillon d’apprentissage qui ne sont pas utilisées dans l’arbre k de la forêt.
des arbres. Nous avons utilisé des résultats de Diáz-Uriarte [29] et réalisé quelques simulations
préalables afin de choisir un réglage optimal pour ces trois paramètres.
• Dans nos expériences 200 arbres ont été construits pour chaque forêt. Au delà, le gain en
performances dans nos simulations était négligeable.
• Le nombre de variables testées pour chaque nœud d’un arbre est égal à
√
p. Cette valeur
suggérée par Breiman [18] en classification, a été confirmée par plusieurs travaux (Liaw et
Wiener [60], Diáz-Uriarte [29]) qui ont montré son optimalité en terme de performance des
forêts sur les échantillons OOB. Une forte diminution de ce paramètre réduit les chances
que des variables importantes soient sélectionnées dans les arbres individuels, et dégradent
les performances des forêts.
• Le nombre d’observations minimum par feuille a été fixé à cinq. La réduction à un de
cette valeur n’a pratiquement aucun effet sur l’amélioration des taux d’erreurs des forêts
et augmente légèrement le temps de calcul.
D’autre part, nous avons pu constater aussi que l’importance des variables dans les forêts
aléatoires est :
• insensible à la nature du rééchantillonnage utilisé (échantillon bootstrap avec ou sans
remise).
• stable en présence de variables explicatives corrélées.
• invariante vis-à-vis de la normalisation (par l’écart type des Zi (j) calculée dans le tableau
4.2)
• stable vis-à-vis de faibles perturbations des données. Il est donc inutile de la calculer par
bootstrap.
72
Chapitre 4
4.2.2
4.3. Sélection basée sur les modèles linéaires généralisés
Sélection de modèle
Nous avons utilisé la procédure séquentielle décrite dans le tableau 3.3 du chapitre précédent
en partant de la hiérarchie des variables calculées sur toutes les données sans bootstrap. Notons
que l’avantage des forêts aléatoires dans ce contexte est la possibilité de les utiliser aussi en
discrimination multiclasse et en régression, ce qui n’est pas le cas des procédures basées sur
les SVM. L’inconvénient majeur est le temps de calcul important, essentiellement quand on
dispose de plusieurs milliers de variables explicatives. Notons que dans ce contexte Diáz-Uriarte
[29] a utilisé une procédure séquentielle descendante où les variables les moins importantes sont
éliminées successivement, et le modèle optimal retenu est celui qui minimise l’erreur estimée
sur les échantillons OOB. Les auteurs ont signalé que leur procédure a un double biais : elle a
tendance à sélectionner très peu de gènes, et les erreurs calculées sur les échantillons OOB sont
sous-estimées.
4.3
Sélection basée sur les modèles linéaires généralisés
Les modèles linéaires généralisés (GLM), très largement utilisés depuis leur introduction en
statistique (McCullagh et al. [62]), sont définis par :
g(µ) = β 0 + β 1 x1 + ... + β p xp
où µ = E(Y ) = P [Y = 1] est l’espérance de la variable Y ∈ {0, 1}, et g est une fonction dite
de lien. Le cas le plus connu que nous utiliserons ici est celui qui correspond à g(µ) =
µ
,
1−µ
i.e.
au modèle logistique. L’estimation des paramètres est obtenue par maximum de vraisemblance.
4.3.1
Régularisation de type L1 pour le choix du modèle
Park et al. [66] ont suggéré l’estimation des paramètres β k du modèle, sous contrainte de
type L1 en pénalisant la vraisemblance :
b
β(λ)
= argminβ {−logL(x; β) + λ kβk1 }
où λ > 0 est un paramètre de régularisation, et β = (β 0 , ..., β p ) est le vecteur de paramètres à
b
estimer. La suite β(λ),
0 < λ < ∞ est appelée le path.
Pour une valeur infinie de λ tous les coefficients sont nuls. L’augmentation de la valeur de λ
73
Chapitre 4
4.3. Sélection basée sur les modèles linéaires généralisés
contraint plus de coefficients à devenir négligeables, voire nuls. Un algorithme dit predictorb
corrector est utilisé pour estimer la suite β(λ)
pour différentes valeurs de λ. Cette estimation
b
se fait en trois étapes. Park et al. [66] ont démontré que les valeurs β(λ)
sont constantes par
morceaux en λ et il suffit donc de repérer les seuils de changement pour λ. Ils ont procédé par
itération de quatre étapes :
À chaque étape k, on dispose d’une valeur pour λ, notée λk , et des valeurs β kj associées.
1) Calcul du pas nécessaire pour atteindre λk+1 .
2) Étape “predictor” : calcul d’une approximation linéaire β k+ , de βk+1 .
3) Étape “corrector” : calcul par optimisation convexe de βk+1 , utilisant comme valeur
initiale βk+ .
4) Tester si l’ensemble des variables actives (de coefficient non nul), doit être modifié.
À chaque itération l’ensemble des variables actives est modifié et on dispose d’une valeur
du paramètre de régularisation λk et du modèle qui lui est associé (basé sur l’ensemble des
variables actives correspondantes). Le choix du meilleur modèle, donc de la valeur optimale de
λ, peut être obtenu par validation croisée, en optimisant soit le taux d’erreur de prévision, soit
la vraisemblance. En fin de parcours on ne peut retrouver plus de variables que d’observations.
Cette technique est mise en œuvre dans la librairie GLMpath du logiciel libre R.
4.3.2
Hiérarchie des variables
Contrairement aux approches décrites dans les sections précédentes, GLMpath ne propose
pas un moyen direct pour calculer un score pour chacune des variables. On dispose uniquement
d’un ensemble optimal de variables, en nombre plus faible que le nombre d’observations. Pour
établir une hiérarchie des variables nous avons choisi d’utiliser B échantillons bootstrap de
l’échantillon d’apprentissage S. Sur chaque échantillon un modèle optimal est recherché, et la
valeur des coefficients pour toutes les variables est conservée (celles qui ne sont pas actives ont
un coefficient nul). L’ensemble des variables actives est différent pour les échantillons bootstrap,
et varie selon les données de manière considérable. Nous avons calculé pour chaque variable j la
B
valeur moyenne de son coefficient sur B = 500 échantillons bootstrap, notée β̂ j . Les variables
B
sont ensuite ordonnées selon la valeur absolue de β̂ j .
74
Chapitre 4
4.4
4.4. Comparaison des méthodes
Comparaison des méthodes
Pour comparer les méthodes décrites ci-dessus avec celles du chapitre précédent nous avons
utilisé les données synthétiques et de biopuces décrites dans ce chapitre. Pour les simulations,
l’objectif est de montrer la capacité de chacune des trois méthodes à retrouver d’une part le
bon ordre des variables, et d’autre part le “bon modèle”, au sens du bon nombre de variables
à conserver. L’effet de la taille de l’échantillon et du nombre de variables est analysé. Pour les
données réelles nous n’avons pu que nous limiter à comparer les hiérarchies et les performances
des trois méthodes.
Nous avons retenu à titre de comparaison le critère de discrimination de Fisher F DS introduit
à la section 3.4 du chapitre précédent comme un score d’importance supplémentaire.
4.4.1
Résultats pour les données simulées
Dans un premier temps, nous vérifions la capacité des différentes méthodes à retrouver les
variables importantes en présence de bruit en modifiant la taille de l’échantillon et le nombre de
variables. Dans un deuxième temps, nous évaluons la capacité de chacune de ces trois méthodes
à repérer un sous-ensemble optimal de variables.
Hiérarchie des variables
Nous fixons le nombre de variables à p = 200 et nous faisons varier la taille de l’échantillon
l de 50, 100 et 200. Les hiérarchies obtenues par les quatre premiers scores (F DS, ∂W , ∂RW ,
∂Spb) sont calculées sur la base de 200 échantillons bootstrap. Pour GLMpath nous avons utilisé
500 échantillons bootstrap pour garantir la stabilité des estimations des coefficients.
Les résultats sont présentés dans le tableau 4.3. Pour chaque taille d’échantillon utilisée, nous
donnons les rangs auxquels sont apparues dans la hiérarchie quatre puis cinq puis les six variables
importantes. Nous remarquons clairement que les rangs des variables importantes s’améliorent en
augmentant la taille de l’échantillon. Cette caractéristique semble moins vraie pour la hiérarchie
rendue par les forêts aléatoires.
Dans le tableau 4.4 nous fixons la taille de l’échantillon à l = 50 et le nombre de variables p à
500 puis à 1000. En augmentant le nombre de variables, aucune méthode n’arrive à bien classer
plus de quatre variables parmi les six importantes. Deux variables parmi les six importantes
apparaissent d’autant plus tard dans la hiérarchie que le nombre de variables est plus élevé. Dans
ce cas le modèle linéaire généralisé arrive à retrouver les variables importantes plus facilement
75
Chapitre 4
4.4. Comparaison des méthodes
l/Score F DS
4
6
50
13
4
5
100
6
4
5
200
6
∂W
4
5
17
4
5
7
4
5
6
∂RW
4
5
16
4
5
6
4
5
6
∂Spb
4
5
12
4
5
6
4
5
6
FA
4
6
12
4
5
6
4
5
9
GLMpath
4
5
8
4
5
6
4
5
6
Tab. 4.3: Pour 50, 100 et 200 observations chaque ligne donne le rang auquel quatre, cinq puis
six variables parmi les variables importantes sont apparues dans la hiérarchie. Le nombre de
variables est fixé à 200. La hiérarchie est établie sur 200 échantillons bootstrap pour les quatre
premiers scores et sur 500 échantillons bootstrap pour GLMpath.
p/Score
500
1000
F DS
4
5
18
4
34
173
∂W
4
7
13
4
33
194
∂RW
4
7
12
4
32
202
∂Spb
4
5
11
4
31
224
FA
5
12
42
4
205
206
GLMpath
4
5
6
4
35
38
Tab. 4.4: Pour 500 et 1000 variables, chaque ligne donne le rang auquel quatre, cinq puis six
variables importantes sont apparues dans la hiérarchie. La taille de l’échantillon est fixée à 50.
que les autres techniques.
Les figures 4.1 et 4.2 montrent pour les jeux de données simulées des courbes qui représentent
l’intersection des hiérarchies en fonction du rang. L’axe des abscisses correspond au rang dans la
hiérarchie (normalisé par le nombre de variables), et celui des ordonnées la proportion de variables communes aux hiérarchies. Les deux axes sont normalisés sur l’intervalle [0, 1]. Nous avons
effectué quatre comparaisons : les scores SVM entre eux, les scores SVM avec les forêts aléatoires,
les SVM avec GLMpath, et GLMpath avec les forêts aléatoires. Les courbes correspondantes à
ces quatre comparaisons sont superposées. Plus la courbe est proche de la bissectrice, plus les
hiérarchies sont voisines. La première partie de la courbe est particulièrement pertinente pour
ces comparaisons, elle concerne la comparaison des variables les plus importantes.
Pour les cinq jeux de données, nous remarquons que les hiérarchies basées sur les SVM sont
très proches les unes des autres. Ensuite, celles fournies par les SVM et GLMpath semblent être
aussi voisines.
76
Chapitre 4
4.4. Comparaison des méthodes
50obs-200var
Fréquence relative
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
0.5
0
0
0.1
0.2
0.3
0.4
0.5
0.6
100obs-200var
0.7
0.8
0.9
1
0.3
0.4
0.5
0.6
200obs-200var
0.7
0.8
0.9
1
0.3
0.4
0.5
0.6
Rang normalisé
0.7
0.8
0.9
1
Fréquence relative
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
0.5
0
0
0.1
0.2
Fréquence relative
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
0.5
0
0
0.1
0.2
Fig. 4.1: Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données
simulées ( p = 200 et l = 50, 100, 200). L’axe des abscisses indique le rang (normalisé) dans
la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes
comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées
sont voisines.
50obs-500var
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
Fréquence relative
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Rang normalisé
0.7
0.8
0.9
1
0.7
0.8
0.9
1
50obs-1000var
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
Fréquence relative
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Rang normalisé
Fig. 4.2: Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les données
simulées ( p = 500, 1000 et l = 50). L’axe des abscisses indique le rang (normalisé) dans la
hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées sont
voisines.
77
Chapitre 4
4.4. Comparaison des méthodes
Taux d'erreur
50 observations
0.4
0.2
Taux d'erreur
0
0
10
50 observations
∂W
∂RW
∂Spb
0.4
0.2
100 observations
10
2
0
0
10
0.2
100 observations
10
2
0
0
10
0.4
0.4
0.2
0.2
0.2
200 observations
10
2
0
0
10
200 observations
10
2
0
0
10
0.4
0.4
0.4
0.2
0.2
0.2
0
0
10
10
2
FA
0.4
0.4
0
0
10
Taux d'erreur
50 observations
FDS
0
0
10
10
2
0
0
10
100 observations
200 observations
10
10
10
2
2
2
200 variables
Fig. 4.3: Effet de la taille de l’échantillon. Taux d’erreur moyen calculé sur 50 échantillons tests
pour différentes tailles. Le nombre de variables est fixé à 200.
Sélection de modèle
Nous évaluons ici la capacité de chaque méthode à trouver le modèle optimal. La figure
4.3 montre l’évolution du taux d’erreur moyen pour les différents scores utilisés. Les variables
sont introduites séquentiellement, une par une, dans le modèle. Toutes ces courbes ont la même
allure, elles décroissent pour atteindre un certain minimum global à partir duquel elles croissent.
Chaque point de ces courbes indique le taux d’erreur moyen (en ordonnée) calculé sur les 50
échantillons tests pour le modèle utilisant les k variables (en abscisse) les plus importantes.
Les trois premières colonnes du tableau 4.5 donnent le taux d’erreur moyen minimal ainsi que
le nombre de variables qui le réalise pour les différentes tailles utilisées. Il est clair que le taux
d’erreur moyen diminue lorsque la taille de l’échantillon augmente. Le taux d’erreur des forêts
aléatoires est nettement supérieur à celui obtenu par chacune des autres méthodes. L’examen
de ces résultats ne nous permet pas de hiérarchiser les méthodes utilisées.
La figure 4.4 donne une idée sur l’allure globale du taux d’erreur moyen en présence d’un
grand nombre de variables constituant du bruit. Nous retrouvons la même forme de courbe que
précédemment sauf que la phase de croissance est beaucoup plus importante surtout pour les
quatre premiers scores.
Les deux dernières colonnes du tableau 4.5 contiennent les résultats pour une taille de l’échantillon égale à 50 et un nombre de variables valant 500 puis 1000. Nous remarquons que les taux
78
Chapitre 4
4.4. Comparaison des méthodes
(50,200)
0.0208(6)
0.0084(5)
0.0084(5)
0.0084(5)
0.0476(8)
0.0188(1)
0.044(3)
Score/(l, p)
F DS
∂W
∂RW
∂Spb
SV M − RF E
GLMpath
FA
(100,200) (200,200)
0.0072(7) 0.0048(7)
0.012(6) 0.0048(7)
0.0072(7) 0.0048(7)
0.0096(6) 0.0044(8)
0.016(8)
0.006(4)
0.0252(3) 0.0074(4)
0.0272(6) 0.0064(25)
(50,500)
0.0044(5)
0.008(7)
0.008(7)
0.0044(5)
0.0132(8)
0.008(4)
0.0252(12)
(50,1000)
0.0084(5)
0.0084(5)
0.0076(6)
0.0084(5)
0.0104(4)
0.0192(2)
0.0656(4)
Tab. 4.5: Taux d’erreur moyen calculé sur 50 échantillons tests obtenu suite à l’introduction
séquentielle des variables selon l’ordre d’importance décroissant. Le nombre optimal de variables
est mis entre parenthèses. Pour la méthode GLMpath le taux d’erreur est obtenu par validation
croisée sur l’échantillon d’apprentissage.
500 variables
Taux d'erreur : 50 observations
0.5
500 variables
FDS
0.5
0.5
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0
0
10
10
2
0
0
10
1000 variables
Taux d'erreur : 50 observations
500 variables
∂W
∂RW
∂Spb
10
2
0
0
10
1000 variables
0.5
0.5
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
10
2
0
0
10
10
2
10
2
1000 variables
0.5
0
0
10
FA
0.4
0
0
10
10
2
Fig. 4.4: Effet du nombre de variables. Taux d’erreur moyen calculé sur 50 échantillons tests en
utilisant 500 variables (les panneaux de la première ligne) et 1000 variables (les panneaux de la
deuxième ligne). La taille de l’échantillon est fixée à 50.
d’erreur ne sont légèrement différents qu’avec 50 variables (voir première colonne du même
tableau). Ceci est dû au fait qu’avec 500 et 1000 variables au moins quatre variables parmi les
six importantes ont été retenues dans l’ensemble des méthodes. Les forêts aléatoires réalisent un
taux d’erreur nettement supérieur à celui des autres scores.
4.4.2
Résultats pour les données de biopuces
Notre objectif ici n’est pas d’interpréter les résultats obtenus quant aux gènes sélectionnés,
mais juste de comparer les hiérarchies et les performances des méthodes.
79
Chapitre 4
4.4. Comparaison des méthodes
Hiérarchie des variables
Nous menons ici les mêmes expériences sur les quatre jeux de données décrits dans le paragraphe 3.3.2. Pour Leukemia l’échantillon test fourni sera utilisé pour les comparaisons des
méthodes sur ce jeu de données.
Pour comparer les méthodes, nous nous basons sur le nombre de variables communes aux
hiérarchies comparées. Nous réalisons ces comparaisons uniquement pour les variables dont les
coefficients β̂ j estimés dans les modèles GLM par bootstrap sont différents de zéro. L’ordre des
variables avec cette méthode étant basé sur les valeurs moyennes des coefficients estimés sur 500
échantillons bootstrap, celles qui ont un coefficient nul ne peuvent être ordonnées. Le nombre de
coefficients non nuls est 999 pour Colon, 1376 pour Lymphoma, 1190 pour Leukemia, et 2234
pour Prostate.
Comme nous l’avons fait avec les données simulées, les figures 4.5 et 4.6 montrent pour les
quatre jeux de données des courbes qui représentent l’intersection des hiérarchies en fonction du
rang. Pour les quatre jeux de données, nous remarquons que les hiérarchies basées sur les SVM
sont très proches les unes des autres. Ensuite, celles fournies par les SVM et GLMpath semblent
être aussi voisines. En effet, comme les quatre jeux de données sont linéairement séparables, ces
deux techniques semblent bien adaptées. Les forêts aléatoires semblent donner des hiérarchies
assez différentes. Ce résultat sera retrouvé par la suite dans la comparaison des performances
des modèles obtenus à partir de ces hiérarchies. Ces résultats sont conformes à ceux que nous
avons obtenus sur les simulations.
Les tableaux 4.6 et 4.7 donnent le nombre de variables communes pour les différentes comparaisons illustrées dans les graphiques précédents pour les 50 puis les 100 variables importantes.
Nous remarquons que le nombre de variables communes est en général supérieur à 50% pour les
hiérarchies données par les SVM et celles des SVM et de GLMpath. Ce taux est beaucoup plus
élevé pour les données Colon et Lymphoma, qui ont en l’occurrence un nombre de variables plus
faible que les deux autres jeux de données.
Comparaison / Jeu de données Colon Lymphoma Prostate Leukemia
SVM
37
37
32
30
SVM/GLMpath
33
26
24
21
SVM/FA
4
9
12
9
FA/GLMpath
10
12
16
21
Tab. 4.6: Nombre de variables communes parmi les 50 les plus importantes pour les quatre
comparaisons établies.
80
Chapitre 4
4.4. Comparaison des méthodes
Colon
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
Fréquence relative
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Rang normalisé
0.7
0.8
0.9
1
0.7
0.8
0.9
1
Lymphoma
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
Fréquence relative
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Rang normalisé
Fig. 4.5: Comparaison des hiérarchies SVM, SVM-FA, path et FA-GLMpath, pour les deux
jeux de données Colon et Lymphoma. L’axe des abscisses indique le rang (normalisé) dans
la hiérarchie et celui des ordonnées la proportion de variables communes pour les méthodes
comparées. Plus la courbe est proche de la première bissectrice, plus les hiérarchies comparées
sont voisines.
Prostate
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
Fréquence relative
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Rang normalisé
0.7
0.8
0.9
1
0.7
0.8
0.9
1
Leukemia
1
SVM
SVM/FA
SVM/GLMpath
FA/GLMpath
Fréquence relative
0.8
0.6
0.4
0.2
0
0
0.1
0.2
0.3
0.4
0.5
0.6
Rang normalisé
Fig. 4.6: Comparaison des hiérarchies SVM, SVM-FA, SVM-GLMpath et FA-GLMpath, pour
les deux jeux de données Leukemia et Prostate.
81
Chapitre 4
4.4. Comparaison des méthodes
Comparaison / Jeu de données Colon Lymphoma Prostate Leukemia
SVM
76
68
61
67
SVM/GLMpath
68
51
53
44
SVM/FA
19
22
21
24
FA/GLMpath
31
29
27
39
Tab. 4.7: Nombre de variables communes parmi les 100 les plus importantes pour les quatre
comparaisons établies.
Sélection de modèle
Pour les quatre premiers scores utilisés, nous avons appliqué la procédure décrite dans le
tableau 3.3. L’introduction séquentielle des variables a été réalisée par paquets de taille croissante. La taille de ces paquets a été choisie telle que leur nombre soit constant pour tous les jeux
de données environ (700) et que presque la moitié d’entre eux, ceux du début, ne contiennent
qu’une seule variable.
Le tableau 4.8 donne l’ensemble des résultats pour les quatre jeux de données et les sept
méthodes.
Score/Données
F DS
∂W
∂RW
∂Spb
SV M − RF E
GLMpath
FA
variables communes
Colon
Lympoma
Prostate
Leukemia
0.1219(3) 0.0436(200) 0.0371(315) 0.0882(7)
0.0009(31)
0(186)
0.0269(83)
0.1176(2)
0.0029(33)
0(60)
0.0269(902) 0.0882(22)
0.0029(34) 0.0006(118) 0.0109(45) 0.1176(11)
0.0057(32)
0(64)
0(64)
0.0882(1)
0.064(2)
0(3)
0(3)
0(1)
0.0962(55) 0.0588(73)
0.0554(7) 0.0588(103)
377
2251 :461
6185
—
Tab. 4.8: Résultats des applications sur les données biopuces. On donne entre parenthèses le
nombre minimal de variables pour lequel le taux d’erreur moyen atteint son minimum. Ce taux
d’erreur est calculé sur 50 échantillons tests obtenus par partages aléatoires stratifiés. On garde
le même partage pour les différentes méthodes utilisées. Pour le jeu de données Leukemia le taux
d’erreur et estimé sur l’échantillon test.
Rappelons que les taux d’erreur moyens, estimés par 50 partages aléatoires stratifiés, réalisés
sur ces jeux de données en utilisant toutes les variables avec les SVM linéaires sont : Colon :
0.17, Leukemia : 0.206, Lymphoma : 0.06, Prostate : 0.075.
Biais de sélection
Nous considérons que les résultats obtenus dans le paragraphe précédent sont optimistes
et présentent donc un biais de sélection. Ceci est dû principalement au fait que la hiérarchie
82
Chapitre 4
4.5. Conclusion
des variables a été calculée à partir de toutes les données (cf. Ambroise et MacLachlan [7],
Reunanen et al. [79]). L’idée est donc de réaliser une validation croisée de la procédure décrite
dans le tableau 3.3. Les données disponibles sont partitionnées en V = 10 parts égales par
stratification. Chaque partie joue le rôle d’échantillon test. Son complémentaire est utilisé dans
la procédure initiale du tableau 3.3. La procédure tenant compte du biais de sélection est décrite
dans le tableau 3.12.
Ainsi, la hiérarchie des variables est calculée V fois, et V modèles optimaux avec leurs
nombres de variables et leurs performances sont obtenus. Le nombre moyen de variables et le
taux d’erreur minimal moyen sont présentés dans le tableau 4.9.
Données
F DS
∂W
∂RW
∂Spb
SV M − RF E
GLMpath
FA
Colon
Lymphoma
Prostate
0.1595(15.1) 0.1233(83.7) 0.0882(126.4)
0.233 (35.1) 0.051 (86.5) 0.054 (756.6)
0.214 (43.3)
0.042 (71)
0.053 (573.3)
0.197 (31.8) 0.073 (70.5) 0.052 (95.5)
0.1452(26.4) 0.0878(16.8) 0.0582(43.2)
0.1809 (1.3) 0.0522 (2.8) 0.05909 (1.6)
0.106 (49.8) 0.052 (65.9)
0.059 (81)
Tab. 4.9: Biais de sélection : Erreur estimée par validation croisée pour le meilleur modèle sélectionné pour les données réelles. Le nombre moyen de variables sélectionnées est entre parenthèses.
Nous confrontons ces résultats à ceux obtenus dans le tableau 4.8. Les performances des
modèles sont systématiquement dégradées. La dégradation pour les scores basés sur les SVM est
d’autant plus significative que le jeu de données comporte moins de variables. Le nombre moyen
des variables sélectionnées par GLMpath est similaire à celui obtenu sans validation croisée pour
les trois jeux de données. La dégradation des performances des forêts aléatoires est très faible.
Les taux d’erreurs sont plus réalistes que les résultats obtenus sans validation croisée. Cependant,
les gènes sélectionnés et leur nombre sont différents et très variables pour chaque échantillon de
validation croisée. Ces taux sont donc des moyennes de performances de modèles très différents
a priori les uns des autres n’utilisant pas les mêmes sous-ensembles de variables.
4.5
Conclusion
La sélection de variables est un domaine de recherche très actif, proposant un grand nombre
d’algorithmes, anciens pour certains, satisfaisant un grand nombre de configurations. Au cours
d’un bref tour d’horizon des différentes méthodes, nous avons remarqué que la plupart des algorithmes sont développés par des scientifiques travaillant dans les domaines de l’apprentissage
83
Chapitre 4
4.5. Conclusion
statistique, en data mining et en reconnaissance de formes. La plupart des algorithmes développés, surtout dans les deux derniers domaines, ne sont pas adaptés aux problèmes disposant de
centaines de variables et de quelques dizaines d’observations.
Ce chapitre a été largement consacré à la comparaison de méthodes récentes que nous avons
identifiées bien adaptées pour ce genre de situation. La comparaison de ces méthodes de sélection
de variables a montré que les résultats obtenus avec les SVM sont assez voisins quel que soit le
score utilisé. Le modèle linéaire généralisé sous contrainte L1 sur les coefficients du modèle donne
des résultats proches de ceux des SVM, et paraît même plus performant dans le cas où p est très
grand. Les forêts aléatoires semblent être moins performantes pour accomplir ces tâches, mais
paraissent plus stables que les autres méthodes. Les résultats obtenus sur les données réelles
confirment ceux obtenus par simulations.
Notons que nous nous sommes limités ici aux situations où les données sont linéairement
séparables et la variable à prédire est binaire. Ceci est le cas des données simulées utilisées
mais aussi celles des données réelles (les quatre jeux de données sont parfaitement séparables
par les SVM avec un noyau linéaire). L’extension de ce travail aux cas multiclasses fera l’objet
du prochain chapitre. Les scores basés sur les SVM nécessitent une adaptation dépendant de
l’approche multiclasse utilisée. Par contre pour les modèles linéaires généralisés et les forêts
aléatoires les approches que nous avons employées ici peuvent être utilisées directement dans le
cas multiclasse et le cas non-linéaire.
84
85
Chapitre 5
SVM multiclasses et sélection de
variables en grande dimension
5.1
Introduction
L’étude théorique des systèmes d’apprentissage s’est concentrée principalement sur des classifieurs à deux classes. Cette étude ne concerne que des fonctions dont les sorties sont dans
{−1, 1}. Par conséquent les principes d’induction de même que les bornes obtenues aux deux
premiers chapitres ne s’appliquent pas, du moins pas directement, à des ensembles de fonctions
de X dans {1, 2, . . . , m} , m > 2, où m désigne le nombre de classes.
Durant la dernière décennie les machines à vecteurs supports biclasses ont créé une nouvelle
direction de recherche et d’applications dans le domaine de l’apprentissage et de la prévision.
Elles ont dominé les anciennes méthodes surtout, quand la taille de l’échantillon d’apprentissage est réduite relativement au nombre des variables explicatives. Pour la plupart des modèles
d’apprentissage, l’extension aux cas multiclasses est facile et semble parfois même naturelle. Les
réseaux de neurones, les modèles linéaires généralisés et les forêts aléatoires en sont des exemples. En revanche, la suprématie des SVM ne cache pas la grande difficulté de leur adaptation
aux problèmes de discrimination multiclasse.
Depuis la première extension proposée par Vapnik [91], plusieurs chercheurs se sont attachés
à utiliser les SVM dans des applications à plusieurs classes. Les approches employées jusqu’à
nos jours sont diverses et elles peuvent être réparties en deux catégories.
La première catégorie de méthodes, que nous qualifions d’indirectes, fait appel à des schémas
de décomposition du type une-contre-reste ou une-contre-une ou d’une façon générale basée sur
les codes correcteurs d’erreurs. La règle de décision multiclasse est ensuite dérivée en combinant
Chapitre 5
5.1. Introduction
toutes les règles de décision binaire issues du schéma de décomposition adopté. Plusieurs architectures de combinaisons ont été proposées tout en tenant compte du temps d’apprentissage,
du temps de classification des nouvelles instances (dit aussi d’exécution) et des capacités de
généralisation du classifieur multiclasse résultant. Peu d’architectures disposent de bornes de
confiance sur le taux d’erreur commis.
La deuxième catégorie de méthodes, que nous désignons par directes, consiste à résoudre le
problème multiclasse en une seule étape sans le décomposer en une collection de sous-problèmes
binaires. Cette méthode revient à résoudre un unique problème d’optimisation quadratique conformément à ce qui est fait lorsqu’il s’agit de deux classes. Deux approches directes d’esprits
complètement différents seront exposées au cours de notre présentation.
La plupart des méthodes provenant des deux catégories ne possèdent pas de justifications
théoriques bien fondées. De ce fait le problème de l’extension des SVM aux cas multiclasses est
actuellement un domaine de recherche très ouvert et fait encore l’objet de plusieurs travaux en
cours. Malgré les tentatives d’extension de la notion de marge au cas multiclasse (cf. Darcy et
al. [26]), il n’existe pas encore des SVM multiclasses directement construites sur la base d’un
principe d’induction bien fondé théoriquement.
Dans la pratique, malgré le fait qu’aucune borne sur le risque ne permette de justifier ces
différentes approches multiclasses, elles réalisent en général des performances très acceptables.
La difficulté de justification apparaît cependant lorsque l’on souhaite étendre la notion de marge
maximale aux systèmes discriminants multiclasses. En effet la théorie des bornes telle qu’elle
est actuellement développée sur la notion de marges se prête mal aux extensions multiclasses.
Par ailleurs, les études comparatives menées sur des bancs d’essai ne confrontant pas toutes les
approches multiclasses ont échoué à en identifier la plus performante. Il semble que le choix de
l’approche appropriée au problème multiclasse en question dépend fortement de la complexité
qu’il exhibe.
Depuis leur introduction les machines à vecteurs supports ont prouvé leur efficacité dans
le traitement de nombreuses tâches relevant des principaux domaines de la reconnaissance de
formes. Le problème de sélection de variables par les SVM est parmi les tâches les plus stimulantes surtout lorsque l’on dispose d’un nombre d’observations très faible devant un grand
nombre de variables explicatives. Les scores d’importance dérivés des SVM ont fait preuve de
leur efficacité sur plusieurs exercices de classification binaire issus des biopuces.
Un grand nombre des applications réelles exige l’emploi des techniques de sélection de variables dans le cadre d’une discrimination multiclasse. Ce problème de réduction de dimension
86
Chapitre 5
5.2. Approches indirectes
en multiclasse constitue un volet motivant de la recherche qui demeure aujourd’hui encore ouvert et à développer. De manière plus spécifique la théorie statistique des SVM biclasses et la
diversité des approches SVM multiclasses proposées n’autorisent pas une simple extension des
critères d’importance des variables aux situations multiclasses. Tous ces handicaps n’ont pas
empêché quelques auteurs de faire des tentatives d’extensions, mais totalement dépourvues de
bases théoriques défendables.
Dans ce chapitre nous nous proposons de présenter et analyser les différentes heuristiques
d’extension des SVM aux cas multiclasses. Nous démontrons l’équivalence entre quelques unes
de ces approches. Une fois cette présentation est mise en place, nous abordons le problème
de sélection de variables. L’extension des scores basés sur les SVM nécessite une adaptation
dépendant de l’approche multiclasse utilisée. Une étude comparative des différentes extensions,
menée sur des données réelles et simulées, fera l’objet de la dernière section.
5.2
Approches indirectes
Nous présentons ici les méthodes indirectes qui consistent à subdiviser le problème multiclasse
initial en une collection de sous-problèmes biclasses.
5.2.1
Une-contre-reste
Cette extension au cas multiclasse originellement proposée par Vapnik [91] peut être vue
aussi comme une généralisation du cas binaire. À toute classe k est associé un hyperplan H(wk ,bk )
défini par la fonction de décision fk (x) = hwk · xi + bk dont le rôle est de discriminer entre les
observations de la classe k et de l’ensemble des autres classes.
Une observation x sera donc affectée à la classe k ∗ selon la règle de décision discrète,
k∗ = Arg max hk (x)
(5.1)
1≤k≤m
avec
hk (x) = sign (fk (x)) .
Afin de bien comprendre cette généralisation, considérons le cas binaire où Y = {−1, +1} . À
chaque classe est associé un hyperplan défini par les fonctions de décision fk (x) = hwk · xi + bk ,
k = −1, +1.
H+1 = {x ∈ Rp ; f+1 (x) = 0}
H−1 = {x ∈ Rp ; f−1 (x) = 0}
87
Chapitre 5
5.2. Approches indirectes
w +1
Cl
e(
ass
)
+1
(
se
s
a
Cl
-1)
w -1
Fig. 5.1: Deux hyperplans, chacun d’eux est associé à une classe.
H+1 est associé à la classe (+1) et H−1 est associé à la classe (−1). Une illustration graphique
est donnée par la figure 5.1.
Géométriquement, les deux hyperplans sont confondus, en revanche f+1 (x) = −f−1 (x) .
Ainsi, si nous posons w = w+1 − w−1 et b = b+1 − b−1 nous pouvons réduire le problème en la
recherche d’un seul hyperplan et c’est exactement ce qu’on fait dans le cas binaire.
L’architecture la plus ancienne, utilisée pour les machines à vecteurs supports multiclasses,
est probablement la méthode une-contre-reste. Elle construit m classifieurs binaires à vecteurs
supports où m est le nombre total des classes. L’apprentissage du k ème classifieur à vecteurs
supports s’effectue en considérant tous les exemples de la k ème classe dans la région positive et
tous les autres exemples dans la région négative. Le kème classifieur à vecteurs supports s’obtient
en résolvant le problème,
Pl
Minimiserwk ,ξ k ,b
kwk k2
2
sous
hwk .φ(xj )i + bk ≥ 1 − ξ kj , si yj = k,
+C
j=1
ξ kj ,
hwk .φ(xj )i + bk ≤ −1 + ξ kj , si yj 6= k,
(5.2)
ξ kj ≥ 0, j = 1, 2, . . . l.
où les φ(xs ) sont les transformés des xs dans l’espace induit par la fonction φ et C est le
paramètre de pénalité.
La résolution du problème (5.2) pour chaque valeur de k ∈ {1, 2, . . . , m} donne lieu à m
fonctions de décision :
fk (x) = hwk .φ (x)i + bk , k ∈ {1, 2, . . . , m}
(5.3)
Pratiquement, nous résolvons le problème dual correspondant au problème (5.2) ayant exactement l variables duales. En total, nous aurons à résoudre m problèmes quadratiques chacun
à l variables. Ainsi, le temps d’apprentissage de cette méthode croît linéairement en fonction de
m.
88
Chapitre 5
5.2. Approches indirectes
Une nouvelle observation x sera donc affectée à la classe k∗ selon la règle de décision discrète
(5.1). Dans le cas multiclasses (m > 2), cette égalité peut être satisfaite pour plus qu’une classe.
Dans ce cas, l’observation x est dite non-classifiable. Toutes les observations x non-classifiables
forment la région d’ambiguïté dite aussi région non-classifiable. Cette région est schématisée
dans la figure 5.2.
D1(x) = 0
D3(x) = 0
Classe 1
w1
w2
Classe 2
w3
D2(x) = 0
Classe 3
Fig. 5.2: L’espace hachuré représente la région d’ambiguïté pour l’approche une-contre-reste
suite à la prise de décision discrète.
Afin de pouvoir classer une observation x tombant dans la région d’ambiguïté, la règle de
décision continue a été utilisée. Cette règle est donnée par :
k∗ = Arg max fk (x)
(5.4)
1≤k≤m
Géométriquement interprétée, tout nouveau exemple x est affecté à la classe qui correspond à
l’hyperplan le plus éloigné. Ainsi, l’espace des variables explicatives X est subdivisé en m régions
convexes, chacune correspondant à une classe. La figure 5.3 donne un exemple de subdivision
de l’espace X .
Cette approche est nommée “le gagnant emporte le tout” 1 . L’inconvénient majeur de cette
heuristique est qu’elle ne conserve pas les m frontières de séparation (5.3). La figure 5.3 montre ce
propos. Il est clair que cette heuristique a amélioré la règle de décision discrète, en revanche, elle
perd totalement les capacités de généralisation des m hyperplans construits. Malheureusement,
on ne dispose pas de borne pour l’erreur de généralisation de l’approche une-contre-reste.
Des machines à vecteurs supports floues2 (FSVM) ont été proposées par S. Abe [2] dans
le but de fournir une règle de décision au niveau de la région d’ambiguïté. Le même auteur a
prouvé dans [1] l’équivalence des FSVM avec la méthode standard “le gagnant emporte le tout”.
1
2
The winner-takes-all.
Fuzzy Support Vector Machines.
89
Chapitre 5
5.2. Approches indirectes
D1(x) = 0
D3(x) = 0
Classe 1
w1
w2
Classe 2
w3
D2(x) = 0
Classe 3
Frontière de classification
Fig. 5.3: Règle de décision continue : les bissectrices des secteurs d’ambiguïté forment la nouvelle
frontière de classification.
Une autre heuristique utilisant les hyperplans séparateurs construits pour chaque paire de
classes a été proposée afin de conserver le maximum des propriétés des classifications binaires
et de réduire la région d’ambiguïté.
5.2.2
Une-contre-une
Ce schéma de décomposition a été adopté par S. Knerr et al. [56] et utilisé pour la première
fois dans le contexte des machines à vecteurs supports par Kreßel [58]. Il consiste à construire
¡2¢
prédicteurs binaires chacun séparant uniquement deux classes tout en ignorant
= m(m−1)
m
2
les autres.
L’hyperplan séparateur des classes k et s est la solution du problème d’optimisation suivant :
P ks ks
+ C lt=1
ξt ,
­ ks
®
w .φ(xt ) + bks ≥ 1 − ξ ks
t , si yt = k
­ ks
®
w .φ(xt ) + bks ≤ −1 + ξ ks
t , si yt = s
2
Minimiserwks ,ξ ks ,b
sous
kwks k
2
(5.5)
ξ ks
t ≥ 0, ∀t ∈ {1, . . . , lks }
où lks est le nombre des observations issues des classes k et s.
Pratiquement, nous résolvons le problème dual correspondant au problème (5.5) ayant lks
variables duales. Si chaque classe contient en moyenne
la phase d’apprentissage
m(m−1)
2
l
m
exemples, nous aurons à résoudre dans
problèmes quadratiques chacun dépendant à peu près de
2l
m
variables.
L’approche une-contre-une consiste donc à construire un classifieur pour chaque paire de
90
Chapitre 5
5.2. Approches indirectes
classes (k, s) définissant ainsi des fonctions de décision binaire hks : X ⊆ Rp → {−1, +1},

 +1 si x ∈ à la classe k .
(5.6)
hks (x) = sign (fks (x)) =
 −1 si x ∈ à la classe s.
Pour des raisons de symétrie hks ≡ −hsk et on convient que hkk ≡ 0 pour tout k ∈
{1, 2, . . . , m} . Sur la base des
m(m−1)
2
fonctions de décision binaires hks , nous définissons m
autres fonctions de décision de la façon suivante :
hk (x) =
m
X
hks (x) , k = 1, 2, . . . , m.
(5.7)
s=1
Et la règle de classification d’une nouvelle observation x est donnée par :
k∗ = Arg max hk (x)
(5.8)
1≤k≤m
Cette règle3 proposée par Friedman [36] est connue sous le nom de vote majoritaire, et elle
a été appliquée pour la première fois avec les SVM par Kreßel [58].
Il peut arriver que la règle (5.8) soit satisfaite par plus qu’une classe, ainsi, une nouvelle
observation x est dite non-classifiable et elle appartient à la région d’ambiguïté. Cette région
est présentée par la figure 5.4. Toute observation située dans la région d’ambiguïté est classée
arbitrairement dans l’une des classes vérifiant la règle (5.8).
w12
Classe1
f12(x) = 0
w13
f13(x) = 0
Classe2
Classe3
f23(x) = 0
w23
Fig. 5.4: La région d’ambiguïté hachurée est réduite pour l’approche une-contre-une.
Les avantages majeurs de cette combinaison sont : la conservation de bonnes parties des
m(m−1)
2
hyperplans préalablement construits et la diminution de la région d’ambiguïté relative-
ment à l’approche une-contre-reste. En revanche, son erreur de généralisation n’a pas encore de
majorant.
3
Dite “Max-Wins Algotithm”.
91
Chapitre 5
5.2. Approches indirectes
Plusieurs méthodes ont été proposées pour combiner les différents classifieurs issus de toutes
les paires de classes. Chaque architecture vise à réduire le temps d’apprentissage et le temps de
classification d’une nouvelle observation tout en améliorant les capacités de généralisation de la
machine. Dans ce qui suit, nous présentons, dans l’ordre chronologique de leur apparition, les
différentes combinaisons proposées. Ces combinaisons diffèrent au niveau de la prise de décision
au niveau de la région d’ambiguïté.
5.2.3
SVM floues
D’une façon similaire aux FSVM proposées pour le schéma de décomposition en une-contrereste, S. Abe [2] a introduit pour la décomposition une-contre-une les fonctions d’adhésion4
définies pour chaque hyperplan séparateur Hks = {x ∈ X ; fks (x) = 0}, (k 6= s), de la façon
suivante :

 1
pour fks (x) ≥ 1
Mks (x) =
 f (x) sinon
ks
Les hyperplans Hks sont obtenus suite à la résolution des problèmes (5.5) pour toute paire de
calsses k et s. Il est à noter que, selon la relation (5.6), l’observation x est bien classée par Hks si
est seulement si fks (x) > 0. Dans le cas où l’observation x viole la marge on a Mks (x) = fks (x) .
En d’autres termes, la valeur de la fonction d’adhésion Mks (·) mesure la difficulté que posent
les observations critiques pour être classées par l’hyperplan Hks ; plus Mks (x) est petite plus la
classification de x est difficile.
En utilisant les fonctions Mks (x), (s 6= k, s = 1, 2, . . . , m), on définit la fonction d’adhésion
à la classe k comme étant :
Mk (x) =
min
s=1,2,...,m
Mks (x)
s6=k
Cette dernière équation est équivalente à :
Mk (x) = min(1,
min
s=1,2,...,m
fks (x))
(5.9)
s6=k
La fonction d’adhésion à la classe k définit dans l’espace X des formes polyédriques tronquées.
Une représentation de ces formes dans le plan est donnée par la figure 5.5 : plus la valeur de la
fonction d’adhésion à la classe k est élevée plus l’observation x est proche de la classe k.
On vérifie aisément que l’égalité Mk (x) = 1 ne peut être vérifiée que pour une seule classe.
En effet d’après (5.9) Mk (x) = 1 si et seulement si fks (x) ≥ 1 ∀s d’où l’observation x est classée
4
Membership functions.
92
Chapitre 5
5.2. Approches indirectes
Mk(x) = 1
Classe k
Mk(x) = 0.8
Mk(x) = 0.7
Fig. 5.5: Chaque frontière définit une courbe de niveau pour la fonction Mk (x) d’adhésion à la
classe k. Cette fonction vaut 1 sur tout point de la zone hachurée.
dans k par toutes les fonctions binaires. Par conséquent la relation (5.9) peut être réduite à :
Mk (x) =
min
s=1,2,...,m
fks (x)
s6=k
Une nouvelle observation x sera donc classée suivant la règle :
Arg max Mk (x)
k=1,2,...,m
Cette règle donne la même décison que celle donnée par (5.8) pour les observations qui
n’appartiennent pas à la région d’ambiguïté montrée dans figure 5.4. Les FSVM partagent la
région d’ambiguïté équitablement sur les classes selon leur proximité. Ce partage est illustré
dans la figure 5.6.
w12
Classe1
f12(x) = 0
w13
f13(x) = 0
Classe2
Classe3
f23(x) = 0
w23
Fig. 5.6: Résolution de la région d’ambiguïté par les FSVMs.
93
Chapitre 5
5.2.4
5.2. Approches indirectes
Graphe de décision acyclique orienté
Platt et al. [72] ont proposé une structure d’arbre de décision pour combiner les
m(m−1)
2
clas-
sifications binaires construites selon la décomposition une-contre-une. La phase d’apprentissage
du DDAG5 est exactement la même que celle pour le vote majoritaire. Elle consiste à construire toutes les
m(m−1)
2
classifications binaires. Par contre, l’étape test utilise un graphe binaire,
enraciné6 , orienté et acyclique ayant
m(m−1)
2
nœuds intérieurs répartis sur (m − 1) couches et m
feuilles formant la dernière couche. Chaque nœud correspond à une classification binaire de la
kème et la sème classes et chaque feuille désigne une classe.
Une nouvelle observation x, partant du nœud racine, circule d’un nœud à un autre jusqu’à
atteindre une feuille qui indiquera sa classe d’appartenance. Au niveau de chaque nœud, l’observation x se retrouve devant un choix binaire : passer à gauche ou à droite. Ce choix dépend
de la décision de classification binaire prise au niveau de ce nœud. Une illustration graphique
du DDAG pour m = 3 est donnée par la figure 5.7.
1
3
2
3
2
écarter3
1/2
écarter1
écarter2
3/2
1/3
écarter2
écarter1
2
3
1
3
écarter3
1
Fig. 5.7: Graphe de décision acyclique orienté à trois classes.
Cette architecture peut être vue sous forme d’une liste à m classes, de laquelle chaque nœud
élimine une classe. Cette liste est initialisée avec toutes les classes. Une nouvelle observation x
sera évaluée par le nœud de décision binaire correspondant au premier et au dernier éléments
de la liste. Lorsque ce nœud préfère l’une des deux classes confrontées, l’autre sera éliminée de
la liste et l’algorithme se poursuit pour la nouvelle liste. Cet algorithme s’arrête quand la liste
est réduite à une seule classe, celle-ci sera attribuée à x. Ainsi, pour un problème à m classes,
(m − 1) nœuds de décision binaire sont évalués dans le but de classer toute nouvelle observation.
L’avantage du DDAG par rapport aux autres approches multiclasses est que, grâce à sa
structure particulière, son erreur de généralisation est bornée. En outre, son temps de classifi5
6
Decision Directed Acyclic Graph.
Rooted.
94
Chapitre 5
5.2. Approches indirectes
cation est réduit comparativement au vote majoritaire et aux FSVM. En revanche les capacités
de généralisation du DDAG dépendent de l’ordre de la liste initiale sur laquelle il agit. Pour un
même problème à m classes, il y a en tout
m!
2
structures différentes du DDAG. L’ordre de la
liste initiale du haut vers le bas est le même que celui qu’on retrouve sur les feuilles de droite
à gauche. Ainsi, pour chaque DDAG la région d’ambiguïté est partagée sur les feuilles internes.
Une illustration graphique du cas m = 3 est donnée par la figure 5.8.
w12
Classe1
f12(x) = 0
w13
f13(x) = 0
Classe2
Classe3
f23(x) = 0
w23
Fig. 5.8: DDAG favorise la feuille du milieu en y affectant la région d’ambiguïté.
5.2.5
Graphe acyclique orienté adaptatif
Pontil et al. [74] ont proposé une combinaison du type tournoi de tennis entre les classes
afin d’optimiser les confrontations biclasses. Sans s’en rendre compte, Kijsirikul et al. [54] ont
employé la même méthode, qu’ils ont nommée graphe orienté acyclique adaptatif, dans le but
d’améliorer les performances du DDAG.
Un ADAG7 est une structure triangulaire renversée du DDAG. Pour un problème à m classes,
sa phase d’apprentissage est identique à celle du DDAG. Par contre, pour la phase de classification, les
contient
m
2
m(m−1)
2
nœuds sont arrangés sous forme d’un triangle renversé. Sa première couche
nœuds, sa deuxième couche sera réduite à
m
22
nœuds et ainsi de suite jusqu’à la
dernière couche formée d’un seul nœud. Un ADAG contient exactement (m − 1) nœuds de décision binaire répartis sur log2 (m) couches. La structure d’un ADAG pour m = 8 est représentée
dans la figure 5.9.
Une nouvelle observation x sera testée au niveau de chacun des
m
2
nœuds de la première
couche. Au cours de cette première manche, chaque décision nœudale éliminera une classe. Par
conséquent, le nombre des classes candidates sera réduit de moitié. Ce processus éliminatoire
7
Reordering Adaptive Directed Acyclic Graph.
95
Chapitre 5
5.2. Approches indirectes
1/8
2/7
3/6
4/5
A1
A2
A3
A4
A3/A4
A1/A2
Couche Adaptative A
B2
B1
B1/B2
Couche Adaptative B
Classe prévue
Décision Finale
Fig. 5.9: ADAG à huit classes.
continue jusqu’à ce que ce tournoi atteint sa finale. Ainsi, la dernière couche du ADAG est
réduite à un nœud unique de décision finale pour l’observation x.
Notons que pour un ADAG, le nombre maximal de confrontations que peut avoir la classe
correcte avec les autres classes est log2 (m). Ce nombre est considérablement inférieur à celui
lié à la structure DDAG qui croît linéairement en fonction de m. Par conséquent, l’architecture
ADAG réduit bien l’erreur cumulée commise par DDAG.
Un ADAG peut être mis en œuvre en utilisant une liste, de laquelle chaque nœud élimine
une classe. La liste initiale est constituée de toutes les m classes du problème. Une nouvelle
observation x est évaluée au niveau du nœud de séparation binaire qui confronte la première et
la dernière classes de la liste. La classe préférée par ce nœud est gardée dans la position extrême
gauche de la liste de la seconde manche, tandis que l’autre classe est rejetée. Ensuite, cette
observation x est testée au niveau du nœud qui correspond à la deuxième et l’avant dernière
classes de la liste initiale. Le processus d’évaluation pour la première manche se termine quand
au plus une classe reste non confrontée aux autres classes de la première liste. Dans le cas où
une seule classe reste non confrontée aux autres, elle occupera la position extrême droite de la
liste de la seconde manche. À la fin de cette première manche, la liste initiale à m classes est
réduite en une liste à
m
2
éléments si m est pair et en une liste à
m+1
2
éléments si m est impair. Le
processus de manches continue jusqu’à aboutir à une liste réduite à une seule classe à laquelle
l’oservation x est affectée. Une illustration graphique est donnée par la figure 5.10 pour m = 7.
Les structures DDAG et ADAG sont fortement liées. ADAG est une structure renversée du
DDAG. Par exemple, pour m = 3, à chaque ADAG est associé un DDAG équivalent. Ce résultat
n’est pas généralisable pour un nombre de classes m quelconque.
Il est clair que l’ADAG est aussi instable vu qu’il dépend de l’ordre de la liste de chaque
96
Chapitre 5
5.3. Unification des méthodes par les codes correcteurs d’erreurs
1 2 3 4 5 6 7
Première m anche
A1 A2 A3 A4
Deuxièm e manche
B1 B2
Troisièm e manche
Décision finale
C1
Fig. 5.10: Illustration par listes d’un ADAG à sept classes.
manche. En effet, pour un problème à m classes il y a
m!
m
2[ 2 ] [ m
2 ]
cas de figures possibles pour la
première couche de nœuds selon l’ordre de la liste initiale.
5.2.6
Graphe acyclique orienté adaptatif réordonné
Dans le but de trouver une architecture optimale de l’ADAG, Phetkaew et al. [69] [70] ont
proposé une version réordonnée de l’ADAG qu’ils ont nommé RADAD8 .
Cette approche consiste à optimiser l’architecture d’un ADAG en introduisant une étape de
mise en ordre de la liste qui précède la formation de chaque couche de nœuds. Cette étape est
accomplie par un algorithme9 d’optimisation qui groupe tous les éléments de la liste par paires
de classes en minimisant la somme des erreurs de généralisation de toutes les paires. Les paires
trouvées forment la couche des nœuds associés à la manche courante. La figure 5.11 résume les
différentes étapes du RADAG.
Nous avons vu que l’approche une-contre-une est plus adoptée que l’approche une-contrereste pour les machines à vecteurs supports multiclasses. Plusieurs méthodes ont été introduites
pour les deux approches dont chacune présente des atouts et des défauts. La prise de décision
au niveau de la région d’ambiguïté est à l’origine des différences entre les algorithmes proposés.
5.3
Unification des méthodes par les codes correcteurs
d’erreurs
Allwein et al. [5] ont développé un cadre de travail qui unifie tous les schémas de décomposition d’un problème multiclasse en une collection de sous-problèmes binaires. Ce développement
est basé essentiellement sur les codes correcteurs d’erreurs. Les mêmes auteurs ont proposé deux
8
9
Reordering Adaptive Directed Acyclic Graph.
Cet algorithme est connu sous le nom de “couplage optimal”. Pour plus de détails voir Phetkaew et al. [69].
97
Chapitre 5
5.3. Unification des méthodes par les codes correcteurs d’erreurs
1
2
3
4
5
6
7
8
Phase initiale
Initialisation de la séquence
1/3
A1
2/8
4/7
A2
A3
5/6
A4
Réordonne la séquence
A1/A3
A2/A4
B1
B2
Classification du nouvel
exemple
Classifie et réordonne
B1/B2
Classificateur final
Phase de sortie
Classe prévue
Fig. 5.11: Les différentes étapes du RADAG.
méthodes de décodage afin d’en dériver des règles de classification.
5.3.1
SVM et codes correcteurs d’erreurs
L’idée des codes correcteurs d’erreurs, introduite pour la première fois par Dietterich et al.
[30], consiste à associer à chaque classe c ∈ Y la cième ligne d’une matrice de codage M ∈
M(m,n) ({−1, +1}) où n désigne la longueur du vecteur de codage. Chaque colonne s de la
matrice M définit un problème de discrimination binaire dans lequel les observations de la
classe c sont étiquetées par M (c, s). Après avoir estimé des modèles SVM binaires sur tous les
jeux de données induits par les colonnes de la matrice M, nous obtenons n fonctions de décision
fs , s = 1, . . . , n. Une nouvelle observation x est ainsi affectée à la classe qui correspond à la
ligne de la matrice M la plus proche du vecteur (f1 (x) , . . . , fn (x)) .
La version généralisée proposée par Allwein et al. [5] diffère de celle introduite par Dietterich
et al. [30] par sa matrice de codage. En effet, la matrice de codage M est prise dans un espace
plus vaste contenant le chiffre zéro, soit donc M ∈ M(m,n) ({−1, 0, +1}) . L’apparition du zéro
dans la ligne c indique que nous ne prenons pas en considération les observations de la classe c.
Pour l’approche une-contre-reste, la matrice de codage est carrée d’ordre m remplie de −1 sur
la diagonale et de +1 ailleurs. Pour l’approche une-contre-une, M ∈ M(m,n) ({−1, 0, +1}) avec
n=
m(m−1)
.
2
Dans cette matrice chaque colonne correspond à la confrontation des observations
de deux classes distinctes c1 et c2 . Sur cette colonne nous plaçons +1 sur la ligne c1 , −1 sur la
ligne c2 et 0 pour le reste des lignes.
98
Chapitre 5
5.3. Unification des méthodes par les codes correcteurs d’erreurs
Il est donc clair que la subdivision du problème multiclasse en une collection de sousproblèmes binaires dépend étroitement de la forme de la matrice de codage employée. Le choix
de la matrice de codage a une grande influence sur la complexité des sous-problèmes ainsi que
sur la qualité des résultats obtenus.
Soit M (c) la ligne c de la matrice de codage M et soit f (x) = (f1 (x) , . . . , fn (x)) le vecteur
des prévisions obtenues pour une nouvelle observation x. Ainsi, cette observation x sera affecté
à la classe c qui minimise la distance d (M (c) , f (x)) pour une certaine métrique d. La métrique
la plus utilisée dans ce contexte est la distance de Hamming. Une autre distance, semble être
plus adaptée à ce genre de problème, a été introduite par Allwein et al. [5] car elle tient compte
de l’ampleur de la marge qui représente une mesure de confiance pour les SVM.
Allwein et al. [5] ont comparé cinq types de matrices de codage sur différents jeux de données
et ils ont abouti au fait que les performances prédictives de la décomposition une-contre-reste
sont significativement inférieures à celles des autres codes y compris l’approche une-contre-une.
En revanche, les résultats qu’ils ont obtenus ne permettent pas de distinguer le meilleur schéma
de décomposition.
5.3.2
Décodage basé sur la distance de Hamming
La distance de Hamming est définie initialement pour des vecteurs appartenant à {−1, +1}n .
Une simple généralisation de cette distance entre deux vecteurs u et v ∈ {−1, 0, +1}n est donnée
par :
dH =
n − hu · vi
.
2
La règle de classification multiclasse basée sur la distance de Hamming est :
k ∗ = Arg min dH (M (k) , sign (f (x))) .
1≤k≤m
L’inconvénient majeur de cette méthode est qu’elle ne prend en considération que les signes
des fonctions de décision fs (x) et ignore entièrement leurs ampleurs. Et on sait que pour les
SVM, l’ampleur de fs (x) est en relation directe avec la marge qui est l’indicateur du degré de
confiance en prévision.
5.3.3
Décodage basé sur la fonction de perte
Allwein et al. [5] ont proposé une autre métrique qui tient compte de l’ampleur de fs (x) .
Dans cette métrique, ils utilisent une fonction de perte dépendant de la marge. Le travail de
99
Chapitre 5
5.3. Unification des méthodes par les codes correcteurs d’erreurs
Schölkopf et al. [80] montre que la fonction de perte spécifique aux SVM est de la forme L (z) =
(1 − z)+ = max {1 − z, 0}.
La règle de classification multiclasse basée sur la fonction de perte est :
∗
k = Arg min dL (M (k) , f (x)) =
1≤k≤m
n
X
s=1
L (M (k, s) × fs (x)) .
En d’autres termes, une nouvelle observation x est affectée à la classe qui minimise la perte
totale réalisée par les fonctions fs (x) , s = 1, . . . , n.
5.3.4
Quelques équivalences entre les approches
Dans ce paragraphe nous démontrons deux équivalences : la première entre les approches
“winner-takes-all” (introduite au paragraphe 5.2.1) et la méthode de décodage basée sur la
fonction de perte et la deuxième entre les approches “max-wins” (introduite au paragraphe
5.2.2) et la méthode de décodage basée sur la distance de Hamming.
Winner-takes-all et décodage basé sur la fonction de perte
Pour démontrer l’équivalence entre ces deux approches il suffit d’établir l’égalité suivante :
Arg max fk (x) = Arg min
1≤k≤m
1≤k≤m
n
X
s=1
L (M (k, s) × fs (x)) .
(5.10)
et on rappelle que
L (M (k, s) × fs (x)) = (1 − M (k, s) fs (x))+ = max {1 − M (k, s) fs (x) , 0} ,
avec M (k, s) = 1 si k = s et −1 sinon pour l’approche de décomposition une-contre-reste.
Sans perte de généralité supposons que f1 (x) ≥ f2 (x) ≥ · · · ≥ fm (x). Dans ce cas,
Arg max fk (x) = 1. Pour établir l’égalité (5.10) on démontre sans difficulté les deux inégal1≤k≤m
ités suivantes :
u ≤ v =⇒ max {1 + u, 0} ≤ max {1 + v, 0}
u ≤ v =⇒ max {1 − u, 0} ≥ max {1 − v, 0}
D’après notre supposition et les inégalités précédentes on obtient
£
¤
L (M (1, s) fs (x)) − L (M (k, s) fs (x)) = (1 − f1 (x))+ + (1 + fk (x))+ −
¤
£
(1 + f1 (x))+ + (1 − fk (x))+ ≤ 0 ∀k 6= 1.
Par suite Arg min
1≤k≤m
Pp
s=1
L (M (k, s) × fs (x)) = 1, d’où l’équivalence.
100
Chapitre 5
5.4. Approches directes
Max-wins et décodage basé sur la distance de Hamming
Pour démontrer l’équivalence entre ces deux approches, il suffit d’établir l’égalité suivante :
Arg max hk (x) = Arg min dH (M (k) , sign (f (x)))
1≤k≤m
où hk (x) =
P
s6=k
1≤k≤m
sign (hks (x)) , M (k) est la kème ligne de la matrice de codes pour la dé-
composition une-contre-une et f (x) = {fks (x) /k < s ; k, s ∈ {1, 2, . . . , m}} est un vecteur de
longueur
m(m−1)
.
2
Pour le schéma de décomposition une-contre-une, la matrice de codes M appartient à :
M(m, m(m−1) ) ({−1, 0, +1}) .
2
Chaque colonne de cette matrice correspond à une fonction de décision binaire fks (x) , k < s.
Cette colonne contient 1 à la kème ligne, −1 à la sème ligne et des zéros ailleurs.
Suite à cette vision du problème, on a
dH (M (k) , sign (f (x))) =
m(m−1)
2
− hM (k) .sign (f (x))i
,
2
et comme fks (x) = −fsk (x), on vérifie facilement que
hM (k) · sign (f (x))i =
X
sign (fks (x)) = hk (x),
s6=k
d’où l’équivalence entre les deux approches.
5.4
Approches directes
Dans cette section nous présentons deux approches directes pour la discrimination multiclasse. Contrairement aux schémas de décomposition ces approches consistent à séparer les
classes en résolvant un unique problème d’optimisation.
5.4.1
Optimisation globale
Une façon naturelle pour résoudre les problèmes multiclasses consiste à réaliser une séparation
linéaire par morceaux10 des m classes en résolvant un unique programme d’optimisation. Chaque
classe est séparée du reste par une frontière linéaire par morceaux.
Cette approche dite directe, a été proposée par Vapnik [91] et mise en œuvre par Weston et
al. [97]. Le problème d’optimisation (2.12) donnant lieu à l’hyperplan à marge maximale peut
10
Voir Bennett et al. [14].
101
Chapitre 5
5.4. Approches directes
être facilement généralisé au cas multiclasse. Soit lk le nombre d’observations de Sl appartenant
P
à la classe k, on a donc m
k=1 lk = l.
Le problème à m classes est alors formulé comme suit :
Pm
kwk k2 + C
Pm Plk
ξ ki ,
Minimiserwk ,ξ,b
1
2
sous
hwk · xi i + bk − hws · xi i − bs ≥ 2 − ξ ki , pour yi = k,
k=1
k=1
i=1
(5.11)
ξ ki ≥ 0, i = 1, . . . , lk , k = 1, . . . , m et s 6= k.
Ce problème contient (m − 1)l contraintes et il donne lieu à la règle de décision
f (x) = Arg max fk (x) = Arg max (hwk · xi + bk )
1≤k≤m
1≤k≤m
Notons tout d’abord que la somme sur les m classes fait la différence entre le problème (5.11)
et celui du cas binaire. Pour m = 2 cette formulation du problème d’optimisation se réduit au
problème (2.12) en posant w1 = −w−1 , b1 = −b−1 et

 ξ = 1 ξ 1 si x ∈ classe (+1)
i
i
2 i
 ξ = 1 ξ −1 si x ∈ classe (−1)
i
i
2 i
En introduisant les multiplicateurs de Lagrange et en résolvant les conditions de stationnarité
nous aboutissons à la forme duale du problème (5.11). Le problème dual correspondant consiste
à maximiser
" l
m X X
k
X
LD (α) =
k=1 s6=k
+
i=1
lq
ls X
X
i=1 j=1
sous les contraintes
P
s6=k
Plk
i=1
1X
αk,s
−
i
2 q6=k
Ã
lk
X
i,j=1
®
k,s ­ k
αk,q
xi · xkj
i αj
!#
lk X
ls
X
­
®
­
®
q,k
s,k
xsi · xqj − 2
xki · xsj
αs,k
αk,q
i αj
i αj
i=1 j=1
αk,s
i =
P
s6=k
0≤
P
Pls
j=1
s6=k
αs,k
j , k = 1, 2, . . . , m.,
αk,s
i ≤ C
La solution de ce problème est un ensemble de fonctions fk (x), k = 1, 2, . . . , m., ayant
l’expression suivante :
fk (x) =
lk
XX
s6=k i=1
αk,s
i
ls
­ k ® XX
­ s ®
αs,k
xi · x +
xj · x + bk
j
s6=k j=1
Pour un développement plus détaillé le lecteur peut se reporter au chapitre 10 du livre de
Vapnik [91] et au travail de Weston et al. [97].
Notons que pour m = 2 cette solution coïncide avec la solution trouvée pour le cas binaire.
Pour m > 2, nous aurons à déterminer simultanément (m − 1)l paramètres αk,s
i .
102
Chapitre 5
5.4. Approches directes
Dans le cas non-linéairement séparable, nous n’avons qu’à remplacer le produit scalaire standard par un noyau de Mercer et tout le travail se ramène dans l’espace transformé induit par le
noyau employé.
La figure 5.12 montre des exemples de séparations linéaires par morceaux que nous pouvons
obtenir suite à la résolution du problème (5.11).
C lasse1
C lasse2
C lasse3
Fig. 5.12: Exemples de séparations linéaires par morceaux.
À première vue, il paraît que l’approche directe est identique à l’approche une-contre-reste
étant donnée que chacune des deux méthodes finit par définir m hyperplans séparateurs associés
aux fonctions fk (x), k = 1, 2, . . . , m. En réalité, les deux approches sont différentes. En effet,
l’approche directe cherche à déterminer simultanément les m hyperplans séparant une classe des
autres, ce qui n’est pas le cas pour l’approche une-contre-reste dans laquelle chaque hyperplan
est déterminé indépendamment des autres en résolvant séparément m problèmes d’optimisation.
Vapnik a utilisé l’approche une-contre-reste dans ses expérimentations pour deux raisons : la
première est purement calculatoire quant à la deuxième, elle lui a permis de diversifier les noyaux
dans les m programmes, ce qui n’est pas possible dans l’approche directe vu que l’optimisation
des m hyperplans séparateurs se fait simultanément.
5.4.2
SVM binaire augmentée
Cette méthode consiste à remplacer le problème multiclasse par un problème binaire en
restructurant l’architecture des données d’apprentissage au moyen d’une fonction de transformation. Cette technique a été adoptée dans les travaux Franc et al. [35], de Har-Peled et al. [46]
et de Anguita et al. [8].
Étant donnée un échantillon S de taille l à m classes, sa transformation consiste à reproduire
103
Chapitre 5
5.4. Approches directes
chaque observation m fois et enchaîner à chaque copie un vecteur vk de longueur m :



(xi |v1 , yi1 )




 (x |v2 , y 2 )
i
i
(xi , yi ) =⇒
.

..





 (x |vm , y m )
i
(5.12)
i
où le symbole “|” désigne la concaténation de vecteurs et vk est défini par :

 +1 si i = k
vik =
 −1 si i 6= k
et

 +1 si k = yi
.
yik =
 −1 si k 6= y
i
Ainsi, on obtient un nouvel échantillon biclasse de taille ml; m observations sont dans la
classe positive et les m(l − 1) autres observations sont dans la classe négative. Le nombre de
variables explicatives est augmenté de m composantes.
Après avoir transformé les données on résout le problème (2.5) pour obtenir la fonction de
décision habituel f (z) = hw∗ · zi + b∗ où w∗ , z ∈ Rp+m et y ∈ {−1, +1} .
Pour classer une nouvelle observation x, on lui applique la procédure de transformation
décrite ci-dessus :



z1 = x|v1



..



.


x =⇒
zk = x|vk



..


.




 z = x|vm
m
et la règle de classification multiclasse sera donnée par :
¡
¢
k∗ = Arg max f x|vk , où x|vk est la kème copie augmentée de x.
(5.13)
1≤k≤m
Dans le cas où la procédure de transformation de l’échantillon initial S donne lieu à un jeu de
données linéairement séparable, la méthode ci-dessus présentée fournit des résultats de prévision
¡
¢
très médiocres. Pour mettre au clair ce défaut, il suffit de décomposer la fonction f x|vk de la
façon suivante :
¡
­
¢ ­
¢®
®
¡
f x|vk = w∗ · x|vk + b∗ = hw1∗ · xi + b∗ + w2∗ · vk ,
avec w∗ = w1∗ |w2∗ , w1∗ ∈ Rp et w2∗ ∈ Rm .
104
Chapitre 5
5.5. Sélection de variables
On voit clairement que la quantité hw1∗ · xi + b∗ est constante pour toutes les m copies de x
­
®
et seule la partie w2∗ · vk varie en fonction de k. Ainsi, la règle de classification (5.13) se réduit
à:
­
®
k∗ = Arg max w2∗ · vk .
(5.14)
1≤k≤m
Les règles de décision (5.4) et (5.14) sont identiques.
Le défaut majeur de cette règle est qu’elle ignore complètement les variables explicatives
initiales (i.e. les composantes initiales de l’observation x). Ainsi, la transformation (5.12) ne
conserve aucune information du problème initial. Par conséquent, toutes les observations de
l’échantillon test seront classées dans la même classe k∗ qui correspond au vecteur d’augmenta∗
tion vk , ce qui engendre un taux d’erreur assez élevé.
En revanche, il semble que la méthode des SVM binaires augmentées donne des résultats acceptables dans le cas où la transformation (5.12) donne lieu à un jeu de données non-linéairement
séparable. En effet, l’utilisation d’un noyau non-linéaire dans le problème d’apprentissage du
modèle SVM combine, d’une façon ou d’une autre, les composantes du vecteur x|vk ce qui
garantit le transfert des caractéristiques du problème initial à la règle de classification (5.13)
(voir la formule (2.16) pour le cas polynomial). La combinaison des composantes initiales dépend
de la nature du noyau employé.
5.5
Sélection de variables
Beaucoup d’applications réelles nécessitent une sélection de variables dans le contexte d’une
discrimination multiclasse. Ce problème de réduction de dimension constitue un volet motivant
de la recherche qui demeure aujourd’hui ouvert et entièrement à développer. De manière plus
spécifique, la théorie statistique des SVM biclasses et la diversité des approches SVM multiclasses proposées n’autorisent pas une simple extension des critères d’importance des variables
introduits dans le chapitre 3 aux situations multiclasses. Toutes ces difficultés n’ont pas empêché quelques auteurs de faire des tentatives d’extension, mais totalement dépourvues de bases
théoriques défendables.
Face à l’accroissement rapide des tailles des bases de données, il est nécessaire de développer
de nouveaux algorithmes de sélection de variables facilitant à la fois leur traitement et l’interprétation des résultats qui en découlent. Les algorithmes de sélection de variables permettent
d’extraire une information non redondante et pertinente en vue d’une exploitation efficace des
données. Ils font l’objet d’une littérature abondante depuis une dizaine d’années.
105
Chapitre 5
5.5.1
5.5. Sélection de variables
Extension des scores
Dans ce travail, nous nous focalisons principalement sur l’extension des scores d’importance
dérivés des SVM que nous avons excessivement analysés au cours de notre troisième chapitre.
L’extension de ces scores aux cas multiclasses n’est pas simple. En effet, la notion de marge
globale n’existe pas dans le contexte multiclasse. Malgré cette difficulté, il est naturel de considérer comme score d’évaluation d’une variable son influence sur l’ensemble des marges ou des
bornes issues des différents sous-problèmes de discrimination binaires de la décomposition adoptée. Pour cela, Weston et al. [98] ont considéré la somme des scores relatifs aux sous-problèmes
binaires.
En s’inspirant du concept de la séparabilité des classes dans le contexte de la reconnaissance
de formes, Wang et al. [96] ont proposé une extension indirecte de la marge pour l’approche
une-contre-une, soulignant qu’une extension directe n’est pas évidente dans la mesure où la
notion de marge est spécifique au cas biclasse. Cette marge généralisée est la somme pondérée
des marges correspondantes aux sous-problèmes binaires et elle est donnée par :
γ̄ 2 =
X
Pk Ps γ 2ks ,
(5.15)
1≤k<s≤m
où γ ks est la marge du modèle SVM obtenue en discriminant les classes k et s et Pk =
lk
,
l
(k = 1, . . . , m) est la probabilité a priori de la kème classe estimée à partir de l’échantillon
d’apprentissage.
Cette définition généralisée de la notion de marge pour l’approche une-contre-une permet
d’obtenir des bornes majorantes pour son erreur de généralisation.
De-Souza et al. [27] ont proposé de combiner les SVM et les algorithmes génétiques pour la
sélection de variables dans le cadre des applications provenant de la technologie des biopuces. Il
s’est avéré que cette approche se prête bien à ce genre de données vue le fléau de la dimension
qu’elles présentent. La tâche de sélection de gènes est imbriquée dans la fonction coût11 relative
aux algorithmes génétiques.
Pour des raisons de complexité, nous allons nous restreindre aux scores d’ordre un, obtenus
par différentiation. Nous adopterons les notations suivantes au cours de nos expériences :
P
P
P
•
∂W,
∂RW et
∂Spb pour les scores obtenus en faisant la somme sur tous les sous-
11
12
ovr
ovr
ovr
ovo
ovo
ovo
problèmes relatifs à la décomposition une-contre-reste12 .
P
P
P
•
∂W,
∂RW et
∂Spb pour les scores obtenus en faisant la somme sur tous les sousDite “fitness function” en anglais.
L’indice ovr désigne le schéma de décomposition One-Versus-Rest.
106
Chapitre 5
5.5. Sélection de variables
problèmes relatifs à la décomposition une-contre-une13 .
P
P
•
∂W et
∂RW pour les scores obtenus sur la base de la marge généralisée (5.15).
wei
wei
Rappelons que ces scores ne sont calculés que pour le schéma de décomposition unecontre-une14 .
5.5.2
Données simulées multiclasses
Dans le but de vérifier la capacité des différents scores à retrouver les variables importantes,
nous allons commencer par les comparer sur des données multiclasses simulées. Les m classes des
données que nous proposons ici sont linéairement séparables par les deux schémas de décomposition ; une-contre-reste et une-contre-une. Les deux premières variables déterminent entièrement
le modèle, les autres constituent le bruit. Les m classes sont équiprobables ; Pr (y = c) =
1
,
m
c = 1, . . . , m.
Comme pour les données biclasses, on procède au préalable à une normalisation des données
en centrant et réduisant toutes les variables.
m=4
1
1
0
0
2
2
x
x
2
m=3
2
-1
-2
-2
-1
-1
0
x
1
-2
-2
2
-1
1
0
x
1
2
1
2
1
m=5
m=6
1.5
1.5
1
1
0.5
0.5
2
x
x
2
0
0
-0.5
-0.5
-1
-1
-1.5
-2
-2
-1
0
x
1
2
-1.5
-2
1
-1
0
x
1
Fig. 5.13: Répartition des classes en fonction des deux premières variables. Chaque couleur
correspond à une classe.
L’idée de construction consiste à subdiviser le disque en m morceaux égaux. Chaque région
comprise entre l’arc et la corde correspondante est réservée à une classe. Les variables bruits ra13
14
L’indice ovo désigne le schéma de décomposition One-Versus-One.
L’indice wei désigne la somme pondérée (weighted sum).
107
Chapitre 5
5.6. Simulations et applications
joutées suivent la distribution gaussienne. On montre facilement que ces données restent linéairement séparables quels que soient le nombre et la distribution des variables bruits. De plus, on voit
clairement que les deux premières variables, originellement importantes, ne sont pas linéairement
corrélées. La figure 5.13 donne une idée graphique sur la conception des données, elle montre la
répartition des individus en fonction de x1 et x2 pour différents nombres de classes.
La figure 5.14 montre l’histogramme des deux variables importantes.
x
x
1
120
2
80
70
100
60
80
Fréquence
Fréquence
50
60
40
30
40
20
20
10
0
-2
-1
0
1
2
0
-2
-1
0
1
2
Fig. 5.14: Estimation des distributions des deux premières variables des données simulées multiclasses. Ces deux variables déterminent le modèle.
5.6
Simulations et applications
L’objectif de cette section est d’appliquer notre procédure de sélection de variables 3.3 aux
données simulées et à des données de biopuces en utilisant différents scores du paragraphe
précédent. Une comparaison avec les méthodes alternatives introduites au chapitre 4 est aussi
envisagée.
5.6.1
Hiérarchies des variables pour les données simulées
Dans ces expériences, nous vérifions la capacité des différents scores à bien classer les variables
importantes, les deux premières, en présence d’un grand nombre de variables bruits. Nous fixons
la taille des échantillons à l = 60 et nous faisons varier le nombre de variables p de 1000, 2000
et 3000 et le nombre de classes m de 3 à 6. À chaque configuration, les variables sont rangées
par ordre décroissant d’importance selon le score moyen calculé sur 100 échantillons bootstrap.
Dans chacune des 12 configurations considérées, les deux variables importantes occupent les
deux premiers rangs des hiérarchies établies par tous les scores.
108
Chapitre 5
5.6. Simulations et applications
Afin d’examiner les similarités entre les huit scores, nous avons calculé les coefficients de
corrélation des rangs de Spearman. Le tableau 5.1 expose la matrice de corrélations obtenue
pour les huit hiérarchies dans le cas où p = 3000 et m = 6.
P
P
P
P
P
∂W
∂RW
∂Spb
∂W
∂RW
ovr
ovr
ovr
ovo
ovo
P
∂W
1
0.96
0.87
0.96
0.96
ovr
P
∂RW
1
0.85
0.93
0.95
ovr
P
∂Spb
1
0.85
0.85
ovr
P
∂W
1
0.99
ovo
P
∂RW
1
ovo
P
∂Spb
ovo
P
∂W
wei
P
∂RW
P
∂Spb
ovo
P
∂W
wei
0.83
P
∂RW
wei
0.93
0.90
0.81
0.89
0.89
0.89
0.80
0.77
0.88
0.90
0.86
0.88
0.89
0.85
1
0.77
0.70
1
0.97
1
wei
Tab. 5.1: Matrice de corrélations des rangs de Spearman pour les huit scores moyens obtenus
sur 100 échantillons bootstrap ; l = 60, p = 3000 et m = 6.
L’examen de la matrice 5.1 révèle une corrélation relativement forte entre les scores déduits
des critères ∂W et ∂RW. Cette corrélation est légèrement plus forte lorsqu’il s’agit de la même
méthode d’agrégation. En revanche, les hiérarchies basées sur les scores dérivés du critère Spb
semblent être les moins corrélées avec les autres.
5.6.2
Sélection de modèle pour les données simulées
Nous évaluons ici la capacité de notre procédure de sélection de variable 3.3 introduite au
chapitre 3 à trouver le modèle optimal en utilisant tous les scores présentés précédemment. Nous
utilisons les trois approches indirectes RADAG, décodage basé sur la distance de Hamming et
décodage basé sur la fonction de perte.
La figure 5.15 montre l’évolution du taux d’erreur calculé sur un échantillon test dix fois
plus grand que celui d’apprentissage. La taille l des échantillons d’apprentissage est fixée à 60,
le nombre de classes à m = 3 et nous varions le nombre de variables p de 500 et 1000.
Pour p = 500 nous introduisons séquentiellement les variables une par une selon l’ordre
décroissant d’importance. Afin d’accélérer notre procédure dans le cas où p = 500, nous avons
choisi d’introduire les 100 premières variables une par une, les deux suivantes par paquet de 5,
les 200 d’après par paquet de 10 et le reste des variables par paquet de 20. L’allure des courbes
obtenues est identique à celle du cas binaire. Le taux d’erreur décroît considérablement au
109
Chapitre 5
5.6. Simulations et applications
m=3
Hamming-decoding
Taux d'erreur : 500 variables
RADAG
0.7
0.7
0.6
0.6
0.6
0.5
0.5
0.5
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0.1
0
0
10
Taux d'erreur : 1000 variables
Loss-decoding
0.7
10
2
10
4
0
0
10
10
2
10
4
0
0
10
0.8
0.8
0.7
0.7
0.7
0.6
0.6
0.6
0.5
0.5
0.5
0.4
0.4
0.4
0.3
0.3
0.3
0.2
0.2
0.2
0.1
0.1
0
10
0.1
0
10
10
2
10
4
10
2
10
4
0
0
10
10
10
2
2
10
10
4
4
Fig. 5.15: Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux
correspond à une approche multiclasse et chaque ligne de panneaux correspond à un nombre de
variables (p = 500, 1000). Le nombre de classes est fixé à m = 3 et le nombre d’observations à
l = 60.
moment où l’on introduit la deuxième variable la plus importante. L’approche RADAG semble
être la plus efficace à retrouver le modèle optimal.
La figure 5.16 est l’analogue de la figure 5.15 pour m = 6. Les deux panneaux de la première
colonne de ce graphique confirment la bonne performance de l’approche RADAG. L’approche
basée sur la distance de Hamming est plus fine en utilisant la décomposition une-contre-une. En
effet, l’examen des deux panneaux de la deuxième colonne montre que les courbes correspondant
à la décomposition une-contre-reste sont situées légèrement au dessus de celles qui correspondent
à la décomposition une-contre-une. Ce n’étant pas le cas pour l’approche basée sur la fonction
de perte.
Nous remarquons que le taux d’erreur optimal obtenu dans tous les cas augmente en fonction
du nombre de variables.
5.6.3
Descriptif des données de biopuces
Les données de biopuces auxquelles nous nous intéressons ici concernent l’identification des
gènes contrôlant la résistance de l’hôte au neuropaludisme (Plasmodium berghei ANKA). Ces
données sont issues d’expériences géniques réalisées au sein de la faculté de médecine de Marseille.
Des profils d’expression de cerveaux de souris ont été étudiés à l’aide de puces d’ADN chez
110
Chapitre 5
5.6. Simulations et applications
m=6
Hamming-decoding
RADAG
Taux d'erreur : 500 variables
0.8
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0
0
10
Taux d'erreur : 1000 variables
Loss-decoding
1
0.2
0.2
10
2
10
4
0
0
10
10
2
10
0
0
10
4
1
1
1
0.8
0.8
0.8
0.6
0.6
0.6
0.4
0.4
0.4
0.2
0.2
0.2
0
0
10
10
2
10
4
0
0
10
10
2
10
4
0
0
10
10
10
2
2
10
10
4
4
Fig. 5.16: Évolution du taux d’erreur des modèles emboîtés. Chaque colonne de panneaux
correspond à une approche multiclasse et chaque ligne de panneaux correspond à un nombre de
variables (p = 500, 1000). Le nombre de classes est fixé à m = 6 et le nombre d’observations à
l = 60.
quatre lignées murines génétiquement bien définies : les lignées BALB/c et DBA/2, qui sont
résistantes au neuropaludisme, et les lignées C57BL/6 et CBA/J, qui y sont sensibles. L’analyse
biologique menée sur ces données a permis d’identifier une liste des gènes qui discrimine parfaitement les quatre lignées entre elles ainsi que les lignées résistantes des lignées sensibles au
neuropaludisme. La liste des gènes présentant une expression différentielle significative entre les
lignées résistantes et les lignées sensibles au neuropaludisme a été aussi identifiée. Les résultats
biologiques obtenus démontrent que les analyses de puces à ADN peuvent être utiles à l’identification de gènes candidats potentiellement impliqués dans la résistance ou la sensibilité au
neuropaludisme murin, et suggèrent que les gènes candidats identifiés chez la souris soient testés
en priorité chez l’homme dans le cadre d’études d’association avec la sévérité de la maladie.
Après avoir éliminé les gènes présentant des observations manquantes notre jeu de données
est réduit à 1733 gènes pour 67 observations.
5.6.4
Résultats sur les données de biopuces
Notre objectif principal est de confronter les résultats statistiques et biologiques concernant
les gènes sélectionnés. Les résultats de ce paragraphe sont en cours d’analyse avec les biologistes.
111
Chapitre 5
5.7
5.7. Conclusion
Conclusion
Nous avons commencé ce chapitre par une synthèse des différentes approches des SVM multiclasses. L’ensemble de toutes ces approches est subdivisé en deux grandes familles : indirecte et
directe. À travers une analyse minutieuse de ces approches nous avons pu mettre en lumière leurs
atouts et leurs défauts. Des équivalences entre certains de ces approches ont été aussi établies.
La généralisation de notre procédure de sélection de variables introduite au chapitre 3 est
l’un des principaux objectifs de ce chapitre. Pour la famille des approches directes, l’extension
des scores d’importance déduits des SVM consiste à considérer la somme ou la somme pondérée
des scores calculés à partir des sous-problèmes binaires issus de la décomposition adoptée.
Les résultats obtenus sur des données simulées linéairement séparables montrent l’efficacité
de notre procédure à retrouver le modèle optimal en présence d’un grand nombre de variables
bruits et pour différents nombres de classes. Le schéma de décomposition une-contre-une semble
plus performant que celui de la décomposition une-contre-reste surtout lorsque le nombre de
variables est assez élevé. De plus le décodage basé sur la fonction de perte domine en performance
le décodage basé sur la distance de Hamming.
Le deuxième objectif principal de ce chapitre s’articule autour d’une application sur des
données de biopuces effectuée en collaboration avec des chercheurs en biologie médicale. Nous
désirons donner un sens biologiques aux résultats statistiques obtenus par notre procédure de
sélection de variables. Les premiers résultats sont prometteux et le reste de ce travail est en
cours d’analyse avec les biologistes.
112
113
Conclusion générale et perspectives
Le but de ce travail était le développement d’un nouvel algorithme permettant la sélection de
variables pour la classification en grande dimension. Notre procédure exploite essentiellement la
richesse du bagage théorique sur lequel sont basées les machines à vecteurs supports. L’analyse de
l’existant nous a permis de mettre en évidence un certain nombre de faiblesses : l’instabilité des
scores d’importance des variables vis-à-vis des données, le biais de sélection et la non efficacité
de certaines méthodes de sélection.
Les résultats présentés ont des aspects et des intérêts divers. Certains sont d’ordre méthodologiques, ils proposent de nouvelles approches de résolution pour le problème de sélection de
variables en classification binaire et multicatégorielle. D’autres ont plutôt un aspect théorique
et constituent une modeste contribution au contexte des scores d’importance dérivés des SVM
d’une part et des SVM multiclasses d’autre part.
À travers ce travail, nous souhaitons apporter, aux biologistes et aux praticiens intéressés par
le thème de sélection de variables, des outils statistiques et des recommandations leur permettant
de mieux purifier le grand nombre de variables recueilli lors des expérimentations. Mises à part les
considérations statistiques, l’identification des variables importantes fait rapporter au praticien
des gains importants. Notamment, en terme de temps qu’en terme de coût nécessaires pour
conduire ses essais.
Le thème de la sélection de variables en grande dimension demeure sans doute l’un des
domaines de recherche les plus ouverts et les plus attrayants aussi bien en statistique qu’en
bioinformatique. Le développement de cette thèse de doctorat a permis d’atteindre l’objectif
visé : proposer une procédure efficace de sélection de variables pour la classification en grande
dimension. Cependant, il est certain que les solutions proposées sont ni optimales ni générales
et donc que certaines améliorations et extensions sont possibles.
Techniquement, nous pensons à l’extension de ce travail au contexte de la régression. Par
ailleurs, l’exploitation des développements récents sur les SVM multiclasses pourrait aider à proposer des approches directes et plus performantes pour la sélection de variables. Pratiquement,
Conclusion générale et perspectives
nous envisageons de multiplier les outils et diversifier les applications en collaborant avec des
chercheurs travaillant dans différents domaines.
Nous souhaitons que les idées recueillies dans cette étude servent pour des travaux empiriques
et des futures recherches qui seront menés dans ce champ très actif.
Enfin, il est toujours important de se rendre compte que la fin d’un travail de thèse n’est que
le début de nouveaux projets de recherche et d’une carrière que nous espérons prospère ;
“Chaque progrès donne un nouvel espoir, suspendu à la solution d’une nouvelle difficulté. Le
dossier n’est jamais clos.”
Claude Lévi-Strauss. Le Cru et le Cuit, (1964).
114
115
Bibliographie
[1] S. Abe. Analysis of multiclass support vector machines. In Proceedings of International
Conference on Computational Intelligence for Modelling Control and Automation, pages
385-396, Vienna, Austria, (2003).
[2] S. Abe and T. Inoue. Fuzzy support vector machines for multiclass problems. In Proceedings of the Tenth European Symposium on Artificial Neural Networks, pages 116-118,
Bruges, Belgium, (2002).
[3] E. Acuña. A comparison of filters and wrappers methods for feature selection methods in
supervised classification. Proceedings of the Interface 2003 Computing Science and Statistics, Vol 34, (2003).
[4] A. A. Alizadeh. Distinct types of diffues large b-cell lymphoma identified by gene expression profiling. Nature, 403 : 503-511, (2000).
[5] E. L. Allwein, R. E. Schapire, and Y. Singer. Reducing Multiclass to Binary : A Unifying Approach for Margin Classifiers. Journal of Machine Learning Research, 1 : 113-141,
(2000).
[6] U. Alon, N. Barkai, D. A. Notterman, K. Gish, S. Ybarra, D. Mack, and A. J. Levine.
Broad patterns of gene expression revealed by clustering analysis of tumor and normal
colon tissues probed by oligonucleotide arrays. Proc Natl Acad Sci USA, Cell Biology,
96(12) : 6745-6750, (1999).
[7] C. Ambroise and G. J. McLachlan. Selection bias in gene extraction on the basis of microarray gene-expression data. National Academy of Sciences, 99(10) : 6562-6566, (2002).
[8] D. Anguita, S. Ridella, and D. Sterpi. A New Method for Multiclass Support Vector
Machines. Proc. IEEE Int. Joint Conf. on Neural Networks, Budapest, Hungary, (2004).
[9] P. L. Bartlett and J. Shawe-Taylor. Generalization performance of support vector machines
and other pattern classifiers. In B. Schölkopf, C. J. C. Burges, and A. J. Smola, editors,
Bibliographie
Advances in Kernel Methods - Support Vector Learning, pages 43-54, The MIT Press,
Cambridge, (1999).
[10] P. L. Bartlett, S. Boucheron, and G. Lugosi. Model selection and error estimation. Machine
Learning, 48(1-3) : 85—113, (2002).
[11] M. Bazaraa and C. M. Shetty. Nonlinear programming. John Wiley, New York, (1979).
[12] A. Ben Ishak and B. Ghattas. An efficient method for variable selection using svm-based
criteria. Pré-publication de l’Institut de Mathématiques de Luminy, Marseille, France,
(2005).
[13] Y. Bengio. Gradient-based optimisation of hyper-parameters. Neural Computation, 12(8),
(2000).
[14] K. Bennett and O .L. Mangasarian. Multicategory discrimination via linear programming.
Optimization Methods and Software, Vol. 3, pp. 27-39, (1993).
[15] A. Boser, I. Guyon, and V. N. Vapnik. A training algorithm for optimal margin classifiers. In Fifth Annual Workshop on Computational Learning Theory, ACM, pages 144-152,
Pittsburgh, (1992).
[16] P. S. Bradley and O. L. Mangasarian. Feature selection via concave minimization and
support vector machines. In Proc. 15th International Conference on Machine Learning,
pages 82-90. Morgan Kaufmann, San Francisco, CA, (1998).
[17] L. Breiman. Bagging predictors. Machine Learning, 24(2) : 123—140, (1996).
[18] L. Breiman. Random forests. Machine Learning, 45(1) : 5—32, (2001).
[19] L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification And Regression Trees.
Wadsworth and Brooks„ (1984).
[20] S. Canu, Y. Grandvalet, and A. Rakotomamonjy. SVM and Kernel Methods MATLAB Toolbox. Perception de Systèmes et Information, INSA de Rouen, France,
http ://asi.insarouen.fr/~arakotom/toolbox/index, (2003).
[21] N. Chapados and Y. Bengio. Comment améliorer la capacité de généralisation des algorithmes d’apprentissage pour la prise de décisions financières. Document de travail paru
dans les cahiers de la série scientifique du CIRANO, Université de Montréal, (2003).
[22] O. Chapelle. Support Vector Machines : Principes d’induction, Réglage automatique et
Connaissances a priori. PhD thesis, Université Pierre et Marie Curie-Paris VI, (avril 2004).
[23] O. Chapelle, V. N. Vapnik, O. Bousquet, and S. Mukherjee. Choosing multiple parameters
for support vector machines. Machine Learning, 46(1-3) : 131-159, (2002).
116
Bibliographie
[24] C. Cortes and V. N. Vapnik. Support vector networks. Machine Learning, 20(3) : 273-297,
(1995).
[25] N. Cristianini and J. Shawe-Taylor. Introduction to Support Vector Machines and other
kernel-based learning methods. Cambridge University Press, United Kingdom, (2000).
[26] Y. Darcy and Y. Guermeur. Radius-margin Bound on the Leave-one-out Error of Multiclass SVMs. Technical Report RR-5780, INRIA, (2005).
[27] B. F. De-Souza and A. P. de Carvalho. Gene selection based on multi-class support vector
machines and genetic algorithms. Genetics and Molecular Research, 4 (3) : 599-607, (2005).
[28] P. A. Devijver and J. Kittler. Pattern Recognition : A Statistical Approach. Prentice-Hall
International, Englewood Cliffs, NJ, (1982).
[29] R. Díaz-Uriarte and S. Alvarez de Andrés. Gene Selection and classification of microarray
data using random forest. BMC Bioinformatics, 7 : 3, pp : 1-13, (2006).
[30] T. G. Dietterich and G. Bakiri. Solving multiclass learning problems via error-correcting
output codes. Journal of Artificial Intelligence Research, 2 : 263-286, (1995).
[31] S. Dudoit, J. Fridlyand, and T. Speed. Comparison of discrimination methods for the
classification of tumors using gene expression data. Journal of the American Statistical
Association, 97(457) : 77—87, (2002).
[32] B. Efron, T. Hastie, I. Johnstone, and R. Tibshirani. Least angle regression. Annals of
Statistics, 32(2) : 407—499, (2004).
[33] T. Evgeniou, M. Pontil, and T. Poggio. Regularization networks and support vector machines. Advances in Computational Mathematics, 13(1) : 1-50, (2000).
[34] F. Ferri, P. Pudil, M. Hatef, and J. Kittler. Comparative study of techniques for large scale
feature selection. In E. Gelsema and L. Kanal, editors, Pattern Recognition in Practice IV,
pages 403-413. Elsevier Science B. V., (1994).
[35] V. Franc and V. Hlavac. Multi-class support vector machine. Proc. 16th IEEE Int. Conf.
on Pattern Recognition, (2002).
[36] J. H. Friedman. Another approach to Polychotomous classification. Technical report, Department of Statistics, Stanford University, (1996).
[37] S. Gey and J. M. Poggi. Boosting and instability for regression trees. Computational
Statistics And Data Analysis, 50(2) : 533—550, (2006).
[38] B. Ghattas. Agrégation d’arbres de classification. Revue de Statistique Appliquée, XLVIII(2) : 85—98, (1999).
117
Bibliographie
[39] B. Ghattas. Importance des variables dans les méthodes CART. Revue de Modulad, 24 :
29—39, (1999).
[40] B. Ghattas. Agrégation d’arbres de décision binaires ; Application à la prévision de l’ozone
dans les Bouches du Rhône. PhD thesis, Université de la Méditerranée, (2000).
[41] B. Ghattas and G. Oppenheim. Etude de faisabilité : Modèles globaux pour la mise au
point moteur. Rapport technique Renault, 6/12/2001, 56 pages.
[42] T. R. Golub, D. K. Slonim, P. Tamayo, C. Huard, M. Gaasenbeek, J. P. Mesirov, H.
Coller, M. L. Loh, J. R. Downing, M. A. Caligiuri, C. D. Bloomfield, and E. S. Lander.
Molecular classification of cancer : Class discovery and class prediction by gene expression
monitoring. Science, 286 : 531—537, (1999).
[43] Y. Guermeur, A. Elisseff, and D. Zelus. A comparative study of multi-class support vector
machines in the unifying framework of large margin classifiers. Applied Stochastic Models
in Business and Industry, 21(2) : 199-214, (2005).
[44] I. Guyon and A. Elisseff. An introduction to variable and feature selection. Journal of
Machine Learning Research, 3 : 1157-1182, (2003).
[45] I. Guyon, J. Weston, S. Barnhill, and V. N. Vapnik. Gene selection for cancer classification
using support vector machines. Machine Learning, 46(1-3) : 389-422, (2002).
[46] S. Har-Peled, D. Roth, and D. Zimak. Constraint Classification for multiclass classification
and ranking. Proc. Advances in Neural Information Processing Systems 15, pp. 785-792,
(2003).
[47] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning ; Data
Mining, Inference, and Prediction. Springer-Verlag, New York, (2001).
[48] T. Hastie, S. Rosset, R. Tibshirani, and J. Zhu. The entire regularization path for support
vector machine. Journal of Machine Learning Research, 5 : 1391—1415, (2004).
[49] W. Hoeffding. Probability inequalities for sums of bounded random variables. Journal of
the American Statistical Association, 58(301) : 13-30, (1963).
[50] C. W. Hsu and C. J. Lin. A comparison of methods for multiclass Support Vector Machines.
IEEE Trans. on Neural Networks, Vol. 13, pp. 415-425, (2002).
[51] T. Inoue and S. Abe. Fuzzy support vector machines for pattern classification. In Proceedings of International Joint Conference on Neural Networks, volume 2, pages 1449-1454,
(2001).
118
Bibliographie
[52] A. Jain and D. Zongker. Feature selection : Evaluation, application and small sample
performance. IEEE Transaction on Pattern Analysis and Machine Intelligence, 19(2) :153158, (1997).
[53] G. H. John, R. Kohavi, and K. Pfleger. Irrelevant features and the subset selection problem.
Proceedings of 11th International Conference on Machine Learning, 121-129, (1994).
[54] B. Kijsirikul, N. Ussivakul, and S. Meknavin. Adaptive directed acyclic graphs for multiclass classification. In PRICAI 2002, pages 158-168, (2002).
[55] J. Kittler. Feature set search algorithms. In C. H. Chen Edition, Pattern Recognition and
signal Processing, Sijthoff and Noordhoff, Alphen and Rijin, 41-60, (1978).
[56] S. Knerr, L. Personnaz, and G. Dreyfus. Single-layer learning revisited : a stepwise procedure for building and training a neural network. In Neurocmputing : Algorithms, Architectures and Applications, J. Fogelman, editor, Springer-Verlag, (1990).
[57] R. Kohavi and G. H. John. Wrappers for Feature Subset Selection. Artificial Intelligence,
97(1-2) : 273-324, (1997).
[58] U. H. G. Kreßel. Pairwise classification and support vector machines. In B. Schölkopf,
C. J. C. Burges, and A. J. Smola, editors, Advances in Kernel Methods - Support Vector
Learning, pages 255-268, The MIT Press, Cambridge, (1999).
[59] M. Kudo and J. Sklansky. Comparison of algorithms that select features for pattern classifiers. Pattern Recognition, 33(1) : 25-41, (2000).
[60] A. Liaw, M.Wiener. Classification and Regression by Random Forest. Rnews, 2 : 18-22,
(2002).
[61] A. Luntz and V. Brailovsky. On estimation of characters obtained in statistical procedure
of recognition. Technicheskaya Kibernetica, 3, (1969).
[62] P. McCullagh and J. Nelder. Generalized Linear Models. CHAPMAN & HALL/CRC, Boca
Raton, (1989).
[63] C.
Merz
and
P.
Murphy.
UCI
repository
of
machine
learning
databases.
http ://www.ics.uci.edu/~mlearn/MLRepository.html, (1998).
[64] P. Narendra and K. Fukunaga. A branch and bound algorithm for feature subset selection.
In IEEE Transactions on Computers, 26(9) : 917-922, (1977).
[65] J. Neumann, C. Schnörr, and G. Steidl. Combined SVM-Based Feature Selection and
Classification. Machine Learning, 61(1-3) : 129-150, (2005).
119
Bibliographie
[66] M. Y. Park and T. Hastie. L1 Regularization Path Algorithm for Generalized Linear
Models. Technical report, Stanford University, February (2006).
[67] F. Pernkopf. Bayesian network classifiers versus selective k-NN classifier. Pattern Recognition, 38(1) : 1-10, (2005).
[68] J. Peyre. Analyse statistique des données issues des biopuces à ADN. PhD thesis, Université
Joseph Fourier-Grenoble I, (septembre 2005).
[69] T. Phetkaew, B. Kijsirikul, and W. Rivepiboon. Reordering adaptive directed acyclic
graphs for multiclass support vector machines. In Proceedings of the Third International
Conference on Intelligent Technologies, (2002).
[70] T. Phetkaew, B. Kijsirikul, and W. Rivepiboon. Multiclass Classification of Support Vector
Machines by Reordering Adaptive Directed Acyclic Graph. In International Workshop on
Intelligent Systems, (2003).
[71] J. C. Platt. Fast training of support vector machines using sequential minimal optimization. In B. Schölkopf, C. J. C. Burges, and A. J. Smola, editors, Advances in Kernel
Methods — Support Vector Learning, pages 185-208. The MIT Press, (1999).
[72] J. C. Platt, N. Cristianini, and J. Shawe-Taylor. Large margin DAGs for multiclass classification. In S. A. Solla, T. K. Leen, and K. R. Müller, editors, Advances in Neural
Information Processing Systems 12, pages 547-553, The MIT Press, (2000).
[73] J. M. Poggi and C. Tuleau. Classification supervisée en grande dimension. Application à
l’agrément de conduite automobile. Revue de Statistique Appliquée, LIV (4), 39-58, (2006).
[74] M. Pontil and A. Verri. Support vector machines for 3-d object recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(6) : 637-646, (1998).
[75] P. Pudil, J. Novovic̆ová, and J. Kittler. Floating search methods in feature selection.
Pattern Recognition Letters, 15 : 1119-1125, (1994).
[76] P. Somol and P. Pudil. Feature selection toolbox. Pattern Recognition, 35 : 2749-2759,
(2002).
[77] A. Rakotomamonjy. Variable selection using SVM-based criteria. Journal of Machine
Learning Research, 3 : 1357-1370, (2003).
[78] M. L. Raymer,W. F. Punch, E. D. Goodman, L. A. Huhn, and A. K. Jain. Dimensionality
reduction using genetic algorithms. IEEE Trans. on Evolutionary Computation, 4(2) :164—
171, July (2000).
120
Bibliographie
[79] J. Reunanen. Overfitting in Making Comparisons Between Variable Selection Methods.
Journal of Machine Learning Research, 3 : 1371-1382, (2003).
[80] B. Schölkopf, A. Smola, R. Williamson, and P. L. Bartlett. New support vector algorithms.
Technical report, NC2-TR-1998-053, NeuroColt2, (1998).
[81] D. Singh, P. G. Febbo, K. Ross, D. G. Jackson, J. Manola, C. Ladd, P. Tamayo, A. A.
Renshaw, A. V. D’Amico, J. P. Richie, E. S. Lander, M. Loda, P. W. Kantoff, T. R. Golub,
and W. R. Sellers. Gene expression correlates of clinical prostate cancer behavior. Cancer
Cell, 1 : 203-209, (2002).
[82] A. Smola, P. L. Bartlett, B. Schölkopf, and D. Schuurmans. Advances in Large Margin
Classifiers. MIT Press, (2000).
[83] P. Somol, P. Pudil, F.J. Ferri, and J. Kittler. Fast branch & bound algorithm in feature
selection. Proceedings of the SCI Conference, Vol. IIV :646-651, Orlando, FL, (2000).
[84] P. Somol, P. Pudil, J. Novovic̆ová, and P. Paclik. Adaptive floating search methods in
feature selection. Pattern Recognition Letters, 20 : 1157-1163, (1999).
[85] D. Sterpi. Tecniche di modellizzazione statistica basate su Support Vector Machines. PhD
thesis, Università degli Studi di Genova, (2005).
[86] V. Svetnik, A. Liaw, C. Tong, and T. Wang. Application of Breiman’s random forest to
modeling structure-activity relashionships of pharmaceutical molecules. Multiple Classifier
Systems. Lecture Notes in Computer Science, Springer, 3077 : 334-343, (2004).
[87] F. Takahashi and S. Abe. Optimizing Directed Acyclic Graph : Support Vector Machines.
In IAPR-TC3, International Workshop on Artificial Neural Networks in Pattern Recognition, University of Florence, Italy, (2003).
[88] R. Tibshirani. Regression shrinkage and selection via Lasso. Journal of the Royal Statistical
Society Series B, 58(1) : 267—288, (1996).
[89] C. Tuleau. Sélection de variables pour la discrimination en grande dimension et classification de données fonctionnelles. PhD thesis, Université Paris XI-Orsay, (décembre 2005).
[90] N. Ussivakul and B. Kijsirikul. Multiclass support vector machines using adaptive directed
acyclic graph. In IEEE/INNS International Joint Conference on Neural Networks, (2002).
[91] V. N. Vapnik. Statistical learning theory. Wiley, New York, (1998).
[92] V. N. Vapnik. The Nature of Statistical Learning Theory. Springer Verlag, New York,
(1995).
121
Bibliographie
[93] V. N. Vapnik and A. Y. Chevonenkis. On the uniform convergence of relative frequencies
of events to their probabilities. Theory of Probability and its Applications, 16(2) : 264-280,
(1971).
[94] V. N. Vapnik and A. Y. Chevonenkis. The necessary and sufficient conditions for consistency in the empirical risk minimisation method. Pattern Recognition and Image Analysis,
1(3) : 283-305, (1991).
[95] V. N. Vapnik and O. Chapelle. Bounds on error expectation for support vector machines.
Neural Computation, 12 : 9, (2000).
[96] L. Wang, P. Xue, and K. L. Chan. Generalized Radius-Margin Bounds for Model Selection
in Multi-class SVMs. Technical report, School of Electrical and Electronic Engineering,
Nanyang Technological University, Singapore, 639798, (2005).
[97] J. Weston and C. Watkins. Support vector machines for multi-class pattern recognition.
In Proceedings of the 6th European Symposium on Artificial Neural Networks, (1999).
[98] J. Weston, A. Elisseff, B. Schoelkopf, and M. Tipping. Use of the zero norm with linear
models and kernel methods. Journal of Machine Learning Research, 3 : 1439-1461, (2003).
[99] J. Weston, S. Mukherjee, O. Chapelle, M. Pontil, T. Poggio, and V. N. Vapnik. Feature
selection for support vector machines. In Neural Information Processing Systems, Cambridge, MA, MIT Press (2001b).
[100] B. Yu and B. Yuan. A more efficient branch and bound algorithm for feature selection.
Pattern Recognition, 26(6) : 883-889, (1993).
[101] J. Zhu, S. Rosset, T. Hastie, and R. Tibshirani. 1-norm support vector machines. Advances
in Neural Information Processing Systems 16, (2003).
122
Résumé
Cette thèse est consacrée à la sélection de variables pour la discrimination binaire et
multiclasse en grande dimension.
Dans les deux premiers chapitres nous introduisons brièvement les concepts de base de la
théorie de l’apprentissage statistique et des machines à vecteurs supports (SVM). Dans le troisième
chapitre nous proposons une nouvelle méthode de sélection de variables basée sur des scores
d’importance dérivés des SVM. Les variables sont introduites dans le modèle selon l’ordre
d’importance décroissant.
Dans le chapitre quatre nous comparons différentes méthodes récentes de sélection de
variables basées sur les SVM, les GLM sous contrainte de type L1 et les forêts aléatoires. Le dernier
chapitre traite de la généralisation de notre travail au cas multiclasse.
Nous illustrons l’efficacité de nos approches sur des données simulées et sur des données de
biopuces. Les résultats montrent une amélioration significative des performances de prédictives en
utilisant peu de variables.
Mots clés : Machines à vecteurs supports (SVM), Élimination récursive des variables (SVM-RFE),
Forêts aléatoires, Modèles linéaires généralisés et régularisés (GLMpath), Hiérarchies de variables,
Sélection de variables, Biopuces, Bootstrap, Biais de sélection, Stepwise, Multiclasse.
Abstract
This dissertation is dedicated to the problem of feature selection for binary and multiclass
discrimination in high dimension.
In the first two chapters we briefly introduce the basic concepts of statistical learning theory
and support vector machines (SVM). In the third chapter we suggest a new method of feature
selection based on ranking scores derived from SVM. Our feature selection algorithm consists in a
forward selection strategy according to the decreasing order of the variable importance.
In chapter four we compare several recent feature selection methods based on SVM, L1
constrained Generalized Linear Models and Random Forests. The last chapter deals with the
generalization of our work to the multiclass classification case.
We illustrate the effectiveness of our approaches on synthetic data and some challenging
benchmark problems based on microarray data. Results demonstrate a significant improvement of
generalization performance using a few variables.
Key words : Support vector machines (SVM), Recursive feature elimination (SVM-RFE), Random
forests, Generalized linear models with regularization (GLMpath), Variables hierarchy, Variable
selection, Microarray, Bootstrap, Selection bias, Stepwise, Multiclass.
Téléchargement