THESE_EL AKADI

publicité
UNIVERSITÉ MOHAMMED V – AGDAL
FACULTÉ DES SCIENCES
Rabat
N° d’ordre : 2568
THÈSE DE DOCTORAT
Présentée par :
Ali El Akadi
Discipline : Sciences de l’ingénieur
Spécialité : Informatique et Télécommunications
Sujet de la thèse :
Publiquement défendue le 31/03/2012 devant le jury composé de :
Président :
Driss ABOUTAJDINE
PES, Université Mohammed-V Agdal - Rabat
Examinateurs :
Boujemâa ACHCHAB
PES, Université Hassan 1er - Settat
Abderrahim EL QADI
PH, Université Moulay Ismaïl - Meknès
Raja TOUAHNI
PES, Université Ibn Tofail - Kénitra
Mohammed ABBAD
PES, Université Mohammed-V Agdal - Rabat
Ahmed HAMMOUCH
PES, Université Mohammed-V Souissi - Rabat
Abdeljalil EL OUARDIGHI
PH, Université Hassan 1er - Settat
Faculté des Sciences, 4 Avenue Ibn Battouta B.P. 1014 RP, Rabat – Maroc
Tel +212 (0) 537 77 18 34/35/38, Fax: +212 (0) 537 77 42 61, http://www.fsr.ac.ma
i
Résumé
Le problème de la sélection de variables en classification se pose généralement lorsque le nombre de variables
pouvant être utilisé pour expliquer la classe d'un individu, est très élevé. Les besoins ont beaucoup évolué ces
dernières années avec la manipulation d'un grand nombre de variables dans des domaines tels que les données
génétiques ou le traitement d’image. Néanmoins si l’on doit traiter des données décrites par un grand nombre
de variables, les méthodes classiques d’analyse, d’apprentissage ou de fouille de données peuvent se révéler
inefficaces ou peuvent conduire à des résultats peu précis. Dans cette thèse, nous proposons des méthodes
innovantes pour réduire la taille initiale des données et pour sélectionner des ensembles de variables
pertinents pour une classification supervisée.
Notre première contribution concerne la proposition d’une approche hybride pour la sélection de gènes dans
le cadre de la classification de différents types de tumeurs (reconnaissance tissu sain/tissu cancéreux ou
distinction entre différents types de cancers). Cette approche est basée sur la combinaison de l’algorithme
MRMR (redondance minimal-pertinence maximale) et d’une recherche génétique utilisant un classifieur SVM
(Support Vector Machine) pour l’évaluation de la pertinence des sous-ensembles candidats. Les performances
de notre approche ont été évaluées sur 5 jeux de données publiques du domaine de l’oncologie.
Notre deuxième contribution porte sur une nouvelle approche de sélection des caractéristiques pour la
reconnaissance faciale. Au début, la transformée en DCT (Discret Cosine Transform) est appliquée pour
convertir l'image en domaine fréquentiel, ensuite une première réduction de la dimensionnalité est opérée par
le rejet des composant à haute fréquence. Enfin, un nouveau critère appelé PMI (Ponderated Mutual
Information) est utilisé pour sélectionner les coefficients les plus pertinents et moins redondants à partir des
coefficients DCT. L’évaluation des performances de l’approche proposée, en particulier le critère PMI, a été
effectuée sur une base d’images constituée d’un mélange de deux bases publiques ORL et YALE.
Les différentes expérimentations que nous avons menées montrent de très bonnes performances des
approches proposées, surtout pour la sélection des gènes.
Mots-clés : Sélection de variables, Classification supervisée, Puces à ADN, Information mutuelle,
Algorithmes génétiques, Reconnaissance faciale, Transformé en cosinus discret.
ii
Abstract
The problem of feature selection for classification is generally arises when the number of features is large.
Needs have changed significantly in recent years with the handling of a large number of features in areas such
as genetic data or image processing. However if we must treat the data described by many features, the
classical methods of analysis, learning or data mining may be ineffective or may lead to imprecise results. In
this thesis, we propose innovative methods to reduce the size of initial data and to select relevant sets of
features for supervised classification.
Our first contribution concerns the proposal of a hybrid approach for gene selection in classification of
different tumor types (recognition of healthy/cancer tissue or distinguish between different types of cancers).
This approach is based on the combination of the MRMR algorithm (Minimum Redundancy-Maximum
Relevance) and genetic research using SVM (Support Vector Machine) to evaluate the relevance of candidate
subsets. The proposed method was tested for tumor classification on five open datasets.
Our second contribution concerns a new feature selection approach for face recognition. At first, the DCT
(Discrete Cosine Transform) is applied to convert the image into frequency domain, then a first
dimensionality reduction is carried out by the elimination of the high-frequency component. Finally, a new
criterion called PMI (Ponderated Mutual Information) is used to select the most relevant and less redundant
coefficients from the DCT coefficients. Evaluation of the proposed approach, in particular PMI criterion,
was performed on a mixture of two public face databases ORL and YALE.
Experimental results show that the proposed approaches have very good performances.
Keywords: Feature selection, Classification, microarray data, Mutual information, Genetic Algorithms, Face
Recognition, Discrete Cosine Transform
iii
Les travaux de recherche présentés dans cette thèse ont été effectués au sein du
Laboratoire de Recherche en Informatique et Télécommunications (LRIT) à la Faculté des
Sciences de Rabat (FSR).
Je tiens à exprimer mes sincères remerciements :
Au Professeur Driss Aboutajdine, mon Directeur de thèse et Directeur du LRIT. Sans
l’environnement de recherche qu’il a su créer, je n’aurais pas pu me lancer dans la
préparation de cette thèse.
Au Professeur Abdeljalil El Ouardighi mon encadrant de thèse pour son suivi, ses
recommandations, sa patience et sa disponibilité tout au long de cette thèse.
Au Professeur Boujemâa Achchab de la Faculté des Sciences Economiques, Juridiques et
Sociales de Settat et au Professeur Abderrahim El Qadi de l’Ecole Supérieure de
Technologie de Meknès, qui ont accepté de juger ce travail et d’en être les rapporteurs et
qui m’ont fait l’honneur d’être parmi les membres du Jury.
Au professeur Raja Touahni de la Faculté des Sciences de Kénitra, au Professeur
Mohammed Abbad de la Faculté des Sciences de Rabat et au Professeur Ahmed
Hammouch de l’ENSET de Rabat, qui ont bien accepté de faire partie du jury.
Enfin, je voudrais exprimer mes plus profonds remerciements à ma mère, à ma femme, à
mes enfants, à ma famille et à ma belle-famille pour leurs sentiments, leurs soutiens et leurs
encouragements pendant tout le temps où j’ai effectué cette thèse.
Un grand merci à tous !
iv
Tables des matières
Résumé .................................................................................................................................................. i
Abstract ................................................................................................................................................. ii
Avant-propos ........................................................................................................................................ iii
Tables des matières ............................................................................................................................. iv
Liste des abréviations .......................................................................................................................... vi
Liste des figures ................................................................................................................................. viii
Liste des tableaux ................................................................................................................................ ix
Introduction générale ..........................................................................................................................10
Chapitre 1.
Fouille de données et classification ............................................................................15
1.1
Introduction .................................................................................................................................................... 16
1.2
Fouille de données ......................................................................................................................................... 16
1.2.1
Définitions ............................................................................................................................................ 17
1.2.2
Processus d’extraction de connaissances ......................................................................................... 18
1.2.3
Tâches de la fouille de données......................................................................................................... 20
1.3
Classification ................................................................................................................................................... 21
1.3.1
Buts et modalités de la classification ................................................................................................ 22
1.3.2
La classification, un domaine multidisciplinaire ............................................................................. 23
1.4
La classification non supervisée .................................................................................................................. 25
1.4.1
Les méthodes hiérarchiques ............................................................................................................... 26
1.4.2
Le partitionnement .............................................................................................................................. 27
1.5
La classification supervisée........................................................................................................................... 29
1.5.1
Formalisation mathématique ............................................................................................................. 29
1.5.2
Le problème de la généralisation....................................................................................................... 29
1.5.3
Les techniques de la classification supervisée ................................................................................. 32
1.6
Conclusion ...................................................................................................................................................... 42
Chapitre 2.
Sélection de variables pour la classification supervisée ............................................. 43
2.1
Introduction .................................................................................................................................................... 44
2.2
Pertinence et redondance de variables ....................................................................................................... 44
2.2.1
Pertinence de variables ....................................................................................................................... 46
v
2.2.2
2.3
Redondance de variables .................................................................................................................... 46
Sélection de variables .................................................................................................................................... 48
2.3.1
La sélection vue comme un problème d’optimisation .................................................................. 49
2.3.2
Processus global de la sélection de variables .................................................................................. 50
2.3.3
Génération des sous-ensembles de variables .................................................................................. 51
2.3.4
Evaluation des sous-ensembles ......................................................................................................... 54
2.3.5
Critère d’arrêt........................................................................................................................................ 57
2.4
Principaux algorithmes existants ................................................................................................................. 58
2.4.1
Les algorithmes d’ordonnancement de variables ........................................................................... 58
2.4.2
Les algorithmes de construction du plus petit sous-ensemble de variables .............................. 58
2.4.3
Sélection de variables par information mutuelle ............................................................................ 60
2.5
Conclusion ...................................................................................................................................................... 65
Chapitre 3.
Contribution à la sélection de gènes pour les puces à ADN ...................................... 66
3.1
Introduction .................................................................................................................................................... 67
3.2
Technologie des puces à ADN .................................................................................................................... 68
3.3
Sélection des gènes pour les puces à ADN ............................................................................................... 69
3.4
L’approche proposée ..................................................................................................................................... 70
3.4.1
Structure générale de l’approche proposée ..................................................................................... 70
3.4.2
Filtrage des gènes par l’algorithme MRMR ..................................................................................... 71
3.4.3
Sélection des sous-ensembles pertinents par Algorithme Génétique ......................................... 73
3.4.4
Expérimentations ................................................................................................................................. 78
3.5
Conclusion ...................................................................................................................................................... 87
Chapitre 4.
Contribution à la sélection de variables pour la reconnaissance faciale .................... 88
4.1
Introduction .................................................................................................................................................... 89
4.2
La reconnaissance faciale .............................................................................................................................. 90
4.2.1
Dimensionnalité de l'espace visage ................................................................................................... 90
4.2.2
Principe de fonctionnement d’un système de reconnaissance de visage ................................... 91
4.2.3
Méthodes de reconnaissance faciale ................................................................................................. 92
4.3
Approche proposée ....................................................................................................................................... 94
4.3.1
Extraction des caractéristiques par DCT......................................................................................... 95
4.3.2
Sélection des caractéristiques utilisant le critère PMI .................................................................... 96
4.3.3
Expérimentations ................................................................................................................................. 98
4.4
Conclusion .................................................................................................................................................... 103
Conclusion générale et perspectives .................................................................................................. 105
Bibliographie ..................................................................................................................................... 108
Liste des publications ........................................................................................................................ 119
vi
Liste des abréviations
ABB
Automatic Branch and Band
ACP
Analyse en Composante Principale
ADALINE
ADAptive LInear NEuron
ADN
Acide DésoxyriboNucléique
AG
Algorithme Génétique
ALL
Acute Lymphoblastic Leukemia
AML
Acute Myeloid Leukemia
BE
Backward Elimination
BN
Baysien Naïf
CART
Classification And Regression Tree
CHAID
CHi-squared Automatic Interaction Detector
CMIM
Conditional Mutual Information Maximisation
DCT
Discret Cosine Transform
DNA
Deoxyribose Nucleic Acid
DTM
Decision Tree Method
ECD
Extraction de Connaissances à partir des Données
FS
Forward Selection
GA
Genetic Algorithm
KDD
Knowledge Discovery in Databases
LBP
Local Binary Pattern
KNN
K-Nearest Neighbor
LDA
Linear Discriminant Analysis
LOOCV
Leave-One-Out Cross Validation
LVF
Las Vegas Filter
LVW
Las Vegas Wrapper
MIFS
Mutual Information Feature Selector
MPM
Malignant Pleural Mesothelioma
vii
MRMR
Minimum Redundancy Maximum Relevance
NCI
National Cancer Intitute
NSCLC
Non Small Cell Lung Cancer
PMI
Ponderated Mutual Information
PSO
Particle Swarm Optimization
SIFT
Scale Invariant Feature Transform
SVM
Support Vector Machine
viii
Liste des figures
Figure ‎1-1 : Différentes étapes du processus ECD ...................................................................................................... 18
Figure ‎1-2 : Représentation d’un réseau de neurones multicouches ......................................................................... 36
Figure ‎1-3 : Représentation de l’hyperplan séparant linéairement les données dans l’espace des variables....... 40
Figure ‎2-1 : Catégorisation des variables ........................................................................................................................ 48
Figure ‎2-2 : Processus de sélection de variables ........................................................................................................... 50
Figure ‎2-3 : Sous-ensembles de variables possibles à partir d’un ensemble de 4 variables ................................... 53
Figure ‎2-4 : Digramme de Venn ...................................................................................................................................... 61
Figure ‎3-1 : Schéma général de l’approche MRMR-GA ............................................................................................. 71
Figure ‎3-2 : Eléments d’un algorithme génétique ......................................................................................................... 75
Figure ‎3-3 : Croisement à 1 point. ................................................................................................................................... 77
Figure ‎3-4 : Exemple de mutation en 3 points.............................................................................................................. 78
Figure ‎3-5 : Taux de classification par un classifieur SVM pour les données Lymphoma .................................... 82
Figure ‎3-6 : Taux de classification par un classifieur SVM pour les données NCI ................................................ 82
Figure ‎3-7 : Taux de classification par un classifieur SVM pour les données Lung ............................................... 82
Figure ‎3-8 : Taux de classification par un classifieur SVM pour les données Leukemia ....................................... 82
Figure ‎3-9 : Taux de classification par un classifieur SVM pour les données Colon ............................................. 82
Figure ‎3-10 : Moyenne du taux de classification par un classifieur SVM pour toutes les données ..................... 82
Figure ‎3-11 : Taux de classification par un classifieur BN pour les données Lymphoma .................................... 83
Figure ‎3-12 : Taux de classification par un classifieur BN pour les données NCI ................................................. 83
Figure ‎3-13 : Taux de classification par un classifieur BN pour les données Leukemia ....................................... 83
Figure ‎3-14 : Taux de classification par un classifieur BN pour les données Lung................................................ 83
Figure ‎3-15 : Taux de classification par un classifieur BN pour les données Colon .............................................. 83
Figure ‎3-16 : Moyenne du taux de classification par un classifieur BN pour toutes les données ........................ 83
Figure ‎4-1 : Schéma général de reconnaissance de visage ........................................................................................... 91
Figure ‎4-2 : Schéma général de l’approche proposée................................................................................................... 94
Figure ‎4-3 : Passage du domaine spatial au domaine fréquentiel............................................................................... 96
Figure ‎4-3 : Diagramme de Venn pour trois variables ................................................................................................ 97
Figure ‎4-4 : Exemples de la base des visages (ORL+YALE) .................................................................................... 99
Figure ‎4-5 : Comparaison des critères de sélection en utilisant un classifieur SVM ............................................ 102
Figure ‎4-6 : Comparaison des critères de sélection en utilisant un classifieur LDA ............................................ 102
ix
Liste des tableaux
Tableau ‎3-1 : Matrice d’expression des gènes ............................................................................................................... 68
Tableau ‎3-2 : Caractéristiques des jeux de données ..................................................................................................... 79
Tableau ‎3-3 : Paramètre de l’algorithme génétique ...................................................................................................... 80
Tableau ‎3-4 : Taux de classification (%) sans sélection de gènes .............................................................................. 81
Tableau ‎3-5 : Taux de classification (%) avec 15 premiers gènes sélectionnés pour les 5 jeux de données ...... 84
Tableau ‎3-6 : Moyenne du taux de classification (%) sur l’ensemble de données pour un nombre différent de
gènes sélectionnés ....................................................................................................................................... 84
Tableau ‎3-7 : Comparaison avec d’autres approches ................................................................................................... 86
Tableau ‎4-1 : Représentation matricielle de la base des images (visages) ............................................................... 100
Tableau ‎4-2 : Taux de classification sans sélection de caractéristiques ................................................................... 101
Tableau ‎4-3 : Taux de reconnaissance (%) pour différents critères de sélection des caractéristiques .............. 103
Contexte de travail :
Cette thèse s’inscrit dans le cadre de l’Extraction de Connaissances à partir des Données
(ECD), domaine connu sous le nom de Knowledge Discovery in Databases en anglais
(KDD). Il s’agit d’une discipline qui se situe à l’intersection de différents domaines tels que
l’informatique, l’intelligence artificielle, l’analyse de données, les statistiques et la théorie des
probabilités. L’ECD est appelé communément fouille de données ou datamining et a pour
objectif l’extraction d’un savoir ou d’une connaissance à partir de grandes quantités de
données, par des méthodes automatiques ou semi-automatiques, et l’utilisation industrielle
ou opérationnelle de ce savoir. La finalité de l’ECD est de pouvoir traiter des données
brutes et volumineuses, et à partir de ces données établir des connaissances directement
utilisables par un expert du domaine étudié.
Cependant, le processus d’ECD ne se passe pas sans encombre. De nos jours, l’évolution
de l’informatique et des technologies de stockage connait une explosion de volumes des
données. Il est maintenant possible d’analyser de grandes quantités de données de
dimension élevée grâce aux performances accrues des ordinateurs. Néanmoins si l’on doit
traiter des données décrites par un très grand nombre de variables, les méthodes classiques
d’analyse, d’apprentissage ou de fouille de données peuvent se révéler inefficaces ou
peuvent conduire à des résultats inexacts. De ce fait, il est nécessaire de réduire la
dimension des données en sélectionnant les variables les plus intéressantes pour le
problème étudié (John, et al., 1994); (Blum & Langly, 1997); (Dash & Liu, 2006); (Cios, et
al., 2007).
La sélection de variables consiste à choisir parmi l’ensemble global de variables, un sousensemble de variables pertinentes pour le problème étudié. Cette problématique peut
concerner différentes tâches de fouille de données, mais dans notre cas, nous traitons
11
uniquement la sélection de variables réalisée en classification supervisée qui consiste à
déterminer, sur une base d’un nombre fini d’individus, la relation entre un ensemble de
variables explicative et une variable à expliquer qui s’appelle la classe.
Motivations et objectifs :
Au début des années 90, la majorité des travaux sur la sélection de variables portait sur des
domaines souvent décrits par quelques dizaines de variables. Ces dernières années, de par
l’accroissement des capacités de recueil, de stockage et de manipulation des données, la
situation a beaucoup changé. Il n’est plus rare de rencontrer dans certains domaines, en
particulier en bio-informatique, en traitement d’image et en fouille de textes, des centaines
voire des milliers de variables. Par conséquent, de nouvelles techniques de sélection de
variables sont apparues pour tenter d’aborder ce changement d’échelle et de traiter
notamment la prise en compte des variables redondantes et des variables non pertinentes.
Plusieurs domaines qui intéressent beaucoup la communauté de la fouille de données
fournissent des données qui sont décrites par des milliers de variables. C’est le cas par
exemple pour le traitement des textes dont les applications issues du web sont très
nombreuses. C’est aussi le cas lorsqu’on veut analyser des images de haute résolution.
Enfin un domaine plus récent, celui de la bio-informatique fournit également des données
de très grande dimension où il n’est pas rare d’avoir à manipuler plusieurs milliers de
variables.
Dans cette thèse, les domaines qui ont stimulé notre intérêt pour la problématique de la
sélection de variables en vue d’une classification sont la bio-informatique, notamment la
génétique, et le traitement d’image, notamment la reconnaissance faciale. Pour les données
génétiques, les variables représentent l’expression de gènes à ADN par leur séquence
biologique de nucléotides pour un certain nombre de patients. Une classification typique
est la séparation des patients sains des patients atteints d’une certaine pathologie basée sur
leur « profil génétique ». Dans ce type de jeu assez difficile à construire, on ne possède
souvent guère plus de 100 patients pour constituer un jeu d’apprentissage et un jeu de test ;
en revanche, le nombre de variables manipulées peut varier de 2000 à 60000. En ce qui
concerne la reconnaissance faciale, les individus manipulés sont des images et les variables
12
Introduction générale
sont des caractéristiques extraites de ces images. Dans ce type d’application le nombre de
caractéristiques est souvent très élevé et dépend de la technique d’extraction utilisée.
Contribution de la thèse :
Dans les domaines d’analyse des puces à ADN ou de traitement d’images, les données
présentent plusieurs variables, ce qui nécessite de proposer des méthodes innovantes pour
la sélection des variables les moins redondantes et les plus pertinentes pour accomplir la
tâche de classification. Ainsi, nous proposons deux nouvelles méthodes pour réaliser au
mieux cette sélection.
Pour la sélection des gènes à ADN nous avons proposé une approche hybride (El Akadi, et
al., 2011) pour la sélection d’un sous ensemble de gènes optimal non redondant et
fournissant de bonnes performances en classification. L’approche proposée est basée sur la
combinaison de la méthode de filtrage MRMR pour Minimum Redundancy–Maximum
Relevance (Peng, et al., 2005) et d’une méthode de type enveloppe « wrapper » basée sur
une stratégie de recherche utilisant un algorithme génétique (AG) et le classifieur SVM
pour l’évaluation des sous-ensembles candidats. Cette approche peut être considérée
comme un processus séquentiel en deux étapes qui utilise des techniques complémentaires
pour réduire graduellement l’espace de recherche et sélectionner un sous ensemble
pertinent de gènes.
 Etape 1 : C’est une étape de prétraitement permettant de filtrer les gènes qui ne
sont pas informatifs et d’éliminer les gènes redondants, par exemple des gènes dont
les niveaux d’expression sont uniformes quelle que soit la classe. Le résultat de ce
prétraitement est un ensemble de gènes classés par ordre de pertinence selon le
critère MRMR. Il s’agit d’une étape préliminaire pour la réduction des données de
puces à ADN.
 Etape 2 : Cette étape se traduit par l’utilisation d’une méthode enveloppe où un
algorithme génétique explore, à partir des gènes retenus par le pré-filtrage
précédent, des sous-ensembles candidats et chaque candidat est évalué grâce à un
classifieur SVM. Le taux de classification indique si le sous-ensemble candidat
permet une bonne discrimination des classes.
13
Pour la sélection des caractéristiques permettant une meilleure reconnaissance faciale nous
avons proposé un nouveau critère de sélection basé sur la théorie d’information appelé
PMI pour Ponderated Mutual Information (El Akadi, et al., 2010). Le critère proposé est
combiné avec la transformée en cosinus discret (DCT) pour sélectionner les
caractéristiques permettant d’obtenir les meilleurs taux de classification. Au début, la
transformée en DCT est appliquée pour convertir l'image en domaine fréquentiel, ensuite
une première réduction de la dimensionnalité est opérée par le rejet des composants à haute
fréquence. Enfin, le critère PMI est utilisé pour sélectionner les caractéristiques
discriminantes à partir des coefficients DCT.
Organisation du manuscrit :
Ce document est structuré en quatre chapitres. Les deux premiers ont pour objectif
d’exposer le contexte et la problématique de la sélection de variables ainsi que les travaux
effectués dans cet essor. Les deux derniers chapitres sont dédiés à nos contributions dans
ce sujet.
Chapitre 1 : dans ce chapitre nous introduisons et nous exposons les techniques de fouille
de données et de la classification. Nous mettons l’accent sur la classification supervisée et
particulièrement sur les algorithmes qui seront utilisés dans les chapitres qui suivent.
Chapitre 2 : ce chapitre est consacré à la présentation des concepts de base d’un problème
de sélection de variables et les notions nécessaires à la construction d’un algorithme de
sélection de variables. Nous définissons les différentes procédures de génération que nous
trouvons dans la littérature ainsi que les différentes mesures de pertinence rencontrées.
Nous illustrons les principaux algorithmes de sélection de variables existants et plus
particulièrement les algorithmes utilisant l’information mutuelle, mesure qui a été adoptée
dans les approches que nous avons proposées.
Chapitre 3 : dans ce chapitre nous présentons note première contribution relative à la
sélection de gènes pour les puces à ADN. Tout d’abord nous introduisons la technologie
des puces à ADN et nous montrons l’importance et la nécessité de la sélection de variables
dans ce domaine. Ensuite nous présentons notre approche hybride basée sur un filtrage des
gènes par l’algorithme MRMR et utilisant un algorithme génétique pour la recherche des
sous-ensembles les plus pertinents en définissant tous les points nécessaires à son
14
Introduction générale
implémentation. Nous présentons enfin les performances, de l’approche proposée,
obtenues sur des bases de données d’oncologie.
Chapitre 4 : ce chapitre traite le problème d’extraction et de sélection des caractéristiques
pour la reconnaissance faciale. Nous présentons un nouveau critère basé sur la théorie
d’information permettant de sélectionner les caractéristiques discriminantes à partir des
coefficients DCT. Enfin nous présentons les résultats expérimentaux pour l’évaluation de
l’approche proposée.
Nous terminons cette thèse par une synthèse de nos différentes contributions, et nous
donnons quelques perspectives qui peuvent donner suite à ces travaux.
Chapitre 1. Fouille de données et classification .................................................................... 15
1.1
Introduction ...................................................................................................................................16
1.2
Fouille de données ........................................................................................................................16
1.2.1
Définitions ............................................................................................................................17
1.2.2
Processus d’extraction de connaissances..........................................................................18
1.2.3
Tâches de la fouille de données .........................................................................................20
1.3
Classification ..................................................................................................................................21
1.3.1
Buts et modalités de la classification .................................................................................22
1.3.2
La classification, un domaine multidisciplinaire ..............................................................23
1.4
La classification non supervisée ..................................................................................................25
1.4.1
Les méthodes hiérarchiques ...............................................................................................26
1.4.2
Le partitionnement ..............................................................................................................27
1.5
La classification supervisée ..........................................................................................................29
1.5.1
Formalisation mathématique..............................................................................................29
1.5.2
Le problème de la généralisation .......................................................................................29
1.5.3
Les techniques de la classification supervisée..................................................................32
1.6
Conclusion......................................................................................................................................42
16
Chapitre 1: Fouille de données et classification
1.1 Introduction
La fouille de données (ou datamining) consiste à rechercher et à extraire de l'information,
utile et inconnue, à partir de gros volumes de données stockées dans des bases ou des
entrepôts de données. Le développement récent de la fouille de données (depuis le début
des années 1990) est lié à plusieurs facteurs : une puissance de calcul importante est
disponible sur les ordinateurs ; le volume des bases de données augmente énormément ;
l'accès aux réseaux de taille mondiale, ces réseaux ayant un débit sans cesse croissant, qui
rendent le calcul distribué et la distribution d'information sur échelle mondiale variable. La
fouille de données a aujourd'hui une grande importance économique du fait qu'elle permet
d'optimiser la gestion des ressources humaines et matérielles.
La classification est la tâche la plus importante de la fouille de données et consiste à
examiner des caractéristiques d’un objet afin de l’affecter à une classe d’un ensemble
donné.
1.2 Fouille de données
Depuis quelques années, une masse grandissante de données sont générées de toute part
par les entreprises, que ce soit des données bancaires, telles que les opérations de carte de
crédit, ou bien des données industrielles, telles que des mesures de capteurs sur une chaîne
de production, ou toutes autres sortes de données possibles et imaginables. Ce flot continu
et croissant d’informations peut être maintenant stocké et préparé à l’étude, grâce aux
nouvelles techniques d’entrepôt de données (ou data wharehouse). Les techniques usuelles
d’analyse de données, développées pour des tableaux de tailles raisonnables ont largement
été mises à mal lors de l’étude de tant de données. En effet, alors que le principal objectif
de la statistique est de prouver une hypothèse avancée par un expert du domaine, et donc
de confirmer une connaissance déjà connue ou bien présumée, le but de la fouille de
données est maintenant de découvrir, au sens propre du terme, des nouvelles
connaissances. Et ceci sans faire appel à des hypothèses préconçues. Ce nouveau concept
de fouille de données, bien qu’il paraît révolutionnaire pour certains, est en fait une autre
vision et une autre utilisation de méthodes existantes, et combinées.
17
Ainsi, au vue de l’émergence de ces deux champs d’application (fouille et entrepôt de
données), une idée nouvelle s’est faite. Pourquoi ne pas associer toutes ces techniques afin
de créer des méthodes puissantes de recherche de connaissances, intégrant toutes les
étapes, du recueil des données à l’évaluation de la connaissance acquise. C’est ainsi qu’est
né le terme d’Extraction des Connaissances à partir des Données (ECD), ou en anglais
Knowledge Discovery in Database (KDD).
1.2.1 Définitions
L’extraction de connaissances à partir de données consiste à parcourir d’immenses volumes
de données contenus dans une base, à la recherche de connaissances. C’est une discipline
qui se situe à l’intersection de différents domaines tels que l’informatique, l’intelligence
artificielle, l’analyse de données, les statistiques, la théorie des probabilités, l’optimisation, la
reconnaissance de formes, les bases de données et l’interaction Homme-Machine,… Il est
ici important de différencier les trois termes suivants :
 Donnée : valeur d’une variable pour un objet (comme le montant d’un retrait
d’argent par exemple) ;
 Information : résultat d’analyse sur les données (comme la répartition géographique
de tous les retraits d’argent par exemple) ;
 Connaissance : information utile pour l’entreprise (comme la découverte du
mauvais emplacement de certains distributeurs).
Ainsi à l’aide de l’ECD, nous pouvons à partir de données sur lesquelles nous ne faisons
aucune hypothèse, obtenir des informations pertinentes, et de celles-ci, tirer des
connaissances.
Fayyad (Fayyad, et al., 1996) donne une définition de l’ECD, que la communauté
scientifique francophone traduit de la manière suivante : L’ECD est le processus non
trivial, interactif et itératif qui permet d’identifier des modèles valides, nouveaux,
potentiellement utiles et compréhensibles à partir de bases de données massives.
18
Chapitre 1: Fouille de données et classification
1.2.2 Processus d’extraction de connaissances
Le terme processus signifie que l’ECD se décompose en plusieurs opérations (voir Figure
1-1).
Evaluation
Connaissances
Data Mining
Modèles
Transformation
Données
transformées
Données
préparées
Préparation
Sélection
Données
sélectionnées
Données brutes
Figure 1-1 : Différentes étapes du processus ECD
Ces opérations peuvent être regroupées en cinq phases majeures :
 Compréhension du domaine étudié : Lors de cette phase, une analyse du problème
et des contraintes qui lui sont attachées doit permettre la collecte de données
brutes. Ces données se composent d’individus ou objets et des variables qui leurs
sont associées et qui doivent permettre de décrire au mieux le problème traité.
L’utilisateur ne sait pas encore si les données qu’il a réunies seront toutes adaptées à
son problème ni si ces données seront suffisantes. Nous sommes en présence des
données initiales.
 Prétraitement : Lors de cette phase, un prétraitement est effectué à la fois sur les
individus et sur les variables. Cette phase de prétraitement consiste à nettoyer les
19
données, les mettre en forme, traiter les données manquantes, échantillonner les
individus, sélectionner et construire des variables. On obtient ainsi un ensemble de
données cibles. Cette phase a une place importante au sein du processus d’ECD car
c’est elle qui va déterminer la qualité des modèles construits lors de la phase de
fouille de données. Elle peut prendre jusqu’à 60% du temps dédié au processus
d’ECD.
 Fouille de données : Cette phase intègre le choix de la méthode d’apprentissage qui
va être employée et son paramétrage. Ces choix doivent tenir compte des
contraintes liées au domaine étudié ainsi que des connaissances que les experts du
domaine peuvent nous fournir. L’algorithme sélectionné est alors appliqué aux
données cibles dans le but de rechercher les structures sous-jacentes des données et
de créer des modèles explicatifs ou prédictifs. Certes la fouille de données n’est
qu’une étape du processus de l’ECD, mais elle est sans conteste le cœur et le
moteur de tous ce processus.
 Post traitement : Cette phase consiste en l’évaluation et la validation des modèles
construits lors de la phase précédente. Ce n’est qu’après cette phase que les
données et l’information que l’on en a tirée deviennent des connaissances.
 Interprétation et exploitation des résultats : L’interprétation des résultats qui sont
sous forme de modèles ou de règles permet d’obtenir des connaissances. Ce sont
ces connaissances qui seront fournies à l’utilisateur.
La finalité de l’ECD est de pouvoir traiter des données brutes et volumineuses, et à partir
de ces données, d’établir des connaissances directement utilisables par un expert ou un non
expert du domaine étudié.
Les techniques d’ECD deviennent de plus en plus prisées au sein du monde industriel. En
effet, les promesses de l’ECD en terme de valorisation de l’information ne peuvent laisser
insensibles les acteurs industriels. Tout d’abord parce que l’information apparaît, de nos
jours, comme un élément stratégique déterminant. Ensuite parce que les avancées
technologiques en informatique permettent d’augmenter les capacités de stockage et de
calcul. Ainsi, si l’on considère comme exemple l’ensemble des tickets de caisse d’un
supermarché sur une période 10 ans, il est aisé d’imaginer la quantité de données présentes,
la diversité des caractéristiques, et donc la difficulté conséquente d’une exploitation de
20
Chapitre 1: Fouille de données et classification
l’information présente. Pourtant, on dispose là d’une immense source d’information, à
savoir une quantité suffisamment importante de données pour établir une classification
pertinente de la clientèle ainsi que son comportement typique. Le processus d’ECD résout
de manière efficace ces difficultés et fournit les connaissances attendues.
1.2.3 Tâches de la fouille de données
Le choix des techniques de fouille de données à appliquer dépend de la tâche particulière à
accomplir et des données disponibles pour l’analyse. La première étape consiste à traduire
un objectif en une ou plusieurs tâches.
Les principales tâches de fouille de données sont :

La classification (classification supervisé): consiste à examiner des caractéristiques
d’un objet afin de l’affecter à une classe d’un ensemble prédéfini. Les classes sont
discrètes ;
 L’estimation : permet d’obtenir une variable continue en combinant les données en
entrée. L’estimation est souvent utilisée pour effectuer une tâche de
classification en utilisant un barème ;
 La prédiction : ressemble à la classification et à l’estimation, mais les
enregistrements sont classés selon un certain comportement futur prédit ou à une
valeur future estimée. s’appuie sur le passé et le présent mais son résultat se situe
dans un futur généralement précisé.
 Le regroupement par similitudes : consiste à déterminer les objets qui vont
naturellement ensemble ;
 La segmentation (classification automatique) : consiste segmenter une population
hétérogène en sous-populations homogènes. Contrairement à la classification, les
sous populations ne sont pas préétablis
 La description : il s’agit de décrire les données d’une base complexe. Cette tâche
engendre souvent une exploitation supplémentaire en vue de fournir des
explications.
21
Une fois les tâches identifiées, elles sont utilisées pour restreindre la gamme des méthodes
prises en compte. En termes généraux, notre but est de sélectionner la technique de fouille
de données qui minimise le nombre et la difficulté des transformations de données qui
doivent être effectuées pour produire de bons résultats. Les données brutes peuvent
demander différentes manières d’être résumées, les valeurs manquantes doivent être
traitées, les données redondantes ou non pertinentes doivent être éliminées. Ces
transformations sont nécessairement indépendantes de la technique choisie.
1.3 Classification
La classification est l’une des techniques les plus anciennes d’analyse et de traitement de
données. Plusieurs définitions ont été proposées par les spécialistes du domaine :
 Pour Mari et Napoli (Mari & Napoli, 1996): "Effectuer une classification, c'est
mettre en évidence des relations entre des objets, et entre ces derniers et leurs
paramètres".
 Un problème de classification selon Henriet (Henriet, 2000): "consiste à affecter
des objets, des candidats, des actions potentielles à des catégories ou des classes
prédéfinies".
 Michie et al. (Michie, et al., 1994) ont un point de vue axé sur l'apprentissage, ils
définissent la classification par : "La classification est l'action de regrouper en
différentes catégories des objets ayant certains points communs ou faisant partie
d'un même concept, sans avoir connaissance de la forme ni de la nature des classes
au préalable, on parle alors de problème d'apprentissage non supervisé ou de
classification automatique, ou l'action d'affecter des objets à des classes prédéfinies,
on parle dans ce cas d'apprentissage supervisé ou de problème d'affectation" .
 Retenons aussi la définition de Bognar (Bognar, 2003): "Le processus de
classification cherche à mettre en évidence les dépendances implicites qui existent
entre les objets, les classes entre elles, les classes et les instances. La classification
recouvre les processus de reconnaissance de la classe d'un objet, et l'insertion
éventuelle d'une classe dans une hiérarchie. Ce mode de raisonnement permet de
22
Chapitre 1: Fouille de données et classification
reconnaître un objet en identifiant ses caractéristiques, relativement à la hiérarchie
étudiée. La classification fait intervenir un processus de décision d'appartenance"
Nous présentons dans cette section certaines distinctions relatives à la classification, et
nous précisons des éléments de terminologie à ce champ multidisciplinaire. Nous
détaillons, plus particulièrement, les méthodes de la classification supervisée qui seront
utilisées dans les problématiques traitées dans ces travaux de thèse.
1.3.1 Buts et modalités de la classification
La classification repose sur des objets à classer. Les objets sont localisés dans un espace de
variables (ont dit aussi attributs, caractéristiques ou critères). Il s’agit de les localiser dans un
espace de classes. Ce problème n’a de sens que si on pose l’existence d’une correspondance
entre ces deux espaces. Résoudre un problème de classification, c’est trouver une
application de l’ensemble des objets à classer, décrits par les variables descriptives choisies,
dans l’ensemble des classes. L’algorithme ou la procédure qui réalise cette application est
appelé classifieur.
Nous appellerons :
 classificateur : une règle établie (estimée) de classification, c’est-à-dire une fonction
sur l’espace des caractéristiques vers l’espace des classes ;
 classification : la construction d’un classificateur ;
 classement : la mise en œuvre d’un classificateur existant.
Généralement, l’inférence statistique traditionnelle peut couvrir plusieurs problématiques :
 exploratoire : déceler des relations hypothétiques ;
 prédictive : valider la performance globale d’un système de relations ;
 explicative : valider des composantes détaillées d’un système de relations·
comprendre leurs contributions à ce système.
On retrouve des distinctions voisines en classification :
 On appelle classification automatique, ou non supervisée, un ensemble de
problématiques où l’espace des classes n’est pas spécifié à l’avance. Il s’agit
23
d’identifier, voire de construire, un système de classes sur la base d’observations
dans l’espace des caractéristiques.
 On appelle classification supervisée un contexte où un ensemble de classes (et une
structure sur cet ensemble) est spécifié à l’avance.
1.3.2 La classification, un domaine multidisciplinaire
La classification a fait l’objet de plusieurs travaux dans différents domaines de recherche.
Nous allons en particulier discuter des liens que la classification entretient avec la
statistique, la programmation mathématique, l’apprentissage automatique et l’aide
multicritère à la décision.
1.3.2.1
Classification et statistique
Les méthodes statistiques sont les techniques les plus anciennes pour la résolution des
problèmes de classification supervisée. Elles sont issues de l’analyse des données : Elles
supposent l’existence d’un modèle probabiliste décrivant les données. L’objectif de ces
méthodes est ainsi de caractériser ce modèle. La littérature nous offre une multitude de
méthodes et d’applications statistiques (Duda, et al., 2001).
L’objectif de ce type de techniques est d’arriver à classer de nouveaux cas, en réduisant le
taux d’erreurs de classification. Selon (Weiss & Kulikowski, 1991), ces méthodes ont fait
leurs preuves pour des données assez simples. Avec le développement de la théorie
statistique d’apprentissage, de nouvelles méthodes de classification s’appuyant sur la théorie
statistique et se basant sur l’apprentissage sont nées.
1.3.2.2
Classification et programmation mathématique
La programmation mathématique dans un premier temps, a été utilisée en classification
automatique (Hansen & Jaumard, 1997). Le problème de partitionnement est souvent
formulé comme un programme mathématique. Le nombre de classes de la partition est
donné à l’avance.
24
Chapitre 1: Fouille de données et classification
L’objectif à optimiser peut refléter un souci d’homogénéité intra-classe ou de
différenciation interclasses. La résolution fait appel à une variété de techniques de
programmation mathématique discrètes, exactes ou heuristiques.
En classification supervisée, la programmation mathématique a été utilisée pour optimiser
la capacité prédictive du classificateur à construire. Des formes d’approximations très
variées ont été proposées, incorporant parfois une mesure d’erreurs empirique, parfois des
repères paramétrés, etc. Toutefois, la contribution de la programmation mathématique est
beaucoup plus importante en classification automatique qu’en classification supervisée.
1.3.2.3
Classification et apprentissage automatique
Vincent (Vincent, 2003) définit l’apprentissage automatique par «une tentative de
comprendre et de reproduire l’habileté humaine d’apprendre de ses expériences passées et
de s’adapter dans les systèmes artificiels». Par apprentissage, on entend la capacité de
généraliser et de résoudre de nouveaux cas à partir des connaissances mémorisées et des
expériences réussies dans le passé. Appelé souvent la branche connexionniste de
l’intelligence artificielle, l’apprentissage automatique puisait initialement ses sources en
neurosciences. Au cours des dernières années, il s’est détaché de ses origines pour faire
appel à des théories et outils d’autres disciplines : théorie de l’information, traitement du
signal, programmation mathématique, statistique (Vincent, 2003). Des préoccupations
convergentes en analyse de données ont donné naissance à la théorie de l’apprentissage
statistique (Vapnik, 1998).
Il existe trois principales tâches d’apprentissage automatique : apprentissage supervisé,
apprentissage non supervisé et apprentissage par renforcement.
Pour un problème de classification, un système d’apprentissage supervisé permet de
construire une fonction de prise de décision (un classificateur) à partir des actions déjà
classées (ensemble d’apprentissage), pour classer des nouvelles actions. Dans le cas de
l’apprentissage non-supervisé, on dispose d’un nombre fini de données d’apprentissage
sans aucune étiquette. L’apprentissage par renforcement a la particularité que les décisions
prises par l’algorithme d’apprentissage influent sur l’environnement et les observations
futures (Vincent, 2003).
25
La classification compte parmi les plus grandes réussites de l’apprentissage automatique.
Plusieurs applications illustrent la diversité des domaines d’utilisation : moteur de
recherche, reconnaissance de la parole, reconnaissance de formes, reconnaissance de
l’écriture manuscrite, aide au diagnostic médical, analyse des marchés financiers, bioinformatique, sécurité des données, etc.
1.3.2.4
Classification et aide multicritère à la décision
Les méthodes de classification multicritère partent en général de classes prédéfinies, elles
relèvent donc de l’apprentissage supervisé (Belacel, 1999) ; (Henriet, 2000) mais avec une
composante contextuelle qui peut être importante. C’est pourquoi elles se distinguent par
des modalités particulières d’apprentissage.
La classification en aide multicritère à la décision se situe dans le cadre de la problématique
du tri. Selon Roy et Bouyssou (Roy & Bouyssou, 1993) «Elle consiste à poser le problème
en terme du tri des actions par catégorie». Les actions sont évaluées sur plusieurs critères
potentiellement conflictuels et non commensurables. Contrairement aux autres approches
de classification, l’aide multicritère à la décision ne cherche pas uniquement à développer
des méthodes automatiques pour analyser les données afin de les classer. Dans le cadre de
l’affectation multicritère, les préférences du décideur (l’humain) sont aussi prises en
compte. Ainsi, selon (Henriet, 2000) «L’objectif des méthodes de classification multicritère
n’est pas de décrire au mieux les données, mais de respecter un ensemble de préférences
qui auront été articulées auparavant».
1.4 La classification non supervisée
Les méthodes de classification non supervisée ou automatique regroupent les objets en un
nombre restreint de classes homogènes et séparées. Homogènes signifie que les éléments
d’une classe sont les plus proches possible les uns des autres. Séparées veut dire qu’il y a un
maximum d’écart entre les classes. La proximité et l’écart ne sont pas nécessairement au
sens de distance. L’homogénéité et la séparation entrent dans le cadre des principes de
cohésion et d’isolation de Cormack (Cormack, 1971).
26
Chapitre 1: Fouille de données et classification
Les méthodes de classification automatique déterminent leurs classes à l’aide d’algorithmes
formalisés. On parle aussi de méthodes exploratoires, qui ne sont pas explicatives. Les
méthodes de classification automatique ont apporté une aide précieuse, notamment par
leurs applications en biologie, en médecine, en astronomie et en chimie.
Cormack (Cormack, 1971) distingue entre trois familles de méthodes : la classification
hiérarchique, le partitionnement et le groupement. Quant à (Gordon, et al., 2002), il rajoute
trois autres catégories à la taxonomie de Cormack : la classification automatique sous
contraintes, la classification automatique floue et les méthodes géométriques.
Hansen et Jaumard (Hansen & Jaumard, 1997) définissent deux autres types d’algorithmes
de classification : les sous-ensembles, et le «Packing».
Pour présenter les méthodes de la classification automatique, nous avons retenu les deux
principales catégories : les méthodes de classification hiérarchique et les méthodes de
partitionnement. La classification hiérarchique peut être ascendante ou descendante, le
nombre de classes n’est pas fixé au préalable. Quant au partitionnement, c’est une
classification non hiérarchique en un nombre fixe de classes.
1.4.1 Les méthodes hiérarchiques
La classification hiérarchique, consiste à effectuer une suite de regroupements en classes de
moins en moins fines en agrégeant à chaque étape les objets ou les groupes d’objets les plus
proches. Le nombre d’objets n’est pas fixé a priori mais, sera fixé a posteriori. Elle fournit
ainsi un ensemble de partitions de l’ensemble d’objets (Belacel, 1999). Il existe deux types
de méthodes :
 les méthodes ascendantes (algorithmes agglomératifs) ;
 les méthodes descendantes (algorithmes divisifs).
1.4.1.1
La classification hiérarchique ascendante
Ces méthodes sont les plus anciennes et les plus utilisées dans la classification automatique.
Supposons que nous avons
objets à classer. Les algorithmes agglomératifs suivant cette
approche, définissent d’abord une partition initiale en
classes unitaires. Par la suite, ils
fusionnent successivement les classes jusqu’à ce que toutes les entités soient dans la même
27
classe. Dans chaque étape de fusion des classes, le recalcule des dissimilarités entre les
nouvelles classes est nécessaire. Le choix des classes se fait selon le critère qui caractérise la
méthode.
Les méthodes de cette catégorie diffèrent selon le critère local choisi et selon la méthode de
calcul des dissimilarités interclasses. Nous retrouvons notamment les méthodes issues de la
théorie des graphes et les méthodes qui se basent sur la minimisation des carrés des erreurs.
Dans les méthodes issues de la théorie des graphes, nous retrouvons la méthode du lien
simple, du lien complet et du lien moyen. Quant à la deuxième catégorie, elle regroupe les
méthodes de médiane, centroïd, la méthode de Ward et la méthode de la variance.
1.4.1.2
La classification hiérarchique descendante
Dans le paragraphe précédent, nous avons vu que la classification hiérarchique ascendante
se base sur un seul critère à la fois. Ceci engendre uniquement une séparation (méthode du
lien simple) ou une homogénéité (méthode du lien complet) optimale des classes. Ce qui
risque de donner naissance à l’effet de chaînage (deux entités très dissimilaires appartenant
aux points extrêmes d’une longue chaîne, peuvent appartenir à la même classe) ou l’effet de
dissection (deux entités très similaires peuvent être dans deux classes différentes). Pour
faire face à ces deux problèmes, nous retrouvons les algorithmes divisifs de la classification
hiérarchique descendante.
Ces algorithmes commencent par former une seule classe qui englobe tous les objets. Par la
suite, ils choisissent une classe de la partition en cours selon un premier critère local. Ils
procèdent ensuite à une bipartition successive selon un deuxième critère local des classes
choisies. Cette bipartition continue jusqu’à ce que toutes les entités soient affectées à
différentes classes (Murtagh, 1983).
1.4.2 Le partitionnement
Les algorithmes divisifs et agglomératifs des méthodes hiérarchiques reflètent le processus
naturel de l’évolution qui est le produit de séparation et de regroupement. La classification
dans le domaine de la biologie, par exemple, correspond exactement au comportement de
ce type d’algorithmes. Or, dans d’autres domaines, supposer qu’il y a uniquement des
séparations et des regroupements peut s’avérer restreint. Les méthodes de partitionnement
28
Chapitre 1: Fouille de données et classification
sont plus générales que les méthodes hiérarchiques. Le principe de cette famille de
méthodes, est de trouver une partition des objets qui optimise un critère additif donné.
Cette partition est composée d’un nombre de classes fixé au préalable.
Le problème de partitionnement se modélise généralement par un programme
mathématique. La fonction objectif représente le critère à optimiser. Quant aux contraintes,
elles traduisent les règles de partitionnement à respecter. Les deux règles les plus
importantes sont relatives au nombre de classes et à l’appartenance unique d’un élément à
une classe donnée.
La programmation mathématique est utilisée avec toutes ses branches en partitionnement :
programmation dynamique, théorie des graphes, Branch and Bound, méthodes de coupes
et génération de colonnes (Hansen & Jaumard, 1997).
Les méthodes les plus répandues de partitionnement sont celles qui visent à minimiser la
somme des carrées des erreurs. Parmi ces méthodes, nous retenons : la méthode de leader,
la méthode de k-means et la méthode des nuées dynamiques (Belacel, 1999). D’autres métaheuristiques ont fait leurs preuves dans le partitionnement : recuit simulé, recherche tabou,
algorithmes génétiques et variable neighborhood search (Hansen & Jaumard, 1997).
Les méthodes de partitionnement permettent de traiter rapidement de grands ensembles
d’individus. Grâce à l’évolution de la puissance de calcul des ordinateurs et le
développement de nouveaux algorithmes en programmation mathématique, nous arrivons
à résoudre le problème mathématique de partitionnement avec de plus en plus de variables.
Ces méthodes produisent directement une partition en un nombre de classes fixé au départ.
Les classes qui forment la partition finale sont mutuellement exclusives. Toutefois, les
techniques de partitionnement présentent un problème au niveau du nombre de classes qui
doit être fixé au départ. Si le nombre de classes n’est pas connu ou si ce nombre ne
correspond pas à la configuration véritable de l’ensemble d’individus (d’où le risque
d’obtenir des partitions de valeurs douteuses), il faut presque toujours tester diverses
valeurs, ce qui augmente le temps de calcul. C’est la raison pour laquelle, lorsque le nombre
des individus n’est pas trop élevé, on fait appel aux méthodes hiérarchiques.
29
1.5 La classification supervisée
L’objectif de la classification supervisée est d’apprendre, à l’aide d’un ensemble
d’entraînement, une procédure de classification qui permet de prédire l’appartenance d’un
nouvel exemple à une classe. En d’autre terme, l’objectif est d’identifier les classes
auxquelles appartiennent des objets à partir de leurs variables descriptifs.
1.5.1 Formalisation mathématique
Dans le cadre de la classification supervisée, les classes sont connues et l’on dispose
d’exemples (ou individus) de chaque classe.
Un exemple est un couple
l’objet et
, où
représente la supervision de .
Dans un problème de classification,
nous utilisons typiquement
et
.
Soit un ensemble d’exemples de
est caractérisée par
s’appelle la classe de . Pour la classification binaire
pour dénoter l’espace d’entrées tel que
l’espace de sortie tel que
donnée
est la description ou la représentation de
données étiquetées :
variables et par sa classe
. Chaque
. On cherche une hypothèse
telle que :

satisfait les échantillons

possède de bonnes propriétés de généralisation.
Le problème de la classification consiste donc, en s’appuyant sur l’ensemble d’exemples à
prédire la classe de toute nouvelle donnée
.
1.5.2 Le problème de la généralisation
L’objectif de la classification est de fournir une procédure ayant un bon pouvoir prédictif
c’est-à-dire garantissant des prédictions fiables sur les nouveaux exemples qui seront
soumis au système. La qualité prédictive d’un modèle peut être évaluée par le risque réel ou
30
Chapitre 1: Fouille de données et classification
espérance du risque, qui mesure la probabilité de mauvaise classification d’une hypothèse
(Vapnik, 1998).
1.5.2.1
Soit
Risque réel
une hypothèse apprise à partir d’un échantillon
Le risque réel de
d’exemples de
.
est définit par :
∫
où
(1.1)
est une fonction de perte ou de coût associé aux mauvaises classifications et où
l’intégrale prend en compte la distribution
cartésien de
de l’ensemble des exemples sur le produit
.
La fonction de perte la plus simple utilisée en classification est définie par :
{
(1.2)
La distribution des exemples est inconnue, ce qui rend impossible le calcul du risque réel.
Le système d’apprentissage n’a en fait accès qu’à l’erreur apparente (ou empirique) qui est
mesurée sur l’échantillon d’apprentissage.
1.5.2.2
Risque empirique
Soit un ensemble d’apprentissage
hypothèse . Le risque empirique de
de taille
calculé sur
et une
est défini par :
∑
(1.3)
Avec la fonction de perte présentée ci-dessus, le risque empirique ou apparent est
simplement le nombre moyen d’exemples de
qui sont mal classés.
On peut montrer que, lorsque la taille de l’échantillon tend vers l’infini, le risque apparent
converge en probabilité si les éléments de
sont tirés aléatoirement vers le risque réel.
31
Malheureusement on ne dispose que d’un échantillon limité d’exemples ; le risque
empirique est très optimiste et n’est pas un bon indicateur des performances prédictives de
l’hypothèse .
1.5.2.3
Évaluation d’une hypothèse de classification
Pour avoir une estimation non optimiste de l’erreur de classification, il faut recourir à une
base d’exemples qui n’ont pas servi pour l’apprentissage : il s’agit de la base de test. La base
de test contient elle aussi des exemples étiquetés qui permettent de comparer les
prédictions d’une hypothèse
avec la valeur réelle de la classe. Cette base de test est
généralement obtenue en réservant une partie des exemples initiaux et en ne les utilisant
pas pour la phase d’apprentissage. Lorsqu’on dispose de peu d’exemples, comme c’est le
cas dans le traitement des données d’expression de gènes, il est pénalisant de laisser de côté
une partie des exemples pendant la phase d’apprentissage. On peut alors utiliser le
processus de validation croisée pour une estimation du risque réel.
L’algorithme de validation croisée à
blocs (k-fold cross-validation) consiste à découper
l’ensemble initial d’exemples
blocs. On répète alors
évaluation où une hypothèse
en
phases d’apprentissage-
est obtenue par apprentissage sur
blocs de données
et testée sur le bloc restant. L’estimateur de l’erreur est obtenu comme la moyenne des
erreurs empiriques ainsi obtenues. L’algorithme est alors :
1- Partitionner l’ensemble d’exemples
2- Pour tout de

en k sous-ensembles disjoints :
à
Appliquer l’algorithme d’apprentissage sur le jeu d’apprentissage
pour
obtenir une hypothèse

Calculer
3- Retourner
∑
l’erreur de
sur
comme estimation de l’erreur
Même s’il n’existe pas pour cela de justifications théoriques claires, l’usage montre que
l’évaluation par validation croisée fournit de bons résultats pour
. Il faut noter que
lorsque le nombre d’échantillons dont on dispose est limité on peut également appliquer le
32
Chapitre 1: Fouille de données et classification
processus appelé Leave-One-Out Cross Validation (LOOCV) où la validation croisée est
appliquée avec
le nombre d’échantillons.
1.5.3 Les techniques de la classification supervisée
Pour présenter les techniques de la classification supervisée, nous avons repris la répartition
formulée par Weiss et Kulikowski (Weiss & Kulikowski, 1991) qui sépare ces techniques en
deux catégories :
 Les techniques statistiques ;
 Les techniques d’apprentissage automatique.
Les techniques statistiques regroupent une panoplie de méthodes. Nous présentons les
techniques basées sur l’apprentissage bayésien, l’analyse discriminante et la méthode du k
plus proches voisins (KNN). Dans la catégorie apprentissage automatique, nous présentons
les réseaux de neurones, les arbres de décision, et les Séparateurs à Vaste Marge SVM
(Support Vector Machines).
1.5.3.1
L’apprentissage Bayésien : Classifieur Bayésien Naïf
Comme son nom l’indique, l’apprentissage bayésien est basé sur le théorème de Bayes. Le
problème de classification peut se traduire par la minimisation du taux d’erreurs, ce qui
peut être formulé mathématiquement en utilisant la règle de Bayes. Dans le cadre de
l’apprentissage bayésien, nous retrouvons plusieurs types de classificateurs : classificateur
optimal de Bayes, classificateur Baysien Naïf, classificateur de Gibbs et les réseaux
bayésiens (Mitchell, 1997) ; (Wu, et al., 2008).
Dans cette partie nous allons présenter le classificateur Baysien Naïf qui sera utilisé dans
nos contributions.
Le classifieur bayésien naïf repose sur l’hypothèse que les solutions recherchées peuvent
être trouvées à partir de distributions de probabilité dans les données et dans les
hypothèses. Cette méthode permet de déterminer la classification d’un exemple quelconque
spécifiée en termes de variables en supposant que les variables
de l’espace
33
d’entrée
sont indépendants les uns des autres et
tel que
pour la
classification binaire. La règle de classification de Bayes s’écrit :
(1.4)
On peut remplacer
et
par des estimations faites sur l’ensemble
d’échantillons
(telles que loi de Bernouilli, normale ou bien d’autres). Pour toute classe
on estime ̂
par la proportion d’éléments de la classe
l’estimation des
dans
. Étant donné que
n’est pas évidente car le nombre de descriptions possibles
peut être grand, il faudrait un échantillon
de taille trop importante pour pouvoir estimer
correctement ces quantités. Pour cela on utilise l’hypothèse suivante : les valeurs des
variables sont indépendantes connaissant la classe. Cette hypothèse permet d’utiliser
l’égalité suivante :
∏
Pour cela il suffit d’estimer, pour tout
d’éléments de classe
ayant la valeur
bayésien naïf associe à toute description
et toute classe
(1.5)
, ̂
par la proportion
pour la i-ème variable. Finalement, le classifieur
la classe :
∏
(1.6)
Ce classifieur est simple, facile à mettre en œuvre et souvent efficace, mais présente un
point négatif qui est la sensibilité à la présence de variables corrélées.
1.5.3.2
L’analyse discriminante
L’analyse discriminante est le fruit des travaux de Fisher depuis 1936. Le but des méthodes
de cette approche est de produire des décisions concernant l’appartenance ou non d’un
objet à une classe en utilisant des fonctions discriminantes appelées également fonctions de
décision.
34
Chapitre 1: Fouille de données et classification
La discrimination linéaire est la forme la plus simple des méthodes de cette catégorie. Elle
présente l’avantage de pouvoir traiter des données de très grande taille. Le mot linéaire fait
référence à la combinaison linéaire des évènements, hyperplans, qui va être utilisée afin de
séparer entre les classes et de déterminer la classe d’un nouveau cas.
La construction de ces hyperplans de séparation peut être effectuée en utilisant plusieurs
techniques, comme c’est le cas avec la méthode des moindres carrées et la méthode du
maximum de vraisemblance. Les hyperplans sont construits de manière à minimiser la
dispersion des points d’une même catégorie autour du centre de gravité de celle-ci.
L’utilisation d’une distance est alors nécessaire pour mesurer cette dispersion.
Intuitivement, nous pouvons qualifier la discrimination linéaire comme une fonction
d’agrégation pondérée. Cette technique est considérée comme une méthode de
classification très compacte. Le défi dans cette méthode consiste à déterminer les poids de
la somme pondérée.
Comme dans l’analyse discriminante linéaire, les modèles logit ont recours à des hyperplans
de séparation. Ils se distinguent par le recours à des modèles probabilistes d’erreurs plus
robustes (fonctions logistiques par exemple).
La discrimination quadratique est la généralisation de la discrimination linéaire. Au lieu que
les classes soient séparées d’hyperplans, elles sont séparées généralement d’ellipsoïdes. On
utilise dans ce cas plusieurs métriques (une par classe) pour mesurer la dispersion de
chaque classe par rapport au centre de gravité (Henriet, 2000).
Le choix de la métrique n’est pas toujours évident. En effet, il s’agit de choisir la métrique
qui permet d’obtenir des classes où les points d’une même classe pour qu’ils soient les
moins dispersés possible autour du centre de gravité de la classe. Ces méthodes sont
totalement compensatoires. Dans les deux cas, on constate l’utilisation de fonctions
d’agrégation complète. Comme pour les autres méthodes statistiques, cette agrégation ne
tient pas compte de l’hétérogénéité des données, ceci renforce le côté arbitraire de la
méthode.
1.5.3.3
K plus proches voisins
L’algorithme des k plus proches voisins (noté k-PPV) (Weiss & Kulikowski, 1991) ; (Duda,
et al., 2001) ; (Wu, et al., 2008) est une méthode basée sur la notion de proximité
35
(voisinage) entre exemples et sur l’idée de raisonner à partir de cas similaires pour prendre
une décision. Le principe de cette méthode est de chercher pour chaque action à classer un
ensemble de
actions de l’ensemble d’apprentissage parmi les plus proches possibles de
l’action. L’action est alors affectée à la classe majoritaire parmi ces k plus proches voisins.
La fixation du paramètre
est délicate, une valeur très faible va engendrer une forte
sensibilité au bruit d’échantillonnage. La méthode va devenir faiblement robuste. Un
trop
grand va engendrer un phénomène d’uniformisation des décisions. La plupart des actions
vont être affectées à la classe la plus représentée. Pour remédier à ce problème, il faut tester
plusieurs valeurs de
et choisir le
optimal qui minimise le taux d’erreurs de classification
(Henriet, 2000).
Le choix de la classe majoritaire entre les classes des voisins peut poser des problèmes dans
le cas où l’action à classer se trouve à la frontière de plusieurs classes. Pour remédier à ce
problème, on donne des poids aux voisins. Ce poids est généralement proportionnel à
l’inverse du carré de la distance du voisin par rapport à l’action à classer.
1.5.3.4
Les réseaux de neurones
Les réseaux de neurones sont nés à partir de plusieurs sources : la fascination des
scientifiques par la compréhension, la simulation du cerveau humain et la reproduction de
la capacité humaine de compréhension et d’apprentissage. Le fonctionnement d’un réseau
de neurones est inspiré de celui du cerveau humain. Il reçoit des impulsions, qui sont
traitées, et en sortie d’autres impulsions sont émises. Un réseau de neurones s’exprime sous
forme d’un graphe composé de trois éléments : l’architecture, la fonction de transfert et la
règle d’apprentissage.
L’architecture concerne le nombre et la disposition des neurones, le nombre de couches
d’entrées de sorties et intermédiaires ainsi que les caractéristiques (pondération et direction)
des arcs du réseau.
Le nombre de neurones des différentes couches dépend du contexte d’application. Par
ailleurs, la détermination du nombre de neurones à y associer demeure dans la plupart du
temps arbitraire. En général, les poids initiaux des arcs sont déterminés aléatoirement et les
valeurs sont modifiées par le processus d’apprentissage.
36
Chapitre 1: Fouille de données et classification
La fonction de transfert traduit le niveau d’activation d’un neurone en un état. Le niveau
d’activation d’un neurone est obtenu en cumulant l’état de l’ensemble des entrées qui
agissent sur lui. Par la suite, la fonction de transfert transforme le niveau d’activation en
une valeur binaire ou continue, identifiant ainsi l’état du neurone. Les trois fonctions de
transfert les plus utilisées sont : la fonction saut (avec ou sans seuil), la fonction linéaire
(avec ou sans seuil) et la fonction sigmoïde.
Couche
d’entré
Couche
Cachée 1
Couche
Cachée 2
Couche
de sortie
Architecture d’un réseau de neurone
Modèle d’un neurone
Figure 1-2 : Représentation d’un réseau de neurones multicouches
La règle d’apprentissage est le processus d’ajustement des poids associés aux arcs lorsque le
réseau est en situation d’apprentissage. La réduction de l’erreur entre la valeur de sortie du
réseau et la valeur initiale dans l’ensemble d’apprentissage permet de déterminer les
paramètres (poids) du réseau. Il existe une variété de réseaux de neurones à apprentissage
non supervisé. Ces réseaux sont capables de mémoriser, ils raisonnent par analogie avec ce
qu’ils ont effectué. Pour ce type d’apprentissage, on présente une entrée sans aucune sortie
et on laisse le réseau évoluer jusqu’à ce qu’il se stabilise.
Il existe différents types de réseaux, selon le nombre de couches, la fonction de transfert ou
l’architecture elle-même du réseau : Perceptron, Adaline et le réseau de rétropropagation
(Weiss & Kulikowski, 1991).
Les réseaux de neurones sont souples, ils sont capables de traiter une gamme très étendue
de problèmes. Leur résultat peut être une prédiction, une classification ou encore une
analyse de clusters. Le degré de résolution est assez élevé. Ils donnent de bons résultats,
même dans des domaines complexes ; ils sont beaucoup plus puissants que les techniques
statistiques ou les arbres de décision en terme de résistance au bruit et au manque de
fiabilité des données.
37
Les réseaux de neurones ont des problèmes au niveau du codage des entrées. Toutes les
entrées doivent se trouver dans un intervalle défini, en général, entre 0 et 1. Ce qui entraîne
des transformations et risquent de fausser les résultats. La lisibilité au niveau des résultats
n’est pas satisfaisante dans la mesure où l’on ne peut avoir accès à des explications claires
des résultats obtenus (boîte noire). Pour assurer de bons résultats, le nombre d’exemples
doit être très grand puisqu’il tient compte du nombre d’entrées, du nombre de couches et
du taux de connexion.
1.5.3.5
Les arbres de décision
Les arbres de décision ont pour objectif la classification et la prédiction. Leur
fonctionnement est basé sur un enchaînement hiérarchique de règles exprimées en langage
courant. Un arbre de décision est composé d’un nœud racine par lequel entrent les
données, de nœuds feuilles qui correspondent à un classement de questions et de réponses
qui conditionnent la question suivante.
La mise en place d’un arbre de décision consiste à préparer les données par la suite à créer
et valider l’arborescence. Il s’agit d’abord de définir la nature, le format des variables et leur
méthode de traitement. Ces variables peuvent être non ordonnées ou encore continues.
Dans le cas de l’existence d’une base de règles simple et limitée, la construction de l’arbre se
fait en interaction avec le décideur, en validant les arborescences une à la fois jusqu’à la
détermination de l’affectation. C’est un processus interactif d’induction de règles qui
permet d’aboutir à une affectation bien justifiée. Mais, en général la création et la validation
de l’arborescence se passe selon l’algorithme de calcul choisi. Il existe différents
algorithmes développés pour appliquer cette technique : CART, C4.5 et CHAID (Quinlan,
1993) ; (Breimann, et al., 1984) ; (Henriet, 2000).
Les avantages procurés par les arbres de décision sont leur rapidité et, surtout, leur facilité
quant à l’interprétation des règles de décision. La clarté des règles de décision facilite le
dialogue homme-machine. Ce sont des méthodes non paramétriques qui ne font aucune
hypothèse sur les données. Ils peuvent traiter des ensembles d’apprentissage avec des
données manquantes. Cependant, les arbres de décision ont une faiblesse au niveau de la
performance et le coût d’apprentissage. Ils deviennent peu performants et très complexes
lorsque le nombre de variables et de classes augmente. En effet, ils risquent de devenir trop
38
Chapitre 1: Fouille de données et classification
détaillés, ce qui leur fait perdre un peu de leur lisibilité ou encore d’aboutir à de mauvais
classements et d’augmenter le coût d’apprentissage.
1.5.3.6
Méthodes à noyaux
L’objectif des techniques d’apprentissage avec les noyaux est de réduire la complexité des
algorithmes d’apprentissage. Cette réduction se passe via la minimisation du temps de
calcul. Elle consiste à introduire les noyaux qui permettent de réduire le nombre
d’opérations, notamment au niveau du produit scalaire dans le calcul des distances, quand
nous avons un vecteur d’entrée de dimension assez importante (Herbrich, 2002).
Afin de formuler le problème de classification, nous introduisons les fonctions
paramétriques qui permettent de transformer chaque cas (vecteur d’entrée dans le système)
en un nombre réel positif. La fonction
va exprimer notre croyance que
correspond à la sortie réelle dans l’ensemble d’apprentissage. Pour simplifier les calculs,
cette fonction doit être linéaire :
∑
(1.7)
Pour déterminer la valeur de chaque , il faut trouver la valeur du vecteur des paramètres
.
Soit
un vecteur de caractéristiques qui permet de transformer
chaque vecteur d’entrée
de dimension
en un nouveau vecteur
avec une
dimension plus faible
. Donc, nous effectuons un changement de variable avec un
changement de repère.
Le vecteur de paramètre
peut s’exprimer sous forme d’une combinaison linéaire des
vecteurs caractéristiques de l’ensemble d’apprentissage de dimension
∑
:
(1.8)
La fonction f peut être exprimée sous forme d’une combinaison linéaire de produit scalaire
dans l’espace des caractéristiques de .
39
∑
∑
∑
Au lieu de calculer le produit scalaire
fonction
, il suffit de calculer uniquement la
appelée noyau. La fonction linéaire
comme paramètre
(1.9)
est appelée classifieur noyau, elle a
.
De manière générale, la technique du noyau consiste à choisir d’abord un noyau
.
Par la suite, il s’agit d’utiliser un algorithme d’apprentissage, sur un échantillon
d’apprentissage de
sortie
exemples, pour se construire un classificateur
dont la valeur de
est donnée par (Vapnik, 1995):
∑
(1.10)
Ce classificateur est un classificateur linéaire dans un espace de caractéristiques
seulement si il existe un
si et
tel que :
∑
(1.11)
La condition (1.11) s’appelle la condition de Mercer (Mercer, 1909), et le noyau qui respecte
cette condition est appelé noyau de Mercer.
Ainsi, l’introduction du noyau comme une fonction symétrique facilement calculable entre
deux éléments, permet d’éliminer tous les calculs relatifs aux produits scalaires entre les
éléments. D’autre part, le passage du vecteur simple
aux vecteurs de caractéristiques
permet de passer d’un classificateur non linéaire dans l’espace d’entrée à un classificateur
linéaire dans l’espace des caractéristiques, dans le cas où le noyau choisi satisfait la
condition de Mercer. L’objectif de réduire la complexité de l’algorithme doit être atteint
tout en assurant la performance de l’algorithme. Cette performance se mesure en termes de
minimisation des erreurs de la classification de l’ensemble d’apprentissage. Ainsi, les
techniques d’apprentissage par noyau essayent de minimiser la complexité des algorithmes
d’apprentissage et d’augmenter la performance du classificateur résultant. Dans cette partie,
40
Chapitre 1: Fouille de données et classification
nous allons présenter la méthode des séparateurs à vaste marge (SVM), comme une
application directe de l’apprentissage par noyaux.
A l’origine les SVM traitent la classification binaire (deux classes). Soit
d’apprentissage composé de vecteurs d’entrée
l’échantillon
, la classification de ces vecteurs est connue
au préalable. Elle est représentée par le vecteur de sortie
. Donc, il suffit de
connaître le signe du classificateur pour déterminer la classe de l’exemple. Si S est de
dimension
, alors la valeur de sortie du classificateur binaire
est donnée par :
∑
(1.12)
Ayant choisi un noyau de Mercer, l’algorithme d’apprentissage pour les SVM consiste à
trouver l’hyperplan de marge géométrique maximale qui sépare les données dans l’espace
des variables (Figure 1-3) (Vapnik, 1998). Vapnik a été le premier à avoir introduit les
notions d’hyperplan dans les algorithmes vecteurs de support (Herbrich, 2002).
Classe : 1
Marge
géométrique
++ +
++ ++
+
--------- - -
Classe : -1
Figure 1-3 : Représentation de l’hyperplan séparant linéairement les données dans l’espace des variables
Pour déterminer l’équation de l’hyperplan, on modélise le problème sous forme d’un
programme mathématique qui maximise la marge géométrique entre les données, tout en
tenant compte de la nécessité de la bonne classification de l’ensemble d’apprentissage.
L’efficacité de l’algorithme SVM est due au fait qu’il combine deux idées pertinentes. La
première est le changement de repère et des variables d’entrée vers un autre espace de
caractéristiques. Ce double changement permet de simplifier la construction de
41
classificateur non linéaire en utilisant uniquement les hyperplans dans l’espace des
caractéristiques. La deuxième, est de construire des hyperplans de séparation, dans l’espace
des caractéristiques avec la marge géométrique la plus large possible (Vapnik, 1998) ;
(Marchand & Shawe-Taylor, 2002) ; (Herbrich, 2002). D’un autre côté, l’approche des SVM
se base sur des fondements statistiques, une théorie bien enracinée dans le temps, qui arrive
à justifier aisément ses propos.
Le choix de la fonction noyau
est très important, celle-ci doit respecter certaines
conditions, elle doit correspondre à un produit scalaire dans un espace de grande
dimension. Mercer (Mercer, 1909) explicite les conditions que
doit satisfaire pour être
une fonction noyau : elle doit être symétrique et semi-définie positive.
L'exemple le plus simple de fonction noyau est le noyau linéaire :
(
)
(1.13)
On se ramène donc au cas d'un classifieur linéaire sans changement d'espace. L'approche
par noyau généralise ainsi l'approche linéaire. Le noyau linéaire est parfois employé pour
évaluer la difficulté d'un problème.
Les noyaux les employés avec les SVM sont :
Le noyau polynomial :
(
)
(1.14)
Le noyau gaussien :
(
)
(
‖
‖
)
(1.15)
Les SVM présentés traitent la classification binaire. Dans le cas multi-classes, plusieurs
méthodes ont été proposées pour étendre le schéma ci-dessus au cas où plus de deux
classes sont à séparer. Ces schémas sont applicables à tout classifieur binaire, et ne sont
donc pas spécifiques aux SVM (Vapnik, 1998). Les deux plus connues sont appelées one
versus all et one versus one. Formellement, les échantillons d'apprentissage et de test
peuvent ici être classés dans classes
.
42
Chapitre 1: Fouille de données et classification
La méthode one-versus-all (appelée parfois one-versus-the-rest) consiste à construire
classifieurs binaires en attribuant le label
aux échantillons de l'une des classes et le label
à toutes les autres. En phase de test, le classifieur donnant la valeur de confiance (la
marge par exemple) la plus élevée remporte le vote.
La méthode one-versus-one consiste à construire
classifieurs binaires en
confrontant chacune des classes. En phase de test, l'échantillon à classer est analysé par
chaque classifieur et un vote majoritaire permet de déterminer sa classe.
1.6 Conclusion
Dans ce chapitre nous avons présenté la fouille de données qui constitue le cœur du
processus d’extraction de connaissances à partir des données. Ensuite nous avons détaillé
les techniques de classification et en particulier les techniques de classification supervisées
qui font l’objet de nos travaux.
Par ailleurs, il y a lieu de rappeler que l’utilisateur qui veut couvrir tous les aspects existants
d’un problème particulier et obtenir une connaissance compréhensible doit considérer un
grand nombre de variables. Or, parmi ces variables certaines sont inutiles. En effet, il est
souvent difficile voire impossible de discerner les variables pertinentes des variables non
pertinentes ce qui pousse l’utilisateur à s’emparer de toutes les variables disponibles. De
plus, les sources de données peuvent être multiples et la fusion des données issues de
chacune de ces sources conduit à la création d’un ensemble contenant des variables inutiles
et redondantes.
La solution que l’on peut apporter à cette difficulté et la sélection d’un sous ensemble de
variables. La sélection de variables et un processus permettant l’élimination des variables
inutiles et/ou redondantes et l’élimination du bruit pouvant être généré par certaines
variables. Le processus de fouille de données est accéléré et la précision prédictive des
algorithmes de classification peut être améliorée.
43
Chapitre 2. Sélection de variables pour la classification supervisée ..................................... 43
2.1
Introduction ...................................................................................................................................44
2.2
Pertinence et redondance de variables .......................................................................................44
2.2.1
Pertinence de variables ........................................................................................................46
2.2.2
Redondance de variables.....................................................................................................46
2.3
Sélection de variables ....................................................................................................................48
2.3.1
La sélection vue comme un problème d’optimisation ...................................................49
2.3.2
Processus global de la sélection de variables ...................................................................50
2.3.3
Génération des sous-ensembles de variables...................................................................51
2.3.4
Evaluation des sous-ensembles .........................................................................................54
2.3.5
Critère d’arrêt ........................................................................................................................57
2.4
Principaux algorithmes existants ................................................................................................58
2.4.1
Les algorithmes d’ordonnancement de variables ............................................................58
2.4.2
Les algorithmes de construction du plus petit sous-ensemble de variables ...............58
2.4.3
Sélection de variables par information mutuelle .............................................................60
2.5
Conclusion......................................................................................................................................65
44
Chapitre 2: Sélection de variables pour la classification supervisée
2.1 Introduction
La tendance actuelle d’un accroissement fort de la taille des bases de données pose un défi
sans précédent pour la fouille de données. Non seulement les bases de données
s'agrandissent, mais de nouveaux types de données deviennent très répandus, tels que les
flux de données sur le web, les données de puces à ADN génomique et les données
relatives aux réseaux sociaux. Les chercheurs se sont rendu compte que la sélection des
variables est un élément essentiel pour que la fouille de données atteigne ses objectifs (Han
& Kamber, 2001) ; (Liu & Motoda, 1998) ; (Guyon & Elisseeff, 2003) ; (Liu & Motoda,
2007). Un nombre élevé de variables peut en effet s’avérer pénalisant pour un traitement
pertinent et efficace des données, d’une part par les problèmes algorithmiques que cela peut
entraîner (liés au coût calculatoire et à la capacité de stockage nécessaire), et d’autre part car
parmi les variables certaines peuvent être non-pertinentes, inutiles et/ou redondantes
perturbant ainsi le bon traitement des données. Or, il est très souvent difficile voire
impossible de distinguer les variables pertinentes des variables non-pertinentes.
Le problème de la dimension des données peut ainsi être résumé par l’aphorisme de Liu et
Motoda "Less is more" (Liu & Motoda, 1998) qui met en exergue la nécessité de supprimer
l’ensemble des portions non pertinentes des données de manière préalable à tout traitement
si on désire en extraire des informations utiles et compréhensibles.
La sélection de variables constitue une solution à ce problème. Ce processus vise en effet à
la détermination d’un sous ensemble optimal (au sens d’un critère donnée) de variables et
donc à la réduction du nombre de variables par élimination des variables non pertinentes
ou redondantes.
2.2 Pertinence et redondance de variables
La sélection de variables consiste à choisir parmi un ensemble de variables de grande taille
un sous-ensemble de variables intéressantes pour le problème étudié. Cette problématique
peut concerner différentes tâches de fouille de données mais nous parlerons seulement ici
de la sélection de variables réalisée pour la classification supervisée.
45
Dans ce contexte, les principales motivations de la sélection de variables sont les suivantes
(Liu & Motoda, 1998) :
 Utiliser un sous-ensemble plus petit permet d’améliorer la classification si l’on
élimine les variables qui sont source de bruit. Cela permet aussi une meilleure
compréhension des phénomènes étudiés ;
 Des petits sous-ensembles de variables permettent une meilleure généralisation des
données en évitant le sur-apprentissage ;
 Une fois que les meilleures variables sont identifiées, les temps d’apprentissage et
d’exécution sont réduits et en conséquence l’apprentissage est moins coûteux.
En présence de centaines, voire de milliers de variables, il y a beaucoup de chances pour
que des variables soient corrélées et expriment des informations similaires, on dira alors
qu’ils sont redondantes. D’un autre côté, les variables qui fournissent le plus d’information
pour la classification seront dites pertinentes. L’objectif de la sélection est donc de trouver
un sous-ensemble optimal de variables qui ait les propriétés suivantes : il doit être composé
de variables pertinentes et il doit chercher à éviter les variables redondantes. De plus cet
ensemble doit permettre de satisfaire au mieux l’objectif fixé c’est-à-dire la précision de
l’apprentissage, la rapidité de l’apprentissage ou bien encore l’explicabilité du classifieur
proposé (Dash & Liu, 1997) ; (Kohavi & John, 1997) ; (Guyon & Elisseeff, 2003) ; (Liu &
Motoda, 2007).
Soit
un ensemble de variables potentiellement explicatives d’une variable
aléatoire
dont les valeurs possibles sont
En pratique, cette variable
correspond souvent à l’affectation des individus du jeu de données de
classes d’un modèle. Soit
,
, une variable de l’ensemble de variables
un sous ensemble de l’ensemble complet de variables . On note
ensemble de
individus aux
ne comprennent pas la variable
et
le sous-
.
On suppose que l’on travaille avec un espace probabilisé où la probabilité est notée .
est la probabilité de la classe
connaissant les variables du sous-ensemble .
46
Chapitre 2: Sélection de variables pour la classification supervisée
2.2.1 Pertinence de variables
Kahavi et John (Kohavi & John, 1997) définissent les variables pertinentes comme celles
dont les valeurs varient systématiquement avec les valeurs de classe. Autrement dit, une
variable
est pertinente si la connaissance de sa valeur change les probabilités sur les
valeurs de la classe . Mais cette définition peut être précisée pour distinguer les variables
fortement pertinentes et les variables faiblement pertinentes grâce aux définitions suivantes.
 Une variable
est fortement pertinente si et seulement si:
(2.1)
 Une variable
est faiblement pertinente est équivalent à:
(2.2)
 Une variable
est non pertinente est équivalent à :
(2.3)
D’après ces définitions, les variables fortement pertinentes sont donc indispensables et
devraient figurer dans tout sous-ensemble optimal sélectionné, car leurs absences peuvent
conduire à un défaut de reconnaissance de la fonction cible (la classe).
La faible pertinence suggère que la variable n’est pas toujours importante, mais il peut
devenir nécessaire pour un sous-ensemble optimal dans certaines conditions.
La non-pertinence d’une variable se définit simplement par rapport à (2.1) et (2.2) et
indique qu’une variable n’est pas du tout nécessaire dans un sous-ensemble optimal de
variables.
2.2.2 Redondance de variables
La notion de la redondance de variables se comprend intuitivement et elle est généralement
exprimée en termes de corrélation entre variables. On peut dire que deux variables sont
47
redondantes (entre elles) si leurs valeurs sont complètement corrélées. Cette définition ne
se généralise pas directement pour un sous-ensemble de variables. On trouve dans (Koller
& Sahami, 1996), une définition formelle de la redondance qui permet de concevoir une
approche pour identifier et éliminer les variables redondantes. Cette formalisation repose
sur la notion de couverture de Markov (Markov blanket) d’une variable qui permet
d’identifier les variables non pertinentes et redondantes (Koller & Sahami, 1996) ; (Yu &
Liu, 2004).
Soit
l’ensemble total de variables et
ensemble de variables qui ne contient pas
couverture de Markov pour
la classe. Soit
une variable, et
, c’est-à-dire :
et
un sous.
est une
est équivalent à :
(2.4)
La définition de couverture de Markov impose que
l’information que
apporte sur
contient non seulement
mais aussi l’information qu’il apporte sur toutes les
autres variables. Dans (Koller & Sahami, 1996), il est montré qu’un sous-ensemble de
variables optimal peut être obtenu par une procédure d’élimination descendante, appelée
filtrage par couverture de Markov et définie comme suit : Soit
courant (
l’ensemble de variables
au départ). A chaque étape de la procédure, s’il existe une couverture de
Markov pour la variable
dans l’ensemble
courant,
est enlevé de .
On peut montrer que ce processus garantit qu’une variable enlevée dans une étape
précédente peut trouver une couverture de Markov dans une étape postérieure.
Selon les définitions précédentes de la pertinence des variables, on peut également montrer
que les variables fortement pertinentes ne peuvent trouver aucune couverture de Markov.
Par contre, les variables non pertinentes doivent être enlevées de toute façon, et il n’est
donc pas nécessaire de s’y intéresser dans la définition des variables redondantes. Cela
conduit à la définition suivante de la redondance (Yu & Liu, 2004) : Une variable
redondante et par conséquent peut être enlevé de
est
si et seulement si elle est faiblement
pertinente et qu’il possède une couverture de Markov dans .
Afin de synthétiser les différents notions de pertinence et redondance que l’on vient de
présenter, on peut proposer une catégorisation des variables présentée dans la Figure 2-1.
48
Chapitre 2: Sélection de variables pour la classification supervisée
Dans ce schéma, un ensemble initial de variables peut être partitionné en quatre
catégories (Yu & Liu, 2004): variables non pertinentes (partie I), variables redondantes
(partie II) (qui sont faiblement pertinentes comme on l’a vu), variables faiblement
pertinentes et non-redondantes (partie III), et variables fortement pertinentes (partie IV).
Un sous-ensemble de variables optimal contient essentiellement toutes les variables des
parties III et IV. Il est important de préciser que pour un ensemble initial donné, le
processus de filtrage par couverture de Markov peut conduire à différents découpages
donnant les parties II et III (qui sont disjointes).
I
II
IV
III
Figure 2-1 : Catégorisation des variables
Les formalisations précédentes sont intéressantes pour mieux cerner les notions de
redondance et de pertinence. Néanmoins les définitions probabilistiques que nous avons
vues ne permettent pas de proposer un processus de sélection de variables applicable sur
des données de grande dimension. Dans la suite de ce chapitre nous allons donc présenter
différents points de vue permettant de comprendre le processus de la sélection de variables
d’un point de vue plus opérationnel.
2.3 Sélection de variables
Le problème de la sélection d’un sous-ensemble de variables peut être vu comme une
recherche dans un espace d’hypothèses (appelé ensemble de solutions possibles) (Blum &
Langly, 1997). Étant donné un ensemble initial
de
variables, la sélection d’un "bon"
sous-ensemble de variables nécessite d’examiner potentiellement
sous-ensembles
possibles. La qualité d’un sous-ensemble sélectionné est évaluée selon un critère de
performance que l’on notera . Dans le cas d’un problème de classification supervisée, ce
critère est très souvent la précision d’un classifieur (taux de classification) construit à partir
de l’ensemble de variables sélectionnés.
49
2.3.1 La sélection vue comme un problème d’optimisation
La recherche d’un sous-ensemble de variables, optimal pour le critère
que l’on s’est
donné, est alors un problème NP-difficile (Davies & Russell, 1994) ; (Cotta & Moscato,
2003). Plusieurs approches peuvent être envisagées pour contourner cette difficulté. Elles
sont formalisées dans la définition suivante (Molina, et al., 2002) :
Soit
un ensemble de variables. Soit
ensemble de
un score:
une mesure d’évaluation qui attribue à tout sous-
̅
.
doit être optimisée (maximisée ou minimisée
suivant la nature de ), on supposera dans la suite que
doit être maximisée.
La sélection d’un sous-ensemble de variables peut se faire suivant un des schémas suivants :
 Nombre de variables fixé : Pour un nombre
trouver ̅
tel que ̅
et que
fixé, avec
, on cherche à
̅ soit maximum.
 Seuil de performance fixé : On se donne une valeur seuil
minimum acceptable pour , et on cherche à trouver ̅
soit le plus petit possible et que
̅
, c’est-à-dire, le
tel que le cardinal de
.
 Compromis performance et nombre de variables. Trouver un compromis entre le
fait de minimiser le nombre de variables ̅ et le fait d’optimiser
La première stratégie consiste à passer d’un ensemble initial de
ensemble de
̅ .
variables à un sous-
variables sélectionnées qui donne une performance au moins égale ou
meilleure à celle obtenue avec l’ensemble complet. Cela suppose qu’on connaît le nombre
optimal des variables à sélectionner. La première difficulté est de définir a priori ce nombre
. Ce nombre dépend de la taille, de la quantité et de l’information disponible. Si
est
fixé, une deuxième difficulté consiste alors à examiner toutes les combinaisons possibles.
La recherche d’un sous-ensemble de
variables parmi
combinaisons ( ). La croissance exponentielle de (
)
donne un nombre de
rend la recherche très coûteuse et une
exploration exhaustive n’est pas envisageable, même pour des valeurs modérées de
Dans le deuxième cas on fixe un seuil de performance
à respecter. On cherche donc
un sous-ensemble de cardinalité minimale dont la performance soit meilleure que
valeur
et .
. La
peut être une valeur observée avec une certaine représentation du problème et
50
Chapitre 2: Sélection de variables pour la classification supervisée
on se fixe l’objectif de trouver une représentation utilisant un nombre minimum de
variables mais garantissant une performance au moins égale à
. Nous verrons dans les
chapitres suivants que des méthodes évolutionnaires comme les algorithmes génétiques
peuvent être utilisés pour cet objectif.
Dans le troisième cas, on considère un problème d’optimisation bi-critère où l’on cherche à
la fois à maximiser la fonction
tout en minimisant le nombre de variables retenus.
Dans le cadre de la sélection de variables, il faut, en général, considérer le bon compromis
entre la performance et la taille du sous-ensemble final en prenant les critères
précédemment cités.
2.3.2 Processus global de la sélection de variables
Les différentes méthodes proposées dans la littérature pour la sélection de variables
peuvent être décrites par un schéma général (Dash & Liu, 1997) (
Figure 2-2) dans lequel on trouve les éléments clés suivants :
 Une procédure de génération de sous-ensembles candidats qui détermine
l’exploration de l’espace de recherche ;
 Une fonction d’évaluation donnant la qualité des sous-ensembles candidats ;
 Une condition d’arrêt ;
 Un processus de validation pour vérifier si l’objectif souhaité est atteint.
Ensemble de
départ
Génération
Evaluation
Sous ensemble
sélectionné
Non
Critère
d’arrêt
Oui
Figure 2-2 : Processus de sélection de variables
Validation
51
2.3.3 Génération des sous-ensembles de variables
Dans le cadre de la sélection de variables, la procédure de génération désigne la façon de
générer l’ensemble de variables candidat à examiner (Liu & Motoda, 1998). Siedlecki et
Sklansky (Siedlecki & Sklansky, 1988) parlent aussi de procédure de recherche. Le principe
général consiste à générer successivement des sous-ensembles de variables à évaluer.
La procédure de génération des sous-ensembles de variables est caractérisée par une
direction de recherche et une stratégie de recherche.
2.3.3.1
Direction de recherche
La sélection de variables est un problème de recherche où chaque état spécifie un sousensemble de variables. Le passage de l’état initial à l’état final peut être schématisé par un
graphe partiellement ordonné où chaque état enfant possède un ensemble de variables
différents de ses parents. Les méthodes de sélection de variables utilisent donc l’ordre
partiel des variables pour organiser leur recherche d’un sous-ensemble optimal de variables.
Cet ordre partiel correspond à l’agencement des variables dans le temps, c’est à dire à leur
utilisation lors du processus de sélection. Les directions de recherche peuvent être de trois
types : Ajout de variables, Suppression de variables et bidirectionnelles.
La stratégie d’ajout de variables (FS) débute avec l’ensemble vide, puis, à chaque itération,
la variable optimale suivant un certain critère est ajoutée. Le processus s’arrête quand il n’y a
plus de variable à ajouter, ou quand un certain critère est satisfait.
La stratégie de suppression de variables débute avec l’ensemble de toutes les variables, puis,
à chaque itération, une variable est enlevée de l’ensemble. Cette variable est telle que sa
suppression donne le meilleur sous-ensemble selon un critère particulier. Le processus
s’arrête quand il n’y a plus de variable à supprimer, ou quand un certain critère est satisfait.
Les méthodes bidirectionnelles (Devijver & Kittler, 1982) permettent de pallier au
problème de l’irrévocabilité de la suppression ou de l’ajout d’une variable. En effet,
l’importance d’une variable peut se voir modifiée au cours des différentes itérations du
processus de sélection de variables. Ces méthodes autorisent l’ajout et la suppression d’une
variable de l’ensemble des variables à n’importe quelle étape de la recherche (autre que la
première) contrairement à l’ajout de variables (respectivement, suppression de variables)
52
Chapitre 2: Sélection de variables pour la classification supervisée
pour laquelle une fois qu’une variable a été ajoutée (respectivement, supprimée) il est
impossible de la retirer (respectivement, réintégrer).
2.3.3.2 Stratégie de recherche
La stratégie de recherche dépend de la taille de l’espace de recherche. Pour un ensemble de
variables, le nombre de sous-ensembles de variables candidats est
. Même pour
un nombre de variables raisonnable, le nombre de sous-ensembles à étudier est donc
considérable. Pour affronter ce problème de taille de l’espace de recherche, trois stratégies
de recherche sont envisageables : la recherche complète, la recherche avec une heuristique
et la recherche aléatoire.
Une recherche complète des sous-ensembles optimaux est effectuée en tenant compte de la
fonction d’évaluation utilisée. Cette méthode n’est pas forcément exhaustive (Niblack, et
al., 1990). Différentes fonctions heuristiques peuvent être utilisées afin de réduire l’espace
de recherche sans compromettre les chances de trouver le sous-ensemble optimal.
Il est important de distinguer une recherche complète d’une recherche exhaustive. En effet,
une recherche exhaustive est toujours complète puisque qu’elle consiste à parcourir tous les
sous-ensembles possibles. Ainsi, le ou les meilleur(s) sous-ensemble(s) est (sont) toujours
évalué(s) et donc choisi(s). En revanche, la réciproque est fausse : dans certains cas, une
recherche complète n’est pas exhaustive. Par exemple, si la mesure d’évaluation est
monotone, nous n’aurons pas besoin de regarder tous les sous-ensembles (d’être exhaustif)
pour retourner le sous-ensemble optimal. La recherche complète est donc encore couteuse
(de l’ordre de
(Dash & Liu, 1997)) mais elle évalue toujours moins de sous-
ensembles que l’exhaustivité.
L’ensemble des sous-ensembles à évaluer peut être vu comme un treillis (Figure 2-3). Les
deux méthodes de recherche exhaustive les plus courantes sont donc le parcours en
profondeur d’abord et le parcours en largeur ensuite.
53
𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟒
𝑿𝟏 𝑿𝟐 𝑿𝟑
𝑿𝟏 𝑿𝟐
𝑿𝟏 𝑿𝟐 𝑿𝟒
𝑿𝟏 𝑿𝟑
𝑿𝟏 𝑿𝟑 𝑿𝟒
𝑿𝟏 𝑿𝟒
𝑿𝟏
𝑿𝟐 𝑿𝟑 𝑿𝟒
𝑿𝟐 𝑿𝟑
𝑿𝟐
𝑿𝟑
𝑿𝟐 𝑿𝟒
𝑿𝟑 𝑿𝟒
𝑿𝟒
𝝓
Figure 2-3 : Sous-ensembles de variables possibles à partir d’un ensemble de 4 variables
En ce qui concerne les recherches complètes, l’algorithme le plus classique trouvé dans la
littérature est l’algorithme « Branch and Bound » de Narendra et Fukunaga (Narendra &
Fukunaga, 1977).
Les parcours complets ou exhaustifs sont évidemment très couteux en temps de calcul.
L’utilisation d’une heuristique suit une stratégie de recherche que l’on sait non optimale
mais qui assure la découverte d’une solution rapidement, que l’on souhaite proche de la
solution optimale.
Les algorithmes classiques de recherche complète intègrent tous une heuristique pour les
rendre opérationnels. Pour l’algorithme en largeur d’abord, l’heuristique « le meilleur en
premier » consiste à ne prendre à chaque niveau de l’arbre que le meilleur sous-ensemble.
C’est une stratégie qui ne prend en compte la notion de meilleur qu’à un seul niveau de
l’arbre (c’est-à-dire qu’elle ne garde que le meilleur sous-ensemble de chaque taille).
Augmenter le nombre de niveaux sur lequel on retient le meilleur sous-ensemble augmente
aussi le cout en temps pour trouver une solution optimale. Une amélioration de cette
heuristique consiste à prendre en compte le fait qu’un meilleur sous-ensemble à un niveau i
de l’arbre ne provient pas forcement du meilleur sous-ensemble du niveau
meilleur sous-ensemble de taille
de taille ).
(le
n’engendre pas forcement le meilleur sous-ensemble
54
Chapitre 2: Sélection de variables pour la classification supervisée
Les algorithmes précédemment présentés sont déterministes. Une part de stochastique peut
être introduite dans ces approches pour éviter un des principaux inconvénients des
algorithmes précédents à savoir tomber dans un optimal local. Dans ce cas on parle d’une
génération aléatoire. Boddy et Dean (Boddy & Dean, 1994) ont proposé un algorithme qui
sélectionne à chaque tour un sous-ensemble généré aléatoirement s’il satisfait un critère de
qualité et si sa cardinalité est inférieure au meilleur ensemble courant. Le problème de ce
genre d’algorithme reste le critère d’arrêt. Pour cela, on peut choisir de limiter le nombre
d’itérations ou bien de s’arrêter dès lors que l’on a obtenu un ensemble ayant pour
cardinalité le minimum que l’on s’était fixé (mais rien n’assure que l’algorithme ne se
termine dans ce dernier cas). Siedlecki et Sklansky (Siedlecki & Sklansky, 1988) ont proposé
d’appliquer un algorithme génétique ou bien une méthode de recuit simulé pour générer un
meilleur sous-ensemble de variables pertinentes.
Plusieurs implémentations de génération aléatoire de sous-ensembles de variables sont
présentées dans (Press, et al., 1992). Ce point n’est pas à négliger puisque la performance de
l’algorithme est étroitement liée à la qualité du générateur aléatoire.
2.3.4 Evaluation des sous-ensembles
L'évaluation d'un sous-ensemble est traitée de façons très diverses tout en précisant le type
d’approche utilisé et la fonction d’évaluation.
Dans la littérature de la sélection de variables, trois classes de méthodes ont été
considérées (Guyon & Elisseeff, 2003) :
 Approche filtre (filter) ;
 Approche enveloppe (wrapper) ;
 Approche intégrée (embedded).
2.3.4.1
L’approche filtre (filter)
Le filtrage est un processus de prétraitement des données par filtrage des variables non
pertinentes avant que n’intervienne la phase de classification. Il utilise les caractéristiques
générales de l’ensemble de variables pour sélectionner certaines variables et en exclure
d’autres. La plupart des approches filtres classent les variables selon leur pouvoir individuel
55
de prédiction de la classe qui peut être estimé de divers moyens tels que le score de Fisher
(Furey, et al., 2000), le test de Kolomogorov-Smirnov, le coefficient de corrélation de
Pearson (Miyahara & Pazzani, 2000) ou encore l’information mutuelle (Torkkola, 2003) ;
(Battiti, 1994).
Dans le cadre de ce type d’approche nous avons évalué et testé le critère statistique Lambda
de Wilks, développé en analyse discriminante, pour sélectionner les variables les plus
pertinentes (El Ouardighi, et al., 2007). Les résultats trouvés ont montrés que ce critère
permet d’améliorer les performances en classification.
Le principal avantage des méthodes filtre est leur efficacité calculatoire et leur robustesse
face au sur-apprentissage. Malheureusement, ces méthodes ne tiennent pas compte des
interactions entre les variables et tendent à sélectionner des variables comportant de
l'information redondante plutôt que complémentaire (Guyon & Elisseeff, 2003).
2.3.4.2 L’approche enveloppe (Wrapper)
Ces approches ont été introduites par Kohavi et John (John, et al., 1994) ; (Kohavi & John,
1997). Pour ces auteurs, les algorithmes de filtrage ne sont pas toujours efficaces car ils
ignorent totalement l’influence de l’ensemble de variables sélectionnées sur les
performances de l’algorithme de classification. Pour résoudre ce problème, ils proposent
une approche différente qui utilise le résultat de l’algorithme de classification comme
fonction d’évaluation. L’algorithme de classification appliqué aux données prétraitées est
utilisé comme un sous-programme et considéré comme une boite noire par cet ensemble
de méthodes.
Le risque de sur-apprentissage est grand si le nombre d'observations est insuffisant et le
nombre de variables à sélectionner doit être choisi par l'utilisateur. Enfin, le plus grand
désavantage de ces méthodes est le temps de calcul qui devient vite important surtout dans
le cas d’un grand nombre de variables.
(John, et al., 1994) et (Aha & Bankert, 1995) furent les premiers à démontrer (de façon
empirique) que la stratégie enveloppe était supérieur à la stratégie filtre en terme de
performance de classification.
56
Chapitre 2: Sélection de variables pour la classification supervisée
2.3.4.3 L’approche intégrée (Embedded)
Les approches intégrées incorporent la sélection de variables lors du processus
d'apprentissage, sans étape de validation, pour maximiser la qualité de l'ajustement et
minimiser le nombre de variables. Un exemple très connu est celui des arbres de décision,
où les variables sélectionnées sont celles présentes au niveau de la division de chaque nœud.
Selon Guyon et al. (Guyon & Elisseeff, 2003), ces approches seraient bien plus
avantageuses en terme de temps de calcul que les méthodes de type wrapper et seraient
robustes face au problème de sur-apprentissage.
2.3.4.4 Fonction d’évaluation
L’objectif associé à la fonction d’évaluation est de mesurer la capacité d’une variable, ou
d’un ensemble de variables, à discriminer les classes de la partition impliquée par la variable
endogène. L’optimalité d’un sous-ensemble est relative à la fonction d’évaluation utilisée.
Dash et Liu (Dash & Liu, 1997) considèrent que ces fonctions peuvent être regroupées en
cinq catégories qui sont les suivantes : les mesures de divergence, les mesures
d’information, les mesures de dépendance, les mesures de consistance et les mesures de
précision.
 Information : fonctions quantifiant l’information apportée par une variable sur la
variable à prédire. La variable, ayant le gain d’information le plus élevé, est préférée
aux autres variables. (Le gain d’information étant la différence entre l’incertitude a
priori et l’incertitude a posteriori.)
 Distance : fonctions s’intéressant au pouvoir discriminant d’une variable. Elles
évaluent la séparabilité des classes en se basant sur les distributions de probabilités
des classes. Une variable est préférée à une autre si elle induit une plus grande
séparabilité.
 Dépendance : fonctions mesurant la corrélation ou l’association. Elles permettent
de calculer le degré avec lequel une variable exogène est associée à une variable
endogène.
 Consistance : fonctions liées au biais des variables minimum. Ces méthodes
recherchent le plus petit ensemble de variables qui satisfait un pourcentage
57
d’inconsistance minimum défini par l’utilisateur. (Deux objets sont dits
inconsistants si leurs modalités sont identiques et s’ils appartiennent à deux classes
différentes.) Ces mesures peuvent permettre de détecter les variables redondantes.
 Précision : ces méthodes utilisent le classifieur comme fonction d’évaluation. Le
classifieur choisit, parmi tous les sous-ensembles de variables, celui qui est à l’origine
de la meilleure précision prédictive.
Récemment, (Cherit, et al., 2007) confirme que la mesure de dépendance est toujours
considérée comme mesure d’information ou de distance. Si l’on écarte la mesure de l’erreur
de classification qui est un critère d’évaluation de l’approche wrapper, les mesures utilisées
comme critères d’évaluation peuvent être répartis en trois importantes catégories : mesure
de consistance, mesure de distance et mesure de l’information. Il s’agit bien de mesures
intrinsèques aux variables candidates, elles sont indépendantes de la phase d’apprentissage
et sont très utilisées comme critères d’évaluation pour l’approche filtre.
2.3.5 Critère d’arrêt
Le critère d’arrêt permet à la procédure de sélection de variables de s’arrêter. En effet, la
plupart des fonctions d’évaluations rencontrées dans la littérature sont monotones.
Le critère d’arrêt peut être lié à la procédure de recherche ou bien à la mesure d’évaluation
(Dash & Liu, 1997). Dans le premier cas, le critère d’arrêt est soit la taille prédéfinie du
sous-ensemble à sélectionner, soit un nombre fixe d’itérations de l’algorithme de sélection
de variables. Dans le deuxième cas, un critère d’arrêt lié à la mesure d’évaluation est soit
une différence de qualité entre deux ensembles non significative (l’ajout ou la suppression
d’une variable n’améliore pas la qualité du sous-ensemble), soit un seuil pour la fonction
d’évaluation à atteindre. Si la distribution empirique de la mesure d’évaluation est connue,
un bon critère d’arrêt est alors l’invraisemblance de la valeur de l’évaluation. Cette
invraisemblance est mesurée grâce à un test statistique.
58
Chapitre 2: Sélection de variables pour la classification supervisée
2.4 Principaux algorithmes existants
Nous présentons ici quelques algorithmes de sélection de variables de la littérature qui
illustrent la variété des stratégies mises en œuvre. Pour avoir plus de détails, les travaux de
Liu et Motoda (Liu & Motoda, 1998) et de Dash et Liu (Dash & Liu, 1997) offrent un
classement précis des algorithmes de base. Dans la littérature, les algorithmes de sélection
de variables se divisent en deux grandes catégories : les algorithmes d’ordonnancement des
variables et les algorithmes de construction du plus petit ensemble de variables.
2.4.1 Les algorithmes d’ordonnancement de variables
Ces algorithmes retournent un classement des variables selon une mesure d’évaluation qui
évalue chaque variable individuellement. La complexité de ce type d’algorithme est en
où
est le nombre de variables et
le nombre d’individus (Liu &
Motoda, 1998). L’algorithme d’ordonnancement le plus cité dans la littérature est
l’algorithme Relief (Kira & Rendell, 1992). Cet algorithme se retreint aux problèmes à deux
classes et repose sur le principe suivant : la variable idéale doit être en mesure, par des
instanciations différentes de sa valeur, de séparer des individus voisins appartenant à des
classes différentes. Si des individus sont de même classe, ses valeurs doivent être
identiques. Relief a connu de nombreuses variantes. La plus intéressante est ReliefF de
(Kononenko, 1994) qui permet de traiter les problèmes multi-classes.
Un autre critère d’arrêt usuel pour les algorithmes d’ordonnancement de variables est de
fixer le nombre de variables que l’on souhaite garder et de ne conserver ainsi les premières
variables du classement.
2.4.2 Les algorithmes de construction du plus petit sousensemble de variables
En pratique, on ne connait pas toujours le nombre de variables pertinentes et donc
L’application d’algorithmes de classement est délicate. C’est pour cela que les algorithmes
de construction du plus petit sous-ensemble de variables retournent un ensemble minimal
de variables pertinentes et aucune différenciation n’est faite entre les variables.
59
2.4.2.1
Les méthodes complètes
L’algorithme FOCUS (Almuallim & Dietterich, 1991) est un algorithme avec recherche
complète. Il considère tous les sous-ensembles possibles en partant des ensembles de plus
petite taille, les singletons. Dès que FOCUS trouve un ensemble qui satisfait la mesure de
consistance, il s’arrête. FOCUS retourne donc le plus petit sous-ensemble qui suffit pour
déterminer la classe des individus. La complexité en temps est de l’ordre de
, avec
nombre d’individus. Dès que le nombre de variables pertinentes est supérieur à
le
, le
coût est exorbitant. La version de base n’autorise aucun bruit sur les données mais des
heuristiques ont été proposées par la suite (Almuallim & Dietterich, 1994).
L’algorithme ABB (Liu & Motoda, 1998) est une version automatique de l’algorithme
« Branch and bound ». On parle d’automatique car le seuil est déterminé automatiquement
et non prédéfini. L’algorithme débute avec l’ensemble complet des variables. On enlève
une variable à la fois en utilisant un parcours en profondeur d’abord jusqu’à ce qu’aucune
des variables ne puisse plus être supprimée puisque le critère d’inconsistance est satisfait.
2.4.2.2 Les méthodes avec une heuristique
Cette catégorie de méthodes de sélection de variables est sans doute la catégorie la plus
fournie. En effet, la plupart des travaux trouvés dans la littérature consistent à prendre un
algorithme existant de sélection de variables et à l’améliorer en termes de performance de
calcul ou d’évaluation de la qualité d’un sous-ensemble grâce à une heuristique.
L’algorithme Relief, par exemple, a été de nombreuses fois améliore (Kononenko, 1994) ;
(Kira & Rendell, 1992). L’algorithme DTM (Cardie, 1993) se sert des arbres de décision
pour sélectionner les variables. L’algorithme C4.5 (Quinlan, 1993) est appliqué sur un
ensemble d’apprentissage et les variables apparaissant dans l’arbre généré sont
sélectionnées. De nombreuses autres approches utilisent les variables apparaissant dans un
arbre de décision comme heuristique (Pudil, et al., 1994) ; (Poggi & Tuleau, 2006).
2.4.2.3 Les méthodes non déterministes
Les algorithmes LVF et LVW sont deux algorithmes classiques non déterministes. Ces
algorithmes sont efficaces et très simples à implémenter. De plus, les expérimentations
60
Chapitre 2: Sélection de variables pour la classification supervisée
numériques ont montré que le résultat est généralement proche du sous-ensemble optimal
dès lors que les ressources matérielles le permettent. Les méthodes d’algorithmes
génétiques et de recuit simulé ont également été testées pour la sélection de variables
(Siedlecki & Sklansky, 1988).
Enfin, de nombreux travaux existent sur la construction d’algorithmes hybrides mixant
plusieurs des algorithmes précédents en essayant de ne garder que les avantages de chacun.
2.4.3 Sélection de variables par information mutuelle
L’information mutuelle est une mesure classique de liaison entre variables dans les
problèmes de sélection de variables. Son utilisation en tant que mesure de pertinence a déjà
été considérée a de nombreuses reprises dans la littérature (Hutter & Zaffalon, 2005). Elle
est utilisée sous plusieurs formes : information mutuelle classique ou information mutuelle
conditionnelle pour la prise en compte des variables préalablement choisies.
2.4.3.1
Définition et propriétés
Dans la théorie des probabilités et la théorie de l'information, l'information mutuelle de
deux variables aléatoires est une quantité mesurant la dépendance statistique de ces
variables (Cover & Thomas, 1990). Elle se mesure souvent en bit.
L'information mutuelle d'un couple
de variables représente leur degré de
dépendance au sens probabiliste. Elle mesure la quantité d’information qu’apporte une
variable aléatoire sur une autre. C’est la réduction d’incertitude sur une variable aléatoire
grâce à la connaissance d’une autre.
Soit
un couple de variables aléatoires de densité de probabilité jointe données par
(on fait, l'abus de notation
pour représenter la probabilité de l’événement
. Notons les distributions marginales
et
. Alors l'information mutuelle est
dans le cas discret :
∑
(2.5)
61
Et, dans le cas continu :
∬
Où
,
et
(2.6)
sont respectivement les densités des lois de
,
et .
L’information mutuelle a les propriétés suivantes :

si et seulement si
et
sont des variables aléatoires indépendantes ;
 L'information mutuelle est positive ou nulle
;
 L'information mutuelle est symétrique
;
2.4.3.2 Liens avec la théorie de l'information
L'information mutuelle mesure la quantité d'information apportée en moyenne par une
réalisation de
sur les probabilités de réalisation de . En considérant qu'une distribution
de probabilité représente notre connaissance sur un phénomène aléatoire, on mesure
l'absence d'information par l'entropie de cette distribution. En ces termes, l'information
mutuelle s'exprime par :
(2.7)
Où
et
conditionnelles, et
sont des entropies,
est l'entropie conjointe entre
et
sont des entropies
et .
On peut illustrer les relations reliant les entropies, entropies conditionnelles et information
mutuelle grâce au diagramme de Venn (Figure 2-4) :
Figure 2-4 : Digramme de Venn
62
Chapitre 2: Sélection de variables pour la classification supervisée
L’information mutuelle conditionnelle (Cover & Thomas, 1990) des variables aléatoires
et
conditionnellement à , se définit comme la réduction d’incertitude sur
connaissance de
grâce à la
sachant que , une troisième variable aléatoire, est réalisée :
(2.8)
2.4.3.3 Calcul de l’information mutuelle
Le calcul de l’information mutuelle est basé sur l'estimation des fonctions de densité de
probabilités et probabilités jointes des variables. Cette estimation doit être effectuée sur
base de données, en utilisant généralement soit des histogrammes soit des noyaux (Scott,
1992). Dans notre travail nous utilisons les histogrammes pour leurs avantages indéniables
en termes de complexité de calcul, et leurs performances suffisantes dans ce contexte.
L’estimation des densités de probabilités jointes passe par l’utilisation d’histogrammes
bidimensionnels. Les tailles des cellules des histogrammes sont des paramètres importants
qui doivent être choisis soigneusement. Si les cellules sont trop grandes, l'approximation ne
sera pas assez précise ; si elles sont trop petites, la plupart d'entre elles seront vides et
l'approximation ne sera pas suffisamment lisse. Même si des heuristiques ont été proposées
(Bonnlander & Weigend, 1994) pour guider ce choix, seule l’expérience peut conduire à un
choix optimal. Dans notre cas nous nous limiterons aux grilles régulières, dont les cellules
sont de tailles identiques, et nous choisirons la taille des cellules selon un procédé de
validation.
2.4.3.4 Sélection de variables par l’algorithme MIFS
Battiti (Battiti, 1994) a proposé d’utiliser l’information mutuelle dans son algorithme de
sélection ascendante de variables : Mutual Information based Feature Selection (MIFS). La
probabilité jointe de
et , deux variables aleatoires, est obtenue grace à l’algorithme de
Fraser et Swinney (Frasner & Swinney, 1986). Cet algorithme ne permet de calculer que
l’information mutuelle entre un couple de variables et la variable à expliquer. L’algorithme
étant ascendant, il est nécessaire de calculer l’information mutuelle entre une variable
et
l’ensemble des variables déjà sélectionnées . L’algorithme MIFS simplifie le calcul de
l’information mutuelle d’un ensemble en choisissant une variable représentative de
63
l’ensemble. Le nombre de variables est fixé à l’avance et à chaque étape, on choisit la
variable qui maximise l’information mutuelle entre elle, l’ensemble des variables déjà
sélectionnées et la variable à expliquer.
Formellement, la variable sélectionnée par l’algorithme MIFS est celle qui maximise la
fonction :
∑ (
Le facteur
)
(2.9)
permet de contrôler la pénalisation du terme de la redondance et il a une
grande influence sur l’algorithme de sélection. Pour son algorithme MIFS, [Battiti, 1994]
suggère des valeurs de
ce choix de
entre
et . Kwak et Choi (Kwak & Choi, 2002) indiquent que
ne donne pas des résultats satisfaisants et se justifie par le fait que, pour
MIFS, la sélection du premier paramètre, qui a le maximum d’information mutuelle avec la
classe , influe considérablement sur la sélection du second paramètre via le terme de la
redondance. En effet, si
, l’algorithme de sélection ne tient pas compte de la
redondance des paramètres sélectionnés. Dans l’autre cas, si
, l’algorithme de
sélection donne plus d’importance au terme de la redondance au détriment du terme de la
pertinence.
Plusieurs auteurs [Battiti, 1994; Bollacker et Ghosh, 1996; Kwak et Choi, 2002b] utilisent
des valeurs différentes de
dans l’intervalle
sans aucune justification. La valeur de
est souvent déterminée expérimentalement et dépond des données utilisées.
Plusieurs variantes de l’algrorithme MIFS ont été proposés ces dernière années. ont été
proposé pour cette algorithme
2.4.3.5 Sélection de variables par l’algorithme de Koller and Sahami
La méthode de Koller et Sahami (Koller & Sahami, 1996) se base sur l’idée qu’une variable,
qui apporte peu ou pas du tout d’information en plus de celle apportée par un ensemble
d’autres variables déjà sélectionnées, est soit redondante soit non pertinente. Par
conséquent, elle doit être éliminée. Pour cela, les auteurs ont utilisé les chaines de Markov.
Un sous-ensemble
est une chaine de Markov pour la variable
si, connaissant
,
est
64
Chapitre 2: Sélection de variables pour la classification supervisée
conditionnellement indépendante de la variable à expliquer
et de toutes les variables
n’appartenant pas à .
2.4.3.6 Sélection de variables par l’algorithme de Yang et Moody
Les travaux de Yang et Moody (Yang & Moody, 1999) portent sur un algorithme de
sélection de variables base sur l’information mutuelle jointe. Ils utilisent l’information
mutuelle conditionnelle. Pour chaque variable potentielle, l’algorithme calcule le gain
d’information qu’elle apporte, c’est à dire l’information mutuelle de cette variable avec la
variable à expliquer conditionnellement aux variables déjà sélectionnées. Une variable
indépendante de la variable à expliquer
est
si son information mutuelle conditionnée par les
variables déjà choisies est nulle. A chaque étape, l’algorithme classe donc les variables
restantes en terme d’information mutuelle conditionnelle et sélectionne la variable
apportant le plus d’information en plus de celles déjà choisies.
2.4.3.7 Sélection de variables par l’algorithme de Fleuret
Les travaux de Fleuret (Fleuret, 2004) proposent un algorithme de sélection de variables
basé sur l’information mutuelle conditionnelle. C’est une approche itérative par ajout de
variables. La particularité de cet algorithme est la prise en compte des variables déjà
sélectionnées. Une variable est considérée comme bonne si elle apporte suffisamment
d’information sur la variable à expliquer et si cette information n’est apportée par aucune
des variables déjà choisies. Plus formellement, une variable
mutuelle entre
et
sachant
est bonne si l’information
est suffisamment grande pour chaque variable
déjà
choisie. La sélection de variables redondantes est ainsi évitée.
2.4.3.8 D’autres algorithmes
Plusieurs algorithmes basés sur la théorie d’information ont été proposés ces dernières
années pour la sélection de variables. Hutter et Zaffalon (Hutter & Zaffalon, 2005) utilisent
une approximation de l’information mutuelle dans un cadre bayésien. Ait Kerroum (AitKerroum, et al., 2009) a proposé deux méthode de sélection de variables exploitant
l’estimation directe de l’information mutuelle conjointe. La première est basée sur la
65
méthode de la fenêtre de Parzen et la méthode de la régularisation. La deuxième est basée
le modèle de mélange gaussien et sur la méthode de la régularisation.
Dans ce contexte nous avons proposé un nouveau critère appelé IGFS (Interaction Gain
Feature Selector) Nous avons proposé un nouveau critère de sélection basé sur le gain
d'interaction qui prend en considération l'interaction entre les variables. En effet, une
variable peut être jugée non pertinente vis-à-vis de sa faible corrélation avec la classe, mais
en la combinant avec d'autres variables elle devient très pertinente. Une suppression
involontaire de ce type de variables peut se traduire par une perte d'information utile et, par
conséquent, une dégradation des performances de la classification. Les performances du
critère proposé, ont été évaluées dans le cadre de la reconnaissance des chiffres manuscrits
(El Akadi, et al., 2008) et sur trois bases de données réelles issues de l’entrepôt de données
UCI. Les tests menés sur trois bases de données réels ont montré que le critère proposé est
compétitive avec les autres critères et même meilleur dans certains cas (El Akadi, et al.,
2009).
2.5 Conclusion
Dans ce chapitre, après avoir présenté le processus de sélection de variables et l’importance
de la sélection de variables pour l’amélioration des performances des algorithmes de
classification, nous avons illustré notre propos avec des algorithmes de sélection de
variables proposés dans la littérature.
Nous avons vu qu’une multitude de pistes de recherche s’offrent dans les algorithmes de
sélection de variables. Nos travaux dans les chapitres suivants portent sur la proposition de
nouvelles approches de sélection de variables.
Nous proposons donc deux méthodes de sélection de variables, l’une pour la classification
des données de puces à ADN et l’autre pour la sélection des caractéristiques discriminantes
pour la reconnaissance faciale.
Chapitre 3. Contribution à la sélection de gènes pour les puces à ADN .............................. 66
3.1
Introduction ...................................................................................................................................67
3.2
Technologie des puces à ADN ...................................................................................................68
3.3
Sélection des gènes pour les puces à ADN ...............................................................................69
3.4
Approche proposée ......................................................................................................................70
3.4.1
Structure générale de l’approche proposée ......................................................................70
3.4.2
Filtrage des gènes par l’algorithme MRMR......................................................................71
3.4.3
Sélection des sous-ensembles pertinents par Algorithme Génétique ..........................73
3.4.4
Expérimentations .................................................................................................................78
3.5
Conclusion......................................................................................................................................87
67
3.1 Introduction
Les développements en biotechnologie ont permis à la biologie moléculaire de mesurer
l'information contenue dans des milliers de gènes grâce aux puces à ADN (appelée DNA
microarray en anglais). Ceci a permis de mesurer simultanément les niveaux d’expression de
gènes au sein d’échantillons de tissus dans des conditions expérimentales données. Depuis
le début des années 2000, un grand nombre de travaux se sont intéressés au problème de la
classification des données issues des puces à ADN avec l’espoir de proposer des outils de
diagnostic (reconnaissance tissu sain/tissu cancéreux ou distinction entre différents types
de cancer) des différents cancers et aussi de compréhension des mécanismes de ces
pathologies.
Les premiers travaux sur la classification des données oncologique ont été publiés à la fin
des années 90 (Golub, et al., 1999) ; (Alizadeh, et al., 2000). Le travail de Golub par
exemple a montré que les données issues des puces à ADN permettaient de discriminer
deux formes de leucémie. De plus, parmi les quelques 7000 gènes testés sur les puces pour
cette expérience, un petit nombre de gènes (environ 50) apparaît comme très important
pour la reconnaissance des deux formes de la maladie.
Vu que les données analysées présentent plusieurs milliers de variables, il était nécessaire de
proposer des méthodes innovantes pour la sélection de gènes. Les données issues des
biopuces sont obtenues à partir d’un protocole complexe où plusieurs étapes peuvent
introduire du bruit dans les données. Nous nous sommes donc intéressés au problème du
prétraitement de ces données.
Dans ce chapitre, nous proposons une approche hybride (El Akadi, et al., 2011) pour la
sélection d’un sous ensemble de gènes optimal non redondant. L’approche proposée est
basée sur la combinaison d’une méthode de type filtre utilisant le critère d’information
mutuelle MRMR (Peng, et al., 2005) et une méthode de type wrapper basée sur une
stratégie de recherche génétique utilisant un classifieur SVM pour l’évaluation des sousensembles candidats.
68
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
3.2 Technologie des puces à ADN
La technologie des puces à ADN ou biopuces, connaît à l’heure actuelle un essor
exceptionnel et suscite un formidable intérêt dans la communauté scientifique. Cette
technologie a été développée au début des années 1990 et permet la mesure simultanée des
niveaux d’expression de plusieurs milliers de gènes, voire d’un génome entier, dans des
dizaines de conditions différentes, physiologiques ou pathologiques. L’utilité de ces
informations est scientifiquement incontestable car la connaissance du niveau d’expression
d’un gène dans ces différentes situations constitue une avancée vers sa fonction, mais
également vers le criblage de nouvelles molécules et l’identification de nouveaux
médicaments et de nouveaux outils de diagnostic.
Une puce ADN est constituée de fragments d’ADN immobilisés sur un support solide, de
manière ordonnée. Chaque emplacement de séquence est soigneusement repéré : la
position
correspond au gène . Un emplacement est souvent appelé spot ou sonde.
L’hybridation de la puce avec un échantillon biologique qui a été marqué par une substance
radioactive ou fluorescente permet de quantifier l’ensemble des cibles qu’il contient :
l’intensité du signal émis est proportionnel à la quantité de gènes cibles qu’il contient.
Les données recueillies pour l’étude d’un problème donné sont regroupées sous forme de
matrice avec une ligne par couple (gène, sonde) et une colonne par échantillon (Tableau
3-1). Chaque valeur de
est la mesure du niveau d’expression du ième gène dans le jème
échantillon, où
et
(Dudoit, et al., 2002) ; (Dubitzky, et al., 2003).
Gèneid
Gène1
Gène2
Gène3
Echantillon1
m11
m21
m31
Echantillon2
m12
m22
m32
EchantillonN
m1N
m2N
m3N
GèneM
mM1
mM2
mMN
Tableau 3-1 : Matrice d’expression des gènes
Les différentes phases d’une analyse par puces ADN peuvent être source d’imprécision ou
d’erreurs dans les mesures obtenues. De plus, le coût d’une puce à ADN et le coût d’une
analyse étant très élevé et l’on ne dispose à l’heure actuelle que de quelques dizaines
69
d’expériences pour l’étude d’un problème donné (une pathologie par exemple). Pourtant
chaque expérience a permis de relever le niveau d’expression pour plusieurs milliers de
gènes. Les matrices de données qui sont actuellement disponibles ont donc les
caractéristiques suivantes :
 Grande dimensionnalité due au nombre élevé de descripteurs (gènes) ;
 Nombre limité d’échantillons.
De ce fait, la sélection des gènes est une tâche importante et nécessaire pour une meilleure
exploitation des données des puces à ADN.
3.3 Sélection des gènes pour les puces à ADN
Les données dont nous disposons consistent en l'expression de milliers de gènes (allant de
1000 à plus de 10000 gènes) mesurés sur un nombre restreint de lames ou membranes (ne
dépassant pas en général 100). La finalité globale de ces expériences biologiques est de
comprendre les interactions et régulations entre gènes présents sur les puces à ADN dans
des conditions données. Plus précisément, dans le cas par exemple de données de cancer,
l'analyse statistique peut répondre à trois types de questions (Dudoit, et al., 2002) :
 Identifier de nouvelles classes de tumeur à l'aide des profils d'expression des gènes
(classification non supervisée) ;
 Classer des individus dans des classes de cancer connues (classification supervisée) ;
 Identifier des gènes marqueurs caractérisant le ou les différents cancers (sélection
de variables).
Nous nous sommes principalement intéressés aux deux derniers points sur des données
publiques de cancer très répandues dans la littérature.
D'un point de vue biologique, la sélection de variables (ici les gènes) devrait permettre de
développer des tests de diagnostic pour détecter la maladie et pourrait aussi apporter plus
de connaissances sur les caractéristiques de telle ou telle tumeur dans le cas de données
oncologiques (El Akadi, et al., 2009).
70
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
La littérature concernant la sélection de gènes pour des données de puces à ADN étant très
vaste, nous nous intéressons dans cette partie uniquement aux méthodes de classification
supervisée ainsi que leurs applications, laissant de côté d'autres méthodes couramment
utilisées pour réduire la dimension telles que l'Analyse en Composantes Principales (Hastie,
et al., 2000), la régression Partial Least Squares (Antoniadis, et al., 2003) ; (Boulesteix,
2004). Par ailleurs, nous nous focalisons uniquement sur la sélection de variables à
proprement parler et non pas sur la construction de nouvelles variables pour réduire la
dimension.
Ainsi, nous proposons dans la suite une approche hybride combinant les algorithmes
génétiques et l’information mutuelle pour sélectionner les gènes les moins redondants et les
plus pertinents permettant de réaliser les meilleurs taux de classification.
3.4 L’approche proposée
Nous proposons une nouvelle approche de sélection de gènes basée sur la combinaison de
deux approches de sélection de variables : l’approche filtre à travers l’algorithme MRMR et
l’approche enveloppe « wrapper » à travers un algorithme génétique couplé à un classifieur.
Notre choix s’est porté sur le classifieur SVM pour ses performances et sa robustesse.
L’originalité de notre méthode est l’utilisation de deux approches différentes pour
sélectionner un sous ensemble de gènes de petite taille et qui fournit de bonnes
performances en classification.
3.4.1 Structure générale de l’approche proposée
La procédure générale de notre approche (Figure 3-1) peut être caractérisée par un
processus séquentiel en deux étapes qui utilise des techniques complémentaires pour
réduire graduellement l’espace de recherche et sélectionner un sous ensemble pertinent de
gènes.
 Etape 1 : C’est une étape de prétraitement qui a comme objectif de filtrer les gènes
qui ne sont pas informatifs et d’éliminer les gènes redondants, par exemple des
gènes dont les niveaux d’expression est uniforme quelle que soit la classe. La sortie
de ce prétraitement est un ensemble de gènes classés par ordre de pertinence selon
71
le critère MRMR. Il s’agit d’une étape préliminaire pour la réduction des données de
puces à ADN.
 Etape 2 : Cette étape consiste en une méthode enveloppe où un algorithme
génétique (AG) explore, à partir des gènes retenus par le filtrage précédent, des
sous-ensembles candidats et chaque candidat est évalué grâce à un classifieur SVM.
Le taux de classification indique si le sous-ensemble candidat permet une bonne
discrimination des classes. Le taux de classification est donc la fonction d’aptitude
(fitness function) retenue dans l’AG. Ceci se traduit par l’utilisation d’une méthode
enveloppe (wrapper) pour la sélection des sous-ensembles de gènes pertinents à
partir d’un ensemble de gènes sélectionnées préalablement par une méthode filtre.
Figure 3-1 : Schéma général de l’approche MRMR-GA
Les sections suivantes donnent une description complète des étapes de l’approche
proposée.
3.4.2 Filtrage des gènes par l’algorithme MRMR
En utilisant le concept d'information mutuelle, la méthode MRMR sélectionne les gènes qui
ont la plus haute pertinence par rapport à la classe cible et sont aussi peu redondants, c'est à
dire, sélectionne les gènes qui sont dissemblables au maximum les uns aux autres.
Soit
soit
un ensemble de variables constitué des gènes d’une puce à ADN et
et
les variables représentants, respectivement, les gènes et . Soit une classe
72
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
d’appartenance des échantillons caractérisés par les gènes. La méthode du maximum de
pertinence (Maximum Relevance) sélectionne les gènes dont l’information mutuelle avec la
classe
est la plus élevée.
Formellement, le critère de pertinence maximale est donné par :
∑
(3.1)
Bien que nous puissions choisir individuellement les gènes supérieurs à l'aide du critère de
maximum de pertinence, il a été reconnu que le meilleure sous ensemble composé de
variables n’est pas nécessairement le sous-ensemble composé des
meilleures variables,
puisque la corrélation entre certaines variables peut aussi être élevée (Cover, 1974). Afin de
supprimer la redondance entre les gènes sélectionnés, un critère de redondance minimale a
été introduit.
∑
(3.2)
Le critère de minimisation de la redondance et de maximisation de la pertinence (MRMR)
combine les deux critères des équations (3.1) et (3.2).
La mise en œuvre de ce critère est réalisée par un algorithme séquentiel incrémental pour
l’optimisation simultanée des deux critères des équations de pertinence et de redondance.
Soit
l'ensemble globale des gènes et nous avons déjà sélectionné
, un sous ensemble
gènes, la tâche est de sélectionner le mème gène de l'ensemble
avec
. Ce
gène est sélectionné en maximisant la pertinence individuelle moins la fonction de
redondance.
(
∑
)
(3.3)
À chaque étape, cette méthode choisit le gène qui a le meilleur compromis pertinenceredondance. À l'étape
de la recherche ascendante, l'algorithme de recherche calcule
valeurs et chaque valeur nécessite l'estimation de
densités bi-variables (une
pour chacune des variables déjà choisies plus une avec la variable objective). Il a été
73
démontré dans (Peng, et al., 2005) que le critère MRMR est une approximation optimale du
premier ordre du critère de pertinence conditionnelle. En outre, MRMR évite l’estimation
des densités multi-variables en utilisant plusieurs densités bi-variables.
3.4.3 Sélection des sous-ensembles pertinents par Algorithme
Génétique
Un Algorithme Génétique (AG) est un bon candidat pour étudier le problème de la
sélection de gènes. En effet le problème de la sélection de variables est un problème
d’optimisation pour les données de grande dimension comme les données de puces à
ADN. Lorsque le nombre de gènes est trop élevé et que le nombre d’échantillons est limité,
il est important de procéder à une phase de sélection de gènes pour une tâche de
classification supervisée. Les algorithmes génétiques ont une grande capacité d’effectuer
des recherches dans un grand espace de solutions. Il est légitime d’utiliser des heuristiques
pour parcourir cet espace de recherche avec une complexité limitée. Pour cela nous
proposons d’utiliser un algorithme génétique pour la recherche d’un bon sous-ensemble
parmi une population de gènes afin de maximiser la performance de classification.
De plus un codage binaire très naturel permet de représenter un sous-ensemble sélectionné
et les opérateurs génétiques permettent de les manipuler pour obtenir des sous-ensembles
de gènes de meilleure qualité.
Pour évaluer chacun de ces sous-ensembles il faudra lancer plusieurs fois le classifieur
utilisé afin de déduire la mesure de performance. Pour cela nous avons utilisé un
mécanisme de validation croisée.
Dans cette étape, la tâche de l’algorithme génétique sera de générer des sous-ensembles, et
la tâche du classifieur sera d’évaluer la qualité de chaque sous-ensemble pour en choisir le
meilleur.
Dans notre approche on a utilisé deux classifieurs différents. Le classifieur SVM et le
classifieur Baysien Naïf (BN).
Nous détaillons dans la suite les composants de l’approche enveloppe basée sur
l’algorithme génétique et le paramétrage adopté pour chaque composant.
74
3.4.3.1
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
Généralités sur les algorithmes génétiques
Les algorithmes génétiques sont des algorithmes de recherche inspirés des mécanismes de
l’évolution naturelle des êtres vivants et de la génétique.
John H. Holland a exposé ses premiers travaux sur les algorithmes génétiques en 1962
(Holland, 1962). L’ouvrage de David Goldberg (Goldberg, 1989) a largement contribué à
les vulgariser.
Les algorithmes génétiques partent de l’idée d’utiliser les principes des processus
d’évolution naturelle en tant que technique d’optimisation globale. Dans l’évolution
naturelle, le problème auquel chaque espèce est confrontée est de chercher à s’adapter à un
environnement complexe et généralement non statique. Très schématiquement, la
connaissance acquise par chaque espèce est codée dans les chromosomes de ses membres.
Lors des reproductions sexuelles, les contenus des chromosomes sont mélangés, modifiés
et transmis aux descendants par un certain nombre d’opérateurs génétiques : la mutation,
qui se traduit par l’inversion d’une faible partie du matériel génétique, et le croisement qui
échange certaines parties des chromosomes des parents. Cette particularité de l’évolution
naturelle : la capacité d’une population à explorer son environnement en parallèle et à
recombiner les meilleurs individus entre eux, est empruntée par les algorithmes génétiques.
Pour un problème d’optimisation donné, un individu représente un point de l’espace de
recherche, une solution potentielle. On lui associe la valeur du critère à optimiser, son
adaptation. On génère ensuite de façon itérative des populations d’individus sur lesquelles
on applique des processus de sélection, de croisement et de mutation. La sélection a pour
but de favoriser les meilleurs éléments de la population pour le critère considéré (les mieux
adaptés), le croisement et la mutation assurent l’exploration et exploitation de l’espace de
recherche.
75
Population initiale
Génération
Sélection
Opérateurs
(croisement,Non
mutation…)
Non
Critère
d’arrêt
Oui
Résultat
Figure 3-2 : Eléments d’un algorithme génétique
Les algorithmes génétiques sont normalement utilisés comme une bonne alternative pour
l’optimisation de fonctions. La procédure stochastique utilisée dans un AG repose sur les
points suivants (Whitley, 1995) ; (Gen & Cheng, 1997) ; (Mitchell, 1999) ; (Haupt & Haupt,
2004) ; (Eiben & Smith, 2007) :
 Un principe de codage pour chaque individu d’une population,
 Une fonction à optimiser,
 Un mécanisme de sélection,
 Des opérateurs génétiques tels que : le croisement, la mutation ou l’élitisme,
 Des paramètres initiaux tels que la taille initiale de la population, le(s) critères(s)
d’arrêt, et la probabilité d’application des opérateurs génétiques.
Un AG standard est donc une méthode un peu aveugle. Un AG produit des résultats
réellement intéressants lorsqu’on arrive à guider son parcours dans l’espace de recherche.
76
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
Cela est réalisé grâce à des codages et des opérateurs spécialisés que prennent en compte le
savoir-faire du problème. Ce qui se traduira en la construction d’algorithmes génétiques
plus adaptatifs et plus efficaces. Dans la suite nous présentons le codage, la fonction
d’évaluation et les différents opérateurs adoptés dans notre problème de sélection gènes.
3.4.3.2 Génération de la population initiale et codage des individus
Comme le parcours de l’espace de recherche est effectué par l’AG, dans une population (P)
un individu représente un sous-ensemble de gènes qui sont codés de manière binaire, où
chaque allèle (bit) de l’individu représente un gène des données de puces à ADN. Si un
allèle dans un sous-ensemble à une valeur de "1" cela signifie que ce gène a été sélectionné,
par contre une valeur de "0" indique que le gène n’est pas sélectionné dans le sousensemble.
La taille des individus correspond au nombre de gènes retenus par la phase de filtrage de
l’étape 1.
Les individus de la population initiale sont générés de façon complètement aléatoire. Il faut
aussi dire que la taille de la population doit être constante.
3.4.3.3 La fonction d’évaluation
La fonction d’évaluation ou d’aptitude (fitness function) dans notre approche a comme but
de mesurer la qualité de classification fournie par le classifieur SVM. Autrement dit un
sous-ensemble de gènes permettant un taux élevé de classification est considéré comme un
meilleur sous-ensemble que celui donnant un taux faible de classification. Pour chaque
individu de la population on calcule donc sa fonction d’aptitude en entraînant un SVM avec
la représentation associée à ce sous-ensemble de gènes sélectionnés. Pour savoir si cet
individu permet de fournir un bon classificateur, il est nécessaire d’appliquer un mécanisme
de validation. Nous utilisons un schéma de validation croisée (LOOCV) du classifieur sur
l’individu.
3.4.3.4 Le croisement
La méthode de sélection des parents pour appliquer l’opérateur de croisement est celle de la
roulette et le croisement que nous avons implémenté dans l’AG est le croisement en un
77
point. À partir de sous-ensembles de gènes parents, nous fabriquons deux nouveaux sousensembles enfants. Dans la Figure 3-3 un gène est choisi de manière aléatoire sur la
longueur des parents. Dans notre exemple c’est le gène 3 qui est considéré comme le point
de coupure. À partir de ce point de coupure on va produire deux morceaux que l’on
échange entre les deux parents sélectionnés (P1 et P1). Les enfants produits par cet
échange contiennent chacun donc un morceau qui a été hérité de ces parents.
On peut noter que le nombre de gènes en commun entre les deux parents est égal à deux.
Cela veut dire qu’il y a deux gènes pertinents qui sont communs à P1 et P2. Dans notre
exemple, les gènes 3 et 8 figurent dans les deux parents, alors ils sont pertinents dans 2
sous-ensembles de bonne qualité. Notre opérateur tient en compte de cela et nous
retrouvons ces 2 gènes dans les 2 enfants. Ils ont survécu grâce à leur capacité de fournir
pour deux sous-ensembles de gènes différents une bonne performance de classification.
Les enfants donc conserveront les gènes pertinents des parents pour participer à de
nouvelles opérations génétiques.
Figure 3-3 : Croisement à 1 point.
On peut remarquer que notre opération de croisement préserve donc les gènes communs
aux deux parents.
3.4.3.5 La mutation
La mutation que nous avons implémentée est la mutation en
points choisis au hasard
(Figure 3-4). La mutation permet ainsi d’insérer ou ôter des gènes dans un sous ensemble
en inversant la valeur du bit associé. Les points de mutation choisis de façon aléatoire
(boîtes foncées) indiquent les gènes qui vont changer de valeur. La mutation permet donc
78
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
de considérer des sous-ensembles différents pour explorer des sous-ensembles de gènes
pertinents un peu différents.
Figure 3-4 : Exemple de mutation en 3 points.
3.4.3.6 Élitisme
L’opérateur élitiste a comme but de préserver les meilleurs sous-ensembles de gènes.
Pendant l’évolution d’une population, les opérations de croisement et surtout de la
mutation peuvent détruire les individus de bonne qualité. Afin de conserver les individus
dont la fonction d’aptitude est haute, nous recopions un pourcentage de la population dans
la prochaine génération (Élitisme).
3.4.3.7 Le critère d’arrêt
Dans un AG, il est nécessaire de définir un critère d’arrêt de l’exploration. Nous avons
défini deux critères d’arrêt qui sont soit un nombre préfixé de générations ou un taux de
classification parfait de 100%.
3.4.4 Expérimentations
Pour évaluer les performances de notre méthode proposée nous avons utilisé cinq jeux de
données publiques qui sont utilisés dans de nombreux travaux concernant la classification
des données de puces à ADN. Ces jeux constituent en quelque sorte des jeux tests qui
permettent de comparer les méthodes proposées depuis quelques années dans le domaine
de la classification des données d’oncologie.
Dans l’objectif de montrer que l’approche proposée peut fonctionner avec différents
algorithmes de classification nous l’avons testé avec deux classifieurs :

Le classifieur Baysien Naïf en raison de sa simplicité et sa complexité connu
préalablement ;

Le classifieur SVM en raison de ses performances et sa robustesse aux données de
grande dimension (Christianini & Shawe-Taylor, 2000) ; (Wu, et al., 2008).
79
3.4.4.1
Les jeux de données
Le tableau ci-dessous (Tableau 3-2) résume les caractéristiques des jeux de données utilisés
et qui concernent tous des problèmes de reconnaissance de cancers ou de prévision de
diagnostic en oncologie.
Jeux de données
NCI
Lymphoma
Lung
Leukemia
Colon
Nombre de
Nombre
Classes
d’échantillons
9
9
2
2
2
Nombre de gènes
60
96
181
72
62
9703
4026
12533
7070
2000
Tableau 3-2 : Caractéristiques des jeux de données
NCI 1: Ce jeu de données a été étudié pour la première fois par (Ross, et al., 2000). Le jeu
de données publié par NCI « National Cancer Intitute» consiste en 9703 gènes sur 60 tissus
cancéreux (échantillons) répartis en neuf classes : 7 cancers de sein, 5 cancers de Cerveau, 7
cancers de colon, 6 leucémie, 8 melanoma, 9 cancers de poumon (NSCLC), 6 cancers
ovariens, 2 cancers de prostate, 9 cancers rénale et 1 inconnu.
Lymphoma2 : Ce jeu de données contient les informations médicales de 96 échantillons de
lymphocytes relatifs à différents types de lymphome. Ces échantillons sont répartis en neuf
classes de différents types de cancers lymphatique (Alizadeh, et al., 2000).
Lung 3 (cancer du poumon) : Le jeu de données concernant le cancer du poumon a été
traité par (Gordon, et al., 2002). Ce jeu décrit deux types de pathologie du cancer du
poumon : le cancer de type adénocarcinome ADCA et le cancer du mésothéliome malin de
la plèvre MPM. Le jeu contient 181 instances décrites pour 12533 gènes.
Leukemia 4 (Leucémie) : Ce jeu de données est constitué de 72 échantillons représentant
deux types de Leucémie aigüe. 47 tissus sont du type leucémie lymphoblastique aiguë
1
http://genome-www.stanford.edu/nci60
2
http://genome-www.stanford.edu/lymphoma
3
http://www-genome.wi.mit.edu/cgi-bin/cancer/datasets.cgi
4
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
80
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
(ALL) et 25 sont du type Leucémie myéloïde aiguë (AML). Pour chaque échantillon, les
niveaux d’expression de 7129 gènes ont été relevés (Golub, et al., 1999).
Colon 5 (Cancer du Colon) : Ce jeu de données qui concerne le cancer du Colon, est
constitué de 62 échantillons dont 40 sont des tissus tumoraux et 22 sont des tissus sains ou
normaux. Les expériences ont été menées avec des puces relevant les valeurs d’expression
pour plus de 6500 gènes humains mais seuls les 2000 gènes ayant les plus fortes intensités
minimales ont été retenus. La matrice des niveaux d’expression comporte donc 2000
Colonnes et 62 lignes.
3.4.4.2 Les paramètres utilisés
Dans le cadre de l’étude de notre approche, plusieurs tests ont été effectués pour adopter le
meilleur paramétrage. Le nombre de gènes à sélectionner par le filtre MRMR (étape 1) est
fixé à 100. Les paramètres que nous avons fixés pour l’exploration génétique de la méthode
enveloppe sont montrés dans le Tableau 3-3. Les paramètres du classifieur SVM que nous
avons utilisé sont le noyau polynomiale du premier degré
régularisation
et un paramètre de
.
Paramètres
Valeur
Taille de la population
Nombre de générations
Probabilité de croisement (Pc)
Probabilité de mutation (Pm)
100
20
0.8
0.1
Tableau 3-3 : Paramètre de l’algorithme génétique
3.4.4.3 Les résultats obtenus et comparaisons
Les objectifs des expérimentations effectuées sur les cinq jeux de données de puces à ADN
sont d’une part de tester l’effet de la sélection de gènes sur l’amélioration du taux de
classification et d’autre part de montrer les performances de l’approche que nous avons
proposée. Comme l’était déjà mentionné, les algorithmes de classification utilisés sont SVM
et BN et l’évaluation du taux de classification et faite par une validation croisée de type
LOOCV.
5
http://microarray.princeton.edu/oncology/affydata/index.html
81
Le tableau (Tableau 3-4) montre les taux de classification pour les cinq jeux de données
Jeux de données
pour chacun des algorithmes SVM et BN.
NCI
Lymphoma
Lung
Leukeimia
Colon
Classifieur utilisé
SVM
BN
56.67
45
95.83
92.71
87.67
89.04
98.61
83.33
85.48
66.13
Tableau 3-4 : Taux de classification (%) sans sélection de gènes
Les résultats montrent que les taux de classification ne sont pas très satisfaisants en
particulier pour les données NCI. L’algorithme SVM donne des résultats meilleurs que
l’algorithme BN. Les performances dégradées du classifieur BN sont dues essentiellement
à la sensibilité de ce classifieurs aux variables corrélées.
Dans la suite, nous comparons les performances de trois méthodes de sélection de
variables à savoir la méthode filtre MRMR, la méthode enveloppe GA et notre méthode
hybride MRMR-GA. Pour les deux dernières méthodes nous avons utilisé le classifieur
SVM pour estimer la fonction d’aptitude de l’AG par la validation croisée de type LOOCV.
De même, les taux de classification, pour un sous-ensemble donnée, sont calculés par une
validation LOOCV en utilisant un classifieur SVM et un classifieur BN.
Les figures (Figure 3-5 à Figure 3-16) montrent les taux de classification en fonction du
nombre de gènes sélectionnés par MRMR, GA et MRMR-GA sur les différents jeux de
données ainsi que la moyenne du taux de classification sur l’ensemble des données en
utilisant un classifieur SVM (Figure 3-5 à Figure 3-10) et un classifieur BN (Figure 3-11 à
Figure 3-16).
82
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
Figure 3-6 : Taux de classification par un
Figure 3-5 : Taux de classification par un
classifieur SVM pour les données NCI
classifieur SVM pour les données Lymphoma
Figure 3-7 : Taux de classification par un
Figure 3-8 : Taux de classification par un
classifieur SVM pour les données Lung
classifieur SVM pour les données Leukemia
Figure 3-9 : Taux de classification par un
Figure 3-10 : Moyenne du taux de classification
classifieur SVM pour les données Colon
par un classifieur SVM pour toutes les données
83
Figure 3-12 : Taux de classification par un
Figure 3-11 : Taux de classification par un
classifieur BN pour les données NCI
classifieur BN pour les données Lymphoma
Figure 3-14 : Taux de classification par un
Figure 3-13 : Taux de classification par un
classifieur BN pour les données Lung
classifieur BN pour les données Leukemia
Figure 3-15 : Taux de classification par un
Figure 3-16 : Moyenne du taux de classification
classifieur BN pour les données Colon
par un classifieur BN pour toutes les données
84
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
Les graphes, ci-dessus, que la méthode MRMR-GA offre des taux de classification qui
dépassent les deux autres méthodes.
Par ailleurs, et dans le but de mieux comprendre et analyser les résultats obtenus dans ces
expériences, nous présentons dans le Tableau 3-5 les taux de la classification en utilisant les
quinze premiers gènes sélectionnés par chacune des trois méthodes en utilisant les deux
classifieurs SVM et BN.
Classifieur utilisé
SVM
MRMR
Jeux de données
NCI
70
GA
BN
MRMR-GA
MRMR
GA
MRMR-GA
61.66
91.66
90
75
93.33
Lymphoma 97.91
93.75
100
93.75
96.87
98.96
Lung
91.78
95.89
97.26
93.15
95.89
95.89
Leukeimia
98.61
100
100
100
100
100
Colon
82.25
79.03
85.48
90.32
88.71
98.39
Tableau 3-5 : Taux de classification (%) avec 15 premiers gènes sélectionnés pour les 5 jeux de données
Le Tableau 3-6 présente la moyenne du taux de classification sur l’ensemble de données
pour différents nombres de gènes sélectionnés allant de 5 à 50. Les résultats obtenus ici
montrent que l'algorithme MRMR-GA réalise une meilleure performance par rapport aux
méthodes MRMR et GA. Les résultats montrent également que la combinaison du filtre
MRMR avec une méthode enveloppe GA utilisant le BN donne les meilleurs résultats.
Classifieur utilisé
Nombre de gènes sélectionnés
SVM
5
10
15
20
25
30
35
40
45
50
BN
MRMR
GA
MRMR-GA
MRMR
GA
MRMR-GA
77.42
87.03
88.11
87.03
87.53
86.39
87.10
88.98
88.20
87.28
77.58
81.12
86.34
81.12
88.51
88.47
89.88
91.23
90.56
93.30
83.88
87.88
95.97
87.88
93.82
93.29
93.10
96.51
93.46
93.65
83.37
90.00
93.44
87.53
92.54
93.09
92.87
92.53
93.35
93.28
80.49
87.62
91.29
88.51
93.35
92.59
91.60
92.16
91.61
91.72
88.14
96.55
97.31
93.82
97.65
98.25
98.20
96.62
96.95
96.95
Tableau 3-6 : Moyenne du taux de classification (%) sur l’ensemble de données pour un nombre différent de
gènes sélectionnés
85
L'analyse des tableaux (Tableau 3-4, Tableau 3-5 et Tableau 3-6) montre que la sélection
des gènes améliore le taux de classification. Cela implique que la sélection de gènes permet
effectivement de réduire les données inutiles et le bruit pour améliorer le taux de
classification.
Dans la suite, nous proposons de faire une comparaison avec les travaux les plus
importants dans le domaine de la sélection et de la classification des données de puces à
ADN. Nous comparons nos résultats seulement si le processus d’expérimentation est
similaire.
Le Tableau 3-7 donne les taux de classification pour les différentes approches ainsi que le
nombre de gènes retenus : taux de classification (nombre de gènes). Nous notons avec le
symbole (–) le fait qu’un jeu de données n’est pas traité dans l’article consulté. Nous
remarquons que les résultats obtenus par notre approche sont très compétitifs par rapport
aux méthodes les plus représentatives des dernières années.
Tout d’abord pour le jeu de données de la Leucémie (Leukemia) nous avons un taux parfait
de classification de 100% avec seulement 15 gènes. Nous constatons que la meilleure
performance pour ce jeu de données est reportée dans (Li, et al., 2008) avec seulement 7
gènes. Nous avons donc la deuxième meilleure performance.
Dans les cas du jeu de donnés du cancer du Colon nous obtenons une performance de
85.48%. Par contre nous trouvons pour le classifieur BN une performance de 98.39% (la
deuxième plus haute) avec un sous-ensemble de 15 gènes. Le travail de (Wang, et al., 2006)
présente la deuxième meilleure performance avec 20 gènes. Si nous cherchons qui a le plus
petit sous-ensemble de gènes avec une bonne performance nous trouvons le travail de
(Peng, et al., 2006) avec 4 gènes. Parmi les approches dont le nombre de gènes est petit
nous maintenons la meilleure position pour le cancer du Colon.
En continuant avec le jeu de données de Poumon (Lung), nous trouvons que 3 approches
offres un taux de classification parfait de 100%. Si nous nous comparons avec le nombre
de gènes utilisés nous obtenons le second meilleur taux de classification (97.26% avec 15
gènes) après le travail de (Peng, et al., 2006) qui présente une performance de 100% avec
seulement 3 gènes.
86
Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN
Approche
Jeux de données
Lung
Lymphoma
Leukemia
Colon
–
–
–
–
85.4(15)
(Tan & Gilbert, 2003)
91.1
95.1
93.2
–
–
(Ye, et al., 2004)
97.5
85
–
–
–
(Liu, et al., 2004)
100(30)
91.9(30)
100(30)
98(30)
–
(Ding & Peng, 2005)
100
93.5
97.2
–
–
(Hu, et al., 2006)
94.1
83.8
–
–
–
(Yang, et al., 2006)
73.2
84.8
–
–
–
(Peng, et al., 2006)
98.6(5)
87.0(4)
100(3)
–
–
(Wang, et al., 2006)
95.8(20)
100(20)
–
95.6(20)
–
(Huerta, et al., 2006)
100
91.4
–
–
–
(Cho & Won, 2007)
95.9(25)
87.7(25)
–
93.0(25)
–
(Pang, et al., 2007)
94.1(35)
83.8(23)
91.2(34)
–
–
(Li, et al., 2007)
97.1(20)
83.5(20)
–
93.0(20)
–
(Zhang, et al., 2007)
100(30)
90.3(30)
100(30)
92.2(30)
–
83.8(100)
85.4(100)
–
–
–
(Hernandez, et al., 2007)
91.5(3)
84.6(7)
–
–
–
(Wang, et al., 2007)
100(35)
93.5(35)
–
–
–
(Li, et al., 2008)
100(7)
93.6(15)
–
–
–
100(15)
85.48(15)
97.26(15)
100(15)
91.66(15)
(Ooi & Tan, 2003)
(Yue, et al., 2007)
Notre approche
NCI
Tableau 3-7 : Comparaison avec d’autres approches
Pour le jeu de donnés Lymphoma nous avons la meilleure performance avec le plus petit
nombre de gènes. En utilisant l’approche MRMR-GA nous avons une parfaite classification
(100%) avec 15 gènes. Nous notons que le nombre de gènes rapportés dans les autres
87
travaux sont au moins de 20 gènes pour avoir un bon taux de classification et ils n’arrivent
pas à fournir une haute performance. La deuxième meilleure performance pour ce jeu a été
présentée dans (Liu, et al., 2004) avec 30 gènes.
En ce qui concerne le jeu de données NCI nous remarquons qu’il n’existe pas beaucoup de
travaux concernant ce jeu. En utilisant 15 gènes nous avons un taux de classification de
91.66% et qui est meilleur que celui listé dans (Ooi & Tan, 2003) et qui s’élève à 85,4%.
Les résultats de cette analyse comparative avec d’autres méthodes proposées pour la
sélection et la classification des données de puces à ADN nous ont permis de savoir à quel
point notre approche est compétitive. Il ressort que l’approche MRMR-GA est capable de
fournir des sous-ensembles de petite taille avec une haute performance.
3.5 Conclusion
Dans ce chapitre nous avons proposé une nouvelle approche de sélection de gènes à ADN
basée sur la combinaison de l’algorithme MRMR et d’un algorithme génétique utilisant un
classifieur SVM pour l’évaluation des sous-ensembles candidats. Nous avons évalué les
performances de notre approche sur cinq jeux de données du domaine d’oncologie. Les
résultats obtenus montrent que la sélection de gènes améliore le taux de classification.
Notez qu’avec un nombre réduit de gènes, ne dépassant pas quinze, nous avons obtenu des
taux de classification élevés allant de 85% à 100% contre des taux allant de 56% à 98% si
on utilise la totalité des gènes (des milliers). Cela implique que la sélection de gènes permet
effectivement de réduire les données inutiles et le bruit pour améliorer le taux de
classification.
La comparaison avec les travaux les plus importants dans le domaine de la sélection et de la
classification des données de puces à ADN montre que notre approche est performante et
compétitive et produit des sous-ensembles de petite taille avec une haute performance.
88
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
Chapitre 4. Sélection de variable pour la reconnaissance faciale .......................................... 88
4.1
Introduction ...................................................................................................................................89
4.2
La reconnaissance faciale .............................................................................................................90
4.2.1
Dimensionnalité de l'espace visage ...................................................................................90
4.2.2
Principe de fonctionnement d’un système de reconnaissance de visage ....................91
4.2.3
Méthodes de reconnaissance faciale..................................................................................92
4.3
Approche proposée ......................................................................................................................94
4.3.1
Extraction des caractéristiques par DCT .........................................................................95
4.3.2
Critère proposé pour la sélection des caractéristiques ...................................................96
4.3.3
Expérimentations .................................................................................................................98
4.4
Conclusion................................................................................................................................... 103
89
4.1 Introduction
Identifier une personne à partir de son visage est une tâche aisée pour les humains. En estil de même pour une machine ? Ceci définit la problématique de la reconnaissance faciale
(Kanade, 1977) ; (Chellapa, et al., 1995) ; (Bartlett, 2001), qui a engendré un grand nombre
de travaux de recherche au cours des dernières années.
Dans toutes les méthodes de reconnaissance faciale, le point le plus délicat concerne
l’extraction et la sélection des caractéristiques faciales les plus pertinentes, à savoir les
caractéristiques qui représentent le mieux les informations portées par un visage.
Les caractéristiques faciales jouent un rôle très important dans la tâche de classification et
de reconnaissance de visages. Par conséquent, la sélection des caractéristiques adéquates est
nécessaire car certaines données brutes peuvent être redondantes ou non pertinentes pour
cette tâche. Dans certains cas, les performances du système de reconnaissance
(classificateur) sont dégradées à cause de la présence des caractéristiques redondantes (Sun,
et al., 2004).
Ces dernières années, certains chercheurs ont étudié la possibilité d'extraction des
caractéristiques dans le domaine fréquentiel en utilisant la transformée en cosinus discret
(DCT : Discret Cosine Transform) (Er, et al., 2005) ; (Amine, et al., 2008). Les résultats ont
montré que cette technique est prometteuse et permet d’avoir des caractéristiques
discriminantes dans le domaine fréquentiel. Aussi, il a été conclu que même les
caractéristiques les plus dominantes peuvent dégrader les performances du système de
reconnaissance en raison de l'existence de variations de pose, d’éclairage et d’expression.
De ce fait, la sélection des caractéristiques est une étape importante avant la classification.
Dans ce chapitre nous proposons un nouveau critère permettant de mesurer la pertinence
des caractéristiques dans le domaine fréquentiel. Ce critère repose sur la théorie
d’information pour sélectionner les caractéristiques pertinentes permettant d’augmenter le
taux de reconnaissance des visages par l’élimination des variables redondantes ou
présentant un bruit.
Le critère proposé est comparé à deux autre critères basées sur la théorie d’information, qui
sont le critère MRMR déjà présenté dans le chapitre précédent et le critère CMIM
90
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
(Conditional Mutual Information Maximisation) (Fleuret, 2004). La comparaison des
performances de ces critères est effectuée par les deux classifieurs SVM et LDA (Analyse
discriminante linéaire).
4.2 La reconnaissance faciale
Le problème de la reconnaissance faciale, appelé aussi reconnaissance de visages, peut être
formulé comme suit : étant données une ou plusieurs images d'un visage, la tâche est de
trouver ou de vérifier l'identité d'une personne par comparaison de son visage à l'ensemble
des images de visage stockées dans une base de données.
4.2.1 Dimensionnalité de l'espace visage
Une image du visage est un signal à 2 dimensions, acquis par un capteur digital (caméra
numérique, scanner...). Ce capteur codera la couleur ou l'intensité des différents points de
l'image dans une matrice de pixels à deux dimensions.
Après une normalisation de l'image et une mise à l'échelle vers une taille fixe (ex : m*n),
l'image du visage peut être considérée comme un vecteur dans un espace multidimensionnel
. Ce vecteur est obtenu en mettant, simplement, dans un ordre fixe les
éléments de la matrice des pixels. Afin de définir une image (ou un point) dans l'espace des
images, nous devons spécifier une valeur pour chaque pixel de cette image. Le nombre de
points constituant cet espace devient rapidement très grand, même pour les images de
petite dimension. Cette dimensionnalité pose un certain nombre de problèmes pour les
algorithmes de reconnaissance, qui se basent sur cette représentation de l'image, à savoir :
 dans un contexte de la reconnaissance, travailler dans un grand espace pose un
problème de complexité de calcul ;
 pour les méthodes paramétriques, le nombre de paramètres à estimer peut
rapidement dépasser le nombre d'échantillons d'apprentissage, ce qui pénalise
l'estimation ;
 pour les méthodes non paramétriques, le nombre d'exemples nécessaires afin de
représenter efficacement la distribution des données peut être insuffisant ;
91
Le cas du visage est assez particulier. Le visage est formé par des surfaces lisses et une
texture régulière. Il possède une forte symétrie (dans le cas des images frontales) et il est
formé à partir de mêmes objets (yeux, nez et bouche), qui ont les mêmes positions pour
tous les visages. Ces spécificités donnent lieu à plusieurs constatations :
 les différents pixels de l'image du visage sont fortement corrélés ;
 les images des différents visages sont aussi corrélées ;
 un important nombre de points dans l'espace des images ne représentent pas des
visages.
En résumé, la dimensionnalité élevée de l’espace de représentation du visage et la forte
corrélation des caractéristiques du visage ainsi que la présentation de plusieurs
caractéristiques non pertinentes pose un certain nombre de problèmes pour les algorithmes
de reconnaissance ce qui nécessite d’effectuer une sélection adéquate des caractéristiques
représentatives du visage avant la phase de reconnaissance ou de classification.
4.2.2 Principe de fonctionnement d’un système de
reconnaissance de visage
En général, un système de reconnaissance faciale est constitué de deux modules : un
module de détection ou localisation de visage, et un module de reconnaissance qui se
déroule en trois étapes : normalisation ou prétraitement, extraction de caractéristiques
faciales, classification (Tan, et al., 2006) ; (Zhao, et al., 2000).
Détection du
visage
Normalisation
du visage
Extraction de
caractéristiques
Classification
Figure 4-1 : Schéma général de reconnaissance de visage
La détection des visages est la première étape importante de tous les systèmes de
reconnaissance faciale. Étant donnée une image ou une séquence d'images, l'objectif de
cette étape est de déterminer la présence ou non d'un visage dans l'image ainsi que sa
localisation. Après la détection, le visage est normalisé. La normalisation implique
généralement une normalisation géométrique des visages dans un but d'alignement et une
normalisation d'éclairement dans un but de compensation des variations d'illumination. Les
92
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
zones de visages normalisées sont ensuite utilisées pour l'extraction des caractéristiques
faciales. Les caractéristiques extraites sont les informations utiles à la phase de
reconnaissance et elles doivent être, dans la mesure du possible, discriminantes et robustes
aux changements extérieurs, tels que la pose, l'expression, etc. Les caractéristiques faciales
sont modélisées pour fournir la signature biométrique du visage qui est ensuite utilisée dans
la phase de classification. Lors de cette dernière étape, on distingue deux tâches :
l'identification et la vérification. En mode identification de visage, l'image à l'entrée du
système est l'image d'un inconnu et le système doit rechercher l'identité de cet inconnu par
comparaison de ses caractéristiques faciales à l'ensemble des caractéristiques faciales des
visages de la base de données d'individus connus. En mode vérification, la personne à
l'entrée du système déclare son identité et le rôle du système est de confirmer ou de rejeter
l'identité revendiquée par comparaison de ses caractéristiques faciales uniquement avec
celles de l'identité revendiquée.
4.2.3 Méthodes de reconnaissance faciale
De nombreuses méthodes de reconnaissance de visages ont été proposées au cours des 30
dernières années. La reconnaissance faciale automatique est un challenge tel qu'il a suscité
de nombreuses recherches dans des disciplines différentes : psychologie, neurologie,
mathématiques, physique, et informatique (reconnaissance des formes, réseaux de
neurones, vision par ordinateur). C'est la raison pour laquelle la littérature sur la
reconnaissance de visages est vaste et diversifiée (Tan, et al., 2006) ; (Zhao, et al., 2000).
Les systèmes de reconnaissance de visages sont très souvent classés à partir des conclusions
d'études psychologiques sur la façon dont les hommes utilisent les caractéristiques faciales
pour reconnaitre les autres. De ce point de vue, on distingue les trois catégories suivantes :
 Les méthodes de correspondance globales : ces méthodes utilisent la région entière
du visage comme entrée du système de reconnaissance. L'une des méthodes la plus
largement utilisée pour la représentation du visage dans son ensemble est la
représentation à partir de l'image de visages propres (Turk & Pentland, 1991) basée
sur une analyse en composantes principales (ACP).
 Les méthodes de correspondance locales : typiquement, ces méthodes extraient
tout d'abord des caractéristiques locales, puis utilisent leurs statistiques locales (la
93
géométrie et/ou l'apparence) comme donnée d'entrée du classificateur. Les
méthodes locales peuvent être classées en deux catégories, les méthodes basées sur
les points d'intérêt et celles basées sur l'apparence du visage. Dans le premier cas,
on détecte tout d'abord les points d'intérêt et ensuite on extrait des caractéristiques
localisées sur ces points d'intérêt. Dans le second cas, on divise le visage en petites
régions (ou patchs) sur lesquelles les caractéristiques locales sont extraites
directement. En comparaison avec les approches globales, les méthodes locales
présentent certains avantages. Tout d'abord, elles peuvent fournir des informations
supplémentaires basées sur les parties locales. De plus, pour chaque type de
caractéristiques locales, on peut choisir le classificateur le plus adapté.
 Les méthodes hybrides : ces méthodes combinent les deux types de caractéristiques
locales et globales.
L’approche qu’on propose dans ce chapitre est une méthode de correspondance globale
basée sur l’apparence du visage. Ce type d’approches comportent, en générale, quatre
étapes : le découpage en régions de la zone du visage, l'extraction des caractéristiques, la
sélection des caractéristiques et la classification.
 Découpage en régions : les deux facteurs qui définissent une région locale sont sa
forme et sa taille. La forme peut être rectangulaire, elliptique, etc., mais ce qui est le
plus largement utilisé est le découpage rectangulaire. Les fenêtres peuvent être
superposées ou non. La taille de la région a une influence directe sur le nombre de
caractéristiques et la robustesse de la méthode.
 Extraction des caractéristiques locales : une fois que les régions locales ont été
définies, il s’agit de choisir la meilleure manière de représenter les informations de
chaque région. Cette étape est critique pour les performances du système de
reconnaissance. Les caractéristiques couramment utilisées sont les valeurs de gris,
les coefficients de Gabor (Brunelli & Poggio, 1993) ; (Wiskott, et al., 1997), les
ondelettes de Harr (Viola & Jones, 2004), les transformées de Fourier, les
caractéristiques basées sur les indices LBP (Local Binary Pattern) (Ahonen, et al.,
2004), SIFT (Scale Invariant Feature Transform) (Lowe, 2004) ou DCT. Cette
dernière méthode a été adoptée dans notre travail et sera détaillée dans la section
suivante.
94
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
 Sélection des caractéristiques : il est possible de calculer de nombreuses
caractéristiques faciales a priori. De ce fait, une étape de sélection des
caractéristiques les plus pertinentes peut s'avérer nécessaire pour des questions de
rapidité de traitement. L'ACP (Turk & Pentland, 1991) est une méthode
couramment utilisée pour sélectionner des caractéristiques en garantissant une perte
minimum d'informations. L’analyse discriminante peut être utilisée pour
sélectionner les caractéristiques les plus discdiminante (Belhumeur, et al., 1997)
(Martinez & Kak, 2001), d'autres techniques comme l'Adaboost (Viola & Jones,
2004) sont également possibles pour cette tâche.
 Classification : La dernière étape est bien entendu l'identification de visage.
Plusieurs travaux ont été publié concernant l’utilisation des différentes algorithmes
et techniques de classification. L’objectif étant d’améliorer le taux de reconnaissance
des visages.
4.3 Approche proposée
Dans cette section, nous proposons une approche d’extraction des caractéristiques basée
sur la combinaison de la méthode DCT d’extraction des caractéristiques et d’un nouveau
critère permettant la sélection des caractéristiques dans le domaine fréquentiel appelé PMI
(Ponderated Mutual Information). Au début, la transformée en DCT est appliquée pour
convertir l'image en domaine fréquentiel et une première réduction de la dimensionnalité
est opérée par le rejet des composant à haute fréquence. Ensuite, le critère PMI est utilisé
pour sélectionner les caractéristiques discriminantes à partir des coefficients DCT.
La Figure 4-2 montre le schéma général de la reconnaissance faciale basée sur une
extraction des caractéristiques par DCT suivie d’une sélection des caractéristiques par le
critère PMI.
Détection du
visage
Normalisation
du visage
Extraction de
caractéristiques
DCT
Sélection de
caractéristiques
PMI
Figure 4-2 : Schéma général de l’approche proposée
Classification
95
4.3.1 Extraction des caractéristiques par DCT
La transformée en cosinus discrète DCT (Discrete Cosine Transform) est une fonction
mathématique qui permet de changer le domaine de représentation d'un signal. Ainsi un
signal temporel ou spatial peut être défini dans un espace fréquentiel, rendant exploitables
certaines de ces propriétés.
La DCT est très utilisée en traitement du signal et de l'image, et spécialement en
compression (Rao & Yip, 1990). La DCT possède en effet une excellente propriété de
« regroupement » de l'énergie : l'information est essentiellement portée par les coefficients
basses fréquences.
L'application de la DCT fait passer l'information de l'image du domaine spatial en une
représentation identique dans le domaine fréquentiel. Pourquoi ce changement de domaine
est-il si intéressant ? Justement parce qu'une image classique admet une grande continuité
entre les valeurs des pixels. Les hautes fréquences étant réservées à des changements
rapides d'intensité du pixel, ceux-ci sont en général minimes dans une image. Ainsi on
parvient à représenter l'intégralité de l'information de l'image sur très peu de coefficients,
correspondant à des fréquences plutôt basses, la composante continue (valeur moyenne de
l'image traitée) ayant une grande importance pour l'œil.
La DCT s'applique à une matrice carrée. Le résultat fourni est représenté dans une matrice
de même dimension. Les basses fréquences se trouvant en haut à gauche de la matrice, et
les hautes fréquences en bas à droite.
La transformation matricielle DCT étant orthogonale, elle s'accompagne d'une méthode
d'inversion pour pouvoir revenir dans le domaine spatial. Ainsi après avoir fait des
modifications dans le domaine fréquentiel, éliminer des variations de l'image quasiment
invisibles par l'œil humain, on retourne à une représentation sous forme de pixels.
La formule ci-dessous montre comment calculer la DCT sur une matrice
√
∑∑
:
(4.1)
96
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
{
√
L'information locale de l’image peut être obtenue à l'aide des blocs de la DCT. Le principe
est le suivant : l’image est divisée en blocs de taille
pixels. Chaque bloc est représenté
par les coefficients de la DCT. A partir de ces derniers, seuls ceux se trouvant en haut à
gauche du bloc sont les plus pertinents et les plus utiles. (Kernel & Stiefelhagen, 2006) ont
montré que l’information nécessaire à la réalisation d’une haute précision de la classification
est contenue dans les premiers coefficients de la DCT (les basses fréquences) par balayage
en zigzag (Figure 4-3).
Figure 4-3 : Passage du domaine spatial au domaine fréquentiel
4.3.2 Sélection des caractéristiques utilisant le critère PMI
Après l’extraction des caractéristiques qui sont représentés par des coefficients DCT,
chaque image est représentée par un vecteur de caractéristiques
sélectionner les caractéristiques
. L’objectif est de
les plus pertinentes.
Pour éviter de sélectionner des coefficients redondants au cours de la procédure de
sélection le pouvoir discriminant d’une caractéristique est mesuré par son information
mutuelle, avec la classe, pondérée avec un coefficient
qui prend en considération la
redondance avec les caractéristiques déjà choisies. Formellement la variable choisie par ce
critère est la variable avec la valeur maximale
:
97
(4.2)
La valeur de
est comprise entre [0,1]. La valeur de
augmente (
) si
n’est pas redondante par rapport aux variables déjà sélectionnées. Pour déterminer la
formule de
, nous avons utilisé les notions de la théorie d’information présentées au
chapitre 2.
Soit
rapport à
l’entropie de
et
l’information mutuelle conditionnelle par
.
Figure 4-4 : Diagramme de Venn pour trois variables
Les propriétés de l’information mutuelle obtenues à partir du diagramme de Venn,
permettent d’obtenir la relation suivante :
(4.3)
Le digramme de Venn montre aussi que le conditionnement diminue l’information
mutuelle. Formellement on a :
(4.4)
D’après(4.3) et (4.4) on a :
98
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
(4.5)
Avec
présente l’interaction entre les variables
,
et . Ce qui implique :
(4.6)
Si
Si
et
et
sont indépendantes alors (
sont redondantes alors (
)
)
et
(maximal).
et
(minimal).
Le degré d’interaction entre deux variables peut être caractérisé par le quotient de la
formule (4.6).
Lorsqu’on considère l’ensemble des variables déjà sélectionnées dans le sous-ensemble
,
la valeur moyenne du degré d’interaction peut être mesuré par :
∑
La formule (4.7) est une expression adéquate pour
(4.7)
. L’avantage de l’utilisation de ce
critère et qu’une variable qui a des interactions avec les variables déjà séléctionnées ait une
grande probabilité d’être choisie. La pertinence de chaque variable est prise en
considération par l’information mutuelle avec la classe
.
4.3.3 Expérimentations
L’objectif des expérimentations est d’évaluer les performances du critère PMI dans
l’amélioration du taux de classification des images. Ce critère est comparé avec deux
critères de sélection de caractéristiques, MRMR et CMIM en utilisant une base des images
constituée d’un mélange de deux bases publiques à savoir la base ORL6 et la base YALE7
(Amine, et al., 2008). Les classifieurs utilisés sont le classifieur SVM et le classifieur LDA.
6
http://www.cl.cam.ac.uk/Research/DTG/attarchive:pub/data/att faces.zip
7
http://cvc.yale.edu/projects/yalefaces/yalefaces.html
99
4.3.3.1
Base de données
Pour tester l’approche proposée dans différentes situation d’expression faciale, de pose et
de luminance, nous avons utilisé la base ORL+YALE. Dans cette base, les images
sélectionnées sont des images presque frontales avec des variations de poses d’illumination
et d’expressions. Sourcils, yeux, nez, lèvres et leurs entourages contribuent majoritairement
dans la reconnaissance faciale. La normalisation de l’ensemble des images de la base de
données est effectuée par un cadrage de l’image pour éliminer les parties non nécessaires de
l’image. La taille retenue pour les images est 48x48 pixels par rapport à la position des yeux.
Un exemple des images de la base est donné dans la Figure 4-5.
La base contient 330 objets avec 10 images par objet pour un total de 3 300 images. La
base entière est divisée en deux parties, six images de chaque objet sont utilisées pour la
base d’apprentissage et le reste est utilisé pour le test.
Figure 4-5 : Exemples de la base des visages (ORL+YALE)
4.3.3.2 Extraction et sélection des caractéristiques
L’extraction des caractéristiques pour chaque image est opérés par la transformé DCT
comme suit :
 L’image est divisée en blocks séparés de 8x8 pixels ;
 Chaque bloque est représenté par ces coefficients DCT ;
 Elimination des coefficients haute fréquence et maintient uniquement d’un nombre
minimum de coefficients pour chaque block car l’information est concentrée dans
les coefficients basse fréquence. 4.68% des coefficients est maintenu (Amine, et al.,
2008) ; (Amine, et al., 2009);
 L’image est représentée par un vecteur composé des coefficients réduit de la
transformé en DCT.
100
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
L’extraction des caractéristiques de l’ensemble des images donne lieu à une
représentation matricielle avec une ligne par image et une colonne par caractéristique
(Tableau 4-1). Chaque valeur de
la
image, où
représente la valeur du
et
coefficient DCT pour
.
est le vecteur représentant la
caractéristique.
est le vecteur des classes d’appartenance des images.
Imageid
Image1
Image 2
Image 3
Coefficient1
x11
x12
x13
Coefficient2
x21
x22
x23
CoefficientM
xM1
xM2
xM3
ImageN
x1N
x2N
xMN
Tableau 4-1 : Représentation matricielle de la base des images (visages)
La sélection des caractéristiques s’effectue selon une procédure ascendante « forward»
basée sur le critère PMI. La procédure se déroule comme suit :
 La première étape consiste à sélectionner la variable ayant l’information maximale
avec la valeur à prédire
;
 La seconde étape consiste à sélectionner la variable spectrale qui maximise le
produit
Le critère PMI est comparé à deux critères de sélection des caractéristiques le critère CMIM
et le critère MRMR.
4.3.3.3 Sélection des caractéristiques par CMIM
Le critère de maximisation de l’information mutuelle conditionnelle (CMIM : Conditional
Mutual Information Maximization Criterion) (Fleuret, 2004) propose de choisir la variable
dont la pertinence conditionnelle minimale
choisis
rapport à
pour les variables déjà
est maximal. Cela nécessite le calcul de l’information mutuelle de
, conditionnellement à chaque
par
précédemment choisis. Puis, la valeur
minimale est retenue et la variable dont la pertinence minimale est maximale est choisie. La
sélection de variables redondantes est ainsi évitée.
101
Formellement, la variable retournée par le critère CMIM est :
4.3.3.4 Sélection des caractéristiques par MRMR
Le critère de redondance minimum - pertinence maximum (Peng, et al., 2005) , présenté
dans le chapitre 3, consiste à choisir, parmi les variables non encore choisit
, la variable
qui a le meilleur compromis pertinence-redondance.
Formellement, la variable retournée par le critère MRMR est :
(
∑
)
4.3.3.5 Résultats sans sélection de caractéristiques
Le tableau (Tableau 4-2) montre les taux de classification des images sans sélection de
variables en utilisant un classifieur SVM et un classifieur LDA.
Les paramètres du classifieur SVM sont un noyau polynomiale du premier degré
et un paramètre de régularisation
.
Le nombre total des caractéristiques faciales utilisées est 200.
Classifieur utilisé
SVM
LDA
87,1
86,8
Tableau 4-2 : Taux de classification sans sélection de caractéristiques
4.3.3.6 Résultats avec sélection de caractéristique
Les figures (Figure 4-6) et (Figure 4-7) montrent les taux de classification en fonction du
nombre de caractéristiques sélectionnées par MRMR, CMIM et PMI sur la base des images
utilisée.
102
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
A rappeler que la base contient 330 objets avec 10 images par objet pour un total de 3 300
images. La base entière est divisée en deux parties, six images de chaque objet sont utilisées
pour la base d’apprentissage (construction du modèle) et le reste est utilisé pour le test.
Figure 4-6 : Comparaison des critères de sélection en utilisant un classifieur SVM
Figure 4-7 : Comparaison des critères de sélection en utilisant un classifieur LDA
Ces figures montrent que les caractéristiques sélectionnées par le critère PMI donnent des
taux de classification meilleurs que ceux donnés par les deux autres critères et en particulier
pour un nombre de variables inférieur à 15.
103
Le tableau (Tableau 3-1) donne une comparaison entre les taux de classification en utilisant
15 et 50 caractéristiques sélectionnées par les différents critères.
Classifieur utilisé
SVM
Nombre de
caractéristiques
sélectionnées
LDA
MRMR
CMIM
PMI
MRMR
CMIM
PMI
15
54,4
70,1
83,2
47
73,8
82,3
50
81,5
88,4
88,4
83,2
87
88,2
Tableau 4-3 : Taux de reconnaissance (%) pour différents critères de sélection des caractéristiques
Pour 15 caractéristiques, le critère PMI offre le meilleur taux (83,2% pour SVM et 82,3
pour LDA) suivi par le critère CMIM (70,1% pour SVM et 73,8 pour LDA) et après le
critère MRMR qui présente le taux de classification le plus faible (54,4% pour SVM et 47
pour LDA).
Pour 50 caractéristiques, les critères PMI et CMIM donnent des taux de classification
presque similaires et est comparable au taux de classification obtenu avec l’utilisation de la
totalité des caractéristiques.
4.4 Conclusion
Dans ce chapitre nous avons proposé un nouveau critère de sélection de caractéristiques
pour la reconnaissance faciale. Ce critère s’intègre dans une approche globale d’extraction
et de sélection de caractéristiques visant l’amélioration des taux de reconnaissance de
visages. L’approche proposée consiste tout d’abord à extraire les caractéristiques des images
dans le domaine fréquentiel par la transformé en DCT. Ensuite les coefficients haute
fréquence sont éliminés car l’information est concentrée dans les coefficients basse
fréquence. En fin notre critère PMI, basé sur la théorie d’information, est appliqué pour
sélectionner les caractéristiques les plus pertinentes et moines redondantes.
L’évaluation des performances de l’approche proposée a été effectuée en utilisant une base
d’images constituée d’un mélange des deux bases publiques ORL et YALE.
104
Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale
Les taux de classification obtenus par 50 coefficients DCT sélectionnés par le critère PMI
s’élève respectivement à 88,4% pour un classifieur SVM et 88,2% pour un classifieur LDA
contre 87,1% pour SVM et 86,8% pour LDA en cas d’utilisation de la totalité des
coefficients. Ceci dit, la sélection des caractéristique permet de maintenir, voire améliorer,
le taux de reconnaissance de visage avec un nombre minimal de coefficients.
Nous avons comparé le critère PMI à deux autres critères basés sur la théorie d’information
et qui sont le critère MRMR et le critère CMIM. Les résultats montrent que le critère PMI
offre les meilleures performances et surtout pour le nombre de coefficient inférieur ou égal
à 15. Pour le cas de 15 coefficients, le critère PMI offre le meilleur taux (83,2% pour SVM
et 82,3 pour LDA) suivi par le critère CMIM (70,1% pour SVM et 73,8 pour LDA) et après
le critère MRMR qui présente le taux de classification le plus faible (54,4% pour SVM et 47
pour LDA).
105
Principales contributions :
La sélection de variables est un domaine de recherche qui donne lieu à de nombreuses
études et à de nouvelles approches. Les différents travaux réalisés durant cette thèse
apportent plusieurs contributions concernant la sélection de variables pour des problèmes
de classification supervisée.
La première contribution développée dans ces travaux traite la sélection de gènes pour la
classification de données de biopuces concernent des problèmes de reconnaissance de
cancers et de prévision de diagnostic en oncologie. Nous avons proposé une nouvelle
approche hybride (MRMR-GA) pour la sélection d’un sous ensemble de gènes optimal non
redondant et fournissant de bonnes performances en classification. Notre approche est
basée sur la combinaison de la méthode de filtrage MRMR (Peng, et al., 2005) et d’une
méthode de type enveloppe « wrapper » basée sur une stratégie de recherche génétique et
utilisant le classifieur SVM pour l’évaluation de la pertinence des sous-ensembles candidats.
Cette approche peut être définie comme un processus séquentiel en deux étapes qui utilise
des techniques complémentaires pour réduire graduellement l’espace de recherche et
sélectionner un sous ensemble pertinent de gènes. La première étape est une étape
préliminaire pour la réduction des données de puces à ADN par l’algorithme MRMR qui
assure le filtrage des gènes qui ne sont pas informatifs, c’est-à-dire des gènes dont les
niveaux d’expression sont uniformes quelle que soit la classe, et l’élimination des gènes
redondants. Dans la deuxième étape un algorithme génétique (AG) explore des sousensembles candidats, chaque candidat est évalué grâce à un classifieur SVM ; le taux de
classification indique si le sous-ensemble en question permet une bonne discrimination des
classes ; cette information est donc la fonction d’aptitude retenue dans l’AG.
106
Conclusion générale et perspectives
Nous avons réalisé de nombreuses expérimentations pour évaluer l’approche proposée par
un classifieur SVM et un classifieur Baysien Naïf (BN) en utilisant 5 jeux de donnés
biopuces. Les résultats obtenus lors de la comparaison entre l’approche hybride MRMRGA et les deux autres méthodes filtre MRMR et enveloppe GA-SVM ont démontré que
notre approche est plus performante en terme de sélection des sous-ensembles de gènes
permettant une meilleure discrimination des classes. La comparaison de cette approche
avec d’autres algorithmes de sélection a mis en évidence que celle-ci rivalise très bien avec
les méthodes de référence du point de vue du taux de classification et du nombre de gènes
sélectionnés. Cette étude confirme encore une fois que la sélection de gènes permet
effectivement de réduire les données inutiles et le bruit pour améliorer le taux de
classification qui varie dans notre travail entre 85% et 100% pour uniquement 15 gènes
contre des taux allant de 56% à 98% si on utilise la totalité des gènes (des milliers).
La deuxième contribution de cette thèse correspond à l’introduction d’une nouvelle
approche de sélection des caractéristiques permettant d’offrir de meilleures performances
dans le domaine de la reconnaissance faciale. L’approche proposée est basée sur la sélection
des caractéristiques par un critère basé sur la théorie d’information, à partir d’un ensemble
de coefficients extraits préalablement par la transformée en DCT (Discret Cosine
Transform). Au début, la transformée en DCT est appliquée pour convertir l'image en
domaine fréquentiel et une première réduction de la dimensionnalité est opérée par le rejet
des composants à haute fréquence. Ensuite, un nouveau critère appelé PMI (Ponderated
Mutual Information) est utilisé pour sélectionner les coefficients les plus pertinents et
moins redondants à partir des coefficients DCT.
L’évaluation des performances de l’approche proposée a été effectuée sur une base
d’images constituée d’un mélange de deux bases publiques ORL et YALE en utilisant un
classifieur SVM et un classifieur LDA (Linear Discriminant Analysis). Les résultats
expérimentaux ont démontré que les sous-ensembles de coefficients sélectionnés par le
critère PMI présentent des taux de classification meilleurs par rapport aux taux obtenus par
les sous-ensembles sélectionnés par CMIM (Fleuret, 2004) et MRMR, plus précisément
pour les petits sous-ensembles ne dépassant pas 15 variables. Par ailleurs, les taux de
classification obtenus par 50 coefficients DCT sélectionnés par le critère PMI s’élève
respectivement à 88,4% pour un classifieur SVM et 88,2% pour un classifieur LDA contre
87,1% pour SVM et 86,8% pour LDA en cas d’utilisation de la totalité des coefficients. On
107
remarque que l’amélioration des taux de classification par la sélection de variables n’est pas
très significative comme pour le cas de la sélection des gènes. Ceci est expliqué par la
réduction considérable opérée préalablement sur les coefficients DCT par l’élimination des
coefficients haute fréquence qui sont peu informatifs.
Perspectives de recherche :
Les travaux réalisés au cours de cette thèse nous ont permis de conclure que le problème
de la sélection de variables est très prometteur, surtout dans le domaine de sélection de
gènes pour les puces à ADN. De ce fait, nos perspectives de recherche sur la sélection de
variables porteront, essentiellement, sur la proposition des techniques complémentaires
permettant d’améliorer nos résultats sur la sélection de gènes pour la classification de
données de biopuces concernent des problèmes de reconnaissance de cancers et de
prévision de diagnostic en oncologie.
Notre première perspective concerne l’évaluation de la pertinence biologique des gènes
sélectionnés par notre méthode. La validation de la pertinence des gènes sélectionnés doit
être jugé de la part du biologiste et par rapport à la problématique étudiée.
Dans une deuxième perspective nous prévoyons de combiner plusieurs méthodes de
filtrage pour l’obtention d’ensemble de gènes de départ au lieu d’utiliser uniquement le
filtre MRMR. Ceci nous permettrait de travailler avec un sous ensemble initial plus robuste
et ne dépendant pas d’une unique métrique.
La dernière envisagée porte sur l’amélioration de la partie enveloppe de notre approche par
l’utilisation de deux autres méthodes heuristiques de recherche inspirées de la nature et qui
sont les colonies de fourmis (Ant colony) (Dorigo, et al., 2002) ; (Jensen, 2006) et les
essaims de particules (PSO) (Kennedy & Eberhart, 2001).
108
Aha, D., & Bankert, R. (1995). A comparative evaluation of sequential feature selection
algorithms. Learning from Data : Artificial Intelligence and Statistics, 5, 199-206.
Ahonen, T., Hadid, A., & Pietikainen, M. (2004). Face recognition with local binary
patterns. ECCV, pp. 469-481.
Ait-Kerroum, M., Hammouch, A., & Aboutajdine, D. (2009). Textural feature selection by
joint mutual information based on gaussian mixture model for multispectral image
classification. (ELSEVIER, Éd.) Pattern Recognition Letters, special issue of Pattern Recognition and
Remote Sensing.
Alizadeh, A., Eisen, M., Ma, C., Lossos, I., & Osenwald AR., (2000). Distinct types of
diffuse large B-cell lymphoma identified by gene expression profiling. Nature, pp. 503-511.
Almuallim, H., & Dietterich, T. G. (1991). Learning with many irrelevant features.
Proceedings of the Ninth National Conference on Artificial Intelligence (AAAI-91) (pp. 547-552).
Anaheim, California: AAAI Press.
Almuallim, H., & Dietterich, T. G. (1994). Learning boolean concepts in the presence of
many irrelevant features. Artificial Intelligence, 69(1-2), pp. 279-305.
Amine, A., El Akadi, A., & Aboutajdine, D. (2009). GA-SVM and mutual information
based frequency feature selection for face recognition. Infocomp, Journal Of Computer Science,
8(1), pp. 20-29.
Amine, A., Ghouzali , S., & Aboutajdine, D. (2008). Investigation of feature dimension
reduction based dct/svm for face recognition. IEEE Symposium on Computers en
Communications.
Antoniadis, A., Lambert-Lacroix, S., & Leblanc, F. (2003). Effective dimension reduction
methods for tumors classification using gene expression data. Bioinformatics, 19(5), pp. 563570.
109
Bäck, T., & Hoffmeister, F. (1991). Extended selection mechanisms in genetic algorithms.
International conference on genetic algoritms and their aplications (pp. 92-99). University of
California: Morgan Kaufmann.
Baker, J. (1985). Adaptative selection methods for genetic algorithms. International conference
on genetic algoritms and their applications (pp. 101–111). Hillslade, New Jersey: J.J. Grefenstette,
editor.
Baker, J. (1987). Reducing bias and inefficiency in the selection algorithm. Reducing bias and
inefficiency in the selection algorithm.
Bartlett, M. S. (2001). Face image analysis by unsupervised learning. Kluwer Academic Publishers.
Battiti, R. (1994). Using mutual information for selecting features in supervised neural net
learning. IEEE Transaction on Neural Networks, 5(4), pp. 537-550.
Belacel, N. (1999). Méthodes de classification multicritère, méthodologie et applications à
l'aide au diagnostic médicale. Thèse de doctorat en science. Université Libre de Bruxelles.
Belhumeur, P. N., Hespanha, J., & Kriegman, D. J. (1997). Eigenfaces vs. fisherfaces :
Recognition using class specific linear projection. IEEE Transaction PAMI.
Blum, A., & Langly, P. (1997). Selection of relevant features and examples in machine
learning. Artificial Intelligence, 97, pp. 245-271.
Boddy, M., & Dean, T. (1994). Decision-theoretic deliberation scheduling for problem
solving in time-constrained environments. Artificial intelligence, 67(2), pp. 245-286.
Bognar, K. (2003). Aspects théoriques de la classification à base de treillis. Université Debrecen:
Institut de mathématiques et informatique.
Bonnlander, B. V., & Weigend, A. S. (1994). Selecting input variables using mutual
information and nonparametric density estimation. International Symposium on Artificial Neural
Networks.
Boulesteix, A. (2004). PLS Dimension Reduction for Classification. Statistical Applications in
Genetics and Molecular Biology, 3(1).
Breimann, L., Friedman, J., Olsen, R., & Stone, C. (1984). Classification and regression trees.
California: Wadworth International.
Brunelli, R., & Poggio, T. (1993). Face recognition : features versus templates. IEEE
Transaction PAMI, 15(10), pp. 1042-1052.
Cardie, C. (1993). Using decision trees to improve case-based learning. Proceeding of the Tenth
International Conference on Machine Learning (pp. 25-32). Morgan Kaufman Publishers, Inc.
Chambers, I. (2001). The practical handbook of genetic algorithms, applications. Chapman &
Hall/CRC.
110
Bibliographie
Chellapa, R., Wilson, C. L., & Sirohey, S. (1995). Human and machine recognition of faces:
a survey. Proceeding of the IEEE, 83, pp. 705-741.
Cherit, M., Kharma, N., Cheng-Lin, L., & Suen, C. (2007). Character recognition system a guide
for students and practitioners. John Wiley.
Cho, B. S., & Won, H. H. (2007). Cancer classification using ensemble of neural networks
with multiple significant gene subsets. Applied Intelligence, 26(3), pp. 243–250.
Christianini, N., & Shawe-Taylor, J. (2000). An introduction to support vector machines.
Cambridge : Cambridge University Press.
Cios, K. J., Pedrycz, W., Swiniarski, R. W., Kurgan, & A., L. (2007). Data mining: A
knowledge discovery approach. Springer.
Cormack, R. (1971). A review of Classification. Journal of the Royal Statistical Society, A(134),
pp. 321-367.
Cotta, C., & Moscato, P. (2003). The k-feature set problem is w[2]-complete. Journal of
computer and system sciences, 68, pp. 686–690.
Cover, T. (1974). The best two independent measurements are not the two best. IEEE
Trans. Systems, Man and Cybernitics, 4, pp. 116-117.
Cover, T., & Thomas, J. (1990). Elements of Information Theory. New York: John Willy.
Dash, M., & Liu, H. (1997). Feature selection for classification. Intelligent Data Analysis, 1(3).
Dash, M., & Liu, H. (2006). Hybrid serch of feature subsets. Dans Springer (Éd.), PRICAI.
Davies, S., & Russell, S. (1994). Np-completeness of searches for smallest possible feature
sets. AAAI Fall Symposium on Relevance.
Dawid, H. (1999). Adaptive learning by genetic algorithms: Analytical results and applications to
economic models. Springer.
De Jong, K. (1975). An analysis of the behavior of a class of genetic adaptive systems. University of
Michigan: PhD thesis.
Devijver, P., & Kittler. (1982). Pattern Recognition: A Statistical Approach. Englewood Cliffs,
New Jersy: Prentice-Hall.
Ding, C., & Peng, H. (2005). Minimum redundancy feature selection from microarray gene
expression data. Bioinformatics and Computational Biology, 3(2), pp. 185–206.
Dorigo, M., Gambardella, L. M., Middendorf, M., & Stutzle, T. (2002). Guest editorial:
special section on ant colony optimization. IEEE Transactions on Evolutionary computation,
6(4), pp. 317–319.
111
Dubitzky, W., Granzow, M., Downes, S., & Berrar., D. (2003). A practical approach to
microarray data analysis, chapter Introduction to microarray data analysis. (K. A. Publishers, Éd.)
Duch, W., Winiarski, T., & Biesiada, J. K. (2003). Feature selection and ranking filters.
International Conference on Artificial Neural Networks, (pp. 251-254).
Duda, O. R., Hart, E. P., & Stork, D. G., (2001). Patern classification. John Wiley & Sons.
Dudoit, S., Fridlyand, J., & Speed, T. (2002). Comparison of Discrimination Methods for
the Classification of Tumors Using Gene Expression Data. Journal of the American Statistical
Association, 97(457), pp. 77-88.
Eiben, A., & Smith, J. (2007). Introduction to Evolutionary Computing. Springer.
El Akadi, A., AMINE, A., EL OUARDIGHI, A., & ABOUTAJDINE, D. (2010). "A
novel information-theoritic measure for face frequency feature selection. ISIVC, Maroc.
El Akadi, A., Amine, A., El Ouardighi, A., & Aboutajdine, D. (2011, Mars). A two-stage
gene selection scheme utilizing MRMR filter and GA wrapper. Knowledge and Information
Systems, 26(3), pp. 487-500.
El Akadi, A., El Ouardighi, A., & Aboutajdine, D. (2009). A new combined approachesbased gene selection for cancer classification. The International Conference on Software,
Knowledge, Information Management and Application, (pp. 41-45). Fès.
El Akadi, A., El Ouardighi, A., & Aboutajdine, D. (2008, April). A powerful feature feature
selection approach based on mutual information. International Journal Of Computer Science And
Network Security, 8(4), pp. 116-121.
El Akadi, A., El Ouardighi, A., & Aboutajdine, D. (2009). Sélection de variables basée sur le gain
d'interaction. France: Europia.
El Ouardighi, A., El Akadi, A., & Aboutajdine, D. (2007). Feature selection on supervised
classification using wilks lambda statistic. IEEE International Symposium on Computational
Intelligence and Intelligent Informatics, (pp. 51-57). Agadir.
Er, M., Chen, W., & Wu, S. (2005, March). High-speed face recognition based on discrete
cosine transform and rbf neural networks. IEEE Transaction on Neural Networks, 16, pp.
679-691.
Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in
Knowledge Discovery and Data Mining. (A. Press, Éd.) Menlo Park.
Fleuret, F. (2004). Fast binary feature selection with conditional mutual information. Journal
of Machine Learning Research, 5, pp. 1531-1555.
Fogarty, T. (1989). Varying the probability of mutation in the genetic algorithm. the 3rd
International Conference on Genetic Algorithms (pp. 104-109). Morgan Kaufmann Publishers Inc.
112
Bibliographie
Frasner, A. M., & Swinney, H. L. (1986). Independant coordinates for strange attractors
from mutual information. Physical Review, 33(2), pp. 1134-1140.
Furey, T. S., Cristianini, N., Duffy, N., Bednarski, W., D., & Schummer, M. a. (2000).
Support vector machine classification and validation of cancer tissue samples using
microarray expression data. Bioinformatics, 16(10), pp. 906-914.
Gen, M., & Cheng, R. (1997). Genetic algorithms and engineering design. John Wiley.
Goldberg, D. (1989). Genetic Algorithms in Search, Optimization, and Machine Learning (Vol. 3).
Reading, MA: Addison-Wesley.
Goldberg, D. (1991). Real-coded genetic algorithms, virtual alphabets, and blocking.
Complex Systems, 5, 139–167.
Goldberg, D., & Deb, K. (1991). Foundations of genetic algorithms, chapter A comparative analysis
of selection schemes used in genetic algorithms. Morgan Kaufmann.
Golub, T., D. Slonim, P., Tamayo, C., Huard, M., Gaasenbeek, J., Mesirov, H., . . . Lander,
E. (1999). Molecular classification of cancer: Class discovery and class prediction by gene
expression monitoring. Science, pp. 531–537.
Gordon, G., Jensen, R., Hsiao, L., Gullans, S., Blumenstock, J., & S. Ramaswamy, W. R.
(2002). Translation of microarray data into clinically relevant cancer diagnostic tests using
gene expression ratios in lung cancer and mesothelioma. Cancer Research, 6, pp. 4963–4967.
Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal
of Machine Learning Research, 3, pp. 1157-1182.
Guyon, I., & Elisseeff, A. (2003). An Introduction to Variable and Feature Selection. J.
Machine Learning Research, 3, 1157-1182.
Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques. Morgan Kaufman.
Hancock, P. (1994). An empirical comparison of selection methods in evolutionary
algorithms. AISB-Springer-verlag, 80–94.
Hansen, P., & Jaumard, B. (1997). Cluster analysis and mathematical programming.
Mathematic Programming, 79, pp. 191-215.
Hastie, T., Tibshirani, R., Eisen, M., Alizadeh, A., Levy, R., Staudt, L., . . . Brown, P. (2000).
Gene shaving as a method for identifying distinct sets of genes with similar expression
patterns. Genome Biologie, 1(2), pp. 1-21.
Haupt, R., & Haupt, S. (2004). Practical genetic algorithms (éd. second). New: John Wiley.
Henriet, L. (2000). Système d'évaluation et de classification multicritères pour l'aide à la
décision, construction de modles et procédures d'affectation. Thèse de doctorat en science.
Université Paris Dauphine.
113
Herbrich, R. (2002). Learning kernel classifiers. MIT Press.
Hernandez, J. C., Duval, B., & Hao, J. (2007). A genetic embedded approach for gene
selection and classification. EVOBIO, (pp. 90–101).
Holland, J. (1962). Outline for a logical theory of adaptative systems. Journal of the Association
on Computing Machinery, 9(3), pp. 297–314.
Holland, J. (1975). Adaptation in Natural and Artificial Systems: An Introductory Analysis with
Applications to Biology, Control, and Artificial Intelligence. Ann Arbor, MI: University of Michigan
Press.
Hu, Y., Pang, S., & Havukkala, I. (2006). A novel microarray gene selection method based
on consistency. HIS06: Sixth International Conference on Hybrid Intelligent Systems, (pp. 14-17).
Huawen, L., Sun, J., Liu, L., & Zhang, H. (2009). Feature selection with dynamic mutual
information. Pattern Recognition, pp. 1330-1339.
Huerta, B. E., Duval, B., & Hao, J. (2006). A hybrid ga/svm approach for gene selection
and classification of microarray data. Lecture Notes in Computer Science. Applications of
Evolutionary Computing. (4th EuropeanWorkshop on Evolutionary BIOinformatics) (pp. 34-44).
Springer.
Hutter, M., & Zaffalon, M. (2005). Distribution of mutual information from complete and
incomplete data. Computational Statistics and Data Analysis, 48, pp. 633-657.
Iqbal, Q., & Aggarwal, J. K. (2002). Retrieval by Classification of Images Containing Large
Manmade Objects Using Perceptual Grouping. Pattern Recognition J., 35, 1463 -1479.
Jensen, R. (2006). Performing feature selection with aco. In Swarm Intelligence in Data Mining,
pp. 45–73.
John, G., Kohavi, R., & Peger, K. (1994). Irrelevant features and the subset selection
problème. Eleventh International Conference on machine Learning, (pp. 121-129).
Kanade, T. (1977). Computer recognition of human face.
Kennedy, J., & Eberhart, R. C. (2001). Swarm intelligence. The Morgan Kaufmann.
Kernel, E. K., & Stiefelhagen, R. (2006). Analysis of local appearance Based Face
Recognition: Effects of Feature Selection and Feature Normalization. IEEE Computer
Society CVPR'W'06 , (pp. 34-40).
Kira, K., & Rendell, L. A. (1992). A practical approach to feature selection. Proceedings of the
Ninth International Workshop on Machine Learning (pp. 249-256). San Francisco: Morgan
Kaufmann Publishers Inc.
Kira, K., & Rendell, L. A. (1992). The feature selection problem : traditional methods and a
new algorithm. Proceedings of the Ninth National Conference on Machine Learning, (pp. 129-134).
114
Bibliographie
Kohavi, R., & John, G. (1997). Wrappers for feature selection. Artificial Intelligence, 97(1-2),
273-324.
Koller, D., & Sahami, M. (1996). Toward optimal feature selection. 13th Internattional
Conference on Machine Learning, (pp. 1-15).
Kononenko, I. (1994). Estimating attributes: Analysis and extension of Relief. European
Conference on Machine Learning, (pp. 171-182).
Kwak, N., & Choi, C. (2002). Input feature selection for classification problems. IEEE
Transations on Neural Networks, pp. 143–159.
Langley, P. (1994). Selection of relevant features in machine learning. pp. 140-144.
Leray, P., & Gallinari, P. (1999). Feature selection with neural networks. Behaviormetrika, 26.
Li, G., Zeng, X., Yang, J., & Yang, M. (2007). Partial least squares based dimension
reduction with gene selection for tumor classification. IEEE 7th International Symposium on
Bioinformatics and Bioengineering, (pp. 1439–1444).
Li, S., Wu, X., & Hu, X. (2008). Gene selection using genetic algorithm and support vectors
machines. Soft Computing, 12(7), pp. 693–698.
Liu, B., Cui, Q., Jiang, T., & Ma, S. (2004). A combinational feature selection and ensemble
neural network method for classification of gene expression data. BMC Bioinformatics,
5(138), pp. 1–12.
Liu, H., & Motoda, H. (1998). Feature Extraction, Construction and Selection. Boston: Kluwer
Academic.
Liu, H., & Motoda, H. (2007). Computational Methods of feature Selection. Chapman and
Hall/CRC Press.
Liu, H., & Yu, L. (2005). Toward integrating feature selection algorithms for classification
and clustering. IEEE Transaction On Knowledge and Data Engineering, 17(4), pp. 491-502.
Lowe, D. (2004). Distinctive image features from scal-invariant keypoints. International
Journal of Computer Vision, 60(2), pp. 91-110.
Marchand, M., & Shawe-Taylor, J. (2002). The set Covering Machine. Journal of Machine
Learning Research, 3, pp. 723-746.
Mari, J., & Napoli, A. (1996). Aspects de la classification. Rapport technique 2909, INRIA.
Martinez, A. M., & Kak, A. C. (2001). PCA versus IDA. IEEE Transaction PAMI, 23(2), pp.
228-233.
Mercer, J. (1909). Functions of positive and negative type and their connection with the
theory of integral equations. Philosophical Transactions of the Royal Society, pp. 441–458.
115
Michalewicz, Z. (1995). A survey of constraint handling techniques in evolutionary
computation methods. the 4th Annual Conference on Evolutionary Programming (pp. 135-155).
MIT Press, editor.
Michie, D., Spiegelhalter, D., & C.C. (1994). Machine learning, neural and statistical classification.
New York: Ellis Horwood.
Mitchell, M. (1999). An Introduction to Genetic Algorithms. MIT Press.
Mitchell, T. (1997). Machine Learning. WBC/McGraw-Hill.
Miyahara, K., & Pazzani, M. J. (2000). Collaborative filtering with the simple bayesian
classifier. Proceeding of the 6th Pacific Rim International Conference on Artificial Intelligence, (pp. 679689).
Molina, L., Belanche, L., & Nebot, A. (2002). Evaluating feature selection algorithms.
CCIA-LNCS, (pp. 216-227).
Murtagh, F. (1983). A survey of recent advances in hierarchical clustring algorithms. The
Computer Journal, 26(4), pp. 354-359.
Narendra, P., & Fukunaga, K. (1977). A branch and bound algorithm for feature subset
selection. IEEE Transaction Computers, 26(9), pp. 917-922.
Niblack, W., Sheinvald, J., Dom, B., & Rendell, L. (1990). A modeling approach to feature
selection. 10th International Conference on Pattern Recognition.
Ooi, C., & Tan, P. (2003). Genetic algorithms applied to multi-class prediction for the
analysis of gene expression data. Bioinformatics, 19, pp. 37–44.
Pang, S., Havukkala, I., Hu, Y., & Kasabov, N. (2007). Classification consistency analysis
for bootstrapping gene selection. Neural Computing and Applications, 16, pp. 527-539.
Peng, H., Long, F., & Ding, C. (2005). Feature selection Based on Mutual Information:
Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy. IEEE transaction on
pattern analysis and machine intelligence, 27(8).
Peng, Y., Li, W., & Liu, Y. (2006). A hybrid approach for biomarker discovery from
microarray gene expression data. Cancer Informatics, 2, pp. 301–311.
Perny, P. (1998). Multicriteria filtering methods based on concordance and non
discordance principles. Annals of operations research, pp. 137-165.
Poggi, J. M., & Tuleau, C. (2006). Classification supervisee en grande dimension:
application à l'agrément de conduite automobile. Revue de statistique appliquée, 4, pp. 41-60.
Press, W., Teukolsky, S., Vetterling, W., & Flannery, B. (1992). Numerical Recipes in C (éd.
2nd Edition). Cambridge, UK: Cambridge University Press.
116
Bibliographie
Pudil, P., Novovičova, J., & Kittler, J. (1994). Floating search methods in feature selection.
Pattern Recognition Letter, 15(11), pp. 1119-1125.
Quinlan, J. R. (1993). C4.5: programs for machine learning. San Francisco, USA: Morgan
Kaufmann Publishers, Inc.
Rao, K., & Yip, P. (1990). Discret Cosine Transform: Algorithms, Advantages, Applications.
Boston: Academic Press.
Ratanamahatana, C., & Gunopulos, D. (2003). Feature selection for the naive bayesian
classifier using decision trees. Applied artificial intelligence, 5-6(17), pp. 475–487.
Reeves, C. (1995). A genetic algorithm for flowshop sequencing. Operations Research, 22, pp.
5-13.
Ross, D., Scherf, U., Eisen, M., Perou, C., & Rees C, S. P. (2000). Systematic variation in
gene expression patterns in human cancer cell lines. Nature Genetics, pp. 227-235.
Roy, B., & Bouyssou, D. (1993). Aide multicritère à la décision. Economica.
Scott, D. W. (1992). Multivariable Density Estimation: Theory, Practice, and Visualization. New
York: John Wiley.
Setiono, R., & Liu, H. (1997). Neural-network feature selector. IEEE Transactions on Neural
Networks, 8(3), pp. 654-662.
Siedlecki, W., & Sklansky, J. (1988). On automatic feature selection. International Journal of
Pattern Recognition and Artificial Intelligence, 2, pp. 197-220.
Sun, Z., Bebis, G., & Miller, R. (2004). Object selection using feature subset selection.
Pattern Recognition, 37, pp. 2165-2176.
Tan, A. C., & Gilbert, D. (2003). Ensemble machine learning on gene expression data for
cancer classification. Applied Bioinformatics, 2(2), pp. 75–83.
Tan, X., Chen, S., Zhou, Z. H., & Zhang, F. (2006). Face recognition from a single image
per person : A survey. Pattern Recognition, 39(9), pp. 1725-1745.
Torkkola, K. (2003). Feature extraction by non parametric mutual information
maximization. Journal of Machine Learning Research, 3, pp. 1415-1438.
Turk, M., & Pentland, A. (1991). Eigenfaces for recognition. Journal of Cognitive Neuroscience,
3, pp. 7-86.
Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag.
Vapnik, V. (1998). Statistical learning theory. New York: Wiley.
Vincent, P. (2003). Modèles à noyaux à structure locale. Thèse de Doctorat. Université de
Montréal.
117
Viola, P., & Jones, M. (2004). Robust real-time face detection. International Journal of
Computer Vision, 57, pp. 137-154.
Wang, S., Chen, H., Li, S., & Zhang, D. (2007). Feature extraction from tumor gene
expression profiles using DCTt and DFT. EPIA Workshops, (pp. 485–496).
Wang, Z., Palade, V., & Xu, Y. (2006). Neuro-fuzzy ensemble approach for microarray
cancer gene expression data analysis. Evolving Fuzzy Systems, (pp. 241–246).
Weiss, S., & Kulikowski, C. (1991). Computer systems that learn, classification ans prediction methods
from statistics, neural nets, machine learning and experts systems. San Mateo: California Morgan
Kaufman Publishers.
Weston, J., Mukherjee, S., Chapelle, O., Pontil, M., Poggio, T., & Vapnik, V. (2000).
Feature Selection for SVMs.
Whitley, D. (1989). The genitor algorithm and selection pressure: Why rank-based
allocation of reproductive trials is best. The third international conference on genetic algorithms, (pp.
116-121).
Whitley, D. (1995). Modeling hybrid genetic algorithms. Dans Genetic Algorithms in
Engineering and Computer Science (pp. 191-201). John Wiley.
Wiskott, L., Fellous, J. M., Kuiger, N., & von der Malsburg, C. (1997). Face recognition by
elastic bunch graph matching. IEEE Transaction PAMI, 19(7), pp. 7775-779.
Wright, A. (1991). Genetic algorithms for real parameter optimization. the foundation of
genetic, 205–218.
Wu, X., Kumar, V. Q., & McLachlan HMG, N. A. (2008). Top 10 algorithms in data
mining, knowledge and information systems. International Journal of Knowledge and Information
Systems (KAIS), 14(1), pp. 1-37.
Yang, H. H., & Moody, J. (1999). Feature selection based on joint mutual information.
Advances in Intelligent Data Analysis (AIDA), Computational Intellilgence Methods and Applications
(CIMA), International Computer Science Conventions.
Yang, W., Dai, D., & Yan, H. (2006). Generalized discriminant analysis for tumor
classification with gene expression data. Machine Learning and Cybernetics, 1, pp. 4322–4327.
Ye, J. (2005). Characterization of a family of algorithms for generalized discriminant
analysis on undersampled problems. Journal of Machine Learning Research, 6, 483–502.
Ye, J., Li, T., Xiong, T., & Janardan, R. (2004). Using uncorrelated discriminant analysis for
tissue classification with gene expression data. IEEE/ACM Transaction on Computer, Biology
and Bioinformatic, 1(4), pp. 181-190.
Yu, L., & Liu, H. (2004). Efficient feature selection via analysis of relevance and
redundancy. Journal of Machine Learning Research, 5, pp. 1205-1224.
118
Bibliographie
Yu, L., & Liu, H. (2005). Efficient feature selection via analysis of relevance and
redundancy. Journal of Machine Learning Research, 5, pp. 1205-1224.
Yue, F., Wang, K., & Zuo, W. (2007). Informative gene selection and tumor classification
by null space lda for microarray data. ESCAPE, (pp. 435–446).
Zhang, L., Li, Z., & Chen, H. (2007). An effective gene selection method based on
relevance analysis and discernibility matrix. PAKDD, (pp. 1088–1095).
Zhao, W., Chellapa, R., Corporation, S., Rosenfeld, A., & Philips, P. (2000). Face
Recognition: A literature survey. ACM Surveys.
119
Articles journaux :
 A. EL AKADI, A. AMINE, A. EL OUARDIGHI, D. ABOUTAJDINE, "A twostage gene selection scheme utilizing MRMR filter and GA wrapper" Knowledge
And Information Systems, Volume 26, Number 3, 487-500, March 2011
 A. AMINE, A. EL AKADI, M. RZIZA, D. ABOUTAJDINE, "GA-SVM and
mutual information based frequency feature selection for face recognition"
Infocomp, Journal Of Computer Science, vol .8 , n° 1 , pp 20-29 , January 2009
 A. EL AKADI, A. EL OUARDIGHI, D. ABOUTAJDINE, "A powerful feature
selection approach based on mutual information" International Journal Of
Computer Science And Network Security, vol. 8, n° 4, pp 116-121, April 2008
Articles de conférences Internationales :
 A. EL AKADI, A. AMINE, E. ABDELJALIL, D. ABOUTAJDINE, "A novel
information-theoritic measure for face frequency feature selection" ISIVC , 29-2
October 2010, Rabat, MAROC
 A. EL AKADI, A. AMINE, A. EL OUARDIGHI, D. ABOUTAJDINE,
"A new combined approaches-based gene selection for cancer classification" The
International Conference on Software, Knowledge, Information Management and
Application, pp 41-45, 21-23 October 2009, Fès, MOROCCO
 A. EL AKADI, A. AMINE, A. EL OUARDIGHI, D. ABOUTAJDINE,
"A new gene selection approach based on minimum redundancy-maximum
120
Liste des publications
relevance (MRMR) and Genetic Algorithm (GA)", The 7th ACS/IEEE
International Conference on Computer Systems and Applications , pp 69-75 , 1013 May 2009, Rabat, MAROC
 A. EL OUARDIGHI, A. EL AKADI, D. ABOUTAJDINE, "Feature selection on
supervised classification using wilks lambda statistic", IEEE International
Symposium on Computational Intelligence and Intelligent Informatics. , pp 51-57,
28-30 March 2007, Agadir MAROC
Articles de conférences nationales :
 A. EL AKADI, A. EL OUARDIGHI, D. ABOUTAJDINE, "Interaction gain
based measure for feature selection" Cinquième conférence sur les systèmes
intelligents : Théories et applications, 5-6 May 2008, Rabat, MAROC
 A. EL AKADI, S. MOUHIB, A. EL OUARDIGHI " Nouveau critère de sélection
de variables basée sur la théorie d’information", Les 1ères Journées Doctorales
en Technologies de l’Information et de la Communication ( JDTIC'09), 16-18
Juillet 2009, Rabat-Maroc

A. EL AKADI, S. MOUHIB, A. EL OUARDIGHI " Evaluation des scores
dérivés des SVM pour la sélection des variables", Les 1ères Journées Doctorales
en Technologies de l’Information et de la Communication ( JDTIC'09), 16-18
Juillet 2009, Rabat-Maroc
Livres (Chapitre) :
 EL AKADI, A. EL OUARDIGHI, D. ABOUTAJDINE, "Systèmes intelligents:
théories et applications ", Europia, pp 166-176, Juin 2009, France
Téléchargement