UNIVERSITÉ MOHAMMED V – AGDAL FACULTÉ DES SCIENCES Rabat N° d’ordre : 2568 THÈSE DE DOCTORAT Présentée par : Ali El Akadi Discipline : Sciences de l’ingénieur Spécialité : Informatique et Télécommunications Sujet de la thèse : Publiquement défendue le 31/03/2012 devant le jury composé de : Président : Driss ABOUTAJDINE PES, Université Mohammed-V Agdal - Rabat Examinateurs : Boujemâa ACHCHAB PES, Université Hassan 1er - Settat Abderrahim EL QADI PH, Université Moulay Ismaïl - Meknès Raja TOUAHNI PES, Université Ibn Tofail - Kénitra Mohammed ABBAD PES, Université Mohammed-V Agdal - Rabat Ahmed HAMMOUCH PES, Université Mohammed-V Souissi - Rabat Abdeljalil EL OUARDIGHI PH, Université Hassan 1er - Settat Faculté des Sciences, 4 Avenue Ibn Battouta B.P. 1014 RP, Rabat – Maroc Tel +212 (0) 537 77 18 34/35/38, Fax: +212 (0) 537 77 42 61, http://www.fsr.ac.ma i Résumé Le problème de la sélection de variables en classification se pose généralement lorsque le nombre de variables pouvant être utilisé pour expliquer la classe d'un individu, est très élevé. Les besoins ont beaucoup évolué ces dernières années avec la manipulation d'un grand nombre de variables dans des domaines tels que les données génétiques ou le traitement d’image. Néanmoins si l’on doit traiter des données décrites par un grand nombre de variables, les méthodes classiques d’analyse, d’apprentissage ou de fouille de données peuvent se révéler inefficaces ou peuvent conduire à des résultats peu précis. Dans cette thèse, nous proposons des méthodes innovantes pour réduire la taille initiale des données et pour sélectionner des ensembles de variables pertinents pour une classification supervisée. Notre première contribution concerne la proposition d’une approche hybride pour la sélection de gènes dans le cadre de la classification de différents types de tumeurs (reconnaissance tissu sain/tissu cancéreux ou distinction entre différents types de cancers). Cette approche est basée sur la combinaison de l’algorithme MRMR (redondance minimal-pertinence maximale) et d’une recherche génétique utilisant un classifieur SVM (Support Vector Machine) pour l’évaluation de la pertinence des sous-ensembles candidats. Les performances de notre approche ont été évaluées sur 5 jeux de données publiques du domaine de l’oncologie. Notre deuxième contribution porte sur une nouvelle approche de sélection des caractéristiques pour la reconnaissance faciale. Au début, la transformée en DCT (Discret Cosine Transform) est appliquée pour convertir l'image en domaine fréquentiel, ensuite une première réduction de la dimensionnalité est opérée par le rejet des composant à haute fréquence. Enfin, un nouveau critère appelé PMI (Ponderated Mutual Information) est utilisé pour sélectionner les coefficients les plus pertinents et moins redondants à partir des coefficients DCT. L’évaluation des performances de l’approche proposée, en particulier le critère PMI, a été effectuée sur une base d’images constituée d’un mélange de deux bases publiques ORL et YALE. Les différentes expérimentations que nous avons menées montrent de très bonnes performances des approches proposées, surtout pour la sélection des gènes. Mots-clés : Sélection de variables, Classification supervisée, Puces à ADN, Information mutuelle, Algorithmes génétiques, Reconnaissance faciale, Transformé en cosinus discret. ii Abstract The problem of feature selection for classification is generally arises when the number of features is large. Needs have changed significantly in recent years with the handling of a large number of features in areas such as genetic data or image processing. However if we must treat the data described by many features, the classical methods of analysis, learning or data mining may be ineffective or may lead to imprecise results. In this thesis, we propose innovative methods to reduce the size of initial data and to select relevant sets of features for supervised classification. Our first contribution concerns the proposal of a hybrid approach for gene selection in classification of different tumor types (recognition of healthy/cancer tissue or distinguish between different types of cancers). This approach is based on the combination of the MRMR algorithm (Minimum Redundancy-Maximum Relevance) and genetic research using SVM (Support Vector Machine) to evaluate the relevance of candidate subsets. The proposed method was tested for tumor classification on five open datasets. Our second contribution concerns a new feature selection approach for face recognition. At first, the DCT (Discrete Cosine Transform) is applied to convert the image into frequency domain, then a first dimensionality reduction is carried out by the elimination of the high-frequency component. Finally, a new criterion called PMI (Ponderated Mutual Information) is used to select the most relevant and less redundant coefficients from the DCT coefficients. Evaluation of the proposed approach, in particular PMI criterion, was performed on a mixture of two public face databases ORL and YALE. Experimental results show that the proposed approaches have very good performances. Keywords: Feature selection, Classification, microarray data, Mutual information, Genetic Algorithms, Face Recognition, Discrete Cosine Transform iii Les travaux de recherche présentés dans cette thèse ont été effectués au sein du Laboratoire de Recherche en Informatique et Télécommunications (LRIT) à la Faculté des Sciences de Rabat (FSR). Je tiens à exprimer mes sincères remerciements : Au Professeur Driss Aboutajdine, mon Directeur de thèse et Directeur du LRIT. Sans l’environnement de recherche qu’il a su créer, je n’aurais pas pu me lancer dans la préparation de cette thèse. Au Professeur Abdeljalil El Ouardighi mon encadrant de thèse pour son suivi, ses recommandations, sa patience et sa disponibilité tout au long de cette thèse. Au Professeur Boujemâa Achchab de la Faculté des Sciences Economiques, Juridiques et Sociales de Settat et au Professeur Abderrahim El Qadi de l’Ecole Supérieure de Technologie de Meknès, qui ont accepté de juger ce travail et d’en être les rapporteurs et qui m’ont fait l’honneur d’être parmi les membres du Jury. Au professeur Raja Touahni de la Faculté des Sciences de Kénitra, au Professeur Mohammed Abbad de la Faculté des Sciences de Rabat et au Professeur Ahmed Hammouch de l’ENSET de Rabat, qui ont bien accepté de faire partie du jury. Enfin, je voudrais exprimer mes plus profonds remerciements à ma mère, à ma femme, à mes enfants, à ma famille et à ma belle-famille pour leurs sentiments, leurs soutiens et leurs encouragements pendant tout le temps où j’ai effectué cette thèse. Un grand merci à tous ! iv Tables des matières Résumé .................................................................................................................................................. i Abstract ................................................................................................................................................. ii Avant-propos ........................................................................................................................................ iii Tables des matières ............................................................................................................................. iv Liste des abréviations .......................................................................................................................... vi Liste des figures ................................................................................................................................. viii Liste des tableaux ................................................................................................................................ ix Introduction générale ..........................................................................................................................10 Chapitre 1. Fouille de données et classification ............................................................................15 1.1 Introduction .................................................................................................................................................... 16 1.2 Fouille de données ......................................................................................................................................... 16 1.2.1 Définitions ............................................................................................................................................ 17 1.2.2 Processus d’extraction de connaissances ......................................................................................... 18 1.2.3 Tâches de la fouille de données......................................................................................................... 20 1.3 Classification ................................................................................................................................................... 21 1.3.1 Buts et modalités de la classification ................................................................................................ 22 1.3.2 La classification, un domaine multidisciplinaire ............................................................................. 23 1.4 La classification non supervisée .................................................................................................................. 25 1.4.1 Les méthodes hiérarchiques ............................................................................................................... 26 1.4.2 Le partitionnement .............................................................................................................................. 27 1.5 La classification supervisée........................................................................................................................... 29 1.5.1 Formalisation mathématique ............................................................................................................. 29 1.5.2 Le problème de la généralisation....................................................................................................... 29 1.5.3 Les techniques de la classification supervisée ................................................................................. 32 1.6 Conclusion ...................................................................................................................................................... 42 Chapitre 2. Sélection de variables pour la classification supervisée ............................................. 43 2.1 Introduction .................................................................................................................................................... 44 2.2 Pertinence et redondance de variables ....................................................................................................... 44 2.2.1 Pertinence de variables ....................................................................................................................... 46 v 2.2.2 2.3 Redondance de variables .................................................................................................................... 46 Sélection de variables .................................................................................................................................... 48 2.3.1 La sélection vue comme un problème d’optimisation .................................................................. 49 2.3.2 Processus global de la sélection de variables .................................................................................. 50 2.3.3 Génération des sous-ensembles de variables .................................................................................. 51 2.3.4 Evaluation des sous-ensembles ......................................................................................................... 54 2.3.5 Critère d’arrêt........................................................................................................................................ 57 2.4 Principaux algorithmes existants ................................................................................................................. 58 2.4.1 Les algorithmes d’ordonnancement de variables ........................................................................... 58 2.4.2 Les algorithmes de construction du plus petit sous-ensemble de variables .............................. 58 2.4.3 Sélection de variables par information mutuelle ............................................................................ 60 2.5 Conclusion ...................................................................................................................................................... 65 Chapitre 3. Contribution à la sélection de gènes pour les puces à ADN ...................................... 66 3.1 Introduction .................................................................................................................................................... 67 3.2 Technologie des puces à ADN .................................................................................................................... 68 3.3 Sélection des gènes pour les puces à ADN ............................................................................................... 69 3.4 L’approche proposée ..................................................................................................................................... 70 3.4.1 Structure générale de l’approche proposée ..................................................................................... 70 3.4.2 Filtrage des gènes par l’algorithme MRMR ..................................................................................... 71 3.4.3 Sélection des sous-ensembles pertinents par Algorithme Génétique ......................................... 73 3.4.4 Expérimentations ................................................................................................................................. 78 3.5 Conclusion ...................................................................................................................................................... 87 Chapitre 4. Contribution à la sélection de variables pour la reconnaissance faciale .................... 88 4.1 Introduction .................................................................................................................................................... 89 4.2 La reconnaissance faciale .............................................................................................................................. 90 4.2.1 Dimensionnalité de l'espace visage ................................................................................................... 90 4.2.2 Principe de fonctionnement d’un système de reconnaissance de visage ................................... 91 4.2.3 Méthodes de reconnaissance faciale ................................................................................................. 92 4.3 Approche proposée ....................................................................................................................................... 94 4.3.1 Extraction des caractéristiques par DCT......................................................................................... 95 4.3.2 Sélection des caractéristiques utilisant le critère PMI .................................................................... 96 4.3.3 Expérimentations ................................................................................................................................. 98 4.4 Conclusion .................................................................................................................................................... 103 Conclusion générale et perspectives .................................................................................................. 105 Bibliographie ..................................................................................................................................... 108 Liste des publications ........................................................................................................................ 119 vi Liste des abréviations ABB Automatic Branch and Band ACP Analyse en Composante Principale ADALINE ADAptive LInear NEuron ADN Acide DésoxyriboNucléique AG Algorithme Génétique ALL Acute Lymphoblastic Leukemia AML Acute Myeloid Leukemia BE Backward Elimination BN Baysien Naïf CART Classification And Regression Tree CHAID CHi-squared Automatic Interaction Detector CMIM Conditional Mutual Information Maximisation DCT Discret Cosine Transform DNA Deoxyribose Nucleic Acid DTM Decision Tree Method ECD Extraction de Connaissances à partir des Données FS Forward Selection GA Genetic Algorithm KDD Knowledge Discovery in Databases LBP Local Binary Pattern KNN K-Nearest Neighbor LDA Linear Discriminant Analysis LOOCV Leave-One-Out Cross Validation LVF Las Vegas Filter LVW Las Vegas Wrapper MIFS Mutual Information Feature Selector MPM Malignant Pleural Mesothelioma vii MRMR Minimum Redundancy Maximum Relevance NCI National Cancer Intitute NSCLC Non Small Cell Lung Cancer PMI Ponderated Mutual Information PSO Particle Swarm Optimization SIFT Scale Invariant Feature Transform SVM Support Vector Machine viii Liste des figures Figure 1-1 : Différentes étapes du processus ECD ...................................................................................................... 18 Figure 1-2 : Représentation d’un réseau de neurones multicouches ......................................................................... 36 Figure 1-3 : Représentation de l’hyperplan séparant linéairement les données dans l’espace des variables....... 40 Figure 2-1 : Catégorisation des variables ........................................................................................................................ 48 Figure 2-2 : Processus de sélection de variables ........................................................................................................... 50 Figure 2-3 : Sous-ensembles de variables possibles à partir d’un ensemble de 4 variables ................................... 53 Figure 2-4 : Digramme de Venn ...................................................................................................................................... 61 Figure 3-1 : Schéma général de l’approche MRMR-GA ............................................................................................. 71 Figure 3-2 : Eléments d’un algorithme génétique ......................................................................................................... 75 Figure 3-3 : Croisement à 1 point. ................................................................................................................................... 77 Figure 3-4 : Exemple de mutation en 3 points.............................................................................................................. 78 Figure 3-5 : Taux de classification par un classifieur SVM pour les données Lymphoma .................................... 82 Figure 3-6 : Taux de classification par un classifieur SVM pour les données NCI ................................................ 82 Figure 3-7 : Taux de classification par un classifieur SVM pour les données Lung ............................................... 82 Figure 3-8 : Taux de classification par un classifieur SVM pour les données Leukemia ....................................... 82 Figure 3-9 : Taux de classification par un classifieur SVM pour les données Colon ............................................. 82 Figure 3-10 : Moyenne du taux de classification par un classifieur SVM pour toutes les données ..................... 82 Figure 3-11 : Taux de classification par un classifieur BN pour les données Lymphoma .................................... 83 Figure 3-12 : Taux de classification par un classifieur BN pour les données NCI ................................................. 83 Figure 3-13 : Taux de classification par un classifieur BN pour les données Leukemia ....................................... 83 Figure 3-14 : Taux de classification par un classifieur BN pour les données Lung................................................ 83 Figure 3-15 : Taux de classification par un classifieur BN pour les données Colon .............................................. 83 Figure 3-16 : Moyenne du taux de classification par un classifieur BN pour toutes les données ........................ 83 Figure 4-1 : Schéma général de reconnaissance de visage ........................................................................................... 91 Figure 4-2 : Schéma général de l’approche proposée................................................................................................... 94 Figure 4-3 : Passage du domaine spatial au domaine fréquentiel............................................................................... 96 Figure 4-3 : Diagramme de Venn pour trois variables ................................................................................................ 97 Figure 4-4 : Exemples de la base des visages (ORL+YALE) .................................................................................... 99 Figure 4-5 : Comparaison des critères de sélection en utilisant un classifieur SVM ............................................ 102 Figure 4-6 : Comparaison des critères de sélection en utilisant un classifieur LDA ............................................ 102 ix Liste des tableaux Tableau 3-1 : Matrice d’expression des gènes ............................................................................................................... 68 Tableau 3-2 : Caractéristiques des jeux de données ..................................................................................................... 79 Tableau 3-3 : Paramètre de l’algorithme génétique ...................................................................................................... 80 Tableau 3-4 : Taux de classification (%) sans sélection de gènes .............................................................................. 81 Tableau 3-5 : Taux de classification (%) avec 15 premiers gènes sélectionnés pour les 5 jeux de données ...... 84 Tableau 3-6 : Moyenne du taux de classification (%) sur l’ensemble de données pour un nombre différent de gènes sélectionnés ....................................................................................................................................... 84 Tableau 3-7 : Comparaison avec d’autres approches ................................................................................................... 86 Tableau 4-1 : Représentation matricielle de la base des images (visages) ............................................................... 100 Tableau 4-2 : Taux de classification sans sélection de caractéristiques ................................................................... 101 Tableau 4-3 : Taux de reconnaissance (%) pour différents critères de sélection des caractéristiques .............. 103 Contexte de travail : Cette thèse s’inscrit dans le cadre de l’Extraction de Connaissances à partir des Données (ECD), domaine connu sous le nom de Knowledge Discovery in Databases en anglais (KDD). Il s’agit d’une discipline qui se situe à l’intersection de différents domaines tels que l’informatique, l’intelligence artificielle, l’analyse de données, les statistiques et la théorie des probabilités. L’ECD est appelé communément fouille de données ou datamining et a pour objectif l’extraction d’un savoir ou d’une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques, et l’utilisation industrielle ou opérationnelle de ce savoir. La finalité de l’ECD est de pouvoir traiter des données brutes et volumineuses, et à partir de ces données établir des connaissances directement utilisables par un expert du domaine étudié. Cependant, le processus d’ECD ne se passe pas sans encombre. De nos jours, l’évolution de l’informatique et des technologies de stockage connait une explosion de volumes des données. Il est maintenant possible d’analyser de grandes quantités de données de dimension élevée grâce aux performances accrues des ordinateurs. Néanmoins si l’on doit traiter des données décrites par un très grand nombre de variables, les méthodes classiques d’analyse, d’apprentissage ou de fouille de données peuvent se révéler inefficaces ou peuvent conduire à des résultats inexacts. De ce fait, il est nécessaire de réduire la dimension des données en sélectionnant les variables les plus intéressantes pour le problème étudié (John, et al., 1994); (Blum & Langly, 1997); (Dash & Liu, 2006); (Cios, et al., 2007). La sélection de variables consiste à choisir parmi l’ensemble global de variables, un sousensemble de variables pertinentes pour le problème étudié. Cette problématique peut concerner différentes tâches de fouille de données, mais dans notre cas, nous traitons 11 uniquement la sélection de variables réalisée en classification supervisée qui consiste à déterminer, sur une base d’un nombre fini d’individus, la relation entre un ensemble de variables explicative et une variable à expliquer qui s’appelle la classe. Motivations et objectifs : Au début des années 90, la majorité des travaux sur la sélection de variables portait sur des domaines souvent décrits par quelques dizaines de variables. Ces dernières années, de par l’accroissement des capacités de recueil, de stockage et de manipulation des données, la situation a beaucoup changé. Il n’est plus rare de rencontrer dans certains domaines, en particulier en bio-informatique, en traitement d’image et en fouille de textes, des centaines voire des milliers de variables. Par conséquent, de nouvelles techniques de sélection de variables sont apparues pour tenter d’aborder ce changement d’échelle et de traiter notamment la prise en compte des variables redondantes et des variables non pertinentes. Plusieurs domaines qui intéressent beaucoup la communauté de la fouille de données fournissent des données qui sont décrites par des milliers de variables. C’est le cas par exemple pour le traitement des textes dont les applications issues du web sont très nombreuses. C’est aussi le cas lorsqu’on veut analyser des images de haute résolution. Enfin un domaine plus récent, celui de la bio-informatique fournit également des données de très grande dimension où il n’est pas rare d’avoir à manipuler plusieurs milliers de variables. Dans cette thèse, les domaines qui ont stimulé notre intérêt pour la problématique de la sélection de variables en vue d’une classification sont la bio-informatique, notamment la génétique, et le traitement d’image, notamment la reconnaissance faciale. Pour les données génétiques, les variables représentent l’expression de gènes à ADN par leur séquence biologique de nucléotides pour un certain nombre de patients. Une classification typique est la séparation des patients sains des patients atteints d’une certaine pathologie basée sur leur « profil génétique ». Dans ce type de jeu assez difficile à construire, on ne possède souvent guère plus de 100 patients pour constituer un jeu d’apprentissage et un jeu de test ; en revanche, le nombre de variables manipulées peut varier de 2000 à 60000. En ce qui concerne la reconnaissance faciale, les individus manipulés sont des images et les variables 12 Introduction générale sont des caractéristiques extraites de ces images. Dans ce type d’application le nombre de caractéristiques est souvent très élevé et dépend de la technique d’extraction utilisée. Contribution de la thèse : Dans les domaines d’analyse des puces à ADN ou de traitement d’images, les données présentent plusieurs variables, ce qui nécessite de proposer des méthodes innovantes pour la sélection des variables les moins redondantes et les plus pertinentes pour accomplir la tâche de classification. Ainsi, nous proposons deux nouvelles méthodes pour réaliser au mieux cette sélection. Pour la sélection des gènes à ADN nous avons proposé une approche hybride (El Akadi, et al., 2011) pour la sélection d’un sous ensemble de gènes optimal non redondant et fournissant de bonnes performances en classification. L’approche proposée est basée sur la combinaison de la méthode de filtrage MRMR pour Minimum Redundancy–Maximum Relevance (Peng, et al., 2005) et d’une méthode de type enveloppe « wrapper » basée sur une stratégie de recherche utilisant un algorithme génétique (AG) et le classifieur SVM pour l’évaluation des sous-ensembles candidats. Cette approche peut être considérée comme un processus séquentiel en deux étapes qui utilise des techniques complémentaires pour réduire graduellement l’espace de recherche et sélectionner un sous ensemble pertinent de gènes. Etape 1 : C’est une étape de prétraitement permettant de filtrer les gènes qui ne sont pas informatifs et d’éliminer les gènes redondants, par exemple des gènes dont les niveaux d’expression sont uniformes quelle que soit la classe. Le résultat de ce prétraitement est un ensemble de gènes classés par ordre de pertinence selon le critère MRMR. Il s’agit d’une étape préliminaire pour la réduction des données de puces à ADN. Etape 2 : Cette étape se traduit par l’utilisation d’une méthode enveloppe où un algorithme génétique explore, à partir des gènes retenus par le pré-filtrage précédent, des sous-ensembles candidats et chaque candidat est évalué grâce à un classifieur SVM. Le taux de classification indique si le sous-ensemble candidat permet une bonne discrimination des classes. 13 Pour la sélection des caractéristiques permettant une meilleure reconnaissance faciale nous avons proposé un nouveau critère de sélection basé sur la théorie d’information appelé PMI pour Ponderated Mutual Information (El Akadi, et al., 2010). Le critère proposé est combiné avec la transformée en cosinus discret (DCT) pour sélectionner les caractéristiques permettant d’obtenir les meilleurs taux de classification. Au début, la transformée en DCT est appliquée pour convertir l'image en domaine fréquentiel, ensuite une première réduction de la dimensionnalité est opérée par le rejet des composants à haute fréquence. Enfin, le critère PMI est utilisé pour sélectionner les caractéristiques discriminantes à partir des coefficients DCT. Organisation du manuscrit : Ce document est structuré en quatre chapitres. Les deux premiers ont pour objectif d’exposer le contexte et la problématique de la sélection de variables ainsi que les travaux effectués dans cet essor. Les deux derniers chapitres sont dédiés à nos contributions dans ce sujet. Chapitre 1 : dans ce chapitre nous introduisons et nous exposons les techniques de fouille de données et de la classification. Nous mettons l’accent sur la classification supervisée et particulièrement sur les algorithmes qui seront utilisés dans les chapitres qui suivent. Chapitre 2 : ce chapitre est consacré à la présentation des concepts de base d’un problème de sélection de variables et les notions nécessaires à la construction d’un algorithme de sélection de variables. Nous définissons les différentes procédures de génération que nous trouvons dans la littérature ainsi que les différentes mesures de pertinence rencontrées. Nous illustrons les principaux algorithmes de sélection de variables existants et plus particulièrement les algorithmes utilisant l’information mutuelle, mesure qui a été adoptée dans les approches que nous avons proposées. Chapitre 3 : dans ce chapitre nous présentons note première contribution relative à la sélection de gènes pour les puces à ADN. Tout d’abord nous introduisons la technologie des puces à ADN et nous montrons l’importance et la nécessité de la sélection de variables dans ce domaine. Ensuite nous présentons notre approche hybride basée sur un filtrage des gènes par l’algorithme MRMR et utilisant un algorithme génétique pour la recherche des sous-ensembles les plus pertinents en définissant tous les points nécessaires à son 14 Introduction générale implémentation. Nous présentons enfin les performances, de l’approche proposée, obtenues sur des bases de données d’oncologie. Chapitre 4 : ce chapitre traite le problème d’extraction et de sélection des caractéristiques pour la reconnaissance faciale. Nous présentons un nouveau critère basé sur la théorie d’information permettant de sélectionner les caractéristiques discriminantes à partir des coefficients DCT. Enfin nous présentons les résultats expérimentaux pour l’évaluation de l’approche proposée. Nous terminons cette thèse par une synthèse de nos différentes contributions, et nous donnons quelques perspectives qui peuvent donner suite à ces travaux. Chapitre 1. Fouille de données et classification .................................................................... 15 1.1 Introduction ...................................................................................................................................16 1.2 Fouille de données ........................................................................................................................16 1.2.1 Définitions ............................................................................................................................17 1.2.2 Processus d’extraction de connaissances..........................................................................18 1.2.3 Tâches de la fouille de données .........................................................................................20 1.3 Classification ..................................................................................................................................21 1.3.1 Buts et modalités de la classification .................................................................................22 1.3.2 La classification, un domaine multidisciplinaire ..............................................................23 1.4 La classification non supervisée ..................................................................................................25 1.4.1 Les méthodes hiérarchiques ...............................................................................................26 1.4.2 Le partitionnement ..............................................................................................................27 1.5 La classification supervisée ..........................................................................................................29 1.5.1 Formalisation mathématique..............................................................................................29 1.5.2 Le problème de la généralisation .......................................................................................29 1.5.3 Les techniques de la classification supervisée..................................................................32 1.6 Conclusion......................................................................................................................................42 16 Chapitre 1: Fouille de données et classification 1.1 Introduction La fouille de données (ou datamining) consiste à rechercher et à extraire de l'information, utile et inconnue, à partir de gros volumes de données stockées dans des bases ou des entrepôts de données. Le développement récent de la fouille de données (depuis le début des années 1990) est lié à plusieurs facteurs : une puissance de calcul importante est disponible sur les ordinateurs ; le volume des bases de données augmente énormément ; l'accès aux réseaux de taille mondiale, ces réseaux ayant un débit sans cesse croissant, qui rendent le calcul distribué et la distribution d'information sur échelle mondiale variable. La fouille de données a aujourd'hui une grande importance économique du fait qu'elle permet d'optimiser la gestion des ressources humaines et matérielles. La classification est la tâche la plus importante de la fouille de données et consiste à examiner des caractéristiques d’un objet afin de l’affecter à une classe d’un ensemble donné. 1.2 Fouille de données Depuis quelques années, une masse grandissante de données sont générées de toute part par les entreprises, que ce soit des données bancaires, telles que les opérations de carte de crédit, ou bien des données industrielles, telles que des mesures de capteurs sur une chaîne de production, ou toutes autres sortes de données possibles et imaginables. Ce flot continu et croissant d’informations peut être maintenant stocké et préparé à l’étude, grâce aux nouvelles techniques d’entrepôt de données (ou data wharehouse). Les techniques usuelles d’analyse de données, développées pour des tableaux de tailles raisonnables ont largement été mises à mal lors de l’étude de tant de données. En effet, alors que le principal objectif de la statistique est de prouver une hypothèse avancée par un expert du domaine, et donc de confirmer une connaissance déjà connue ou bien présumée, le but de la fouille de données est maintenant de découvrir, au sens propre du terme, des nouvelles connaissances. Et ceci sans faire appel à des hypothèses préconçues. Ce nouveau concept de fouille de données, bien qu’il paraît révolutionnaire pour certains, est en fait une autre vision et une autre utilisation de méthodes existantes, et combinées. 17 Ainsi, au vue de l’émergence de ces deux champs d’application (fouille et entrepôt de données), une idée nouvelle s’est faite. Pourquoi ne pas associer toutes ces techniques afin de créer des méthodes puissantes de recherche de connaissances, intégrant toutes les étapes, du recueil des données à l’évaluation de la connaissance acquise. C’est ainsi qu’est né le terme d’Extraction des Connaissances à partir des Données (ECD), ou en anglais Knowledge Discovery in Database (KDD). 1.2.1 Définitions L’extraction de connaissances à partir de données consiste à parcourir d’immenses volumes de données contenus dans une base, à la recherche de connaissances. C’est une discipline qui se situe à l’intersection de différents domaines tels que l’informatique, l’intelligence artificielle, l’analyse de données, les statistiques, la théorie des probabilités, l’optimisation, la reconnaissance de formes, les bases de données et l’interaction Homme-Machine,… Il est ici important de différencier les trois termes suivants : Donnée : valeur d’une variable pour un objet (comme le montant d’un retrait d’argent par exemple) ; Information : résultat d’analyse sur les données (comme la répartition géographique de tous les retraits d’argent par exemple) ; Connaissance : information utile pour l’entreprise (comme la découverte du mauvais emplacement de certains distributeurs). Ainsi à l’aide de l’ECD, nous pouvons à partir de données sur lesquelles nous ne faisons aucune hypothèse, obtenir des informations pertinentes, et de celles-ci, tirer des connaissances. Fayyad (Fayyad, et al., 1996) donne une définition de l’ECD, que la communauté scientifique francophone traduit de la manière suivante : L’ECD est le processus non trivial, interactif et itératif qui permet d’identifier des modèles valides, nouveaux, potentiellement utiles et compréhensibles à partir de bases de données massives. 18 Chapitre 1: Fouille de données et classification 1.2.2 Processus d’extraction de connaissances Le terme processus signifie que l’ECD se décompose en plusieurs opérations (voir Figure 1-1). Evaluation Connaissances Data Mining Modèles Transformation Données transformées Données préparées Préparation Sélection Données sélectionnées Données brutes Figure 1-1 : Différentes étapes du processus ECD Ces opérations peuvent être regroupées en cinq phases majeures : Compréhension du domaine étudié : Lors de cette phase, une analyse du problème et des contraintes qui lui sont attachées doit permettre la collecte de données brutes. Ces données se composent d’individus ou objets et des variables qui leurs sont associées et qui doivent permettre de décrire au mieux le problème traité. L’utilisateur ne sait pas encore si les données qu’il a réunies seront toutes adaptées à son problème ni si ces données seront suffisantes. Nous sommes en présence des données initiales. Prétraitement : Lors de cette phase, un prétraitement est effectué à la fois sur les individus et sur les variables. Cette phase de prétraitement consiste à nettoyer les 19 données, les mettre en forme, traiter les données manquantes, échantillonner les individus, sélectionner et construire des variables. On obtient ainsi un ensemble de données cibles. Cette phase a une place importante au sein du processus d’ECD car c’est elle qui va déterminer la qualité des modèles construits lors de la phase de fouille de données. Elle peut prendre jusqu’à 60% du temps dédié au processus d’ECD. Fouille de données : Cette phase intègre le choix de la méthode d’apprentissage qui va être employée et son paramétrage. Ces choix doivent tenir compte des contraintes liées au domaine étudié ainsi que des connaissances que les experts du domaine peuvent nous fournir. L’algorithme sélectionné est alors appliqué aux données cibles dans le but de rechercher les structures sous-jacentes des données et de créer des modèles explicatifs ou prédictifs. Certes la fouille de données n’est qu’une étape du processus de l’ECD, mais elle est sans conteste le cœur et le moteur de tous ce processus. Post traitement : Cette phase consiste en l’évaluation et la validation des modèles construits lors de la phase précédente. Ce n’est qu’après cette phase que les données et l’information que l’on en a tirée deviennent des connaissances. Interprétation et exploitation des résultats : L’interprétation des résultats qui sont sous forme de modèles ou de règles permet d’obtenir des connaissances. Ce sont ces connaissances qui seront fournies à l’utilisateur. La finalité de l’ECD est de pouvoir traiter des données brutes et volumineuses, et à partir de ces données, d’établir des connaissances directement utilisables par un expert ou un non expert du domaine étudié. Les techniques d’ECD deviennent de plus en plus prisées au sein du monde industriel. En effet, les promesses de l’ECD en terme de valorisation de l’information ne peuvent laisser insensibles les acteurs industriels. Tout d’abord parce que l’information apparaît, de nos jours, comme un élément stratégique déterminant. Ensuite parce que les avancées technologiques en informatique permettent d’augmenter les capacités de stockage et de calcul. Ainsi, si l’on considère comme exemple l’ensemble des tickets de caisse d’un supermarché sur une période 10 ans, il est aisé d’imaginer la quantité de données présentes, la diversité des caractéristiques, et donc la difficulté conséquente d’une exploitation de 20 Chapitre 1: Fouille de données et classification l’information présente. Pourtant, on dispose là d’une immense source d’information, à savoir une quantité suffisamment importante de données pour établir une classification pertinente de la clientèle ainsi que son comportement typique. Le processus d’ECD résout de manière efficace ces difficultés et fournit les connaissances attendues. 1.2.3 Tâches de la fouille de données Le choix des techniques de fouille de données à appliquer dépend de la tâche particulière à accomplir et des données disponibles pour l’analyse. La première étape consiste à traduire un objectif en une ou plusieurs tâches. Les principales tâches de fouille de données sont : La classification (classification supervisé): consiste à examiner des caractéristiques d’un objet afin de l’affecter à une classe d’un ensemble prédéfini. Les classes sont discrètes ; L’estimation : permet d’obtenir une variable continue en combinant les données en entrée. L’estimation est souvent utilisée pour effectuer une tâche de classification en utilisant un barème ; La prédiction : ressemble à la classification et à l’estimation, mais les enregistrements sont classés selon un certain comportement futur prédit ou à une valeur future estimée. s’appuie sur le passé et le présent mais son résultat se situe dans un futur généralement précisé. Le regroupement par similitudes : consiste à déterminer les objets qui vont naturellement ensemble ; La segmentation (classification automatique) : consiste segmenter une population hétérogène en sous-populations homogènes. Contrairement à la classification, les sous populations ne sont pas préétablis La description : il s’agit de décrire les données d’une base complexe. Cette tâche engendre souvent une exploitation supplémentaire en vue de fournir des explications. 21 Une fois les tâches identifiées, elles sont utilisées pour restreindre la gamme des méthodes prises en compte. En termes généraux, notre but est de sélectionner la technique de fouille de données qui minimise le nombre et la difficulté des transformations de données qui doivent être effectuées pour produire de bons résultats. Les données brutes peuvent demander différentes manières d’être résumées, les valeurs manquantes doivent être traitées, les données redondantes ou non pertinentes doivent être éliminées. Ces transformations sont nécessairement indépendantes de la technique choisie. 1.3 Classification La classification est l’une des techniques les plus anciennes d’analyse et de traitement de données. Plusieurs définitions ont été proposées par les spécialistes du domaine : Pour Mari et Napoli (Mari & Napoli, 1996): "Effectuer une classification, c'est mettre en évidence des relations entre des objets, et entre ces derniers et leurs paramètres". Un problème de classification selon Henriet (Henriet, 2000): "consiste à affecter des objets, des candidats, des actions potentielles à des catégories ou des classes prédéfinies". Michie et al. (Michie, et al., 1994) ont un point de vue axé sur l'apprentissage, ils définissent la classification par : "La classification est l'action de regrouper en différentes catégories des objets ayant certains points communs ou faisant partie d'un même concept, sans avoir connaissance de la forme ni de la nature des classes au préalable, on parle alors de problème d'apprentissage non supervisé ou de classification automatique, ou l'action d'affecter des objets à des classes prédéfinies, on parle dans ce cas d'apprentissage supervisé ou de problème d'affectation" . Retenons aussi la définition de Bognar (Bognar, 2003): "Le processus de classification cherche à mettre en évidence les dépendances implicites qui existent entre les objets, les classes entre elles, les classes et les instances. La classification recouvre les processus de reconnaissance de la classe d'un objet, et l'insertion éventuelle d'une classe dans une hiérarchie. Ce mode de raisonnement permet de 22 Chapitre 1: Fouille de données et classification reconnaître un objet en identifiant ses caractéristiques, relativement à la hiérarchie étudiée. La classification fait intervenir un processus de décision d'appartenance" Nous présentons dans cette section certaines distinctions relatives à la classification, et nous précisons des éléments de terminologie à ce champ multidisciplinaire. Nous détaillons, plus particulièrement, les méthodes de la classification supervisée qui seront utilisées dans les problématiques traitées dans ces travaux de thèse. 1.3.1 Buts et modalités de la classification La classification repose sur des objets à classer. Les objets sont localisés dans un espace de variables (ont dit aussi attributs, caractéristiques ou critères). Il s’agit de les localiser dans un espace de classes. Ce problème n’a de sens que si on pose l’existence d’une correspondance entre ces deux espaces. Résoudre un problème de classification, c’est trouver une application de l’ensemble des objets à classer, décrits par les variables descriptives choisies, dans l’ensemble des classes. L’algorithme ou la procédure qui réalise cette application est appelé classifieur. Nous appellerons : classificateur : une règle établie (estimée) de classification, c’est-à-dire une fonction sur l’espace des caractéristiques vers l’espace des classes ; classification : la construction d’un classificateur ; classement : la mise en œuvre d’un classificateur existant. Généralement, l’inférence statistique traditionnelle peut couvrir plusieurs problématiques : exploratoire : déceler des relations hypothétiques ; prédictive : valider la performance globale d’un système de relations ; explicative : valider des composantes détaillées d’un système de relations· comprendre leurs contributions à ce système. On retrouve des distinctions voisines en classification : On appelle classification automatique, ou non supervisée, un ensemble de problématiques où l’espace des classes n’est pas spécifié à l’avance. Il s’agit 23 d’identifier, voire de construire, un système de classes sur la base d’observations dans l’espace des caractéristiques. On appelle classification supervisée un contexte où un ensemble de classes (et une structure sur cet ensemble) est spécifié à l’avance. 1.3.2 La classification, un domaine multidisciplinaire La classification a fait l’objet de plusieurs travaux dans différents domaines de recherche. Nous allons en particulier discuter des liens que la classification entretient avec la statistique, la programmation mathématique, l’apprentissage automatique et l’aide multicritère à la décision. 1.3.2.1 Classification et statistique Les méthodes statistiques sont les techniques les plus anciennes pour la résolution des problèmes de classification supervisée. Elles sont issues de l’analyse des données : Elles supposent l’existence d’un modèle probabiliste décrivant les données. L’objectif de ces méthodes est ainsi de caractériser ce modèle. La littérature nous offre une multitude de méthodes et d’applications statistiques (Duda, et al., 2001). L’objectif de ce type de techniques est d’arriver à classer de nouveaux cas, en réduisant le taux d’erreurs de classification. Selon (Weiss & Kulikowski, 1991), ces méthodes ont fait leurs preuves pour des données assez simples. Avec le développement de la théorie statistique d’apprentissage, de nouvelles méthodes de classification s’appuyant sur la théorie statistique et se basant sur l’apprentissage sont nées. 1.3.2.2 Classification et programmation mathématique La programmation mathématique dans un premier temps, a été utilisée en classification automatique (Hansen & Jaumard, 1997). Le problème de partitionnement est souvent formulé comme un programme mathématique. Le nombre de classes de la partition est donné à l’avance. 24 Chapitre 1: Fouille de données et classification L’objectif à optimiser peut refléter un souci d’homogénéité intra-classe ou de différenciation interclasses. La résolution fait appel à une variété de techniques de programmation mathématique discrètes, exactes ou heuristiques. En classification supervisée, la programmation mathématique a été utilisée pour optimiser la capacité prédictive du classificateur à construire. Des formes d’approximations très variées ont été proposées, incorporant parfois une mesure d’erreurs empirique, parfois des repères paramétrés, etc. Toutefois, la contribution de la programmation mathématique est beaucoup plus importante en classification automatique qu’en classification supervisée. 1.3.2.3 Classification et apprentissage automatique Vincent (Vincent, 2003) définit l’apprentissage automatique par «une tentative de comprendre et de reproduire l’habileté humaine d’apprendre de ses expériences passées et de s’adapter dans les systèmes artificiels». Par apprentissage, on entend la capacité de généraliser et de résoudre de nouveaux cas à partir des connaissances mémorisées et des expériences réussies dans le passé. Appelé souvent la branche connexionniste de l’intelligence artificielle, l’apprentissage automatique puisait initialement ses sources en neurosciences. Au cours des dernières années, il s’est détaché de ses origines pour faire appel à des théories et outils d’autres disciplines : théorie de l’information, traitement du signal, programmation mathématique, statistique (Vincent, 2003). Des préoccupations convergentes en analyse de données ont donné naissance à la théorie de l’apprentissage statistique (Vapnik, 1998). Il existe trois principales tâches d’apprentissage automatique : apprentissage supervisé, apprentissage non supervisé et apprentissage par renforcement. Pour un problème de classification, un système d’apprentissage supervisé permet de construire une fonction de prise de décision (un classificateur) à partir des actions déjà classées (ensemble d’apprentissage), pour classer des nouvelles actions. Dans le cas de l’apprentissage non-supervisé, on dispose d’un nombre fini de données d’apprentissage sans aucune étiquette. L’apprentissage par renforcement a la particularité que les décisions prises par l’algorithme d’apprentissage influent sur l’environnement et les observations futures (Vincent, 2003). 25 La classification compte parmi les plus grandes réussites de l’apprentissage automatique. Plusieurs applications illustrent la diversité des domaines d’utilisation : moteur de recherche, reconnaissance de la parole, reconnaissance de formes, reconnaissance de l’écriture manuscrite, aide au diagnostic médical, analyse des marchés financiers, bioinformatique, sécurité des données, etc. 1.3.2.4 Classification et aide multicritère à la décision Les méthodes de classification multicritère partent en général de classes prédéfinies, elles relèvent donc de l’apprentissage supervisé (Belacel, 1999) ; (Henriet, 2000) mais avec une composante contextuelle qui peut être importante. C’est pourquoi elles se distinguent par des modalités particulières d’apprentissage. La classification en aide multicritère à la décision se situe dans le cadre de la problématique du tri. Selon Roy et Bouyssou (Roy & Bouyssou, 1993) «Elle consiste à poser le problème en terme du tri des actions par catégorie». Les actions sont évaluées sur plusieurs critères potentiellement conflictuels et non commensurables. Contrairement aux autres approches de classification, l’aide multicritère à la décision ne cherche pas uniquement à développer des méthodes automatiques pour analyser les données afin de les classer. Dans le cadre de l’affectation multicritère, les préférences du décideur (l’humain) sont aussi prises en compte. Ainsi, selon (Henriet, 2000) «L’objectif des méthodes de classification multicritère n’est pas de décrire au mieux les données, mais de respecter un ensemble de préférences qui auront été articulées auparavant». 1.4 La classification non supervisée Les méthodes de classification non supervisée ou automatique regroupent les objets en un nombre restreint de classes homogènes et séparées. Homogènes signifie que les éléments d’une classe sont les plus proches possible les uns des autres. Séparées veut dire qu’il y a un maximum d’écart entre les classes. La proximité et l’écart ne sont pas nécessairement au sens de distance. L’homogénéité et la séparation entrent dans le cadre des principes de cohésion et d’isolation de Cormack (Cormack, 1971). 26 Chapitre 1: Fouille de données et classification Les méthodes de classification automatique déterminent leurs classes à l’aide d’algorithmes formalisés. On parle aussi de méthodes exploratoires, qui ne sont pas explicatives. Les méthodes de classification automatique ont apporté une aide précieuse, notamment par leurs applications en biologie, en médecine, en astronomie et en chimie. Cormack (Cormack, 1971) distingue entre trois familles de méthodes : la classification hiérarchique, le partitionnement et le groupement. Quant à (Gordon, et al., 2002), il rajoute trois autres catégories à la taxonomie de Cormack : la classification automatique sous contraintes, la classification automatique floue et les méthodes géométriques. Hansen et Jaumard (Hansen & Jaumard, 1997) définissent deux autres types d’algorithmes de classification : les sous-ensembles, et le «Packing». Pour présenter les méthodes de la classification automatique, nous avons retenu les deux principales catégories : les méthodes de classification hiérarchique et les méthodes de partitionnement. La classification hiérarchique peut être ascendante ou descendante, le nombre de classes n’est pas fixé au préalable. Quant au partitionnement, c’est une classification non hiérarchique en un nombre fixe de classes. 1.4.1 Les méthodes hiérarchiques La classification hiérarchique, consiste à effectuer une suite de regroupements en classes de moins en moins fines en agrégeant à chaque étape les objets ou les groupes d’objets les plus proches. Le nombre d’objets n’est pas fixé a priori mais, sera fixé a posteriori. Elle fournit ainsi un ensemble de partitions de l’ensemble d’objets (Belacel, 1999). Il existe deux types de méthodes : les méthodes ascendantes (algorithmes agglomératifs) ; les méthodes descendantes (algorithmes divisifs). 1.4.1.1 La classification hiérarchique ascendante Ces méthodes sont les plus anciennes et les plus utilisées dans la classification automatique. Supposons que nous avons objets à classer. Les algorithmes agglomératifs suivant cette approche, définissent d’abord une partition initiale en classes unitaires. Par la suite, ils fusionnent successivement les classes jusqu’à ce que toutes les entités soient dans la même 27 classe. Dans chaque étape de fusion des classes, le recalcule des dissimilarités entre les nouvelles classes est nécessaire. Le choix des classes se fait selon le critère qui caractérise la méthode. Les méthodes de cette catégorie diffèrent selon le critère local choisi et selon la méthode de calcul des dissimilarités interclasses. Nous retrouvons notamment les méthodes issues de la théorie des graphes et les méthodes qui se basent sur la minimisation des carrés des erreurs. Dans les méthodes issues de la théorie des graphes, nous retrouvons la méthode du lien simple, du lien complet et du lien moyen. Quant à la deuxième catégorie, elle regroupe les méthodes de médiane, centroïd, la méthode de Ward et la méthode de la variance. 1.4.1.2 La classification hiérarchique descendante Dans le paragraphe précédent, nous avons vu que la classification hiérarchique ascendante se base sur un seul critère à la fois. Ceci engendre uniquement une séparation (méthode du lien simple) ou une homogénéité (méthode du lien complet) optimale des classes. Ce qui risque de donner naissance à l’effet de chaînage (deux entités très dissimilaires appartenant aux points extrêmes d’une longue chaîne, peuvent appartenir à la même classe) ou l’effet de dissection (deux entités très similaires peuvent être dans deux classes différentes). Pour faire face à ces deux problèmes, nous retrouvons les algorithmes divisifs de la classification hiérarchique descendante. Ces algorithmes commencent par former une seule classe qui englobe tous les objets. Par la suite, ils choisissent une classe de la partition en cours selon un premier critère local. Ils procèdent ensuite à une bipartition successive selon un deuxième critère local des classes choisies. Cette bipartition continue jusqu’à ce que toutes les entités soient affectées à différentes classes (Murtagh, 1983). 1.4.2 Le partitionnement Les algorithmes divisifs et agglomératifs des méthodes hiérarchiques reflètent le processus naturel de l’évolution qui est le produit de séparation et de regroupement. La classification dans le domaine de la biologie, par exemple, correspond exactement au comportement de ce type d’algorithmes. Or, dans d’autres domaines, supposer qu’il y a uniquement des séparations et des regroupements peut s’avérer restreint. Les méthodes de partitionnement 28 Chapitre 1: Fouille de données et classification sont plus générales que les méthodes hiérarchiques. Le principe de cette famille de méthodes, est de trouver une partition des objets qui optimise un critère additif donné. Cette partition est composée d’un nombre de classes fixé au préalable. Le problème de partitionnement se modélise généralement par un programme mathématique. La fonction objectif représente le critère à optimiser. Quant aux contraintes, elles traduisent les règles de partitionnement à respecter. Les deux règles les plus importantes sont relatives au nombre de classes et à l’appartenance unique d’un élément à une classe donnée. La programmation mathématique est utilisée avec toutes ses branches en partitionnement : programmation dynamique, théorie des graphes, Branch and Bound, méthodes de coupes et génération de colonnes (Hansen & Jaumard, 1997). Les méthodes les plus répandues de partitionnement sont celles qui visent à minimiser la somme des carrées des erreurs. Parmi ces méthodes, nous retenons : la méthode de leader, la méthode de k-means et la méthode des nuées dynamiques (Belacel, 1999). D’autres métaheuristiques ont fait leurs preuves dans le partitionnement : recuit simulé, recherche tabou, algorithmes génétiques et variable neighborhood search (Hansen & Jaumard, 1997). Les méthodes de partitionnement permettent de traiter rapidement de grands ensembles d’individus. Grâce à l’évolution de la puissance de calcul des ordinateurs et le développement de nouveaux algorithmes en programmation mathématique, nous arrivons à résoudre le problème mathématique de partitionnement avec de plus en plus de variables. Ces méthodes produisent directement une partition en un nombre de classes fixé au départ. Les classes qui forment la partition finale sont mutuellement exclusives. Toutefois, les techniques de partitionnement présentent un problème au niveau du nombre de classes qui doit être fixé au départ. Si le nombre de classes n’est pas connu ou si ce nombre ne correspond pas à la configuration véritable de l’ensemble d’individus (d’où le risque d’obtenir des partitions de valeurs douteuses), il faut presque toujours tester diverses valeurs, ce qui augmente le temps de calcul. C’est la raison pour laquelle, lorsque le nombre des individus n’est pas trop élevé, on fait appel aux méthodes hiérarchiques. 29 1.5 La classification supervisée L’objectif de la classification supervisée est d’apprendre, à l’aide d’un ensemble d’entraînement, une procédure de classification qui permet de prédire l’appartenance d’un nouvel exemple à une classe. En d’autre terme, l’objectif est d’identifier les classes auxquelles appartiennent des objets à partir de leurs variables descriptifs. 1.5.1 Formalisation mathématique Dans le cadre de la classification supervisée, les classes sont connues et l’on dispose d’exemples (ou individus) de chaque classe. Un exemple est un couple l’objet et , où représente la supervision de . Dans un problème de classification, nous utilisons typiquement et . Soit un ensemble d’exemples de est caractérisée par s’appelle la classe de . Pour la classification binaire pour dénoter l’espace d’entrées tel que l’espace de sortie tel que donnée est la description ou la représentation de données étiquetées : variables et par sa classe . Chaque . On cherche une hypothèse telle que : satisfait les échantillons possède de bonnes propriétés de généralisation. Le problème de la classification consiste donc, en s’appuyant sur l’ensemble d’exemples à prédire la classe de toute nouvelle donnée . 1.5.2 Le problème de la généralisation L’objectif de la classification est de fournir une procédure ayant un bon pouvoir prédictif c’est-à-dire garantissant des prédictions fiables sur les nouveaux exemples qui seront soumis au système. La qualité prédictive d’un modèle peut être évaluée par le risque réel ou 30 Chapitre 1: Fouille de données et classification espérance du risque, qui mesure la probabilité de mauvaise classification d’une hypothèse (Vapnik, 1998). 1.5.2.1 Soit Risque réel une hypothèse apprise à partir d’un échantillon Le risque réel de d’exemples de . est définit par : ∫ où (1.1) est une fonction de perte ou de coût associé aux mauvaises classifications et où l’intégrale prend en compte la distribution cartésien de de l’ensemble des exemples sur le produit . La fonction de perte la plus simple utilisée en classification est définie par : { (1.2) La distribution des exemples est inconnue, ce qui rend impossible le calcul du risque réel. Le système d’apprentissage n’a en fait accès qu’à l’erreur apparente (ou empirique) qui est mesurée sur l’échantillon d’apprentissage. 1.5.2.2 Risque empirique Soit un ensemble d’apprentissage hypothèse . Le risque empirique de de taille calculé sur et une est défini par : ∑ (1.3) Avec la fonction de perte présentée ci-dessus, le risque empirique ou apparent est simplement le nombre moyen d’exemples de qui sont mal classés. On peut montrer que, lorsque la taille de l’échantillon tend vers l’infini, le risque apparent converge en probabilité si les éléments de sont tirés aléatoirement vers le risque réel. 31 Malheureusement on ne dispose que d’un échantillon limité d’exemples ; le risque empirique est très optimiste et n’est pas un bon indicateur des performances prédictives de l’hypothèse . 1.5.2.3 Évaluation d’une hypothèse de classification Pour avoir une estimation non optimiste de l’erreur de classification, il faut recourir à une base d’exemples qui n’ont pas servi pour l’apprentissage : il s’agit de la base de test. La base de test contient elle aussi des exemples étiquetés qui permettent de comparer les prédictions d’une hypothèse avec la valeur réelle de la classe. Cette base de test est généralement obtenue en réservant une partie des exemples initiaux et en ne les utilisant pas pour la phase d’apprentissage. Lorsqu’on dispose de peu d’exemples, comme c’est le cas dans le traitement des données d’expression de gènes, il est pénalisant de laisser de côté une partie des exemples pendant la phase d’apprentissage. On peut alors utiliser le processus de validation croisée pour une estimation du risque réel. L’algorithme de validation croisée à blocs (k-fold cross-validation) consiste à découper l’ensemble initial d’exemples blocs. On répète alors évaluation où une hypothèse en phases d’apprentissage- est obtenue par apprentissage sur blocs de données et testée sur le bloc restant. L’estimateur de l’erreur est obtenu comme la moyenne des erreurs empiriques ainsi obtenues. L’algorithme est alors : 1- Partitionner l’ensemble d’exemples 2- Pour tout de en k sous-ensembles disjoints : à Appliquer l’algorithme d’apprentissage sur le jeu d’apprentissage pour obtenir une hypothèse Calculer 3- Retourner ∑ l’erreur de sur comme estimation de l’erreur Même s’il n’existe pas pour cela de justifications théoriques claires, l’usage montre que l’évaluation par validation croisée fournit de bons résultats pour . Il faut noter que lorsque le nombre d’échantillons dont on dispose est limité on peut également appliquer le 32 Chapitre 1: Fouille de données et classification processus appelé Leave-One-Out Cross Validation (LOOCV) où la validation croisée est appliquée avec le nombre d’échantillons. 1.5.3 Les techniques de la classification supervisée Pour présenter les techniques de la classification supervisée, nous avons repris la répartition formulée par Weiss et Kulikowski (Weiss & Kulikowski, 1991) qui sépare ces techniques en deux catégories : Les techniques statistiques ; Les techniques d’apprentissage automatique. Les techniques statistiques regroupent une panoplie de méthodes. Nous présentons les techniques basées sur l’apprentissage bayésien, l’analyse discriminante et la méthode du k plus proches voisins (KNN). Dans la catégorie apprentissage automatique, nous présentons les réseaux de neurones, les arbres de décision, et les Séparateurs à Vaste Marge SVM (Support Vector Machines). 1.5.3.1 L’apprentissage Bayésien : Classifieur Bayésien Naïf Comme son nom l’indique, l’apprentissage bayésien est basé sur le théorème de Bayes. Le problème de classification peut se traduire par la minimisation du taux d’erreurs, ce qui peut être formulé mathématiquement en utilisant la règle de Bayes. Dans le cadre de l’apprentissage bayésien, nous retrouvons plusieurs types de classificateurs : classificateur optimal de Bayes, classificateur Baysien Naïf, classificateur de Gibbs et les réseaux bayésiens (Mitchell, 1997) ; (Wu, et al., 2008). Dans cette partie nous allons présenter le classificateur Baysien Naïf qui sera utilisé dans nos contributions. Le classifieur bayésien naïf repose sur l’hypothèse que les solutions recherchées peuvent être trouvées à partir de distributions de probabilité dans les données et dans les hypothèses. Cette méthode permet de déterminer la classification d’un exemple quelconque spécifiée en termes de variables en supposant que les variables de l’espace 33 d’entrée sont indépendants les uns des autres et tel que pour la classification binaire. La règle de classification de Bayes s’écrit : (1.4) On peut remplacer et par des estimations faites sur l’ensemble d’échantillons (telles que loi de Bernouilli, normale ou bien d’autres). Pour toute classe on estime ̂ par la proportion d’éléments de la classe l’estimation des dans . Étant donné que n’est pas évidente car le nombre de descriptions possibles peut être grand, il faudrait un échantillon de taille trop importante pour pouvoir estimer correctement ces quantités. Pour cela on utilise l’hypothèse suivante : les valeurs des variables sont indépendantes connaissant la classe. Cette hypothèse permet d’utiliser l’égalité suivante : ∏ Pour cela il suffit d’estimer, pour tout d’éléments de classe ayant la valeur bayésien naïf associe à toute description et toute classe (1.5) , ̂ par la proportion pour la i-ème variable. Finalement, le classifieur la classe : ∏ (1.6) Ce classifieur est simple, facile à mettre en œuvre et souvent efficace, mais présente un point négatif qui est la sensibilité à la présence de variables corrélées. 1.5.3.2 L’analyse discriminante L’analyse discriminante est le fruit des travaux de Fisher depuis 1936. Le but des méthodes de cette approche est de produire des décisions concernant l’appartenance ou non d’un objet à une classe en utilisant des fonctions discriminantes appelées également fonctions de décision. 34 Chapitre 1: Fouille de données et classification La discrimination linéaire est la forme la plus simple des méthodes de cette catégorie. Elle présente l’avantage de pouvoir traiter des données de très grande taille. Le mot linéaire fait référence à la combinaison linéaire des évènements, hyperplans, qui va être utilisée afin de séparer entre les classes et de déterminer la classe d’un nouveau cas. La construction de ces hyperplans de séparation peut être effectuée en utilisant plusieurs techniques, comme c’est le cas avec la méthode des moindres carrées et la méthode du maximum de vraisemblance. Les hyperplans sont construits de manière à minimiser la dispersion des points d’une même catégorie autour du centre de gravité de celle-ci. L’utilisation d’une distance est alors nécessaire pour mesurer cette dispersion. Intuitivement, nous pouvons qualifier la discrimination linéaire comme une fonction d’agrégation pondérée. Cette technique est considérée comme une méthode de classification très compacte. Le défi dans cette méthode consiste à déterminer les poids de la somme pondérée. Comme dans l’analyse discriminante linéaire, les modèles logit ont recours à des hyperplans de séparation. Ils se distinguent par le recours à des modèles probabilistes d’erreurs plus robustes (fonctions logistiques par exemple). La discrimination quadratique est la généralisation de la discrimination linéaire. Au lieu que les classes soient séparées d’hyperplans, elles sont séparées généralement d’ellipsoïdes. On utilise dans ce cas plusieurs métriques (une par classe) pour mesurer la dispersion de chaque classe par rapport au centre de gravité (Henriet, 2000). Le choix de la métrique n’est pas toujours évident. En effet, il s’agit de choisir la métrique qui permet d’obtenir des classes où les points d’une même classe pour qu’ils soient les moins dispersés possible autour du centre de gravité de la classe. Ces méthodes sont totalement compensatoires. Dans les deux cas, on constate l’utilisation de fonctions d’agrégation complète. Comme pour les autres méthodes statistiques, cette agrégation ne tient pas compte de l’hétérogénéité des données, ceci renforce le côté arbitraire de la méthode. 1.5.3.3 K plus proches voisins L’algorithme des k plus proches voisins (noté k-PPV) (Weiss & Kulikowski, 1991) ; (Duda, et al., 2001) ; (Wu, et al., 2008) est une méthode basée sur la notion de proximité 35 (voisinage) entre exemples et sur l’idée de raisonner à partir de cas similaires pour prendre une décision. Le principe de cette méthode est de chercher pour chaque action à classer un ensemble de actions de l’ensemble d’apprentissage parmi les plus proches possibles de l’action. L’action est alors affectée à la classe majoritaire parmi ces k plus proches voisins. La fixation du paramètre est délicate, une valeur très faible va engendrer une forte sensibilité au bruit d’échantillonnage. La méthode va devenir faiblement robuste. Un trop grand va engendrer un phénomène d’uniformisation des décisions. La plupart des actions vont être affectées à la classe la plus représentée. Pour remédier à ce problème, il faut tester plusieurs valeurs de et choisir le optimal qui minimise le taux d’erreurs de classification (Henriet, 2000). Le choix de la classe majoritaire entre les classes des voisins peut poser des problèmes dans le cas où l’action à classer se trouve à la frontière de plusieurs classes. Pour remédier à ce problème, on donne des poids aux voisins. Ce poids est généralement proportionnel à l’inverse du carré de la distance du voisin par rapport à l’action à classer. 1.5.3.4 Les réseaux de neurones Les réseaux de neurones sont nés à partir de plusieurs sources : la fascination des scientifiques par la compréhension, la simulation du cerveau humain et la reproduction de la capacité humaine de compréhension et d’apprentissage. Le fonctionnement d’un réseau de neurones est inspiré de celui du cerveau humain. Il reçoit des impulsions, qui sont traitées, et en sortie d’autres impulsions sont émises. Un réseau de neurones s’exprime sous forme d’un graphe composé de trois éléments : l’architecture, la fonction de transfert et la règle d’apprentissage. L’architecture concerne le nombre et la disposition des neurones, le nombre de couches d’entrées de sorties et intermédiaires ainsi que les caractéristiques (pondération et direction) des arcs du réseau. Le nombre de neurones des différentes couches dépend du contexte d’application. Par ailleurs, la détermination du nombre de neurones à y associer demeure dans la plupart du temps arbitraire. En général, les poids initiaux des arcs sont déterminés aléatoirement et les valeurs sont modifiées par le processus d’apprentissage. 36 Chapitre 1: Fouille de données et classification La fonction de transfert traduit le niveau d’activation d’un neurone en un état. Le niveau d’activation d’un neurone est obtenu en cumulant l’état de l’ensemble des entrées qui agissent sur lui. Par la suite, la fonction de transfert transforme le niveau d’activation en une valeur binaire ou continue, identifiant ainsi l’état du neurone. Les trois fonctions de transfert les plus utilisées sont : la fonction saut (avec ou sans seuil), la fonction linéaire (avec ou sans seuil) et la fonction sigmoïde. Couche d’entré Couche Cachée 1 Couche Cachée 2 Couche de sortie Architecture d’un réseau de neurone Modèle d’un neurone Figure 1-2 : Représentation d’un réseau de neurones multicouches La règle d’apprentissage est le processus d’ajustement des poids associés aux arcs lorsque le réseau est en situation d’apprentissage. La réduction de l’erreur entre la valeur de sortie du réseau et la valeur initiale dans l’ensemble d’apprentissage permet de déterminer les paramètres (poids) du réseau. Il existe une variété de réseaux de neurones à apprentissage non supervisé. Ces réseaux sont capables de mémoriser, ils raisonnent par analogie avec ce qu’ils ont effectué. Pour ce type d’apprentissage, on présente une entrée sans aucune sortie et on laisse le réseau évoluer jusqu’à ce qu’il se stabilise. Il existe différents types de réseaux, selon le nombre de couches, la fonction de transfert ou l’architecture elle-même du réseau : Perceptron, Adaline et le réseau de rétropropagation (Weiss & Kulikowski, 1991). Les réseaux de neurones sont souples, ils sont capables de traiter une gamme très étendue de problèmes. Leur résultat peut être une prédiction, une classification ou encore une analyse de clusters. Le degré de résolution est assez élevé. Ils donnent de bons résultats, même dans des domaines complexes ; ils sont beaucoup plus puissants que les techniques statistiques ou les arbres de décision en terme de résistance au bruit et au manque de fiabilité des données. 37 Les réseaux de neurones ont des problèmes au niveau du codage des entrées. Toutes les entrées doivent se trouver dans un intervalle défini, en général, entre 0 et 1. Ce qui entraîne des transformations et risquent de fausser les résultats. La lisibilité au niveau des résultats n’est pas satisfaisante dans la mesure où l’on ne peut avoir accès à des explications claires des résultats obtenus (boîte noire). Pour assurer de bons résultats, le nombre d’exemples doit être très grand puisqu’il tient compte du nombre d’entrées, du nombre de couches et du taux de connexion. 1.5.3.5 Les arbres de décision Les arbres de décision ont pour objectif la classification et la prédiction. Leur fonctionnement est basé sur un enchaînement hiérarchique de règles exprimées en langage courant. Un arbre de décision est composé d’un nœud racine par lequel entrent les données, de nœuds feuilles qui correspondent à un classement de questions et de réponses qui conditionnent la question suivante. La mise en place d’un arbre de décision consiste à préparer les données par la suite à créer et valider l’arborescence. Il s’agit d’abord de définir la nature, le format des variables et leur méthode de traitement. Ces variables peuvent être non ordonnées ou encore continues. Dans le cas de l’existence d’une base de règles simple et limitée, la construction de l’arbre se fait en interaction avec le décideur, en validant les arborescences une à la fois jusqu’à la détermination de l’affectation. C’est un processus interactif d’induction de règles qui permet d’aboutir à une affectation bien justifiée. Mais, en général la création et la validation de l’arborescence se passe selon l’algorithme de calcul choisi. Il existe différents algorithmes développés pour appliquer cette technique : CART, C4.5 et CHAID (Quinlan, 1993) ; (Breimann, et al., 1984) ; (Henriet, 2000). Les avantages procurés par les arbres de décision sont leur rapidité et, surtout, leur facilité quant à l’interprétation des règles de décision. La clarté des règles de décision facilite le dialogue homme-machine. Ce sont des méthodes non paramétriques qui ne font aucune hypothèse sur les données. Ils peuvent traiter des ensembles d’apprentissage avec des données manquantes. Cependant, les arbres de décision ont une faiblesse au niveau de la performance et le coût d’apprentissage. Ils deviennent peu performants et très complexes lorsque le nombre de variables et de classes augmente. En effet, ils risquent de devenir trop 38 Chapitre 1: Fouille de données et classification détaillés, ce qui leur fait perdre un peu de leur lisibilité ou encore d’aboutir à de mauvais classements et d’augmenter le coût d’apprentissage. 1.5.3.6 Méthodes à noyaux L’objectif des techniques d’apprentissage avec les noyaux est de réduire la complexité des algorithmes d’apprentissage. Cette réduction se passe via la minimisation du temps de calcul. Elle consiste à introduire les noyaux qui permettent de réduire le nombre d’opérations, notamment au niveau du produit scalaire dans le calcul des distances, quand nous avons un vecteur d’entrée de dimension assez importante (Herbrich, 2002). Afin de formuler le problème de classification, nous introduisons les fonctions paramétriques qui permettent de transformer chaque cas (vecteur d’entrée dans le système) en un nombre réel positif. La fonction va exprimer notre croyance que correspond à la sortie réelle dans l’ensemble d’apprentissage. Pour simplifier les calculs, cette fonction doit être linéaire : ∑ (1.7) Pour déterminer la valeur de chaque , il faut trouver la valeur du vecteur des paramètres . Soit un vecteur de caractéristiques qui permet de transformer chaque vecteur d’entrée de dimension en un nouveau vecteur avec une dimension plus faible . Donc, nous effectuons un changement de variable avec un changement de repère. Le vecteur de paramètre peut s’exprimer sous forme d’une combinaison linéaire des vecteurs caractéristiques de l’ensemble d’apprentissage de dimension ∑ : (1.8) La fonction f peut être exprimée sous forme d’une combinaison linéaire de produit scalaire dans l’espace des caractéristiques de . 39 ∑ ∑ ∑ Au lieu de calculer le produit scalaire fonction , il suffit de calculer uniquement la appelée noyau. La fonction linéaire comme paramètre (1.9) est appelée classifieur noyau, elle a . De manière générale, la technique du noyau consiste à choisir d’abord un noyau . Par la suite, il s’agit d’utiliser un algorithme d’apprentissage, sur un échantillon d’apprentissage de sortie exemples, pour se construire un classificateur dont la valeur de est donnée par (Vapnik, 1995): ∑ (1.10) Ce classificateur est un classificateur linéaire dans un espace de caractéristiques seulement si il existe un si et tel que : ∑ (1.11) La condition (1.11) s’appelle la condition de Mercer (Mercer, 1909), et le noyau qui respecte cette condition est appelé noyau de Mercer. Ainsi, l’introduction du noyau comme une fonction symétrique facilement calculable entre deux éléments, permet d’éliminer tous les calculs relatifs aux produits scalaires entre les éléments. D’autre part, le passage du vecteur simple aux vecteurs de caractéristiques permet de passer d’un classificateur non linéaire dans l’espace d’entrée à un classificateur linéaire dans l’espace des caractéristiques, dans le cas où le noyau choisi satisfait la condition de Mercer. L’objectif de réduire la complexité de l’algorithme doit être atteint tout en assurant la performance de l’algorithme. Cette performance se mesure en termes de minimisation des erreurs de la classification de l’ensemble d’apprentissage. Ainsi, les techniques d’apprentissage par noyau essayent de minimiser la complexité des algorithmes d’apprentissage et d’augmenter la performance du classificateur résultant. Dans cette partie, 40 Chapitre 1: Fouille de données et classification nous allons présenter la méthode des séparateurs à vaste marge (SVM), comme une application directe de l’apprentissage par noyaux. A l’origine les SVM traitent la classification binaire (deux classes). Soit d’apprentissage composé de vecteurs d’entrée l’échantillon , la classification de ces vecteurs est connue au préalable. Elle est représentée par le vecteur de sortie . Donc, il suffit de connaître le signe du classificateur pour déterminer la classe de l’exemple. Si S est de dimension , alors la valeur de sortie du classificateur binaire est donnée par : ∑ (1.12) Ayant choisi un noyau de Mercer, l’algorithme d’apprentissage pour les SVM consiste à trouver l’hyperplan de marge géométrique maximale qui sépare les données dans l’espace des variables (Figure 1-3) (Vapnik, 1998). Vapnik a été le premier à avoir introduit les notions d’hyperplan dans les algorithmes vecteurs de support (Herbrich, 2002). Classe : 1 Marge géométrique ++ + ++ ++ + --------- - - Classe : -1 Figure 1-3 : Représentation de l’hyperplan séparant linéairement les données dans l’espace des variables Pour déterminer l’équation de l’hyperplan, on modélise le problème sous forme d’un programme mathématique qui maximise la marge géométrique entre les données, tout en tenant compte de la nécessité de la bonne classification de l’ensemble d’apprentissage. L’efficacité de l’algorithme SVM est due au fait qu’il combine deux idées pertinentes. La première est le changement de repère et des variables d’entrée vers un autre espace de caractéristiques. Ce double changement permet de simplifier la construction de 41 classificateur non linéaire en utilisant uniquement les hyperplans dans l’espace des caractéristiques. La deuxième, est de construire des hyperplans de séparation, dans l’espace des caractéristiques avec la marge géométrique la plus large possible (Vapnik, 1998) ; (Marchand & Shawe-Taylor, 2002) ; (Herbrich, 2002). D’un autre côté, l’approche des SVM se base sur des fondements statistiques, une théorie bien enracinée dans le temps, qui arrive à justifier aisément ses propos. Le choix de la fonction noyau est très important, celle-ci doit respecter certaines conditions, elle doit correspondre à un produit scalaire dans un espace de grande dimension. Mercer (Mercer, 1909) explicite les conditions que doit satisfaire pour être une fonction noyau : elle doit être symétrique et semi-définie positive. L'exemple le plus simple de fonction noyau est le noyau linéaire : ( ) (1.13) On se ramène donc au cas d'un classifieur linéaire sans changement d'espace. L'approche par noyau généralise ainsi l'approche linéaire. Le noyau linéaire est parfois employé pour évaluer la difficulté d'un problème. Les noyaux les employés avec les SVM sont : Le noyau polynomial : ( ) (1.14) Le noyau gaussien : ( ) ( ‖ ‖ ) (1.15) Les SVM présentés traitent la classification binaire. Dans le cas multi-classes, plusieurs méthodes ont été proposées pour étendre le schéma ci-dessus au cas où plus de deux classes sont à séparer. Ces schémas sont applicables à tout classifieur binaire, et ne sont donc pas spécifiques aux SVM (Vapnik, 1998). Les deux plus connues sont appelées one versus all et one versus one. Formellement, les échantillons d'apprentissage et de test peuvent ici être classés dans classes . 42 Chapitre 1: Fouille de données et classification La méthode one-versus-all (appelée parfois one-versus-the-rest) consiste à construire classifieurs binaires en attribuant le label aux échantillons de l'une des classes et le label à toutes les autres. En phase de test, le classifieur donnant la valeur de confiance (la marge par exemple) la plus élevée remporte le vote. La méthode one-versus-one consiste à construire classifieurs binaires en confrontant chacune des classes. En phase de test, l'échantillon à classer est analysé par chaque classifieur et un vote majoritaire permet de déterminer sa classe. 1.6 Conclusion Dans ce chapitre nous avons présenté la fouille de données qui constitue le cœur du processus d’extraction de connaissances à partir des données. Ensuite nous avons détaillé les techniques de classification et en particulier les techniques de classification supervisées qui font l’objet de nos travaux. Par ailleurs, il y a lieu de rappeler que l’utilisateur qui veut couvrir tous les aspects existants d’un problème particulier et obtenir une connaissance compréhensible doit considérer un grand nombre de variables. Or, parmi ces variables certaines sont inutiles. En effet, il est souvent difficile voire impossible de discerner les variables pertinentes des variables non pertinentes ce qui pousse l’utilisateur à s’emparer de toutes les variables disponibles. De plus, les sources de données peuvent être multiples et la fusion des données issues de chacune de ces sources conduit à la création d’un ensemble contenant des variables inutiles et redondantes. La solution que l’on peut apporter à cette difficulté et la sélection d’un sous ensemble de variables. La sélection de variables et un processus permettant l’élimination des variables inutiles et/ou redondantes et l’élimination du bruit pouvant être généré par certaines variables. Le processus de fouille de données est accéléré et la précision prédictive des algorithmes de classification peut être améliorée. 43 Chapitre 2. Sélection de variables pour la classification supervisée ..................................... 43 2.1 Introduction ...................................................................................................................................44 2.2 Pertinence et redondance de variables .......................................................................................44 2.2.1 Pertinence de variables ........................................................................................................46 2.2.2 Redondance de variables.....................................................................................................46 2.3 Sélection de variables ....................................................................................................................48 2.3.1 La sélection vue comme un problème d’optimisation ...................................................49 2.3.2 Processus global de la sélection de variables ...................................................................50 2.3.3 Génération des sous-ensembles de variables...................................................................51 2.3.4 Evaluation des sous-ensembles .........................................................................................54 2.3.5 Critère d’arrêt ........................................................................................................................57 2.4 Principaux algorithmes existants ................................................................................................58 2.4.1 Les algorithmes d’ordonnancement de variables ............................................................58 2.4.2 Les algorithmes de construction du plus petit sous-ensemble de variables ...............58 2.4.3 Sélection de variables par information mutuelle .............................................................60 2.5 Conclusion......................................................................................................................................65 44 Chapitre 2: Sélection de variables pour la classification supervisée 2.1 Introduction La tendance actuelle d’un accroissement fort de la taille des bases de données pose un défi sans précédent pour la fouille de données. Non seulement les bases de données s'agrandissent, mais de nouveaux types de données deviennent très répandus, tels que les flux de données sur le web, les données de puces à ADN génomique et les données relatives aux réseaux sociaux. Les chercheurs se sont rendu compte que la sélection des variables est un élément essentiel pour que la fouille de données atteigne ses objectifs (Han & Kamber, 2001) ; (Liu & Motoda, 1998) ; (Guyon & Elisseeff, 2003) ; (Liu & Motoda, 2007). Un nombre élevé de variables peut en effet s’avérer pénalisant pour un traitement pertinent et efficace des données, d’une part par les problèmes algorithmiques que cela peut entraîner (liés au coût calculatoire et à la capacité de stockage nécessaire), et d’autre part car parmi les variables certaines peuvent être non-pertinentes, inutiles et/ou redondantes perturbant ainsi le bon traitement des données. Or, il est très souvent difficile voire impossible de distinguer les variables pertinentes des variables non-pertinentes. Le problème de la dimension des données peut ainsi être résumé par l’aphorisme de Liu et Motoda "Less is more" (Liu & Motoda, 1998) qui met en exergue la nécessité de supprimer l’ensemble des portions non pertinentes des données de manière préalable à tout traitement si on désire en extraire des informations utiles et compréhensibles. La sélection de variables constitue une solution à ce problème. Ce processus vise en effet à la détermination d’un sous ensemble optimal (au sens d’un critère donnée) de variables et donc à la réduction du nombre de variables par élimination des variables non pertinentes ou redondantes. 2.2 Pertinence et redondance de variables La sélection de variables consiste à choisir parmi un ensemble de variables de grande taille un sous-ensemble de variables intéressantes pour le problème étudié. Cette problématique peut concerner différentes tâches de fouille de données mais nous parlerons seulement ici de la sélection de variables réalisée pour la classification supervisée. 45 Dans ce contexte, les principales motivations de la sélection de variables sont les suivantes (Liu & Motoda, 1998) : Utiliser un sous-ensemble plus petit permet d’améliorer la classification si l’on élimine les variables qui sont source de bruit. Cela permet aussi une meilleure compréhension des phénomènes étudiés ; Des petits sous-ensembles de variables permettent une meilleure généralisation des données en évitant le sur-apprentissage ; Une fois que les meilleures variables sont identifiées, les temps d’apprentissage et d’exécution sont réduits et en conséquence l’apprentissage est moins coûteux. En présence de centaines, voire de milliers de variables, il y a beaucoup de chances pour que des variables soient corrélées et expriment des informations similaires, on dira alors qu’ils sont redondantes. D’un autre côté, les variables qui fournissent le plus d’information pour la classification seront dites pertinentes. L’objectif de la sélection est donc de trouver un sous-ensemble optimal de variables qui ait les propriétés suivantes : il doit être composé de variables pertinentes et il doit chercher à éviter les variables redondantes. De plus cet ensemble doit permettre de satisfaire au mieux l’objectif fixé c’est-à-dire la précision de l’apprentissage, la rapidité de l’apprentissage ou bien encore l’explicabilité du classifieur proposé (Dash & Liu, 1997) ; (Kohavi & John, 1997) ; (Guyon & Elisseeff, 2003) ; (Liu & Motoda, 2007). Soit un ensemble de variables potentiellement explicatives d’une variable aléatoire dont les valeurs possibles sont En pratique, cette variable correspond souvent à l’affectation des individus du jeu de données de classes d’un modèle. Soit , , une variable de l’ensemble de variables un sous ensemble de l’ensemble complet de variables . On note ensemble de individus aux ne comprennent pas la variable et le sous- . On suppose que l’on travaille avec un espace probabilisé où la probabilité est notée . est la probabilité de la classe connaissant les variables du sous-ensemble . 46 Chapitre 2: Sélection de variables pour la classification supervisée 2.2.1 Pertinence de variables Kahavi et John (Kohavi & John, 1997) définissent les variables pertinentes comme celles dont les valeurs varient systématiquement avec les valeurs de classe. Autrement dit, une variable est pertinente si la connaissance de sa valeur change les probabilités sur les valeurs de la classe . Mais cette définition peut être précisée pour distinguer les variables fortement pertinentes et les variables faiblement pertinentes grâce aux définitions suivantes. Une variable est fortement pertinente si et seulement si: (2.1) Une variable est faiblement pertinente est équivalent à: (2.2) Une variable est non pertinente est équivalent à : (2.3) D’après ces définitions, les variables fortement pertinentes sont donc indispensables et devraient figurer dans tout sous-ensemble optimal sélectionné, car leurs absences peuvent conduire à un défaut de reconnaissance de la fonction cible (la classe). La faible pertinence suggère que la variable n’est pas toujours importante, mais il peut devenir nécessaire pour un sous-ensemble optimal dans certaines conditions. La non-pertinence d’une variable se définit simplement par rapport à (2.1) et (2.2) et indique qu’une variable n’est pas du tout nécessaire dans un sous-ensemble optimal de variables. 2.2.2 Redondance de variables La notion de la redondance de variables se comprend intuitivement et elle est généralement exprimée en termes de corrélation entre variables. On peut dire que deux variables sont 47 redondantes (entre elles) si leurs valeurs sont complètement corrélées. Cette définition ne se généralise pas directement pour un sous-ensemble de variables. On trouve dans (Koller & Sahami, 1996), une définition formelle de la redondance qui permet de concevoir une approche pour identifier et éliminer les variables redondantes. Cette formalisation repose sur la notion de couverture de Markov (Markov blanket) d’une variable qui permet d’identifier les variables non pertinentes et redondantes (Koller & Sahami, 1996) ; (Yu & Liu, 2004). Soit l’ensemble total de variables et ensemble de variables qui ne contient pas couverture de Markov pour la classe. Soit une variable, et , c’est-à-dire : et un sous. est une est équivalent à : (2.4) La définition de couverture de Markov impose que l’information que apporte sur contient non seulement mais aussi l’information qu’il apporte sur toutes les autres variables. Dans (Koller & Sahami, 1996), il est montré qu’un sous-ensemble de variables optimal peut être obtenu par une procédure d’élimination descendante, appelée filtrage par couverture de Markov et définie comme suit : Soit courant ( l’ensemble de variables au départ). A chaque étape de la procédure, s’il existe une couverture de Markov pour la variable dans l’ensemble courant, est enlevé de . On peut montrer que ce processus garantit qu’une variable enlevée dans une étape précédente peut trouver une couverture de Markov dans une étape postérieure. Selon les définitions précédentes de la pertinence des variables, on peut également montrer que les variables fortement pertinentes ne peuvent trouver aucune couverture de Markov. Par contre, les variables non pertinentes doivent être enlevées de toute façon, et il n’est donc pas nécessaire de s’y intéresser dans la définition des variables redondantes. Cela conduit à la définition suivante de la redondance (Yu & Liu, 2004) : Une variable redondante et par conséquent peut être enlevé de est si et seulement si elle est faiblement pertinente et qu’il possède une couverture de Markov dans . Afin de synthétiser les différents notions de pertinence et redondance que l’on vient de présenter, on peut proposer une catégorisation des variables présentée dans la Figure 2-1. 48 Chapitre 2: Sélection de variables pour la classification supervisée Dans ce schéma, un ensemble initial de variables peut être partitionné en quatre catégories (Yu & Liu, 2004): variables non pertinentes (partie I), variables redondantes (partie II) (qui sont faiblement pertinentes comme on l’a vu), variables faiblement pertinentes et non-redondantes (partie III), et variables fortement pertinentes (partie IV). Un sous-ensemble de variables optimal contient essentiellement toutes les variables des parties III et IV. Il est important de préciser que pour un ensemble initial donné, le processus de filtrage par couverture de Markov peut conduire à différents découpages donnant les parties II et III (qui sont disjointes). I II IV III Figure 2-1 : Catégorisation des variables Les formalisations précédentes sont intéressantes pour mieux cerner les notions de redondance et de pertinence. Néanmoins les définitions probabilistiques que nous avons vues ne permettent pas de proposer un processus de sélection de variables applicable sur des données de grande dimension. Dans la suite de ce chapitre nous allons donc présenter différents points de vue permettant de comprendre le processus de la sélection de variables d’un point de vue plus opérationnel. 2.3 Sélection de variables Le problème de la sélection d’un sous-ensemble de variables peut être vu comme une recherche dans un espace d’hypothèses (appelé ensemble de solutions possibles) (Blum & Langly, 1997). Étant donné un ensemble initial de variables, la sélection d’un "bon" sous-ensemble de variables nécessite d’examiner potentiellement sous-ensembles possibles. La qualité d’un sous-ensemble sélectionné est évaluée selon un critère de performance que l’on notera . Dans le cas d’un problème de classification supervisée, ce critère est très souvent la précision d’un classifieur (taux de classification) construit à partir de l’ensemble de variables sélectionnés. 49 2.3.1 La sélection vue comme un problème d’optimisation La recherche d’un sous-ensemble de variables, optimal pour le critère que l’on s’est donné, est alors un problème NP-difficile (Davies & Russell, 1994) ; (Cotta & Moscato, 2003). Plusieurs approches peuvent être envisagées pour contourner cette difficulté. Elles sont formalisées dans la définition suivante (Molina, et al., 2002) : Soit un ensemble de variables. Soit ensemble de un score: une mesure d’évaluation qui attribue à tout sous- ̅ . doit être optimisée (maximisée ou minimisée suivant la nature de ), on supposera dans la suite que doit être maximisée. La sélection d’un sous-ensemble de variables peut se faire suivant un des schémas suivants : Nombre de variables fixé : Pour un nombre trouver ̅ tel que ̅ et que fixé, avec , on cherche à ̅ soit maximum. Seuil de performance fixé : On se donne une valeur seuil minimum acceptable pour , et on cherche à trouver ̅ soit le plus petit possible et que ̅ , c’est-à-dire, le tel que le cardinal de . Compromis performance et nombre de variables. Trouver un compromis entre le fait de minimiser le nombre de variables ̅ et le fait d’optimiser La première stratégie consiste à passer d’un ensemble initial de ensemble de ̅ . variables à un sous- variables sélectionnées qui donne une performance au moins égale ou meilleure à celle obtenue avec l’ensemble complet. Cela suppose qu’on connaît le nombre optimal des variables à sélectionner. La première difficulté est de définir a priori ce nombre . Ce nombre dépend de la taille, de la quantité et de l’information disponible. Si est fixé, une deuxième difficulté consiste alors à examiner toutes les combinaisons possibles. La recherche d’un sous-ensemble de variables parmi combinaisons ( ). La croissance exponentielle de ( ) donne un nombre de rend la recherche très coûteuse et une exploration exhaustive n’est pas envisageable, même pour des valeurs modérées de Dans le deuxième cas on fixe un seuil de performance à respecter. On cherche donc un sous-ensemble de cardinalité minimale dont la performance soit meilleure que valeur et . . La peut être une valeur observée avec une certaine représentation du problème et 50 Chapitre 2: Sélection de variables pour la classification supervisée on se fixe l’objectif de trouver une représentation utilisant un nombre minimum de variables mais garantissant une performance au moins égale à . Nous verrons dans les chapitres suivants que des méthodes évolutionnaires comme les algorithmes génétiques peuvent être utilisés pour cet objectif. Dans le troisième cas, on considère un problème d’optimisation bi-critère où l’on cherche à la fois à maximiser la fonction tout en minimisant le nombre de variables retenus. Dans le cadre de la sélection de variables, il faut, en général, considérer le bon compromis entre la performance et la taille du sous-ensemble final en prenant les critères précédemment cités. 2.3.2 Processus global de la sélection de variables Les différentes méthodes proposées dans la littérature pour la sélection de variables peuvent être décrites par un schéma général (Dash & Liu, 1997) ( Figure 2-2) dans lequel on trouve les éléments clés suivants : Une procédure de génération de sous-ensembles candidats qui détermine l’exploration de l’espace de recherche ; Une fonction d’évaluation donnant la qualité des sous-ensembles candidats ; Une condition d’arrêt ; Un processus de validation pour vérifier si l’objectif souhaité est atteint. Ensemble de départ Génération Evaluation Sous ensemble sélectionné Non Critère d’arrêt Oui Figure 2-2 : Processus de sélection de variables Validation 51 2.3.3 Génération des sous-ensembles de variables Dans le cadre de la sélection de variables, la procédure de génération désigne la façon de générer l’ensemble de variables candidat à examiner (Liu & Motoda, 1998). Siedlecki et Sklansky (Siedlecki & Sklansky, 1988) parlent aussi de procédure de recherche. Le principe général consiste à générer successivement des sous-ensembles de variables à évaluer. La procédure de génération des sous-ensembles de variables est caractérisée par une direction de recherche et une stratégie de recherche. 2.3.3.1 Direction de recherche La sélection de variables est un problème de recherche où chaque état spécifie un sousensemble de variables. Le passage de l’état initial à l’état final peut être schématisé par un graphe partiellement ordonné où chaque état enfant possède un ensemble de variables différents de ses parents. Les méthodes de sélection de variables utilisent donc l’ordre partiel des variables pour organiser leur recherche d’un sous-ensemble optimal de variables. Cet ordre partiel correspond à l’agencement des variables dans le temps, c’est à dire à leur utilisation lors du processus de sélection. Les directions de recherche peuvent être de trois types : Ajout de variables, Suppression de variables et bidirectionnelles. La stratégie d’ajout de variables (FS) débute avec l’ensemble vide, puis, à chaque itération, la variable optimale suivant un certain critère est ajoutée. Le processus s’arrête quand il n’y a plus de variable à ajouter, ou quand un certain critère est satisfait. La stratégie de suppression de variables débute avec l’ensemble de toutes les variables, puis, à chaque itération, une variable est enlevée de l’ensemble. Cette variable est telle que sa suppression donne le meilleur sous-ensemble selon un critère particulier. Le processus s’arrête quand il n’y a plus de variable à supprimer, ou quand un certain critère est satisfait. Les méthodes bidirectionnelles (Devijver & Kittler, 1982) permettent de pallier au problème de l’irrévocabilité de la suppression ou de l’ajout d’une variable. En effet, l’importance d’une variable peut se voir modifiée au cours des différentes itérations du processus de sélection de variables. Ces méthodes autorisent l’ajout et la suppression d’une variable de l’ensemble des variables à n’importe quelle étape de la recherche (autre que la première) contrairement à l’ajout de variables (respectivement, suppression de variables) 52 Chapitre 2: Sélection de variables pour la classification supervisée pour laquelle une fois qu’une variable a été ajoutée (respectivement, supprimée) il est impossible de la retirer (respectivement, réintégrer). 2.3.3.2 Stratégie de recherche La stratégie de recherche dépend de la taille de l’espace de recherche. Pour un ensemble de variables, le nombre de sous-ensembles de variables candidats est . Même pour un nombre de variables raisonnable, le nombre de sous-ensembles à étudier est donc considérable. Pour affronter ce problème de taille de l’espace de recherche, trois stratégies de recherche sont envisageables : la recherche complète, la recherche avec une heuristique et la recherche aléatoire. Une recherche complète des sous-ensembles optimaux est effectuée en tenant compte de la fonction d’évaluation utilisée. Cette méthode n’est pas forcément exhaustive (Niblack, et al., 1990). Différentes fonctions heuristiques peuvent être utilisées afin de réduire l’espace de recherche sans compromettre les chances de trouver le sous-ensemble optimal. Il est important de distinguer une recherche complète d’une recherche exhaustive. En effet, une recherche exhaustive est toujours complète puisque qu’elle consiste à parcourir tous les sous-ensembles possibles. Ainsi, le ou les meilleur(s) sous-ensemble(s) est (sont) toujours évalué(s) et donc choisi(s). En revanche, la réciproque est fausse : dans certains cas, une recherche complète n’est pas exhaustive. Par exemple, si la mesure d’évaluation est monotone, nous n’aurons pas besoin de regarder tous les sous-ensembles (d’être exhaustif) pour retourner le sous-ensemble optimal. La recherche complète est donc encore couteuse (de l’ordre de (Dash & Liu, 1997)) mais elle évalue toujours moins de sous- ensembles que l’exhaustivité. L’ensemble des sous-ensembles à évaluer peut être vu comme un treillis (Figure 2-3). Les deux méthodes de recherche exhaustive les plus courantes sont donc le parcours en profondeur d’abord et le parcours en largeur ensuite. 53 𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟒 𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟏 𝑿𝟐 𝑿𝟏 𝑿𝟐 𝑿𝟒 𝑿𝟏 𝑿𝟑 𝑿𝟏 𝑿𝟑 𝑿𝟒 𝑿𝟏 𝑿𝟒 𝑿𝟏 𝑿𝟐 𝑿𝟑 𝑿𝟒 𝑿𝟐 𝑿𝟑 𝑿𝟐 𝑿𝟑 𝑿𝟐 𝑿𝟒 𝑿𝟑 𝑿𝟒 𝑿𝟒 𝝓 Figure 2-3 : Sous-ensembles de variables possibles à partir d’un ensemble de 4 variables En ce qui concerne les recherches complètes, l’algorithme le plus classique trouvé dans la littérature est l’algorithme « Branch and Bound » de Narendra et Fukunaga (Narendra & Fukunaga, 1977). Les parcours complets ou exhaustifs sont évidemment très couteux en temps de calcul. L’utilisation d’une heuristique suit une stratégie de recherche que l’on sait non optimale mais qui assure la découverte d’une solution rapidement, que l’on souhaite proche de la solution optimale. Les algorithmes classiques de recherche complète intègrent tous une heuristique pour les rendre opérationnels. Pour l’algorithme en largeur d’abord, l’heuristique « le meilleur en premier » consiste à ne prendre à chaque niveau de l’arbre que le meilleur sous-ensemble. C’est une stratégie qui ne prend en compte la notion de meilleur qu’à un seul niveau de l’arbre (c’est-à-dire qu’elle ne garde que le meilleur sous-ensemble de chaque taille). Augmenter le nombre de niveaux sur lequel on retient le meilleur sous-ensemble augmente aussi le cout en temps pour trouver une solution optimale. Une amélioration de cette heuristique consiste à prendre en compte le fait qu’un meilleur sous-ensemble à un niveau i de l’arbre ne provient pas forcement du meilleur sous-ensemble du niveau meilleur sous-ensemble de taille de taille ). (le n’engendre pas forcement le meilleur sous-ensemble 54 Chapitre 2: Sélection de variables pour la classification supervisée Les algorithmes précédemment présentés sont déterministes. Une part de stochastique peut être introduite dans ces approches pour éviter un des principaux inconvénients des algorithmes précédents à savoir tomber dans un optimal local. Dans ce cas on parle d’une génération aléatoire. Boddy et Dean (Boddy & Dean, 1994) ont proposé un algorithme qui sélectionne à chaque tour un sous-ensemble généré aléatoirement s’il satisfait un critère de qualité et si sa cardinalité est inférieure au meilleur ensemble courant. Le problème de ce genre d’algorithme reste le critère d’arrêt. Pour cela, on peut choisir de limiter le nombre d’itérations ou bien de s’arrêter dès lors que l’on a obtenu un ensemble ayant pour cardinalité le minimum que l’on s’était fixé (mais rien n’assure que l’algorithme ne se termine dans ce dernier cas). Siedlecki et Sklansky (Siedlecki & Sklansky, 1988) ont proposé d’appliquer un algorithme génétique ou bien une méthode de recuit simulé pour générer un meilleur sous-ensemble de variables pertinentes. Plusieurs implémentations de génération aléatoire de sous-ensembles de variables sont présentées dans (Press, et al., 1992). Ce point n’est pas à négliger puisque la performance de l’algorithme est étroitement liée à la qualité du générateur aléatoire. 2.3.4 Evaluation des sous-ensembles L'évaluation d'un sous-ensemble est traitée de façons très diverses tout en précisant le type d’approche utilisé et la fonction d’évaluation. Dans la littérature de la sélection de variables, trois classes de méthodes ont été considérées (Guyon & Elisseeff, 2003) : Approche filtre (filter) ; Approche enveloppe (wrapper) ; Approche intégrée (embedded). 2.3.4.1 L’approche filtre (filter) Le filtrage est un processus de prétraitement des données par filtrage des variables non pertinentes avant que n’intervienne la phase de classification. Il utilise les caractéristiques générales de l’ensemble de variables pour sélectionner certaines variables et en exclure d’autres. La plupart des approches filtres classent les variables selon leur pouvoir individuel 55 de prédiction de la classe qui peut être estimé de divers moyens tels que le score de Fisher (Furey, et al., 2000), le test de Kolomogorov-Smirnov, le coefficient de corrélation de Pearson (Miyahara & Pazzani, 2000) ou encore l’information mutuelle (Torkkola, 2003) ; (Battiti, 1994). Dans le cadre de ce type d’approche nous avons évalué et testé le critère statistique Lambda de Wilks, développé en analyse discriminante, pour sélectionner les variables les plus pertinentes (El Ouardighi, et al., 2007). Les résultats trouvés ont montrés que ce critère permet d’améliorer les performances en classification. Le principal avantage des méthodes filtre est leur efficacité calculatoire et leur robustesse face au sur-apprentissage. Malheureusement, ces méthodes ne tiennent pas compte des interactions entre les variables et tendent à sélectionner des variables comportant de l'information redondante plutôt que complémentaire (Guyon & Elisseeff, 2003). 2.3.4.2 L’approche enveloppe (Wrapper) Ces approches ont été introduites par Kohavi et John (John, et al., 1994) ; (Kohavi & John, 1997). Pour ces auteurs, les algorithmes de filtrage ne sont pas toujours efficaces car ils ignorent totalement l’influence de l’ensemble de variables sélectionnées sur les performances de l’algorithme de classification. Pour résoudre ce problème, ils proposent une approche différente qui utilise le résultat de l’algorithme de classification comme fonction d’évaluation. L’algorithme de classification appliqué aux données prétraitées est utilisé comme un sous-programme et considéré comme une boite noire par cet ensemble de méthodes. Le risque de sur-apprentissage est grand si le nombre d'observations est insuffisant et le nombre de variables à sélectionner doit être choisi par l'utilisateur. Enfin, le plus grand désavantage de ces méthodes est le temps de calcul qui devient vite important surtout dans le cas d’un grand nombre de variables. (John, et al., 1994) et (Aha & Bankert, 1995) furent les premiers à démontrer (de façon empirique) que la stratégie enveloppe était supérieur à la stratégie filtre en terme de performance de classification. 56 Chapitre 2: Sélection de variables pour la classification supervisée 2.3.4.3 L’approche intégrée (Embedded) Les approches intégrées incorporent la sélection de variables lors du processus d'apprentissage, sans étape de validation, pour maximiser la qualité de l'ajustement et minimiser le nombre de variables. Un exemple très connu est celui des arbres de décision, où les variables sélectionnées sont celles présentes au niveau de la division de chaque nœud. Selon Guyon et al. (Guyon & Elisseeff, 2003), ces approches seraient bien plus avantageuses en terme de temps de calcul que les méthodes de type wrapper et seraient robustes face au problème de sur-apprentissage. 2.3.4.4 Fonction d’évaluation L’objectif associé à la fonction d’évaluation est de mesurer la capacité d’une variable, ou d’un ensemble de variables, à discriminer les classes de la partition impliquée par la variable endogène. L’optimalité d’un sous-ensemble est relative à la fonction d’évaluation utilisée. Dash et Liu (Dash & Liu, 1997) considèrent que ces fonctions peuvent être regroupées en cinq catégories qui sont les suivantes : les mesures de divergence, les mesures d’information, les mesures de dépendance, les mesures de consistance et les mesures de précision. Information : fonctions quantifiant l’information apportée par une variable sur la variable à prédire. La variable, ayant le gain d’information le plus élevé, est préférée aux autres variables. (Le gain d’information étant la différence entre l’incertitude a priori et l’incertitude a posteriori.) Distance : fonctions s’intéressant au pouvoir discriminant d’une variable. Elles évaluent la séparabilité des classes en se basant sur les distributions de probabilités des classes. Une variable est préférée à une autre si elle induit une plus grande séparabilité. Dépendance : fonctions mesurant la corrélation ou l’association. Elles permettent de calculer le degré avec lequel une variable exogène est associée à une variable endogène. Consistance : fonctions liées au biais des variables minimum. Ces méthodes recherchent le plus petit ensemble de variables qui satisfait un pourcentage 57 d’inconsistance minimum défini par l’utilisateur. (Deux objets sont dits inconsistants si leurs modalités sont identiques et s’ils appartiennent à deux classes différentes.) Ces mesures peuvent permettre de détecter les variables redondantes. Précision : ces méthodes utilisent le classifieur comme fonction d’évaluation. Le classifieur choisit, parmi tous les sous-ensembles de variables, celui qui est à l’origine de la meilleure précision prédictive. Récemment, (Cherit, et al., 2007) confirme que la mesure de dépendance est toujours considérée comme mesure d’information ou de distance. Si l’on écarte la mesure de l’erreur de classification qui est un critère d’évaluation de l’approche wrapper, les mesures utilisées comme critères d’évaluation peuvent être répartis en trois importantes catégories : mesure de consistance, mesure de distance et mesure de l’information. Il s’agit bien de mesures intrinsèques aux variables candidates, elles sont indépendantes de la phase d’apprentissage et sont très utilisées comme critères d’évaluation pour l’approche filtre. 2.3.5 Critère d’arrêt Le critère d’arrêt permet à la procédure de sélection de variables de s’arrêter. En effet, la plupart des fonctions d’évaluations rencontrées dans la littérature sont monotones. Le critère d’arrêt peut être lié à la procédure de recherche ou bien à la mesure d’évaluation (Dash & Liu, 1997). Dans le premier cas, le critère d’arrêt est soit la taille prédéfinie du sous-ensemble à sélectionner, soit un nombre fixe d’itérations de l’algorithme de sélection de variables. Dans le deuxième cas, un critère d’arrêt lié à la mesure d’évaluation est soit une différence de qualité entre deux ensembles non significative (l’ajout ou la suppression d’une variable n’améliore pas la qualité du sous-ensemble), soit un seuil pour la fonction d’évaluation à atteindre. Si la distribution empirique de la mesure d’évaluation est connue, un bon critère d’arrêt est alors l’invraisemblance de la valeur de l’évaluation. Cette invraisemblance est mesurée grâce à un test statistique. 58 Chapitre 2: Sélection de variables pour la classification supervisée 2.4 Principaux algorithmes existants Nous présentons ici quelques algorithmes de sélection de variables de la littérature qui illustrent la variété des stratégies mises en œuvre. Pour avoir plus de détails, les travaux de Liu et Motoda (Liu & Motoda, 1998) et de Dash et Liu (Dash & Liu, 1997) offrent un classement précis des algorithmes de base. Dans la littérature, les algorithmes de sélection de variables se divisent en deux grandes catégories : les algorithmes d’ordonnancement des variables et les algorithmes de construction du plus petit ensemble de variables. 2.4.1 Les algorithmes d’ordonnancement de variables Ces algorithmes retournent un classement des variables selon une mesure d’évaluation qui évalue chaque variable individuellement. La complexité de ce type d’algorithme est en où est le nombre de variables et le nombre d’individus (Liu & Motoda, 1998). L’algorithme d’ordonnancement le plus cité dans la littérature est l’algorithme Relief (Kira & Rendell, 1992). Cet algorithme se retreint aux problèmes à deux classes et repose sur le principe suivant : la variable idéale doit être en mesure, par des instanciations différentes de sa valeur, de séparer des individus voisins appartenant à des classes différentes. Si des individus sont de même classe, ses valeurs doivent être identiques. Relief a connu de nombreuses variantes. La plus intéressante est ReliefF de (Kononenko, 1994) qui permet de traiter les problèmes multi-classes. Un autre critère d’arrêt usuel pour les algorithmes d’ordonnancement de variables est de fixer le nombre de variables que l’on souhaite garder et de ne conserver ainsi les premières variables du classement. 2.4.2 Les algorithmes de construction du plus petit sousensemble de variables En pratique, on ne connait pas toujours le nombre de variables pertinentes et donc L’application d’algorithmes de classement est délicate. C’est pour cela que les algorithmes de construction du plus petit sous-ensemble de variables retournent un ensemble minimal de variables pertinentes et aucune différenciation n’est faite entre les variables. 59 2.4.2.1 Les méthodes complètes L’algorithme FOCUS (Almuallim & Dietterich, 1991) est un algorithme avec recherche complète. Il considère tous les sous-ensembles possibles en partant des ensembles de plus petite taille, les singletons. Dès que FOCUS trouve un ensemble qui satisfait la mesure de consistance, il s’arrête. FOCUS retourne donc le plus petit sous-ensemble qui suffit pour déterminer la classe des individus. La complexité en temps est de l’ordre de , avec nombre d’individus. Dès que le nombre de variables pertinentes est supérieur à le , le coût est exorbitant. La version de base n’autorise aucun bruit sur les données mais des heuristiques ont été proposées par la suite (Almuallim & Dietterich, 1994). L’algorithme ABB (Liu & Motoda, 1998) est une version automatique de l’algorithme « Branch and bound ». On parle d’automatique car le seuil est déterminé automatiquement et non prédéfini. L’algorithme débute avec l’ensemble complet des variables. On enlève une variable à la fois en utilisant un parcours en profondeur d’abord jusqu’à ce qu’aucune des variables ne puisse plus être supprimée puisque le critère d’inconsistance est satisfait. 2.4.2.2 Les méthodes avec une heuristique Cette catégorie de méthodes de sélection de variables est sans doute la catégorie la plus fournie. En effet, la plupart des travaux trouvés dans la littérature consistent à prendre un algorithme existant de sélection de variables et à l’améliorer en termes de performance de calcul ou d’évaluation de la qualité d’un sous-ensemble grâce à une heuristique. L’algorithme Relief, par exemple, a été de nombreuses fois améliore (Kononenko, 1994) ; (Kira & Rendell, 1992). L’algorithme DTM (Cardie, 1993) se sert des arbres de décision pour sélectionner les variables. L’algorithme C4.5 (Quinlan, 1993) est appliqué sur un ensemble d’apprentissage et les variables apparaissant dans l’arbre généré sont sélectionnées. De nombreuses autres approches utilisent les variables apparaissant dans un arbre de décision comme heuristique (Pudil, et al., 1994) ; (Poggi & Tuleau, 2006). 2.4.2.3 Les méthodes non déterministes Les algorithmes LVF et LVW sont deux algorithmes classiques non déterministes. Ces algorithmes sont efficaces et très simples à implémenter. De plus, les expérimentations 60 Chapitre 2: Sélection de variables pour la classification supervisée numériques ont montré que le résultat est généralement proche du sous-ensemble optimal dès lors que les ressources matérielles le permettent. Les méthodes d’algorithmes génétiques et de recuit simulé ont également été testées pour la sélection de variables (Siedlecki & Sklansky, 1988). Enfin, de nombreux travaux existent sur la construction d’algorithmes hybrides mixant plusieurs des algorithmes précédents en essayant de ne garder que les avantages de chacun. 2.4.3 Sélection de variables par information mutuelle L’information mutuelle est une mesure classique de liaison entre variables dans les problèmes de sélection de variables. Son utilisation en tant que mesure de pertinence a déjà été considérée a de nombreuses reprises dans la littérature (Hutter & Zaffalon, 2005). Elle est utilisée sous plusieurs formes : information mutuelle classique ou information mutuelle conditionnelle pour la prise en compte des variables préalablement choisies. 2.4.3.1 Définition et propriétés Dans la théorie des probabilités et la théorie de l'information, l'information mutuelle de deux variables aléatoires est une quantité mesurant la dépendance statistique de ces variables (Cover & Thomas, 1990). Elle se mesure souvent en bit. L'information mutuelle d'un couple de variables représente leur degré de dépendance au sens probabiliste. Elle mesure la quantité d’information qu’apporte une variable aléatoire sur une autre. C’est la réduction d’incertitude sur une variable aléatoire grâce à la connaissance d’une autre. Soit un couple de variables aléatoires de densité de probabilité jointe données par (on fait, l'abus de notation pour représenter la probabilité de l’événement . Notons les distributions marginales et . Alors l'information mutuelle est dans le cas discret : ∑ (2.5) 61 Et, dans le cas continu : ∬ Où , et (2.6) sont respectivement les densités des lois de , et . L’information mutuelle a les propriétés suivantes : si et seulement si et sont des variables aléatoires indépendantes ; L'information mutuelle est positive ou nulle ; L'information mutuelle est symétrique ; 2.4.3.2 Liens avec la théorie de l'information L'information mutuelle mesure la quantité d'information apportée en moyenne par une réalisation de sur les probabilités de réalisation de . En considérant qu'une distribution de probabilité représente notre connaissance sur un phénomène aléatoire, on mesure l'absence d'information par l'entropie de cette distribution. En ces termes, l'information mutuelle s'exprime par : (2.7) Où et conditionnelles, et sont des entropies, est l'entropie conjointe entre et sont des entropies et . On peut illustrer les relations reliant les entropies, entropies conditionnelles et information mutuelle grâce au diagramme de Venn (Figure 2-4) : Figure 2-4 : Digramme de Venn 62 Chapitre 2: Sélection de variables pour la classification supervisée L’information mutuelle conditionnelle (Cover & Thomas, 1990) des variables aléatoires et conditionnellement à , se définit comme la réduction d’incertitude sur connaissance de grâce à la sachant que , une troisième variable aléatoire, est réalisée : (2.8) 2.4.3.3 Calcul de l’information mutuelle Le calcul de l’information mutuelle est basé sur l'estimation des fonctions de densité de probabilités et probabilités jointes des variables. Cette estimation doit être effectuée sur base de données, en utilisant généralement soit des histogrammes soit des noyaux (Scott, 1992). Dans notre travail nous utilisons les histogrammes pour leurs avantages indéniables en termes de complexité de calcul, et leurs performances suffisantes dans ce contexte. L’estimation des densités de probabilités jointes passe par l’utilisation d’histogrammes bidimensionnels. Les tailles des cellules des histogrammes sont des paramètres importants qui doivent être choisis soigneusement. Si les cellules sont trop grandes, l'approximation ne sera pas assez précise ; si elles sont trop petites, la plupart d'entre elles seront vides et l'approximation ne sera pas suffisamment lisse. Même si des heuristiques ont été proposées (Bonnlander & Weigend, 1994) pour guider ce choix, seule l’expérience peut conduire à un choix optimal. Dans notre cas nous nous limiterons aux grilles régulières, dont les cellules sont de tailles identiques, et nous choisirons la taille des cellules selon un procédé de validation. 2.4.3.4 Sélection de variables par l’algorithme MIFS Battiti (Battiti, 1994) a proposé d’utiliser l’information mutuelle dans son algorithme de sélection ascendante de variables : Mutual Information based Feature Selection (MIFS). La probabilité jointe de et , deux variables aleatoires, est obtenue grace à l’algorithme de Fraser et Swinney (Frasner & Swinney, 1986). Cet algorithme ne permet de calculer que l’information mutuelle entre un couple de variables et la variable à expliquer. L’algorithme étant ascendant, il est nécessaire de calculer l’information mutuelle entre une variable et l’ensemble des variables déjà sélectionnées . L’algorithme MIFS simplifie le calcul de l’information mutuelle d’un ensemble en choisissant une variable représentative de 63 l’ensemble. Le nombre de variables est fixé à l’avance et à chaque étape, on choisit la variable qui maximise l’information mutuelle entre elle, l’ensemble des variables déjà sélectionnées et la variable à expliquer. Formellement, la variable sélectionnée par l’algorithme MIFS est celle qui maximise la fonction : ∑ ( Le facteur ) (2.9) permet de contrôler la pénalisation du terme de la redondance et il a une grande influence sur l’algorithme de sélection. Pour son algorithme MIFS, [Battiti, 1994] suggère des valeurs de ce choix de entre et . Kwak et Choi (Kwak & Choi, 2002) indiquent que ne donne pas des résultats satisfaisants et se justifie par le fait que, pour MIFS, la sélection du premier paramètre, qui a le maximum d’information mutuelle avec la classe , influe considérablement sur la sélection du second paramètre via le terme de la redondance. En effet, si , l’algorithme de sélection ne tient pas compte de la redondance des paramètres sélectionnés. Dans l’autre cas, si , l’algorithme de sélection donne plus d’importance au terme de la redondance au détriment du terme de la pertinence. Plusieurs auteurs [Battiti, 1994; Bollacker et Ghosh, 1996; Kwak et Choi, 2002b] utilisent des valeurs différentes de dans l’intervalle sans aucune justification. La valeur de est souvent déterminée expérimentalement et dépond des données utilisées. Plusieurs variantes de l’algrorithme MIFS ont été proposés ces dernière années. ont été proposé pour cette algorithme 2.4.3.5 Sélection de variables par l’algorithme de Koller and Sahami La méthode de Koller et Sahami (Koller & Sahami, 1996) se base sur l’idée qu’une variable, qui apporte peu ou pas du tout d’information en plus de celle apportée par un ensemble d’autres variables déjà sélectionnées, est soit redondante soit non pertinente. Par conséquent, elle doit être éliminée. Pour cela, les auteurs ont utilisé les chaines de Markov. Un sous-ensemble est une chaine de Markov pour la variable si, connaissant , est 64 Chapitre 2: Sélection de variables pour la classification supervisée conditionnellement indépendante de la variable à expliquer et de toutes les variables n’appartenant pas à . 2.4.3.6 Sélection de variables par l’algorithme de Yang et Moody Les travaux de Yang et Moody (Yang & Moody, 1999) portent sur un algorithme de sélection de variables base sur l’information mutuelle jointe. Ils utilisent l’information mutuelle conditionnelle. Pour chaque variable potentielle, l’algorithme calcule le gain d’information qu’elle apporte, c’est à dire l’information mutuelle de cette variable avec la variable à expliquer conditionnellement aux variables déjà sélectionnées. Une variable indépendante de la variable à expliquer est si son information mutuelle conditionnée par les variables déjà choisies est nulle. A chaque étape, l’algorithme classe donc les variables restantes en terme d’information mutuelle conditionnelle et sélectionne la variable apportant le plus d’information en plus de celles déjà choisies. 2.4.3.7 Sélection de variables par l’algorithme de Fleuret Les travaux de Fleuret (Fleuret, 2004) proposent un algorithme de sélection de variables basé sur l’information mutuelle conditionnelle. C’est une approche itérative par ajout de variables. La particularité de cet algorithme est la prise en compte des variables déjà sélectionnées. Une variable est considérée comme bonne si elle apporte suffisamment d’information sur la variable à expliquer et si cette information n’est apportée par aucune des variables déjà choisies. Plus formellement, une variable mutuelle entre et sachant est bonne si l’information est suffisamment grande pour chaque variable déjà choisie. La sélection de variables redondantes est ainsi évitée. 2.4.3.8 D’autres algorithmes Plusieurs algorithmes basés sur la théorie d’information ont été proposés ces dernières années pour la sélection de variables. Hutter et Zaffalon (Hutter & Zaffalon, 2005) utilisent une approximation de l’information mutuelle dans un cadre bayésien. Ait Kerroum (AitKerroum, et al., 2009) a proposé deux méthode de sélection de variables exploitant l’estimation directe de l’information mutuelle conjointe. La première est basée sur la 65 méthode de la fenêtre de Parzen et la méthode de la régularisation. La deuxième est basée le modèle de mélange gaussien et sur la méthode de la régularisation. Dans ce contexte nous avons proposé un nouveau critère appelé IGFS (Interaction Gain Feature Selector) Nous avons proposé un nouveau critère de sélection basé sur le gain d'interaction qui prend en considération l'interaction entre les variables. En effet, une variable peut être jugée non pertinente vis-à-vis de sa faible corrélation avec la classe, mais en la combinant avec d'autres variables elle devient très pertinente. Une suppression involontaire de ce type de variables peut se traduire par une perte d'information utile et, par conséquent, une dégradation des performances de la classification. Les performances du critère proposé, ont été évaluées dans le cadre de la reconnaissance des chiffres manuscrits (El Akadi, et al., 2008) et sur trois bases de données réelles issues de l’entrepôt de données UCI. Les tests menés sur trois bases de données réels ont montré que le critère proposé est compétitive avec les autres critères et même meilleur dans certains cas (El Akadi, et al., 2009). 2.5 Conclusion Dans ce chapitre, après avoir présenté le processus de sélection de variables et l’importance de la sélection de variables pour l’amélioration des performances des algorithmes de classification, nous avons illustré notre propos avec des algorithmes de sélection de variables proposés dans la littérature. Nous avons vu qu’une multitude de pistes de recherche s’offrent dans les algorithmes de sélection de variables. Nos travaux dans les chapitres suivants portent sur la proposition de nouvelles approches de sélection de variables. Nous proposons donc deux méthodes de sélection de variables, l’une pour la classification des données de puces à ADN et l’autre pour la sélection des caractéristiques discriminantes pour la reconnaissance faciale. Chapitre 3. Contribution à la sélection de gènes pour les puces à ADN .............................. 66 3.1 Introduction ...................................................................................................................................67 3.2 Technologie des puces à ADN ...................................................................................................68 3.3 Sélection des gènes pour les puces à ADN ...............................................................................69 3.4 Approche proposée ......................................................................................................................70 3.4.1 Structure générale de l’approche proposée ......................................................................70 3.4.2 Filtrage des gènes par l’algorithme MRMR......................................................................71 3.4.3 Sélection des sous-ensembles pertinents par Algorithme Génétique ..........................73 3.4.4 Expérimentations .................................................................................................................78 3.5 Conclusion......................................................................................................................................87 67 3.1 Introduction Les développements en biotechnologie ont permis à la biologie moléculaire de mesurer l'information contenue dans des milliers de gènes grâce aux puces à ADN (appelée DNA microarray en anglais). Ceci a permis de mesurer simultanément les niveaux d’expression de gènes au sein d’échantillons de tissus dans des conditions expérimentales données. Depuis le début des années 2000, un grand nombre de travaux se sont intéressés au problème de la classification des données issues des puces à ADN avec l’espoir de proposer des outils de diagnostic (reconnaissance tissu sain/tissu cancéreux ou distinction entre différents types de cancer) des différents cancers et aussi de compréhension des mécanismes de ces pathologies. Les premiers travaux sur la classification des données oncologique ont été publiés à la fin des années 90 (Golub, et al., 1999) ; (Alizadeh, et al., 2000). Le travail de Golub par exemple a montré que les données issues des puces à ADN permettaient de discriminer deux formes de leucémie. De plus, parmi les quelques 7000 gènes testés sur les puces pour cette expérience, un petit nombre de gènes (environ 50) apparaît comme très important pour la reconnaissance des deux formes de la maladie. Vu que les données analysées présentent plusieurs milliers de variables, il était nécessaire de proposer des méthodes innovantes pour la sélection de gènes. Les données issues des biopuces sont obtenues à partir d’un protocole complexe où plusieurs étapes peuvent introduire du bruit dans les données. Nous nous sommes donc intéressés au problème du prétraitement de ces données. Dans ce chapitre, nous proposons une approche hybride (El Akadi, et al., 2011) pour la sélection d’un sous ensemble de gènes optimal non redondant. L’approche proposée est basée sur la combinaison d’une méthode de type filtre utilisant le critère d’information mutuelle MRMR (Peng, et al., 2005) et une méthode de type wrapper basée sur une stratégie de recherche génétique utilisant un classifieur SVM pour l’évaluation des sousensembles candidats. 68 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN 3.2 Technologie des puces à ADN La technologie des puces à ADN ou biopuces, connaît à l’heure actuelle un essor exceptionnel et suscite un formidable intérêt dans la communauté scientifique. Cette technologie a été développée au début des années 1990 et permet la mesure simultanée des niveaux d’expression de plusieurs milliers de gènes, voire d’un génome entier, dans des dizaines de conditions différentes, physiologiques ou pathologiques. L’utilité de ces informations est scientifiquement incontestable car la connaissance du niveau d’expression d’un gène dans ces différentes situations constitue une avancée vers sa fonction, mais également vers le criblage de nouvelles molécules et l’identification de nouveaux médicaments et de nouveaux outils de diagnostic. Une puce ADN est constituée de fragments d’ADN immobilisés sur un support solide, de manière ordonnée. Chaque emplacement de séquence est soigneusement repéré : la position correspond au gène . Un emplacement est souvent appelé spot ou sonde. L’hybridation de la puce avec un échantillon biologique qui a été marqué par une substance radioactive ou fluorescente permet de quantifier l’ensemble des cibles qu’il contient : l’intensité du signal émis est proportionnel à la quantité de gènes cibles qu’il contient. Les données recueillies pour l’étude d’un problème donné sont regroupées sous forme de matrice avec une ligne par couple (gène, sonde) et une colonne par échantillon (Tableau 3-1). Chaque valeur de est la mesure du niveau d’expression du ième gène dans le jème échantillon, où et (Dudoit, et al., 2002) ; (Dubitzky, et al., 2003). Gèneid Gène1 Gène2 Gène3 Echantillon1 m11 m21 m31 Echantillon2 m12 m22 m32 EchantillonN m1N m2N m3N GèneM mM1 mM2 mMN Tableau 3-1 : Matrice d’expression des gènes Les différentes phases d’une analyse par puces ADN peuvent être source d’imprécision ou d’erreurs dans les mesures obtenues. De plus, le coût d’une puce à ADN et le coût d’une analyse étant très élevé et l’on ne dispose à l’heure actuelle que de quelques dizaines 69 d’expériences pour l’étude d’un problème donné (une pathologie par exemple). Pourtant chaque expérience a permis de relever le niveau d’expression pour plusieurs milliers de gènes. Les matrices de données qui sont actuellement disponibles ont donc les caractéristiques suivantes : Grande dimensionnalité due au nombre élevé de descripteurs (gènes) ; Nombre limité d’échantillons. De ce fait, la sélection des gènes est une tâche importante et nécessaire pour une meilleure exploitation des données des puces à ADN. 3.3 Sélection des gènes pour les puces à ADN Les données dont nous disposons consistent en l'expression de milliers de gènes (allant de 1000 à plus de 10000 gènes) mesurés sur un nombre restreint de lames ou membranes (ne dépassant pas en général 100). La finalité globale de ces expériences biologiques est de comprendre les interactions et régulations entre gènes présents sur les puces à ADN dans des conditions données. Plus précisément, dans le cas par exemple de données de cancer, l'analyse statistique peut répondre à trois types de questions (Dudoit, et al., 2002) : Identifier de nouvelles classes de tumeur à l'aide des profils d'expression des gènes (classification non supervisée) ; Classer des individus dans des classes de cancer connues (classification supervisée) ; Identifier des gènes marqueurs caractérisant le ou les différents cancers (sélection de variables). Nous nous sommes principalement intéressés aux deux derniers points sur des données publiques de cancer très répandues dans la littérature. D'un point de vue biologique, la sélection de variables (ici les gènes) devrait permettre de développer des tests de diagnostic pour détecter la maladie et pourrait aussi apporter plus de connaissances sur les caractéristiques de telle ou telle tumeur dans le cas de données oncologiques (El Akadi, et al., 2009). 70 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN La littérature concernant la sélection de gènes pour des données de puces à ADN étant très vaste, nous nous intéressons dans cette partie uniquement aux méthodes de classification supervisée ainsi que leurs applications, laissant de côté d'autres méthodes couramment utilisées pour réduire la dimension telles que l'Analyse en Composantes Principales (Hastie, et al., 2000), la régression Partial Least Squares (Antoniadis, et al., 2003) ; (Boulesteix, 2004). Par ailleurs, nous nous focalisons uniquement sur la sélection de variables à proprement parler et non pas sur la construction de nouvelles variables pour réduire la dimension. Ainsi, nous proposons dans la suite une approche hybride combinant les algorithmes génétiques et l’information mutuelle pour sélectionner les gènes les moins redondants et les plus pertinents permettant de réaliser les meilleurs taux de classification. 3.4 L’approche proposée Nous proposons une nouvelle approche de sélection de gènes basée sur la combinaison de deux approches de sélection de variables : l’approche filtre à travers l’algorithme MRMR et l’approche enveloppe « wrapper » à travers un algorithme génétique couplé à un classifieur. Notre choix s’est porté sur le classifieur SVM pour ses performances et sa robustesse. L’originalité de notre méthode est l’utilisation de deux approches différentes pour sélectionner un sous ensemble de gènes de petite taille et qui fournit de bonnes performances en classification. 3.4.1 Structure générale de l’approche proposée La procédure générale de notre approche (Figure 3-1) peut être caractérisée par un processus séquentiel en deux étapes qui utilise des techniques complémentaires pour réduire graduellement l’espace de recherche et sélectionner un sous ensemble pertinent de gènes. Etape 1 : C’est une étape de prétraitement qui a comme objectif de filtrer les gènes qui ne sont pas informatifs et d’éliminer les gènes redondants, par exemple des gènes dont les niveaux d’expression est uniforme quelle que soit la classe. La sortie de ce prétraitement est un ensemble de gènes classés par ordre de pertinence selon 71 le critère MRMR. Il s’agit d’une étape préliminaire pour la réduction des données de puces à ADN. Etape 2 : Cette étape consiste en une méthode enveloppe où un algorithme génétique (AG) explore, à partir des gènes retenus par le filtrage précédent, des sous-ensembles candidats et chaque candidat est évalué grâce à un classifieur SVM. Le taux de classification indique si le sous-ensemble candidat permet une bonne discrimination des classes. Le taux de classification est donc la fonction d’aptitude (fitness function) retenue dans l’AG. Ceci se traduit par l’utilisation d’une méthode enveloppe (wrapper) pour la sélection des sous-ensembles de gènes pertinents à partir d’un ensemble de gènes sélectionnées préalablement par une méthode filtre. Figure 3-1 : Schéma général de l’approche MRMR-GA Les sections suivantes donnent une description complète des étapes de l’approche proposée. 3.4.2 Filtrage des gènes par l’algorithme MRMR En utilisant le concept d'information mutuelle, la méthode MRMR sélectionne les gènes qui ont la plus haute pertinence par rapport à la classe cible et sont aussi peu redondants, c'est à dire, sélectionne les gènes qui sont dissemblables au maximum les uns aux autres. Soit soit un ensemble de variables constitué des gènes d’une puce à ADN et et les variables représentants, respectivement, les gènes et . Soit une classe 72 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN d’appartenance des échantillons caractérisés par les gènes. La méthode du maximum de pertinence (Maximum Relevance) sélectionne les gènes dont l’information mutuelle avec la classe est la plus élevée. Formellement, le critère de pertinence maximale est donné par : ∑ (3.1) Bien que nous puissions choisir individuellement les gènes supérieurs à l'aide du critère de maximum de pertinence, il a été reconnu que le meilleure sous ensemble composé de variables n’est pas nécessairement le sous-ensemble composé des meilleures variables, puisque la corrélation entre certaines variables peut aussi être élevée (Cover, 1974). Afin de supprimer la redondance entre les gènes sélectionnés, un critère de redondance minimale a été introduit. ∑ (3.2) Le critère de minimisation de la redondance et de maximisation de la pertinence (MRMR) combine les deux critères des équations (3.1) et (3.2). La mise en œuvre de ce critère est réalisée par un algorithme séquentiel incrémental pour l’optimisation simultanée des deux critères des équations de pertinence et de redondance. Soit l'ensemble globale des gènes et nous avons déjà sélectionné , un sous ensemble gènes, la tâche est de sélectionner le mème gène de l'ensemble avec . Ce gène est sélectionné en maximisant la pertinence individuelle moins la fonction de redondance. ( ∑ ) (3.3) À chaque étape, cette méthode choisit le gène qui a le meilleur compromis pertinenceredondance. À l'étape de la recherche ascendante, l'algorithme de recherche calcule valeurs et chaque valeur nécessite l'estimation de densités bi-variables (une pour chacune des variables déjà choisies plus une avec la variable objective). Il a été 73 démontré dans (Peng, et al., 2005) que le critère MRMR est une approximation optimale du premier ordre du critère de pertinence conditionnelle. En outre, MRMR évite l’estimation des densités multi-variables en utilisant plusieurs densités bi-variables. 3.4.3 Sélection des sous-ensembles pertinents par Algorithme Génétique Un Algorithme Génétique (AG) est un bon candidat pour étudier le problème de la sélection de gènes. En effet le problème de la sélection de variables est un problème d’optimisation pour les données de grande dimension comme les données de puces à ADN. Lorsque le nombre de gènes est trop élevé et que le nombre d’échantillons est limité, il est important de procéder à une phase de sélection de gènes pour une tâche de classification supervisée. Les algorithmes génétiques ont une grande capacité d’effectuer des recherches dans un grand espace de solutions. Il est légitime d’utiliser des heuristiques pour parcourir cet espace de recherche avec une complexité limitée. Pour cela nous proposons d’utiliser un algorithme génétique pour la recherche d’un bon sous-ensemble parmi une population de gènes afin de maximiser la performance de classification. De plus un codage binaire très naturel permet de représenter un sous-ensemble sélectionné et les opérateurs génétiques permettent de les manipuler pour obtenir des sous-ensembles de gènes de meilleure qualité. Pour évaluer chacun de ces sous-ensembles il faudra lancer plusieurs fois le classifieur utilisé afin de déduire la mesure de performance. Pour cela nous avons utilisé un mécanisme de validation croisée. Dans cette étape, la tâche de l’algorithme génétique sera de générer des sous-ensembles, et la tâche du classifieur sera d’évaluer la qualité de chaque sous-ensemble pour en choisir le meilleur. Dans notre approche on a utilisé deux classifieurs différents. Le classifieur SVM et le classifieur Baysien Naïf (BN). Nous détaillons dans la suite les composants de l’approche enveloppe basée sur l’algorithme génétique et le paramétrage adopté pour chaque composant. 74 3.4.3.1 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN Généralités sur les algorithmes génétiques Les algorithmes génétiques sont des algorithmes de recherche inspirés des mécanismes de l’évolution naturelle des êtres vivants et de la génétique. John H. Holland a exposé ses premiers travaux sur les algorithmes génétiques en 1962 (Holland, 1962). L’ouvrage de David Goldberg (Goldberg, 1989) a largement contribué à les vulgariser. Les algorithmes génétiques partent de l’idée d’utiliser les principes des processus d’évolution naturelle en tant que technique d’optimisation globale. Dans l’évolution naturelle, le problème auquel chaque espèce est confrontée est de chercher à s’adapter à un environnement complexe et généralement non statique. Très schématiquement, la connaissance acquise par chaque espèce est codée dans les chromosomes de ses membres. Lors des reproductions sexuelles, les contenus des chromosomes sont mélangés, modifiés et transmis aux descendants par un certain nombre d’opérateurs génétiques : la mutation, qui se traduit par l’inversion d’une faible partie du matériel génétique, et le croisement qui échange certaines parties des chromosomes des parents. Cette particularité de l’évolution naturelle : la capacité d’une population à explorer son environnement en parallèle et à recombiner les meilleurs individus entre eux, est empruntée par les algorithmes génétiques. Pour un problème d’optimisation donné, un individu représente un point de l’espace de recherche, une solution potentielle. On lui associe la valeur du critère à optimiser, son adaptation. On génère ensuite de façon itérative des populations d’individus sur lesquelles on applique des processus de sélection, de croisement et de mutation. La sélection a pour but de favoriser les meilleurs éléments de la population pour le critère considéré (les mieux adaptés), le croisement et la mutation assurent l’exploration et exploitation de l’espace de recherche. 75 Population initiale Génération Sélection Opérateurs (croisement,Non mutation…) Non Critère d’arrêt Oui Résultat Figure 3-2 : Eléments d’un algorithme génétique Les algorithmes génétiques sont normalement utilisés comme une bonne alternative pour l’optimisation de fonctions. La procédure stochastique utilisée dans un AG repose sur les points suivants (Whitley, 1995) ; (Gen & Cheng, 1997) ; (Mitchell, 1999) ; (Haupt & Haupt, 2004) ; (Eiben & Smith, 2007) : Un principe de codage pour chaque individu d’une population, Une fonction à optimiser, Un mécanisme de sélection, Des opérateurs génétiques tels que : le croisement, la mutation ou l’élitisme, Des paramètres initiaux tels que la taille initiale de la population, le(s) critères(s) d’arrêt, et la probabilité d’application des opérateurs génétiques. Un AG standard est donc une méthode un peu aveugle. Un AG produit des résultats réellement intéressants lorsqu’on arrive à guider son parcours dans l’espace de recherche. 76 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN Cela est réalisé grâce à des codages et des opérateurs spécialisés que prennent en compte le savoir-faire du problème. Ce qui se traduira en la construction d’algorithmes génétiques plus adaptatifs et plus efficaces. Dans la suite nous présentons le codage, la fonction d’évaluation et les différents opérateurs adoptés dans notre problème de sélection gènes. 3.4.3.2 Génération de la population initiale et codage des individus Comme le parcours de l’espace de recherche est effectué par l’AG, dans une population (P) un individu représente un sous-ensemble de gènes qui sont codés de manière binaire, où chaque allèle (bit) de l’individu représente un gène des données de puces à ADN. Si un allèle dans un sous-ensemble à une valeur de "1" cela signifie que ce gène a été sélectionné, par contre une valeur de "0" indique que le gène n’est pas sélectionné dans le sousensemble. La taille des individus correspond au nombre de gènes retenus par la phase de filtrage de l’étape 1. Les individus de la population initiale sont générés de façon complètement aléatoire. Il faut aussi dire que la taille de la population doit être constante. 3.4.3.3 La fonction d’évaluation La fonction d’évaluation ou d’aptitude (fitness function) dans notre approche a comme but de mesurer la qualité de classification fournie par le classifieur SVM. Autrement dit un sous-ensemble de gènes permettant un taux élevé de classification est considéré comme un meilleur sous-ensemble que celui donnant un taux faible de classification. Pour chaque individu de la population on calcule donc sa fonction d’aptitude en entraînant un SVM avec la représentation associée à ce sous-ensemble de gènes sélectionnés. Pour savoir si cet individu permet de fournir un bon classificateur, il est nécessaire d’appliquer un mécanisme de validation. Nous utilisons un schéma de validation croisée (LOOCV) du classifieur sur l’individu. 3.4.3.4 Le croisement La méthode de sélection des parents pour appliquer l’opérateur de croisement est celle de la roulette et le croisement que nous avons implémenté dans l’AG est le croisement en un 77 point. À partir de sous-ensembles de gènes parents, nous fabriquons deux nouveaux sousensembles enfants. Dans la Figure 3-3 un gène est choisi de manière aléatoire sur la longueur des parents. Dans notre exemple c’est le gène 3 qui est considéré comme le point de coupure. À partir de ce point de coupure on va produire deux morceaux que l’on échange entre les deux parents sélectionnés (P1 et P1). Les enfants produits par cet échange contiennent chacun donc un morceau qui a été hérité de ces parents. On peut noter que le nombre de gènes en commun entre les deux parents est égal à deux. Cela veut dire qu’il y a deux gènes pertinents qui sont communs à P1 et P2. Dans notre exemple, les gènes 3 et 8 figurent dans les deux parents, alors ils sont pertinents dans 2 sous-ensembles de bonne qualité. Notre opérateur tient en compte de cela et nous retrouvons ces 2 gènes dans les 2 enfants. Ils ont survécu grâce à leur capacité de fournir pour deux sous-ensembles de gènes différents une bonne performance de classification. Les enfants donc conserveront les gènes pertinents des parents pour participer à de nouvelles opérations génétiques. Figure 3-3 : Croisement à 1 point. On peut remarquer que notre opération de croisement préserve donc les gènes communs aux deux parents. 3.4.3.5 La mutation La mutation que nous avons implémentée est la mutation en points choisis au hasard (Figure 3-4). La mutation permet ainsi d’insérer ou ôter des gènes dans un sous ensemble en inversant la valeur du bit associé. Les points de mutation choisis de façon aléatoire (boîtes foncées) indiquent les gènes qui vont changer de valeur. La mutation permet donc 78 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN de considérer des sous-ensembles différents pour explorer des sous-ensembles de gènes pertinents un peu différents. Figure 3-4 : Exemple de mutation en 3 points. 3.4.3.6 Élitisme L’opérateur élitiste a comme but de préserver les meilleurs sous-ensembles de gènes. Pendant l’évolution d’une population, les opérations de croisement et surtout de la mutation peuvent détruire les individus de bonne qualité. Afin de conserver les individus dont la fonction d’aptitude est haute, nous recopions un pourcentage de la population dans la prochaine génération (Élitisme). 3.4.3.7 Le critère d’arrêt Dans un AG, il est nécessaire de définir un critère d’arrêt de l’exploration. Nous avons défini deux critères d’arrêt qui sont soit un nombre préfixé de générations ou un taux de classification parfait de 100%. 3.4.4 Expérimentations Pour évaluer les performances de notre méthode proposée nous avons utilisé cinq jeux de données publiques qui sont utilisés dans de nombreux travaux concernant la classification des données de puces à ADN. Ces jeux constituent en quelque sorte des jeux tests qui permettent de comparer les méthodes proposées depuis quelques années dans le domaine de la classification des données d’oncologie. Dans l’objectif de montrer que l’approche proposée peut fonctionner avec différents algorithmes de classification nous l’avons testé avec deux classifieurs : Le classifieur Baysien Naïf en raison de sa simplicité et sa complexité connu préalablement ; Le classifieur SVM en raison de ses performances et sa robustesse aux données de grande dimension (Christianini & Shawe-Taylor, 2000) ; (Wu, et al., 2008). 79 3.4.4.1 Les jeux de données Le tableau ci-dessous (Tableau 3-2) résume les caractéristiques des jeux de données utilisés et qui concernent tous des problèmes de reconnaissance de cancers ou de prévision de diagnostic en oncologie. Jeux de données NCI Lymphoma Lung Leukemia Colon Nombre de Nombre Classes d’échantillons 9 9 2 2 2 Nombre de gènes 60 96 181 72 62 9703 4026 12533 7070 2000 Tableau 3-2 : Caractéristiques des jeux de données NCI 1: Ce jeu de données a été étudié pour la première fois par (Ross, et al., 2000). Le jeu de données publié par NCI « National Cancer Intitute» consiste en 9703 gènes sur 60 tissus cancéreux (échantillons) répartis en neuf classes : 7 cancers de sein, 5 cancers de Cerveau, 7 cancers de colon, 6 leucémie, 8 melanoma, 9 cancers de poumon (NSCLC), 6 cancers ovariens, 2 cancers de prostate, 9 cancers rénale et 1 inconnu. Lymphoma2 : Ce jeu de données contient les informations médicales de 96 échantillons de lymphocytes relatifs à différents types de lymphome. Ces échantillons sont répartis en neuf classes de différents types de cancers lymphatique (Alizadeh, et al., 2000). Lung 3 (cancer du poumon) : Le jeu de données concernant le cancer du poumon a été traité par (Gordon, et al., 2002). Ce jeu décrit deux types de pathologie du cancer du poumon : le cancer de type adénocarcinome ADCA et le cancer du mésothéliome malin de la plèvre MPM. Le jeu contient 181 instances décrites pour 12533 gènes. Leukemia 4 (Leucémie) : Ce jeu de données est constitué de 72 échantillons représentant deux types de Leucémie aigüe. 47 tissus sont du type leucémie lymphoblastique aiguë 1 http://genome-www.stanford.edu/nci60 2 http://genome-www.stanford.edu/lymphoma 3 http://www-genome.wi.mit.edu/cgi-bin/cancer/datasets.cgi 4 http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi 80 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN (ALL) et 25 sont du type Leucémie myéloïde aiguë (AML). Pour chaque échantillon, les niveaux d’expression de 7129 gènes ont été relevés (Golub, et al., 1999). Colon 5 (Cancer du Colon) : Ce jeu de données qui concerne le cancer du Colon, est constitué de 62 échantillons dont 40 sont des tissus tumoraux et 22 sont des tissus sains ou normaux. Les expériences ont été menées avec des puces relevant les valeurs d’expression pour plus de 6500 gènes humains mais seuls les 2000 gènes ayant les plus fortes intensités minimales ont été retenus. La matrice des niveaux d’expression comporte donc 2000 Colonnes et 62 lignes. 3.4.4.2 Les paramètres utilisés Dans le cadre de l’étude de notre approche, plusieurs tests ont été effectués pour adopter le meilleur paramétrage. Le nombre de gènes à sélectionner par le filtre MRMR (étape 1) est fixé à 100. Les paramètres que nous avons fixés pour l’exploration génétique de la méthode enveloppe sont montrés dans le Tableau 3-3. Les paramètres du classifieur SVM que nous avons utilisé sont le noyau polynomiale du premier degré régularisation et un paramètre de . Paramètres Valeur Taille de la population Nombre de générations Probabilité de croisement (Pc) Probabilité de mutation (Pm) 100 20 0.8 0.1 Tableau 3-3 : Paramètre de l’algorithme génétique 3.4.4.3 Les résultats obtenus et comparaisons Les objectifs des expérimentations effectuées sur les cinq jeux de données de puces à ADN sont d’une part de tester l’effet de la sélection de gènes sur l’amélioration du taux de classification et d’autre part de montrer les performances de l’approche que nous avons proposée. Comme l’était déjà mentionné, les algorithmes de classification utilisés sont SVM et BN et l’évaluation du taux de classification et faite par une validation croisée de type LOOCV. 5 http://microarray.princeton.edu/oncology/affydata/index.html 81 Le tableau (Tableau 3-4) montre les taux de classification pour les cinq jeux de données Jeux de données pour chacun des algorithmes SVM et BN. NCI Lymphoma Lung Leukeimia Colon Classifieur utilisé SVM BN 56.67 45 95.83 92.71 87.67 89.04 98.61 83.33 85.48 66.13 Tableau 3-4 : Taux de classification (%) sans sélection de gènes Les résultats montrent que les taux de classification ne sont pas très satisfaisants en particulier pour les données NCI. L’algorithme SVM donne des résultats meilleurs que l’algorithme BN. Les performances dégradées du classifieur BN sont dues essentiellement à la sensibilité de ce classifieurs aux variables corrélées. Dans la suite, nous comparons les performances de trois méthodes de sélection de variables à savoir la méthode filtre MRMR, la méthode enveloppe GA et notre méthode hybride MRMR-GA. Pour les deux dernières méthodes nous avons utilisé le classifieur SVM pour estimer la fonction d’aptitude de l’AG par la validation croisée de type LOOCV. De même, les taux de classification, pour un sous-ensemble donnée, sont calculés par une validation LOOCV en utilisant un classifieur SVM et un classifieur BN. Les figures (Figure 3-5 à Figure 3-16) montrent les taux de classification en fonction du nombre de gènes sélectionnés par MRMR, GA et MRMR-GA sur les différents jeux de données ainsi que la moyenne du taux de classification sur l’ensemble des données en utilisant un classifieur SVM (Figure 3-5 à Figure 3-10) et un classifieur BN (Figure 3-11 à Figure 3-16). 82 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN Figure 3-6 : Taux de classification par un Figure 3-5 : Taux de classification par un classifieur SVM pour les données NCI classifieur SVM pour les données Lymphoma Figure 3-7 : Taux de classification par un Figure 3-8 : Taux de classification par un classifieur SVM pour les données Lung classifieur SVM pour les données Leukemia Figure 3-9 : Taux de classification par un Figure 3-10 : Moyenne du taux de classification classifieur SVM pour les données Colon par un classifieur SVM pour toutes les données 83 Figure 3-12 : Taux de classification par un Figure 3-11 : Taux de classification par un classifieur BN pour les données NCI classifieur BN pour les données Lymphoma Figure 3-14 : Taux de classification par un Figure 3-13 : Taux de classification par un classifieur BN pour les données Lung classifieur BN pour les données Leukemia Figure 3-15 : Taux de classification par un Figure 3-16 : Moyenne du taux de classification classifieur BN pour les données Colon par un classifieur BN pour toutes les données 84 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN Les graphes, ci-dessus, que la méthode MRMR-GA offre des taux de classification qui dépassent les deux autres méthodes. Par ailleurs, et dans le but de mieux comprendre et analyser les résultats obtenus dans ces expériences, nous présentons dans le Tableau 3-5 les taux de la classification en utilisant les quinze premiers gènes sélectionnés par chacune des trois méthodes en utilisant les deux classifieurs SVM et BN. Classifieur utilisé SVM MRMR Jeux de données NCI 70 GA BN MRMR-GA MRMR GA MRMR-GA 61.66 91.66 90 75 93.33 Lymphoma 97.91 93.75 100 93.75 96.87 98.96 Lung 91.78 95.89 97.26 93.15 95.89 95.89 Leukeimia 98.61 100 100 100 100 100 Colon 82.25 79.03 85.48 90.32 88.71 98.39 Tableau 3-5 : Taux de classification (%) avec 15 premiers gènes sélectionnés pour les 5 jeux de données Le Tableau 3-6 présente la moyenne du taux de classification sur l’ensemble de données pour différents nombres de gènes sélectionnés allant de 5 à 50. Les résultats obtenus ici montrent que l'algorithme MRMR-GA réalise une meilleure performance par rapport aux méthodes MRMR et GA. Les résultats montrent également que la combinaison du filtre MRMR avec une méthode enveloppe GA utilisant le BN donne les meilleurs résultats. Classifieur utilisé Nombre de gènes sélectionnés SVM 5 10 15 20 25 30 35 40 45 50 BN MRMR GA MRMR-GA MRMR GA MRMR-GA 77.42 87.03 88.11 87.03 87.53 86.39 87.10 88.98 88.20 87.28 77.58 81.12 86.34 81.12 88.51 88.47 89.88 91.23 90.56 93.30 83.88 87.88 95.97 87.88 93.82 93.29 93.10 96.51 93.46 93.65 83.37 90.00 93.44 87.53 92.54 93.09 92.87 92.53 93.35 93.28 80.49 87.62 91.29 88.51 93.35 92.59 91.60 92.16 91.61 91.72 88.14 96.55 97.31 93.82 97.65 98.25 98.20 96.62 96.95 96.95 Tableau 3-6 : Moyenne du taux de classification (%) sur l’ensemble de données pour un nombre différent de gènes sélectionnés 85 L'analyse des tableaux (Tableau 3-4, Tableau 3-5 et Tableau 3-6) montre que la sélection des gènes améliore le taux de classification. Cela implique que la sélection de gènes permet effectivement de réduire les données inutiles et le bruit pour améliorer le taux de classification. Dans la suite, nous proposons de faire une comparaison avec les travaux les plus importants dans le domaine de la sélection et de la classification des données de puces à ADN. Nous comparons nos résultats seulement si le processus d’expérimentation est similaire. Le Tableau 3-7 donne les taux de classification pour les différentes approches ainsi que le nombre de gènes retenus : taux de classification (nombre de gènes). Nous notons avec le symbole (–) le fait qu’un jeu de données n’est pas traité dans l’article consulté. Nous remarquons que les résultats obtenus par notre approche sont très compétitifs par rapport aux méthodes les plus représentatives des dernières années. Tout d’abord pour le jeu de données de la Leucémie (Leukemia) nous avons un taux parfait de classification de 100% avec seulement 15 gènes. Nous constatons que la meilleure performance pour ce jeu de données est reportée dans (Li, et al., 2008) avec seulement 7 gènes. Nous avons donc la deuxième meilleure performance. Dans les cas du jeu de donnés du cancer du Colon nous obtenons une performance de 85.48%. Par contre nous trouvons pour le classifieur BN une performance de 98.39% (la deuxième plus haute) avec un sous-ensemble de 15 gènes. Le travail de (Wang, et al., 2006) présente la deuxième meilleure performance avec 20 gènes. Si nous cherchons qui a le plus petit sous-ensemble de gènes avec une bonne performance nous trouvons le travail de (Peng, et al., 2006) avec 4 gènes. Parmi les approches dont le nombre de gènes est petit nous maintenons la meilleure position pour le cancer du Colon. En continuant avec le jeu de données de Poumon (Lung), nous trouvons que 3 approches offres un taux de classification parfait de 100%. Si nous nous comparons avec le nombre de gènes utilisés nous obtenons le second meilleur taux de classification (97.26% avec 15 gènes) après le travail de (Peng, et al., 2006) qui présente une performance de 100% avec seulement 3 gènes. 86 Chapitre 3: Contribution à la sélection de gènes pour les puces à ADN Approche Jeux de données Lung Lymphoma Leukemia Colon – – – – 85.4(15) (Tan & Gilbert, 2003) 91.1 95.1 93.2 – – (Ye, et al., 2004) 97.5 85 – – – (Liu, et al., 2004) 100(30) 91.9(30) 100(30) 98(30) – (Ding & Peng, 2005) 100 93.5 97.2 – – (Hu, et al., 2006) 94.1 83.8 – – – (Yang, et al., 2006) 73.2 84.8 – – – (Peng, et al., 2006) 98.6(5) 87.0(4) 100(3) – – (Wang, et al., 2006) 95.8(20) 100(20) – 95.6(20) – (Huerta, et al., 2006) 100 91.4 – – – (Cho & Won, 2007) 95.9(25) 87.7(25) – 93.0(25) – (Pang, et al., 2007) 94.1(35) 83.8(23) 91.2(34) – – (Li, et al., 2007) 97.1(20) 83.5(20) – 93.0(20) – (Zhang, et al., 2007) 100(30) 90.3(30) 100(30) 92.2(30) – 83.8(100) 85.4(100) – – – (Hernandez, et al., 2007) 91.5(3) 84.6(7) – – – (Wang, et al., 2007) 100(35) 93.5(35) – – – (Li, et al., 2008) 100(7) 93.6(15) – – – 100(15) 85.48(15) 97.26(15) 100(15) 91.66(15) (Ooi & Tan, 2003) (Yue, et al., 2007) Notre approche NCI Tableau 3-7 : Comparaison avec d’autres approches Pour le jeu de donnés Lymphoma nous avons la meilleure performance avec le plus petit nombre de gènes. En utilisant l’approche MRMR-GA nous avons une parfaite classification (100%) avec 15 gènes. Nous notons que le nombre de gènes rapportés dans les autres 87 travaux sont au moins de 20 gènes pour avoir un bon taux de classification et ils n’arrivent pas à fournir une haute performance. La deuxième meilleure performance pour ce jeu a été présentée dans (Liu, et al., 2004) avec 30 gènes. En ce qui concerne le jeu de données NCI nous remarquons qu’il n’existe pas beaucoup de travaux concernant ce jeu. En utilisant 15 gènes nous avons un taux de classification de 91.66% et qui est meilleur que celui listé dans (Ooi & Tan, 2003) et qui s’élève à 85,4%. Les résultats de cette analyse comparative avec d’autres méthodes proposées pour la sélection et la classification des données de puces à ADN nous ont permis de savoir à quel point notre approche est compétitive. Il ressort que l’approche MRMR-GA est capable de fournir des sous-ensembles de petite taille avec une haute performance. 3.5 Conclusion Dans ce chapitre nous avons proposé une nouvelle approche de sélection de gènes à ADN basée sur la combinaison de l’algorithme MRMR et d’un algorithme génétique utilisant un classifieur SVM pour l’évaluation des sous-ensembles candidats. Nous avons évalué les performances de notre approche sur cinq jeux de données du domaine d’oncologie. Les résultats obtenus montrent que la sélection de gènes améliore le taux de classification. Notez qu’avec un nombre réduit de gènes, ne dépassant pas quinze, nous avons obtenu des taux de classification élevés allant de 85% à 100% contre des taux allant de 56% à 98% si on utilise la totalité des gènes (des milliers). Cela implique que la sélection de gènes permet effectivement de réduire les données inutiles et le bruit pour améliorer le taux de classification. La comparaison avec les travaux les plus importants dans le domaine de la sélection et de la classification des données de puces à ADN montre que notre approche est performante et compétitive et produit des sous-ensembles de petite taille avec une haute performance. 88 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale Chapitre 4. Sélection de variable pour la reconnaissance faciale .......................................... 88 4.1 Introduction ...................................................................................................................................89 4.2 La reconnaissance faciale .............................................................................................................90 4.2.1 Dimensionnalité de l'espace visage ...................................................................................90 4.2.2 Principe de fonctionnement d’un système de reconnaissance de visage ....................91 4.2.3 Méthodes de reconnaissance faciale..................................................................................92 4.3 Approche proposée ......................................................................................................................94 4.3.1 Extraction des caractéristiques par DCT .........................................................................95 4.3.2 Critère proposé pour la sélection des caractéristiques ...................................................96 4.3.3 Expérimentations .................................................................................................................98 4.4 Conclusion................................................................................................................................... 103 89 4.1 Introduction Identifier une personne à partir de son visage est une tâche aisée pour les humains. En estil de même pour une machine ? Ceci définit la problématique de la reconnaissance faciale (Kanade, 1977) ; (Chellapa, et al., 1995) ; (Bartlett, 2001), qui a engendré un grand nombre de travaux de recherche au cours des dernières années. Dans toutes les méthodes de reconnaissance faciale, le point le plus délicat concerne l’extraction et la sélection des caractéristiques faciales les plus pertinentes, à savoir les caractéristiques qui représentent le mieux les informations portées par un visage. Les caractéristiques faciales jouent un rôle très important dans la tâche de classification et de reconnaissance de visages. Par conséquent, la sélection des caractéristiques adéquates est nécessaire car certaines données brutes peuvent être redondantes ou non pertinentes pour cette tâche. Dans certains cas, les performances du système de reconnaissance (classificateur) sont dégradées à cause de la présence des caractéristiques redondantes (Sun, et al., 2004). Ces dernières années, certains chercheurs ont étudié la possibilité d'extraction des caractéristiques dans le domaine fréquentiel en utilisant la transformée en cosinus discret (DCT : Discret Cosine Transform) (Er, et al., 2005) ; (Amine, et al., 2008). Les résultats ont montré que cette technique est prometteuse et permet d’avoir des caractéristiques discriminantes dans le domaine fréquentiel. Aussi, il a été conclu que même les caractéristiques les plus dominantes peuvent dégrader les performances du système de reconnaissance en raison de l'existence de variations de pose, d’éclairage et d’expression. De ce fait, la sélection des caractéristiques est une étape importante avant la classification. Dans ce chapitre nous proposons un nouveau critère permettant de mesurer la pertinence des caractéristiques dans le domaine fréquentiel. Ce critère repose sur la théorie d’information pour sélectionner les caractéristiques pertinentes permettant d’augmenter le taux de reconnaissance des visages par l’élimination des variables redondantes ou présentant un bruit. Le critère proposé est comparé à deux autre critères basées sur la théorie d’information, qui sont le critère MRMR déjà présenté dans le chapitre précédent et le critère CMIM 90 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale (Conditional Mutual Information Maximisation) (Fleuret, 2004). La comparaison des performances de ces critères est effectuée par les deux classifieurs SVM et LDA (Analyse discriminante linéaire). 4.2 La reconnaissance faciale Le problème de la reconnaissance faciale, appelé aussi reconnaissance de visages, peut être formulé comme suit : étant données une ou plusieurs images d'un visage, la tâche est de trouver ou de vérifier l'identité d'une personne par comparaison de son visage à l'ensemble des images de visage stockées dans une base de données. 4.2.1 Dimensionnalité de l'espace visage Une image du visage est un signal à 2 dimensions, acquis par un capteur digital (caméra numérique, scanner...). Ce capteur codera la couleur ou l'intensité des différents points de l'image dans une matrice de pixels à deux dimensions. Après une normalisation de l'image et une mise à l'échelle vers une taille fixe (ex : m*n), l'image du visage peut être considérée comme un vecteur dans un espace multidimensionnel . Ce vecteur est obtenu en mettant, simplement, dans un ordre fixe les éléments de la matrice des pixels. Afin de définir une image (ou un point) dans l'espace des images, nous devons spécifier une valeur pour chaque pixel de cette image. Le nombre de points constituant cet espace devient rapidement très grand, même pour les images de petite dimension. Cette dimensionnalité pose un certain nombre de problèmes pour les algorithmes de reconnaissance, qui se basent sur cette représentation de l'image, à savoir : dans un contexte de la reconnaissance, travailler dans un grand espace pose un problème de complexité de calcul ; pour les méthodes paramétriques, le nombre de paramètres à estimer peut rapidement dépasser le nombre d'échantillons d'apprentissage, ce qui pénalise l'estimation ; pour les méthodes non paramétriques, le nombre d'exemples nécessaires afin de représenter efficacement la distribution des données peut être insuffisant ; 91 Le cas du visage est assez particulier. Le visage est formé par des surfaces lisses et une texture régulière. Il possède une forte symétrie (dans le cas des images frontales) et il est formé à partir de mêmes objets (yeux, nez et bouche), qui ont les mêmes positions pour tous les visages. Ces spécificités donnent lieu à plusieurs constatations : les différents pixels de l'image du visage sont fortement corrélés ; les images des différents visages sont aussi corrélées ; un important nombre de points dans l'espace des images ne représentent pas des visages. En résumé, la dimensionnalité élevée de l’espace de représentation du visage et la forte corrélation des caractéristiques du visage ainsi que la présentation de plusieurs caractéristiques non pertinentes pose un certain nombre de problèmes pour les algorithmes de reconnaissance ce qui nécessite d’effectuer une sélection adéquate des caractéristiques représentatives du visage avant la phase de reconnaissance ou de classification. 4.2.2 Principe de fonctionnement d’un système de reconnaissance de visage En général, un système de reconnaissance faciale est constitué de deux modules : un module de détection ou localisation de visage, et un module de reconnaissance qui se déroule en trois étapes : normalisation ou prétraitement, extraction de caractéristiques faciales, classification (Tan, et al., 2006) ; (Zhao, et al., 2000). Détection du visage Normalisation du visage Extraction de caractéristiques Classification Figure 4-1 : Schéma général de reconnaissance de visage La détection des visages est la première étape importante de tous les systèmes de reconnaissance faciale. Étant donnée une image ou une séquence d'images, l'objectif de cette étape est de déterminer la présence ou non d'un visage dans l'image ainsi que sa localisation. Après la détection, le visage est normalisé. La normalisation implique généralement une normalisation géométrique des visages dans un but d'alignement et une normalisation d'éclairement dans un but de compensation des variations d'illumination. Les 92 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale zones de visages normalisées sont ensuite utilisées pour l'extraction des caractéristiques faciales. Les caractéristiques extraites sont les informations utiles à la phase de reconnaissance et elles doivent être, dans la mesure du possible, discriminantes et robustes aux changements extérieurs, tels que la pose, l'expression, etc. Les caractéristiques faciales sont modélisées pour fournir la signature biométrique du visage qui est ensuite utilisée dans la phase de classification. Lors de cette dernière étape, on distingue deux tâches : l'identification et la vérification. En mode identification de visage, l'image à l'entrée du système est l'image d'un inconnu et le système doit rechercher l'identité de cet inconnu par comparaison de ses caractéristiques faciales à l'ensemble des caractéristiques faciales des visages de la base de données d'individus connus. En mode vérification, la personne à l'entrée du système déclare son identité et le rôle du système est de confirmer ou de rejeter l'identité revendiquée par comparaison de ses caractéristiques faciales uniquement avec celles de l'identité revendiquée. 4.2.3 Méthodes de reconnaissance faciale De nombreuses méthodes de reconnaissance de visages ont été proposées au cours des 30 dernières années. La reconnaissance faciale automatique est un challenge tel qu'il a suscité de nombreuses recherches dans des disciplines différentes : psychologie, neurologie, mathématiques, physique, et informatique (reconnaissance des formes, réseaux de neurones, vision par ordinateur). C'est la raison pour laquelle la littérature sur la reconnaissance de visages est vaste et diversifiée (Tan, et al., 2006) ; (Zhao, et al., 2000). Les systèmes de reconnaissance de visages sont très souvent classés à partir des conclusions d'études psychologiques sur la façon dont les hommes utilisent les caractéristiques faciales pour reconnaitre les autres. De ce point de vue, on distingue les trois catégories suivantes : Les méthodes de correspondance globales : ces méthodes utilisent la région entière du visage comme entrée du système de reconnaissance. L'une des méthodes la plus largement utilisée pour la représentation du visage dans son ensemble est la représentation à partir de l'image de visages propres (Turk & Pentland, 1991) basée sur une analyse en composantes principales (ACP). Les méthodes de correspondance locales : typiquement, ces méthodes extraient tout d'abord des caractéristiques locales, puis utilisent leurs statistiques locales (la 93 géométrie et/ou l'apparence) comme donnée d'entrée du classificateur. Les méthodes locales peuvent être classées en deux catégories, les méthodes basées sur les points d'intérêt et celles basées sur l'apparence du visage. Dans le premier cas, on détecte tout d'abord les points d'intérêt et ensuite on extrait des caractéristiques localisées sur ces points d'intérêt. Dans le second cas, on divise le visage en petites régions (ou patchs) sur lesquelles les caractéristiques locales sont extraites directement. En comparaison avec les approches globales, les méthodes locales présentent certains avantages. Tout d'abord, elles peuvent fournir des informations supplémentaires basées sur les parties locales. De plus, pour chaque type de caractéristiques locales, on peut choisir le classificateur le plus adapté. Les méthodes hybrides : ces méthodes combinent les deux types de caractéristiques locales et globales. L’approche qu’on propose dans ce chapitre est une méthode de correspondance globale basée sur l’apparence du visage. Ce type d’approches comportent, en générale, quatre étapes : le découpage en régions de la zone du visage, l'extraction des caractéristiques, la sélection des caractéristiques et la classification. Découpage en régions : les deux facteurs qui définissent une région locale sont sa forme et sa taille. La forme peut être rectangulaire, elliptique, etc., mais ce qui est le plus largement utilisé est le découpage rectangulaire. Les fenêtres peuvent être superposées ou non. La taille de la région a une influence directe sur le nombre de caractéristiques et la robustesse de la méthode. Extraction des caractéristiques locales : une fois que les régions locales ont été définies, il s’agit de choisir la meilleure manière de représenter les informations de chaque région. Cette étape est critique pour les performances du système de reconnaissance. Les caractéristiques couramment utilisées sont les valeurs de gris, les coefficients de Gabor (Brunelli & Poggio, 1993) ; (Wiskott, et al., 1997), les ondelettes de Harr (Viola & Jones, 2004), les transformées de Fourier, les caractéristiques basées sur les indices LBP (Local Binary Pattern) (Ahonen, et al., 2004), SIFT (Scale Invariant Feature Transform) (Lowe, 2004) ou DCT. Cette dernière méthode a été adoptée dans notre travail et sera détaillée dans la section suivante. 94 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale Sélection des caractéristiques : il est possible de calculer de nombreuses caractéristiques faciales a priori. De ce fait, une étape de sélection des caractéristiques les plus pertinentes peut s'avérer nécessaire pour des questions de rapidité de traitement. L'ACP (Turk & Pentland, 1991) est une méthode couramment utilisée pour sélectionner des caractéristiques en garantissant une perte minimum d'informations. L’analyse discriminante peut être utilisée pour sélectionner les caractéristiques les plus discdiminante (Belhumeur, et al., 1997) (Martinez & Kak, 2001), d'autres techniques comme l'Adaboost (Viola & Jones, 2004) sont également possibles pour cette tâche. Classification : La dernière étape est bien entendu l'identification de visage. Plusieurs travaux ont été publié concernant l’utilisation des différentes algorithmes et techniques de classification. L’objectif étant d’améliorer le taux de reconnaissance des visages. 4.3 Approche proposée Dans cette section, nous proposons une approche d’extraction des caractéristiques basée sur la combinaison de la méthode DCT d’extraction des caractéristiques et d’un nouveau critère permettant la sélection des caractéristiques dans le domaine fréquentiel appelé PMI (Ponderated Mutual Information). Au début, la transformée en DCT est appliquée pour convertir l'image en domaine fréquentiel et une première réduction de la dimensionnalité est opérée par le rejet des composant à haute fréquence. Ensuite, le critère PMI est utilisé pour sélectionner les caractéristiques discriminantes à partir des coefficients DCT. La Figure 4-2 montre le schéma général de la reconnaissance faciale basée sur une extraction des caractéristiques par DCT suivie d’une sélection des caractéristiques par le critère PMI. Détection du visage Normalisation du visage Extraction de caractéristiques DCT Sélection de caractéristiques PMI Figure 4-2 : Schéma général de l’approche proposée Classification 95 4.3.1 Extraction des caractéristiques par DCT La transformée en cosinus discrète DCT (Discrete Cosine Transform) est une fonction mathématique qui permet de changer le domaine de représentation d'un signal. Ainsi un signal temporel ou spatial peut être défini dans un espace fréquentiel, rendant exploitables certaines de ces propriétés. La DCT est très utilisée en traitement du signal et de l'image, et spécialement en compression (Rao & Yip, 1990). La DCT possède en effet une excellente propriété de « regroupement » de l'énergie : l'information est essentiellement portée par les coefficients basses fréquences. L'application de la DCT fait passer l'information de l'image du domaine spatial en une représentation identique dans le domaine fréquentiel. Pourquoi ce changement de domaine est-il si intéressant ? Justement parce qu'une image classique admet une grande continuité entre les valeurs des pixels. Les hautes fréquences étant réservées à des changements rapides d'intensité du pixel, ceux-ci sont en général minimes dans une image. Ainsi on parvient à représenter l'intégralité de l'information de l'image sur très peu de coefficients, correspondant à des fréquences plutôt basses, la composante continue (valeur moyenne de l'image traitée) ayant une grande importance pour l'œil. La DCT s'applique à une matrice carrée. Le résultat fourni est représenté dans une matrice de même dimension. Les basses fréquences se trouvant en haut à gauche de la matrice, et les hautes fréquences en bas à droite. La transformation matricielle DCT étant orthogonale, elle s'accompagne d'une méthode d'inversion pour pouvoir revenir dans le domaine spatial. Ainsi après avoir fait des modifications dans le domaine fréquentiel, éliminer des variations de l'image quasiment invisibles par l'œil humain, on retourne à une représentation sous forme de pixels. La formule ci-dessous montre comment calculer la DCT sur une matrice √ ∑∑ : (4.1) 96 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale { √ L'information locale de l’image peut être obtenue à l'aide des blocs de la DCT. Le principe est le suivant : l’image est divisée en blocs de taille pixels. Chaque bloc est représenté par les coefficients de la DCT. A partir de ces derniers, seuls ceux se trouvant en haut à gauche du bloc sont les plus pertinents et les plus utiles. (Kernel & Stiefelhagen, 2006) ont montré que l’information nécessaire à la réalisation d’une haute précision de la classification est contenue dans les premiers coefficients de la DCT (les basses fréquences) par balayage en zigzag (Figure 4-3). Figure 4-3 : Passage du domaine spatial au domaine fréquentiel 4.3.2 Sélection des caractéristiques utilisant le critère PMI Après l’extraction des caractéristiques qui sont représentés par des coefficients DCT, chaque image est représentée par un vecteur de caractéristiques sélectionner les caractéristiques . L’objectif est de les plus pertinentes. Pour éviter de sélectionner des coefficients redondants au cours de la procédure de sélection le pouvoir discriminant d’une caractéristique est mesuré par son information mutuelle, avec la classe, pondérée avec un coefficient qui prend en considération la redondance avec les caractéristiques déjà choisies. Formellement la variable choisie par ce critère est la variable avec la valeur maximale : 97 (4.2) La valeur de est comprise entre [0,1]. La valeur de augmente ( ) si n’est pas redondante par rapport aux variables déjà sélectionnées. Pour déterminer la formule de , nous avons utilisé les notions de la théorie d’information présentées au chapitre 2. Soit rapport à l’entropie de et l’information mutuelle conditionnelle par . Figure 4-4 : Diagramme de Venn pour trois variables Les propriétés de l’information mutuelle obtenues à partir du diagramme de Venn, permettent d’obtenir la relation suivante : (4.3) Le digramme de Venn montre aussi que le conditionnement diminue l’information mutuelle. Formellement on a : (4.4) D’après(4.3) et (4.4) on a : 98 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale (4.5) Avec présente l’interaction entre les variables , et . Ce qui implique : (4.6) Si Si et et sont indépendantes alors ( sont redondantes alors ( ) ) et (maximal). et (minimal). Le degré d’interaction entre deux variables peut être caractérisé par le quotient de la formule (4.6). Lorsqu’on considère l’ensemble des variables déjà sélectionnées dans le sous-ensemble , la valeur moyenne du degré d’interaction peut être mesuré par : ∑ La formule (4.7) est une expression adéquate pour (4.7) . L’avantage de l’utilisation de ce critère et qu’une variable qui a des interactions avec les variables déjà séléctionnées ait une grande probabilité d’être choisie. La pertinence de chaque variable est prise en considération par l’information mutuelle avec la classe . 4.3.3 Expérimentations L’objectif des expérimentations est d’évaluer les performances du critère PMI dans l’amélioration du taux de classification des images. Ce critère est comparé avec deux critères de sélection de caractéristiques, MRMR et CMIM en utilisant une base des images constituée d’un mélange de deux bases publiques à savoir la base ORL6 et la base YALE7 (Amine, et al., 2008). Les classifieurs utilisés sont le classifieur SVM et le classifieur LDA. 6 http://www.cl.cam.ac.uk/Research/DTG/attarchive:pub/data/att faces.zip 7 http://cvc.yale.edu/projects/yalefaces/yalefaces.html 99 4.3.3.1 Base de données Pour tester l’approche proposée dans différentes situation d’expression faciale, de pose et de luminance, nous avons utilisé la base ORL+YALE. Dans cette base, les images sélectionnées sont des images presque frontales avec des variations de poses d’illumination et d’expressions. Sourcils, yeux, nez, lèvres et leurs entourages contribuent majoritairement dans la reconnaissance faciale. La normalisation de l’ensemble des images de la base de données est effectuée par un cadrage de l’image pour éliminer les parties non nécessaires de l’image. La taille retenue pour les images est 48x48 pixels par rapport à la position des yeux. Un exemple des images de la base est donné dans la Figure 4-5. La base contient 330 objets avec 10 images par objet pour un total de 3 300 images. La base entière est divisée en deux parties, six images de chaque objet sont utilisées pour la base d’apprentissage et le reste est utilisé pour le test. Figure 4-5 : Exemples de la base des visages (ORL+YALE) 4.3.3.2 Extraction et sélection des caractéristiques L’extraction des caractéristiques pour chaque image est opérés par la transformé DCT comme suit : L’image est divisée en blocks séparés de 8x8 pixels ; Chaque bloque est représenté par ces coefficients DCT ; Elimination des coefficients haute fréquence et maintient uniquement d’un nombre minimum de coefficients pour chaque block car l’information est concentrée dans les coefficients basse fréquence. 4.68% des coefficients est maintenu (Amine, et al., 2008) ; (Amine, et al., 2009); L’image est représentée par un vecteur composé des coefficients réduit de la transformé en DCT. 100 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale L’extraction des caractéristiques de l’ensemble des images donne lieu à une représentation matricielle avec une ligne par image et une colonne par caractéristique (Tableau 4-1). Chaque valeur de la image, où représente la valeur du et coefficient DCT pour . est le vecteur représentant la caractéristique. est le vecteur des classes d’appartenance des images. Imageid Image1 Image 2 Image 3 Coefficient1 x11 x12 x13 Coefficient2 x21 x22 x23 CoefficientM xM1 xM2 xM3 ImageN x1N x2N xMN Tableau 4-1 : Représentation matricielle de la base des images (visages) La sélection des caractéristiques s’effectue selon une procédure ascendante « forward» basée sur le critère PMI. La procédure se déroule comme suit : La première étape consiste à sélectionner la variable ayant l’information maximale avec la valeur à prédire ; La seconde étape consiste à sélectionner la variable spectrale qui maximise le produit Le critère PMI est comparé à deux critères de sélection des caractéristiques le critère CMIM et le critère MRMR. 4.3.3.3 Sélection des caractéristiques par CMIM Le critère de maximisation de l’information mutuelle conditionnelle (CMIM : Conditional Mutual Information Maximization Criterion) (Fleuret, 2004) propose de choisir la variable dont la pertinence conditionnelle minimale choisis rapport à pour les variables déjà est maximal. Cela nécessite le calcul de l’information mutuelle de , conditionnellement à chaque par précédemment choisis. Puis, la valeur minimale est retenue et la variable dont la pertinence minimale est maximale est choisie. La sélection de variables redondantes est ainsi évitée. 101 Formellement, la variable retournée par le critère CMIM est : 4.3.3.4 Sélection des caractéristiques par MRMR Le critère de redondance minimum - pertinence maximum (Peng, et al., 2005) , présenté dans le chapitre 3, consiste à choisir, parmi les variables non encore choisit , la variable qui a le meilleur compromis pertinence-redondance. Formellement, la variable retournée par le critère MRMR est : ( ∑ ) 4.3.3.5 Résultats sans sélection de caractéristiques Le tableau (Tableau 4-2) montre les taux de classification des images sans sélection de variables en utilisant un classifieur SVM et un classifieur LDA. Les paramètres du classifieur SVM sont un noyau polynomiale du premier degré et un paramètre de régularisation . Le nombre total des caractéristiques faciales utilisées est 200. Classifieur utilisé SVM LDA 87,1 86,8 Tableau 4-2 : Taux de classification sans sélection de caractéristiques 4.3.3.6 Résultats avec sélection de caractéristique Les figures (Figure 4-6) et (Figure 4-7) montrent les taux de classification en fonction du nombre de caractéristiques sélectionnées par MRMR, CMIM et PMI sur la base des images utilisée. 102 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale A rappeler que la base contient 330 objets avec 10 images par objet pour un total de 3 300 images. La base entière est divisée en deux parties, six images de chaque objet sont utilisées pour la base d’apprentissage (construction du modèle) et le reste est utilisé pour le test. Figure 4-6 : Comparaison des critères de sélection en utilisant un classifieur SVM Figure 4-7 : Comparaison des critères de sélection en utilisant un classifieur LDA Ces figures montrent que les caractéristiques sélectionnées par le critère PMI donnent des taux de classification meilleurs que ceux donnés par les deux autres critères et en particulier pour un nombre de variables inférieur à 15. 103 Le tableau (Tableau 3-1) donne une comparaison entre les taux de classification en utilisant 15 et 50 caractéristiques sélectionnées par les différents critères. Classifieur utilisé SVM Nombre de caractéristiques sélectionnées LDA MRMR CMIM PMI MRMR CMIM PMI 15 54,4 70,1 83,2 47 73,8 82,3 50 81,5 88,4 88,4 83,2 87 88,2 Tableau 4-3 : Taux de reconnaissance (%) pour différents critères de sélection des caractéristiques Pour 15 caractéristiques, le critère PMI offre le meilleur taux (83,2% pour SVM et 82,3 pour LDA) suivi par le critère CMIM (70,1% pour SVM et 73,8 pour LDA) et après le critère MRMR qui présente le taux de classification le plus faible (54,4% pour SVM et 47 pour LDA). Pour 50 caractéristiques, les critères PMI et CMIM donnent des taux de classification presque similaires et est comparable au taux de classification obtenu avec l’utilisation de la totalité des caractéristiques. 4.4 Conclusion Dans ce chapitre nous avons proposé un nouveau critère de sélection de caractéristiques pour la reconnaissance faciale. Ce critère s’intègre dans une approche globale d’extraction et de sélection de caractéristiques visant l’amélioration des taux de reconnaissance de visages. L’approche proposée consiste tout d’abord à extraire les caractéristiques des images dans le domaine fréquentiel par la transformé en DCT. Ensuite les coefficients haute fréquence sont éliminés car l’information est concentrée dans les coefficients basse fréquence. En fin notre critère PMI, basé sur la théorie d’information, est appliqué pour sélectionner les caractéristiques les plus pertinentes et moines redondantes. L’évaluation des performances de l’approche proposée a été effectuée en utilisant une base d’images constituée d’un mélange des deux bases publiques ORL et YALE. 104 Chapitre 4: Contribution à la sélection de variables pour la reconnaissance faciale Les taux de classification obtenus par 50 coefficients DCT sélectionnés par le critère PMI s’élève respectivement à 88,4% pour un classifieur SVM et 88,2% pour un classifieur LDA contre 87,1% pour SVM et 86,8% pour LDA en cas d’utilisation de la totalité des coefficients. Ceci dit, la sélection des caractéristique permet de maintenir, voire améliorer, le taux de reconnaissance de visage avec un nombre minimal de coefficients. Nous avons comparé le critère PMI à deux autres critères basés sur la théorie d’information et qui sont le critère MRMR et le critère CMIM. Les résultats montrent que le critère PMI offre les meilleures performances et surtout pour le nombre de coefficient inférieur ou égal à 15. Pour le cas de 15 coefficients, le critère PMI offre le meilleur taux (83,2% pour SVM et 82,3 pour LDA) suivi par le critère CMIM (70,1% pour SVM et 73,8 pour LDA) et après le critère MRMR qui présente le taux de classification le plus faible (54,4% pour SVM et 47 pour LDA). 105 Principales contributions : La sélection de variables est un domaine de recherche qui donne lieu à de nombreuses études et à de nouvelles approches. Les différents travaux réalisés durant cette thèse apportent plusieurs contributions concernant la sélection de variables pour des problèmes de classification supervisée. La première contribution développée dans ces travaux traite la sélection de gènes pour la classification de données de biopuces concernent des problèmes de reconnaissance de cancers et de prévision de diagnostic en oncologie. Nous avons proposé une nouvelle approche hybride (MRMR-GA) pour la sélection d’un sous ensemble de gènes optimal non redondant et fournissant de bonnes performances en classification. Notre approche est basée sur la combinaison de la méthode de filtrage MRMR (Peng, et al., 2005) et d’une méthode de type enveloppe « wrapper » basée sur une stratégie de recherche génétique et utilisant le classifieur SVM pour l’évaluation de la pertinence des sous-ensembles candidats. Cette approche peut être définie comme un processus séquentiel en deux étapes qui utilise des techniques complémentaires pour réduire graduellement l’espace de recherche et sélectionner un sous ensemble pertinent de gènes. La première étape est une étape préliminaire pour la réduction des données de puces à ADN par l’algorithme MRMR qui assure le filtrage des gènes qui ne sont pas informatifs, c’est-à-dire des gènes dont les niveaux d’expression sont uniformes quelle que soit la classe, et l’élimination des gènes redondants. Dans la deuxième étape un algorithme génétique (AG) explore des sousensembles candidats, chaque candidat est évalué grâce à un classifieur SVM ; le taux de classification indique si le sous-ensemble en question permet une bonne discrimination des classes ; cette information est donc la fonction d’aptitude retenue dans l’AG. 106 Conclusion générale et perspectives Nous avons réalisé de nombreuses expérimentations pour évaluer l’approche proposée par un classifieur SVM et un classifieur Baysien Naïf (BN) en utilisant 5 jeux de donnés biopuces. Les résultats obtenus lors de la comparaison entre l’approche hybride MRMRGA et les deux autres méthodes filtre MRMR et enveloppe GA-SVM ont démontré que notre approche est plus performante en terme de sélection des sous-ensembles de gènes permettant une meilleure discrimination des classes. La comparaison de cette approche avec d’autres algorithmes de sélection a mis en évidence que celle-ci rivalise très bien avec les méthodes de référence du point de vue du taux de classification et du nombre de gènes sélectionnés. Cette étude confirme encore une fois que la sélection de gènes permet effectivement de réduire les données inutiles et le bruit pour améliorer le taux de classification qui varie dans notre travail entre 85% et 100% pour uniquement 15 gènes contre des taux allant de 56% à 98% si on utilise la totalité des gènes (des milliers). La deuxième contribution de cette thèse correspond à l’introduction d’une nouvelle approche de sélection des caractéristiques permettant d’offrir de meilleures performances dans le domaine de la reconnaissance faciale. L’approche proposée est basée sur la sélection des caractéristiques par un critère basé sur la théorie d’information, à partir d’un ensemble de coefficients extraits préalablement par la transformée en DCT (Discret Cosine Transform). Au début, la transformée en DCT est appliquée pour convertir l'image en domaine fréquentiel et une première réduction de la dimensionnalité est opérée par le rejet des composants à haute fréquence. Ensuite, un nouveau critère appelé PMI (Ponderated Mutual Information) est utilisé pour sélectionner les coefficients les plus pertinents et moins redondants à partir des coefficients DCT. L’évaluation des performances de l’approche proposée a été effectuée sur une base d’images constituée d’un mélange de deux bases publiques ORL et YALE en utilisant un classifieur SVM et un classifieur LDA (Linear Discriminant Analysis). Les résultats expérimentaux ont démontré que les sous-ensembles de coefficients sélectionnés par le critère PMI présentent des taux de classification meilleurs par rapport aux taux obtenus par les sous-ensembles sélectionnés par CMIM (Fleuret, 2004) et MRMR, plus précisément pour les petits sous-ensembles ne dépassant pas 15 variables. Par ailleurs, les taux de classification obtenus par 50 coefficients DCT sélectionnés par le critère PMI s’élève respectivement à 88,4% pour un classifieur SVM et 88,2% pour un classifieur LDA contre 87,1% pour SVM et 86,8% pour LDA en cas d’utilisation de la totalité des coefficients. On 107 remarque que l’amélioration des taux de classification par la sélection de variables n’est pas très significative comme pour le cas de la sélection des gènes. Ceci est expliqué par la réduction considérable opérée préalablement sur les coefficients DCT par l’élimination des coefficients haute fréquence qui sont peu informatifs. Perspectives de recherche : Les travaux réalisés au cours de cette thèse nous ont permis de conclure que le problème de la sélection de variables est très prometteur, surtout dans le domaine de sélection de gènes pour les puces à ADN. De ce fait, nos perspectives de recherche sur la sélection de variables porteront, essentiellement, sur la proposition des techniques complémentaires permettant d’améliorer nos résultats sur la sélection de gènes pour la classification de données de biopuces concernent des problèmes de reconnaissance de cancers et de prévision de diagnostic en oncologie. Notre première perspective concerne l’évaluation de la pertinence biologique des gènes sélectionnés par notre méthode. La validation de la pertinence des gènes sélectionnés doit être jugé de la part du biologiste et par rapport à la problématique étudiée. Dans une deuxième perspective nous prévoyons de combiner plusieurs méthodes de filtrage pour l’obtention d’ensemble de gènes de départ au lieu d’utiliser uniquement le filtre MRMR. Ceci nous permettrait de travailler avec un sous ensemble initial plus robuste et ne dépendant pas d’une unique métrique. La dernière envisagée porte sur l’amélioration de la partie enveloppe de notre approche par l’utilisation de deux autres méthodes heuristiques de recherche inspirées de la nature et qui sont les colonies de fourmis (Ant colony) (Dorigo, et al., 2002) ; (Jensen, 2006) et les essaims de particules (PSO) (Kennedy & Eberhart, 2001). 108 Aha, D., & Bankert, R. (1995). A comparative evaluation of sequential feature selection algorithms. Learning from Data : Artificial Intelligence and Statistics, 5, 199-206. Ahonen, T., Hadid, A., & Pietikainen, M. (2004). Face recognition with local binary patterns. ECCV, pp. 469-481. Ait-Kerroum, M., Hammouch, A., & Aboutajdine, D. (2009). Textural feature selection by joint mutual information based on gaussian mixture model for multispectral image classification. (ELSEVIER, Éd.) Pattern Recognition Letters, special issue of Pattern Recognition and Remote Sensing. Alizadeh, A., Eisen, M., Ma, C., Lossos, I., & Osenwald AR., (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling. Nature, pp. 503-511. Almuallim, H., & Dietterich, T. G. (1991). Learning with many irrelevant features. Proceedings of the Ninth National Conference on Artificial Intelligence (AAAI-91) (pp. 547-552). Anaheim, California: AAAI Press. Almuallim, H., & Dietterich, T. G. (1994). Learning boolean concepts in the presence of many irrelevant features. Artificial Intelligence, 69(1-2), pp. 279-305. Amine, A., El Akadi, A., & Aboutajdine, D. (2009). GA-SVM and mutual information based frequency feature selection for face recognition. Infocomp, Journal Of Computer Science, 8(1), pp. 20-29. Amine, A., Ghouzali , S., & Aboutajdine, D. (2008). Investigation of feature dimension reduction based dct/svm for face recognition. IEEE Symposium on Computers en Communications. Antoniadis, A., Lambert-Lacroix, S., & Leblanc, F. (2003). Effective dimension reduction methods for tumors classification using gene expression data. Bioinformatics, 19(5), pp. 563570. 109 Bäck, T., & Hoffmeister, F. (1991). Extended selection mechanisms in genetic algorithms. International conference on genetic algoritms and their aplications (pp. 92-99). University of California: Morgan Kaufmann. Baker, J. (1985). Adaptative selection methods for genetic algorithms. International conference on genetic algoritms and their applications (pp. 101–111). Hillslade, New Jersey: J.J. Grefenstette, editor. Baker, J. (1987). Reducing bias and inefficiency in the selection algorithm. Reducing bias and inefficiency in the selection algorithm. Bartlett, M. S. (2001). Face image analysis by unsupervised learning. Kluwer Academic Publishers. Battiti, R. (1994). Using mutual information for selecting features in supervised neural net learning. IEEE Transaction on Neural Networks, 5(4), pp. 537-550. Belacel, N. (1999). Méthodes de classification multicritère, méthodologie et applications à l'aide au diagnostic médicale. Thèse de doctorat en science. Université Libre de Bruxelles. Belhumeur, P. N., Hespanha, J., & Kriegman, D. J. (1997). Eigenfaces vs. fisherfaces : Recognition using class specific linear projection. IEEE Transaction PAMI. Blum, A., & Langly, P. (1997). Selection of relevant features and examples in machine learning. Artificial Intelligence, 97, pp. 245-271. Boddy, M., & Dean, T. (1994). Decision-theoretic deliberation scheduling for problem solving in time-constrained environments. Artificial intelligence, 67(2), pp. 245-286. Bognar, K. (2003). Aspects théoriques de la classification à base de treillis. Université Debrecen: Institut de mathématiques et informatique. Bonnlander, B. V., & Weigend, A. S. (1994). Selecting input variables using mutual information and nonparametric density estimation. International Symposium on Artificial Neural Networks. Boulesteix, A. (2004). PLS Dimension Reduction for Classification. Statistical Applications in Genetics and Molecular Biology, 3(1). Breimann, L., Friedman, J., Olsen, R., & Stone, C. (1984). Classification and regression trees. California: Wadworth International. Brunelli, R., & Poggio, T. (1993). Face recognition : features versus templates. IEEE Transaction PAMI, 15(10), pp. 1042-1052. Cardie, C. (1993). Using decision trees to improve case-based learning. Proceeding of the Tenth International Conference on Machine Learning (pp. 25-32). Morgan Kaufman Publishers, Inc. Chambers, I. (2001). The practical handbook of genetic algorithms, applications. Chapman & Hall/CRC. 110 Bibliographie Chellapa, R., Wilson, C. L., & Sirohey, S. (1995). Human and machine recognition of faces: a survey. Proceeding of the IEEE, 83, pp. 705-741. Cherit, M., Kharma, N., Cheng-Lin, L., & Suen, C. (2007). Character recognition system a guide for students and practitioners. John Wiley. Cho, B. S., & Won, H. H. (2007). Cancer classification using ensemble of neural networks with multiple significant gene subsets. Applied Intelligence, 26(3), pp. 243–250. Christianini, N., & Shawe-Taylor, J. (2000). An introduction to support vector machines. Cambridge : Cambridge University Press. Cios, K. J., Pedrycz, W., Swiniarski, R. W., Kurgan, & A., L. (2007). Data mining: A knowledge discovery approach. Springer. Cormack, R. (1971). A review of Classification. Journal of the Royal Statistical Society, A(134), pp. 321-367. Cotta, C., & Moscato, P. (2003). The k-feature set problem is w[2]-complete. Journal of computer and system sciences, 68, pp. 686–690. Cover, T. (1974). The best two independent measurements are not the two best. IEEE Trans. Systems, Man and Cybernitics, 4, pp. 116-117. Cover, T., & Thomas, J. (1990). Elements of Information Theory. New York: John Willy. Dash, M., & Liu, H. (1997). Feature selection for classification. Intelligent Data Analysis, 1(3). Dash, M., & Liu, H. (2006). Hybrid serch of feature subsets. Dans Springer (Éd.), PRICAI. Davies, S., & Russell, S. (1994). Np-completeness of searches for smallest possible feature sets. AAAI Fall Symposium on Relevance. Dawid, H. (1999). Adaptive learning by genetic algorithms: Analytical results and applications to economic models. Springer. De Jong, K. (1975). An analysis of the behavior of a class of genetic adaptive systems. University of Michigan: PhD thesis. Devijver, P., & Kittler. (1982). Pattern Recognition: A Statistical Approach. Englewood Cliffs, New Jersy: Prentice-Hall. Ding, C., & Peng, H. (2005). Minimum redundancy feature selection from microarray gene expression data. Bioinformatics and Computational Biology, 3(2), pp. 185–206. Dorigo, M., Gambardella, L. M., Middendorf, M., & Stutzle, T. (2002). Guest editorial: special section on ant colony optimization. IEEE Transactions on Evolutionary computation, 6(4), pp. 317–319. 111 Dubitzky, W., Granzow, M., Downes, S., & Berrar., D. (2003). A practical approach to microarray data analysis, chapter Introduction to microarray data analysis. (K. A. Publishers, Éd.) Duch, W., Winiarski, T., & Biesiada, J. K. (2003). Feature selection and ranking filters. International Conference on Artificial Neural Networks, (pp. 251-254). Duda, O. R., Hart, E. P., & Stork, D. G., (2001). Patern classification. John Wiley & Sons. Dudoit, S., Fridlyand, J., & Speed, T. (2002). Comparison of Discrimination Methods for the Classification of Tumors Using Gene Expression Data. Journal of the American Statistical Association, 97(457), pp. 77-88. Eiben, A., & Smith, J. (2007). Introduction to Evolutionary Computing. Springer. El Akadi, A., AMINE, A., EL OUARDIGHI, A., & ABOUTAJDINE, D. (2010). "A novel information-theoritic measure for face frequency feature selection. ISIVC, Maroc. El Akadi, A., Amine, A., El Ouardighi, A., & Aboutajdine, D. (2011, Mars). A two-stage gene selection scheme utilizing MRMR filter and GA wrapper. Knowledge and Information Systems, 26(3), pp. 487-500. El Akadi, A., El Ouardighi, A., & Aboutajdine, D. (2009). A new combined approachesbased gene selection for cancer classification. The International Conference on Software, Knowledge, Information Management and Application, (pp. 41-45). Fès. El Akadi, A., El Ouardighi, A., & Aboutajdine, D. (2008, April). A powerful feature feature selection approach based on mutual information. International Journal Of Computer Science And Network Security, 8(4), pp. 116-121. El Akadi, A., El Ouardighi, A., & Aboutajdine, D. (2009). Sélection de variables basée sur le gain d'interaction. France: Europia. El Ouardighi, A., El Akadi, A., & Aboutajdine, D. (2007). Feature selection on supervised classification using wilks lambda statistic. IEEE International Symposium on Computational Intelligence and Intelligent Informatics, (pp. 51-57). Agadir. Er, M., Chen, W., & Wu, S. (2005, March). High-speed face recognition based on discrete cosine transform and rbf neural networks. IEEE Transaction on Neural Networks, 16, pp. 679-691. Fayyad, U., Piatetsky-Shapiro, G., Smyth, P., & Uthurusamy, R. (1996). Advances in Knowledge Discovery and Data Mining. (A. Press, Éd.) Menlo Park. Fleuret, F. (2004). Fast binary feature selection with conditional mutual information. Journal of Machine Learning Research, 5, pp. 1531-1555. Fogarty, T. (1989). Varying the probability of mutation in the genetic algorithm. the 3rd International Conference on Genetic Algorithms (pp. 104-109). Morgan Kaufmann Publishers Inc. 112 Bibliographie Frasner, A. M., & Swinney, H. L. (1986). Independant coordinates for strange attractors from mutual information. Physical Review, 33(2), pp. 1134-1140. Furey, T. S., Cristianini, N., Duffy, N., Bednarski, W., D., & Schummer, M. a. (2000). Support vector machine classification and validation of cancer tissue samples using microarray expression data. Bioinformatics, 16(10), pp. 906-914. Gen, M., & Cheng, R. (1997). Genetic algorithms and engineering design. John Wiley. Goldberg, D. (1989). Genetic Algorithms in Search, Optimization, and Machine Learning (Vol. 3). Reading, MA: Addison-Wesley. Goldberg, D. (1991). Real-coded genetic algorithms, virtual alphabets, and blocking. Complex Systems, 5, 139–167. Goldberg, D., & Deb, K. (1991). Foundations of genetic algorithms, chapter A comparative analysis of selection schemes used in genetic algorithms. Morgan Kaufmann. Golub, T., D. Slonim, P., Tamayo, C., Huard, M., Gaasenbeek, J., Mesirov, H., . . . Lander, E. (1999). Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring. Science, pp. 531–537. Gordon, G., Jensen, R., Hsiao, L., Gullans, S., Blumenstock, J., & S. Ramaswamy, W. R. (2002). Translation of microarray data into clinically relevant cancer diagnostic tests using gene expression ratios in lung cancer and mesothelioma. Cancer Research, 6, pp. 4963–4967. Guyon, I., & Elisseeff, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3, pp. 1157-1182. Guyon, I., & Elisseeff, A. (2003). An Introduction to Variable and Feature Selection. J. Machine Learning Research, 3, 1157-1182. Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques. Morgan Kaufman. Hancock, P. (1994). An empirical comparison of selection methods in evolutionary algorithms. AISB-Springer-verlag, 80–94. Hansen, P., & Jaumard, B. (1997). Cluster analysis and mathematical programming. Mathematic Programming, 79, pp. 191-215. Hastie, T., Tibshirani, R., Eisen, M., Alizadeh, A., Levy, R., Staudt, L., . . . Brown, P. (2000). Gene shaving as a method for identifying distinct sets of genes with similar expression patterns. Genome Biologie, 1(2), pp. 1-21. Haupt, R., & Haupt, S. (2004). Practical genetic algorithms (éd. second). New: John Wiley. Henriet, L. (2000). Système d'évaluation et de classification multicritères pour l'aide à la décision, construction de modles et procédures d'affectation. Thèse de doctorat en science. Université Paris Dauphine. 113 Herbrich, R. (2002). Learning kernel classifiers. MIT Press. Hernandez, J. C., Duval, B., & Hao, J. (2007). A genetic embedded approach for gene selection and classification. EVOBIO, (pp. 90–101). Holland, J. (1962). Outline for a logical theory of adaptative systems. Journal of the Association on Computing Machinery, 9(3), pp. 297–314. Holland, J. (1975). Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence. Ann Arbor, MI: University of Michigan Press. Hu, Y., Pang, S., & Havukkala, I. (2006). A novel microarray gene selection method based on consistency. HIS06: Sixth International Conference on Hybrid Intelligent Systems, (pp. 14-17). Huawen, L., Sun, J., Liu, L., & Zhang, H. (2009). Feature selection with dynamic mutual information. Pattern Recognition, pp. 1330-1339. Huerta, B. E., Duval, B., & Hao, J. (2006). A hybrid ga/svm approach for gene selection and classification of microarray data. Lecture Notes in Computer Science. Applications of Evolutionary Computing. (4th EuropeanWorkshop on Evolutionary BIOinformatics) (pp. 34-44). Springer. Hutter, M., & Zaffalon, M. (2005). Distribution of mutual information from complete and incomplete data. Computational Statistics and Data Analysis, 48, pp. 633-657. Iqbal, Q., & Aggarwal, J. K. (2002). Retrieval by Classification of Images Containing Large Manmade Objects Using Perceptual Grouping. Pattern Recognition J., 35, 1463 -1479. Jensen, R. (2006). Performing feature selection with aco. In Swarm Intelligence in Data Mining, pp. 45–73. John, G., Kohavi, R., & Peger, K. (1994). Irrelevant features and the subset selection problème. Eleventh International Conference on machine Learning, (pp. 121-129). Kanade, T. (1977). Computer recognition of human face. Kennedy, J., & Eberhart, R. C. (2001). Swarm intelligence. The Morgan Kaufmann. Kernel, E. K., & Stiefelhagen, R. (2006). Analysis of local appearance Based Face Recognition: Effects of Feature Selection and Feature Normalization. IEEE Computer Society CVPR'W'06 , (pp. 34-40). Kira, K., & Rendell, L. A. (1992). A practical approach to feature selection. Proceedings of the Ninth International Workshop on Machine Learning (pp. 249-256). San Francisco: Morgan Kaufmann Publishers Inc. Kira, K., & Rendell, L. A. (1992). The feature selection problem : traditional methods and a new algorithm. Proceedings of the Ninth National Conference on Machine Learning, (pp. 129-134). 114 Bibliographie Kohavi, R., & John, G. (1997). Wrappers for feature selection. Artificial Intelligence, 97(1-2), 273-324. Koller, D., & Sahami, M. (1996). Toward optimal feature selection. 13th Internattional Conference on Machine Learning, (pp. 1-15). Kononenko, I. (1994). Estimating attributes: Analysis and extension of Relief. European Conference on Machine Learning, (pp. 171-182). Kwak, N., & Choi, C. (2002). Input feature selection for classification problems. IEEE Transations on Neural Networks, pp. 143–159. Langley, P. (1994). Selection of relevant features in machine learning. pp. 140-144. Leray, P., & Gallinari, P. (1999). Feature selection with neural networks. Behaviormetrika, 26. Li, G., Zeng, X., Yang, J., & Yang, M. (2007). Partial least squares based dimension reduction with gene selection for tumor classification. IEEE 7th International Symposium on Bioinformatics and Bioengineering, (pp. 1439–1444). Li, S., Wu, X., & Hu, X. (2008). Gene selection using genetic algorithm and support vectors machines. Soft Computing, 12(7), pp. 693–698. Liu, B., Cui, Q., Jiang, T., & Ma, S. (2004). A combinational feature selection and ensemble neural network method for classification of gene expression data. BMC Bioinformatics, 5(138), pp. 1–12. Liu, H., & Motoda, H. (1998). Feature Extraction, Construction and Selection. Boston: Kluwer Academic. Liu, H., & Motoda, H. (2007). Computational Methods of feature Selection. Chapman and Hall/CRC Press. Liu, H., & Yu, L. (2005). Toward integrating feature selection algorithms for classification and clustering. IEEE Transaction On Knowledge and Data Engineering, 17(4), pp. 491-502. Lowe, D. (2004). Distinctive image features from scal-invariant keypoints. International Journal of Computer Vision, 60(2), pp. 91-110. Marchand, M., & Shawe-Taylor, J. (2002). The set Covering Machine. Journal of Machine Learning Research, 3, pp. 723-746. Mari, J., & Napoli, A. (1996). Aspects de la classification. Rapport technique 2909, INRIA. Martinez, A. M., & Kak, A. C. (2001). PCA versus IDA. IEEE Transaction PAMI, 23(2), pp. 228-233. Mercer, J. (1909). Functions of positive and negative type and their connection with the theory of integral equations. Philosophical Transactions of the Royal Society, pp. 441–458. 115 Michalewicz, Z. (1995). A survey of constraint handling techniques in evolutionary computation methods. the 4th Annual Conference on Evolutionary Programming (pp. 135-155). MIT Press, editor. Michie, D., Spiegelhalter, D., & C.C. (1994). Machine learning, neural and statistical classification. New York: Ellis Horwood. Mitchell, M. (1999). An Introduction to Genetic Algorithms. MIT Press. Mitchell, T. (1997). Machine Learning. WBC/McGraw-Hill. Miyahara, K., & Pazzani, M. J. (2000). Collaborative filtering with the simple bayesian classifier. Proceeding of the 6th Pacific Rim International Conference on Artificial Intelligence, (pp. 679689). Molina, L., Belanche, L., & Nebot, A. (2002). Evaluating feature selection algorithms. CCIA-LNCS, (pp. 216-227). Murtagh, F. (1983). A survey of recent advances in hierarchical clustring algorithms. The Computer Journal, 26(4), pp. 354-359. Narendra, P., & Fukunaga, K. (1977). A branch and bound algorithm for feature subset selection. IEEE Transaction Computers, 26(9), pp. 917-922. Niblack, W., Sheinvald, J., Dom, B., & Rendell, L. (1990). A modeling approach to feature selection. 10th International Conference on Pattern Recognition. Ooi, C., & Tan, P. (2003). Genetic algorithms applied to multi-class prediction for the analysis of gene expression data. Bioinformatics, 19, pp. 37–44. Pang, S., Havukkala, I., Hu, Y., & Kasabov, N. (2007). Classification consistency analysis for bootstrapping gene selection. Neural Computing and Applications, 16, pp. 527-539. Peng, H., Long, F., & Ding, C. (2005). Feature selection Based on Mutual Information: Criteria of Max-Dependency, Max-Relevance, and Min-Redundancy. IEEE transaction on pattern analysis and machine intelligence, 27(8). Peng, Y., Li, W., & Liu, Y. (2006). A hybrid approach for biomarker discovery from microarray gene expression data. Cancer Informatics, 2, pp. 301–311. Perny, P. (1998). Multicriteria filtering methods based on concordance and non discordance principles. Annals of operations research, pp. 137-165. Poggi, J. M., & Tuleau, C. (2006). Classification supervisee en grande dimension: application à l'agrément de conduite automobile. Revue de statistique appliquée, 4, pp. 41-60. Press, W., Teukolsky, S., Vetterling, W., & Flannery, B. (1992). Numerical Recipes in C (éd. 2nd Edition). Cambridge, UK: Cambridge University Press. 116 Bibliographie Pudil, P., Novovičova, J., & Kittler, J. (1994). Floating search methods in feature selection. Pattern Recognition Letter, 15(11), pp. 1119-1125. Quinlan, J. R. (1993). C4.5: programs for machine learning. San Francisco, USA: Morgan Kaufmann Publishers, Inc. Rao, K., & Yip, P. (1990). Discret Cosine Transform: Algorithms, Advantages, Applications. Boston: Academic Press. Ratanamahatana, C., & Gunopulos, D. (2003). Feature selection for the naive bayesian classifier using decision trees. Applied artificial intelligence, 5-6(17), pp. 475–487. Reeves, C. (1995). A genetic algorithm for flowshop sequencing. Operations Research, 22, pp. 5-13. Ross, D., Scherf, U., Eisen, M., Perou, C., & Rees C, S. P. (2000). Systematic variation in gene expression patterns in human cancer cell lines. Nature Genetics, pp. 227-235. Roy, B., & Bouyssou, D. (1993). Aide multicritère à la décision. Economica. Scott, D. W. (1992). Multivariable Density Estimation: Theory, Practice, and Visualization. New York: John Wiley. Setiono, R., & Liu, H. (1997). Neural-network feature selector. IEEE Transactions on Neural Networks, 8(3), pp. 654-662. Siedlecki, W., & Sklansky, J. (1988). On automatic feature selection. International Journal of Pattern Recognition and Artificial Intelligence, 2, pp. 197-220. Sun, Z., Bebis, G., & Miller, R. (2004). Object selection using feature subset selection. Pattern Recognition, 37, pp. 2165-2176. Tan, A. C., & Gilbert, D. (2003). Ensemble machine learning on gene expression data for cancer classification. Applied Bioinformatics, 2(2), pp. 75–83. Tan, X., Chen, S., Zhou, Z. H., & Zhang, F. (2006). Face recognition from a single image per person : A survey. Pattern Recognition, 39(9), pp. 1725-1745. Torkkola, K. (2003). Feature extraction by non parametric mutual information maximization. Journal of Machine Learning Research, 3, pp. 1415-1438. Turk, M., & Pentland, A. (1991). Eigenfaces for recognition. Journal of Cognitive Neuroscience, 3, pp. 7-86. Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag. Vapnik, V. (1998). Statistical learning theory. New York: Wiley. Vincent, P. (2003). Modèles à noyaux à structure locale. Thèse de Doctorat. Université de Montréal. 117 Viola, P., & Jones, M. (2004). Robust real-time face detection. International Journal of Computer Vision, 57, pp. 137-154. Wang, S., Chen, H., Li, S., & Zhang, D. (2007). Feature extraction from tumor gene expression profiles using DCTt and DFT. EPIA Workshops, (pp. 485–496). Wang, Z., Palade, V., & Xu, Y. (2006). Neuro-fuzzy ensemble approach for microarray cancer gene expression data analysis. Evolving Fuzzy Systems, (pp. 241–246). Weiss, S., & Kulikowski, C. (1991). Computer systems that learn, classification ans prediction methods from statistics, neural nets, machine learning and experts systems. San Mateo: California Morgan Kaufman Publishers. Weston, J., Mukherjee, S., Chapelle, O., Pontil, M., Poggio, T., & Vapnik, V. (2000). Feature Selection for SVMs. Whitley, D. (1989). The genitor algorithm and selection pressure: Why rank-based allocation of reproductive trials is best. The third international conference on genetic algorithms, (pp. 116-121). Whitley, D. (1995). Modeling hybrid genetic algorithms. Dans Genetic Algorithms in Engineering and Computer Science (pp. 191-201). John Wiley. Wiskott, L., Fellous, J. M., Kuiger, N., & von der Malsburg, C. (1997). Face recognition by elastic bunch graph matching. IEEE Transaction PAMI, 19(7), pp. 7775-779. Wright, A. (1991). Genetic algorithms for real parameter optimization. the foundation of genetic, 205–218. Wu, X., Kumar, V. Q., & McLachlan HMG, N. A. (2008). Top 10 algorithms in data mining, knowledge and information systems. International Journal of Knowledge and Information Systems (KAIS), 14(1), pp. 1-37. Yang, H. H., & Moody, J. (1999). Feature selection based on joint mutual information. Advances in Intelligent Data Analysis (AIDA), Computational Intellilgence Methods and Applications (CIMA), International Computer Science Conventions. Yang, W., Dai, D., & Yan, H. (2006). Generalized discriminant analysis for tumor classification with gene expression data. Machine Learning and Cybernetics, 1, pp. 4322–4327. Ye, J. (2005). Characterization of a family of algorithms for generalized discriminant analysis on undersampled problems. Journal of Machine Learning Research, 6, 483–502. Ye, J., Li, T., Xiong, T., & Janardan, R. (2004). Using uncorrelated discriminant analysis for tissue classification with gene expression data. IEEE/ACM Transaction on Computer, Biology and Bioinformatic, 1(4), pp. 181-190. Yu, L., & Liu, H. (2004). Efficient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research, 5, pp. 1205-1224. 118 Bibliographie Yu, L., & Liu, H. (2005). Efficient feature selection via analysis of relevance and redundancy. Journal of Machine Learning Research, 5, pp. 1205-1224. Yue, F., Wang, K., & Zuo, W. (2007). Informative gene selection and tumor classification by null space lda for microarray data. ESCAPE, (pp. 435–446). Zhang, L., Li, Z., & Chen, H. (2007). An effective gene selection method based on relevance analysis and discernibility matrix. PAKDD, (pp. 1088–1095). Zhao, W., Chellapa, R., Corporation, S., Rosenfeld, A., & Philips, P. (2000). Face Recognition: A literature survey. ACM Surveys. 119 Articles journaux : A. EL AKADI, A. AMINE, A. EL OUARDIGHI, D. ABOUTAJDINE, "A twostage gene selection scheme utilizing MRMR filter and GA wrapper" Knowledge And Information Systems, Volume 26, Number 3, 487-500, March 2011 A. AMINE, A. EL AKADI, M. RZIZA, D. ABOUTAJDINE, "GA-SVM and mutual information based frequency feature selection for face recognition" Infocomp, Journal Of Computer Science, vol .8 , n° 1 , pp 20-29 , January 2009 A. EL AKADI, A. EL OUARDIGHI, D. ABOUTAJDINE, "A powerful feature selection approach based on mutual information" International Journal Of Computer Science And Network Security, vol. 8, n° 4, pp 116-121, April 2008 Articles de conférences Internationales : A. EL AKADI, A. AMINE, E. ABDELJALIL, D. ABOUTAJDINE, "A novel information-theoritic measure for face frequency feature selection" ISIVC , 29-2 October 2010, Rabat, MAROC A. EL AKADI, A. AMINE, A. EL OUARDIGHI, D. ABOUTAJDINE, "A new combined approaches-based gene selection for cancer classification" The International Conference on Software, Knowledge, Information Management and Application, pp 41-45, 21-23 October 2009, Fès, MOROCCO A. EL AKADI, A. AMINE, A. EL OUARDIGHI, D. ABOUTAJDINE, "A new gene selection approach based on minimum redundancy-maximum 120 Liste des publications relevance (MRMR) and Genetic Algorithm (GA)", The 7th ACS/IEEE International Conference on Computer Systems and Applications , pp 69-75 , 1013 May 2009, Rabat, MAROC A. EL OUARDIGHI, A. EL AKADI, D. ABOUTAJDINE, "Feature selection on supervised classification using wilks lambda statistic", IEEE International Symposium on Computational Intelligence and Intelligent Informatics. , pp 51-57, 28-30 March 2007, Agadir MAROC Articles de conférences nationales : A. EL AKADI, A. EL OUARDIGHI, D. ABOUTAJDINE, "Interaction gain based measure for feature selection" Cinquième conférence sur les systèmes intelligents : Théories et applications, 5-6 May 2008, Rabat, MAROC A. EL AKADI, S. MOUHIB, A. EL OUARDIGHI " Nouveau critère de sélection de variables basée sur la théorie d’information", Les 1ères Journées Doctorales en Technologies de l’Information et de la Communication ( JDTIC'09), 16-18 Juillet 2009, Rabat-Maroc A. EL AKADI, S. MOUHIB, A. EL OUARDIGHI " Evaluation des scores dérivés des SVM pour la sélection des variables", Les 1ères Journées Doctorales en Technologies de l’Information et de la Communication ( JDTIC'09), 16-18 Juillet 2009, Rabat-Maroc Livres (Chapitre) : EL AKADI, A. EL OUARDIGHI, D. ABOUTAJDINE, "Systèmes intelligents: théories et applications ", Europia, pp 166-176, Juin 2009, France