i Résumé
Le problème de la sélection de variables en classification se pose généralement lorsque le nombre de variables
pouvant être utilisé pour expliquer la classe d'un individu, est très élevé. Les besoins ont beaucoup évolué ces
dernières années avec la manipulation d'un grand nombre de variables dans des domaines tels que les données
génétiques ou le traitement d’image. Néanmoins si l’on doit traiter des données décrites par un grand nombre
de variables, les méthodes classiques d’analyse, d’apprentissage ou de fouille de données peuvent se révéler
inefficaces ou peuvent conduire à des résultats peu précis. Dans cette thèse, nous proposons des méthodes
innovantes pour réduire la taille initiale des données et pour sélectionner des ensembles de variables
pertinents pour une classification supervisée.
Notre première contribution concerne la proposition d’une approche hybride pour la sélection de gènes dans
le cadre de la classification de différents types de tumeurs (reconnaissance tissu sain/tissu cancéreux ou
distinction entre différents types de cancers). Cette approche est basée sur la combinaison de l’algorithme
MRMR (redondance minimal-pertinence maximale) et d’une recherche génétique utilisant un classifieur SVM
(Support Vector Machine) pour l’évaluation de la pertinence des sous-ensembles candidats. Les performances
de notre approche ont été évaluées sur 5 jeux de données publiques du domaine de l’oncologie.
Notre deuxième contribution porte sur une nouvelle approche de sélection des caractéristiques pour la
reconnaissance faciale. Au début, la transformée en DCT (Discret Cosine Transform) est appliquée pour
convertir l'image en domaine fréquentiel, ensuite une première réduction de la dimensionnalité est opérée par
le rejet des composant à haute fréquence. Enfin, un nouveau critère appelé PMI (Ponderated Mutual
Information) est utilisé pour sélectionner les coefficients les plus pertinents et moins redondants à partir des
coefficients DCT. L’évaluation des performances de l’approche proposée, en particulier le critère PMI, a été
effectuée sur une base d’images constituée d’un mélange de deux bases publiques ORL et YALE.
Les différentes expérimentations que nous avons menées montrent de très bonnes performances des
approches proposées, surtout pour la sélection des gènes.
Mots-clés : Sélection de variables, Classification supervisée, Puces à ADN, Information mutuelle,
Algorithmes génétiques, Reconnaissance faciale, Transformé en cosinus discret.