UNIVERSITÉ MOHAMMED V AGDAL
FACULTÉ DES SCIENCES
Rabat
Faculté des Sciences, 4 Avenue Ibn Battouta B.P. 1014 RP, Rabat Maroc
Tel +212 (0) 537 77 18 34/35/38, Fax: +212 (0) 537 77 42 61, http://www.fsr.ac.ma
N° d’ordre : 2568
THÈSE DE DOCTORAT
Présentée par :
Ali El Akadi
Discipline : Sciences de l’ingénieur
Spécialité : Informatique et Télécommunications
Sujet de la thèse :
Publiquement défendue le 31/03/2012 devant le jury composé de :
Président :
Driss ABOUTAJDINE
PES, Université Mohammed-V Agdal - Rabat
Examinateurs :
Boujemâa ACHCHAB
PES, Université Hassan 1er - Settat
Abderrahim EL QADI
PH, Université Moulay Ismaïl - Meknès
Raja TOUAHNI
PES, Université Ibn Tofail - Kénitra
Mohammed ABBAD
PES, Université Mohammed-V Agdal - Rabat
Ahmed HAMMOUCH
PES, Université Mohammed-V Souissi - Rabat
Abdeljalil EL OUARDIGHI
PH, Université Hassan 1er - Settat
i Résumé
Le problème de la sélection de variables en classification se pose généralement lorsque le nombre de variables
pouvant être utilisé pour expliquer la classe d'un individu, est très élevé. Les besoins ont beaucoup évolué ces
dernières années avec la manipulation d'un grand nombre de variables dans des domaines tels que les données
génétiques ou le traitement d’image. Néanmoins si l’on doit traiter des données décrites par un grand nombre
de variables, les méthodes classiques d’analyse, d’apprentissage ou de fouille de données peuvent se révéler
inefficaces ou peuvent conduire à des résultats peu précis. Dans cette thèse, nous proposons des méthodes
innovantes pour réduire la taille initiale des données et pour sélectionner des ensembles de variables
pertinents pour une classification supervisée.
Notre première contribution concerne la proposition d’une approche hybride pour la sélection de gènes dans
le cadre de la classification de différents types de tumeurs (reconnaissance tissu sain/tissu cancéreux ou
distinction entre différents types de cancers). Cette approche est basée sur la combinaison de l’algorithme
MRMR (redondance minimal-pertinence maximale) et d’une recherche génétique utilisant un classifieur SVM
(Support Vector Machine) pour l’évaluation de la pertinence des sous-ensembles candidats. Les performances
de notre approche ont été évaluées sur 5 jeux de données publiques du domaine de l’oncologie.
Notre deuxième contribution porte sur une nouvelle approche de sélection des caractéristiques pour la
reconnaissance faciale. Au début, la transformée en DCT (Discret Cosine Transform) est appliquée pour
convertir l'image en domaine fréquentiel, ensuite une première réduction de la dimensionnalité est opérée par
le rejet des composant à haute fréquence. Enfin, un nouveau critère appelé PMI (Ponderated Mutual
Information) est utilisé pour sélectionner les coefficients les plus pertinents et moins redondants à partir des
coefficients DCT. L’évaluation des performances de l’approche proposée, en particulier le critère PMI, a été
effectuée sur une base d’images constituée d’un mélange de deux bases publiques ORL et YALE.
Les différentes expérimentations que nous avons menées montrent de très bonnes performances des
approches proposées, surtout pour la sélection des gènes.
Mots-clés : Sélection de variables, Classification supervisée, Puces à ADN, Information mutuelle,
Algorithmes génétiques, Reconnaissance faciale, Transformé en cosinus discret.
ii Abstract
The problem of feature selection for classification is generally arises when the number of features is large.
Needs have changed significantly in recent years with the handling of a large number of features in areas such
as genetic data or image processing. However if we must treat the data described by many features, the
classical methods of analysis, learning or data mining may be ineffective or may lead to imprecise results. In
this thesis, we propose innovative methods to reduce the size of initial data and to select relevant sets of
features for supervised classification.
Our first contribution concerns the proposal of a hybrid approach for gene selection in classification of
different tumor types (recognition of healthy/cancer tissue or distinguish between different types of cancers).
This approach is based on the combination of the MRMR algorithm (Minimum Redundancy-Maximum
Relevance) and genetic research using SVM (Support Vector Machine) to evaluate the relevance of candidate
subsets. The proposed method was tested for tumor classification on five open datasets.
Our second contribution concerns a new feature selection approach for face recognition. At first, the DCT
(Discrete Cosine Transform) is applied to convert the image into frequency domain, then a first
dimensionality reduction is carried out by the elimination of the high-frequency component. Finally, a new
criterion called PMI (Ponderated Mutual Information) is used to select the most relevant and less redundant
coefficients from the DCT coefficients. Evaluation of the proposed approach, in particular PMI criterion,
was performed on a mixture of two public face databases ORL and YALE.
Experimental results show that the proposed approaches have very good performances.
Keywords: Feature selection, Classification, microarray data, Mutual information, Genetic Algorithms, Face
Recognition, Discrete Cosine Transform
iii
Les travaux de recherche présentés dans cette thèse ont été effectués au sein du
Laboratoire de Recherche en Informatique et Télécommunications (LRIT) à la Faculté des
Sciences de Rabat (FSR).
Je tiens à exprimer mes sincères remerciements :
Au Professeur Driss Aboutajdine, mon Directeur de thèse et Directeur du LRIT. Sans
l’environnement de recherche qu’il a su créer, je n’aurais pas pu me lancer dans la
préparation de cette thèse.
Au Professeur Abdeljalil El Ouardighi mon encadrant de thèse pour son suivi, ses
recommandations, sa patience et sa disponibilité tout au long de cette thèse.
Au Professeur Boujemâa Achchab de la Faculté des Sciences Economiques, Juridiques et
Sociales de Settat et au Professeur Abderrahim El Qadi de l’Ecole Supérieure de
Technologie de Meknès, qui ont accepté de juger ce travail et d’en être les rapporteurs et
qui m’ont fait l’honneur d’être parmi les membres du Jury.
Au professeur Raja Touahni de la Faculté des Sciences de Kénitra, au Professeur
Mohammed Abbad de la Facul des Sciences de Rabat et au Professeur Ahmed
Hammouch de l’ENSET de Rabat, qui ont bien accepté de faire partie du jury.
Enfin, je voudrais exprimer mes plus profonds remerciements à ma mère, à ma femme, à
mes enfants, à ma famille et à ma belle-famille pour leurs sentiments, leurs soutiens et leurs
encouragements pendant tout le temps où j’ai effectué cette thèse.
Un grand merci à tous !
1 / 122 100%