DEPARTEMENT INFORMATIQUE
THESE DE DOCTORAT EN SCIENCES
Spécialité : Informatique
Option : Informatique & Automatique
Intitulée :
Contribution à l'apprentissage
automatique symbolique par automates
d'arbre et mesures de sélection
Présentée par
TALEB ZOUGGAR Souad
Présentée et soutenue publiquement le 16/12/2014.
Composition du Jury :
BOUAMRANE Karim, Professeur Université d’Oran, Président du jury
ATMANI Baghdad, Professeur Université d’Oran, Encadreur
AMINE Abdelmalek, MCA Université de Saida Examinateur
BENYETTOU Abdelkader, Professeur Université USTO, Examinateur
HAMDADOU Djamila, MCA Université d’Oran Examinatrice
LEHIRECHE Ahmed, Professeur Université Bel Abbès Examinateur
2014/2015
Je dédie ce travail à toute ma famille, En particulier:
Mes parents,
Ma fille Aya,
Mes soeurs et leurs enfants,
Mon frère si kaddour Said.
REMER C IEM E N TS
Dans l’espoir que ces quelques mots parviennent tout ce que nous leurs sommes
redevables, non moins que la profondeur de notre gratitude, nous souhaitons remercier
ALLAH pour l’accomplissement de ce travail.
Le Professeur Baghdad ATMANI pour la confiance qu’il m’a témoignée en acceptant la
direction scientifique de mes travaux. Je lui suis reconnaissante de m’avoir fait bénéficier tout
au long de ce travail de sa grande compétence, de sa rigueur intellectuelle, de son dynamisme,
et de son efficacité certaine que je n’oublierai jamais.
Le Professeur Abdelkader ADLA pour sa disponibilité, pour l’aide précieuse et les
conseils qu’il m’a donnée ainsi que pour son soutien dans les situations les plus difficiles.
Le Professeur Stéphane Lallich de l’Université Lumière Lyon II et membre du laboratoire
ERIC, pour ses multiples conseils, ses orientations, et pour toutes les heures de travail qu'il
m’a consacrée malgré son emploi du temps chargé.
Je suis très honorée de la présence à mon jury de thèse et je tiens à remercier :
Le Professeur Karim BOUAMRANE président du jury, le Professeur Abdelkader
BENYETTOU, le Professeur Ahmed LEHIRECHE, Dr Abdelmalek AMINE, et Dr Djamila
HAMDADOU.
Je tiens aussi à les remercier pour l’intérêt particulier qu’ils ont porté à ce travail en
acceptant de le juger.
Mon travail de recherche sur le terrain a été particulièrement facilité par les maîtres
assistants et les sidents du service de Diabétologie Endocrinologie de l’hôpital
BENZERDJEB de la wilaya d'AIN TEMOUCHENT, à qui je tiens à exprimer ma
reconnaissance.
Résumé :
Les arbres de décision et les graphes d’induction répondent à la propriété
d’intelligibilité à savoir la production de procédures de classification compréhensibles par
l’utilisateur. Ces méthodes permettent de représenter graphiquement un ensemble de règles
aisément interprétables. Toutefois, elles présentent deux inconvénients majeurs : complexité
et instabilité. Ces deux problèmes sont respectivement résolus par des méthodes d’élagage et
des méthodes d’ensembles. L’élagage peut se faire en pré ou post construction de l’arbre pour
réduire sa complexité. Les méthodes d’ensembles consistent à améliorer les performances
d’un classifieur faible « instable » en le générant plusieurs fois.
Notre Recherche s’inscrit dans le domaine de l'apprentissage automatique à partir des
données et utilise comme base de travail les méthodes à base d’arbres ou de graphes
d’induction.
Le premier objectif est la conception et l’expérimentation de techniques de génération
et particulièrement d’optimisation d’arbres ou de graphes par le biais d'une méthode formelle
de modélisation. Un arbre ou un graphe est transcrit dans le formalisme d’automate pour
pouvoir par la suite le simplifier en utilisant les propriétés des automates.
Le deuxième objectif vise la proposition d’une nouvelle mesure de sélection de
variables pour la construction d’arbres de décision. La mesure est intégrée dans une méthode
de partitionnement gloutonne qui permet de segmenter l’échantillon jusqu’à la partition la
plus fine. Comparée à des mesures de l’état de l’art, la mesure proposée requiert moins de
calculs et génère des arbres de tailles moins complexes.
Le pruning ou la sélection d’ensembles permet de réduire le nombre de modèles dans
un comité dans le but d’économiser l’espace de stockage et réduire le temps de prédiction.
Plusieurs travaux ont été proposés dans le domaine de simplification d’ensembles dont
plusieurs reposent sur des fonctions d’évaluation basée soit sur la diversité de l’ensemble soit
sur sa performance.
Enfin, pour un troisième objectif, nous proposons une fonction multi - objectifs pour la
sélection dans un ensemble d’arbres de décision qui utilise conjointement les propriétés de
diversité et de performance. La méthode comparée à un état de l’art des méthodes de sélection
permet de donner de bons résultats en sélectionnant des ensembles de tailles plus réduites. Les
sous ensembles obtenus, dans la plus part des cas étudiés, surpassent les performances de
l’ensemble initial.
Mots clés: Extraction de connaissances à partir de données, Apprentissage supervisé, Arbres de
décision, Mesures de sélection, Automates d’arbres, Méthodes d’ensembles, Sélection d’ensembles.
Abstract :
Decision trees and induction graphs satisfy the property of intelligibility, ie production
of classification procedures understandable by the user. These methods allow to graphically
represent a set of easily interpretable rules. However, they have two major drawbacks:
complexity and instability. These two problems are solved respectively by pruning and
ensemble methods. Pruning can be done before or after construction of the tree to reduce its
complexity. The ensemble methods are used to improve the performance of a weak "unstable"
classifier.
Our Research is in the field of machine learning is based on decision trees or graphs
induction methods.
The first objective is the design and the test of techniques for generating and especially
optimizing trees or graphs through a formal modeling approach. A tree or a graph is
transcribed in the automata formalism and then is simplified by using automata properties as
simplification tools.
The second objective is the proposal of a new measure for selecting variables for the
construction of decision trees. The measure is integrated in a greedy method that allows
partitioning the sample into the finest partition. Compared to measures of the state of the art,
the proposed measure requires fewer calculations and generates less complex tree sizes.
Ensemble pruning or ensemble selection allows reducing the number of models
comosing a committee in order to save storage space and reduce prediction time. Several
works have been proposed in the area of ensemble simplification, many of which are based on
the diversity or the performance of the ensemble.
Finally, for the third objective, we propose a multi-objective function for selection in a set of
decision trees that jointly uses the properties of diversity and performance. The comparison
with a state of the art of selection method gives good results by selecting sets of smaller sizes
and high precision.
Key words: Knowledge discovery from data bases, Supervised learning, Decision trees, Selection
measures, Tree automata, Ensemble Methods, Ensemble selection.
1 / 224 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !