Résumé :
Les arbres de décision et les graphes d’induction répondent à la propriété
d’intelligibilité à savoir la production de procédures de classification compréhensibles par
l’utilisateur. Ces méthodes permettent de représenter graphiquement un ensemble de règles
aisément interprétables. Toutefois, elles présentent deux inconvénients majeurs : complexité
et instabilité. Ces deux problèmes sont respectivement résolus par des méthodes d’élagage et
des méthodes d’ensembles. L’élagage peut se faire en pré ou post construction de l’arbre pour
réduire sa complexité. Les méthodes d’ensembles consistent à améliorer les performances
d’un classifieur faible « instable » en le générant plusieurs fois.
Notre Recherche s’inscrit dans le domaine de l'apprentissage automatique à partir des
données et utilise comme base de travail les méthodes à base d’arbres ou de graphes
d’induction.
Le premier objectif est la conception et l’expérimentation de techniques de génération
et particulièrement d’optimisation d’arbres ou de graphes par le biais d'une méthode formelle
de modélisation. Un arbre ou un graphe est transcrit dans le formalisme d’automate pour
pouvoir par la suite le simplifier en utilisant les propriétés des automates.
Le deuxième objectif vise la proposition d’une nouvelle mesure de sélection de
variables pour la construction d’arbres de décision. La mesure est intégrée dans une méthode
de partitionnement gloutonne qui permet de segmenter l’échantillon jusqu’à la partition la
plus fine. Comparée à des mesures de l’état de l’art, la mesure proposée requiert moins de
calculs et génère des arbres de tailles moins complexes.
Le pruning ou la sélection d’ensembles permet de réduire le nombre de modèles dans
un comité dans le but d’économiser l’espace de stockage et réduire le temps de prédiction.
Plusieurs travaux ont été proposés dans le domaine de simplification d’ensembles dont
plusieurs reposent sur des fonctions d’évaluation basée soit sur la diversité de l’ensemble soit
sur sa performance.
Enfin, pour un troisième objectif, nous proposons une fonction multi - objectifs pour la
sélection dans un ensemble d’arbres de décision qui utilise conjointement les propriétés de
diversité et de performance. La méthode comparée à un état de l’art des méthodes de sélection
permet de donner de bons résultats en sélectionnant des ensembles de tailles plus réduites. Les
sous ensembles obtenus, dans la plus part des cas étudiés, surpassent les performances de
l’ensemble initial.
Mots clés: Extraction de connaissances à partir de données, Apprentissage supervisé, Arbres de
décision, Mesures de sélection, Automates d’arbres, Méthodes d’ensembles, Sélection d’ensembles.