1. Introduction
Avec le développement des outils informatiques, nous avons assisté ces dernières
années à un véritable déluge d’informations stockées dans de grandes bases des don-
nées scientifiques, économiques, financières, médicales, etc [LEF 01]. Le besoin d’in-
terpréter et d’analyser de grandes masses de données a suscité beaucoup d’intérêt.
Ainsi, la mise au point des nouvelles techniques d’analyse est devenue un réel défi
pour la communauté scientifique. Pour répondre à cette pénurie de connaissances sur
les données, de nouvelles méthodes d’extraction de connaissances ont vu le jour, re-
groupées sous le terme générique de la fouille de données ou Data Mining [BER 04].
La fouille de données est une thématique de recherche en pleine évolution visant à
exploiter les grandes quantités de données collectées chaque jour dans divers champs
d’applications de différents domaines, tels que les statistiques, les bases de données,
l’algorithmique, les mathématiques et l’intelligence artificielle [LEF 01]. On lui donne
d’autres appellations, comme par exemple extraction de connaissances dans les bases
de données ou encore exploration de données. L’extraction de connaissances dans les
bases de données (ou Knowledge Discovery in Databases -KDD), désigne le proces-
sus interactif et itératif non trivial d’extraction de connaissances implicites, précédem-
ment inconnues et potentiellement utiles à partir des données stockées dans les bases
de données.
L’idée sous-jacente de la fouille de données est donc d’extraire les connaissances
cachées à partir d’un ensemble de données. Le terme fouille de données regroupe
un certain nombre de tâches, telles que la prédiction,le regroupement et la classifi-
cation. Ces tâches peuvent être faites par plusieurs techniques, telles que les arbres
de décisions,les réseaux de neurones ou l’analyse de concepts formels [LEF 01].
Ces classifieurs sont souvent appelés weak learners puisqu’ils produisent des perfor-
mances faibles. Récemment, un grand nombre de travaux, en apprentissage supervisé,
ont porté sur les méthodes de dopage (Boosting) de classifieurs qui sont des approches
de fouille de données permettant d’améliorer les performances des classifieurs faibles
par la combinaison de leurs résultats. La simplicité de mise en oeuvre et les théorèmes
récemment édictés, relatifs aux bornes, aux marges, ou encore à la convergence du
Boosting sont deux raisons principales à cette large utilisation [FRE 97].
Boosting construit d’une manière séquentielle un ensemble de classifieurs de même
modèle. Chaque classifieur est généré en fonction des données d’apprentissage et de
la performance du classifieur précédent. Grâce à la construction ingénieuse de ces
données, le Boosting favorise la diversité des classifieurs [BRO 05]. Toutefois, il a été
constaté que l’ajout de classifieurs pourrait avoir des effets ’paralysant’ dans le sens où
cela ne conduit pas à une amélioration implicite de la performance de Boosting, mais
plutôt à sa dégradation [SHI 02] à cause du sur-apprentissage [KUN 02b] [BüH 07].
Cela s’explique notamment par l’échantillonnage répétitif des données d’apprentis-
sage à partir des distributions similaires. Nous nous demandons donc si nous pouvons
utiliser la diversité de classifieurs pour arrêter le Boosting au bon moment.