Résumé
La classification a pour but l’apprentissage d’un modèle permettant de pré-
dire une sortie (représentant des classes) à partir de données. Dans ce domaine,
les arbres de décision sont des modèles d’apprentissage simples et très utilisés.
Construire des ensembles d’arbres appelés forêts permet en général d’obtenir de
bons résultats de classification. La façon de construire les arbres étant intrin-
sèquement liée à la sélection de variables, qui consiste à retrouver les variables
apportant de l’information sur la sortie, de nombreuses méthodes de sélection
de variables sont basées sur ces modèles. Nous nous intéressons en particulier à
résoudre ce problème à grande échelle, ne permettant pas de mettre en mémoire
toutes les données simultanément et obligeant ainsi à n’étudier qu’un certain
nombre de variables à la fois. Nous chercherons à identifier toutes les variables
ayant une influence sur la sortie.
Nous décrivons une méthode naïve et proposons et justifions un nouvel algo-
rithme de sélection de variables reposant en partie sur des résultats théoriques
montrés dans l’article ’Understanding variable importances in forests of ran-
domized trees’ (Louppe et al., 2013). Ces résultats utilisent une mesure d’im-
portance des variables calculée à partir de forêts d’arbres aléatoires et basée
sur l’information mutuelle entre les variables et la sortie conditionnellement à
d’autres variables. Notre étude se divise ensuite en deux parties. Une simula-
tion du comportement des algorithmes est réalisée dans un premier temps avec
diverses formes d’arbres et hypothèses sur les données afin de mesurer les per-
formances des deux méthodes dans différents cas et montrer la pertinence de
la méthode proposée. Dans un second temps, nous testons la méthode naïve
ainsi que notre algorithme sur l’ensemble très utilisé de données générées Ma-
delon afin de comparer les différentes méthodes et de mesurer les performances
obtenues sur un ensemble de données.
Mots clés big data, apprentissage automatique, arbres de décision, sélection
de variables, forêts d’arbres aléatoires
2