Sélection de variables à grande échelle à partir de forêts aléatoires

École Centrale de Marseille Département d’Électricité,
Électronique & Informatique
Université de Liège
Travail de Fin d’Études
du 01/04/15 au 11/09/15
Sélection de variables à grande échelle à
partir de forêts aléatoires
Célia Châtel
Tuteur ECM : Option OMIS
François Brucker
Tuteur Entreprise : Promo 2015
Pierre Geurts
Remerciements
Je tiens à remercier mon encadrant de stage, Pierre Geurts, pour le temps
qu’il m’a consacré et sa sympathie.
Je voudrais également remercier tous les doctorants et membres de l’équipe
pour leur accueil chaleureux et plus particulièrement :
Jean-Michel Begon pour sa bonne humeur,
Vân Anh Huynh-Thu pour sa sympathie au quotidien,
Arnaud Joly pour ses conseils techniques et sa disponibilité,
et Antonio Sutera avec qui j’ai eu l’occasion de travailler, pour son aide
et sa présence.
Enfin, j’aimerais remercier Sandrine Anthoine, François Brucker et Liva Ra-
laivola qui m’ont donné le goût de la recherche et l’envie de m’y consacrer.
1
Résumé
La classification a pour but l’apprentissage d’un modèle permettant de pré-
dire une sortie (représentant des classes) à partir de données. Dans ce domaine,
les arbres de décision sont des modèles d’apprentissage simples et très utilisés.
Construire des ensembles d’arbres appelés forêts permet en général d’obtenir de
bons résultats de classification. La façon de construire les arbres étant intrin-
sèquement liée à la sélection de variables, qui consiste à retrouver les variables
apportant de l’information sur la sortie, de nombreuses méthodes de sélection
de variables sont basées sur ces modèles. Nous nous intéressons en particulier à
résoudre ce problème à grande échelle, ne permettant pas de mettre en mémoire
toutes les données simultanément et obligeant ainsi à n’étudier qu’un certain
nombre de variables à la fois. Nous chercherons à identifier toutes les variables
ayant une influence sur la sortie.
Nous décrivons une méthode naïve et proposons et justifions un nouvel algo-
rithme de sélection de variables reposant en partie sur des résultats théoriques
montrés dans l’article ’Understanding variable importances in forests of ran-
domized trees’ (Louppe et al., 2013). Ces résultats utilisent une mesure d’im-
portance des variables calculée à partir de forêts d’arbres aléatoires et basée
sur l’information mutuelle entre les variables et la sortie conditionnellement à
d’autres variables. Notre étude se divise ensuite en deux parties. Une simula-
tion du comportement des algorithmes est réalisée dans un premier temps avec
diverses formes d’arbres et hypothèses sur les données afin de mesurer les per-
formances des deux méthodes dans différents cas et montrer la pertinence de
la méthode proposée. Dans un second temps, nous testons la méthode naïve
ainsi que notre algorithme sur l’ensemble très utilisé de données générées Ma-
delon afin de comparer les différentes méthodes et de mesurer les performances
obtenues sur un ensemble de données.
Mots clés big data, apprentissage automatique, arbres de décision, sélection
de variables, forêts d’arbres aléatoires
2
Summary
In classification, one wants to build a statistical model able to predict an
output based on some data. In machine learning, decision trees are a really
easy and wide spread method. Constructing several trees and thus, building a
forest, leads to good classification results. The way of building these trees is
intrinsically linked to feature selection which consists in identifying the features
impacting the value of the output. Hence many feature selection methods are
based on decision trees. In this work, we focus on feature selection at a large
scale, without being able to study all the features at once. We aim at identifying
each feature that has an impact on the output.
We describe a naive algorithm and propose a new one based on the re-
sults from ’Understanding variable importances in forests of randomized trees’
(Louppe et al., 2013). This paper proposes a measure of importance for the
features using the mutual information between some features and the output
conditioning by other features. Our work is then divided into two parts. First,
we study by performing simulations, the speed of convergence of the naive me-
thod and of our algorithm. We test our idea on different tree models and data
hypothesis by simulating their behaviour, in order to measure our algorithms
performances and compare them. Secondly, we use the well known Madelon
dataset to compare our methods and performances on a dataset.
Key words big data, machine learning, decision trees, feature selection, ran-
dom forests
3
Table des matières
Introduction................................. 7
1 Contexte 9
1.1 Contextedetravail.......................... 9
1.2 Contextethéorique.......................... 10
1.2.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . 10
1.2.2 Entropie et information mutuelle . . . . . . . . . . . . . . 10
1.2.3 Pertinence et sélection de variables . . . . . . . . . . . . . 11
1.2.4 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . 13
2 Contributions 17
2.1 Objectifgénéral............................ 17
2.2 Algorithmes.............................. 18
2.2.1 Algorithmenaïf........................ 18
2.2.2 Algorithme intelligent . . . . . . . . . . . . . . . . . . . . 20
2.3 Simulations .............................. 23
2.3.1 Arbresutilisés ........................ 23
2.3.2 Hypothèses sur les données . . . . . . . . . . . . . . . . . 25
2.4 Miseenpratique ........................... 26
2.4.1 Modifications des algorithmes . . . . . . . . . . . . . . . . 26
2.4.2 Arbresutilisés ........................ 27
2.4.3 Données............................ 29
3 Résultats 30
3.1 Simulations .............................. 30
3.1.1 Cas d’une infinité d’arbres . . . . . . . . . . . . . . . . . . 31
3.1.2 Comparaison des deux algorithmes . . . . . . . . . . . . . 31
3.1.3 Impact des données . . . . . . . . . . . . . . . . . . . . . 33
3.1.4 Impact des paramètres . . . . . . . . . . . . . . . . . . . . 37
4
1 / 61 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !