Sélection de variables à grande échelle à partir de forêts aléatoires

Téléchargement

École Centrale de Marseille Département d’Électricité,

Électronique & Informatique

Université de Liège

Travail de Fin d’Études

du 01/04/15 au 11/09/15

Sélection de variables à grande échelle à

partir de forêts aléatoires

Célia Châtel

Tuteur ECM : Option OMIS

François Brucker

Tuteur Entreprise : Promo 2015

Pierre Geurts

Remerciements

Je tiens à remercier mon encadrant de stage, Pierre Geurts, pour le temps

qu’il m’a consacré et sa sympathie.

Je voudrais également remercier tous les doctorants et membres de l’équipe

pour leur accueil chaleureux et plus particulièrement :

— Jean-Michel Begon pour sa bonne humeur,

— Vân Anh Huynh-Thu pour sa sympathie au quotidien,

— Arnaud Joly pour ses conseils techniques et sa disponibilité,

— et Antonio Sutera avec qui j’ai eu l’occasion de travailler, pour son aide

et sa présence.

Enﬁn, j’aimerais remercier Sandrine Anthoine, François Brucker et Liva Ra-

laivola qui m’ont donné le goût de la recherche et l’envie de m’y consacrer.

Résumé

La classiﬁcation a pour but l’apprentissage d’un modèle permettant de pré-

dire une sortie (représentant des classes) à partir de données. Dans ce domaine,

les arbres de décision sont des modèles d’apprentissage simples et très utilisés.

Construire des ensembles d’arbres appelés forêts permet en général d’obtenir de

bons résultats de classiﬁcation. La façon de construire les arbres étant intrin-

sèquement liée à la sélection de variables, qui consiste à retrouver les variables

apportant de l’information sur la sortie, de nombreuses méthodes de sélection

de variables sont basées sur ces modèles. Nous nous intéressons en particulier à

résoudre ce problème à grande échelle, ne permettant pas de mettre en mémoire

toutes les données simultanément et obligeant ainsi à n’étudier qu’un certain

nombre de variables à la fois. Nous chercherons à identiﬁer toutes les variables

ayant une inﬂuence sur la sortie.

Nous décrivons une méthode naïve et proposons et justiﬁons un nouvel algo-

rithme de sélection de variables reposant en partie sur des résultats théoriques

montrés dans l’article ’Understanding variable importances in forests of ran-

domized trees’ (Louppe et al., 2013). Ces résultats utilisent une mesure d’im-

portance des variables calculée à partir de forêts d’arbres aléatoires et basée

sur l’information mutuelle entre les variables et la sortie conditionnellement à

d’autres variables. Notre étude se divise ensuite en deux parties. Une simula-

tion du comportement des algorithmes est réalisée dans un premier temps avec

diverses formes d’arbres et hypothèses sur les données aﬁn de mesurer les per-

formances des deux méthodes dans diﬀérents cas et montrer la pertinence de

la méthode proposée. Dans un second temps, nous testons la méthode naïve

ainsi que notre algorithme sur l’ensemble très utilisé de données générées Ma-

delon aﬁn de comparer les diﬀérentes méthodes et de mesurer les performances

obtenues sur un ensemble de données.

Mots clés big data, apprentissage automatique, arbres de décision, sélection

de variables, forêts d’arbres aléatoires

Summary

In classiﬁcation, one wants to build a statistical model able to predict an

output based on some data. In machine learning, decision trees are a really

easy and wide spread method. Constructing several trees and thus, building a

forest, leads to good classiﬁcation results. The way of building these trees is

intrinsically linked to feature selection which consists in identifying the features

impacting the value of the output. Hence many feature selection methods are

based on decision trees. In this work, we focus on feature selection at a large

scale, without being able to study all the features at once. We aim at identifying

each feature that has an impact on the output.

We describe a naive algorithm and propose a new one based on the re-

sults from ’Understanding variable importances in forests of randomized trees’

(Louppe et al., 2013). This paper proposes a measure of importance for the

features using the mutual information between some features and the output

conditioning by other features. Our work is then divided into two parts. First,

we study by performing simulations, the speed of convergence of the naive me-

thod and of our algorithm. We test our idea on diﬀerent tree models and data

hypothesis by simulating their behaviour, in order to measure our algorithms

performances and compare them. Secondly, we use the well known Madelon

dataset to compare our methods and performances on a dataset.

Key words big data, machine learning, decision trees, feature selection, ran-

dom forests

Table des matières

Introduction................................. 7

1 Contexte 9

1.1 Contextedetravail.......................... 9

1.2 Contextethéorique.......................... 10

1.2.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . 10

1.2.2 Entropie et information mutuelle . . . . . . . . . . . . . . 10

1.2.3 Pertinence et sélection de variables . . . . . . . . . . . . . 11

1.2.4 Arbres de décision . . . . . . . . . . . . . . . . . . . . . . 13

2 Contributions 17

2.1 Objectifgénéral............................ 17

2.2 Algorithmes.............................. 18

2.2.1 Algorithmenaïf........................ 18

2.2.2 Algorithme intelligent . . . . . . . . . . . . . . . . . . . . 20

2.3 Simulations .............................. 23

2.3.1 Arbresutilisés ........................ 23

2.3.2 Hypothèses sur les données . . . . . . . . . . . . . . . . . 25

2.4 Miseenpratique ........................... 26

2.4.1 Modiﬁcations des algorithmes . . . . . . . . . . . . . . . . 26

2.4.2 Arbresutilisés ........................ 27

2.4.3 Données............................ 29

3 Résultats 30

3.1 Simulations .............................. 30

3.1.1 Cas d’une inﬁnité d’arbres . . . . . . . . . . . . . . . . . . 31

3.1.2 Comparaison des deux algorithmes . . . . . . . . . . . . . 31

3.1.3 Impact des données . . . . . . . . . . . . . . . . . . . . . 33

3.1.4 Impact des paramètres . . . . . . . . . . . . . . . . . . . . 37

1 / 61 100%

Documents connexes

Faire tourner l`algorithme de gauche « à la main » pour A = 15

algorithme algorithme -bases -une

Quelques algorithmes

L`algorithme suivant est décrit en langage pseudo

2de - algo - aide algobox

Préambule - Gnuside Formation

Outils et objectifs

Phylogénie moléculaire

Grille d'évaluation orale ISN - Compétences et capacités

Exercice d'algorithme : Boucle "tant que"

Exercice 1 : On considère l`algorithme suivant : Variables : n est un

Mettre les ordinateurs au travail

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Sélection de variables à grande échelle à partir de forêts aléatoires

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Sélection de variables à grande échelle à partir de forêts aléatoires

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib