Random Forest : Algorithme d'Ensemble Expliqué

Telechargé par Walter AMAGLO
M A C H I N E L E A R N I N G · E N S E M B L E M E T H O D S
Random
Forest
Un algorithme d'ensemble qui combine
la puissance de centaines d'arbres de décision
Supervised Learning · Classification & Régression · Leo Breiman, 2001
02
Définition
Arbre 1
×500 arbres
Qu'est-ce que le Random Forest ?
Le Random Forest est un algorithme d'apprentissage supervisé qui
construit de nombreux arbres de décision indépendants et combine
leurs prédictions pour produire un résultat final plus précis et robuste.
01
Ensemble Learning
Combine plusieurs modèles faibles
pour créer un modèle fort.
02
Aléatoire
Chaque arbre voit des données et
features différents.
03
Vote / Moyenne
Classification : vote majoritaire.
Régression : moyenne des sorties.
03 Bagging & Bootstrap
Bootstrap AGGregating le secret de la forêt
Dataset complet
(N échantillons)
Bootstrap Sampling (avec remise)
Bootstrap 1
~63% données uniques
Arbre 1
Bootstrap 2
~63% données uniques
Arbre 2
Bootstrap k
~63% données uniques
Arbre k
· · ·
Agrégation Prédiction finale
0
4Sélection Aléatoire de Features
La vraie source de diversité dans la forêt
À chaque split : m = √p features sélectionnées aléatoirement (classification)
Pourquoi c'est clé ?
Réduit la corrélation entre arbres
Chaque arbre voit une vue différente des données
Empêche les features dominantes de tout éclipser
Augmente la diversité = meilleure généralisation
Visualisation — 6 features, m=2 sélectionnées
Age
SÉLEC.
Revenu
exclu
Score
SÉLEC.
Région
exclu
Ancienneté
exclu
Sexe
exclu
05 Hyperparamètres clés
Les leviers à ajuster pour optimiser ta forêt
n_estimators 100
Nombre d'arbres. Plus = meilleur mais plus lent. 100500 est un
bon point de départ.
max_features sqrt(p)
Features par split. 'sqrt' pour classification, '1/3' pour régression.
max_depth None
Profondeur max des arbres. None = arbres complets. Réduire
pour éviter l'overfitting.
min_samples_split 2
Échantillons min pour splitter un nœud interne.
bootstrap True
Utilise le bootstrap sampling. False = chaque arbre voit tout le
dataset.
oob_score False
Évalue la performance sur les données out-of-bag (gratuit pas
besoin de validation croisée).
1 / 10 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!