1
Random Forest
Écologie numérique
V. Jassey
u Quels sont les principes des méthodes de classification
supervisée!?
u Comment interprète-t-on un arbre de classification ou de
régression (modèle univarié)!?
u Pourquoi et comment élaguer un arbre de classification ou
de régression ?
u Quels sont les avantages des arbres testés avec
randomForest ?
2
Random Forest: principe
uPrincipe du test:
-Utiliser un grand nombre d’arbres de décision construits
chacun avec un sous-échantillon différent de l’ensemble
des données (bootstraping)
-Pour chaque construction d’arbre, la décision à un nœud
(répartition des objets) est faite en fonction d’un sous-
ensemble de variables tirées au hasard: on tire
aléatoirement m variables parmi les p disponibles et on
cherche parmi celles-ci la meilleure coupure (avec toujours
le même critère).
-Utilise l’ensemble des arbres de décision produits pour
faire la prédiction/choisir le nombre de groupes, avec un
choix fait à la majorité.
-Classification: variable prédite est de type facteur;
Régression: variable prédite de type numérique
3
Random Forest: Exemple 1
Malade
Malade
Bonne
santé
Bonne
santé
Population d’épicéa:
Jeune, vieux, mâle, femelle,
grand, petit
Prédiction:
Bonne santé, malade
vieux jeune
Bonne santé Malade
grand petit
Bonne santé Malade
Arbre 1
vieux jeune
Malade Bonne santé
Mâle Femelle
Bonne santé Malade
Arbre 2
4
Différence avec les arbres standard
uChaque arbre est testé avec du bootstraping:
Bootstrap: ré-échantillonne le jeux de donnée avec N
échantillons => donne un nouveau jeux de donnée à
chaque fois pour construire les arbres
uPour chaque nœud on considère seulement m
variables sélectionnée aléatoirement
uPas d’élagage
uRéalise k arbres et on réalise une moyenne des
résultats
5
uIdée: si vous «!brouillez!» les valeurs d'une variable et que la
précision de votre arbre ne change pas beaucoup, alors la
variable n’est pas si importante.
uLes objets Random Forest sont plus difficiles à interpréter que les
arbres simples => comprendre quels variables sont importantes
peut aider
uLa répartition des objets en classes peut générer de l’impureté:
on veut choisir uniquement les variables qui divisent le nombre
d’objets en classes ‘pures’.
uLe coefficient de Gini mesure ces impuretés
Random Forest: Importance des variables
et évaluation
n = nombre de classes au sein de la variable
ciblée
pi = est le ratio au niveau de cette classe
(objets répartis au niveau de la division)
1 / 13 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !