Chapitre 4 - Random Forest Fichier

Téléchargement

Random Forest

Écologie numérique

V. Jassey

u  Quels sont les principes des méthodes de classification

supervisée!?

u  Comment interprète-t-on un arbre de classification ou de

régression (modèle univarié)!?

u  Pourquoi et comment élaguer un arbre de classification ou

de régression ?

u  Quels sont les avantages des arbres testés avec

randomForest ?

Random Forest: principe

u Principe du test:

- Utiliser un grand nombre d’arbres de décision construits

chacun avec un sous-échantillon différent de l’ensemble

des données (bootstraping)

- Pour chaque construction d’arbre, la décision à un nœud

(répartition des objets) est faite en fonction d’un sous-

ensemble de variables tirées au hasard: on tire

aléatoirement m variables parmi les p disponibles et on

cherche parmi celles-ci la meilleure coupure (avec toujours

le même critère).

- Utilise l’ensemble des arbres de décision produits pour

faire la prédiction/choisir le nombre de groupes, avec un

choix fait à la majorité.

- Classification: variable prédite est de type facteur;

Régression: variable prédite de type numérique

Random Forest: Exemple 1

Malade

Bonne

santé

Bonne

santé

Population d’épicéa:

Jeune, vieux, mâle, femelle,

grand, petit

Prédiction:

Bonne santé, malade

vieux jeune

Bonne santé Malade

grand petit

Bonne santé Malade

Arbre 1

vieux jeune

Malade Bonne santé

Mâle Femelle

Bonne santé Malade

Arbre 2

Différence avec les arbres standard

u Chaque arbre est testé avec du bootstraping:

Bootstrap: ré-échantillonne le jeux de donnée avec N

échantillons => donne un nouveau jeux de donnée à

chaque fois pour construire les arbres

u Pour chaque nœud on considère seulement m

variables sélectionnée aléatoirement

u Pas d’élagage

u Réalise k arbres et on réalise une moyenne des

résultats

u Idée: si vous «!brouillez!» les valeurs d'une variable et que la

précision de votre arbre ne change pas beaucoup, alors la

variable n’est pas si importante.

u Les objets Random Forest sont plus difficiles à interpréter que les

arbres simples => comprendre quels variables sont importantes

peut aider

u La répartition des objets en classes peut générer de l’impureté:

on veut choisir uniquement les variables qui divisent le nombre

d’objets en classes ‘pures’.

u Le coefficient de Gini mesure ces impuretés

Random Forest: Importance des variables

et évaluation

n = nombre de classes au sein de la variable

ciblée

pi = est le ratio au niveau de cette classe

(objets répartis au niveau de la division)

1 / 13 100%

Documents connexes

Des ateliers gratuits pour produire vos fruits et légumes à Forest

concours officiel poney - Club Hippique du Forest

INFORMATIQUE 3

Traditional Botanical Gardens as a Tool for Preserving

Simulation d`une expérience aléatoire

Machine Learning : application à la finance

Télécharger le fichier

F L -F 209, BM209, C209, CF209, V209

Advanced Research on the Biology of TRee and Forest

curriculum vitæ

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Chapitre 4 - Random Forest Fichier

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Chapitre 4 - Random Forest Fichier

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib