2.2.2 Valeurs manquantes
La seconde am´elioration concerne la gestion des valeurs manquantes. Lorsqu’un example
ne poss`ede pas de valeur pour un attribut associ´e `a un noeud de d´ecision, celui-ci est dupliqu´e
dans chaque branche et chaque copie rec¸oit un poid correspondant `a la probabilit´e a priori de
passer par cette branche.
2.2.3 Elagage
Cette op´eration consiste `a simplifier l’arbre obtenu. Une premi`ere possibilit´e est de couper
toutes les branches d’un noeud (subtree replacement). Une seconde possibilit´e est de rempla-
cer un noeud par la racine d’un des sous-arbres qui en descend (subtree raising). Les exemples
class´es dans les autres branches sont reclass´es.
Pour d´ecider de modifier un noeud, on d´efinis un estimateur pessimiste de l’erreur ede
classification de chaque noeud ou feuille de l’arbre. De fac¸on g´en´eral un estimateur pessimiste
part d’une mesure fde l’erreur et lui ajoute une p´enalit´e positive ωqui d´epend du noeud ou de
la feuille iconsid´er´ee.
L’algorithme C4.5 utilise l’estimateur pessimiste suivant :
e=f+z2
2N+zqf
N−f2
N+z2
4N2
1 + z2
N
(1)
On note fle ratio du nombre d’exemples mal class´es Eau nombre d’exemples parvenus au
noeud N. Par ailleurs zest le seuil de confiance d’une distribution normale r´eduite. Le niveau
de confiance habituellement retenu pour l’algorithme C4.5 est de 25%.
Question 4 Dans la formule 1, quel est la mesure de l’erreur et quelle p´enalit´e est apport´ee?
Question 5 Comment d´ecider de modifier un noeud?
3