Traveaux Dirig´
es de Fouille de Donn´
ees 3
G. Marcou, N. Lachiche
19 d´
ecembre 2007
1 Introduction
Ce TD sera consacr´e aux arbres de d´ecision et de r´egression, les transformations en r`egles
et les forˆets. Le cas de la r´egression sera particuli`erement d´etaill´e.
2 Construction des arbres de d´
ecision
Cette partie est d´edi´ee `a la construction d’abres de d´ecision.
2.1 Algorithme de base
La construction d’un arbre de d´ecision `a l’aide d’attributs nominal est un processus it´eratif.
1. Choisir un attribut
2. Attribuer une branche `a chaque valeur de l’attribut
3. recommencer pour chaque feuille dont repr´esentant une population inhomog`ene
Cet algorithme poss`ede plusieurs ´el´ements implicites.
Question 1 Comment les attributs `a chaque ´etape sont-ils choisis? Sur quel crit`ere l’algo-
rithme s’arrˆete-t-il?
1
Cet algorithme est disponible dans Weka, dans la rubrique Classify puis dans les m´ethodes
tree. Il est nomm´e ID3 [3]. Cet algorithme a besoin de variables nominales et ne tol`ere pas
les valeurs manquantes. Une solution est donc de binariser les instances `a l’aide de la m´ethode
NumericToBinary1.
Question 2 R´ealiser un arbre ID3. Quelles sont les performances de cette m´ethode?
2.2 L’algorithme C4.5
L’algorithme C4.5 [5] consiste en une s´erie d’am´elioration de l’algorithme pr´ec´edent. Il est
tr`es repr´esent´e parce qu’il est le dernier a avoir ´et´e d´ecrit dans la litt´erature. Les versions plus
r´ecentes sont commerciales et ne font pas l’objet de publications.
2.2.1 Attributs num´
eriques
La premi`ere am´elioration concerne la gestion de donn´ees num´eriques. On d´eduis de ces
attributs des classes en s´eparant le domaine dans lequel l’attribut prend ses valeurs en interval
ne se recouvrant pas. La division la plus pertinante est s´electionn´ee. Dans le cas de l’algorithe
C4.5, le domaine de valeur d’un attribut n’est s´epar´e qu’en deux interval `a un noeud.
Question 3 Comment ´evalue-t-on la pertinance de la discr´etisation d’un attribut num´erique?
1Une autre solution est d’utiliser la m´ethode Discretize
2
2.2.2 Valeurs manquantes
La seconde am´elioration concerne la gestion des valeurs manquantes. Lorsqu’un example
ne poss`ede pas de valeur pour un attribut associ´e `a un noeud de d´ecision, celui-ci est dupliqu´e
dans chaque branche et chaque copie rec¸oit un poid correspondant `a la probabilit´e a priori de
passer par cette branche.
2.2.3 Elagage
Cette op´eration consiste `a simplifier l’arbre obtenu. Une premi`ere possibilit´e est de couper
toutes les branches d’un noeud (subtree replacement). Une seconde possibilit´e est de rempla-
cer un noeud par la racine d’un des sous-arbres qui en descend (subtree raising). Les exemples
class´es dans les autres branches sont reclass´es.
Pour d´ecider de modifier un noeud, on d´efinis un estimateur pessimiste de l’erreur ede
classification de chaque noeud ou feuille de l’arbre. De fac¸on g´en´eral un estimateur pessimiste
part d’une mesure fde l’erreur et lui ajoute une p´enalit´e positive ωqui d´epend du noeud ou de
la feuille iconsid´er´ee.
L’algorithme C4.5 utilise l’estimateur pessimiste suivant :
e=f+z2
2N+zqf
Nf2
N+z2
4N2
1 + z2
N
(1)
On note fle ratio du nombre d’exemples mal class´es Eau nombre d’exemples parvenus au
noeud N. Par ailleurs zest le seuil de confiance d’une distribution normale r´eduite. Le niveau
de confiance habituellement retenu pour l’algorithme C4.5 est de 25%.
Question 4 Dans la formule 1, quel est la mesure de l’erreur et quelle p´enalit´e est apport´ee?
Question 5 Comment d´ecider de modifier un noeud?
3
Une version am´elior´ee de l’algorithme C4.5 est disponible dans Weka sous le nom J4.8. On
y remarquera toutes les possibilit´es ´enum´er´ees ci-dessus. De plus l’interface propose de r´ealiser
une estimation de l’erreur de chaque noeud ou feuille par validation crois´ee.
Question 6 R´ealiser diff´erents arbres en utilisant cet algorithme. Comment ´evolue l’abre si
l’option subtreeRaising est fausse et que l’on fait varier la niveaude confiance (confidenceFactor) ?
Si l’option subtreeRaising est vraie, existe-t-il une valeur du niveau de confiance qui vous per-
mette d’en oberver l’effet?
3 Arbres de r´
egression
Pour construire des mod`eles quantitatifs, on utilise des arbres de r´
egression ou des arbres de
mod`
eles. Les pr´edictions des premiers sont les moyennes de valeurs des concepts dans chaque
feuille. Dans les second, chaque feuille est associ´e `a un mod`ele lin´eaire.
3.1 Algorithme M5
La construction d’un tel arbre diff`ere ´egalement du cas pr´ec´edent. Ici on s’int´eressera `a
l’algorithe M5 [4]. Celui-ci est accessible dans Weka sous le nom M5P.
On choisira l’attribut utilis´e pour diviser le jeu de donn´ees `a chaque noeud en fonction de
fac¸on a minimiser l’erreur de pr´ediction. Cette erreur est estim´ee en un noeud ien y mesurant
la d´eviation standard sidu concept. En somme, on s´electionnera la division des donn´ees qui
maximise la r´
eduction de d´
eviation standard :
RDS =siX
k=1
CNk
Ni
sk(2)
Dans cette formule, chaque noeud kest peupl´e par Nkexemples et on consid`ere une division
du noeud ien Cbranches.
4
Question 7 Comment interpretter la formule 2?
Le processus de construction de l’arbre s’ach`eve quand la quantit´e `a mod´eliser ne varie plus
ou peu dans les feuilles.
3.1.1 R´
egularisation du mod`
ele
A mesure que les examples parcourent l’espace d´efinis par les attributs, ils changent bruta-
lement de feuille et donc de mod`ele. Ceci conduit `a des discontinuit´es dans les pr´edictions. Le
processus de r´egularisation consiste a construire des mod`eles moyens permettant de passer de
fac¸on plus douce d’une feuille `a l’autre de l’arbre.
Dans le cadre de l’algorithme M5, cette r´egularisation est r´ealis´ee en construisant des
mod`eles lin´eaires `a chaque noeud de l’arbre. La valeur pr´edite pour un exemple est la moyenne
pond´er´ee des pr´edictions de chaque mod`ele individuel obtenue sur chaque noeud travers´e par
cet exemple.
Question 8 R´ealiser un premier mod`ele en utilisant les param`etres par d´efaut, puis d´esactiver
la r´egularisation -l’option useUnsmoothed doit ˆetre vrai. Quel effet cela a-t-il sur vos calculs?
3.1.2 Attributs nominaux
Comme l’arbre contient des mod`eles lin´eaires, les attributs nominaux ne sont pas naturel-
lement g´er´es. Ils sont donc transform´es en attributs binaires.
Question 9 Comment transforme-t-on des attributs nominaux en attributs binaires?
5
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !