Traveaux Dirigés de Fouille de Données 3

Traveaux Dirig´

es de Fouille de Donn´

ees 3

G. Marcou, N. Lachiche

19 d´

ecembre 2007

1 Introduction

Ce TD sera consacr´e aux arbres de d´ecision et de r´egression, les transformations en r`egles

et les forˆets. Le cas de la r´egression sera particuli`erement d´etaill´e.

2 Construction des arbres de d´

ecision

Cette partie est d´edi´ee `a la construction d’abres de d´ecision.

2.1 Algorithme de base

La construction d’un arbre de d´ecision `a l’aide d’attributs nominal est un processus it´eratif.

1. Choisir un attribut

2. Attribuer une branche `a chaque valeur de l’attribut

3. recommencer pour chaque feuille dont repr´esentant une population inhomog`ene

Cet algorithme poss`ede plusieurs ´el´ements implicites.

Question 1 Comment les attributs `a chaque ´etape sont-ils choisis? Sur quel crit`ere l’algo-

rithme s’arrˆete-t-il?

1

Cet algorithme est disponible dans Weka, dans la rubrique Classify puis dans les m´ethodes

tree. Il est nomm´e ID3 [3]. Cet algorithme a besoin de variables nominales et ne tol`ere pas

les valeurs manquantes. Une solution est donc de binariser les instances `a l’aide de la m´ethode

NumericToBinary1.

Question 2 R´ealiser un arbre ID3. Quelles sont les performances de cette m´ethode?

2.2 L’algorithme C4.5

L’algorithme C4.5 [5] consiste en une s´erie d’am´elioration de l’algorithme pr´ec´edent. Il est

tr`es repr´esent´e parce qu’il est le dernier a avoir ´et´e d´ecrit dans la litt´erature. Les versions plus

r´ecentes sont commerciales et ne font pas l’objet de publications.

2.2.1 Attributs num´

eriques

La premi`ere am´elioration concerne la gestion de donn´ees num´eriques. On d´eduis de ces

attributs des classes en s´eparant le domaine dans lequel l’attribut prend ses valeurs en interval

ne se recouvrant pas. La division la plus pertinante est s´electionn´ee. Dans le cas de l’algorithe

C4.5, le domaine de valeur d’un attribut n’est s´epar´e qu’en deux interval `a un noeud.

Question 3 Comment ´evalue-t-on la pertinance de la discr´etisation d’un attribut num´erique?

1Une autre solution est d’utiliser la m´ethode Discretize

2

2.2.2 Valeurs manquantes

La seconde am´elioration concerne la gestion des valeurs manquantes. Lorsqu’un example

ne poss`ede pas de valeur pour un attribut associ´e `a un noeud de d´ecision, celui-ci est dupliqu´e

dans chaque branche et chaque copie rec¸oit un poid correspondant `a la probabilit´e a priori de

passer par cette branche.

2.2.3 Elagage

Cette op´eration consiste `a simpliﬁer l’arbre obtenu. Une premi`ere possibilit´e est de couper

toutes les branches d’un noeud (subtree replacement). Une seconde possibilit´e est de rempla-

cer un noeud par la racine d’un des sous-arbres qui en descend (subtree raising). Les exemples

class´es dans les autres branches sont reclass´es.

Pour d´ecider de modiﬁer un noeud, on d´eﬁnis un estimateur pessimiste de l’erreur ede

classiﬁcation de chaque noeud ou feuille de l’arbre. De fac¸on g´en´eral un estimateur pessimiste

part d’une mesure fde l’erreur et lui ajoute une p´enalit´e positive ωqui d´epend du noeud ou de

la feuille iconsid´er´ee.

L’algorithme C4.5 utilise l’estimateur pessimiste suivant :

e=f+z2

2N+zqf

N−f2

N+z2

4N2

1 + z2

N

(1)

On note fle ratio du nombre d’exemples mal class´es Eau nombre d’exemples parvenus au

noeud N. Par ailleurs zest le seuil de conﬁance d’une distribution normale r´eduite. Le niveau

de conﬁance habituellement retenu pour l’algorithme C4.5 est de 25%.

Question 4 Dans la formule 1, quel est la mesure de l’erreur et quelle p´enalit´e est apport´ee?

Question 5 Comment d´ecider de modiﬁer un noeud?

3

Une version am´elior´ee de l’algorithme C4.5 est disponible dans Weka sous le nom J4.8. On

y remarquera toutes les possibilit´es ´enum´er´ees ci-dessus. De plus l’interface propose de r´ealiser

une estimation de l’erreur de chaque noeud ou feuille par validation crois´ee.

Question 6 R´ealiser diff´erents arbres en utilisant cet algorithme. Comment ´evolue l’abre si

l’option subtreeRaising est fausse et que l’on fait varier la niveaude conﬁance (conﬁdenceFactor) ?

Si l’option subtreeRaising est vraie, existe-t-il une valeur du niveau de conﬁance qui vous per-

mette d’en oberver l’effet?

3 Arbres de r´

egression

Pour construire des mod`eles quantitatifs, on utilise des arbres de r´

egression ou des arbres de

mod`

eles. Les pr´edictions des premiers sont les moyennes de valeurs des concepts dans chaque

feuille. Dans les second, chaque feuille est associ´e `a un mod`ele lin´eaire.

3.1 Algorithme M5

La construction d’un tel arbre diff`ere ´egalement du cas pr´ec´edent. Ici on s’int´eressera `a

l’algorithe M5 [4]. Celui-ci est accessible dans Weka sous le nom M5P.

On choisira l’attribut utilis´e pour diviser le jeu de donn´ees `a chaque noeud en fonction de

fac¸on a minimiser l’erreur de pr´ediction. Cette erreur est estim´ee en un noeud ien y mesurant

la d´eviation standard sidu concept. En somme, on s´electionnera la division des donn´ees qui

maximise la r´

eduction de d´

eviation standard :

RDS =si−X

k=1

CNk

Ni

sk(2)

Dans cette formule, chaque noeud kest peupl´e par Nkexemples et on consid`ere une division

du noeud ien Cbranches.

4

Question 7 Comment interpretter la formule 2?

Le processus de construction de l’arbre s’ach`eve quand la quantit´e `a mod´eliser ne varie plus

ou peu dans les feuilles.

3.1.1 R´

egularisation du mod`

ele

A mesure que les examples parcourent l’espace d´eﬁnis par les attributs, ils changent bruta-

lement de feuille et donc de mod`ele. Ceci conduit `a des discontinuit´es dans les pr´edictions. Le

processus de r´egularisation consiste a construire des mod`eles moyens permettant de passer de

fac¸on plus douce d’une feuille `a l’autre de l’arbre.

Dans le cadre de l’algorithme M5, cette r´egularisation est r´ealis´ee en construisant des

mod`eles lin´eaires `a chaque noeud de l’arbre. La valeur pr´edite pour un exemple est la moyenne

pond´er´ee des pr´edictions de chaque mod`ele individuel obtenue sur chaque noeud travers´e par

cet exemple.

Question 8 R´ealiser un premier mod`ele en utilisant les param`etres par d´efaut, puis d´esactiver

la r´egularisation -l’option useUnsmoothed doit ˆetre vrai. Quel effet cela a-t-il sur vos calculs?

3.1.2 Attributs nominaux

Comme l’arbre contient des mod`eles lin´eaires, les attributs nominaux ne sont pas naturel-

lement g´er´es. Ils sont donc transform´es en attributs binaires.

Question 9 Comment transforme-t-on des attributs nominaux en attributs binaires?

5

6

7

8

9

10

11

Traveaux Dirigés de Fouille de Données 3

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Traveaux Dirigés de Fouille de Données 3

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib