Telechargé par Mamchaoui Benaouda

solution TD2 Arbre de decision

publicité
Module : Fouille et extraction de données
Département Informatique
Série N°2 : Classification supervisée : Arbre de décision
Exercice N°1 :
Donner les arbres de décisions qui expriment les fonctions booléennes suivantes :
𝑨 ⋀ ¬𝑩
A
0
0
1
1
B
0
1
0
1
𝑨 ∨ (𝑩 ∧ 𝑪)
A B C
0 0 0
0 0 1
0 1 0
0 1 1
1 0 0
1 0 1
1 1 0
1 1 1
F
0
0
1
0
F
0
0
0
1
1
1
1
1
Choix de la vriable racine (5,3)
La variable de test
Composition des nœuds
A
(4,0)(1,3)
B
(3,2)(2,2)
C
(3,2)(2,2)
 La meilleure scission c’est par A
 Pour A=1 c’est un noeud pure et devient une feuille de classe
OUI.
 Pour A=0, nous avons (1,3)
B
C F
0
0
0
0
1
0
1
0
0
1
1
1
 Le choix entre B et C est le même, on choisit B en premier.
La variable de test
Composition des nœuds
B
(1,1)(0,2)
C
(1,1)(0,2)
-1-
Module : Fouille et extraction de données
Département Informatique
A XOR B
(𝑨 ∧ 𝑩) ∨ (𝑪 ∧ 𝑫)
A
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
B
0
0
0
0
1
1
1
1
0
0
0
0
1
1
1
1
C
0
0
1
1
0
0
1
1
0
0
1
1
0
0
1
1
D
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
F
0
0
0
1
0
0
0
1
0
0
0
1
1
1
1
1
Exercice N°2 :
Soient les individus suivants :
Individu
1
2
3
4
5
6
A1
T
T
T
F
F
F
A2
T
T
F
F
T
T
Classe
+
+
+
-
-2-
Module : Fouille et extraction de données
Département Informatique
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑛𝑜𝑒𝑢𝑑 𝑝) = −
𝐺𝑖𝑛𝑖 (𝑛𝑜𝑒𝑢𝑑 𝑝) = 1 −
𝑃(𝑘|𝑝)𝑙𝑛 (𝑃(𝑘|𝑝))
𝑃(𝑘|𝑝)
𝐺𝑎𝑖𝑛(𝑛𝑜𝑒𝑢𝑑 𝑝, 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑡) = 𝐺𝑎𝑖𝑛(𝑃, 𝑡) = 𝑖(𝑝) −
𝑃 𝑖(𝑝 )





Un nœud p (position dans l’arbre de décision)
c le nombre de classe (modalité, valeur) de la variable cible prédictive
n le nombre de modalités de la variable t (attribut de test)
i soit la fonction Entropie ou bien le Gini
pj=la proportion des individus du nœud (p) qui vont en position pj (nœud pj)

P(k|p)=proportion des individus appartenant à la classe k parmi ceux du nœud p (de la position p)
1. Calculer l’entropie de l’ensemble d’individus par rapport à la valeur de la variable explicative classe.
a. Calculer le gain d’information pour la variable prédictive A1
b. Calculer le gain d’information pour la variable prédictive A2.
2. Calculer le Gini de l’ensemble d’individus par rapport à la valeur de la variable explicative classe.
a. Calculer le gain d’information pour la variable prédictive A1
b. Calculer le gain d’information pour la variable prédictive A2.
Solution :
Deux variables prédictives A1 et A2 : A1 (T,F), A2(T,F)
Une variable cible Classe (+,-)
1. Calculer l’entropie de l’ensemble d’individus

Noeud0 (3+ ;3-)
Noeud0 (3 ;3)
Entropie(Neud0)=-(3/6 ln2(3/6) +3/6 ln2(3/6))=1
-3-
Module : Fouille et extraction de données
Département Informatique
1.a) Le gain d’information pour la variable A1
Noeud0 (3 ;3)
A1
T
F
Noeud1 (2 ;1)
Noeud2 (1 ;2)
Gain(Neud0,A1)=Entropie(Noeud0) –(3/6 Entropie(Noeud1) + 3/6 Entropie(Noued2))
Entropie(Noeud1) = -(2/3 ln2(2/3)+1/3 ln2 (1/3)) = 0.92
Entropie(Noeud2) = -(1/3 ln2(1/3)+2/3 ln2 (2/3)) = 0.92
Gain(Neud0,A1)=Entropie(Noeud0) –(3/6 Entropie(Noeud1) + 3/6 Entropie(Noued2))
Gain(Neud0,A1)=1 –(1/2(0.92) + ½(0.92))
Gain(Neud0,A1)=0.08
1.b) Le gain d’information pour la variable A2
Noeud0 (3 ;3)
A2
T
Noeud1 (2 ;2)
F
Noeud2 (1 ;1)
Gain(Neud0,A2)=Entropie(Noeud0) –(4/6 Entropie(Noeud1) + 2/6 Entropie(Noued2))
Entropie(Noeud1) = -(2/4 ln2(2/4)+2/4 ln2 (2/4)) = 1
Entropie(Noeud2) = -(1/2 ln2(1/2)+1/2 ln2 (1/2)) = 1
Gain(Neud0,A2)=Entropie(Noeud0) –(4/6 Entropie(Noeud1) + 2/6 Entropie(Noued2))
Gain(Neud0,A2)=1 –(4/6(1) + 2/6 (1))=1-1
Gain(Neud0,A2) =0
Le choix de A1 est meilleur que celui de A2 ; Meilleure scission <Noeud0, A1>
2. Calculer le Gini de l’ensemble d’individus

Noeud0 (3+ ;3-)
Noeud0 (3 ;3)
Gini(Noeud0)=1-((3/6)2+(3/6)2 )=1/2
-4-
Module : Fouille et extraction de données
Département Informatique
2.a) Le gain d’information pour la variable A1
Noeud0 (3 ;3)
A1
T
F
Noeud1 (2 ;1)
Noeud2 (1 ;2)
Gain(Neud0,A1)=Gini(Noeud0) –(3/6 Gini (Noeud1) + 3/6 Gini (Noued2))
Gini (Noeud1) = 1-((2/3) 2+(1/3)2) =4/9
Gini (Noeud2) = 1-((1/3)2 +(2/3) 2) =4/9
Gain(Neud0,A1)= Gini (Noeud0) –(3/6 Gini (Noeud1) + 3/6 Gini (Noued2))
Gain(Neud0,A1)= 1/2 –(1/2 (4/9) + 1/2 (4/9))=1/2-4/9
Gain(Neud0,A1)= 0.06
2.b) Le gain d’information pour la variable A2
Noeud0 (3 ;3)
A2
T
F
Noeud1 (2 ;2)
Noeud2 (1 ;1)
Gain(Neud0,A2)=Gini(Noeud0) –(4/6 Gini (Noeud1) + 2/6 Gini (Noued2))
Gini (Noeud1) = 1-((2/4) 2+(2/4)2) =1/2
Gini (Noeud2) = 1-((1/2)2 +(1/2) 2) =1/2
Gain(Neud0,A2)= Gini (Noeud0) –(4/6 Gini (Noeud1) + 2/6 Gini (Noued2))
Gain(Neud0,A2)= 1/2 –(4/6 (1/2) + 2/6 (1/2))
Gain(Neud0,A2)= 0
Le choix de A1 est meilleur que celui de A2 ; Meilleure scission <Noeud0,A1>
Exercice N°3 :
Soit un échantillon de 200 patients se répartissant en 2 classes : M pour malade et B pour bonne santé. Deux
attributs, gorge-irritée et température, permettent de répartir les patients dans chacune des classes suivant le
tableau suivant :
Température < 37,5
Température ≥ 37,5
Gorge irritée
6B, 37M
2B, 21M
Gorge non irritée
91B, 1M
1B, 41M
-5-
Module : Fouille et extraction de données
Département Informatique
1. Quel(s) arbre(s) de décision peut-on construire à partir de ces données en utilisant le critère du gain
d’information (justifier le choix des attributs sans effectuer les calculs).
 Deux variables prédictives Gorge(irritée, non irritée), Température(≥ 37,5, <37.5)
 Une variable cible état du patient (bonne santé B, malade M)
Noeud0(100B,100M)
Nœud 0 (100,100)
 Choix de l’attribut de la meilleure scission : Gorge ? Température ?
Noeud0 (100 B;100M)
Température
<37.5
Noeud1 (97B ;38M)
Noeud0 (100B ;100M)
Gorge
≥ 37,5
Noeud2 (3B ;62M)
Non irritée
irritée
Noeud1 (92B ;42M)
Noeud2 (8 B;58M)
Les nœuds de cet arbre sont plus homogènes
et l’impureté est plus faible
 La meilleure scission du noeud0 est par la variable Température : < noeud0,Température>
Noeud0 (100 B;100M)
Température
<37.5
≥ 37,5
Noeud1 (97B ;38M)
Groge
Non irritée
Noeud11 (91 ;1)
B
Noeud2 (3B ;62M)
Gorge
irritée
Non irritée
Noeud21 (1 ;41)
M
Noeud12 (6 ;37)
M
irritée
Noeud22 (2 ;21)
M
2. On ajoute le critère d’arrêt suivant à l’algorithme de construction de l’arbre : si 90% des individus
d’un nœud sont d’une même classe, alors ce nœud devient une feuille de cette classe.
(a) Quel arbre obtient-on ?
Les Pourcentages des nœuds :
Nœud 0 : P(B)=100/200=0,5 50%, P(M)=100/200=0,5 50% Le critère d’arrêt n’est pas vérifié
Nœud 1 : P(B)=97/(97+38)=0.72 72%, P(M)=38/(97+38)=0.28 28% Le critère d’arrêt n’est pas
vérifié
Nœud 2 : P(B)=3/(3+62)=0.05  5%, P(M)=62/(3+62)=0.95 95%
Le critère d’arrêt est vérifié pour le nœud 2, DONC les nœuds 21 et 22 ne seront pas
développés.
-6-
Module : Fouille et extraction de données
Département Informatique
Noeud0 (100B ;100M)
Température
<37.5
≥ 37,5
Noeud1 (97B ;38M)
Groge
Non irritée
Noeud11 (91 ;1)
B
Noeud2 (3B ;62M)
irritée
Non irritée
irritée
Noeud21 (1 ;41)
Noeud12(6 ;37)
M
Noeud22(2 ;21)
Le sous arbre (nœud 21 et 22) va être élagué
Le nœud de décision 2 sera remplacé par un nœud
feuille
Résultat
Noeud0 (100B ;100M)
Température
<37.5
≥ 37,5
Noeud1 (97B ;38M)
Groge
Non irritée
Noeud11(91 ;1)
B
Noeud2 (3 ;62)
M
irritée
Noeud12(6 ;37)
M
(b) Quel est son taux d’erreur d’apprentissage ?
(1+6+3)/200=10/200=0.05 5%
(c) Calculez le taux d’erreur de teste pour l’échantillon de teste suivant :
Patient 1
Patient 2
Patient 3
Patient 4
Patient 5
Température
38
37,2
37
39
36,4
Gorge
irritée
non irritée
irrité
non irritée
irritée
-7-
classe
B
B
M
M
M
Module : Fouille et extraction de données
Département Informatique
Patient 1 : Réponse = Malade
Patient 2 : Réponse = Bon
Patient 3 : Réponse= Malade
Patient 4 : Réponse= Malade
Patient 5 : Réponse= Malade
Mauvaise réponse
 bonne réponse
 bonne réponse
 bonne réponse
 bonne réponse
Le taux d’erreur = 1/5=0.20 20%
Exercice N°4 :
Une compagnie d’assurances automobiles souhaiterait établir des profils parmi ses clients afin de
différencier le montant de ses primes. Une première analyse a montré que les attributs qui interviennent le
plus sont : le sexe (Homme ou Femme), la couleur du véhicule (Rouge ou Autre), l’âge de l’assuré (Jeune
ou Autre), le fait d’avoir des enfants ou non (Oui ou Non).
La variable cible est : Assuré à risque (+) ou non (-).
Les clients ayant souscrits une assurance depuis 5 ans sont analysés selon ces critères. On obtient alors le
tableau suivant :
Identificateur
1
2
3
4
5
6
7
8
9
10
11
12
Sexe
H
H
F
H
H
H
H
F
F
F
H
F
Couleur
A
R
R
R
R
A
A
A
A
R
R
A
Age
J
A
J
A
J
A
A
J
A
J
J
J
Enfants
N
O
N
N
O
O
N
N
N
O
O
N
Risque
+
+
+
+
+
-
1) Construire l’arbre de décision en utilisant les critères de l’entropie et le gain d’information.




Nœud 0 (5+,7-)
Noeud0 : nous avons (5+,7-)
Entropie du neoud0 :
Entropie(Neud0)=-(5/12 ln2(5/12) +7/12 ln2(5/12))=0.979
Choix de la variable racine (nœud0), la meilleure scission
 Scission par la variable Sexe <noeud0, Sexe>
Noeud0 (5+,7-)
Sexe
H
Noeud1 (4+,3-)
F
Noeud2 (1+,4-)
Gain(Neud0,Sexe)=Entropie(Noeud0) –(7/12 Entropie(Noeud1) + 5/12 Entropie(Noued2))
 Entropie(Neud1)=-(4/7 ln2(4/7) +3/7 ln2(3/7))=0.985
 Entropie(Neud2)=-(1/5 ln2(1/5) +4/5 ln2(4/5))=0.721
Gain(Neud0,Sexe)=0.979 – ( 7/12 (0.985) + 5/12 (0.721))=0.104
-8-
Module : Fouille et extraction de données
Département Informatique
 Scission par la variable Couleur <noeud0, Couleur>
Noeud0 (5+,7-)
Couleur
Autre
Rouge
Noeud1 (1+,5-)
Noeud2 (4+,2-)
Gain(Neud0,Couleur)=Entropie(Noeud0) –(6/12 Entropie(Noeud1) + 6/12 Entropie(Noued2))
 Entropie(Neud1)=-(1/6 ln2(1/6) +5/6 ln2(5/6))=0.65
 Entropie(Neud2)=-(4/6 ln2(4/6) +2/6 ln2(2/6))=0.918
Gain(Neud0,Couleur)=0.979 – ( 6/12 (0.65) + 6/12 (0.918))=0.196
 Scission par la variable Age <noeud0, Age>
Noeud0 (5+,7-)
Age
Jeune
Autre
Noeud1 (4+,3-)
Noeud2 (1+,4-)
Gain(Neud0,Age)=Entropie(Noeud0) –(7/12 Entropie(Noeud1) + 5/12 Entropie(Noued2))
 Entropie(Neud1)=-(4/7 ln2(4/7) +3/7 ln2(3/7))=0.985
 Entropie(Neud2)=-(1/5 ln2(1/5) +4/5 ln2(4/5))=0.721
Gain(Neud0,Age)=0.979 – ( 7/12 (0.985) + 5/12 (0.721))=0.104
 Scission par la variable Enfants <noeud0, Enfants>
Noeud0 (5+,7-)
Enfants
Oui
Noeud1 (2+,3-)
Non
Noeud2 (3+,4-)
Gain(Neud0,Enfants)=Entropie(Noeud0) –(5/12 Entropie(Noeud1) + 7/12 Entropie(Noued2))
 Entropie(Neud1)=-(2/3 ln2(2/5) +3/5 ln2(3/5))=0.97
 Entropie(Neud2)=-(3/7 ln2(3/7) +4/7 ln2(4/7))=0.985
Gain(Neud0,Enfants)=0.979 – ( 5/12 (0.97) + 7/12 (0.985))=0.0006
La meilleure scission est par Couleur <Noeud0,Couleur>
Noeud0 (5+,7-)
Couleur
Autre
Rouge
Noeud1 (1+,5-)
Noeud2 (4+,2-)
-9-
Module : Fouille et extraction de données
Département Informatique
La suite de l’arbre à partir du Noeud1 (couleur =Autre)
Identificateur
1
6
7
8
9
12
Sexe
H
H
H
F
F
F
Age
J
A
A
J
A
J
Enfants
N
O
N
N
N
N
Risque
+
-
Choix de la variable de scission entre : Sexe, Age, Enfants
 Scission par la variable Sexe <noeud1, Sexe>
Noeud1 (1+,5-)
Sexe
H
Noeud11 (1+,2-)
F
Noeud12 (0+,3-)
Gain(Neud1,Sexe)=Entropie(Noeud1) –(3/6 Entropie(Noeud11) + 3/6 Entropie(Noued12))
 Entropie(Neud1)=-(1/3 ln2(1/3) +2/3 ln2(2/3))=0.92
 Entropie(Neud2)=-(3/3 ln2(3/3))=0
Gain(Neud1,Sexe)=0.65 – ( 3/6(0.92) + 3/6 (0))=0.19
 Scission par la variable Age <noeud1, Age>
Noeud1 (1+,5-)
Age
Jeune
Noeud11 (1+,2-)
Autre
Noeud12 (0+,3-)
Gain(Neud1,Age)=Entropie(Noeud1) –(3/6 Entropie(Noeud11) + 3/6 Entropie(Noued12))
 Entropie(Neud1)=-(1/3 ln2(1/3) +2/3 ln2(2/3))=0.92
 Entropie(Neud2)=-(3/3 ln2(3/3))=0
Gain(Neud1,Age)=0.65 – ( 3/6(0.92) + 3/6 (0))=0.19
 Scission par la variable Enfants <noeud2, Enfants>
Noeud1 (1+,5-)
Enfants
Oui
Noeud11 (0+,1-)
Non
Noeud12 (1+,4-)
Gain(Neud1,Enfants)=Entropie(Noeud1) –(1/6 Entropie(Noeud11) + 5/6 Entropie(Noued12))
 Entropie(Neud1)=-(1/1 ln2(1/1))=0
 Entropie(Neud2)=-(1/5 ln2(1/5)+ 4/5 ln2(4/5))=0.72
Gain(Neud1,Enfants)=0.65 – ( 1/6(0) + 5/6 (0.72))=0.048
-10-
Module : Fouille et extraction de données
Département Informatique
Le choix est le même entre Sexe et Couleur pour maximiser le gain du nœud 1, on décide de choisir la
première variable : Sexe.
Noeud0 (5+,7-)
Couleur
Autre
Rouge
Noeud1 (1+,5-)
Sexe
Oui
Noeud2 (4+,2-)
Non
Noeud11 (1+,2-)
Noeud12 (0+,3-)
La suite de l’arbre à partir du Noeud2 (Couleur =Rouge)
Identificateur
2
3
4
5
10
11
Sexe
H
F
H
H
F
H
Age
A
J
A
J
J
J
Enfants
O
N
N
O
O
O
Risque
+
+
+
+
Choix de la variable de scission entre : Sexe, Age, Enfants
 Scission par la variable Sexe <noeud2, Sexe>

Noeud2 (4+,2-)
Sexe
H
Noeud21 (3+,1-)
F
Noeud22 (1+,1-)
Gain(Neud2,Sexe)=Entropie(Noeud2) –(4/6 Entropie(Noeud21) + 2/6 Entropie(Noued22))
 Entropie(Neud21)=-(3/4 ln2(3/4) +1/4 ln2(2/4))=0.811
 Entropie(Neud22)=-(1/2 ln2(1/2)+ 1/2 ln2(1/2))=1
Gain(Neud2,Sexe)=0.918 – ( 4/6(.811) + 2/6 (1))=0.044
 Scission par la variable Age <noeud2, Age>
Noeud2 (4+,2-)
Age
Jeune
Noeud21 (3+,1-)
Autre
Noeud22 (1+,1-)
Gain(Neud2,Age)=Entropie(Noeud2) –(4/6 Entropie(Noeud21) + 2/6 Entropie(Noued22))
 Entropie(Neud21)=-(3/4 ln2(3/4) +1/4 ln2(2/4))=0.811
 Entropie(Neud22)=-(1/2 ln2(1/2)+ 1/2 ln2(1/2))=1
Gain(Neud2,Age)=0.918 – ( 4/6(0.811) + 2/6 (1))=0.044
-11-
Module : Fouille et extraction de données
Département Informatique
 Scission par la variable Enfants <noeud2, Enfants>

Noeud2 (4+,2-)
Enfants
Oui
Non
Noeud21 (2+,2-)
Noeud22 (2+,0-)
Gain(Neud2,Enfants)=Entropie(Noeud2) –(4/6 Entropie(Noeud21) + 2/6 Entropie(Noued22))
 Entropie(Neud21)=-(2/4 ln2(2/4) +2/4 ln2(2/4))=1
 Entropie(Neud22)=-(2/2 ln2(2/2))=0
Gain(Neud2,Enfants)=0.918 – ( 4/6(1) + 2/6 (0))=0.25
La meilleure scission qui maximise le gain pour le noeud2 est la variable Enfants.
Noeud0 (5+,7-)
Couleur
Autre
Rouge
Noeud1 (1+,5-)
Sexe
F
H
Noeud11 (1+,2-)
Noeud2 (4+,2-)
Enfants
Oui
Noeud12 (0+,3-)
Noeud21 (2+,2-)
Non
Noeud22 (2+,0-)
Le nœuds12 et le noeud22 sont des nœuds pures, ils deviennent donc des feuilles
La suite de l’arbre à partir du Noeud11 (couleur =Autre et Sexe=H)
Identificateur
1
6
7
Age
J
A
A
Enfants
N
O
N
Risque
+
-
Choix de la variable de scission entre : Age et Enfants
 Scission par la variable Age <noeud11, Age>
Noeud11 (1+,2-)
Age
Jeune
Noeud111 (1+,0-)
Autre
Noeud112 (0+,2-)
Gain(Neud11,Age)=Entropie(Noeud11) –(1/3 Entropie(Noeud111) + 2/3 Entropie(Noued112))
 Entropie(Neud111)=-(1/1 ln2(1/1))=0
 Entropie(Neud122)=-(2/2 ln2(2/2))=0
Gain(Neud11,Age)=0.918 – ( 1/3(0) + 2/3 (0))=-0.918
-12-
Module : Fouille et extraction de données
Département Informatique
 Scission par la variable Enfants <noeud11, Enfants>
Noeud11 (1+,2-)
Enfants
Oui
Non
Noeud111 (0+,1-)
Noeud112 (1+,1-)
Gain(Neud11,Enfants)=Entropie(Noeud11) –(1/3 Entropie(Noeud111) + 2/3 Entropie(Noued112))
 Entropie(Neud111)=-(1/1 ln2(1/1))=0
 Entropie(Neud122)=-(1/2 ln2(1/2+1/2 ln2(1/2))=1
Gain(Neud11,Enfants)=0.918 – ( 1/3(0) + 2/3 (1))=0.251
La meilleure scission qui maximise le gain pour le noeud11 est la variable Age.
Noeud0 (5+,7-)
Couleur
Autre
Rouge
Noeud1 (1+,5-)
Sexe
Noeud2 (4+,2-)
Enfants
F
H
Noeud11 (1+,2-)
<<<
Age
Oui
Noeud12 (0+,3-)
Noeud21 (2+,2-)
Autre
Jeune
Noeud111 (1+,0-)
Noeud112 (0+,2-)
La suite de l’arbre à partir du Noeud21 (couleur =Rouge et Enfants=oui)
Identificateur
2
5
10
11
Sexe
H
H
F
H
Age
A
J
J
J
Risque
+
+
Choix de la variable de scission entre : Sexe et Age
 Scission par la variable Sexe <noeud21, Sexe>
Noeud21 (2+,2-)
Sexe
H
Noeud211 (2+,1-)
F
Noeud212 (0+,1-)
-13-
Non
Noeud22 (2+,0-)
Module : Fouille et extraction de données
Département Informatique
Gain(Neud21,Sexe)=Entropie(Noeud21) –(3/4 Entropie(Noeud211) + 1/4 Entropie(Noued212))
 Entropie(Neud211)=-(2/3 ln2(2/3)+ 1/3 ln2(1/3))=0.918
 Entropie(Neud212)=-(1/2 ln2(1/1))=0
Gain(Neud2,Sexe)=1– ( 3/4(0.918) + 1/4 (0))0.311
 Scission par la variable Age <noeud21, Sexe>
Noeud21 (2+,2-)
Age
Jeune
Autre
Noeud211 (2+,1-)
Noeud212 (0+,1-)
Gain(Neud21,Age)=Entropie(Noeud21) –(3/4 Entropie(Noeud211) + 1/4 Entropie(Noued212))
 Entropie(Neud211)=-(2/3 ln2(2/3)+ 1/3 ln2(1/3))=0.918
 Entropie(Neud212)=-(1/2 ln2(1/1))=0
Gain(Neud2,Age)=1– ( 3/4(0.918) + 1/4 (0))=0.311
Le choix entre Sexe et Age pour maximiser le gain du nœud 21 est le même, on décide de choisir la
première variable : Sexe.
Noeud0 (5+,7-)
Couleur
Autre
Rouge
Noeud1 (1+,5-)
Sexe
Noeud2 (4+,2-)
Enfants
F
H
Noeud11 (1+,2-)
Age
Oui
Noeud21 (2+,2-)
Sexe
Noeud12 (0+,3-)
Noeud111 (1+,0-)
Noeud22 (2+,0-)
H
Autre
Jeune
Non
Noeud112 (0+,2-)
Noeud211 (2+,1-)
F
Noeud212 (0+,1-)
La suite de l’arbre à partir du Noeud211 (couleur =Rouge et Enfants=oui et Sexe=H)
Identificateur
2
5
11
Age
A
J
J
Risque
+
+
-14-
Module : Fouille et extraction de données
Département Informatique
Il ne reste qu’une seule variable de test Age
Noeud211 (2+,1-)
Age
Jeune
Autre
Noeud2111 (2+,0-)
Noeud2112 (0+,1-)
L’arbre Final
Noeud0 (5+,7-)
Couleur
Autre
Rouge
Noeud1 (1+,5-)
Sexe
H
F
Noeud11 (1+,2-)
Age
Jeune
Noeud111 (1+,0-)
+
Noeud2 (4+,2-)
Enfants
Oui
Non
Noeud21 (2+,2-)
Sexe
Noeud12 (0+,3-)
-
Noeud22 (2+,0-)
+
H
Autre
F
Noeud212 (0+,1-)
-
Noeud211 (2+,1-)
Age
Noeud112 (0+,2-)
-
Jeune
Autre
Noeud2111 (2+,0-)
-
Noeud2112 (0+,1-)
-
o Trouvez quelle classe est attribuée à (sexe=F, Couleur=A, Age=J, Enfant=O) par le classificateur
d’arbre de décision.
La classe attribuée est -
-15-
Module : Fouille et extraction de données
Département Informatique
2) Construire l’arbre de décision en utilisant le critère de Gini d’information.
o Trouvez quelle classe est attribuée à (sexe=F, Couleur=A, Age=J, Enfant=O) par le classificateur
d’arbre de décision.
-16-
Téléchargement