Département Informatique Module : Fouille et extraction de données
-1-
Série N°2 : Classification supervisée : Arbre de décision
Exercice N°1 :
Donner les arbres de décisions qui expriment les fonctions booléennes suivantes :
𝑨
¬
𝑩
A
B
F
0 0 0
0 1 0
1 0 1
1 1 0
𝑨(𝑩𝑪)
A B C F
0 0 0 0
0 0 1 0
0 1 0 0
0 1 1 1
1 0 0 1
1 0 1 1
1 1 0 1
1 1 1 1
Choix de la vriable racine (5,3)
La variable de test Composition des nœuds
A (4,0)(1,3)
B (3,2)(2,2)
C (3,2)(2,2)
La meilleure scission c’est par A
Pour A=1 c’est un noeud pure et devient une feuille de classe
OUI.
Pour A=0, nous avons (1,3)
B C F
0 0 0
0 1 0
1 0 0
1 1 1
Le choix entre B et C est le même, on choisit B en premier.
La variable de test Composition des nœuds
B (1,1)(0,2)
C (1,1)(0,2)
Département Informatique Module : Fouille et extraction de données
-2-
A XOR B
(
𝑨
𝑩
)
(
𝑪
𝑫
)
A B C D F
0 0 0 0 0
0 0 0 1 0
0 0 1 0 0
0 0 1 1 1
0 1 0 0 0
0 1 0 1 0
0 1 1 0 0
0 1 1 1 1
1 0 0 0 0
1 0 0 1 0
1 0 1 0 0
1 0 1 1 1
1 1 0 0 1
1 1 0 1 1
1 1 1 0 1
1 1 1 1 1
Exercice N°2 :
Soient les individus suivants :
Individu A1 A2 Classe
1 T T +
2 T T +
3 T F -
4 F F +
5 F T -
6 F T -
Département Informatique Module : Fouille et extraction de données
-3-
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 (𝑛𝑜𝑒𝑢𝑑 𝑝)= −𝑃(𝑘|𝑝)𝑙𝑛(𝑃(𝑘|𝑝))

𝐺𝑖𝑛𝑖 (𝑛𝑜𝑒𝑢𝑑 𝑝)= 1𝑃(𝑘|𝑝)

𝐺𝑎𝑖𝑛(𝑛𝑜𝑒𝑢𝑑 𝑝,𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑡)= 𝐺𝑎𝑖𝑛(𝑃,𝑡) = 𝑖(𝑝)𝑃𝑖(𝑝)

Un nœud p (position dans l’arbre de décision)
c le nombre de classe (modalité, valeur) de la variable cible prédictive
n le nombre de modalités de la variable t (attribut de test)
i soit la fonction Entropie ou bien le Gini
pj=la proportion des individus du nœud (p) qui vont en position pj (nœud pj)
P(k|p)=proportion des individus appartenant à la classe k parmi ceux du nœud p (de la position p)
1. Calculer l’entropie de l’ensemble d’individus par rapport à la valeur de la variable explicative classe.
a. Calculer le gain d’information pour la variable prédictive A1
b. Calculer le gain d’information pour la variable prédictive A2.
2. Calculer le Gini de l’ensemble d’individus par rapport à la valeur de la variable explicative classe.
a. Calculer le gain d’information pour la variable prédictive A1
b. Calculer le gain d’information pour la variable prédictive A2.
Solution :
Deux variables prédictives A1 et A2 : A1 (T,F), A2(T,F)
Une variable cible Classe (+,-)
1. Calculer l’entropie de l’ensemble d’individus
Noeud0 (3+ ;3-)
Entropie(Neud0)=-(3/6 ln2(3/6) +3/6 ln2(3/6))=1
Noeud0 (3 ;3)
Département Informatique Module : Fouille et extraction de données
-4-
1.a) Le gain d’information pour la variable A1
T F
Gain(Neud0,A1)=Entropie(Noeud0) –(3/6 Entropie(Noeud1) + 3/6 Entropie(Noued2))
Entropie(Noeud1) = -(2/3 ln2(2/3)+1/3 ln2 (1/3)) = 0.92
Entropie(Noeud2) = -(1/3 ln2(1/3)+2/3 ln2 (2/3)) = 0.92
Gain(Neud0,A1)=Entropie(Noeud0) –(3/6 Entropie(Noeud1) + 3/6 Entropie(Noued2))
Gain(Neud0,A1)=1 –(1/2(0.92) + ½(0.92))
Gain(Neud0,A1)=0.08
1.b) Le gain d’information pour la variable A2
T F
Gain(Neud0,A2)=Entropie(Noeud0) –(4/6 Entropie(Noeud1) + 2/6 Entropie(Noued2))
Entropie(Noeud1) = -(2/4 ln2(2/4)+2/4 ln2 (2/4)) = 1
Entropie(Noeud2) = -(1/2 ln2(1/2)+1/2 ln2 (1/2)) = 1
Gain(Neud0,A2)=Entropie(Noeud0) –(4/6 Entropie(Noeud1) + 2/6 Entropie(Noued2))
Gain(Neud0,A2)=1 –(4/6(1) + 2/6 (1))=1-1
Gain(Neud0,A2) =0
Le choix de A1 est meilleur que celui de A2 ; Meilleure scission <Noeud0, A1>
2. Calculer le Gini de l’ensemble d’individus
Noeud0 (3+ ;3-)
Gini(Noeud0)=1-((3/6)2+(3/6)2 )=1/2
Noeud0 (3 ;3)
A1
Noeud1 (2 ;1)
Noeud2 (1 ;2)
Noeud0 (3 ;3)
A2
Noeud1 (2 ;2)
Noeud2 (1 ;1)
Noeud0 (3 ;3)
Département Informatique Module : Fouille et extraction de données
-5-
2.a) Le gain d’information pour la variable A1
T F
Gain(Neud0,A1)=Gini(Noeud0) –(3/6 Gini (Noeud1) + 3/6 Gini (Noued2))
Gini (Noeud1) = 1-((2/3) 2+(1/3)2) =4/9
Gini (Noeud2) = 1-((1/3)2 +(2/3) 2) =4/9
Gain(Neud0,A1)= Gini (Noeud0) –(3/6 Gini (Noeud1) + 3/6 Gini (Noued2))
Gain(Neud0,A1)= 1/2 –(1/2 (4/9) + 1/2 (4/9))=1/2-4/9
Gain(Neud0,A1)= 0.06
2.b) Le gain d’information pour la variable A2
T F
Gain(Neud0,A2)=Gini(Noeud0) –(4/6 Gini (Noeud1) + 2/6 Gini (Noued2))
Gini (Noeud1) = 1-((2/4) 2+(2/4)2) =1/2
Gini (Noeud2) = 1-((1/2)2 +(1/2) 2) =1/2
Gain(Neud0,A2)= Gini (Noeud0) –(4/6 Gini (Noeud1) + 2/6 Gini (Noued2))
Gain(Neud0,A2)= 1/2 –(4/6 (1/2) + 2/6 (1/2))
Gain(Neud0,A2)= 0
Le choix de A1 est meilleur que celui de A2 ; Meilleure scission <Noeud0,A1>
Exercice N°3 :
Soit un échantillon de 200 patients se répartissant en 2 classes : M pour malade et B pour bonne santé. Deux
attributs, gorge-irritée et température, permettent de répartir les patients dans chacune des classes suivant le
tableau suivant :
Gorge irritée Gorge non irritée
Température < 37,5 6B, 37M 91B, 1M
Température ≥ 37,5 2B, 21M 1B, 41M
Noeud0 (3 ;3)
A1
Noeud1 (2 ;1)
Noeud2 (1 ;2)
Noeud0 (3 ;3)
A2
Noeud1 (2 ;2)
Noeud2 (1 ;1)
1 / 16 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !