Département Informatique Module : Fouille et extraction de données
-5-
2.a) Le gain d’information pour la variable A1
T F
Gain(Neud0,A1)=Gini(Noeud0) –(3/6 Gini (Noeud1) + 3/6 Gini (Noued2))
Gini (Noeud1) = 1-((2/3) 2+(1/3)2) =4/9
Gini (Noeud2) = 1-((1/3)2 +(2/3) 2) =4/9
Gain(Neud0,A1)= Gini (Noeud0) –(3/6 Gini (Noeud1) + 3/6 Gini (Noued2))
Gain(Neud0,A1)= 1/2 –(1/2 (4/9) + 1/2 (4/9))=1/2-4/9
Gain(Neud0,A1)= 0.06
2.b) Le gain d’information pour la variable A2
T F
Gain(Neud0,A2)=Gini(Noeud0) –(4/6 Gini (Noeud1) + 2/6 Gini (Noued2))
Gini (Noeud1) = 1-((2/4) 2+(2/4)2) =1/2
Gini (Noeud2) = 1-((1/2)2 +(1/2) 2) =1/2
Gain(Neud0,A2)= Gini (Noeud0) –(4/6 Gini (Noeud1) + 2/6 Gini (Noued2))
Gain(Neud0,A2)= 1/2 –(4/6 (1/2) + 2/6 (1/2))
Gain(Neud0,A2)= 0
Le choix de A1 est meilleur que celui de A2 ; Meilleure scission <Noeud0,A1>
Exercice N°3 :
Soit un échantillon de 200 patients se répartissant en 2 classes : M pour malade et B pour bonne santé. Deux
attributs, gorge-irritée et température, permettent de répartir les patients dans chacune des classes suivant le
tableau suivant :
Gorge irritée Gorge non irritée
Température < 37,5 6B, 37M 91B, 1M
Température ≥ 37,5 2B, 21M 1B, 41M
Noeud0 (3 ;3)
A1
Noeud1 (2 ;1)
Noeud2 (1 ;2)
Noeud0 (3 ;3)
A2
Noeud1 (2 ;2)
Noeud2 (1 ;1)