•Etude de la variable Income.
1. On obtient :
XXXXXXXXX
X
Insur.
Income 20-30 30-40 40-60 Total
Yes 2 3 3 8
No 2 2 3 7
Total 4 5 6 15
2. On obtient :
π(Income = 20 −30) = 50%
et donc
Odds(Income = 20 −30) = π(Income = 20 −30)
1−π(Income = 20 −30) = 1
3. On obtient :
π(Income = 30 −40) = 60%
et donc
Odds(Income = 30 −40) = π(Income = 30 −40)
1−π(Income = 30 −40) = 1,5
On obtient :
π(Income = 40 −60) = 50%
et donc
Odds(Income = 40 −60) = π(Income = 40 −60)
1−π(Income = 40 −60) = 1
Finalement, on trouve OR(30 −40|20 −30) = 1,5 et OR(40 −60|20 −30) = 1.
4. En comparant ces deux OR avec ceux calcul´es pr´ec´edemment, il ressort clairement que la variable Income ne
pr´esente pas un impact significatif sur la variable cible car les coefficients sont tr`es proches, voir identiques `a la
valeur r´ef´erente 1.
•Etude de la variable Age.
1. Avec ces valeurs, il semble assez clair que la variable Age pr´esente un impact significatif sur la variable cible (il
faut tout de mˆeme v´erifier que l’´ecart n’est pas du `a une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la premi`ere analyse : la variable Age pr´esente bien un impact significatif sur la variable
Insurance. En effet, on observe clairement une distribution diff´erente de la variable Age selon que les clients ont
souscrit ou non une assurance. En particulier, les clients d’ˆage m´edian semblent les plus app´etents `a ce produit
d’assurance.
•Bilan.
1. Via l’analyse pr´ec´edente, on obtient :
Variable Statut
Credit pertinente
Sex pertinente
Income non pertinente
Age pertinente
2. Afin d’am´eliorer la vente du produit, il importe de cibler en particulier : les clients ayant un cr´edit, les clients
de sexe f´eminin, et les clients d’ˆage m´edian (30-40).
3
Partie B - Arbre de d´ecision
•Division 1.
1. Les variables Credit et Sex ´etant binaires, on peut constituer une seule division admissible pour chacune de
ces variables. La variable Income ´etant ordinale `a quatre modalit´es, on peut constituer au plus trois divisions
admissibles. Enfin, la variable Age ´etant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
admissibles distinctes.
2. On obtient :
Insur. Racine
Yes 8
No 7
Gini 0,498
3. Un tel indice mesure l’impuret´e `a l’int´erieur d’un segment. Ses valeurs extrˆemes sont respectivement 0 et 0,5. La
valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en pr´esence
d’une distribution uniforme des deux modalit´es.
4. On obtient
XXXXXXXX
X
Insur.
Credit Yes No
Yes 5 3
No 16
Gini 0,278 0,444
Gini Tot. 0.378
XXXXXXXX
X
Insur.
Sex M F
Yes 3 5
No 5 2
Gini 0,469 0,408
Gini Tot. 0,441
XXXXXXXX
X
Insur.
Income 20-30 30-60 20-40 40-60 20-50 50-60
Yes 2 65362
No 2 54370
Gini 0,500 0,496 0,494 0,500 0,497 0
Gini Tot. 0,497 0,496 0,431
XXXXXXX
X
Insur.
Age 23 28 32 36.5 38.5 39.5
Modalit´es <≥<≥<≥<≥<≥<≥
Yes 1 7 1 7 2 6 3 5 4 4 5 3
No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXXXXXX
X
Insur.
Age 40.5 41.5 42.5 44 50
<≥<≥<≥<≥<≥
Yes 5 3 6 2 6 2 8 0 8 0
No 2 5 2 5 3 4 4 3 5 2
Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
5. La meilleure division globale ´etant obtenue pour la valeur de l’indice de Gini total la plus faible, on d´eduit des
tableaux pr´ec´edent que cette division est r´ealis´ee par la variable Age, avec la condition <ou ≥`a 44 ans.
4