Telechargé par Safa Zehi

DM-afd-Correction

publicité
STID 2ème année
Année Universitaire 2007-2008
I.U.T de Caen
Département STID
Responsable de cours : Alain LUCAS
Problème
Partie A - Profiling
• Etude de la variable Credit.
1. On obtient :
XX
XXX Credit
Yes
XXX
Insur.
XX
Yes
5
No
1
Total
6
Correction Examen Data Mining
Questions de cours
No
Total
3
6
9
8
7
15
2. On obtient :
π(Credit = Y es) = 83, 33%
1. Le terme « data mining » est traduit par « fouille de données » en France.
2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information
pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée.
et donc
Odds(Credit = Y es) =
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement
des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel
est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace
au sein d’un grand volume de données.
5. Les trois approches que l’on peut rencontrer sont :
– le reporting
– l’analyse multidimensionnelle
– le data mining
6. Les phases du processus CRISP-DM sont :
– « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet
« Data Mining » ;
– « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ;
– « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ;
– « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ;
– « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le
meilleur ;
– « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
7. Les trois sous-échantillons sont :
– le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme
– le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage
– le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles
8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle
est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression
« overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe
dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit.
9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage.
10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité
représente la proportion de négatifs bien classés parmi les négatifs disponibles.
π(Credit = Y es)
=5
1 − π(Credit = Y es)
3. On obtient :
π(Credit = N o) = 33, 33%
et donc
Odds(Credit = N o) =
π(Credit = N o)
= 0, 5
1 − π(Credit = N o)
Finalement, on trouve OR(Y es|N o) = 10.
4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif
sur la variable cible puisque l’OR est nettement différent de 1.
• Etude de la variable Sex.
1. On obtient :
PP
PP Sex Male
Insur. PPP
P
Yes
3
No
5
Total
8
Female
Total
5
2
7
8
7
15
2. On obtient :
π(Sex = F emale) = 71, 43%
et donc
Odds(Sex = F emale) =
π(Sex = F emale)
= 2, 5
1 − π(Sex = F emale)
3. On obtient :
π(Sex = M ale) = 37, 5%
et donc
Odds(Sex = M ale) =
π(Sex = M ale)
= 0, 6
1 − π(Sex = M ale)
Finalement, on trouve OR(F |M ) = 4, 17.
4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque
l’OR est nettement différent de 1.
2
• Etude de la variable Income.
Partie B - Arbre de décision
1. On obtient :
XX
XX Income
XXX
20-30
XXX
Insur.
Yes
2
No
2
Total
4
• Division 1.
30-40
40-60
Total
3
2
5
3
3
6
8
7
15
1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de
ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions
admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
admissibles distinctes.
2. On obtient :
2. On obtient :
Insur.
Yes
No
Gini
π(Income = 20 − 30) = 50%
et donc
Odds(Income = 20 − 30) =
π(Income = 20 − 30)
=1
1 − π(Income = 20 − 30)
3. On obtient :
π(Income = 30 − 40) = 60%
et donc
Racine
8
7
0,498
3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La
valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence
d’une distribution uniforme des deux modalités.
4. On obtient
π(Income = 30 − 40)
= 1, 5
Odds(Income = 30 − 40) =
1 − π(Income = 30 − 40)
XX
XX Credit
XXX
XX
Yes
Yes
No
Gini
Gini Tot.
5
3
1
6
0,278
0,444
0.378
Insur.
On obtient :
π(Income = 40 − 60) = 50%
et donc
Odds(Income = 40 − 60) =
π(Income = 40 − 60)
=1
1 − π(Income = 40 − 60)
XX
XX
XXXSex
Insur.
XX
No
Yes
No
Gini
Gini Tot.
M
F
3
5
0,469
5
2
0,408
0,441
Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1.
XX
XX Income
XXX
20-30
Insur.
XX
4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne
présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la
valeur référente 1.
Yes
No
Gini
Gini Tot.
• Etude de la variable Age.
1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il
faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable
Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont
souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit
d’assurance.
• Bilan.
1. Via l’analyse précédente, on obtient :
Variable
Credit
Sex
Income
Age
Statut
pertinente
pertinente
non pertinente
pertinente
2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients
de sexe féminin, et les clients d’âge médian (30-40).
3
XXX
X Age
Insur. XXX
X
Modalités
Yes
No
Gini
Gini Tot.
XXX
X Age
Insur. XXX
X
Yes
No
Gini
Gini Tot.
23
<
1
0
0
≥
7
7
0,500
0,467
30-60
2
6
2
5
0,500
0,496
0,497
20-40
40-60
20-50
5
3
4
3
0,494
0,500
0,496
50-60
6
2
7
0
0,497
0
0,431
28
32
36.5
38.5
39.5
<
≥
1
7
1
6
0,500 0,497
0,497
<
≥
2
6
1
6
0,444 0,500
0,489
<
≥
3
5
1
6
0,375
0,496
0,464
<
≥
4
4
1
6
0,32
0,48
0,427
<
≥
5
3
1
6
0,278
0,444
0,378
40.5
41.5
42.5
<
≥
5
3
2
5
0,408
0,469
0,441
<
≥
6
2
2
5
0,375
0,408
0,390
<
≥
6
2
3
4
0,444
0,444
0,444
44
<
≥
8
0
4
3
0,444
0
0,355
50
<
≥
8
0
5
2
0,473
0
0,410
5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des
tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans.
4
6. On obtient le graphique suivant :
2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est également obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :
Α ≥
Α ≥
4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires.
• Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre
d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le
second segment est clairement pur, il sera donc déclaré comme terminal.
• Division 2.
1. On obtient :
XX
XX Credit
XX
XXX
Insur.
Yes
No
Gini
Gini Tot.
Yes
No
5
1
0,278
3
3
0,5
XX
XX
XX Sex
XXX
Insur.
0,389
XXX
XXIncome 20-30
XX
XX
Insur.
Yes
No
Gini
Gini Tot.
M
Yes
No
Gini
Gini Tot.
30-60
2
6
1
3
0,444
0,444
0,444
20-40
40-60
5
3
3
1
0,469
0,375
0,438
3
3
0,5
20-50
2. On obtient :
XX
XX
XXXSex
Insur.
XX
Yes
No
Gini
Gini Tot.
F
5
1
0,278
0,389
F
3
0
0
2
1
0,444
XX Income
XXX
20-30
XX
Yes
No
Gini
Gini Tot.
0,222
Modalités
Yes
No
Gini
Gini Tot.
24
<
1
0
0
32
≥
4
1
0,32
0,267
<
2
0
0
37.5
≥
3
1
0,375
0,25
<
3
0
0
≥
2
1
0,444
0,222
4. On obtient
X Age
Insur. XXX
X
Modalités
Yes
No
Gini
Gini Tot.
XX
XX Age
Insur. XXX
X
Yes
No
Gini
Gini Tot.
23
28
32
36.5
38.5
<
≥
1
7
1
3
0,5
0,42
0,433
<
≥
2
6
1
3
0,444
0,444
0,444
<
≥
3
5
1
3
0,375
0,469
0,438
<
≥
4
4
1
3
0,32
0,49
0,419
40.5
41.5
42.5
<
1
0
0
≥
7
4
0,463
0,424
39.5
<
≥
5
3
1
3
0,278
0,5
0,389
<
≥
5
3
2
2
0,408
0,48
0,438
5
<
≥
6
2
2
2
0,375
0,5
0,417
<
≥
6
2
3
1
0,444
0,444
0,444
2
0
0
3
1
0,375
0,25
20-40
40-50
4
1
0,32
1
0
0
0,267
41.5
<
3
1
0,375
0,25
≥
2
0
0
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette
division est seulement de 0,222.
XXX
30-50
Insur.
XX
XX Age
Insur. XXX
X
50-60
6
2
4
0
0,48
0
0,400
XX
M
Α ≥
6
5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal
car le nombre d’unités est inférieur à 5.
• Division 4.
1. On obtient :
XX
XX
XX Sex
XXX
Insur.
Yes
No
Gini
Gini Tot.
M
F
0
3
0
3
0
0
0
2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs,
et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est
nécessairement cette division qui sera choisie sous les contraintes spécifiées.
3. On obtient le graphique suivant :
Α ≥
4. Les deux segments obtenus étant pur, ils sont déclarés terminaux.
• Prévisions.
1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs
allouées suivantes :
– Segment 2 = No
– Segment 5 = Yes
– Segment 6 = Yes
– Segment 7 = No
– Segment 8 = Yes
2. On obtient finalement :
ID
1
2
3
4
5
Credit
Yes
No
No
Yes
No
Sex
Male
Female
Male
Male
Female
Income
50-60
20-30
40-50
50-60
50-60
7
Age
46
18
42
51
43
Insurance
No
Yes
No
No
Yes
Téléchargement