Correction d'examen Data Mining - IUT de Caen

Telechargé par Safa Zehi
I.U.T de Caen STID 2`
eme ann´
ee
D´
epartement STID Ann´
ee Universitaire 2007-2008
Responsable de cours : Alain LUCAS
Correction Examen Data Mining
Questions de cours
1. Le terme «data mining »est traduit par «fouille de donn´ees »en France.
2. Le «data mining »consiste en l’exploration de vastes bases de donn´ees dans le but d’en extraire une information
pertinente, inconnue jusqu’`a pr´esent, et `a forte valeur ajout´ee.
3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining.
4. Un syst`eme op´erationnel est bas´e sur une architecture relationnelle dont l’objectif consiste `a stocker efficacement
des donn´ees, et `a permettre un acc`es optimis´e pour des requˆetes pr´ed´efinies. A contrario, un syst`eme d´ecisionnel
est g´en´eralement bas´e sur une architecture en ´etoile dont l’objectif consiste `a permettre une exploration efficace
au sein d’un grand volume de donn´ees.
5. Les trois approches que l’on peut rencontrer sont :
le reporting
l’analyse multidimensionnelle
le data mining
6. Les phases du processus CRISP-DM sont :
«Business Understanding »qui consiste `a cerner pr´ecis´ement la probl´ematique, et `a la transformer en projet
«Data Mining »;
«Data Understanding »qui consiste `a prendre connaissance des donn´ees, et `a en faire un premier bilan ;
«Data Preparation »qui consiste `a pr´eparer les donn´ees en vue de l’´etape de mod´elisation ;
«Modeling »qui consiste `a faire usage d’outils appropri´es en vue de la moelisation des donn´ees ;
«Evaluation »qui consiste `a ´evaluer la performance du ou des mod`eles, puis `a s´electionner le cas ´ech´eant le
meilleur ;
«Deployment »qui consiste `a mettre en oeuvre le mod`ele s´electionner sur des donn´ees vierges.
7. Les trois sous-´echantillons sont :
le «training data set »dont l’objectif est de permettre l’apprentissage de l’algorithme
le «test data set »dont l’objectif consiste `a ´eviter le sur ou le sous apprentissage
le «validation data set »dont l’objectif consiste `a comparer les performances de plusieurs mod`eles
8. L’expression «underfitting »correspond `a la notion de sous-apprentissage laquelle traduit le fait que le mod`ele
est trop simple dans le sens qu’il ne capture pas toute la structure interne des donn´ees. A contrario, l’expression
«overfitting »correspond `a la notion de sur-apprentissage laquelle traduit le fait que le mod`ele est trop complexe
dans le sens qu’il capture non seulement la structure interne des donn´ees, mais aussi le bruit.
9. L’int´erˆet d’´elaguer un arbre est d’´eviter le ph´enom`ene de sur-apprentissage.
10. La sensibilit´e repr´esente la proportion de positifs bien class´es parmi les positifs disponibles. La sp´ecificit´e
repr´esente la proportion de n´egatifs bien class´es parmi les n´egatifs disponibles.
Probl`eme
Partie A - Profiling
Etude de la variable Credit.
1. On obtient :
XXXXXXXXX
X
Insur.
Credit Yes No Total
Yes 5 3 8
No 1 6 7
Total 6 9 15
2. On obtient :
π(Credit =Y es) = 83,33%
et donc
Odds(Credit =Y es) = π(Credit =Y es)
1π(Credit =Y es)= 5
3. On obtient :
π(Credit =N o) = 33,33%
et donc
Odds(Credit =N o) = π(Credit =N o)
1π(Credit =N o)= 0,5
Finalement, on trouve OR(Y es|N o) = 10.
4. Il ressort de l’OR que les clients poss´edant un cr´edit en cours ont 10 fois plus de chance d’avoir souscrit le produit
d’assurance que ceux n’ayant pas de cr´edit en cours. Clairement, cette variable pr´esente un impact significatif
sur la variable cible puisque l’OR est nettement diff´erent de 1.
Etude de la variable Sex.
1. On obtient :
PPPPPPP
P
Insur.
Sex Male Female Total
Yes 3 5 8
No 5 2 7
Total 8 7 15
2. On obtient :
π(Sex =F emale) = 71,43%
et donc
Odds(Sex =F emale) = π(Sex =F emale)
1π(Sex =F emale)= 2,5
3. On obtient :
π(Sex =M ale) = 37,5%
et donc
Odds(Sex =Male) = π(Sex =M ale)
1π(Sex =M ale)= 0,6
Finalement, on trouve OR(F|M) = 4,17.
4. Il ressort de l’OR que les clients de sexe f´eminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance
que ceux de sexe masculin. Clairement, cette variable pr´esente un impact significatif sur la variable cible puisque
l’OR est nettement diff´erent de 1.
2
Etude de la variable Income.
1. On obtient :
XXXXXXXXX
X
Insur.
Income 20-30 30-40 40-60 Total
Yes 2 3 3 8
No 2 2 3 7
Total 4 5 6 15
2. On obtient :
π(Income = 20 30) = 50%
et donc
Odds(Income = 20 30) = π(Income = 20 30)
1π(Income = 20 30) = 1
3. On obtient :
π(Income = 30 40) = 60%
et donc
Odds(Income = 30 40) = π(Income = 30 40)
1π(Income = 30 40) = 1,5
On obtient :
π(Income = 40 60) = 50%
et donc
Odds(Income = 40 60) = π(Income = 40 60)
1π(Income = 40 60) = 1
Finalement, on trouve OR(30 40|20 30) = 1,5 et OR(40 60|20 30) = 1.
4. En comparant ces deux OR avec ceux calcul´es pr´ec´edemment, il ressort clairement que la variable Income ne
pr´esente pas un impact significatif sur la variable cible car les coefficients sont tr`es proches, voir identiques `a la
valeur r´ef´erente 1.
Etude de la variable Age.
1. Avec ces valeurs, il semble assez clair que la variable Age pr´esente un impact significatif sur la variable cible (il
faut tout de mˆeme v´erifier que l’´ecart n’est pas du `a une ou plusieurs valeurs atypiques ! !).
2. Le graphique confirme la premi`ere analyse : la variable Age pr´esente bien un impact significatif sur la variable
Insurance. En effet, on observe clairement une distribution diff´erente de la variable Age selon que les clients ont
souscrit ou non une assurance. En particulier, les clients d’ˆage m´edian semblent les plus app´etents `a ce produit
d’assurance.
Bilan.
1. Via l’analyse pr´ec´edente, on obtient :
Variable Statut
Credit pertinente
Sex pertinente
Income non pertinente
Age pertinente
2. Afin d’am´eliorer la vente du produit, il importe de cibler en particulier : les clients ayant un cr´edit, les clients
de sexe f´eminin, et les clients d’ˆage m´edian (30-40).
3
Partie B - Arbre de d´ecision
Division 1.
1. Les variables Credit et Sex ´etant binaires, on peut constituer une seule division admissible pour chacune de
ces variables. La variable Income ´etant ordinale `a quatre modalit´es, on peut constituer au plus trois divisions
admissibles. Enfin, la variable Age ´etant continue avec 12 valeurs distinctes, on peut constituer 11 divisions
admissibles distinctes.
2. On obtient :
Insur. Racine
Yes 8
No 7
Gini 0,498
3. Un tel indice mesure l’impuret´e `a l’int´erieur d’un segment. Ses valeurs extrˆemes sont respectivement 0 et 0,5. La
valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en pr´esence
d’une distribution uniforme des deux modalit´es.
4. On obtient
XXXXXXXX
X
Insur.
Credit Yes No
Yes 5 3
No 16
Gini 0,278 0,444
Gini Tot. 0.378
XXXXXXXX
X
Insur.
Sex M F
Yes 3 5
No 5 2
Gini 0,469 0,408
Gini Tot. 0,441
XXXXXXXX
X
Insur.
Income 20-30 30-60 20-40 40-60 20-50 50-60
Yes 2 65362
No 2 54370
Gini 0,500 0,496 0,494 0,500 0,497 0
Gini Tot. 0,497 0,496 0,431
XXXXXXX
X
Insur.
Age 23 28 32 36.5 38.5 39.5
Modalit´es <<<<<<
Yes 1 7 1 7 2 6 3 5 4 4 5 3
No 0 7 1 6 1 6 1 6 1 6 1 6
Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444
Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378
XXXXXXX
X
Insur.
Age 40.5 41.5 42.5 44 50
<<<<<
Yes 5 3 6 2 6 2 8 0 8 0
No 2 5 2 5 3 4 4 3 5 2
Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0
Gini Tot. 0,441 0,390 0,444 0,355 0,410
5. La meilleure division globale ´etant obtenue pour la valeur de l’indice de Gini total la plus faible, on d´eduit des
tableaux pr´ec´edent que cette division est r´ealis´ee par la variable Age, avec la condition <ou `a 44 ans.
4
6. On obtient le graphique suivant :












 Α
7. Le premier segment ne v´erifie aucune des deux conditions d’arrˆet puisqu’il n’est pas pur et que le nombre
d’unit´es le composant est ´egal `a 12. Par cons´equent, ce segment est un segment interm´ediaire. Par contre le
second segment est clairement pur, il sera donc d´eclar´e comme terminal.
Division 2.
1. On obtient :
XXXXXXXX
X
Insur.
Credit Yes No
Yes 5 3
No 1 3
Gini 0,278 0,5
Gini Tot. 0,389
XXXXXXXX
X
Insur.
Sex M F
Yes 35
No 31
Gini 0,5 0,278
Gini Tot. 0,389
XXXXXXXX
X
Insur.
Income 20-30 30-60 20-40 40-60 20-50 50-60
Yes 26536 2
No 133140
Gini 0,444 0,444 0,469 0,375 0,48 0
Gini Tot. 0,444 0,438 0,400
XXXXXXX
X
Insur.
Age 23 28 32 36.5 38.5
Modalit´es <<<<<
Yes 1 7 1 7 2 6 3 5 44
No 0 4 1 3 1 3 1 3 1 3
Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49
Gini Tot. 0,424 0,433 0,444 0,438 0,419
XXXXXXX
X
Insur.
Age 39.5 40.5 41.5 42.5
<<<<
Yes 535 3 62 6 2
No 1 3 2 2 2 2 3 1
Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444
Gini Tot. 0,389 0,438 0,417 0,444
5
2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure
division est ´egalement obtenue avec la variable Sex ainsi que la variable Age.
3. On obtient le graphique suivant :




















 Α
 
4. Clairement, aucun des deux segments ne sera d´eclar´e comme terminal puisqu’aucune des deux contraintes n’est
satisfaite. Les deux segments seront donc d´eclar´es comme segments interm´ediaires.
Division 3.
1. Clairement, on travaille ici sur le segment Credit=Yes.
2. On obtient :
XXXXXXXX
X
Insur.
Sex M F
Yes 32
No 0 1
Gini 00,444
Gini Tot. 0,222
XXXXXXXX
X
Insur.
Income 20-30 30-50 20-40 40-50
Yes 234 1
No 0 1 1 0
Gini 0 0,375 0,32 0
Gini Tot. 0,25 0,267
XXXXXXX
X
Insur.
Age 24 32 37.5 41.5
Modalit´es <<<<
Yes 1 4 2 3 3 2 3 2
No 0 1 0 1 0 1 1 0
Gini 00,32 0 0,375 0 0,444 0,375 0
Gini Tot. 0,267 0,25 0,222 0,25
3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associ´e `a cette
division est seulement de 0,222.
4. On obtient




























 
 Α
 
6
5. Le premier segment est d´eclar´e comme terminal car il est pur. Par contre, le second est d´eclar´e comme terminal
car le nombre d’unit´es est inf´erieur `a 5.
Division 4.
1. On obtient :
XXXXXXXX
X
Insur.
Sex M F
Yes 0 3
No 3 0
Gini 0 0
Gini Tot. 0
2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division am`ene des segments purs,
et que d’autre part, c’est la premi`ere variable disponible dans le tableau de donn´ees. Par cons´equent, c’est
ecessairement cette division qui sera choisie sous les contraintes sp´ecifi´ees.
3. On obtient le graphique suivant :




































 
 Α
 
 
4. Les deux segments obtenus ´etant pur, ils sont d´eclar´es terminaux.
Pr´evisions.
1. En choisissant la modalit´e de fr´equence maximale, on obtient pour chacun des segments terminaux les valeurs
allou´ees suivantes :
Segment 2 = No
Segment 5 = Yes
Segment 6 = Yes
Segment 7 = No
Segment 8 = Yes
2. On obtient finalement :
ID Credit Sex Income Age Insurance
1 Yes Male 50-60 46 No
2 No Female 20-30 18 Yes
3 No Male 40-50 42 No
4 Yes Male 50-60 51 No
5 No Female 50-60 43 Yes
7
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!