STID 2ème année Année Universitaire 2007-2008 I.U.T de Caen Département STID Responsable de cours : Alain LUCAS Problème Partie A - Profiling • Etude de la variable Credit. 1. On obtient : XX XXX Credit Yes XXX Insur. XX Yes 5 No 1 Total 6 Correction Examen Data Mining Questions de cours No Total 3 6 9 8 7 15 2. On obtient : π(Credit = Y es) = 83, 33% 1. Le terme « data mining » est traduit par « fouille de données » en France. 2. Le « data mining » consiste en l’exploration de vastes bases de données dans le but d’en extraire une information pertinente, inconnue jusqu’à présent, et à forte valeur ajoutée. et donc Odds(Credit = Y es) = 3. Le sigle CRISP-DM signifie CRoss Industry Standard Process for Data Mining. 4. Un système opérationnel est basé sur une architecture relationnelle dont l’objectif consiste à stocker efficacement des données, et à permettre un accès optimisé pour des requêtes prédéfinies. A contrario, un système décisionnel est généralement basé sur une architecture en étoile dont l’objectif consiste à permettre une exploration efficace au sein d’un grand volume de données. 5. Les trois approches que l’on peut rencontrer sont : – le reporting – l’analyse multidimensionnelle – le data mining 6. Les phases du processus CRISP-DM sont : – « Business Understanding » qui consiste à cerner précisément la problématique, et à la transformer en projet « Data Mining » ; – « Data Understanding » qui consiste à prendre connaissance des données, et à en faire un premier bilan ; – « Data Preparation » qui consiste à préparer les données en vue de l’étape de modélisation ; – « Modeling » qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; – « Evaluation » qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le meilleur ; – « Deployment » qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges. 7. Les trois sous-échantillons sont : – le « training data set » dont l’objectif est de permettre l’apprentissage de l’algorithme – le « test data set » dont l’objectif consiste à éviter le sur ou le sous apprentissage – le « validation data set » dont l’objectif consiste à comparer les performances de plusieurs modèles 8. L’expression « underfitting » correspond à la notion de sous-apprentissage laquelle traduit le fait que le modèle est trop simple dans le sens qu’il ne capture pas toute la structure interne des données. A contrario, l’expression « overfitting » correspond à la notion de sur-apprentissage laquelle traduit le fait que le modèle est trop complexe dans le sens qu’il capture non seulement la structure interne des données, mais aussi le bruit. 9. L’intérêt d’élaguer un arbre est d’éviter le phénomène de sur-apprentissage. 10. La sensibilité représente la proportion de positifs bien classés parmi les positifs disponibles. La spécificité représente la proportion de négatifs bien classés parmi les négatifs disponibles. π(Credit = Y es) =5 1 − π(Credit = Y es) 3. On obtient : π(Credit = N o) = 33, 33% et donc Odds(Credit = N o) = π(Credit = N o) = 0, 5 1 − π(Credit = N o) Finalement, on trouve OR(Y es|N o) = 10. 4. Il ressort de l’OR que les clients possédant un crédit en cours ont 10 fois plus de chance d’avoir souscrit le produit d’assurance que ceux n’ayant pas de crédit en cours. Clairement, cette variable présente un impact significatif sur la variable cible puisque l’OR est nettement différent de 1. • Etude de la variable Sex. 1. On obtient : PP PP Sex Male Insur. PPP P Yes 3 No 5 Total 8 Female Total 5 2 7 8 7 15 2. On obtient : π(Sex = F emale) = 71, 43% et donc Odds(Sex = F emale) = π(Sex = F emale) = 2, 5 1 − π(Sex = F emale) 3. On obtient : π(Sex = M ale) = 37, 5% et donc Odds(Sex = M ale) = π(Sex = M ale) = 0, 6 1 − π(Sex = M ale) Finalement, on trouve OR(F |M ) = 4, 17. 4. Il ressort de l’OR que les clients de sexe féminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance que ceux de sexe masculin. Clairement, cette variable présente un impact significatif sur la variable cible puisque l’OR est nettement différent de 1. 2 • Etude de la variable Income. Partie B - Arbre de décision 1. On obtient : XX XX Income XXX 20-30 XXX Insur. Yes 2 No 2 Total 4 • Division 1. 30-40 40-60 Total 3 2 5 3 3 6 8 7 15 1. Les variables Credit et Sex étant binaires, on peut constituer une seule division admissible pour chacune de ces variables. La variable Income étant ordinale à quatre modalités, on peut constituer au plus trois divisions admissibles. Enfin, la variable Age étant continue avec 12 valeurs distinctes, on peut constituer 11 divisions admissibles distinctes. 2. On obtient : 2. On obtient : Insur. Yes No Gini π(Income = 20 − 30) = 50% et donc Odds(Income = 20 − 30) = π(Income = 20 − 30) =1 1 − π(Income = 20 − 30) 3. On obtient : π(Income = 30 − 40) = 60% et donc Racine 8 7 0,498 3. Un tel indice mesure l’impureté à l’intérieur d’un segment. Ses valeurs extrêmes sont respectivement 0 et 0,5. La valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en présence d’une distribution uniforme des deux modalités. 4. On obtient π(Income = 30 − 40) = 1, 5 Odds(Income = 30 − 40) = 1 − π(Income = 30 − 40) XX XX Credit XXX XX Yes Yes No Gini Gini Tot. 5 3 1 6 0,278 0,444 0.378 Insur. On obtient : π(Income = 40 − 60) = 50% et donc Odds(Income = 40 − 60) = π(Income = 40 − 60) =1 1 − π(Income = 40 − 60) XX XX XXXSex Insur. XX No Yes No Gini Gini Tot. M F 3 5 0,469 5 2 0,408 0,441 Finalement, on trouve OR(30 − 40|20 − 30) = 1, 5 et OR(40 − 60|20 − 30) = 1. XX XX Income XXX 20-30 Insur. XX 4. En comparant ces deux OR avec ceux calculés précédemment, il ressort clairement que la variable Income ne présente pas un impact significatif sur la variable cible car les coefficients sont très proches, voir identiques à la valeur référente 1. Yes No Gini Gini Tot. • Etude de la variable Age. 1. Avec ces valeurs, il semble assez clair que la variable Age présente un impact significatif sur la variable cible (il faut tout de même vérifier que l’écart n’est pas du à une ou plusieurs valeurs atypiques ! !). 2. Le graphique confirme la première analyse : la variable Age présente bien un impact significatif sur la variable Insurance. En effet, on observe clairement une distribution différente de la variable Age selon que les clients ont souscrit ou non une assurance. En particulier, les clients d’âge médian semblent les plus appétents à ce produit d’assurance. • Bilan. 1. Via l’analyse précédente, on obtient : Variable Credit Sex Income Age Statut pertinente pertinente non pertinente pertinente 2. Afin d’améliorer la vente du produit, il importe de cibler en particulier : les clients ayant un crédit, les clients de sexe féminin, et les clients d’âge médian (30-40). 3 XXX X Age Insur. XXX X Modalités Yes No Gini Gini Tot. XXX X Age Insur. XXX X Yes No Gini Gini Tot. 23 < 1 0 0 ≥ 7 7 0,500 0,467 30-60 2 6 2 5 0,500 0,496 0,497 20-40 40-60 20-50 5 3 4 3 0,494 0,500 0,496 50-60 6 2 7 0 0,497 0 0,431 28 32 36.5 38.5 39.5 < ≥ 1 7 1 6 0,500 0,497 0,497 < ≥ 2 6 1 6 0,444 0,500 0,489 < ≥ 3 5 1 6 0,375 0,496 0,464 < ≥ 4 4 1 6 0,32 0,48 0,427 < ≥ 5 3 1 6 0,278 0,444 0,378 40.5 41.5 42.5 < ≥ 5 3 2 5 0,408 0,469 0,441 < ≥ 6 2 2 5 0,375 0,408 0,390 < ≥ 6 2 3 4 0,444 0,444 0,444 44 < ≥ 8 0 4 3 0,444 0 0,355 50 < ≥ 8 0 5 2 0,473 0 0,410 5. La meilleure division globale étant obtenue pour la valeur de l’indice de Gini total la plus faible, on déduit des tableaux précédent que cette division est réalisée par la variable Age, avec la condition < ou ≥ à 44 ans. 4 6. On obtient le graphique suivant : 2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure division est également obtenue avec la variable Sex ainsi que la variable Age. 3. On obtient le graphique suivant : Α ≥ Α ≥ 4. Clairement, aucun des deux segments ne sera déclaré comme terminal puisqu’aucune des deux contraintes n’est satisfaite. Les deux segments seront donc déclarés comme segments intermédiaires. • Division 3. 1. Clairement, on travaille ici sur le segment Credit=Yes. 7. Le premier segment ne vérifie aucune des deux conditions d’arrêt puisqu’il n’est pas pur et que le nombre d’unités le composant est égal à 12. Par conséquent, ce segment est un segment intermédiaire. Par contre le second segment est clairement pur, il sera donc déclaré comme terminal. • Division 2. 1. On obtient : XX XX Credit XX XXX Insur. Yes No Gini Gini Tot. Yes No 5 1 0,278 3 3 0,5 XX XX XX Sex XXX Insur. 0,389 XXX XXIncome 20-30 XX XX Insur. Yes No Gini Gini Tot. M Yes No Gini Gini Tot. 30-60 2 6 1 3 0,444 0,444 0,444 20-40 40-60 5 3 3 1 0,469 0,375 0,438 3 3 0,5 20-50 2. On obtient : XX XX XXXSex Insur. XX Yes No Gini Gini Tot. F 5 1 0,278 0,389 F 3 0 0 2 1 0,444 XX Income XXX 20-30 XX Yes No Gini Gini Tot. 0,222 Modalités Yes No Gini Gini Tot. 24 < 1 0 0 32 ≥ 4 1 0,32 0,267 < 2 0 0 37.5 ≥ 3 1 0,375 0,25 < 3 0 0 ≥ 2 1 0,444 0,222 4. On obtient X Age Insur. XXX X Modalités Yes No Gini Gini Tot. XX XX Age Insur. XXX X Yes No Gini Gini Tot. 23 28 32 36.5 38.5 < ≥ 1 7 1 3 0,5 0,42 0,433 < ≥ 2 6 1 3 0,444 0,444 0,444 < ≥ 3 5 1 3 0,375 0,469 0,438 < ≥ 4 4 1 3 0,32 0,49 0,419 40.5 41.5 42.5 < 1 0 0 ≥ 7 4 0,463 0,424 39.5 < ≥ 5 3 1 3 0,278 0,5 0,389 < ≥ 5 3 2 2 0,408 0,48 0,438 5 < ≥ 6 2 2 2 0,375 0,5 0,417 < ≥ 6 2 3 1 0,444 0,444 0,444 2 0 0 3 1 0,375 0,25 20-40 40-50 4 1 0,32 1 0 0 0,267 41.5 < 3 1 0,375 0,25 ≥ 2 0 0 3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En effet, l’indice de Gini associé à cette division est seulement de 0,222. XXX 30-50 Insur. XX XX Age Insur. XXX X 50-60 6 2 4 0 0,48 0 0,400 XX M Α ≥ 6 5. Le premier segment est déclaré comme terminal car il est pur. Par contre, le second est déclaré comme terminal car le nombre d’unités est inférieur à 5. • Division 4. 1. On obtient : XX XX XX Sex XXX Insur. Yes No Gini Gini Tot. M F 0 3 0 3 0 0 0 2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division amène des segments purs, et que d’autre part, c’est la première variable disponible dans le tableau de données. Par conséquent, c’est nécessairement cette division qui sera choisie sous les contraintes spécifiées. 3. On obtient le graphique suivant : Α ≥ 4. Les deux segments obtenus étant pur, ils sont déclarés terminaux. • Prévisions. 1. En choisissant la modalité de fréquence maximale, on obtient pour chacun des segments terminaux les valeurs allouées suivantes : – Segment 2 = No – Segment 5 = Yes – Segment 6 = Yes – Segment 7 = No – Segment 8 = Yes 2. On obtient finalement : ID 1 2 3 4 5 Credit Yes No No Yes No Sex Male Female Male Male Female Income 50-60 20-30 40-50 50-60 50-60 7 Age 46 18 42 51 43 Insurance No Yes No No Yes