Matrice de confusion STID 2ème année Année Universitaire 2006-2007 I.U.T de Caen Département STID Responsable de cours : Alain LUCAS 1. La taille de l’échantillon test est 24 986 clients. 2. Le nombre de réponses favorables est 5 984. 3. Le nombre de clients contactés serait de 2 682. Correction Examen Data Mining 4. On obtient : – – – – TP = 2 433. TN = 18 753. FP = 249. FN = 3 551 1. Le terme utilisé est “Fouille de données”. 5. Le taux d’erreur global est de 15,21%. 2. “Data Warehouse” signifie entrepôt de données alors que “Data Marts” signifie magasin de données. 6. Le taux de réponses favorables avec le modèle aléatoire est de 23,95%. 3. Les trois facteurs sont : la production de données, les avancées technologiques en informatique (processeurs, stockage, réseaux, etc.), et la forte concurrence. 7. La sensibilité est de 40,66%, tandis que la spécificité est de 98,69%. La sensibilité mesure la proportion de réponses favorables détectées par le modèle par rapport au nombre de réponses favorables dans l’échantillon, tandis que la spécificité mesure la proportion de réponses défavorables détectées par le modèle par rapport au nombre de réponses défavorables dans l’échantillon. 4. Les trois familles d’outils sont : la famille des outils de reporting, la famille des outils d’analyse multidimensionnelle, et la famille des outils de “Data Mining”. 5. Les phases du processus CRISP-DM sont : – “Business Understanding” qui consiste à cerner précisément la problématique, et à la transformer en projet “Data Mining” ; – “Data Understanding” qui consiste à prendre connaissance des données, et à en faire un premier bilan ; – “Data Preparation” qui consiste à préparer les données en vue de l’étape de modélisation ; – “Modeling” qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ; – “Evaluation” qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le meilleur ; – “Deployment” qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges. 6. Contrairement aux méthodes supervisées qui nécessitent de définir une variable cible, les méthodes non-supervisées travaillent à partir de l’ensemble des variables d’intérêt. Clairement, les méthodes CAH, Classification mixte, et association de produits sont des méthodes non-supervisées. Les autres sont des méthodes supervisées. 7. Le modèle de régression logistique s’écrit : log π(x) 1 − π(x) = logit π(x) = β0 + β1 x1 + · · · βp xp 8. On peut rencontrer les arbres de régression et les arbres de discrimination. 9. La notion de sur-apprentissage intervient lorsque le modèle prend en compte non seulement la tendance, mais également le bruit associée aux données. Cette problématique intervient régulièrement dans les arbres de décision. Pour éviter ce problème, il est courant de tester la généralisation du modèle via l’échantillon test. Dans le cadre d’un sur-apprentissage, il importe d’apporter les modifications nécessaires au modèle afin que ce dernier soit robuste lors de la phase de “Deployment”. 10. L’intérêt d’élaguer un arbre est d’éviter la problématique du sur-apprentissage. 11. L’indicateur sensibilité indique la proportion de modalités “succès” correctement classées par le modèle. A contrario, l’indicateur spécificité indique la proportion de modalités “échec” correctement classées par le modèle. 12. Les graphiques “Lift” et “ROC” permettent tous les deux d’évaluer la performance d’un modèle. 8. L’indicateur precision vaut 90,72%. 9. L’indicateur recall vaut 40,66%. 10. Le Lift vaut 1,70. Avec le modèle, on améliore le taux de réponses favorables de 1,7 fois celui obtenu via le modèle aléatoire. Modélisation 1. L’instruction read.table sert à lire les données contenues dans un fichier. L’option sep consiste à préciser le type de séparateur, tandis que l’option header consiste à préciser l’existence ou l’abscence du label des variables sur la première ligne du fichier. 2. Le rôle de cette instruction est de confirmer la bonne lecture des données. 3. La première ligne du tableau fait allusion au modèle logistique dans le cas où l’on suppose constant le paramètre π(x). La colonne bf error mesure l’écart de Deviance entre le modèle constant et le modèle courant. Le sigle df signifie degree of freedom, soit degré de liberté. La colonne df contient la valeur 1 pour chaque variable car entre le modèle constant et le modèle courant, il n’y a qu’un paramètre d’écart. 4. Avec un seuil de 10%, seule la variable Age n’a pas un impact significatif sur la Deviance puisque sa p-value de 29,6% est clairement supérieure à la valeur seuil. 5. Le modèle qui correspond est le modèle M1 puisque c’est le seul qui intègre l’ensemble des variables préalablement sélectionnées. 6. Clairement, on observe que la variable Tumour-grade a une influence particulièrement faible sur la Deviance en présence des autres variables. Avec un seuil de 5%, on décide de supprimer cette variable du modèle. 7. Comme précédent, on détecte que la variable Acid-level a une influence particulièrement faible sur la Deviance en présence des autres variables. On décide alors de l’éliminer du modèle. 8. On peut observer ici que les p-value sont clairement inférieures à la limite des 5%. On décide finalement de conserver ces deux variables dans le modèle. 9. Concernant la variable Age, on décide de l’éliminer du modèle puisque la p-value est supérieure au seuil 5%. En conclusion, les variables intervenant dans le modèle final sont : Xray-result et Tumour-size. 10. Le modèle final s’écrit : logit π(x) = −2.0446 + 2.1194 × Xray − result + 1.5883 × T umour − size. 2 11. On obtient : Xray-result négatif négatif positif positif Tumour-size petite grande petite grande Odds 0.129 0.634 1.078 5.276 Dans le premier cas, l’odds est très inférieur à 1. Par conséquent, la probabilité d’une évolution rapide de la maladie est très nettement inférieure à la probabilité d’une évolution lente. Clairement, pas besoin de convoquer le patient. Dans le second cas, on aboutit à la même conclusion, même si cette fois la probabilité d’évolution rapide de la maladie est nettement plus élevée ( de l’ordre de 39%). Dans les deux derniers cas, il convient du fait d’une valeur de l’odds supérieure à 1 de convoquer le patient pour un acte chirurgical, en prenant en priorité les patients correspondant au dernier cas. 3