Correction Examen Data Mining Matrice de confusion Modélisation

publicité
Matrice de confusion
STID 2ème année
Année Universitaire 2006-2007
I.U.T de Caen
Département STID
Responsable de cours : Alain LUCAS
1. La taille de l’échantillon test est 24 986 clients.
2. Le nombre de réponses favorables est 5 984.
3. Le nombre de clients contactés serait de 2 682.
Correction Examen Data Mining
4. On obtient :
–
–
–
–
TP = 2 433.
TN = 18 753.
FP = 249.
FN = 3 551
1. Le terme utilisé est “Fouille de données”.
5. Le taux d’erreur global est de 15,21%.
2. “Data Warehouse” signifie entrepôt de données alors que “Data Marts” signifie magasin de données.
6. Le taux de réponses favorables avec le modèle aléatoire est de 23,95%.
3. Les trois facteurs sont : la production de données, les avancées technologiques en informatique (processeurs,
stockage, réseaux, etc.), et la forte concurrence.
7. La sensibilité est de 40,66%, tandis que la spécificité est de 98,69%. La sensibilité mesure la proportion de
réponses favorables détectées par le modèle par rapport au nombre de réponses favorables dans l’échantillon,
tandis que la spécificité mesure la proportion de réponses défavorables détectées par le modèle par rapport au
nombre de réponses défavorables dans l’échantillon.
4. Les trois familles d’outils sont : la famille des outils de reporting, la famille des outils d’analyse multidimensionnelle, et la famille des outils de “Data Mining”.
5. Les phases du processus CRISP-DM sont :
– “Business Understanding” qui consiste à cerner précisément la problématique, et à la transformer en projet
“Data Mining” ;
– “Data Understanding” qui consiste à prendre connaissance des données, et à en faire un premier bilan ;
– “Data Preparation” qui consiste à préparer les données en vue de l’étape de modélisation ;
– “Modeling” qui consiste à faire usage d’outils appropriés en vue de la modélisation des données ;
– “Evaluation” qui consiste à évaluer la performance du ou des modèles, puis à sélectionner le cas échéant le
meilleur ;
– “Deployment” qui consiste à mettre en oeuvre le modèle sélectionner sur des données vierges.
6. Contrairement aux méthodes supervisées qui nécessitent de définir une variable cible, les méthodes non-supervisées
travaillent à partir de l’ensemble des variables d’intérêt. Clairement, les méthodes CAH, Classification mixte, et
association de produits sont des méthodes non-supervisées. Les autres sont des méthodes supervisées.
7. Le modèle de régression logistique s’écrit :
log
π(x)
1 − π(x)
= logit π(x) = β0 + β1 x1 + · · · βp xp
8. On peut rencontrer les arbres de régression et les arbres de discrimination.
9. La notion de sur-apprentissage intervient lorsque le modèle prend en compte non seulement la tendance, mais
également le bruit associée aux données. Cette problématique intervient régulièrement dans les arbres de décision.
Pour éviter ce problème, il est courant de tester la généralisation du modèle via l’échantillon test. Dans le cadre
d’un sur-apprentissage, il importe d’apporter les modifications nécessaires au modèle afin que ce dernier soit
robuste lors de la phase de “Deployment”.
10. L’intérêt d’élaguer un arbre est d’éviter la problématique du sur-apprentissage.
11. L’indicateur sensibilité indique la proportion de modalités “succès” correctement classées par le modèle. A
contrario, l’indicateur spécificité indique la proportion de modalités “échec” correctement classées par le modèle.
12. Les graphiques “Lift” et “ROC” permettent tous les deux d’évaluer la performance d’un modèle.
8. L’indicateur precision vaut 90,72%.
9. L’indicateur recall vaut 40,66%.
10. Le Lift vaut 1,70. Avec le modèle, on améliore le taux de réponses favorables de 1,7 fois celui obtenu via le
modèle aléatoire.
Modélisation
1. L’instruction read.table sert à lire les données contenues dans un fichier. L’option sep consiste à préciser le
type de séparateur, tandis que l’option header consiste à préciser l’existence ou l’abscence du label des variables
sur la première ligne du fichier.
2. Le rôle de cette instruction est de confirmer la bonne lecture des données.
3. La première ligne du tableau fait allusion au modèle logistique dans le cas où l’on suppose constant le paramètre
π(x). La colonne bf error mesure l’écart de Deviance entre le modèle constant et le modèle courant. Le sigle
df signifie degree of freedom, soit degré de liberté. La colonne df contient la valeur 1 pour chaque variable car
entre le modèle constant et le modèle courant, il n’y a qu’un paramètre d’écart.
4. Avec un seuil de 10%, seule la variable Age n’a pas un impact significatif sur la Deviance puisque sa p-value
de 29,6% est clairement supérieure à la valeur seuil.
5. Le modèle qui correspond est le modèle M1 puisque c’est le seul qui intègre l’ensemble des variables préalablement
sélectionnées.
6. Clairement, on observe que la variable Tumour-grade a une influence particulièrement faible sur la Deviance
en présence des autres variables. Avec un seuil de 5%, on décide de supprimer cette variable du modèle.
7. Comme précédent, on détecte que la variable Acid-level a une influence particulièrement faible sur la Deviance
en présence des autres variables. On décide alors de l’éliminer du modèle.
8. On peut observer ici que les p-value sont clairement inférieures à la limite des 5%. On décide finalement de
conserver ces deux variables dans le modèle.
9. Concernant la variable Age, on décide de l’éliminer du modèle puisque la p-value est supérieure au seuil 5%.
En conclusion, les variables intervenant dans le modèle final sont : Xray-result et Tumour-size.
10. Le modèle final s’écrit : logit π(x) = −2.0446 + 2.1194 × Xray − result + 1.5883 × T umour − size.
2
11. On obtient :
Xray-result
négatif
négatif
positif
positif
Tumour-size
petite
grande
petite
grande
Odds
0.129
0.634
1.078
5.276
Dans le premier cas, l’odds est très inférieur à 1. Par conséquent, la probabilité d’une évolution rapide de la
maladie est très nettement inférieure à la probabilité d’une évolution lente. Clairement, pas besoin de convoquer
le patient. Dans le second cas, on aboutit à la même conclusion, même si cette fois la probabilité d’évolution
rapide de la maladie est nettement plus élevée ( de l’ordre de 39%). Dans les deux derniers cas, il convient du
fait d’une valeur de l’odds supérieure à 1 de convoquer le patient pour un acte chirurgical, en prenant en priorité
les patients correspondant au dernier cas.
3
Téléchargement