Correction Examen Data Mining Matrice de confusion Modélisation

I.U.T de Caen STID 2`
eme ann´
ee
D´
epartement STID Ann´
ee Universitaire 2006-2007
Responsable de cours : Alain LUCAS
Correction Examen Data Mining
1. Le terme utilis´e est “Fouille de donn´ees”.
2. “Data Warehouse” signifie entrepˆot de donn´ees alors que “Data Marts” signifie magasin de donn´ees.
3. Les trois facteurs sont : la production de donn´ees, les avanc´ees technologiques en informatique (processeurs,
stockage, r´eseaux, etc.), et la forte concurrence.
4. Les trois familles d’outils sont : la famille des outils de reporting, la famille des outils d’analyse multidimension-
nelle, et la famille des outils de “Data Mining”.
5. Les phases du processus CRISP-DM sont :
“Business Understanding” qui consiste `a cerner pr´ecis´ement la probl´ematique, et `a la transformer en projet
“Data Mining” ;
“Data Understanding” qui consiste `a prendre connaissance des donn´ees, et `a en faire un premier bilan ;
“Data Preparation” qui consiste `a pr´eparer les donn´ees en vue de l’´etape de mod´elisation ;
“Modeling” qui consiste `a faire usage d’outils appropri´es en vue de la moelisation des donn´ees ;
“Evaluation” qui consiste `a ´evaluer la performance du ou des mod`eles, puis `a s´electionner le cas ´ech´eant le
meilleur ;
“Deployment” qui consiste `a mettre en oeuvre le mod`ele s´electionner sur des donn´ees vierges.
6. Contrairement aux m´ethodes supervis´ees qui n´ecessitent de d´efinir une variable cible, les m´ethodes non-supervis´ees
travaillent `a partir de l’ensemble des variables d’int´erˆet. Clairement, les m´ethodes CAH, Classification mixte, et
association de produits sont des m´ethodes non-supervis´ees. Les autres sont des m´ethodes supervis´ees.
7. Le mod`ele de r´egression logistique s’´ecrit :
log π(x)
1π(x)= logit π(x) = β0+β1x1+· · · βpxp
8. On peut rencontrer les arbres de r´egression et les arbres de discrimination.
9. La notion de sur-apprentissage intervient lorsque le mod`ele prend en compte non seulement la tendance, mais
´egalement le bruit associ´ee aux donn´ees. Cette probl´ematique intervient r´eguli`erement dans les arbres de d´ecision.
Pour ´eviter ce probl`eme, il est courant de tester la g´en´eralisation du mod`ele via l’´echantillon test. Dans le cadre
d’un sur-apprentissage, il importe d’apporter les modifications n´ecessaires au mod`ele afin que ce dernier soit
robuste lors de la phase de “Deployment”.
10. L’int´erˆet d’´elaguer un arbre est d’´eviter la probl´ematique du sur-apprentissage.
11. L’indicateur sensibilit´e indique la proportion de modalit´es “succ`es” correctement class´ees par le mod`ele. A
contrario, l’indicateur sp´ecificit´e indique la proportion de modalit´es “´echec” correctement class´ees par le mod`ele.
12. Les graphiques “Lift” et “ROC” permettent tous les deux d’´evaluer la performance d’un mod`ele.
Matrice de confusion
1. La taille de l’´echantillon test est 24 986 clients.
2. Le nombre de r´eponses favorables est 5 984.
3. Le nombre de clients contact´es serait de 2 682.
4. On obtient :
TP = 2 433.
TN = 18 753.
FP = 249.
FN = 3 551
5. Le taux d’erreur global est de 15,21%.
6. Le taux de r´eponses favorables avec le mod`ele al´eatoire est de 23,95%.
7. La sensibilit´e est de 40,66%, tandis que la sp´ecificit´e est de 98,69%. La sensibilit´e mesure la proportion de
eponses favorables d´etect´ees par le mod`ele par rapport au nombre de r´eponses favorables dans l’´echantillon,
tandis que la sp´ecificit´e mesure la proportion de r´eponses d´efavorables d´etect´ees par le mod`ele par rapport au
nombre de r´eponses d´efavorables dans l’´echantillon.
8. L’indicateur precision vaut 90,72%.
9. L’indicateur recall vaut 40,66%.
10. Le Lift vaut 1,70. Avec le mod`ele, on am´eliore le taux de r´eponses favorables de 1,7 fois celui obtenu via le
mod`ele al´eatoire.
Moelisation
1. L’instruction read.table sert `a lire les donn´ees contenues dans un fichier. L’option sep consiste `a pr´eciser le
type de s´eparateur, tandis que l’option header consiste `a pr´eciser l’existence ou l’abscence du label des variables
sur la premi`ere ligne du fichier.
2. Le rˆole de cette instruction est de confirmer la bonne lecture des donn´ees.
3. La premi`ere ligne du tableau fait allusion au mod`ele logistique dans le cas o`u l’on suppose constant le param`etre
π(x). La colonne bf error mesure l’´ecart de Deviance entre le mod`ele constant et le mod`ele courant. Le sigle
df signifie degree of freedom, soit degr´e de libert´e. La colonne df contient la valeur 1 pour chaque variable car
entre le mod`ele constant et le mod`ele courant, il n’y a qu’un param`etre d’´ecart.
4. Avec un seuil de 10%, seule la variable Age n’a pas un impact significatif sur la Deviance puisque sa p-value
de 29,6% est clairement sup´erieure `a la valeur seuil.
5. Le mod`ele qui correspond est le mod`ele M1puisque c’est le seul qui int`egre l’ensemble des variables pr´ealablement
electionn´ees.
6. Clairement, on observe que la variable Tumour-grade a une influence particuli`erement faible sur la Deviance
en pr´esence des autres variables. Avec un seuil de 5%, on d´ecide de supprimer cette variable du mod`ele.
7. Comme pr´ec´edent, on d´etecte que la variable Acid-level a une influence particuli`erement faible sur la Deviance
en pr´esence des autres variables. On d´ecide alors de l’´eliminer du mod`ele.
8. On peut observer ici que les p-value sont clairement inf´erieures `a la limite des 5%. On d´ecide finalement de
conserver ces deux variables dans le mod`ele.
9. Concernant la variable Age, on d´ecide de l’´eliminer du mod`ele puisque la p-value est sup´erieure au seuil 5%.
En conclusion, les variables intervenant dans le mod`ele final sont : Xray-result et Tumour-size.
10. Le mod`ele final s’´ecrit : logit π(x) = 2.0446 + 2.1194 ×Xray result + 1.5883 ×T umour size.
2
11. On obtient :
Xray-result Tumour-size Odds
egatif petite 0.129
egatif grande 0.634
positif petite 1.078
positif grande 5.276
Dans le premier cas, l’odds est tr`es inf´erieur `a 1. Par cons´equent, la probabilit´e d’une ´evolution rapide de la
maladie est tr`es nettement inf´erieure `a la probabilit´e d’une ´evolution lente. Clairement, pas besoin de convoquer
le patient. Dans le second cas, on aboutit `a la mˆeme conclusion, mˆeme si cette fois la probabilit´e d’´evolution
rapide de la maladie est nettement plus ´elev´ee ( de l’ordre de 39%). Dans les deux derniers cas, il convient du
fait d’une valeur de l’odds sup´erieure `a 1 de convoquer le patient pour un acte chirurgical, en prenant en priorit´e
les patients correspondant au dernier cas.
3
1 / 2 100%

Correction Examen Data Mining Matrice de confusion Modélisation

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !