Correction Examen Data Mining Matrice de confusion Modélisation

Téléchargement

I.U.T de Caen STID 2`

eme ann´

D´

epartement STID Ann´

ee Universitaire 2006-2007

Responsable de cours : Alain LUCAS

Correction Examen Data Mining

1. Le terme utilis´e est “Fouille de donn´ees”.

2. “Data Warehouse” signiﬁe entrepˆot de donn´ees alors que “Data Marts” signiﬁe magasin de donn´ees.

3. Les trois facteurs sont : la production de donn´ees, les avanc´ees technologiques en informatique (processeurs,

stockage, r´eseaux, etc.), et la forte concurrence.

4. Les trois familles d’outils sont : la famille des outils de reporting, la famille des outils d’analyse multidimension-

nelle, et la famille des outils de “Data Mining”.

5. Les phases du processus CRISP-DM sont :

– “Business Understanding” qui consiste `a cerner pr´ecis´ement la probl´ematique, et `a la transformer en projet

“Data Mining” ;

– “Data Understanding” qui consiste `a prendre connaissance des donn´ees, et `a en faire un premier bilan ;

– “Data Preparation” qui consiste `a pr´eparer les donn´ees en vue de l’´etape de mod´elisation ;

– “Modeling” qui consiste `a faire usage d’outils appropri´es en vue de la mod´elisation des donn´ees ;

– “Evaluation” qui consiste `a ´evaluer la performance du ou des mod`eles, puis `a s´electionner le cas ´ech´eant le

meilleur ;

– “Deployment” qui consiste `a mettre en oeuvre le mod`ele s´electionner sur des donn´ees vierges.

6. Contrairement aux m´ethodes supervis´ees qui n´ecessitent de d´eﬁnir une variable cible, les m´ethodes non-supervis´ees

travaillent `a partir de l’ensemble des variables d’int´erˆet. Clairement, les m´ethodes CAH, Classiﬁcation mixte, et

association de produits sont des m´ethodes non-supervis´ees. Les autres sont des m´ethodes supervis´ees.

7. Le mod`ele de r´egression logistique s’´ecrit :

log π(x)

1−π(x)= logit π(x) = β0+β1x1+· · · βpxp

8. On peut rencontrer les arbres de r´egression et les arbres de discrimination.

9. La notion de sur-apprentissage intervient lorsque le mod`ele prend en compte non seulement la tendance, mais

´egalement le bruit associ´ee aux donn´ees. Cette probl´ematique intervient r´eguli`erement dans les arbres de d´ecision.

Pour ´eviter ce probl`eme, il est courant de tester la g´en´eralisation du mod`ele via l’´echantillon test. Dans le cadre

d’un sur-apprentissage, il importe d’apporter les modiﬁcations n´ecessaires au mod`ele aﬁn que ce dernier soit

robuste lors de la phase de “Deployment”.

10. L’int´erˆet d’´elaguer un arbre est d’´eviter la probl´ematique du sur-apprentissage.

11. L’indicateur sensibilit´e indique la proportion de modalit´es “succ`es” correctement class´ees par le mod`ele. A

contrario, l’indicateur sp´eciﬁcit´e indique la proportion de modalit´es “´echec” correctement class´ees par le mod`ele.

12. Les graphiques “Lift” et “ROC” permettent tous les deux d’´evaluer la performance d’un mod`ele.

Matrice de confusion

1. La taille de l’´echantillon test est 24 986 clients.

2. Le nombre de r´eponses favorables est 5 984.

3. Le nombre de clients contact´es serait de 2 682.

4. On obtient :

– TP = 2 433.

– TN = 18 753.

– FP = 249.

– FN = 3 551

5. Le taux d’erreur global est de 15,21%.

6. Le taux de r´eponses favorables avec le mod`ele al´eatoire est de 23,95%.

7. La sensibilit´e est de 40,66%, tandis que la sp´eciﬁcit´e est de 98,69%. La sensibilit´e mesure la proportion de

r´eponses favorables d´etect´ees par le mod`ele par rapport au nombre de r´eponses favorables dans l’´echantillon,

tandis que la sp´eciﬁcit´e mesure la proportion de r´eponses d´efavorables d´etect´ees par le mod`ele par rapport au

nombre de r´eponses d´efavorables dans l’´echantillon.

8. L’indicateur precision vaut 90,72%.

9. L’indicateur recall vaut 40,66%.

10. Le Lift vaut 1,70. Avec le mod`ele, on am´eliore le taux de r´eponses favorables de 1,7 fois celui obtenu via le

mod`ele al´eatoire.

Mod´elisation

1. L’instruction read.table sert `a lire les donn´ees contenues dans un ﬁchier. L’option sep consiste `a pr´eciser le

type de s´eparateur, tandis que l’option header consiste `a pr´eciser l’existence ou l’abscence du label des variables

sur la premi`ere ligne du ﬁchier.

2. Le rˆole de cette instruction est de conﬁrmer la bonne lecture des donn´ees.

3. La premi`ere ligne du tableau fait allusion au mod`ele logistique dans le cas o`u l’on suppose constant le param`etre

π(x). La colonne bf error mesure l’´ecart de Deviance entre le mod`ele constant et le mod`ele courant. Le sigle

df signiﬁe degree of freedom, soit degr´e de libert´e. La colonne df contient la valeur 1 pour chaque variable car

entre le mod`ele constant et le mod`ele courant, il n’y a qu’un param`etre d’´ecart.

4. Avec un seuil de 10%, seule la variable Age n’a pas un impact signiﬁcatif sur la Deviance puisque sa p-value

de 29,6% est clairement sup´erieure `a la valeur seuil.

5. Le mod`ele qui correspond est le mod`ele M1puisque c’est le seul qui int`egre l’ensemble des variables pr´ealablement

s´electionn´ees.

6. Clairement, on observe que la variable Tumour-grade a une inﬂuence particuli`erement faible sur la Deviance

en pr´esence des autres variables. Avec un seuil de 5%, on d´ecide de supprimer cette variable du mod`ele.

7. Comme pr´ec´edent, on d´etecte que la variable Acid-level a une inﬂuence particuli`erement faible sur la Deviance

en pr´esence des autres variables. On d´ecide alors de l’´eliminer du mod`ele.

8. On peut observer ici que les p-value sont clairement inf´erieures `a la limite des 5%. On d´ecide ﬁnalement de

conserver ces deux variables dans le mod`ele.

9. Concernant la variable Age, on d´ecide de l’´eliminer du mod`ele puisque la p-value est sup´erieure au seuil 5%.

En conclusion, les variables intervenant dans le mod`ele ﬁnal sont : Xray-result et Tumour-size.

10. Le mod`ele ﬁnal s’´ecrit : logit π(x) = −2.0446 + 2.1194 ×Xray −result + 1.5883 ×T umour −size.

11. On obtient :

Xray-result Tumour-size Odds

n´egatif petite 0.129

n´egatif grande 0.634

positif petite 1.078

positif grande 5.276

Dans le premier cas, l’odds est tr`es inf´erieur `a 1. Par cons´equent, la probabilit´e d’une ´evolution rapide de la

maladie est tr`es nettement inf´erieure `a la probabilit´e d’une ´evolution lente. Clairement, pas besoin de convoquer

le patient. Dans le second cas, on aboutit `a la mˆeme conclusion, mˆeme si cette fois la probabilit´e d’´evolution

rapide de la maladie est nettement plus ´elev´ee ( de l’ordre de 39%). Dans les deux derniers cas, il convient du

fait d’une valeur de l’odds sup´erieure `a 1 de convoquer le patient pour un acte chirurgical, en prenant en priorit´e

les patients correspondant au dernier cas.

1 / 2 100%

Documents connexes

Télécharger la fiche action PRE

Sujet du groupe B

Magoules-resume-francais

MECA0003-2 - M´ECANIQUE RATIONNELLE Oscillateurs et

Faculté Saint-Jean Hiver 2017 PHYSQ (physique) 131

Fiche 21 : Nombres irrationnels.

QUESTIONS COURTES

Preuve dans tous les mod`eles (Calcul des prédicats)

Optimisation sous contrainte en probabilité (résumé de

Télécharger

Argument d`adversaire

Présentation du GT SFPM : ``Evolution de la formation à la

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Correction Examen Data Mining Matrice de confusion Modélisation

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Correction Examen Data Mining Matrice de confusion Modélisation

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib