Correction d'examen Data Mining - IUT de Caen

Telechargé par Safa Zehi

Téléchargement

I.U.T de Caen STID 2`

eme ann´

D´

epartement STID Ann´

ee Universitaire 2007-2008

Responsable de cours : Alain LUCAS

Correction Examen Data Mining

Questions de cours

1. Le terme «data mining »est traduit par «fouille de donn´ees »en France.

2. Le «data mining »consiste en l’exploration de vastes bases de donn´ees dans le but d’en extraire une information

pertinente, inconnue jusqu’`a pr´esent, et `a forte valeur ajout´ee.

3. Le sigle CRISP-DM signiﬁe CRoss Industry Standard Process for Data Mining.

4. Un syst`eme op´erationnel est bas´e sur une architecture relationnelle dont l’objectif consiste `a stocker eﬃcacement

des donn´ees, et `a permettre un acc`es optimis´e pour des requˆetes pr´ed´eﬁnies. A contrario, un syst`eme d´ecisionnel

est g´en´eralement bas´e sur une architecture en ´etoile dont l’objectif consiste `a permettre une exploration eﬃcace

au sein d’un grand volume de donn´ees.

5. Les trois approches que l’on peut rencontrer sont :

– le reporting

– l’analyse multidimensionnelle

– le data mining

6. Les phases du processus CRISP-DM sont :

–«Business Understanding »qui consiste `a cerner pr´ecis´ement la probl´ematique, et `a la transformer en projet

«Data Mining »;

–«Data Understanding »qui consiste `a prendre connaissance des donn´ees, et `a en faire un premier bilan ;

–«Data Preparation »qui consiste `a pr´eparer les donn´ees en vue de l’´etape de mod´elisation ;

–«Modeling »qui consiste `a faire usage d’outils appropri´es en vue de la mod´elisation des donn´ees ;

–«Evaluation »qui consiste `a ´evaluer la performance du ou des mod`eles, puis `a s´electionner le cas ´ech´eant le

meilleur ;

–«Deployment »qui consiste `a mettre en oeuvre le mod`ele s´electionner sur des donn´ees vierges.

7. Les trois sous-´echantillons sont :

– le «training data set »dont l’objectif est de permettre l’apprentissage de l’algorithme

– le «test data set »dont l’objectif consiste `a ´eviter le sur ou le sous apprentissage

– le «validation data set »dont l’objectif consiste `a comparer les performances de plusieurs mod`eles

8. L’expression «underﬁtting »correspond `a la notion de sous-apprentissage laquelle traduit le fait que le mod`ele

est trop simple dans le sens qu’il ne capture pas toute la structure interne des donn´ees. A contrario, l’expression

«overﬁtting »correspond `a la notion de sur-apprentissage laquelle traduit le fait que le mod`ele est trop complexe

dans le sens qu’il capture non seulement la structure interne des donn´ees, mais aussi le bruit.

9. L’int´erˆet d’´elaguer un arbre est d’´eviter le ph´enom`ene de sur-apprentissage.

10. La sensibilit´e repr´esente la proportion de positifs bien class´es parmi les positifs disponibles. La sp´eciﬁcit´e

repr´esente la proportion de n´egatifs bien class´es parmi les n´egatifs disponibles.

Probl`eme

Partie A - Proﬁling

•Etude de la variable Credit.

1. On obtient :

XXXXXXXXX

Insur.

Credit Yes No Total

Yes 5 3 8

No 1 6 7

Total 6 9 15

2. On obtient :

π(Credit =Y es) = 83,33%

et donc

Odds(Credit =Y es) = π(Credit =Y es)

1−π(Credit =Y es)= 5

3. On obtient :

π(Credit =N o) = 33,33%

et donc

Odds(Credit =N o) = π(Credit =N o)

1−π(Credit =N o)= 0,5

Finalement, on trouve OR(Y es|N o) = 10.

4. Il ressort de l’OR que les clients poss´edant un cr´edit en cours ont 10 fois plus de chance d’avoir souscrit le produit

d’assurance que ceux n’ayant pas de cr´edit en cours. Clairement, cette variable pr´esente un impact signiﬁcatif

sur la variable cible puisque l’OR est nettement diﬀ´erent de 1.

•Etude de la variable Sex.

1. On obtient :

PPPPPPP

Insur.

Sex Male Female Total

Yes 3 5 8

No 5 2 7

Total 8 7 15

2. On obtient :

π(Sex =F emale) = 71,43%

et donc

Odds(Sex =F emale) = π(Sex =F emale)

1−π(Sex =F emale)= 2,5

3. On obtient :

π(Sex =M ale) = 37,5%

et donc

Odds(Sex =Male) = π(Sex =M ale)

1−π(Sex =M ale)= 0,6

Finalement, on trouve OR(F|M) = 4,17.

4. Il ressort de l’OR que les clients de sexe f´eminin ont 4,17 fois plus de chance d’avoir souscrit le produit d’assurance

que ceux de sexe masculin. Clairement, cette variable pr´esente un impact signiﬁcatif sur la variable cible puisque

l’OR est nettement diﬀ´erent de 1.

•Etude de la variable Income.

1. On obtient :

XXXXXXXXX

Insur.

Income 20-30 30-40 40-60 Total

Yes 2 3 3 8

No 2 2 3 7

Total 4 5 6 15

2. On obtient :

π(Income = 20 −30) = 50%

et donc

Odds(Income = 20 −30) = π(Income = 20 −30)

1−π(Income = 20 −30) = 1

3. On obtient :

π(Income = 30 −40) = 60%

et donc

Odds(Income = 30 −40) = π(Income = 30 −40)

1−π(Income = 30 −40) = 1,5

On obtient :

π(Income = 40 −60) = 50%

et donc

Odds(Income = 40 −60) = π(Income = 40 −60)

1−π(Income = 40 −60) = 1

Finalement, on trouve OR(30 −40|20 −30) = 1,5 et OR(40 −60|20 −30) = 1.

4. En comparant ces deux OR avec ceux calcul´es pr´ec´edemment, il ressort clairement que la variable Income ne

pr´esente pas un impact signiﬁcatif sur la variable cible car les coeﬃcients sont tr`es proches, voir identiques `a la

valeur r´ef´erente 1.

•Etude de la variable Age.

1. Avec ces valeurs, il semble assez clair que la variable Age pr´esente un impact signiﬁcatif sur la variable cible (il

faut tout de mˆeme v´eriﬁer que l’´ecart n’est pas du `a une ou plusieurs valeurs atypiques ! !).

2. Le graphique conﬁrme la premi`ere analyse : la variable Age pr´esente bien un impact signiﬁcatif sur la variable

Insurance. En eﬀet, on observe clairement une distribution diﬀ´erente de la variable Age selon que les clients ont

souscrit ou non une assurance. En particulier, les clients d’ˆage m´edian semblent les plus app´etents `a ce produit

d’assurance.

•Bilan.

1. Via l’analyse pr´ec´edente, on obtient :

Variable Statut

Credit pertinente

Sex pertinente

Income non pertinente

Age pertinente

2. Aﬁn d’am´eliorer la vente du produit, il importe de cibler en particulier : les clients ayant un cr´edit, les clients

de sexe f´eminin, et les clients d’ˆage m´edian (30-40).

Partie B - Arbre de d´ecision

•Division 1.

1. Les variables Credit et Sex ´etant binaires, on peut constituer une seule division admissible pour chacune de

ces variables. La variable Income ´etant ordinale `a quatre modalit´es, on peut constituer au plus trois divisions

admissibles. Enﬁn, la variable Age ´etant continue avec 12 valeurs distinctes, on peut constituer 11 divisions

admissibles distinctes.

2. On obtient :

Insur. Racine

Yes 8

No 7

Gini 0,498

3. Un tel indice mesure l’impuret´e `a l’int´erieur d’un segment. Ses valeurs extrˆemes sont respectivement 0 et 0,5. La

valeur 0 est obtenue lorsque le segment est pur, tandis que la valeur 0,5 est obtenue lorsque l’on est en pr´esence

d’une distribution uniforme des deux modalit´es.

4. On obtient

XXXXXXXX

Insur.

Credit Yes No

Yes 5 3

No 16

Gini 0,278 0,444

Gini Tot. 0.378

XXXXXXXX

Insur.

Sex M F

Yes 3 5

No 5 2

Gini 0,469 0,408

Gini Tot. 0,441

XXXXXXXX

Insur.

Income 20-30 30-60 20-40 40-60 20-50 50-60

Yes 2 65362

No 2 54370

Gini 0,500 0,496 0,494 0,500 0,497 0

Gini Tot. 0,497 0,496 0,431

XXXXXXX

Insur.

Age 23 28 32 36.5 38.5 39.5

Modalit´es <≥<≥<≥<≥<≥<≥

Yes 1 7 1 7 2 6 3 5 4 4 5 3

No 0 7 1 6 1 6 1 6 1 6 1 6

Gini 0 0,500 0,500 0,497 0,444 0,500 0,375 0,496 0,32 0,48 0,278 0,444

Gini Tot. 0,467 0,497 0,489 0,464 0,427 0,378

XXXXXXX

Insur.

Age 40.5 41.5 42.5 44 50

<≥<≥<≥<≥<≥

Yes 5 3 6 2 6 2 8 0 8 0

No 2 5 2 5 3 4 4 3 5 2

Gini 0,408 0,469 0,375 0,408 0,444 0,444 0,444 0 0,473 0

Gini Tot. 0,441 0,390 0,444 0,355 0,410

5. La meilleure division globale ´etant obtenue pour la valeur de l’indice de Gini total la plus faible, on d´eduit des

tableaux pr´ec´edent que cette division est r´ealis´ee par la variable Age, avec la condition <ou ≥`a 44 ans.

6. On obtient le graphique suivant :



















 Α≥

7. Le premier segment ne v´eriﬁe aucune des deux conditions d’arrˆet puisqu’il n’est pas pur et que le nombre

d’unit´es le composant est ´egal `a 12. Par cons´equent, ce segment est un segment interm´ediaire. Par contre le

second segment est clairement pur, il sera donc d´eclar´e comme terminal.

•Division 2.

1. On obtient :

XXXXXXXX

Insur.

Credit Yes No

Yes 5 3

No 1 3

Gini 0,278 0,5

Gini Tot. 0,389

XXXXXXXX

Insur.

Sex M F

Yes 35

No 31

Gini 0,5 0,278

Gini Tot. 0,389

XXXXXXXX

Insur.

Income 20-30 30-60 20-40 40-60 20-50 50-60

Yes 26536 2

No 133140

Gini 0,444 0,444 0,469 0,375 0,48 0

Gini Tot. 0,444 0,438 0,400

XXXXXXX

Insur.

Age 23 28 32 36.5 38.5

Modalit´es <≥<≥<≥<≥<≥

Yes 1 7 1 7 2 6 3 5 44

No 0 4 1 3 1 3 1 3 1 3

Gini 0 0,463 0,5 0,42 0,444 0,444 0,375 0,469 0,32 0,49

Gini Tot. 0,424 0,433 0,444 0,438 0,419

XXXXXXX

Insur.

Age 39.5 40.5 41.5 42.5

<≥<≥<≥<≥

Yes 535 3 62 6 2

No 1 3 2 2 2 2 3 1

Gini 0,278 0,5 0,408 0,48 0,375 0,5 0,444 0,444

Gini Tot. 0,389 0,438 0,417 0,444

2. Clairement, la meilleure division globale est obtenue pour la variable Credit. On peut noter que cette meilleure

division est ´egalement obtenue avec la variable Sex ainsi que la variable Age.

3. On obtient le graphique suivant :































 Α≥

 

4. Clairement, aucun des deux segments ne sera d´eclar´e comme terminal puisqu’aucune des deux contraintes n’est

satisfaite. Les deux segments seront donc d´eclar´es comme segments interm´ediaires.

•Division 3.

1. Clairement, on travaille ici sur le segment Credit=Yes.

2. On obtient :

XXXXXXXX

Insur.

Sex M F

Yes 32

No 0 1

Gini 00,444

Gini Tot. 0,222

XXXXXXXX

Insur.

Income 20-30 30-50 20-40 40-50

Yes 234 1

No 0 1 1 0

Gini 0 0,375 0,32 0

Gini Tot. 0,25 0,267

XXXXXXX

Insur.

Age 24 32 37.5 41.5

Modalit´es <≥<≥<≥<≥

Yes 1 4 2 3 3 2 3 2

No 0 1 0 1 0 1 1 0

Gini 00,32 0 0,375 0 0,444 0,375 0

Gini Tot. 0,267 0,25 0,222 0,25

3. Clairement, la meilleure division globale est obtenue avec la variable Sex. En eﬀet, l’indice de Gini associ´e `a cette

division est seulement de 0,222.

4. On obtient











































 

 Α≥

 

5. Le premier segment est d´eclar´e comme terminal car il est pur. Par contre, le second est d´eclar´e comme terminal

car le nombre d’unit´es est inf´erieur `a 5.

•Division 4.

1. On obtient :

XXXXXXXX

Insur.

Sex M F

Yes 0 3

No 3 0

Gini 0 0

Gini Tot. 0

2. Clairement, il est inutile de continuer les calculs puisque d’une part cette division am`ene des segments purs,

et que d’autre part, c’est la premi`ere variable disponible dans le tableau de donn´ees. Par cons´equent, c’est

n´ecessairement cette division qui sera choisie sous les contraintes sp´eciﬁ´ees.

3. On obtient le graphique suivant :























































 

 Α≥

 

 

4. Les deux segments obtenus ´etant pur, ils sont d´eclar´es terminaux.

•Pr´evisions.

1. En choisissant la modalit´e de fr´equence maximale, on obtient pour chacun des segments terminaux les valeurs

allou´ees suivantes :

– Segment 2 = No

– Segment 5 = Yes

– Segment 6 = Yes

– Segment 7 = No

– Segment 8 = Yes

2. On obtient ﬁnalement :

ID Credit Sex Income Age Insurance

1 Yes Male 50-60 46 No

2 No Female 20-30 18 Yes

3 No Male 40-50 42 No

4 Yes Male 50-60 51 No

5 No Female 50-60 43 Yes

1 / 4 100%

Documents connexes

DM CH2 géo les inégalités en carte

Séquence Géographie sur le développement inégal

OUTILS INEGALITES

Modèle de lettre : Annonce réunion d'information association

NOUS VOYONS LE LEARNING BY DOING COMPLÉMEN

Insuffisance cardiaque: faut

Modèle de lettre : Responsable vente marketing

SUPERTEX Analog Integrated Circuits

Je retiens… Les réponses courtes (=short answers)

Les facteurs déterminant la répartition internationale des revenus

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Correction d'examen Data Mining - IUT de Caen

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Correction d'examen Data Mining - IUT de Caen

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib