Examen de Fouille de données Master 1 Informatique – 1

publicité
Examen de Fouille de données
Master 1 Informatique – 1ere session
Tout document autorisé - Durée 2 heures
Exercice 1 Modélisation décisionnelle d’un Entrepôt de données : Système Hospitalier (6
points)
Un hôpital cherche à étudier ses patients en fonction de différents critères : leur âge, la durée
de leur hospitalisation, le nombre de services visités durant l’hospitalisation, les résultats de
l’enquête de satisfaction à la fin de l’hospitalisation (une note sur : 1/ la prise en charge
médicale, 2/ sur l’aspect hôtelier), le mode d’entrée dans l’hôpital (urgence, orienté par le
médecin traitant, opération prévue), la provenance (domicile, autre établissement, ..), le motif
d’hospitalisation (dialyse, obstétrique, opération, hôpital de jour …), l’adresse du patient, la
date de début d’hospitalisation, …
Q1 : Proposer un schéma en étoile pour cet entrepôt de données. Vous identifierez les
dimensions, les mesures et justifierez vos choix.
Q2 : On cherche à dimensionner cet entrepôt, les données dont l’hôpital dispose sont les
suivantes :
• Médecine : 50115 hospitalisations complètes; 38645 hospitalisations de jour sur
l’année
• Chirurgie : 29259 hospitalisations complètes; 9942 hospitalisations de jour sur
l’année
• Obstétrique : 6655 hospitalisations complètes; 4058 hospitalisations de jour sur
l’année
• Durée de stockage : 10 ans
• Nombre de médecins : 1000
• Nombre moyen de service visités : 2
Donnez la dimension de l’entrepôt.
Exercice 2 Datamining (4 points)
On cherche à établir l’existence de groupes parmi les patients. Afin de mettre en œuvre une méthode
pour l’analyse de données, l’hôpital vous contacte avec un sous-ensemble de données :
Age
Patient 1
Patient 2
65
40
Durée
d’hospitalisation
en jour
8
5
Patient 3
30
4
Patient 4
Patient 5
80
85
12
15
Prise en
charge
médicale
Satisfaisant
Très
satisfait
Mécontent
Satisfaisant
Aspect
Hôtelier
Mécontent
Très
satisfait
Satisfaisant
Mécontent
Nombre de
services
visités
2
1
1
3
3
Question 2.1 Concevez une distance entre deux patients. Une case vide représente un questionnaire
non rempli.
Question 2.2 Le décideur propose de remplir les vides par le mode. Indiquez dans le tableau les
valeurs remplaçant les valeurs manquantes. Appliquez un algorithme de classification hiérarchique de
type single-link entre clusters sur les données dont les cases sont maintenant remplies.
Exercice 3 Datamining (4 points)
Age
Patient 1
65
Patient 2
40
Patient 3
30
Durée
Mode
d’hospitalisation d’entrée
en jour
8
Opération
prévue
5
Opération
prévue
4
Urgence
Patient 4
Patient 5
Patient 6
Patient 7
Patient 8
80
85
89
25
33
12
16
10
4
5
Urgence
Urgence
Urgence
Urgence
Urgence
Motif
opération
Nombre de
services
visités
2
opération
1
opération
opération
opération
obstétrique
obstétrique
obstétrique 1
3
3
3
1
2
Question 3.1
Est-ce qu’il est nécessaire de standardiser les données avant de construire un arbre de décision
? Si cela est nécessaire vous ferez 3 groupes de longueur égale.
Question 3.2
Donner le 1er niveau de l’arbre de décision en utilisant l’indice de Gini pour prédire le motif
d’hospitalisation.
Exercice 4 Datamining (3 points)
On cherche à voir les corrélations entre les attributs sur les données précédentes.
Question 4.1
Est-ce qu’il est nécessaire de standardiser les données avant de construire des règles
d’association ? Si cela est nécessaire vous ferez 3 groupes de longueur égale.
Question 4.2
Trouvez les ensembles fréquents de 3 éléments avec un support supérieur à 50% en utilisant
l’algorithme a-priori. Donnez les ensembles fréquents Li et les ensembles candidats Ci
calculés à chaque étape i de l’algorithme.
Exercice 5 Datamining sous Weka (3 points)
1. === Run information ===
2. Relation:
3. Instances:
4. Attributes:
i.
ii.
iii.
iv.
v.
exam
5
5
Age
Duree
PriseenchargeMed
Hotelier
NbService
5. Within cluster sum of squared errors: 3.462809917355372
6. Missing values globally replaced with mean/mode
7. Cluster centroids:
i. Cluster#
Full Data
0
1
a. (5)
(3)
(2)
9. ================================================
10.
Age
60
76.6667
35
11.
Duree
8.8
11.6667
4.5
12.
PriseenchargeMed
satisfait satisfait satisfait
13.
Hotelier
mecontent mecontent satisfait
14.
NbService
2
2.6667
1
8. Attribute
Question 5.1 Quel algorithme a été exécuté sur le jeu de données de l’exercice 2, avec quels
paramètres ?
Question 5.2 Commentez la sortie de Weka (indiquez le numéro de ligne dans vos
commentaires), qu’observez-vous par rapport aux exercices 2 et 3 ?
Téléchargement
Study collections