Examen de Fouille de données
Master 1 Informatique – 1ere session
Tout document autorisé - Durée 2 heures
Exercice 1 Modélisation décisionnelle d’un Entrepôt de données : Système Hospitalier (6
points)
Un hôpital cherche à étudier ses patients en fonction de différents critères : leur âge, la durée
de leur hospitalisation, le nombre de services visités durant l’hospitalisation, les résultats de
l’enquête de satisfaction à la fin de l’hospitalisation (une note sur : 1/ la prise en charge
médicale, 2/ sur l’aspect hôtelier), le mode d’entrée dans l’hôpital (urgence, orienté par le
médecin traitant, opération prévue), la provenance (domicile, autre établissement, ..), le motif
d’hospitalisation (dialyse, obstétrique, opération, hôpital de jour …), l’adresse du patient, la
date de début d’hospitalisation, …
Q1 : Proposer un schéma en étoile pour cet entrepôt de données. Vous identifierez les
dimensions, les mesures et justifierez vos choix.
Q2 : On cherche à dimensionner cet entrepôt, les données dont l’hôpital dispose sont les
suivantes :
Médecine : 50115 hospitalisations complètes; 38645 hospitalisations de jour sur
l’année
Chirurgie : 29259 hospitalisations complètes; 9942 hospitalisations de jour sur
l’année
Obstétrique : 6655 hospitalisations complètes; 4058 hospitalisations de jour sur
l’année
Durée de stockage : 10 ans
Nombre de médecins : 1000
Nombre moyen de service visités : 2
Donnez la dimension de l’entrepôt.
Exercice 2 Datamining (4 points)
On cherche à établir l’existence de groupes parmi les patients. Afin de mettre en œuvre une méthode
pour l’analyse de données, l’hôpital vous contacte avec un sous-ensemble de données :
Age
Durée
d’hospitalisation
en jour
Prise en
charge
médicale
Aspect
Hôtelier
Nombre de
services
visités
Patient 1
65
8
Satisfaisant
Mécontent
2
Patient 2
40
5
Très
satisfait
1
Patient 3
30
4
Très
satisfait
Satisfaisant
1
Patient 4
80
12
Mécontent
3
Patient 5
85
15
Satisfaisant
Mécontent
3
Question 2.1 Concevez une distance entre deux patients. Une case vide représente un questionnaire
non rempli.
Question 2.2 Le décideur propose de remplir les vides par le mode. Indiquez dans le tableau les
valeurs remplaçant les valeurs manquantes. Appliquez un algorithme de classification hiérarchique de
type single-link entre clusters sur les données dont les cases sont maintenant remplies.
Exercice 3 Datamining (4 points)
Age
Durée
d’hospitalisation
en jour
Mode
d’entrée
Motif
Nombre de
services
visités
Patient 1
65
8
Opération
prévue
opération
2
Patient 2
40
5
Opération
prévue
opération
1
Patient 3
30
4
Urgence
obstétrique
1
Patient 4
80
12
Urgence
opération
3
Patient 5
85
16
Urgence
opération
3
Patient 6
89
10
Urgence
opération
3
Patient 7
25
4
Urgence
obstétrique
1
Patient 8
33
5
Urgence
obstétrique
2
Question 3.1
Est-ce qu’il est nécessaire de standardiser les données avant de construire un arbre de décision
? Si cela est nécessaire vous ferez 3 groupes de longueur égale.
Question 3.2
Donner le 1er niveau de l’arbre de décision en utilisant l’indice de Gini pour prédire le motif
d’hospitalisation.
Exercice 4 Datamining (3 points)
On cherche à voir les corrélations entre les attributs sur les données précédentes.
Question 4.1
Est-ce qu’il est nécessaire de standardiser les données avant de construire des règles
d’association ? Si cela est nécessaire vous ferez 3 groupes de longueur égale.
Question 4.2
Trouvez les ensembles fréquents de 3 éléments avec un support supérieur à 50% en utilisant
l’algorithme a-priori. Donnez les ensembles fréquents Li et les ensembles candidats Ci
calculés à chaque étape i de l’algorithme.
Exercice 5 Datamining sous Weka (3 points)
1. === Run information ===
2. Relation: exam
3. Instances: 5
4. Attributes: 5
i. Age
ii. Duree
iii. PriseenchargeMed
iv. Hotelier
v. NbService
5. Within cluster sum of squared errors: 3.462809917355372
6. Missing values globally replaced with mean/mode
7. Cluster centroids: i. Cluster#
8. Attribute Full Data 0 1
a. (5) (3) (2)
9. ================================================
10. Age 60 76.6667 35
11. Duree 8.8 11.6667 4.5
12. PriseenchargeMed satisfait satisfait satisfait
13. Hotelier mecontent mecontent satisfait
14. NbService 2 2.6667 1
Question 5.1 Quel algorithme a été exécuté sur le jeu de données de l’exercice 2, avec quels
paramètres ?
Question 5.2 Commentez la sortie de Weka (indiquez le numéro de ligne dans vos
commentaires), qu’observez-vous par rapport aux exercices 2 et 3 ?
1 / 3 100%
Study collections
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !