Examen de Fouille de données Master 1 Informatique – 1ere session Tout document autorisé - Durée 2 heures Exercice 1 Modélisation décisionnelle d’un Entrepôt de données : Système Hospitalier (6 points) Un hôpital cherche à étudier ses patients en fonction de différents critères : leur âge, la durée de leur hospitalisation, le nombre de services visités durant l’hospitalisation, les résultats de l’enquête de satisfaction à la fin de l’hospitalisation (une note sur : 1/ la prise en charge médicale, 2/ sur l’aspect hôtelier), le mode d’entrée dans l’hôpital (urgence, orienté par le médecin traitant, opération prévue), la provenance (domicile, autre établissement, ..), le motif d’hospitalisation (dialyse, obstétrique, opération, hôpital de jour …), l’adresse du patient, la date de début d’hospitalisation, … Q1 : Proposer un schéma en étoile pour cet entrepôt de données. Vous identifierez les dimensions, les mesures et justifierez vos choix. Q2 : On cherche à dimensionner cet entrepôt, les données dont l’hôpital dispose sont les suivantes : • Médecine : 50115 hospitalisations complètes; 38645 hospitalisations de jour sur l’année • Chirurgie : 29259 hospitalisations complètes; 9942 hospitalisations de jour sur l’année • Obstétrique : 6655 hospitalisations complètes; 4058 hospitalisations de jour sur l’année • Durée de stockage : 10 ans • Nombre de médecins : 1000 • Nombre moyen de service visités : 2 Donnez la dimension de l’entrepôt. Exercice 2 Datamining (4 points) On cherche à établir l’existence de groupes parmi les patients. Afin de mettre en œuvre une méthode pour l’analyse de données, l’hôpital vous contacte avec un sous-ensemble de données : Age Patient 1 Patient 2 65 40 Durée d’hospitalisation en jour 8 5 Patient 3 30 4 Patient 4 Patient 5 80 85 12 15 Prise en charge médicale Satisfaisant Très satisfait Mécontent Satisfaisant Aspect Hôtelier Mécontent Très satisfait Satisfaisant Mécontent Nombre de services visités 2 1 1 3 3 Question 2.1 Concevez une distance entre deux patients. Une case vide représente un questionnaire non rempli. Question 2.2 Le décideur propose de remplir les vides par le mode. Indiquez dans le tableau les valeurs remplaçant les valeurs manquantes. Appliquez un algorithme de classification hiérarchique de type single-link entre clusters sur les données dont les cases sont maintenant remplies. Exercice 3 Datamining (4 points) Age Patient 1 65 Patient 2 40 Patient 3 30 Durée Mode d’hospitalisation d’entrée en jour 8 Opération prévue 5 Opération prévue 4 Urgence Patient 4 Patient 5 Patient 6 Patient 7 Patient 8 80 85 89 25 33 12 16 10 4 5 Urgence Urgence Urgence Urgence Urgence Motif opération Nombre de services visités 2 opération 1 opération opération opération obstétrique obstétrique obstétrique 1 3 3 3 1 2 Question 3.1 Est-ce qu’il est nécessaire de standardiser les données avant de construire un arbre de décision ? Si cela est nécessaire vous ferez 3 groupes de longueur égale. Question 3.2 Donner le 1er niveau de l’arbre de décision en utilisant l’indice de Gini pour prédire le motif d’hospitalisation. Exercice 4 Datamining (3 points) On cherche à voir les corrélations entre les attributs sur les données précédentes. Question 4.1 Est-ce qu’il est nécessaire de standardiser les données avant de construire des règles d’association ? Si cela est nécessaire vous ferez 3 groupes de longueur égale. Question 4.2 Trouvez les ensembles fréquents de 3 éléments avec un support supérieur à 50% en utilisant l’algorithme a-priori. Donnez les ensembles fréquents Li et les ensembles candidats Ci calculés à chaque étape i de l’algorithme. Exercice 5 Datamining sous Weka (3 points) 1. === Run information === 2. Relation: 3. Instances: 4. Attributes: i. ii. iii. iv. v. exam 5 5 Age Duree PriseenchargeMed Hotelier NbService 5. Within cluster sum of squared errors: 3.462809917355372 6. Missing values globally replaced with mean/mode 7. Cluster centroids: i. Cluster# Full Data 0 1 a. (5) (3) (2) 9. ================================================ 10. Age 60 76.6667 35 11. Duree 8.8 11.6667 4.5 12. PriseenchargeMed satisfait satisfait satisfait 13. Hotelier mecontent mecontent satisfait 14. NbService 2 2.6667 1 8. Attribute Question 5.1 Quel algorithme a été exécuté sur le jeu de données de l’exercice 2, avec quels paramètres ? Question 5.2 Commentez la sortie de Weka (indiquez le numéro de ligne dans vos commentaires), qu’observez-vous par rapport aux exercices 2 et 3 ?