TER – DiscoChallenge Sébastien Derivaux Supervisé par Pierre Gançarski et Nicolas Lachiche Présentation (1) • Projet STULONG – Étude longitudinale sur 20 ans de 1976 à 1999 – Population: hommes tchécoslovaques nées entre 1926 et 1937 • PKDD – Discovery Challenge 2004 – Participation du LSIIT dans le cadre d’un groupe de travail national Présentation (2) • Les données – 1417 patients suivis sur une durée de 20 ans – 4 tables: Entry, Control, Letter, Death • L’outil – Weka: outil de fouille de données – Algorithmes de classifications et de segmentation – Filtres de pré-traitement Problématiques • Utiliser le jeu de données avec Weka • Faire émerger des connaissances • Pas de limitations sur les connaissances recherchées • Utilisation des algorithmes de segmentation Processus de fouille de données Pré-traitement • Passage au format arff de Weka – Procédure décrite dans le manuel • Modification du codage – – – – Valeurs manquantes ayant un sens Valeurs codant l’absence de valeur Calcul de l’âge Fusion des groupes de patients de risques similaires Filtres (1) • WekaSQLFilter – Permet d’appliquer une instruction UPDATE sur la table comme en SQL – UPDATE SET age=date_entree – date_naissance; – Gestion de la clause WHERE – UPDATE Patients SET ID=AGE*WEIGHT, GROUPE='malade' WHERE AGE!=NULL AND WEIGHT!=NULL AND (ALCOOL='pas bon' OR TABAC='pas bon'); Filtres (2) • ChangeLabel – Change une valeur en une autre – java weka.filters.ChangeLabel -A CHOLRISK -O na N? • Fill – Affecte une valeur à un attribut selon une condition simple – Remplacé par WekaSQLFilter Fouille • Influence des facteurs de risques sur le groupe • Évaluation du risque d’obésité • Segmentation pure • Segmentation des catégories d’attributs puis classification Interprétation • La présence d’un ou plusieurs facteurs de risque implique le classement du patient comme étant à risque – Comme cela est défini dans la documentation • Les autres fouilles n’ont pas donné de résultats concluant. Conclusion • Le codage originel des informations n’est pas propice au processus de fouille de données • La segmentation est inappropriée • Manque de temps: certaines étapes ont été écourtées – recherche de documentation – réflexion sur les actions à entreprendre • => Impasse Questions ?