Présentation PowerPoint

publicité
TER – DiscoChallenge
Sébastien Derivaux
Supervisé par
Pierre Gançarski et Nicolas Lachiche
Présentation (1)
• Projet STULONG
– Étude longitudinale sur 20 ans de 1976 à 1999
– Population: hommes tchécoslovaques nées
entre 1926 et 1937
• PKDD
– Discovery Challenge 2004
– Participation du LSIIT dans le cadre d’un
groupe de travail national
Présentation (2)
• Les données
– 1417 patients suivis sur une durée de 20 ans
– 4 tables: Entry, Control, Letter, Death
• L’outil
– Weka: outil de fouille de données
– Algorithmes de classifications et de
segmentation
– Filtres de pré-traitement
Problématiques
• Utiliser le jeu de données avec Weka
• Faire émerger des connaissances
• Pas de limitations sur les connaissances
recherchées
• Utilisation des algorithmes de segmentation
Processus de fouille de données
Pré-traitement
• Passage au format arff de Weka
– Procédure décrite dans le manuel
• Modification du codage
–
–
–
–
Valeurs manquantes ayant un sens
Valeurs codant l’absence de valeur
Calcul de l’âge
Fusion des groupes de patients de risques
similaires
Filtres (1)
• WekaSQLFilter
– Permet d’appliquer une instruction UPDATE
sur la table comme en SQL
– UPDATE SET age=date_entree – date_naissance;
– Gestion de la clause WHERE
– UPDATE Patients SET ID=AGE*WEIGHT,
GROUPE='malade' WHERE AGE!=NULL AND
WEIGHT!=NULL AND (ALCOOL='pas bon' OR
TABAC='pas bon');
Filtres (2)
• ChangeLabel
– Change une valeur en une autre
– java weka.filters.ChangeLabel -A CHOLRISK -O na N?
• Fill
– Affecte une valeur à un attribut selon une
condition simple
– Remplacé par WekaSQLFilter
Fouille
• Influence des facteurs de risques sur le
groupe
• Évaluation du risque d’obésité
• Segmentation pure
• Segmentation des catégories d’attributs puis
classification
Interprétation
• La présence d’un ou plusieurs facteurs de
risque implique le classement du patient
comme étant à risque
– Comme cela est défini dans la documentation
• Les autres fouilles n’ont pas donné de
résultats concluant.
Conclusion
• Le codage originel des informations n’est
pas propice au processus de fouille de
données
• La segmentation est inappropriée
• Manque de temps: certaines étapes ont été
écourtées
– recherche de documentation
– réflexion sur les actions à entreprendre
• => Impasse
Questions ?
Téléchargement