Construction et évaluation de règles de prédiction de diagnostics à partir des bases de données hospitalières : application au contrôle qualité des données médicoadministratives M. DJENNAOUI, G. FICHEUR, E. AERNOUT, R. BEUSCART, E. CHAZARD CHRU Lille, Service de l’information et des archives médicales, EA 2694, Lille Congrès Conjoint ADELF ÉMOIS 2015 1 Introduction • Base nationale PMSI MCO • Issue du recueil en continu de l’activité des établissements de santé dans le cadre de la tarification à l’activité • Disponible pour exploitation Data reuse • Bases disponibles 2005 à 2013 • 150 millions de séjours Big data • Procédures de chaînage anonyme Identifiant patient anonyme +++ => Potentiel d’analyse accru 2 Introduction • Data mining • Extraction à partir d’importantes quantités de données brutes d’informations inédites et pertinentes en vue d’une utilisation • Méthodes d’apprentissage • Adaptée au big data • Intérêt croissant dans les données de santé (analyse des parcours de soin) 3 Objectif Construire par data mining à partir des enregistrements de la base nationale PMSI MCO des règles de prédiction de codes diagnostiques applicables dans le cadre du contrôle qualité des données médico-administratives Séjour 1 I50 Séjour 1 I50 + DZQM006 4 ? Séjour 2 I50 (confiance) ? Séjour 2 I50 (confiance >> ?) Matériels et Méthodes Apprentissage Base Nationale Validation Codes à prédire CH Test I50 Règles sélectionnées Data mining Filtre statistique I50 => I50 DZQM006 + I50 => I50 Règles validées DZQM005 + I50 => I50 5 Séjours à contrôler Validation experte Matériels et Méthodes Apprentissage Codes à prédire I50 6 Matériels et Méthodes • Sélection des codes à prédire • Caractéristiques requises – Complications et morbidités associées CMA – Fréquents – Chroniques (règles séquentielles +++) • Etude Valodiag [Ficheur G, Genty M, Chazard E, Flament C, Beuscart R. Méthode automatisée calculant la valeur moyenne d’un diagnostic] Classement des diagnostics • Prédiction sur les catégories de codes à 3 caractères I50 « Insuffisance cardiaque » 7 { I500 «Insuffisance cardiaque congestive » I501 « Insuffisance ventriculaire gauche » I509 « Insuffisance cardiaque, sans précision » Matériels et Méthodes • Codes à prédire E11 « Diabète type 2 » I48 « Fibrillation atriale » I50 « Insuffisance cardiaque » 8 Matériels et Méthodes Apprentissage Base Nationale Codes à prédire I50 Data mining 9 Matériels et Méthodes • Construction des règles par data mining • Echantillon d’apprentissage • Base nationale PMSI MCO 2007 à 2010 – Identifiant chronologique de séjour – Identifiant d’établissement (numéro FINESS) – Identifiant patient (numéro de chaînage anonyme) – Age et sexe du patient – GHM – Durée de séjour (durée PMSI = nombre de nuitées) – Diagnostics – Actes 10 – Mois et année de sortie Matériels et Méthodes • Construction des règles par data mining • Echantillon d’apprentissage • Tirage au sort • Critères d’inclusion – Au moins deux séjours par patient – Au moins un séjour dans le CH test – Code ciblé présent dans au moins un séjour 11 Matériels et Méthodes • Construction des règles par data mining Base Nationale Ensemble d’apprentissage T Séjour 1 : I48 E11 DERP003 Séjour 2 : I50 DZQM006 Séjour 3 : I10 I69 …... 12 Matériels et Méthodes • Construction des règles par data mining • Règles de prédiction • DZQM006 => I50 • DZQM006 = Motif prédictif • I50 = Item prédit • Règles séquentielles Facteur temporel +++ • Principe de précédence Motif prédictif précède l’item prédit dans le temps Séjour 1 DZQM006 13 Séjour 2 I50 Matériels et Méthodes • Construction des règles par data mining • Support = Nombre de transactions contenant le motif divisé par le nombre de transactions contenues dans la base transactionnelle 𝐬𝐮𝐩𝐩𝐨𝐫𝐭 (𝐈𝟓𝟎) = 𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐈𝟓𝟎) 𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐁𝐚𝐬𝐞) • Confiance = Nombre de transactions contenant le motif prédictif et l’item prédit divisé par le nombre de transactions contenant le motif prédictif 𝐜𝐨𝐧𝐟𝐢𝐚𝐧𝐜𝐞 (𝐃𝐙𝐐𝐌𝟎𝟎𝟔 => 𝐈𝟓𝟎) = 14 𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐃𝐙𝐐𝐌𝟎𝟎𝟔 + 𝐈𝟓𝟎) 𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐃𝐙𝐐𝐌𝟎𝟎𝟔) Matériels et Méthodes • Construction des règles par data mining • Seuils de support (minSupp) et de confiance (minConf) au préalable • minSupp = 0.075 % • minConf = 50 % • R© version 3.0.2., algorithme SPADE, package arulesSequences 15 Matériels et Méthodes Apprentissage Base Nationale Codes à prédire I50 Règles sélectionnées Data mining 16 Filtre statistique I50 => I50 DZQM006 + I50 => I50 Matériels et Méthodes • Sélection des règles • • • • 17 Production de règles triviales Filtre statistique Produit (support * confiance) +++ Compromis fréquence / fiabilité Matériels et Méthodes Apprentissage Base Nationale Validation Codes à prédire CH Test I50 Règles sélectionnées Data mining 18 Filtre statistique I50 => I50 DZQM006 + I50 => I50 Séjours à contrôler Matériels et Méthodes • Contrôle et validation des règles • Validation à partir des courriers de sortie • Base de test indépendante (centre hospitalier test) • Appréciation de la valeur des règles en termes de recodage des codes ciblés • Pour chaque règle prédictive Extraction de séjours à contrôler 19 Matériels et Méthodes Apprentissage Base Nationale Validation Codes à prédire CH Test I50 Règles sélectionnées Data mining Filtre statistique I50 => I50 DZQM006 + I50 => I50 Règles validées DZQM005 + I50 => I50 20 Séjours à contrôler Validation experte Matériels et Méthodes • Contrôle et validation des règles • Motif prédictif présent au niveau du séjour 1 et le code prédit absent au niveau du séjour 2 DZQM006 ≠> I50 • Proportion de séjours recodés • Pathologies chroniques Code prédit présent au niveau du séjour 1 et absent au niveau du séjour 2 I50 ≠> I50 • Lift (VPP règle/VPP CMA) Validation 21 Résultats Patients Séjours Nombre 12125 59170 Age moyen (ans) 51 50.7 Homme Femme Sexe Nombre moyen séjours par patient 5 Durée moyenne séjour PMSI (jours) 4.4 Nombre moyen diagnostics par séjour 4 Nombre moyen actes par séjour 4 Echantillon d’apprentissage 22 5134 (42.3 %) 26866 (45.4 %) 6991 (57.7 %) 32304 (54.6 %) Résultats Codes prédits Motifs prédictifs Libellés E11 Diabète type 2 55 % E11 + I10 + DZQM006 Diabète type 2 Hypertension artérielle Echographie cardiaque 71 % E11 + I10 + I48 Diabète type 2 Hypertension artérielle Fibrillation atriale 72 % I48 Fibrillation atriale 51 % I48 + I10 + E78 Fibrillation atriale Hypertension artérielle Dyslipidémie 60 % I48 + I10 + Z95 Fibrillation atriale Hypertension artérielle Présence d'implants cardiovasculaires 60 % I48 + I69 Fibrillation atriale Séquelles d'infarctus cérébral 62 % I50 Insuffisance cardiaque 37 % I50 + I10 + I48 Insuffisance cardiaque Hypertension artérielle Fibrillation atriale 50 % E11 I48 I50 Règles séquentielles sélectionnées 23 Confiance Résultats N séjours % séjours contrôlés recodés (432) Motifs prédictifs Libellés E11 Diabète type 2 117 53 % E11 + I10 + DZQM006 Diabète type 2 Hypertension artérielle Echographie cardiaque 32 69 % E11 + I10 + I48 Diabète type 2 Hypertension artérielle Fibrillation atriale 20 (reference) 1.30 75 % 1.42 169 92 30 % 25 % I48 Fibrillation atriale I48 + I10 + E78 Fibrillation atriale Hypertension artérielle Dyslipidémie 16 I48 + I10 + Z95 Fibrillation atriale Hypertension artérielle Présence d'implants cardiovasculaires 25 I48 + I69 Fibrillation atriale Séquelles d'infarctus cérébral 23 39 % I50 Insuffisance cardiaque 156 70 21 % I50 + I10 + I48 Insuffisance cardiaque Hypertension artérielle Fibrillation atriale 37 21 % (reference) 0.83 24 % 0.80 1.30 (reference) 1.00 107 Contrôle et validation des règles séquentielles 24 Lift Discussion • Validation de trois règles de prédiction construites par data mining à partir des enregistrements de la base nationale PMSI MCO {Diabète type 2 + Hypertension artérielle + Echographie cardiaque} => Diabète type 2 {Diabète type 2 + Hypertension artérielle + Fibrillation atriale} => Diabète type 2 {Fibrillation atriale + Séquelles d’infarctus cérébral} => Fibrillation atriale • Valides, fiables et simples d’application • Confiance > 0.6 et lift ≥ 1.30 • Méthodes de data mining Approche originale • Validation à partir des courriers de sortie Objective avec mise à l’épreuve en situation réelle de recodage • Règles séquentielles – Rentabilisation Amélioration du codage sur plusieurs séjours – Parcours de soin Financement au parcours +++ 25 • Anonymat et confidentialité Discussion • Base nationale – Qualité des données tributaire du codage Amélioration – Chaînage des séjours imparfait Marginal • Catégories de codes à 3 caractères Perte d’informations – Robustesse – Information satisfaisante et concordante – Niveaux de sévérité identiques • Pas de règles validées pour code I50 – Moins fréquent – Règles de codage ambiguës • Evaluation des règles +++ – Capacité de recodage Valorisation ? Conditions d’application des CMA 26 Conclusion • • • • • 27 Résultats surprenants Qualité du codage ? Taille de l’échantillon (années > 2010) Autres méthodes (NoSQL) Autres codes (pathologies aiguës) Intégration à un environnement de contrôle qualité Evaluation réelle des capacités de valorisation Merci de votre attention 28