I50 - Cerimes

publicité
Construction et évaluation de règles de prédiction de
diagnostics à partir des bases de données hospitalières :
application au contrôle qualité des données médicoadministratives
M. DJENNAOUI, G. FICHEUR, E. AERNOUT, R. BEUSCART, E. CHAZARD
CHRU Lille, Service de l’information et des archives médicales, EA 2694, Lille
Congrès Conjoint ADELF ÉMOIS 2015
1
Introduction
• Base nationale PMSI MCO
• Issue du recueil en continu de l’activité des
établissements de santé dans le cadre de la tarification
à l’activité
• Disponible pour exploitation  Data reuse
• Bases disponibles 2005 à 2013
• 150 millions de séjours  Big data
• Procédures de chaînage anonyme  Identifiant
patient anonyme +++ => Potentiel d’analyse accru
2
Introduction
• Data mining
• Extraction à partir d’importantes quantités de données
brutes d’informations inédites et pertinentes en vue
d’une utilisation
• Méthodes d’apprentissage
• Adaptée au big data
• Intérêt croissant dans les données de santé (analyse
des parcours de soin)
3
Objectif
Construire par data mining à partir des enregistrements
de la base nationale PMSI MCO des règles de prédiction
de codes diagnostiques applicables dans le cadre du
contrôle qualité des données médico-administratives
Séjour 1
I50
Séjour 1
I50 + DZQM006
4
?
Séjour 2
I50
(confiance)
?
Séjour 2
I50
(confiance >> ?)
Matériels et Méthodes
Apprentissage
Base
Nationale
Validation
Codes à
prédire
CH Test
I50
Règles sélectionnées
Data mining
Filtre
statistique
I50 => I50
DZQM006 + I50 => I50
Règles validées
DZQM005 + I50 => I50
5
Séjours à
contrôler
Validation experte
Matériels et Méthodes
Apprentissage
Codes à
prédire
I50
6
Matériels et Méthodes
• Sélection des codes à prédire
• Caractéristiques requises
– Complications et morbidités associées CMA
– Fréquents
– Chroniques (règles séquentielles +++)
• Etude Valodiag
[Ficheur G, Genty M, Chazard E, Flament C,
Beuscart R. Méthode automatisée calculant la valeur moyenne d’un
diagnostic]  Classement des diagnostics
• Prédiction sur les catégories de codes à 3 caractères
I50 « Insuffisance cardiaque » 
7
{
I500 «Insuffisance cardiaque congestive »
I501 « Insuffisance ventriculaire gauche »
I509 « Insuffisance cardiaque, sans précision »
Matériels et Méthodes
• Codes à prédire
 E11 « Diabète type 2 »
 I48 « Fibrillation atriale »
 I50 « Insuffisance cardiaque »
8
Matériels et Méthodes
Apprentissage
Base
Nationale
Codes à
prédire
I50
Data mining
9
Matériels et Méthodes
• Construction des règles par data mining
• Echantillon d’apprentissage
• Base nationale PMSI MCO 2007 à 2010
– Identifiant chronologique de séjour
– Identifiant d’établissement (numéro FINESS)
– Identifiant patient (numéro de chaînage anonyme)
– Age et sexe du patient
– GHM
– Durée de séjour (durée PMSI = nombre de nuitées)
– Diagnostics
– Actes
10
– Mois et année de sortie
Matériels et Méthodes
• Construction des règles par data mining
• Echantillon d’apprentissage
• Tirage au sort
• Critères d’inclusion
– Au moins deux séjours par patient
– Au moins un séjour dans le CH test
– Code ciblé présent dans au moins un séjour
11
Matériels et Méthodes
• Construction des règles par data mining
Base Nationale
Ensemble d’apprentissage T
Séjour 1 : I48 E11 DERP003
Séjour 2 : I50 DZQM006
Séjour 3 : I10 I69
…...
12
Matériels et Méthodes
• Construction des règles par data mining
• Règles de prédiction
•
DZQM006 => I50
• DZQM006 = Motif prédictif
• I50 = Item prédit
• Règles séquentielles  Facteur temporel +++
• Principe de précédence  Motif prédictif précède l’item prédit
dans le temps
Séjour 1
DZQM006
13
Séjour 2
I50
Matériels et Méthodes
• Construction des règles par data mining
• Support = Nombre de transactions contenant le motif
divisé par le nombre de transactions contenues dans la
base transactionnelle
𝐬𝐮𝐩𝐩𝐨𝐫𝐭 (𝐈𝟓𝟎) =
𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐈𝟓𝟎)
𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐁𝐚𝐬𝐞)
• Confiance = Nombre de transactions contenant
le motif prédictif et l’item prédit divisé par le nombre de
transactions contenant le motif prédictif
𝐜𝐨𝐧𝐟𝐢𝐚𝐧𝐜𝐞 (𝐃𝐙𝐐𝐌𝟎𝟎𝟔 => 𝐈𝟓𝟎) =
14
𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐃𝐙𝐐𝐌𝟎𝟎𝟔 + 𝐈𝟓𝟎)
𝐧 𝐬é𝐣𝐨𝐮𝐫𝐬 (𝐃𝐙𝐐𝐌𝟎𝟎𝟔)
Matériels et Méthodes
• Construction des règles par data mining
• Seuils de support (minSupp) et de confiance (minConf)
au préalable
• minSupp = 0.075 %
• minConf = 50 %
• R© version 3.0.2., algorithme SPADE, package
arulesSequences
15
Matériels et Méthodes
Apprentissage
Base
Nationale
Codes à
prédire
I50
Règles sélectionnées
Data mining
16
Filtre
statistique
I50 => I50
DZQM006 + I50 => I50
Matériels et Méthodes
• Sélection des règles
•
•
•
•
17
Production de règles triviales
Filtre statistique
Produit (support * confiance) +++
Compromis fréquence / fiabilité
Matériels et Méthodes
Apprentissage
Base
Nationale
Validation
Codes à
prédire
CH Test
I50
Règles sélectionnées
Data mining
18
Filtre
statistique
I50 => I50
DZQM006 + I50 => I50
Séjours à
contrôler
Matériels et Méthodes
• Contrôle et validation des règles
• Validation à partir des courriers de sortie
• Base de test indépendante (centre hospitalier test)
• Appréciation de la valeur des règles en termes de
recodage des codes ciblés
• Pour chaque règle prédictive  Extraction de séjours
à contrôler
19
Matériels et Méthodes
Apprentissage
Base
Nationale
Validation
Codes à
prédire
CH Test
I50
Règles sélectionnées
Data mining
Filtre
statistique
I50 => I50
DZQM006 + I50 => I50
Règles validées
DZQM005 + I50 => I50
20
Séjours à
contrôler
Validation experte
Matériels et Méthodes
• Contrôle et validation des règles
• Motif prédictif présent au niveau du séjour 1 et le code
prédit absent au niveau du séjour 2
DZQM006 ≠> I50
• Proportion de séjours recodés
• Pathologies chroniques  Code prédit présent au niveau
du séjour 1 et absent au niveau du séjour 2
I50 ≠> I50
• Lift (VPP règle/VPP CMA) Validation
21
Résultats
Patients
Séjours
Nombre
12125
59170
Age moyen (ans)
51
50.7
Homme
Femme
Sexe
Nombre moyen séjours par patient
5
Durée moyenne séjour PMSI (jours)
4.4
Nombre moyen diagnostics par séjour
4
Nombre moyen actes par séjour
4
Echantillon d’apprentissage
22
5134 (42.3 %) 26866 (45.4 %)
6991 (57.7 %) 32304 (54.6 %)
Résultats
Codes
prédits
Motifs
prédictifs
Libellés
E11
Diabète type 2
55 %
E11 + I10 + DZQM006
Diabète type 2
Hypertension artérielle
Echographie cardiaque
71 %
E11 + I10 + I48
Diabète type 2
Hypertension artérielle
Fibrillation atriale
72 %
I48
Fibrillation atriale
51 %
I48 + I10 + E78
Fibrillation atriale
Hypertension artérielle
Dyslipidémie
60 %
I48 + I10 + Z95
Fibrillation atriale
Hypertension artérielle
Présence d'implants cardiovasculaires
60 %
I48 + I69
Fibrillation atriale
Séquelles d'infarctus cérébral
62 %
I50
Insuffisance cardiaque
37 %
I50 + I10 + I48
Insuffisance cardiaque
Hypertension artérielle
Fibrillation atriale
50 %
E11
I48
I50
Règles séquentielles sélectionnées
23
Confiance
Résultats
N séjours
% séjours
contrôlés
recodés
(432)
Motifs
prédictifs
Libellés
E11
Diabète type 2
117
53 %
E11 + I10 + DZQM006
Diabète type 2
Hypertension artérielle
Echographie cardiaque
32
69 %
E11 + I10 + I48
Diabète type 2
Hypertension artérielle
Fibrillation atriale
20
(reference)
1.30
75 %
1.42
169
92
30 %
25 %
I48
Fibrillation atriale
I48 + I10 + E78
Fibrillation atriale
Hypertension artérielle
Dyslipidémie
16
I48 + I10 + Z95
Fibrillation atriale
Hypertension artérielle
Présence d'implants cardiovasculaires
25
I48 + I69
Fibrillation atriale
Séquelles d'infarctus cérébral
23
39 %
I50
Insuffisance cardiaque
156
70
21 %
I50 + I10 + I48
Insuffisance cardiaque
Hypertension artérielle
Fibrillation atriale
37
21 %
(reference)
0.83
24 %
0.80
1.30
(reference)
1.00
107
Contrôle et validation des règles séquentielles
24
Lift
Discussion
• Validation de trois règles de prédiction construites par data mining à
partir des enregistrements de la base nationale PMSI MCO
{Diabète type 2 + Hypertension artérielle + Echographie cardiaque} => Diabète type 2
{Diabète type 2 + Hypertension artérielle + Fibrillation atriale} => Diabète type 2
{Fibrillation atriale + Séquelles d’infarctus cérébral} => Fibrillation atriale
• Valides, fiables et simples d’application
• Confiance > 0.6 et lift ≥ 1.30
• Méthodes de data mining  Approche originale
• Validation à partir des courriers de sortie  Objective avec mise à
l’épreuve en situation réelle de recodage
• Règles séquentielles
– Rentabilisation  Amélioration du codage sur plusieurs séjours
– Parcours de soin  Financement au parcours +++
25
• Anonymat et confidentialité
Discussion
• Base nationale
– Qualité des données tributaire du codage  Amélioration
– Chaînage des séjours imparfait  Marginal
• Catégories de codes à 3 caractères  Perte d’informations
– Robustesse
– Information satisfaisante et concordante
– Niveaux de sévérité identiques
• Pas de règles validées pour code I50
– Moins fréquent
– Règles de codage ambiguës
• Evaluation des règles +++
– Capacité de recodage  Valorisation ?
Conditions d’application des CMA
26
Conclusion
•
•
•
•
•
27
Résultats surprenants  Qualité du codage ?
Taille de l’échantillon (années > 2010)
Autres méthodes (NoSQL)
Autres codes (pathologies aiguës)
Intégration à un environnement de contrôle qualité 
Evaluation réelle des capacités de valorisation
Merci de votre attention
28
Téléchargement