Data Mining

publicité
Arnaud Rosier
Estelle Gandjbakhch
Pourquoi développer de nouvelles
méthodes: deux notions à ne pas ignorer :
1- Dans le futur, de plus en plus de données issues du patient
alimenteront des bases de données
2- L’analyse de ces données par des outils statistiques classiques
est problématique.
=> Il existe de nouvelles techniques :
Data mining ou « fouille de données »
Une explosion de données
Workflow des données en Télécardiologie
Transmission automatique des données sur le rythme
Implant
Transmetteur
sans fil
Réseau Mobiles
Centrale de
données
Equipe médicale
=> Collecte temps réel de données et agrégation quotidienne
Dans le futur : pas seulement le rythme…
De nouveaux capteurs vont vraisemblablement voir le jour et
augmenter le nombre de données acquises :
1- Capteurs
hémodynamiques
(sites multiples)
2- Autres, Ex :
Glycémie …
2 autres sources de données exponentielles :
1- La littérature scientifique
2- Les puces à ADN (séquençage) : « omics »
Data Mining
• Utilisé depuis 20 ans
• Analyse du panier de la ménagère
• Changement de Paradigme en médecine :
• Hypothesis-driven Research
• Data-driven Research (Butte & al.)
L’objectif est d’utiliser ces
données nombreuses dans la
prise en charge individuelle de
nos patients
Data Mining
• Méthodes automatiques supervisées ou non
• Objectif de prédiction (pronostic, réponse ttt…)
Réseau de neurone : boîte noire
Construction d’un arbre décisionnel
L’arbre est construit automatiquement;
Le médecin peut rechercher à posteriori
la cohérence des règles générées.
Jeu de données
d’apprentissage
+ Jeu de données
de contrôle :
une partie sert à vérifier
les règles proposées
Knowledge Discovery : Hypothesis Generation
But : Mise en évidence de
relations inédites
Ex :
-En 1986 Swanson met à jour un
lien entre syndrome de Raynaud
et huiles de poisson.
-Mise en évidence de 11 liens
entre migraine et magnesium en
utilisant les abstracts de Pubmed.
Text Mining / NLP :
En théorie, le Text Mining est la partie du Data mining qui
s’intéresse au Texte.
En pratique, ça consiste à faire lire un texte (compte-rendu,
article) automatiquement par un ordinateur.
Inventé pour la bio-informatique car aucun humain ne peut lire
tous les articles qui sont publiées (même dans un sousdomaine…).
IS-A
Exemple de texte Annoté
TITLE: The crystal structure of a <NAME TYPE=PROTEIN>triacylglycerol lipase</NAME> from
<NAME TYPE=SPECIES>Pseudomonas cepacia</NAME>. reveals a highly open conformation in
the absence of a bound inhibitor
AUTHORS: Kim_KK, Song_HK, Shin_DH, Hwang_KY, Suh_SW
JOURNAL: STRUCTURE, 1997, Vol.5, No.2, pp.173-185
ABSTRACT: …
Results: We have determined the crystal structure of a <NAME TYPE=PROTEIN> triacylglycerol
lipase</NAME> from <NAME TYPE=PROTEIN>Pseudomonas cepacia (Pet)</NAME> in the
absence of a bound inhibitor using X-ray crystallography. The structure shows the <NAME
TYPE=PROTEIN>lipase</NAME> to contain an <NAME TYPE=PROTEIN>alpha/betahydrolase</NAME> fold and a catalytic triad comprising of residues <NAME TYPE=RESIDUE>
Ser87</NAME>, <NAME TYPE=RESIDUE>His286 </NAME> and <NAME TYPE=RESIDUE>Asp264
</NAME>. The enzyme shares several structural features with homologous <NAME
TYPE=PROTEIN>lipases </NAME> from <NAME TYPE=SPECIES>Pseudomonas glumae
(PgL)</NAME> and <NAME TYPE=SPECIES>Chromobacterium viscosum (CvL)</NAME>,
including a calcium-binding site. The present structure of <NAME TYPE=SPECIES>Pet</NAME>
reveals a highly open conformation with a solvent-accessible active site. This is in contrast to
the structures of <NAME TYPE=SPECIES>PgL</NAME> and <NAME TYPE=SPECIES>Pet</NAME>
in which the active site is buried under a closed or partially opened 'lid', respectively. …
Using regular expressions to extract information on
pacemaker implantation procedures from clinical reports
A. Rosier, A. Burgun, P. Mabo
AMIA 2008 Symp.
EA3888 / INSERM U936 – Conceptual Modeling of Biomedical Knowledge
School of Medicine, University of Rennes I, France
Data categories
•Identification data :
•Patient name
•Patient birthdate
•Procedure-related Data :
•Date of surgery
•Cardiologist name
•Clinical Context :
•Pacing mode
(related to disease)
•Past history of surgery
•Devices – Generator & leads:
•Manufacturer’s name
•Generator Model
•Serial Number
•Devices – Leads :
•Anatomic location
•Impedance value
Methods: Annotated NE in GATE GUI
Results : Recall, Precision
Recall = TP / TP + FN
Patient Name
100,0%
Pacing Mode
Registry SCRIBE
99.5%
91.1%
50,0%
Cardiologist
Name
Sen
0,0%
Serial
Number
Sen
Manufacturer
Model
Precision = TP / TP + FP
Patient Name
100,0%
Pacing Mode
50,0%
Registry SCRIBE
77.5%
Pos
Reg
0,0%
98.7%
Pos
SCR
Serial
Number
Accuracy : 83.5 vs 94.3
F1-mesure : 87.13 vs 94.75
Record exhaustivity : 82% vs 95%
Cardiologist
Name
Manufacturer
Model
Questions … ?
Téléchargement