Arnaud Rosier Estelle Gandjbakhch Pourquoi développer de nouvelles méthodes: deux notions à ne pas ignorer : 1- Dans le futur, de plus en plus de données issues du patient alimenteront des bases de données 2- L’analyse de ces données par des outils statistiques classiques est problématique. => Il existe de nouvelles techniques : Data mining ou « fouille de données » Une explosion de données Workflow des données en Télécardiologie Transmission automatique des données sur le rythme Implant Transmetteur sans fil Réseau Mobiles Centrale de données Equipe médicale => Collecte temps réel de données et agrégation quotidienne Dans le futur : pas seulement le rythme… De nouveaux capteurs vont vraisemblablement voir le jour et augmenter le nombre de données acquises : 1- Capteurs hémodynamiques (sites multiples) 2- Autres, Ex : Glycémie … 2 autres sources de données exponentielles : 1- La littérature scientifique 2- Les puces à ADN (séquençage) : « omics » Data Mining • Utilisé depuis 20 ans • Analyse du panier de la ménagère • Changement de Paradigme en médecine : • Hypothesis-driven Research • Data-driven Research (Butte & al.) L’objectif est d’utiliser ces données nombreuses dans la prise en charge individuelle de nos patients Data Mining • Méthodes automatiques supervisées ou non • Objectif de prédiction (pronostic, réponse ttt…) Réseau de neurone : boîte noire Construction d’un arbre décisionnel L’arbre est construit automatiquement; Le médecin peut rechercher à posteriori la cohérence des règles générées. Jeu de données d’apprentissage + Jeu de données de contrôle : une partie sert à vérifier les règles proposées Knowledge Discovery : Hypothesis Generation But : Mise en évidence de relations inédites Ex : -En 1986 Swanson met à jour un lien entre syndrome de Raynaud et huiles de poisson. -Mise en évidence de 11 liens entre migraine et magnesium en utilisant les abstracts de Pubmed. Text Mining / NLP : En théorie, le Text Mining est la partie du Data mining qui s’intéresse au Texte. En pratique, ça consiste à faire lire un texte (compte-rendu, article) automatiquement par un ordinateur. Inventé pour la bio-informatique car aucun humain ne peut lire tous les articles qui sont publiées (même dans un sousdomaine…). IS-A Exemple de texte Annoté TITLE: The crystal structure of a <NAME TYPE=PROTEIN>triacylglycerol lipase</NAME> from <NAME TYPE=SPECIES>Pseudomonas cepacia</NAME>. reveals a highly open conformation in the absence of a bound inhibitor AUTHORS: Kim_KK, Song_HK, Shin_DH, Hwang_KY, Suh_SW JOURNAL: STRUCTURE, 1997, Vol.5, No.2, pp.173-185 ABSTRACT: … Results: We have determined the crystal structure of a <NAME TYPE=PROTEIN> triacylglycerol lipase</NAME> from <NAME TYPE=PROTEIN>Pseudomonas cepacia (Pet)</NAME> in the absence of a bound inhibitor using X-ray crystallography. The structure shows the <NAME TYPE=PROTEIN>lipase</NAME> to contain an <NAME TYPE=PROTEIN>alpha/betahydrolase</NAME> fold and a catalytic triad comprising of residues <NAME TYPE=RESIDUE> Ser87</NAME>, <NAME TYPE=RESIDUE>His286 </NAME> and <NAME TYPE=RESIDUE>Asp264 </NAME>. The enzyme shares several structural features with homologous <NAME TYPE=PROTEIN>lipases </NAME> from <NAME TYPE=SPECIES>Pseudomonas glumae (PgL)</NAME> and <NAME TYPE=SPECIES>Chromobacterium viscosum (CvL)</NAME>, including a calcium-binding site. The present structure of <NAME TYPE=SPECIES>Pet</NAME> reveals a highly open conformation with a solvent-accessible active site. This is in contrast to the structures of <NAME TYPE=SPECIES>PgL</NAME> and <NAME TYPE=SPECIES>Pet</NAME> in which the active site is buried under a closed or partially opened 'lid', respectively. … Using regular expressions to extract information on pacemaker implantation procedures from clinical reports A. Rosier, A. Burgun, P. Mabo AMIA 2008 Symp. EA3888 / INSERM U936 – Conceptual Modeling of Biomedical Knowledge School of Medicine, University of Rennes I, France Data categories •Identification data : •Patient name •Patient birthdate •Procedure-related Data : •Date of surgery •Cardiologist name •Clinical Context : •Pacing mode (related to disease) •Past history of surgery •Devices – Generator & leads: •Manufacturer’s name •Generator Model •Serial Number •Devices – Leads : •Anatomic location •Impedance value Methods: Annotated NE in GATE GUI Results : Recall, Precision Recall = TP / TP + FN Patient Name 100,0% Pacing Mode Registry SCRIBE 99.5% 91.1% 50,0% Cardiologist Name Sen 0,0% Serial Number Sen Manufacturer Model Precision = TP / TP + FP Patient Name 100,0% Pacing Mode 50,0% Registry SCRIBE 77.5% Pos Reg 0,0% 98.7% Pos SCR Serial Number Accuracy : 83.5 vs 94.3 F1-mesure : 87.13 vs 94.75 Record exhaustivity : 82% vs 95% Cardiologist Name Manufacturer Model Questions … ?