Julie Chabalier Post-doctorante Université Rennes 1 Équipe « Modélisation Conceptuelles des Connaissances Biomédicales » Parcours Maîtrise de Biologie Cellulaire (1999) DESS Compétences Complémentaires en Informatique (2000) Doctorat en Informatique (2004) Soutenu le 6 avril 2004 – mention très honorable « Acquisition incrémentale et représentation des systèmes intégrés bactériens par une approche orientée objet » Marseille 1/2 ATER (2004 - 2005) Qualifications sections 64, 65, 27 (2005) Post-doctorante Université de Rennes 1 (2005 – 2008) Rennes Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Enseignements ++ niveau/ nb heures Initiation à la bioinformatique Grandes banques/bases de données Concepts majeurs de la bioinformatique Représentation des connaissances biologiques Bio-ontologies Web Sémantique Initiation à l’informatique Bureautique - Algorithmique Conception, implémentation, interrogation de bases de données Modélisation MERISE- UML Langage SQL – MySQL Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Représentation des connaissances biologiques Informatique : représentation des connaissances • axe principal de recherche en Intelligence Artificielle (IA) • représentation des connaissances humaines dans un langage informatique utilisation de ces connaissances par un ordinateur pour effectuer des raisonnements Bioinformatique : représentation des connaissances biologiques • construction, exploitation et partage des modèles biologiques complexes • méthodes de représentation issues de l’IA mécanisme de raisonnements : obtention de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Quelques notions… Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique 1 Classes et associations pour représenter les concepts biologiques et leur relations 2 Variables ou attributs pour représenter les propriétés biologiques 2 Relation de spécialisation pour représenter les concepts biologiques spécifiques (héritage) 3 Langage informatique pour que la modélisation soit compréhensible par l’ordinateur 4 Objets ou instances pour représenter les objets biologiques 5 Classification d’objet pour enrichir connaissances d’une manière cohérente class: Assembly variables: variable: Type type: string variable: PartnersNb type: integer variable: SBP type: boolean class: ABC super-class: ASSEMBLY variables: variable: Type domain: {"ABC"} les Est composé de Protéine Système_intégré Type nbPartenaire proteineAffine Transporteur_ABC Systeme d’import class: ImportABC super-class: ABC variables: variable: SBP domain: {true} Réalise Fonction ABC Réalise Transport Systeme d’export instance : BSUBA01_OPUBA is-a : Systeme Intégré type = "ABC" nbpartenaires = 4 SBP = true Base de connaissances : technique orientée instances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Quelques notions… Ontologie • Technique de représentation issue de l’IA Obtention d’un consensus sur le sens des concepts employés dans une communauté (définitions textuelle, synonymes…) • Technique orientée classes et relations • Utilisation - modélisation d’une base de connaissances - réalisation d’un système d’annotation - réalisation d’un système d’indexation documentaire Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 système_intégré Intégration automatique Type nbPartenaire proteineAffineC transporteur_ABC systeme d’import cellular component systeme d’export is_a is_a cell part macromolecular complex is_a membrane part is_a is_a protein complex is_a ATP-binding cassette (ABC) transporter complex ABCA7_HUMAN ABCB8_HUMAN ABCD2_HUMAN … A complex for the transport of metabolites into and out of the cell, typically comprised of four domains; two membrane-associated domains and two ATP-binding domains at the intracellular face of the membrane, that form a central pore through the plasma membrane. Each of the four core domains may be encoded as a separate polypeptide or the domains can be fused in any one of a number of ways into multidomain polypeptides. In Bacteria and Archaebacteria, ABC transporters also include substrate binding proteins to bind substrate external to thede cytoplasm and deliver it- to the Audition Maître Conférences Université transporter. Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Travaux de recherche Trois axes complémentaires de recherche : 1. Représentation des connaissances biologiques 2. Exploitation des connaissances ontologiques 3. Intégration d’ontologies biomédicales Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet « ISYMOD » (thèse octobre 2000 – avril 2004) 1. Représentation des connaissances biologiques Objectif : Élaboration d’une base de connaissances dédiées à la représentation des systèmes intégrés bactériens Originalité : représentation dans un même environnement des connaissances sur les systèmes intégrés et des connaissances méthodologiques permettant l’identification et la reconstruction de ces systèmes à partir de génomes complètement séquencés Méthode : utilisation du langage de représentation AROM (inria + lif) + extension du mécanisme de classification (version…) Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet « ISYMOD » chabalier et al., 2005 Bioinformatics Prédiction des partenaires Entrée : Protéome Sortie : Candidats 1; 21(7):1246-56. Approche par motifs Entrée : Motifs Données externes Approche par similitude Base de connaissances méthodologiques Exploitation Identification Base de connaissances de domaine Classification 100 génomes procaryotes traités 13641 partenaires protéiques 5328 transporteurs ABC reconstruits Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet « Analyse transversale » (postdoc 2004 – 2006) 2. Exploitation des connaissances ontologiques Objectif : Interprétation des données d’expression par l’exploitation des connaissances structurées au sein d’une ontologie Originalité : utilisation des connaissances structurées dès le début de l’interprétation des données (avant le clustering) Méthode : construction de réseaux de protéines par comparaison des termes de Gene Ontology (GO) - association de ces réseaux aux données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 réprimé Amine metabolism Ion transport Defense response Cell ion homeostasis ATP7B 0 1 0 0 SLC26A3 0 1 0 0 SLC11A2 0 1 0 0 TF 0 1 0 1 surexprimés sim(SLC11A2-TF) = 0,66 Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 • Activation d’une voie de biosynthèse du précurseur de la créatine • Répression de la biosynthèse de polyamine Rôle potentiel de détoxification de l’entérocyte chabalier et al. BMC Bioinformatic, 8:235 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet « Biomed » (postdoc 2006 – 2008) 3. Intégration d’ontologies biomédicales Objectif : Associer les maladies et les voies métaboliques Originalité : Intégration des ontologies médicales et biologiques Méthode : mise en correspondance les termes de 3 ontologies : Gene ontology - Kegg Snomed CT • comparaison lexicale • comparaison des gènes impliqués dans une maladie et une voie métabolique Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 KO: Human diseases SN: Disorder of brain KO: Neurodegenerative disorders SN: Organic mental disorder KO: Alzheimer's disease SN: Dementia SN: Alzheimer's disease GO: cell cycle APP BACE1 BACE2 PSEN1 PSEN2 … GO: cell-cell signaling GO: Transport chabalier et al. Stud Health Technol Inform. 129:791-5. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet - Recherche Représentation et classification automatique des systèmes intégrés bactériens en fonction de différents points de vue Actuellement: classification des transporteurs ABC en fonction de la présence ou non de la protéine affine automatisé dans ISYMOD Les partenaires des transporteurs évoluent de façon concertées Les familles de transporteurs correspondent à de grandes familles de substrats pas indépendant : les transporteurs d’une même classe de substrat ont une origine commune Classer les transporteurs en fonction d’un point de vue évolutif Classer les transporteurs en fonction d’un point de vue fonctionnel Combiner les résultats pour valider les classifications Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Cours terme Chebi Classification des petites molécules Le point de vue fonctionnel natural product système_intégré Type nbPartenaire proteineAffineC transporteur_ABC systeme d’import carbohydrate lipid monosaccharide systeme d’export aldose ABC 2 ABC 3 oligosaccharide pentose disaccharide ABC 4 aldopentose glycosylglucose ABC 1 ribose maltose lactose Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Long terme - le point de vue évolutif Pas d’ontologie sur les paralogues Etudier la représentation des classes de paralogues sous forme d’ontologies - ontologie basée sur un arbre phylogénétique? - ontologie de séquences? Organiser automatiquement les transporteurs ABC en fonction de ces classes Comparer automatiquement les points de vue Utilisation des mécanismes de raisonnement de l’intelligence artificielle Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet - Enseignements Bioinformatique Concepts mis en œuvre dans les méthodes bioinformatiques • Alignement de séquences • Analyse de génomes • Phylogénie • Prédiction fonctionnelle Grandes banques de données biologiques Bio-ontologies – représentation des connaissances biologiques Informatique Initiation à l’informatique Bureautique Bases de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Travaux de recherche : problématique biologique Etude des modèles biologiques complexes nécessite : - Description des entités biologiques impliquées - Description des relations qu’entretiennent ces entités Ces modèles biologiques sont généralement proposés par comparaison avec des modèles connus Limitation : Les sources de connaissances sont de plus en plus nombreuses, hétérogènes et distribuées comparaison des connaissances est une tâche complexe (beaucoup de connaissances) et difficile (modèles riches) Besoin : - Représenter les connaissances biologiques de façon précise et non ambigüe - Automatiser la génération de nouvelles connaissances Genbank Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche 2004 Laboratoire de Chimie Bactérienne (LCB) Laboratoire d’Informatique Fondamentale (LIF) Problématique biologique Étude des relations fonctionnelles entre les partenaires des systèmes intégrés bactériens • Un système intégré est un ensemble de protéines nécessaires à la réalisation d’une fonction biologique • Système modèle : transporteur ABC Élaboration d’une stratégie d’analyse des systèmes • Prédiction des partenaires protéiques • Reconstruction des systèmes fonctionnels Automatisation de la stratégie d’analyse • Gestion automatique de la cohérence des connaissances biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – La stratégie d’analyse Stratégie d’analyse des transporteurs ABC Protéome SBP Membrane cytoplasmique MSD MSD NBD NBD Cytoplasme Eucaryotes : 1 système = 1 protéine Procaryotes : 1 système = 1 assemblage Identification des domaines fonctionnels Reconstruction des systèmes fonctionnels • Motifs • Similarité • Proximité chromosomique • Compatibilité des sous-familles Transporteurs ABC Computers & Chemistry, 2002 Toutes les étapes de la stratégie nécessitent une communication étroite entre les méthodes d’analyse et une base de données Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Automatisation de la stratégie Besoin : Automatisation de la stratégie • Gestion de la cohérence des connaissances biologiques • Contrôle du flux de données entre les méthodes • Gestion des échanges entre les méthodes et la base de données Solution : Développement de l’entrepôt de connaissances ISYMOD Données externes Base de connaissances méthodologiques Exploitation Identification Base de connaissances Classification de de domaine Audition Maître Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Modélisation du domaine Structure de modélisation du domaine Système Intégré typ:string nbPart:integer Système à deux composants stimulus:string ISYMOD - domaine Protéine nom:string Ident:string Long: integer Est composé de début:integer fin:integer Familledom:string Transporteur ABC transport:string Domaine type:string nbTM:integer • Entités biologiques : classes/sous-classes • Relations entre entités : associations/sousassociations • Propriétés : variables de classes/d’associations 36 Classes – 21 associations • Systèmes intégrés • Données brutes • Résultats des méthodes IEEE Intelligent Systems, 2002 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Modélisation des tâches Structure de modélisation des tâches ISYMOD - tâches Prédiction des partenaires Entrée : Protéome Sortie : Candidats Approche par motifs Entrée : Motifs Approche par similitude • Relation de spécialisation • Relation de composition • Résolution des tâches élémentaires par des méthodes • Entrées/sorties = instances du domaine Classification automatique des connaissances RSTI série l’Objet, 2003 36 tâches – 16 méthodes de résolution 100 génomes procaryotes traités • 13641 partenaires protéiques • 5328 transporteurs ABC reconstruits Bioinformatics, 2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche 2007 Université de Rennes 1 Équipe d’Accueil Modélisation Conceptuelles des Connaissances Biomédicales (EA MCCB) Étude des relations fonctionnelles entre produits de gènes Étude des relations maladies – voies métaboliques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Analyse transversale Problématique biologique Étude des relations fonctionnelles entre produits de gènes Hypothèses : • les gènes d’un groupe d’expression partagent des fonctions communes • plusieurs fonctions sont impliquées dans un processus biologique Différences d’expression au sein d’un même processus biologique Prédiction de réseaux fonctionnels de produits de gènes à partir de l’ensemble des gènes déposés sur une puce Visualisation combinée réseaux-données d’expression Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Prédiction des réseaux Calcul de la similarité sémantique des produits de gènes Comparaison des termes de Gene Ontology (processus biologiques) Méthode des modèles d’espace vectoriel • Un gène = un vecteur de termes GO • Pondération en fonction de la représentativité de l’annotation • Produit normalisé des vecteurs Matrice de similarité sémantique ATP7B SLC26A3 SLC11A2 TF ATP7B SLC26A3 SLC11A2 TF 1,00 1,00 1,00 0,66 1,00 1,00 0,66 1,00 0,66 1,00 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Visualisation Visualisation des réseaux Relations entre produits de gènes lorsque score de similarité > seuil Association avec données d’expression Groupe d’expression Matrice de similarité ATP7B SLC26A3 SLC11A2 TF ATP7B SLC26A3 SLC11A2 TF 1,00 1,00 1,00 0,66 1,00 1,00 0,66 1,00 0,66 1,00 - + = ATP7B SLC26A3 SLC11A2 TF Profil biologique Ion transport Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Résultats Application sur des gènes impliqués dans la différenciation entérocytaire (186 gènes ) 18 réseaux de produits de gènes (2 à 12 produits de gènes) Mise en évidence de nouvelles pistes de recherche Exemple : Métabolisme des amines Processus de détoxification • Connu pour le rein • Non décrit pour l’entérocyte Proceedings of the Workshop on Biomedical Ontologies and Text Processing - ECCB'2005 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Caractérisation des maladies Problématique biomédicale Étude des relations entre maladies et voies métaboliques • Organisation actuelle des maladies signes cliniques, causes, entités anatomiques • Exemple : ontologie SNOMED CT • Besoins de caractériser les maladies • Associations classes de maladies – classes de gènes • Associations maladies – voies métaboliques/ processus biologiques Ontologie de maladies Intégration d’ontologies médicales et biologiques Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Intégration d’ontologies Méthodologie d’intégration Choix des sources • SNOMED – CT • KEGG Orthology • Gene Ontology Formalisation des sources • langage OWL Intégration • Mise en correspondance (Mapping) • Alignement Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Recherche – Résultats Application à 3 maladies : Gliome – Alzheimer - Leucémie • Visualisation avec l’éditeur « Protégé » • Exemples de requêtes : processus communs à 2 maladies Maladies neurologiques (Gliome-Alzheimer) : 8 processus (86 avec les parents) Cancers (Gliome – Leucémie) : 44 processus (165 avec les parents) Proceedings of Medinfo 2007 Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet – Recherche Équipe IMGT – laboratoire IGH Projet IMGT • Collection de bases de données biologiques - Immunoglobulines/Récepteurs cellule T/Complexes d’histocompatibilité • Ensemble d’outils bioinformatiques - Analyse de séquences/Analyse de génomes/Analyse de structure 3D Quantité importante de données hétérogènes (≠ syntaxe/sémantique) Besoins • Gestion de la cohérence des connaissances et de l’interopérabilité des outils développés Projet • Modélisation formelle des connaissances biomédicales - Modélisation du domaine - Modélisation des tâches Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet – Recherche : approches proposées IMGT domaine Modélisation en OWL des connaissances • Basée sur IMGT-ONTOLOGY (XML syntaxe) • Mécanisme de classification : cohérence des connaissances • Requêtes spécifiques IMGT tâches Modélisation en OWL des services Web • Basée sur IMGT-CHOREOGRAPHY • Enrichissement de l’ontologie OWL-S • Enchaînement automatique des services Web Proposition de stratégies d’analyse cohérentes: Incorporation de méthodes propres à IMGT + services proposés sur le Web Inférence automatique de nouvelles connaissances Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008 Projet « ISYMOD » Prédiction des partenaires Entrée : Protéome Sortie : Candidats Approche par motifs Entrée : Motifs Approche par similitude Classification automatique des connaissances Base de connaissances de domaine 36 Classes – 21 associations • Systèmes intégrés • Données brutes • Résultats des méthodes Base de connaissances méthodologique 36 tâches – 16 méthodes de résolution 100 génomes procaryotes traités • 13641 partenaires protéiques • 5328 transporteurs ABC reconstruits chabalier et al., 2005 Bioinformatics 1; 21(7):1246-56. Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008