Recherche - Julie Chabalier

publicité
Julie Chabalier
Post-doctorante
Université Rennes 1
Équipe « Modélisation Conceptuelles des
Connaissances Biomédicales »
Parcours
 Maîtrise de Biologie Cellulaire (1999)
 DESS Compétences Complémentaires en Informatique (2000)
 Doctorat en Informatique (2004)
 Soutenu le 6 avril 2004 – mention très honorable
 « Acquisition incrémentale et représentation des systèmes
intégrés bactériens par une approche orientée objet »
Marseille
 1/2 ATER (2004 - 2005)
 Qualifications sections 64, 65, 27 (2005)
 Post-doctorante Université de Rennes 1 (2005 – 2008)
Rennes
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Enseignements ++ niveau/ nb heures
 Initiation à la bioinformatique
 Grandes banques/bases de données
 Concepts majeurs de la bioinformatique
 Représentation des connaissances biologiques
 Bio-ontologies
 Web Sémantique
 Initiation à l’informatique
 Bureautique - Algorithmique
 Conception, implémentation, interrogation de bases de données
 Modélisation MERISE- UML
 Langage SQL – MySQL
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Représentation des connaissances biologiques
Informatique : représentation des connaissances
• axe principal de recherche en Intelligence Artificielle (IA)
• représentation des connaissances humaines dans un langage informatique
 utilisation de ces connaissances par un ordinateur pour effectuer des
raisonnements
Bioinformatique : représentation des connaissances biologiques
• construction, exploitation et partage des modèles biologiques complexes
• méthodes de représentation issues de l’IA
 mécanisme de raisonnements : obtention de nouvelles connaissances
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Quelques notions…
Un système intégré est un ensemble de protéines
nécessaires à la réalisation d’une fonction
biologique
1 Classes et associations pour représenter les
concepts biologiques et leur relations
2 Variables ou attributs pour représenter les
propriétés biologiques
2 Relation de spécialisation pour représenter les
concepts biologiques spécifiques (héritage)
3 Langage informatique pour que la modélisation
soit compréhensible par l’ordinateur
4 Objets ou instances pour représenter les objets
biologiques
5
Classification
d’objet pour enrichir
connaissances d’une manière cohérente
class: Assembly
variables:
variable: Type
type: string
variable: PartnersNb
type: integer
variable: SBP
type: boolean
class: ABC
super-class: ASSEMBLY
variables:
variable: Type
domain: {"ABC"}
les
Est composé
de
Protéine
Système_intégré
Type
nbPartenaire
proteineAffine
Transporteur_ABC
Systeme
d’import
class: ImportABC
super-class: ABC
variables:
variable: SBP
domain: {true}
Réalise
Fonction
ABC
Réalise
Transport
Systeme
d’export
instance : BSUBA01_OPUBA
is-a : Systeme Intégré
type = "ABC"
nbpartenaires = 4
SBP = true
 Base de connaissances : technique orientée instances
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Quelques notions…
Ontologie
• Technique de représentation issue de l’IA
 Obtention d’un consensus sur le sens des concepts employés dans une
communauté (définitions textuelle, synonymes…)
• Technique orientée classes et relations
• Utilisation
- modélisation d’une base de connaissances
- réalisation d’un système d’annotation
- réalisation d’un système d’indexation documentaire
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
système_intégré
Intégration automatique
Type
nbPartenaire
proteineAffineC
transporteur_ABC
systeme d’import
cellular component
systeme d’export
is_a
is_a
cell part
macromolecular
complex
is_a
membrane part
is_a
is_a
protein complex
is_a
ATP-binding cassette (ABC)
transporter complex
ABCA7_HUMAN
ABCB8_HUMAN
ABCD2_HUMAN
…
A complex for the transport of metabolites into and out of the cell, typically
comprised of four domains; two membrane-associated domains and two
ATP-binding domains at the intracellular face of the membrane, that form a
central pore through the plasma membrane. Each of the four core domains
may be encoded as a separate polypeptide or the domains can be fused in
any one of a number of ways into multidomain polypeptides. In Bacteria
and Archaebacteria, ABC transporters also include substrate binding
proteins to bind substrate
external
to thede
cytoplasm
and deliver it- to
the
Audition
Maître
Conférences
Université
transporter.
Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Travaux de recherche
Trois axes complémentaires de recherche :
1. Représentation des connaissances biologiques
2. Exploitation des connaissances ontologiques
3. Intégration d’ontologies biomédicales
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « ISYMOD »
(thèse octobre 2000 – avril 2004)
1. Représentation des connaissances biologiques
Objectif : Élaboration d’une base de connaissances dédiées à la
représentation des systèmes intégrés bactériens
Originalité : représentation dans un même environnement des
connaissances sur les systèmes intégrés et des connaissances
méthodologiques permettant l’identification et la reconstruction de ces
systèmes à partir de génomes complètement séquencés
Méthode : utilisation du langage de représentation AROM (inria + lif)
+ extension du mécanisme de classification (version…)
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « ISYMOD »
chabalier et al., 2005 Bioinformatics
Prédiction
des partenaires
Entrée : Protéome
Sortie : Candidats
1;
21(7):1246-56.
Approche par motifs
Entrée : Motifs
Données externes
Approche
par similitude
Base de connaissances
méthodologiques
Exploitation
Identification
Base de connaissances
de domaine
Classification
100 génomes procaryotes traités
13641 partenaires protéiques
5328 transporteurs ABC reconstruits
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « Analyse transversale »
(postdoc 2004 – 2006)
2. Exploitation des connaissances ontologiques
Objectif : Interprétation des données d’expression par l’exploitation des
connaissances structurées au sein d’une ontologie
Originalité : utilisation des connaissances structurées dès le début de
l’interprétation des données (avant le clustering)
Méthode : construction de réseaux de protéines par comparaison des
termes de Gene Ontology (GO) - association de ces réseaux aux
données d’expression
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
réprimé
Amine
metabolism
Ion
transport
Defense
response
Cell ion
homeostasis
ATP7B
0
1
0
0
SLC26A3
0
1
0
0
SLC11A2
0
1
0
0
TF
0
1
0
1
surexprimés
sim(SLC11A2-TF) = 0,66
Profil biologique
Ion transport
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
• Activation d’une voie de biosynthèse du précurseur de la créatine
• Répression de la biosynthèse de polyamine
 Rôle potentiel de détoxification de l’entérocyte
chabalier et al. BMC Bioinformatic, 8:235
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « Biomed » (postdoc 2006 – 2008)
3. Intégration d’ontologies biomédicales
Objectif : Associer les maladies et les voies métaboliques
Originalité : Intégration des ontologies médicales et biologiques
Méthode :
mise en correspondance les termes de 3 ontologies : Gene ontology - Kegg Snomed CT
• comparaison lexicale
• comparaison des gènes
impliqués dans une maladie
et une voie métabolique
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
KO: Human diseases
SN: Disorder of brain
KO: Neurodegenerative disorders
SN: Organic mental
disorder
KO: Alzheimer's disease
SN: Dementia
SN: Alzheimer's disease
GO: cell cycle
APP
BACE1
BACE2
PSEN1
PSEN2
…
GO: cell-cell
signaling
GO: Transport
chabalier et al.
Stud Health Technol Inform. 129:791-5.
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet - Recherche
Représentation et classification automatique des systèmes intégrés
bactériens en fonction de différents points de vue
Actuellement: classification des transporteurs ABC en fonction de la
présence ou non de la protéine affine
 automatisé dans ISYMOD
Les partenaires des transporteurs évoluent de façon concertées
Les familles de transporteurs correspondent à de grandes familles de
substrats
 pas indépendant : les transporteurs d’une même classe de substrat
ont une origine commune
Classer les transporteurs en fonction d’un point de vue évolutif
Classer les transporteurs en fonction d’un point de vue fonctionnel
Combiner les résultats pour valider les classifications
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Cours terme
Chebi Classification des petites molécules
Le point de vue fonctionnel
natural product
système_intégré
Type
nbPartenaire
proteineAffineC
transporteur_ABC
systeme d’import
carbohydrate
lipid
monosaccharide
systeme d’export
aldose
ABC 2
ABC 3
oligosaccharide
pentose
disaccharide
ABC 4
aldopentose
glycosylglucose
ABC 1
ribose
maltose
lactose
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Long terme - le point de vue évolutif
Pas d’ontologie sur les paralogues
 Etudier la représentation des classes de paralogues sous forme d’ontologies
- ontologie basée sur un arbre phylogénétique?
- ontologie de séquences?
 Organiser automatiquement les transporteurs ABC en fonction de ces classes
Comparer automatiquement les points de vue
 Utilisation des mécanismes de raisonnement de l’intelligence artificielle
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet - Enseignements
 Bioinformatique
 Concepts mis en œuvre dans les méthodes bioinformatiques
• Alignement de séquences
• Analyse de génomes
• Phylogénie
• Prédiction fonctionnelle
 Grandes banques de données biologiques
 Bio-ontologies – représentation des connaissances biologiques
 Informatique
 Initiation à l’informatique
 Bureautique
 Bases de données
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Travaux de recherche : problématique biologique
Etude des modèles biologiques complexes nécessite :
- Description des entités biologiques impliquées
- Description des relations qu’entretiennent ces entités
 Ces modèles biologiques sont généralement proposés par comparaison avec
des modèles connus
Limitation :
Les sources de connaissances sont de plus en plus nombreuses, hétérogènes
et distribuées
 comparaison des connaissances est une tâche complexe (beaucoup de
connaissances) et difficile (modèles riches)
Besoin :
- Représenter les connaissances biologiques de façon précise et non ambigüe
- Automatiser la génération de nouvelles connaissances
Genbank
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche 2004
 Laboratoire de Chimie Bactérienne (LCB)
Laboratoire d’Informatique Fondamentale (LIF)
 Problématique biologique
 Étude des relations fonctionnelles entre les partenaires des
systèmes intégrés bactériens
• Un système intégré est un ensemble de protéines nécessaires à la
réalisation d’une fonction biologique
• Système modèle : transporteur ABC
 Élaboration d’une stratégie d’analyse des systèmes
• Prédiction des partenaires protéiques
• Reconstruction des systèmes fonctionnels
 Automatisation de la stratégie d’analyse
• Gestion automatique de la cohérence des connaissances biologiques
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – La stratégie d’analyse
 Stratégie d’analyse des transporteurs ABC
Protéome
SBP
Membrane
cytoplasmique
MSD
MSD
NBD
NBD
Cytoplasme
Eucaryotes : 1 système = 1 protéine
Procaryotes : 1 système = 1 assemblage
Identification des
domaines fonctionnels
Reconstruction des
systèmes fonctionnels
• Motifs
• Similarité
• Proximité
chromosomique
• Compatibilité des
sous-familles
Transporteurs ABC
Computers & Chemistry, 2002
 Toutes les étapes de la stratégie nécessitent une communication étroite
entre les méthodes d’analyse et une base de données
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Automatisation de la stratégie
Besoin :
 Automatisation de la stratégie
• Gestion de la cohérence des connaissances biologiques
• Contrôle du flux de données entre les méthodes
• Gestion des échanges entre les méthodes et la base de données
Solution :
 Développement de l’entrepôt de connaissances ISYMOD
Données externes
Base de connaissances
méthodologiques
Exploitation
Identification
Base de connaissances Classification
de de
domaine
Audition Maître
Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Modélisation du domaine
Structure de modélisation du domaine
Système
Intégré
typ:string
nbPart:integer
Système à deux
composants
stimulus:string
ISYMOD - domaine
Protéine
nom:string
Ident:string
Long: integer
Est composé de
début:integer
fin:integer
Familledom:string
Transporteur
ABC
transport:string
Domaine
type:string
nbTM:integer
• Entités biologiques : classes/sous-classes
• Relations entre entités : associations/sousassociations
• Propriétés : variables de classes/d’associations
36 Classes – 21 associations
• Systèmes intégrés
• Données brutes
• Résultats des méthodes
IEEE Intelligent Systems, 2002
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Modélisation des tâches
Structure de modélisation des tâches
ISYMOD - tâches
Prédiction
des partenaires
Entrée : Protéome
Sortie : Candidats
Approche par motifs
Entrée : Motifs
Approche
par similitude
• Relation de spécialisation
• Relation de composition
• Résolution des tâches élémentaires par des
méthodes
• Entrées/sorties = instances du domaine
Classification automatique des
connaissances
RSTI série l’Objet, 2003
36 tâches – 16 méthodes de résolution
100 génomes procaryotes traités
• 13641 partenaires protéiques
• 5328 transporteurs ABC reconstruits
Bioinformatics, 2005
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche 2007
 Université de Rennes 1
Équipe d’Accueil Modélisation Conceptuelles des Connaissances
Biomédicales (EA MCCB)
Étude des relations fonctionnelles entre produits de gènes
Étude des relations maladies – voies métaboliques
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Analyse transversale
 Problématique biologique
 Étude des relations fonctionnelles entre produits de gènes
 Hypothèses :
• les gènes d’un groupe d’expression partagent des fonctions
communes
• plusieurs fonctions sont impliquées dans un processus biologique
 Différences d’expression au sein d’un même processus biologique
 Prédiction de réseaux fonctionnels de produits de gènes à partir de
l’ensemble des gènes déposés sur une puce
 Visualisation combinée réseaux-données d’expression
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Prédiction des réseaux
 Calcul de la similarité sémantique des produits de gènes
 Comparaison des termes de Gene Ontology (processus biologiques)
 Méthode des modèles d’espace vectoriel
• Un gène = un vecteur de termes GO
• Pondération en fonction de la représentativité de l’annotation
• Produit normalisé des vecteurs
 Matrice de similarité sémantique
ATP7B
SLC26A3
SLC11A2
TF
ATP7B
SLC26A3
SLC11A2
TF
1,00
1,00
1,00
0,66
1,00
1,00
0,66
1,00
0,66
1,00
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Visualisation
 Visualisation des réseaux
 Relations entre produits de gènes lorsque score de similarité > seuil
 Association avec données d’expression
Groupe d’expression
Matrice de similarité
ATP7B
SLC26A3
SLC11A2
TF
ATP7B
SLC26A3
SLC11A2
TF
1,00
1,00
1,00
0,66
1,00
1,00
0,66
1,00
0,66
1,00
-
+
=
ATP7B
SLC26A3
SLC11A2
TF
Profil biologique
Ion transport
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Résultats
 Application sur des gènes impliqués dans la différenciation
entérocytaire (186 gènes )
 18 réseaux de produits de gènes (2 à 12 produits de gènes)
 Mise en évidence de nouvelles pistes de recherche
Exemple : Métabolisme des amines
Processus de détoxification
• Connu pour le rein
• Non décrit pour l’entérocyte
Proceedings of the Workshop on Biomedical Ontologies and Text Processing - ECCB'2005
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Caractérisation des maladies
 Problématique biomédicale
 Étude des relations entre maladies et voies métaboliques
• Organisation actuelle des maladies  signes cliniques, causes, entités
anatomiques
• Exemple : ontologie SNOMED CT
• Besoins de caractériser les maladies
• Associations classes de maladies – classes de gènes
• Associations maladies – voies métaboliques/ processus biologiques
Ontologie de maladies
 Intégration d’ontologies médicales et biologiques
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Intégration d’ontologies
 Méthodologie d’intégration
 Choix des sources
• SNOMED – CT
• KEGG Orthology
• Gene Ontology
 Formalisation des sources
• langage OWL
 Intégration
• Mise en correspondance (Mapping)
• Alignement
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Recherche – Résultats
 Application à 3 maladies : Gliome – Alzheimer - Leucémie
• Visualisation avec l’éditeur « Protégé »
• Exemples de requêtes : processus communs à 2 maladies
 Maladies neurologiques (Gliome-Alzheimer) : 8 processus (86 avec les
parents)
 Cancers (Gliome – Leucémie) : 44 processus (165 avec les parents)
Proceedings of Medinfo 2007
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet – Recherche
 Équipe IMGT – laboratoire IGH
 Projet IMGT
• Collection de bases de données biologiques
- Immunoglobulines/Récepteurs cellule T/Complexes d’histocompatibilité
• Ensemble d’outils bioinformatiques
- Analyse de séquences/Analyse de génomes/Analyse de structure 3D
Quantité importante de données hétérogènes (≠ syntaxe/sémantique)
 Besoins
• Gestion de la cohérence des connaissances et de l’interopérabilité des
outils développés
 Projet
• Modélisation formelle des connaissances biomédicales
- Modélisation du domaine
- Modélisation des tâches
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet – Recherche : approches proposées
 IMGT domaine
 Modélisation en OWL des connaissances
• Basée sur IMGT-ONTOLOGY (XML syntaxe)
• Mécanisme de classification : cohérence des connaissances
• Requêtes spécifiques
 IMGT tâches
 Modélisation en OWL des services Web
• Basée sur IMGT-CHOREOGRAPHY
• Enrichissement de l’ontologie OWL-S
• Enchaînement automatique des services Web
 Proposition de stratégies d’analyse cohérentes:
 Incorporation de méthodes propres à IMGT + services proposés
sur le Web
 Inférence automatique de nouvelles connaissances
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Projet « ISYMOD »
Prédiction
des partenaires
Entrée : Protéome
Sortie : Candidats
Approche par motifs
Entrée : Motifs
Approche
par similitude
Classification automatique des connaissances
Base de connaissances de domaine
36 Classes – 21 associations
• Systèmes intégrés
• Données brutes
• Résultats des méthodes
Base de connaissances méthodologique
36 tâches – 16 méthodes de résolution
100 génomes procaryotes traités
• 13641 partenaires protéiques
• 5328 transporteurs ABC reconstruits
chabalier et al., 2005 Bioinformatics
1; 21(7):1246-56.
Audition Maître de Conférences - Université Paul Sabatier, Toulouse III - Lundi 19 mai 2008
Téléchargement