Évolution des génomes et grands réseaux biologiques

publicité
Séminaire du FIP
mardi 14 février
Évolution des génomes et grands
réseaux biologiques
par Hervé Isambert (Institut Curie, RNA dynamics and biomolecular systems lab)
Sandrine Morlot et Hai Son Nguyen
Introduction
Les organismes vivants présentent une diversité exceptionnelle comme en témoigne « l'arbre de la vie »,
cependant les gènes sont en nombre limité et sont assez semblables chez tous les organismes. Le but de cet
exposé sera de répondre à cet apparent paradoxe.
Tree of life (from http://tolweb.org/tree/)
I Quelques résultats sur l'évolution des génomes
1. ce qui était connu avant la technique du séquencage
Les génomes ont des tailles très différentes selon les espèces. Ils peuvent aller de 106 à 1011 nombres de
nucléotides, soit cinq décades (huit si on prend en compte les virus).
De plus au sein d'une même famille, la répartition des tailles des génomes peut être particulière. Par
exemple pour la famille des herbes les génomes sont répartis en pics croissants en puissance de deux en
fonction du nombre de nucléotides.
2. la technique du séquencage (whole genom shotgun)
Le principe est de découper en petits morceaux le génome de diverses manières. On séquence ensuite
quelques fragments choisis aléatoirement puis on reconstitue le génome par recouvrement.
Schéma de la technique de séquencage par shotgun
3. ce que le séquencage nous a appris
Etonnament, les organismes ont assez peu
de gènes:
•
•
•
•
•
6000 gènes pour la levure du
boulanger
19000 gènes pour le ver
13000 gènes pour la mouche
20000 à 23000 gènes pour le coq
20000 à 25000 gènes pour l'homme
Il y a cependant quelques exceptions:
•
le blé possède 75000 gènes mais en
réalité le blé est une assemblage
artificiel créée par l'homme de trois
génomes différents
•
la paramécie (organisme unicellulaire)
comporte 39000 gènes.
De surcroît tous les gènes sont à peu près les mêmes. Ils se ressemblent beaucoup d'un espèce à l'autre.
II Les réseaux IPP ( interactions protéine/protéine)
Comment comprendre les différences entre espèces si elles ont peu de gènes tous semblables?
1. Qu'est-ce qu'un réseau IPP?
En réalité les gènes s'expriment de manière conbinatoire. L'interaction de plusieurs gènes est nécessaire
pour l'expression d'une fonction donnée.
On trace alors des réseaux biologiques indiquant toutes les interactions de paires de protéines.
On représente une protéine par un noeud du réseau et une interaction par un lien entre deux noeuds du
réseau.
Ex:
réseau interaction protéine/protéine
On note N le nombre de noeuds du réseau, L le nombre de liens; Nk le nombre de noeuds avec k voisins,
pk=Nk/N le degré de distribution. On peut calculer <k> le nombre moyen de liens par noeud. On peut
également trouver des propriétés du génomes en traçant par exemple pk en fonction de k.
2. Duplication totale du génome
Plusieurs phénomènes biologiques interviennent dans l'évolution des gènes: l'inversion, la duplication d'un
gène, la transposition, le transfert horizontal de gènes et la duplication totale du génome. Nous allons nous
intéresser plus particulièrement à ce dernier processus car il s'est produit massivement chez les organismes
eucaryotes.
Le processus de duplication totale a été prouvé en 2004 par l'équipe de Kellis sur le génome de la levure
de boulanger en le comparant avec un autre génome contemporain ayant un ancêtre commun.
Le processus consiste en la duplication totale du génome ancêtre. Puis certains gènes sont effacés peu à
peu de manière à ce que finalement il n'y ait pas beaucoup de gènes doubles.
La comparaison avec le génome d'une espèce ayant le même ancêtre et n'ayant pas subi la duplication
totale donne le même effet que comparer un jeu de carte mélangé une seule fois avec le jeu initial.
3)Conséquence de la duplication totale sur les réseaux IPP
on duplique
Le nombre de noeuds est multiplié par 2 et le nombre de liens par 4. On note γ la probabilité de conserver
le lien due à la perte de certaines protéines au cours de l'évolution du génome. Il y a trois types de liens :
interaction entre anciennes protéines, interaction entre nouvelles protéines et interactions entre une
ancienne protéine et une nouvelle. Il y a donc trois types de γ que l'on note : γa (lien ancien), γn (lien
nouveau), γc (lien croisé). On nomme δ le nombre 1- γ
Puis on itère les duplications.
Soient la fonction génératrice: F ( x) = ∑ N k x k et le rapport p ( x) =
F ( x)
N
Par récurrence F ( n +1) ( x) = F ( n ) ( (δ a + γ a x)(δ c + γ c x) ) + F ( n ) ( (δ n + γ n x)(δ a + γ a x) )
Si on choisit un modèle asymétrique dans la conservation des protéines,on remarque alors que p(x) suit
une loi de puissance ce qui a été vérifié expérimentalement.
En revanche si on choisit un modèle symétrique, p(x) suit un loi exponentielle ce qui est impossible en
pratique.
Le modèle asymétrique est correcte car il conserve la topologie du réseau initial.
En traçant le graphe de la divergence asymétrique (γ a − γ n ) en fonction du taux de croissance
(γ a + γ c + 2γ n ) on observe un zone stationnaire pour un taux de croissance inférieur à 2.
III Quelques mots sur l'évolution des génomes des cellules procaryotes
L'évolution des génomes des cellules procaryotes est moins bien connue.
Cependant on sait que le phénomène de transfert horizontal de gènes est assez courant.
Les bactéries sont capables d'assimiler dans son génome des gènes d'une autre espèce.
De plus les bactéries dont le génome est circulaire se répliquent sans cesse très rapidement si bien que le
point origine de réplication est en général double.
Il se produit alors un phénomène de symétrisation du génome. C'est pourquoi lorsqu'on compare deux
bactéries proches on obtient :
On n'observe pas de duplication massive chez les bactéries.
Cependant on connaît un exemple de duplication chez la bactérie coli.
Si on compare son génome avec celui d'une bactérie qui a combiné son propre génome à celui du puceron
on observe:
On en conclut que coli a subi lors de l'évolution de son génome une duplication totale.
Téléchargement