Evolution des génomes de vertébrés

publicité
Evolution des génomes de vertébrés
Hugues Roest Crollius
Groupe Dyogen - CNRS
Ecole Normale Supérieure
Ecole d’Eté de Lumigny
07 Septembre 2007
« Nothing makes sense in biology except in the light of evolution »
(Theodosius Dobzhansky)
Les processus biologiques que nous observons sont le produit de
l’évolution.
L’évolution est gouvernée par quatre forces:
non adaptatif
adaptatif
•Les mutations
•La recombinaison
•La dérive génétique
•La sélection naturelle
Substitutions
Insertions
Délétions
Réarrangements chromosomiques
1.
2.
3.
4.
5.
PLAN
6.
7.
8.
La «!paléogénomique?!»
Classification des vertébrés
Mécanismes gouvernant l’évolution des chromosomes
Les techniques d’observation
a. Cytogénétique
b. Génomique comparative
Les méthodes de reconstruction
a. La parcimonie en cytogénétique
b. E-painting
c. Des algorithmes
i. The reversal sorting problem
ii. MGR
d. Duplications complètes de génomes
Quelques résultats:
a. l’ancêtre des mammifères placentaires
b. l’ancêtre des poissons
Implications non-intuitives lors d’une reconstruction
Conclusions
La Paléogénomique
-Séquençage et l’analyse d’ADN ancien (Mammouth, Homme de
Neandertal, etc…).
- extraction d’ADN à partir de tissus preservés
- forte dégradation par oxydation
- limite temporelle (< ~1 million d’années)
-Etude des génomes ancestraux sur la base de reconstructions à partir
des génomes contemporains
- passe nécessairement par un processus d’abstraction
- les résultats resteront des conjectures basées sur les données disponibles
- selon le niveau de résolution visé, limite temporelle > 500 millions d’années
La Paléogénomique
Requin
Chondrichthyes
Tetraodon
Tetraodontidae
Fugu
Percomorpha
Actinopterigii
Teleostei
Euteleostei
actinopterygii
Epinoche
?
Medaka
Poisson zèbre
Otocephala
Crapaud
Osteichthyes
Poule
?
Sarcopterigii
Tetrapoda
Ornithorynque
Prototheria
Amniota
Mammalia
Opossum
Metatheria
?
Tatou
Xenarthra
Tenrec
Theria
Elephant
Hérisson
Insectivora
Eutheria
Vache
Chien
Carnivora
Boreoeutheria
Macaque
?
Catarrhini
Humain
Chimpanze
Lapin
Rat
Souris
Lagomorpha
Rodentia
Murinae
450
400
350
300
250
200
Millions d’années
150
sarcopterygii
100
50
0
Les processus biologiques que nous observons sont le produit de l’évolution.
Problème: nous n’étudions que des processus contemporains.
Prototheria
Ornithorynque
Metatheria
Mammalia
Xenarthra
Opossum
Tatou
Tenrec
Theria
Eléphant
Insectivora
Eutheria
Hérisson
Vache
Carnivora
Chien
Macaque
Boreoeutheria
Catarrhini
Humain
Chimpanzé
Rodentia
Lagomorpha
Murinae
Lapin
Rat
Souris
La classification des vertébrés
Requin
Chondrichthyes
Tetraodon
Tetraodontidae
Fugu
Percomorpha
Actinopterigii
Teleostei
Epinoche
Euteleostei
actinopterygii
Medaka
Poisson zèbre
Otocephala
Crapaud
Osteichthyes
Poule
Sarcopterigii
Tetrapoda
Ornithorynque
Prototheria
Amniota
Opossum
Metatheria
Mammalia
Tatou
Xenarthra
Tenrec
Theria
Elephant
Hérisson
Insectivora
Eutheria
Vache
Chien
Carnivora
Boreoeutheria
Rodentia
Macaque
Catarrhini
Humain
Chimpanze
Lapin
Rat
Souris
Lagomorpha
Murinae
450
400
350
300
250
200
Millions d’années
150
100
50
L’évolution des chromosomes: mécanismes
Les génomes évoluent selon un nombre réduit de mécanismes:
- substitutions nucléotidiques
- Inversions
- insertions et délétions
- Translocations
- Transpositions
- Duplications
- Fusions et Fissions
0
sarcopterygii
Les techniques d’observation
La cytogénétique comparée
- comparer des préparations de chromosomes de 2 espèces
ou
- hybrider des chromosomes d’espèces différentes
La génomique
1) cartographier et/ou séquencer des génomes
2) comparer l’ordre des marqueurs sur les cartes/séquences
Chromosomes de tatou
Chromosomes de fourmilier
Prototheria
Metatheria
Xenarthra
Mammalia
Theria
Eutheria
Platypus
Opossum
Armadillo
Tenrec
Elephant
Hedgehog
Cow
Dog
Macaque
Human
Chimpanzee
Rabbit
Rat
Mouse
Svartman et al. 2006
Chromosomes de paresseux
(Choloepus hoffmanii)
Svartman et al. 2006
Prototheria
Metatheria
Xenarthra
Mammalia
Theria
Eutheria
Platypus
Opossum
Armadillo
Tenrec
Elephant
Hedgehog
Cow
Dog
Macaque
Human
Chimpanzee
Rabbit
Rat
Mouse
Ancêtre
Eutherien
HSA 3
HSA21
La Zoo-FISH
FISH = Fluorescent in situ Hybridisation
Avantages:
• Facilité d'échantillonnage des espèces
( > 80 espèces de mammifères comparées à Homo sapiens)
Limites:
• peu résolutives (5-10 Millions de bases)
• ne distinguent pas les réarrangements intrachromosomiques
• aléas expérimentaux
• couverture phylogénétique restreinte (< 100.106 années)
La génomique et la bioinformatique
Les métodes basées sur la séquence des génomes
Différents points d’entrée possibles:
• Les alignements de séquence
==> conservation de synténie
• Les gènes orthologues
==> conservation de synténie
• Les gènes paralogues
==> duplication de génomes
Espèce ancestrale
speciation
orthologues
B
A
duplication
paralogues
B’
Espèce 1
Espèce 2
Reconstruction d’une séquence de 1,1 Mb de l’ancêtre des mammifères
au niveau du locus CFTR (Blanchette et al. 2004)
Figure: 144 bases non-codantes (transposon MER20)
1)
2)
Séquencage des régions orthologues au locus humain dans 19 espèces
de mammifères
Alignement multiple avec Threaded Block Aligner (TBA)
•
•
3)
Alignement local « deux à deux » puis « chaînage »
Projection sur la séquence humaine
Reconstruction des bases ancestrales à chaque position par maximum
de vraisemblance
•
•
Identification des régions de l’alignement existant chez l’ancêtre
Identification des bases ancestrales par maximum de vraisemblance
E-painting
Même principe général que la cytogénétique, mais les données sont issues du
séquençage des génomes
1) identifier des régions de synténie conservée entre plusieurs génomes à l’aide de
marqueurs (généralement des gènes). Ne tient pas compte de l’ordre des marqueurs.
2) Identifier les chromosomes apparentés
3) A partir de la relation phylogénétique entre les espèces, déduire la composition
ancestrale selon un raisonnement parcimonieux.
Pufferfish
TET
Chicken
Human
EUT
Kohn et al. Trends in Genetics 2006
Les algorithmes et les données de séquences de génomes
1)
« The reverseal sorting problem » et la notion de distance
Soit deux génomes représentés par des symboles ordonnés et orientés.
123456789
1 2 3 -7 5 6 -4 8 9
G1
G2
On définit les « points de cassures » (breakpoints) entre les suites identiques
123456789
1 2 3 -7 5 6 -4 8 9
G1
G2
Distance = nombre de réarrangements pour transformer G1 en G2.
123456789
G1
1 2 3 -7 -6 -5 -4 8 9
1 2 3 -7 -6 -5 -4 8 9
1 2 -7 5 6 -4 8 9
G2
Les algorithmes et les données de séquences de génomes
2) MGR (Multiple Genome Rearrangements)
A
?
123456789
1 2 3 -7 5 6 -4 8 9
G1
G2
L’ancêtre de G1 et G2 se trouve idéalement quelque part sur le chemin menant de
G1 à G2 (ou vice versa)
Ajout d’un troisième génome, qui a divergé avant l’ancêtre visé
A
Progression par étapes vers un état
« à l’équilibre »
Bourque & Pevzner (2002)
G1
G2
G0
La Paléogénomique
Requin
Chondrichthyes
Tetraodon
Tetraodontidae
Fugu
Percomorpha
Actinopterigii
Teleostei
Epinoche
Euteleostei
actinopterygii
Medaka
Poisson zèbre
Otocephala
Crapaud
Osteichthyes
Poule
Sarcopterigii
Tetrapoda
Ornithorynque
Prototheria
Amniota
Opossum
Metatheria
Mammalia
Tatou
Xenarthra
Tenrec
Theria
Elephant
Hérisson
Insectivora
Eutheria
Vache
Chien
Carnivora
Boreoeutheria
Rodentia
Macaque
Catarrhini
Humain
Chimpanze
Lapin
Rat
Souris
Lagomorpha
Murinae
450
400
350
300
250
200
Millions d’années
150
100
50
0
sarcopterygii
La duplication complète d’un génome: tetraploïdie
• Une puissante source d’innovation fonctionelle
(voies métaboliques entières)
• Comment évoluent les gènes dupliqués
(redondance) ?
• Comment la duplication se propage-t-elle dans
une population ?
• Comment réagit la cellule (cycle, regulation,
nutriments)?
Ancêtre commun
duplication
diploidisation
Homo sapiens
Tetraodon nigroviridis
Génome
ancestral
Duplication
Délétions
Réarrangements
intra-chromosomiques
Fusions et
cassures
Temps (dizaines de millions d’années)
Duplication complète du génome
Duplication
Diploïdisation
Translocations
Génome Tetraodon:
syntenie avec le génome Humain
Génome humain:
syntenie avec le génome Tetraodon
Un cas simple : pas de rearrangements inter-chromosomiques après la duplication
Génome ancestral
Homo sapiens
Tetraodon nigroviridis
Distribution de 6884 orthologues dans leurs génomes respectifs
2
22
0
Chromosomes Humain
X
22
21
20
19
18
17
X
21
19
18
17
16
15
14
13
12
16
15
14
13
12
11
11
10
9
8
7
6
5
4
10
9
8
7
6
5
4
3
3
2
2
1
1
2
3
4 5 6
7
8
1
9
10
11
12
9 1
Chromosomes
Tetraodon
1
Tetraodon
chromosomes
13
15
14
17
16
19 21
18 20
Cas 2) : Fusion récente entre deux chromosomes
Génome ancestral
Homo sapiens
Tetraodon nigroviridis
Chromosomes Humain
X
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1
2
3
4 5 6
7
8
10 11
79 1
15
12
Chromosomes Tetraodon
13
15
14
17
16
19 21
18
20
Cas 3) : Fusion ancienne entre deux chromosomes
Génome ancestral
Homo sapiens
Tetraodon nigroviridis
Chromosomes Humain
X
22
21
20
19
18
17
16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1
2
3
4 5 6
7
8
9
10
11
12
Chromosomes Tetraodon
13
15
14
17
16
19 21
18 20
5
13 19
Quelques résultats
-L’ancêtre des mammifères placentaires : les boreoeutheriens
(~100 millions d’années)
- l’ancêtre des poissons téléostéens: ~300 million d’années
Cytogénétique versus bioinformatique
Modèle « cytogénétique »
2n=46
Modèle MGR
2n=48
9 différences importantes, représentant 50% des associations de
chromosomes humains
(Robinson et al. 2006)
Quelques situations non-intuitives (1)
Deux gènes (ou segments de
génomes) peuvent se retrouver sur le
même chromosome ancestral, mais ne
jamais avoir été vus sur le même
chromosome contemporain
a
b
Raison: propriété de transitivité de la
conservation de synténie
a
b
S1
S2
S3
OG
Quelques situations non-intuitives (2)
Les génomes ancestraux les plus
« récents » ne sont pas
nécessairement les plus faciles à
reconstruire.
2
Raison: la facilité de reconstruction
dépend surtout de la quantité
d’information disponible
A
3
3
6
B
1
S1
S2
S3
S4
A:
(3x3) + (3x2) + (3x2) = 21
!
B:
(1x1) + (1x6) + (1x6) = 13
"
1
S5
S6
S7
S8
Quelques situations non-intuitives (3)
Les topologies d’arbre phylogénétique
« en étoile » sont plus intéressantes.
A
S1
S2
S3
A
S4
"
S5
S6
S7
S8
S1
S2
S3
S4
S5
!
Objectif: maximiser les branches de l’arbre où les espèces ont évolué
de manière indépendante. Les branches partagées par deux espèces
sont des zones non informatives de l’arbre.
S6
S7
S8
Conclusions : Ou allons nous ?
Séquencer le génome humain a coûté 2,7
milliard de dollars sur 13 ans
Aujourd!hui, séquencer et assembler un
génome de mammifère coûte entre 5 et 25
millions de dollars, selon la couverture en
séquence (2X à 8 X)
Le gouvernement US finance activement le développement de nouvelles
technologies pour amener ce coût à 1000 $ (32 millions de $ en 2005,
distribués par le NHGRI)
Des technologies viables ont déjà vu le jour
- MSSP de Lynx (USA)
- 454 Life Science (USA)
- Harvard Medical School (USA)
- Solexa (Cambridge, G-B)
2008
2007
2006
C. familiaris
2005
R. norvegicus T. nigroviridis G. gallus
2004
P. troglodytes
2003
T. rubripes M. musculus
2002
H. sapiens
2001
A. taliana D. melanogaster
2000
1999
C. elegans
1998
1997
S. cerevisiae
1996
H. influenzae
1995
100 gigabases
Genome sequencing in microfabricated highdensity picolitre reactors
Margulies et al. Nature (2005) 437, 376-380
Genome sequencing in microfabricated high-density
picolitre reactors
Margulies et al. Nature (2005) 437, 376-380
Une «!lecture!» de 113 bases de Mycoplasma genitalium
Séquençage par synthèse (SBS)
On pourra….
Séquencer son génome
Séquencer les virus d"un organisme malade
Séquencer les génomes de différents type de cellules
Séquencer les génomes d"une population
Téléchargement