Télécharger le texte intégral

publicité
ÉCOLE NATIONALE VÉTÉRINAIRE D’ALFORT
Année 2013
LE SÉQUENÇAGE HAUT DÉBIT :
PRINCIPE ET APPLICATIONS EN VIROLOGIE
THÈSE
Pour le
DOCTORAT VÉTÉRINAIRE
Présentée et soutenue publiquement devant
LA FACULTÉ DE MÉDECINE DE CRÉTEIL
le……………
par
Anne-Sophie RAOUS
Née le 21 Décembre 1987 Marseille (Bouches-du-Rhône)
JURY
Président : Pr.
Professeur à la Faculté de Médecine de CRÉTEIL
Membres
Directeur : Dr Sophie LE PODER
Maître de conférences à l’École Nationale Vétérinaire d’Alfort
Assesseur : Pr Nadia HADDAD- HOANG XUAN
Professeur à l’École Nationale Vétérinaire d’Alfort
LISTE DES MEMBRES DU CORPS ENSEIGNANT
Directeur : M. le Professeur GOGNY Marc
Directeurs honoraires : MM. les Professeurs : COTARD Jean-Pierre, MORAILLON Robert, PARODI André-Laurent, PILET Charles, TOMA Bernard
Professeurs honoraires : Mme et MM. : BENET Jean-Jacques, BRUGERE Henri, BRUGERE-PICOUX Jeanne, BUSSIERAS Jean, CERF Olivier, CLERC
Bernard,
CRESPEAU François, DEPUTTE Bertrand, MOUTHON Gilbert, MILHAUD Guy, POUCHELON Jean-Louis, ROZIER Jacques
DEPARTEMENT D’ELEVAGE ET DE PATHOLOGIE DES EQUIDES ET DES CARNIVORES (DEPEC)
Chef du département : M. POLACK Bruno, Maître de conférences - Adjoint : M. BLOT Stéphane, Professeur
DISCIPLINE : NUTRITION-ALIMENTATION
- M. PARAGON Bernard, Professeur
UNITE DE CARDIOLOGIE
- Mme CHETBOUL Valérie, Professeur *
- Mme GKOUNI Vassiliki, Praticien hospitalier
DISCIPLINE : OPHTALMOLOGIE
- Mme CHAHORY Sabine, Maître de conférences
UNITE DE CLINIQUE EQUINE
- M. AUDIGIE Fabrice, Professeur
- M. DENOIX Jean-Marie, Professeur
- Mme DUMAS Isabelle, Maître de conférences contractuel
- Mme GIRAUDET Aude, Praticien hospitalier *
- M. LECHARTIER Antoine, Maître de conférences contractuel
- Mme MESPOULHES-RIVIERE Céline, Praticien hospitalier
- Mme TRACHSEL Dagmar, Maître de conférences contractuel
UNITE DE PARASITOLOGIE ET MALADIES PARASITAIRES
- M. BENSIGNOR Emmanuel, Professeur contractuel
- M. BLAGA Radu Gheorghe, Maître de conférences (rattaché au DPASP)
- M. CHERMETTE René, Professeur *
- M. GUILLOT Jacques, Professeur
- Mme MARIGNAC Geneviève, Maître de conférences
- M. POLACK Bruno, Maître de conférences
UNITE D’IMAGERIE MEDICALE
- Mme BEDU-LEPERLIER Anne-Sophie, Maître de conférences contractuel
- Mme STAMBOULI Fouzia, Praticien hospitalier
UNITE DE MEDECINE
- Mme BENCHEKROUN Ghita, Maître de conférences contractuel
- M. BLOT Stéphane, Professeur*
- Mme MAUREY-GUENEC Christelle, Maître de conférences
UNITE DE MEDECINE DE L’ELEVAGE ET DU SPORT
- Mme CLERO Delphine, Maître de conférences contractuel
- M. GRANDJEAN Dominique, Professeur *
- Mme YAGUIYAN-COLLIARD Laurence, Maître de conférences contractuel
UNITE DE PATHOLOGIE CHIRURGICALE
- M. FAYOLLE Pascal, Professeur
- M. MAILHAC Jean-Marie, Maître de conférences
- M. MOISSONNIER Pierre, Professeur*
- M. NIEBAUER Gert, Professeur contractuel
- Mme RAVARY-PLUMIOEN Bérangère, Maître de conférences (rattachée au
DPASP)
- Mme VIATEAU-DUVAL Véronique, Professeur
- M. ZILBERSTEIN Luca, Maître de conférences
DISCIPLINE : URGENCE SOINS INTENSIFS
- Vacant
DEPARTEMENT DES PRODUCTIONS ANIMALES ET DE LA SANTE PUBLIQUE (DPASP)
Chef du département : M. MILLEMANN Yves, Professeur - Adjoint : Mme DUFOUR Barbara, Professeur
UNITE D’HYGIENE ET INDUSTRIE DES ALIMENTS D’ORIGINE ANIMALE
- M. AUGUSTIN Jean-Christophe, Maître de conférences
UNITE DE REPRODUCTION ANIMALE
- M. BOLNOT François, Maître de conférences *
- Mme CONSTANT Fabienne, Maître de conférences
- M. CARLIER Vincent, Professeur
- M. DESBOIS Christophe, Maître de conférences (rattaché au DEPEC)
- Mme COLMIN Catherine, Maître de conférences
- M. FONTBONNE Alain, Maître de conférences (rattaché au DEPEC)
- Mme MASSE-MOREL Gaëlle, Maître de conférences contractuel
UNITE DES MALADIES CONTAGIEUSES
- M. MAUFFRE Vincent, Assistant d’enseignement et de recherche contractuel
- M. NUDELMANN Nicolas, Maître de conférences (rattaché au DEPEC)
- Mme DUFOUR Barbara, Professeur*
- M. REMY Dominique, Maître de conférences*
- Mme HADDAD/HOANG-XUAN Nadia, Professeur
- Mme PRAUD Anne, Maître de conférences
UNITE DE ZOOTECHNIE, ECONOMIE RURALE
- Mme RIVIERE Julie, Maître de conférences contractuel
- M. ARNE Pascal, Maître de conférences*
- M. BOSSE Philippe, Professeur
UNITE DE PATHOLOGIE MEDICALE DU BETAIL ET DES ANIMAUX DE
- M. COURREAU Jean-François, Professeur
BASSE-COUR
- M. ADJOU Karim, Maître de conférences *
- Mme GRIMARD-BALLIF Bénédicte, Professeur
- M. BELBIS Guillaume, Assistant d’enseignement et de recherche contractuel
- Mme LEROY-BARASSIN Isabelle, Maître de conférences
- M. PONTER Andrew, Professeur
- M. HESKIA Bernard, Professeur contractuel
- M. MILLEMANN Yves, Professeur
DEPARTEMENT DES SCIENCES BIOLOGIQUES ET PHARMACEUTIQUES (DSBP)
Chef du département : Mme COMBRISSON Hélène, Professeur - Adjoint : Mme LE PODER Sophie, Maître de conférences
UNITE D’HISTOLOGIE, ANATOMIE PATHOLOGIQUE
UNITE D’ANATOMIE DES ANIMAUX DOMESTIQUES
- M. CHATEAU Henry, Maître de conférences*
- Mme CORDONNIER-LEFORT Nathalie, Maître de conférences*
- Mme CREVIER-DENOIX Nathalie, Professeur
- M. FONTAINE Jean-Jacques, Professeur
- M. DEGUEURCE Christophe, Professeur
- Mme LALOY Eve, Maître de conférences contractuel
- M. REYES GOMEZ Edouard, Assistant d’enseignement et de recherche contractuel
- Mme ROBERT Céline, Maître de conférences
DISCIPLINE : ANGLAIS
- Mme CONAN Muriel, Professeur certifié
UNITE DE BIOCHIMIE
- M. BELLIER Sylvain, Maître de conférences*
- M. MICHAUX Jean-Michel, Maître de conférences
DISCIPLINE : BIOSTATISTIQUES
- M. DESQUILBET Loïc, Maître de conférences
DISCIPLINE : EDUCATION PHYSIQUE ET SPORTIVE
- M. PHILIPS Pascal, Professeur certifié
DISCIPLINE : ETHOLOGIE
- Mme GILBERT Caroline, Maître de conférences
UNITE DE GENETIQUE MEDICALE ET MOLECULAIRE
- Mme ABITBOL Marie, Maître de conférences
- M. PANTHIER Jean-Jacques, Professeur*
UNITE DE PATHOLOGIE GENERALE MICROBIOLOGIE,
IMMUNOLOGIE
- M. BOULOUIS Henri-Jean, Professeur
- Mme LE ROUX Delphine, Maître de conférences
- Mme QUINTIN-COLONNA Françoise, Professeur*
UNITE DE PHARMACIE ET TOXICOLOGIE
- Mme ENRIQUEZ Brigitte, Professeur
- M. PERROT Sébastien, Maître de conférences
- M. TISSIER Renaud, Maître de conférences*
UNITE DE PHYSIOLOGIE ET THERAPEUTIQUE
- Mme COMBRISSON Hélène, Professeur
- Mme PILOT-STORCK Fanny, Maître de conférences
- M. TIRET Laurent, Maître de conférences*
UNITE DE VIROLOGIE
- M. ELOIT Marc, Professeur
- Mme LE PODER Sophie, Maître de conférences *
* responsable d’unité
REMERCIEMENTS
Au Professeur de la faculté de Médecine de Créteil
Qui m’a fait l’honneur d’accepter la présidence de ce jury de thèse
Remerciements respectueux
A Mme Sophie LE PODER
Maître de conférences à l’Ecole Vétérinaire d’Alfort
Qui a accepté de diriger cette thèse,
Pour son aide et sa disponibilité,
Sincères remerciements
A Mme Nadia HADDAD- HOANG XUAN
Professeur à l’Ecole Nationale Vétérinaire d’Alfort
Qui a accepté d’être l’assesseur de cette thèse,
Pour ses conseils, et l’intérêt qu’elle a porté à mon travail,
Sincères remerciements
A ma Mère
Pour ton amour et tes encouragements,
qui m'ont permis de ne jamais abandonner et de réaliser mon rêve.
A mon Père
Pour ton soutien et ton aide tout au long de ces années d'étude.
A Ivan
Pour ta présence et ton amour,
toi qui a toujours su me soutenir dans les moments difficiles,
et qui as rendu ces cinq années à Paris plus facile.
A ma Mamie
Pour ton affection et tes conseils,
merci d'avoir toujours cru en moi.
A tout le reste de ma famille, mes grands-parents, mes oncles, mes cousins,
mes cousines,
Merci pour votre soutien durant mes années d'étude,
Merci pour tout.
A mon groupe de clinique A4 et A5: Elise, Lindsay, Lucie, Romain
Pour tous les moments que nous avons partagés durant ces années des plus
difficiles aux meilleurs,
en espérant pouvoir en partager encore tant d'autres.
TABLE DES MATIERES
LISTE DES FIGURES...............................................................................................................9
LISTE DES TABLEAUX........................................................................................................ 11
LISTE DES ABRÉVIATIONS ................................................................................................ 13
INTRODUCTION.................................................................................................................... 17
PREMIÈRE PARTIE:
LES TECHNIQUES DE SÉQUENÇAGE HAUT DÉBIT...................................................... 19
I. LES PRINCIPES GÉNÉRAUX DU SÉQUENÇAGE HAUT DÉBIT............................. 21
A. Les étapes communes du séquençage haut débit .......................................................... 21
1. Construction d'une banque d'ADN........................................................................... 21
2. Amplification des fragments d'ADN........................................................................ 21
3. Le séquençage .......................................................................................................... 22
B. Les avantages et les limites du séquençage haut débit ................................................. 23
1. Les apports du séquençage haut débit ...................................................................... 23
2. Les limites du séquençage haut débit ....................................................................... 23
II. DESCRIPTION DES SÉQUENCEURS HAUT DÉBIT................................................. 24
A. Le pyroséquencage 454 par Roche ............................................................................... 24
1. Principe du pyroséquencage 454.............................................................................. 24
a. Préparation d'une banque d'ADN ......................................................................... 24
b. Amplification clonale de l'ADN........................................................................... 25
c. Pyroséquençage sur plaque picotitrée................................................................... 25
2. Les avantages du pyroséquençage 454..................................................................... 26
3. Les limites du pyroséquençage 454 ......................................................................... 27
a. L'identification des régions homopolymères........................................................ 27
b. Les erreurs CArry Forward/ Incomplete Extension ............................................. 28
B. Le séquençage par terminateurs réversibles Illumina/ Solexa ...................................... 29
1. Principe du séquençage par terminateurs réversibles............................................... 29
a. Préparation d'une banque d'ADN ......................................................................... 29
b. Amplification clonale de l'ADN........................................................................... 29
c. Séquençage par terminateurs réversibles.............................................................. 29
2. Les avantages du séquençage par terminateurs réversibles...................................... 32
3. Les limites du séquençage par terminateurs réversibles .......................................... 32
1
a. La taille des séquences et la vitesse d'un cycle..................................................... 32
b. Les erreurs de séquençage localisées aux extrémités de lecture .......................... 32
c. Les erreurs de substitution.................................................................................... 33
C. Le séquençage par ligation SOLID (Sequencing by Oligonucleotide Ligation and
Detection) par BioSystem................................................................................................ 333
1. Principe du séquençage par ligation SOLID .......................................................... 333
a. Préparation d'une banque d'ADN ....................................................................... 333
b. Amplification clonale de l'ADN........................................................................... 34
c. Le séquençage par ligation ................................................................................... 34
2. Les avantages du séquençage par ligation SOLID................................................... 37
3. Les limites du séquençage par ligation SOLID........................................................ 37
D. Récapitulatif des principales caractéristiques des différents séquenceurs haut débit... 38
III. L’ANALYSE DES SÉQUENCES OBTENUES PAR SÉQUENÇAGE HAUT DÉBIT
............................................................................................................................................... 39
A. L'alignement des séquences .......................................................................................... 39
1. Alignement par table de hachage ............................................................................. 39
2. Alignement par la Transformée de Burrows-Wheeler ............................................. 40
B. L'assemblage des séquences génomiques ..................................................................... 41
1. Qu'est ce qu'un assembleur?..................................................................................... 41
2. Les difficultés de l'assemblage des données ............................................................ 42
3. Les techniques d'assemblage.................................................................................... 42
a. La méthode « overlap-layout-consensus » ........................................................... 42
b. La méthode du graphique « De Bruijn » .............................................................. 44
4. Le choix d'un assembleur ......................................................................................... 45
DEUXIÈME PARTIE:
APPLICATION DU SÉQUENÇAGE HAUT DÉBIT Á LA DECOUVERTE DE
NOUVEAUX VIRUS .............................................................................................................. 47
I. INTÉRÊT DU SÉQUENÇAGE HAUT DÉBIT DANS LA DÉCOUVERTE DE
NOUVEAUX VIRUS ........................................................................................................... 49
A. Approche métagénomique pour l'identification de nouveaux virus ............................. 49
1. Intérêt d'une approche métagénomique.................................................................... 49
2. Analyse des données obtenues par métagénomique ............................................... 50
a. L’assemblage des séquences ................................................................................ 50
b. La bio-analyse: l'exploitation des données........................................................... 51
B. Les différentes techniques d'identification de nouveaux virus ..................................... 51
1. L'évolution des techniques d'identification de nouveaux virus................................ 51
2. L'émergence du séquençage haut débit pour la découverte de nouveaux virus ....... 52
2
a. Apport du séquençage haut débit pour la découverte de nouveaux virus ............ 52
b. Analyse des données générées par le séquençage haut débit lors d’une approche
métagénomique ........................................................................................................ 52
c. Les critères de choix des séquenceurs haut débit pour la découverte de
nouveaux virus..........................................................................................................53
II. DÉCOUVERTE DE NOUVEAUX VIRUS CHEZ L’HOMME PAR SÉQUENÇAGE
HAUT DÉBIT....................................................................................................................... 54
A. Etude du virome humain par séquençage haut débit .................................................... 54
1. Virome de l’appareil respiratoire humain ................................................................ 54
2. Virome cutané humain ............................................................................................. 55
3. Virome digestif humain............................................................................................ 56
B. Découverte de nouvelles pathologies virales par séquençage haut débit ..................... 57
1. Mise en évidence par séquençage haut débit du virus Lujo ..................................... 57
2. Mise en évidence d’un nouvel Arénavirus par séquençage haut débit..................... 59
III. DÉCOUVERTE DE NOUVEAUX VIRUS CHEZ LES ANIMAUX PAR
SÉQUENÇAGE HAUT DÉBIT ........................................................................................... 60
A. Chez les carnivores domestiques .................................................................................. 60
1. Identification du Bocavirus Canin 3 ........................................................................ 60
2. Identification des Kobuvirus et Sapovirus Canin ..................................................... 61
3. Identification du virus de l’hépatite C canine .......................................................... 65
B. Chez les animaux de rente ............................................................................................ 66
1. Etude de viromes ...................................................................................................... 66
a. Virome digestif des porcs ..................................................................................... 66
b. Virome intestinal des volailles ............................................................................. 68
2. Découverte de nouveaux agents viraux pathogènes................................................ 69
a. Découverte d’un nouveau Picornavirus chez les dindonneaux atteints d'une
hépatite......................................................................................................................69
b. Mise évidence du Schmallenberg virus chez les bovins ...................................... 70
C. Chez la chauve-souris ................................................................................................... 72
1. Etude du virome digestif de la chauve-souris .......................................................... 72
2. Mise en évidence d'un nouveau Papillomavirus chez la chauve-souris................... 73
D. Etude du virome d'une colonie d'abeille présentant un syndrome d'effondrement des
colonies...............................................................................................................................73
3
TROISIÈME PARTIE :
APPLICATION DU SÉQUENÇAGE HAUT DÉBIT Á L’ÉTUDE DES QUASI-ESPÈCES
VIRALES ................................................................................................................................. 75
I. L'ÉTUDE DES QUASI-ESPÈCES VIRALES PAR SÉQUENÇAGE HAUT DÉBIT .... 77
A. Notion de quasi-espèces virales et intérêt en virologie ................................................ 77
1. Qu'est-ce qu'une quasi-espèce virale? ...................................................................... 77
a. Définition d'une quasi-espèce virale..................................................................... 77
b. Les mutations à l’origine d'une diversité virale ................................................... 78
2. L'intérêt des quasi-espèces virales en virologie ....................................................... 79
a. Les conséquences de la présence de quasi-espèces virales .................................. 79
b. L'intérêt des quasi-espèces virales en virologie: la notion de seuil d'erreur ........ 79
B. L'intérêt du séquençage haut débit dans l'étude des quasi-espèces virales ................... 80
1. Apports du séquençage haut débit dans l'étude des quasi-espèces virales ............... 80
2. Principe du séquençage haut débit d'une population virale...................................... 80
a. Préparation de l'échantillon .................................................................................. 80
b. L'analyse des données .......................................................................................... 81
II. EXEMPLES D'ÉTUDES DE QUASI-ESPÈCES VIRALES CHEZ L'HOMME PAR
SÉQUENÇAGE HAUT DÉBIT ........................................................................................... 85
A. Etude du Virus de l'Immunodéficience Humaine......................................................... 85
1. Le VIH: un virus d'une grande variabilité................................................................ 85
2. Etude de l’adaptation du VIH à la réponse immunitaire de l'hôte ........................... 85
3. Etude des variants minoritaires du VIH ................................................................... 86
a. Importance des variants minoritaires.................................................................... 86
b. Mise en évidence par pyroséquençage de variants minoritaires du VIH-1
résistants au traitement antiviral............................................................................... 87
c. Etude de l'évolution des variants viraux du VIH-1 au cours d'un traitement
antiviral..................................................................................................................... 87
B. Etude des quasi-espèces du virus de l'hépatite C humain ............................................. 88
1. Etude par séquençage haut débit des variants du VHC suite à un traitement à
l’interféron.................................................................................................................... 89
2. Etude par séquençage haut débit des variants du VHC résistants aux anti-viraux à
action directe ................................................................................................................ 89
a. Etude in vitro ........................................................................................................ 90
b. Etude in vivo......................................................................................................... 92
C. Etude des quasi espèces du virus Influenza A .............................................................. 95
III. EXEMPLES D'ÉTUDES DE QUASI-ESPÈCES VIRALES CHEZ LES ANIMAUX
PAR SÉQUENÇAGE HAUT DÉBIT .................................................................................. 96
A. Analyse du rôle des quasi-espèces virales dans la peste porcine.................................. 96
B. Etude de la transmission inter-espèce de l'hépatite E ................................................... 97
4
C. Etude de la variabilité du virus de la leucose chez le Lynx ibérique ............................ 98
QUATRIÈME PARTIE :
APPLICATION DU SÉQUENÇAGE HAUT DÉBIT Á L'ÉTUDE TRANSCRIPTOMIQUE
................................................................................................................................................ 101
I. ÉTUDE TRANSCRIPTOMIQUE ET INTÉRÊT EN VIROLOGIE .............................. 103
A. Principe d'une étude transcriptomique........................................................................ 103
1. Définition du transcriptome ................................................................................... 103
2. Les techniques utilisées lors d’une étude transcriptomique ................................... 103
B. Utilisation du séquençage haut débit pour une étude transcriptomique ..................... 104
1. Principe du séquençage haut débit au cours d'une étude transcriptomique........ 104
a. Préparation des échantillons ............................................................................... 104
b. Analyse des données .......................................................................................... 105
2. Comparaison des techniques de micropuces et de séquençage haut débit pour une
analyse transcriptomique............................................................................................ 105
II. EXEMPLES D'ÉTUDES TRANSCRIPTOMIQUES PAR SÉQUENÇAGE HAUT
DÉBIT LORS D’INFECTIONS VIRALES CHEZ L’HOMME........................................ 107
A. Première étude transcriptomique virale par séquençage haut débit............................ 107
B. Etude transcriptomique lors d’infection à Poxvirus par séquençage haut débit ......... 107
C. Etude transcriptomique des Herpesvirus par séquençage haut débit.......................... 110
1. Etude du transcriptome du Epstein-Barr virus ....................................................... 110
2. Etude du transcriptome du Cytomégalovirus ......................................................... 110
D. Etude des microARN par séquençage haut débit ....................................................... 111
1. Etude des microARN au cours de la phase de latence des Herpesvirus ................ 111
2. Etude des micro-ARN du Cytomégalovirus........................................................... 113
E. Etude des interactions transcriptomiques entre l'hôte et le virus ................................ 113
1. Etude des interactions entre le virus de l'hépatite C et la cellule hôte ................... 113
2. Etude des interactions entre l'Herpesvirus et la cellule hôte.................................. 114
III. EXEMPLES D'ETUDES TRANSCRIPTOMIQUES PAR SÉQUENÇAGE HAUT
DÉBIT CHEZ LES ANIMAUX ......................................................................................... 116
A. Analyse transcriptomique du FIV par séquençage haut débit .................................... 116
1. Principe de l'étude .................................................................................................. 116
2. Résultats de l'étude ................................................................................................. 116
B. Analyse transcriptomique de l'Adénovirus de la chauve-souris.................................. 118
1. Principe de l’étude.................................................................................................. 118
2. Résultats de l’étude ................................................................................................ 118
5
C. Analyse transcriptomique du virus dysgénésique et respiratoire porcin .................... 120
1. Principe de l'étude .................................................................................................. 120
2. Résultats de l'étude ................................................................................................. 120
D. Exemples d'étude de microARN d'Herpesvirus chez les animaux............................. 121
1. Etude des microARN de l'Herpesvirus aviaire....................................................... 121
2. Etude des mi ARN de l'entérite virale des canards ................................................ 122
3. Etude des miARN de l'Herpesvirus bovin 1........................................................... 122
CONCLUSION ET PERSPECTIVES ................................................................................... 125
BIBLIOGRAPHIE ................................................................................................................. 127
6
7
8
LISTE DES FIGURES
Figure n°1 : Les différentes étapes d'un séquençage haut débit, d’après VOELKERDING
et al., 2010
Figure n° 2 : Les différentes étapes du pyroséquençage 454, d’après MARGULIES et al.,
2005
Figure n°3 : Les différentes étapes du séquençage par terminateurs réversibles
Illumina/Solexa, d'après ILUMINA, 2013
Figure n°4 : Les différentes étapes du séquençage Solid par ligation, d’après METZKER,
2010
Figure n°5 : Système de lecture du séquençage de l'ADN par ligation SOLID, d’après
SCHLEBUSH et ILLING, 2012
Figure n°6 : Identification des SNP et des erreurs de séquençage lors de changement de
couleurs
Figure n°7 : Stratégie d'alignement basée sur des tables de hachage, d'après FLICEK et
BRINEY, 2009
Figure n°8 : Méthode d’alignement basée sur la transformée de Burrows- Wheeler,
d'après FLICEK et BRINEY, 2009
Figure n°9 : Assemblage par l’algorithme Overlap Layout Consensus, d’après
COMMINS et al., 2009
Figure n°10 : Représentation du graphe de Bruijn permettant l’assemblage génomique
de deux séquences
Figure n°11 : Schématisation des composants du virome humain, d'après WYLIE et al.,
2012
Figure n°12 : Proportion des virus présents dans les échantillons des voies respiratoire,
d’après LYSHOLM et al., 2012
Figure n°13 : Les analyses phylogénétiques du virus Lujo, d’après BRIESE et al., 2009
Figure n°14 : Arbre phylogénétique représentant le Bocavirus Canin 3 au sein de
l’espèce Bocavirus, d’après LI et al., 2013
Figure n°15 : Organisation du génome du Kobuvirus canin (a), et analyse phylogénétique
des Kobuvirus (b), d’après LI et al., 2011
Figure n°16 : Organisation du génome du Sapovirus canin (a), et analyse phylogénétique
des Sapovirus (b), d’après LI et al., 2011
9
Figure n°17 : Analyse phylogénétique représentant le CHV au sein des Flaviviridae,
d’après KAPOOR et al., 2011
Figure n°18 : Répartition des séquences d’acides nucléiques extraites de selles de porcs,
d’après SHAN et al., 2011
Figure n°19 : Relation phylogénétique entre le virus Schmallenberg et les virus du
sérogroupe des Orthobunyavirus: Simbu, Bunyamwera et en Californie, d'après
HOFFMAN et al., 2012
Figure n°20 : Représentation physique d’une quasi-espèce virale, d’après LAURING et
ANDINO, 2010
Figure n°21: Différentes approches pour l'identification des haplotypes issus d'un
séquençage haut débit, d'après BEERENWINKEL et al., 2012
Figure n°22 : Approche locale de l'estimation des haplotypes, d'après BEERENWINKEL
et al,. 2012
Figure n°23 : Approche globale de l'estimation des haplotypes, d'après BEERENWINKEL
et ZAGORDI, 2011
Figure n°24 : Fréquence des mutations des acides aminés en fonction de la concentration
en TMC380765, d'après VERBINNEN et al., 2010
Figure n°25 : Effet du télaprévir chez des souris infectées par un VHC sauvage et
mutant A156F, d'après HIRAGA et al., 2011
Figure n°26 : Effet du télaprévir chez des souris infectées par un VHC sauvage et
mutant A156S, d'après HIRAGA et al., 2011
Figure n°27 : Nombre de transcrits mis en évidence par séquençage haut débit et par la
technologie de puces à ADN, d'après MARIONI et al., 2008
Figure n°28 : Illustrations des différentes fonctions des gènes du VACV en fonction de
leur stade d’expression (précoce, intermédiaire, et tardif), d'après YANG et al., 2011b
Figure n°29 : Représentation de la localisation des miARN du HHV-1, d’après Umbach et
al., 2008
Figure n°30 : Niveaux d'expression des gènes viraux (gag, pol, orf, vif, env) de duplicats
d’échantillons biologiques infectés par deux souches de FIV (PET et GL8), par
séquençage haut débit (a) et par RT-qPCR (b), d’après ERTL et al., 2011
Figure n°31 : Comparaison des niveaux d'expression de plusieurs gènes de BtAdV mis
en évidence par RNA-Seq et qPCR, d’après WU et al., 2013
10
LISTE DES TABLEAUX
Tableau n°1 : Les principales sources d’erreurs du pyroséquençage 454, d’après HUSE et
al., 2007
Tableau n°2 : Comparaison des séquenceurs de nouvelle génération
Tableau n°3 : Virus mis en évidence par pyroséquençage dans les échantillons de selles
de chiens diarrhéiques, d’après Li et al., 2011
Tableau n°4 : Analyse des échantillons d'abeilles testées pour les agents pathogènes
candidats au CCD, d’après COX-FOSTER et al., 2007
Tableau n°5 : Diversité nucléotidique des protéines E2 et NS5B pour chaque isolat,
d'après TOPFER et al., 2013
Tableau n°6 : Statistiques du polymorphisme du virus de l'hépatite E chez l'homme et
les porcs, d'après BOUQUET et al., 2012
11
12
LISTE DES ABRÉVIATIONS
ABPV : Virus de la paralysie aigue de l'abeille
ADN : Acide désoxyribonucléique
ADNc : Acide désoxyribonucléique complémentaire
ADNp : Acide désoxyribonucléique polymérase
ADV : Adénovirus
ARN : Acide ribonucléique
ARNm : Acide ribonucléique messager
ATP : Adénosine triphosphate
BHV-1 : Herpesvirus Bovin 1
BQCV : Virus de la cellule royale noire
BtAdV : Adénovirus de chauve-souris
Cakov : Kobuvirus canin
CaSaV : Sapovirus canin
CBoV : Bocavirus canin
CCoV : Coronavirus canin
CCD : Syndrome d'effondrement des colonies d'abeille
CHV : Virus hépatite C humain
CnBoV3 : Bocavirus canin 3
CPV2 : Parvovirus canin 2
CPV6 : Papillomavirus canin 6
DAA : Antiviraux à action directe
DEV : Virus de la peste du canard
DNase : Désoxyribonucléase
DWV : Virus des ailes déformées
EBV : Virus Epstein-Barr
FeLV : Virus de la leucose féline
Gb : Gigabase
HA : Hémagglutinine
HCMV : Cytomégalovirus humain
HCV : Virus hépatite C canin
HLA : Antigènes leucocytaires humains
HVT : Herpesvirus de la dinde
IAPV : Virus de la paralysie aiguë israélienne
IFN : Interferon
kb : Kilobase
KBV : Virus du cachemire
KSHV : Herpesvirus associé au sarcome de Kaposi
LT-CD8+ : Lymphocytes T CD8+
LUJV : Virus Lujo
Mb : Megabase
MCC : Carcinome à cellules de Merkel
MD : Maladie de Marek
MDV1 : Virus oncogène de la maladie de Marek
MDV2 : Virus non oncogène de la maladie de Marek
MHV68 : Herpesvirus murin 68
13
miARN : Micro acide ribonucléique
MscPV1 : Papillomavirus Miniopterus schreibersii de type 1
ORF : Open reading frame (cadre ouvert de lecture)
PCR : Réaction en chaîne par polymérisation
Pdb : Paire de base
PFA : Paralysie flasque aigue
RNase : Ribonucélase
RNA seq : Séquençage des transcrits
RT PCR : Transcription inverse par réaction en chaîne par polymérisation
SBV : Schmallenberg virus
SDRP : Syndrome dysgénésique et respiratoire du porc
SIDA : Syndrome de l'immunodéficience acquise
SIV : Virus d'immunodéficience simienne
SmARN : Small acide ribonucléique
SNP : Polymorphisme d’un seul nucléotide
VACV : Virus de la vaccine
VHC : Virus hepatite C humain
VIH : Virus de l’immunodéficience humaine
VMC : Virus minute canin
14
15
16
INTRODUCTION
Les prémices du séquençage de l'ADN ont débuté dans les années 70, avec deux
méthodes, celle développée par l'équipe de Frederick Sanger en Grande-Bretagne qui repose
sur une synthèse enzymatique (SANGER et al., 1977a), et celle développée par l'équipe de
Walter Gilbert aux États-Unis qui repose sur une dégradation chimique sélective (MAXAM
et GILBERT, 1977). Pour cette découverte, Gilbert et Sanger ont été récompensés par le prix
Nobel de Chimie en 1980. La méthode la plus utilisée en routine est celle de Sanger. C'est une
méthode de synthèse enzymatique du brin complémentaire de l’ADN dont on cherche à
déterminer la séquence à l’aide d’une ADN polymérase et de nucléotides « terminateurs de
chaîne » ddNTP (didésoxyribonucléotides) qui ont un atome d'hydrogène à la place du
groupement OH sur le carbone 3' du ribose. Il s'en suit une migration par électrophorèse sur
gel de polyacrylamide (analyse de fragments allant de 500 à 1500 nucléotides selon les
conditions), puis le gel est autoradiographié afin de détecter les fragments radioactifs.
Cette méthode a permis le séquençage du premier génome, celui d'un virus bactérien
phi X174 (SANGER et al., 1977b). Néanmoins, la réalisation la plus emblématique de cette
approche est sans aucun doute le décryptage du génome humain, projet phare de la génétique
à la fin des années 2000.
Toutefois, c’est l’automatisation de cette méthode à la fin des années 80, avec le
développement des marquages fluorescents (SMITH et al., 1986) et de l’électrophorèse
capillaire, qui a ouvert la voie du séquençage à haut débit. Les appareils utilisés pour le
séquençage automatique de Sanger, permettent de séquencer en parallèle de multiples
échantillons (jusqu’à 384), ce qui augmente le débit de la technique.
Ces séquenceurs fonctionnent sur 96 canaux ce qui permet d’obtenir 96 séquences en parallèle
en moins de 2h, et les plus récents fonctionnent sur 384 voire 1024 canaux.
Malgré les progrès techniques accomplis par l’automatisation du procédé de
séquençage, un certain nombre de contraintes sont toujours présentes, telles que la nécessité
de cloner l'ADN à séquencer. Cette étape ne pouvant être totalement automatisée, de
nouvelles pistes ont été recherchées, permettant de préparer et séquencer des millions de
fragments en parallèle.
Ainsi, en 2007 sont apparus sur le marché des machines dotées de débits de 50 à 1 000
fois supérieurs aux techniques précédentes. C'est grâce notamment à la lecture de plusieurs
millions de séquences en parallèle que ces nouveaux séquenceurs à haut débit ont pu
révolutionner les analyses en génomique (METZKER, 2010).
Dans un premier temps nous allons nous intéresser aux différents séquenceurs à haut
débit mis sur le marché, puis dans un second temps nous nous intéresserons aux applications
en virologie du séquençage haut débit, à savoir la découverte de nouveaux virus, l'étude de
quasi-espèces virales et les analyses transcriptomiques.
17
18
PREMIÈRE PARTIE:
LES TECHNIQUES DE
SÉQUENÇAGE HAUT DÉBIT
19
20
I. LES PRINCIPES GÉNÉRAUX DU SÉQUENÇAGE HAUT DÉBIT
A. Les étapes communes du séquençage haut débit
Plusieurs étapes sont communes à l'ensemble des techniques de séquençage à haut
débit de l'ADN (Figure n°1). Il est important de souligner que le séquençage haut débit ne
peut s’effectuer qu’à partir de molécules d’ADN. Ainsi, les molécules d’ARN vont devoir
subir une étape de transcription inverse en vue d’une conversion en ADN complémentaire
(ADNc).
1. Construction d'une banque d'ADN
La première étape consiste en la préparation d'une banque d'ADN simple brin associée
à des ligands (RADFORD et al., 2012).
L’ADN génomique est fragmenté aléatoirement par nébulisation, les fragments d'ADN
vont être traités avec un fragment de Klenow possédant une activité exonucléase 3'→5' et une
activité polymérase 5'→3'. Ce traitement permet l'obtention de fragments d'ADN aux
extrémités franches compatibles avec celles des ligands. Les deux adaptateurs (A et B) sont
fixés par une ligase aux deux extrémités 3' et 5' de l'ADN. Il est possible que les fragments
d'ADN présentent deux ligands A, deux ligands B ou un de chaque (seule combinaison
pouvant être amplifiée). Le fragment B est biotinylé sur l'un de ses brins. Les fragments sont
ensuite mis en contact avec des billes ou une surface solide, sur lesquelles se trouve de
la streptavidine qui possède une forte affinité pour la biotine. Ainsi, seuls les fragments
d'ADN présentant un ligand B pourront être récupérés. Le fragment A va servir d’amorce lors
de l’étape d’amplification clonale.
Les fragments d'ADN possédant deux adaptateurs B restent piégés, et les fragments
possédant deux fragments A sont éliminés.
2. Amplification des fragments d'ADN
La seconde étape est l'amplification clonale, dont la méthode va différer selon les
séquenceurs utilisés. L’amplification va être réalisée, soit par une PCR en émulsion, au cours
de laquelle les amplicons sont rattachés à des billes, soit par une PCR avec formation de ponts
au cours de laquelle les amplicons sont rattachés à une surface solide plane. Ces deux
techniques vont permettre la production d’une quantité importante d'amplicons, nécessaire au
séquençage haut débit.
21
3. Le séquençage
La dernière étape est le séquençage des fragments d’ADN. Ce séquençage va différer
selon la technique utilisée.
L'émission de signaux luminescents ou fluorescents selon la technique utilisée, va
permettre d'identifier les bases constituant la séquence d'ADN étudiée. Ces signaux vont être
analysés, puis convertis en une séquence de bases.
Figure n°1 : Les différentes étapes d'un séquençage haut débit, d’après VOELKERDING
et al., 2010
L'"input" peut correspondre à un ADN génomique, un ADNc ou un amplicon. L'ADN est
fragmenté, et ses extrémités vont être traitées afin de pouvoir fixer des adaptateurs. Chaque
fragment va être amplifié soit par une PCR en émulsion (1), soit par la formation de ponts sur
une surface (2). Chaque clone séquencé va générer des images fluorescentes ou luminescentes
qui vont être lues par différents algorithmes.
22
B. Les avantages et les limites du séquençage haut débit
1. Les apports du séquençage haut débit
La méthode Sanger souffre de nombreuses limitations, dont la plus grande est le
rendement. Les étapes de préparation de banques d'ADN sont longues, les échantillons ne
peuvent être traités que par une seule machine à la fois, et la vérification des erreurs de
séquençage est chronophage. Ainsi, les chercheurs ont essayé de développer des techniques
de séquençage répondant à ces limites. L'arrivée des séquenceurs haut débit sur le marché
s'est alors révélée être une vraie révolution dans le domaine du séquençage de l'ADN.
Ces techniques reposent sur trois grands principes, à savoir l'intégration de plusieurs
systèmes (tel que la PCR et le pyroséquençage), la parallélisation, et la miniaturisation. C'est
sur ces trois principes que repose la réussite des nouvelles générations de séquenceurs. La
parallélisation des réactions de séquençage est synonyme d’une baisse des coûts et d’une
rapidité accrue.
L'une des autres améliorations, apportée par les nouvelles technologies de séquençage,
est la quantité de données générées en une seule réaction. En effet, alors qu’il est possible de
séquencer plusieurs millions d’échantillons en une seule fois par un séquençage haut débit,
quelques centaines de séquences seulement peuvent être générées avec les séquenceurs les
plus récents utilisant la méthode de Sanger automatisée.
Ces machines restent encore chères (des centaines de milliers d’euros); néanmoins, le
coût du séquençage de l'ADN a diminué, et a alors permis d'accélérer les processus de
séquençage, et de démocratiser les technologies de laboratoire. Alors qu’il fallait débourser
près de 10 000$ pour séquencer un million de nucléotides au début du siècle, il n’en faut
maintenant pas plus que 0.1$. L'une des applications de cette amélioration, est le projet 1 000
Génomes, débuté en 2008, qui a pour objectif de séquencer le génome de 2500 personnes,
afin d'identifier les spécificités de chacun (ABECASIS et al., 2010). Le but est d'atteindre un
séquençage du génome humain à 1000$. Cela rendrait alors possible la médecine
personnalisée à chaque patient, avec des traitements adaptés aux spécificités génétiques de
chacun.
2. Les limites du séquençage haut débit
Cependant face à cette avancée technologique, il est important de garder à l’esprit que
le séquençage à haut débit doit faire face à plusieurs limites.
Le séquençage à haut débit produit des quantités de données très importantes dont la
gestion n’est pas totalement maîtriser. Les résultats générés se chiffrant en téraoctets, il est
primordial de se demander quelles données sont à conserver et pendant quelle durée.
23
En effet, certaines études telles que les études sur les effets de molécules thérapeutiques ont
lieu pendant plusieurs années et nécessitent un grand nombre d’expériences.
De plus, les outils bioinformatiques doivent être très performants afin de pouvoir traiter des
millions de séquences simultanément, dont le processus est très long.
L'une des autres limites de ces techniques, est le séquençage de l'ARN (OZSOLAK
et MILOS, 2011). En effet, il n'est possible de séquencer l'ARN, qu'en passant par une étape
supplémentaire, la transcription inverse, afin d'obtenir une ADNc. Cette étape supplémentaire
est à l'origine d'une augmentation de la durée du cycle total de séquençage, et peut être
génératrice d'erreurs. Ce problème sera développé dans la partie III.
Les scientifiques ont encore peu de recul sur cette technique de séquençage. Plusieurs
éléments ne sont pas encore normalisés, comme la correction des erreurs de séquençage, et les
différents modèles statistiques à appliquer.
De plus, un problème éthique peut également être soulevé. En effet, il est maintenant
possible d’accéder au génome complet d’un individu ; ainsi, il doit être mis en place des
règles éthiques de confidentialité.
II. DESCRIPTION DES SÉQUENCEURS HAUT DÉBIT
A. Le pyroséquencage 454 par Roche
La technique de pyroséquençage de l'ADN a été décrite par HYMAN en 1988, et
améliorée par RONAGHI et al. en 1996 et 1998, en introduisant la PCR. La dernière
amélioration de cette technique a été effectuée par MARGULIES et al. en 2005, avec la
commercialisation du premier pyroséquenceur 454. Ce séquenceur est fondé sur l'intégration
de deux technologies : le pyroséquençage et la technologie des plaques en fibre optique
picotitrées permettant la réalisation en parallèle de 300 000 réactions de PCR (LEAMON et
al., 2003).
1. Principe du pyroséquencage 454
Le pyroséquençage 454, repose sur trois étapes principales, comprenant les techniques
du pyroséquençage et la technologie des fibres optiques picotitrées (Figure n°2).
a. Préparation d'une banque d'ADN
Cette étape, décrite dans les paragraphes précédents, consiste en la préparation d'une
banque d'ADN simple brin associée à des ligands.
Les fragments d’ADN présentant à leurs extrémités les ligands A, et B biotinylé, sont mis en
contact avec des billes sur lesquelles se trouve de la streptavidine qui possède une forte
24
affinité pour la biotine. Ainsi, comme cela a été mentionné précédemment, uniquement les
fragments présentant un ligand B sont récupérés par les billes.
b. Amplification clonale de l'ADN
La seconde étape consiste en l'amplification clonale de l'ADN (RADFORD et al.,
2012).
Chaque microbille présente à sa surface des amorces complémentaires des ligands B.
Un seul fragment d'ADN va être fixé sur chaque bille (avec un ratio nombre de billes/nombre
de molécule d'ADN respecté). Les billes sont ensuite placées dans une émulsion contenant les
composés nécessaires à la réaction de polymérisation en chaîne, et permettant d’individualiser
chaque bille. Au sein de chaque goutte d'émulsion, le fragment d'ADN fixé sur la bille va
pouvoir être amplifié à partir de l'amorce du ligand B. Suite à une dénaturation, la molécule
d’ADN simple brin néo-synthétisée reste fixée sur la bille, et va être utilisée pour la synthèse
d’une autre matrice à partir de l’amorce A présente dans le milieu réactionnel. La molécule
d’ADN simple brin de départ est quant à elle réutilisée par une autre amorce B fixée sur la
bille. Après plusieurs cycles de PCR, la bille est ainsi recouverte de plusieurs millions de
molécules d’ADN simple brin identiques, fixées par l’amorce B et orientées 5’ → 3’ de la
bille vers l’extérieur.
c. Pyroséquençage sur plaque picotitrée
Suite à l'amplification clonale, les billes sont déposées sur une plaque picotitrée
contenant plusieurs millions de puits dont le diamètre (40 µm) va permettre de ne récupérer
qu’une seule bille par puits (LEAMON et al., 2003).
A l'intérieur de chaque puits, se déroule la réaction de pyroséquencage. Le
pyroséquençage est une technique de séquençage basée sur la détection du pyrophosphate
relâché lors de la réaction de polymérisation de l’ADN. Les nucléotides sont ajoutés les uns
après les autres dans un ordre défini. Lorsqu’un nouveau nucléotide est ajouté, l’ATP
sulfurylase va utiliser le pyrophosphate relâché lors de la polymérisation pour générer de
l’ATP. Cet ATP sera utilisé par la luciférase pour oxyder la luciférine en oxyluciférine et
émettre de la lumière. C’est ce signal lumineux qui est détecté par une caméra puis traduit en
chromatogramme.
Tous les résultats sont ensuite analysés grâce aux techniques de bioinformatique et
vont permettre l’identification de la séquence initiale d’ADN.
25
Figure n° 2 : Les différentes étapes du pyroséquençage 454, d’après MARGULIES et al.,
2005
(a) Fragmentation de l'ADN, fixation des adaptateurs à chaque extrémité, et dénaturation. (b)
Un fragment d'ADN est fixé sur chaque bille, ces billes sont isolées dans une goutte d'huile,
une amplification par PCR a lieu dans chaque émulsion. Chaque bille transporte dix millions
d'exemplaires d'une unique matrice d'ADN. (c) L'émulsion est détruite, et chaque bille est
placée dans les puits de la plaque à fibre optique. (d) Dans chaque puits sont placées des
microbilles transportant des enzymes nécessaires à la réaction de pyroséquençage. (f) Le
séquenceur est composé de: i) un ensemble de fluides, ii) une cellule d'écoulement à fibre
optique, iii) une caméra à fibre optique CDD qui permet la formation des images de
pyroséquençage sur un ordinateur.
2. Les avantages du pyroséquençage 454
Cette technique présente deux principaux avantages qui la distinguent des deux autres
techniques; à savoir sa rapidité à générer un nombre important de séquences, et la longueur
des séquences.
En 2005, les séquences de pyroséquençage 454 atteignaient la taille de 100-150 pdb, et
chaque cycle générait 20 Mb. En 2008, le séquenceur 454 GS FLX Titanium fut lancé, il a
permis d'atteindre une taille de lecture de 700 pdb, et de générer 0.7 Gb par cycle de
séquençage en 24h (SHOKRALLA et al., 2012). En 2009, Roche a introduit le GS Junior qui
lui permet de générer 14 Gb par cycle.
L’importante quantité de séquences générées par cette technique vient en partie de la
préparation des échantillons ; en effet, elle ne nécessite pas de clonage, et permet une lecture
directe de la séquence obtenue après le séquençage. De plus, chaque fragment est isolé, puis
26
amplifié par PCR sur une microbille qui sera ensuite déposée dans le puits d’une plaque
picotitrée. Il est alors possible de charger 1 à 2 millions de billes sur une même plaque.
L’utilisation de ces plaques picotitrées permet la réalisation en parallèle de 300 000 réactions
de PCR.
La vitesse d'un cycle complet de séquençage est comprise entre 10h et 24h
(SHOKRALLA et al., 2012). Ainsi, avec le séquenceur 454 GS FLX, il est possible de
séquencer 500 millions de bases en 10h, ce qui en fait la technique de séquençage haut-débit
commercialisée la plus rapide. L’activité des enzymes utilisées lors de la réaction peut
constamment être améliorée, ce qui permet d’atteindre de telles vitesses (ROTHBERG et
LEAMON, 2008).
3. Les limites du pyroséquençage 454
a. L'identification des régions homopolymères
Les principales erreurs de séquences détectées sont des insertions/délétions dues à la
présence de régions homopolymères (MARGULIES et al., 2005, HUSE et al., 2007).
En effet, l'identification correcte de la taille des homopolymères repose sur l'intensité
du signal lumineux produit par la réaction chimique de pyroséquençage. Des signaux
d'intensité trop élevée ou trop faible entraînent une sous ou surestimation du nombre de
nucléotides (BALZER et al., 2011). Si un même nucléotide est incorporé dans le cycle, un
signal lumineux proportionnel aux nombres de nucléotides est émis. Mais au-delà de 5
nucléotides, le caractère proportionnel du signal est perdu.
Ainsi, les séquences homopolymériques représentent la source majeure d’erreurs de
séquençage par cette méthode, comme l’ont estimé HUSE et al. en 2007 (Tableau n° 1).
Un algorithme (PyroNoise), développé par l'équipe de QUINCE et al. en 2009, permet
de diminuer ce type d'erreurs. Il s'intéresse à l'étude des données sur les intensités lumineuses
associées à chaque lecture. Il définit une probabilité pour qu'une telle valeur ait été générée
par une séquence donnée. L'algorithme calcule l'ensemble de la séquence en tenant compte de
la probabilité qu'une valeur corresponde à une séquence, puis recalcule les probabilités en
tenant compte des nouvelles séquences; ceci est répété jusqu'à ce que les mesures convergent.
27
Tableau n° 1 : Les principales sources d’erreurs du pyroséquençage 454, d’après HUSE
et al., 2007
b. Les erreurs CArry Forward/ Incomplete Extension
Le second phénomène entraînant des erreurs de séquençage est le " CArry Forward/
Incomplete Extension" (MARGULIES et al., 2005). Ce phénomène a pour origine, d'une part
la persistance de nucléotides dans les puits de la plaque suite au rinçage, ce qui provoque un
report de nucléotides, et d'autre part le défaut d'activité de la polymérase qui conduit à un
séquençage incomplet. En règle générale, on observe un taux de report de 1 à 2%, et un taux
de séquençage incomplet à 0,1 à 0,3% (MARGULIES et al., 2005).
D'autres sources d'erreurs moins fréquentes sont néanmoins présentes, telles que la
présence de plusieurs billes dans la même goutte d'émulsion, ou la détection d'un signal
provenant d'un puits adjacent.
28
B. Le séquençage par terminateurs réversibles Illumina/ Solexa
La société Solexa, récemment rachetée par Illumina, a développé une technologie de
séquençage sur puces. Ce séquençage est basé sur l’incorporation réversible de nucléotides
fluorescents dont l’extrémité 3'OH est désactivée, ce qui permet l'incorporation d'une seule
base par cycle et par lecture optique de la fluorescence.
1. Principe du séquençage par terminateurs réversibles
a. Préparation d'une banque d'ADN
Cette étape, décrite dans les paragraphes précédents, consiste en la préparation d'une
banque d'ADN simple brin associée à des ligands.
Les fragments d’ADN présentant chacun un ligand A et un ligand B biotynilé à son extrémité,
sont ensuite mis en contact avec une plaque solide sur laquelle se trouve de la streptavidine
qui possède une forte affinité pour la biotine. Ainsi, seuls les fragments d'ADN présentant un
ligand B pourront être récupérés par la plaque solide.
Les ligands A et B vont servir d’amorce lors de l’amplification clonale de l’ADN.
b. Amplification clonale de l'ADN
La seconde étape consiste en l'amplification clonale de l'ADN (SHOKRALLA et al.,
2012).
Les fragments d’ADN simple brin à séquencer sont immobilisés sur une plaque en
verre, par fixation des adaptateurs des fragments de l’ADN sur la plaque. L'amplification de
l’ADN se fait par la formation de ponts en présence d'ADN polymérase et de nucléotides
(Figure n°3).
Une fois un fragment amplifié, les brins sont dénaturés, et une nouvelle amplification
par pontage peut se produire à partir de chaque brin d’ADN ainsi formé et fixé à la plaque.
Cette technique permet l’amplification localisée d’un fragment unique en plusieurs centaines
de millions de fragments identiques.
c. Séquençage par terminateurs réversibles
La dernière étape est le séquençage des fragments amplifiés (SHOKRALLA et al.,
2012).
Des nucléotides présentant des caractéristiques spécifiques, vont être incorporés au
milieu (SHENDURE et al., 2008). L’extrémité 3'OH de ces nucléotides est désactivée, et
marquée par des fluorochromes spécifiques à chaque nucléotide. Une ADN polymérase va
insérer ces nucléotides au brin complémentaire des amplicons.
Les fluorochromes sont excités grâce à des lasers permettant l’émission d’un signal
lumineux, spécifique à chaque nucléotide, qui sera détecté par une caméra. Des programmes
informatiques vont traduire ces signaux en une séquence nucléotidique.
29
Après détection des signaux, le groupement de protection du nucléotide est éliminé par
photoclivage utilisant la lumière ultraviolette, entraînant la restauration du groupement
fonctionnel du nucléotide incorporé, et ainsi l’ADN polymérase peut incorporer le prochain
nucléotide et ainsi de suite.
Il s’agit là également, d’un séquençage en temps réel, basé sur la détection de la
fluorescence mais en présence de 4 nucléotides marqués (ce qui constitue un avantage par
rapport à la technologie 454).
30
Figure n°3 : Les différentes étapes du séquençage par terminateurs réversibles Illumina
/Solexa, d'après ILUMINA, 2013
a) Préparation des banques d'ADN: fragmentation aléatoire de l'ADN et fixation d'adaptateur
à chaque extrémité des fragments d'ADN. b) Fixation des fragments d'ADN sur une plaque.
c) Amplification des molécules d’ADN par pontage. d) Formation d'ADN double brin.
e) Dénaturation des ADN double brin, permettant la formation de deux brins d'ADN rattachés
à la surface solide. f) Amplification complète: amplification de plusieurs millions d'ADN.
g) Mise en évidence de la première base: le premier cycle de séquençage commence par
l'ajout de 4 bases à terminateur réversible et possédant des fluorochromes, et d'une ADN
polymérase. h) Image de la première base: suite à une excitation par un laser, la fluorescence
émise par un nucléotide est enregistrée, et ainsi il est possible d'identifier les premières bases
du séquençage. i) Mise en évidence de la seconde base: suite à l'émission de la fluorescence,
le nucléotide élimine son terminateur réversible et son fluorochrome, ce qui permet la fixation
d'un nouveau nucléotide. j) Image de la secondes base. k) Séquençage des données obtenues à
chaque cycle. l) Alignement des données, et comparaison par rapport à la référence, puis
séquençage.
a
e
i
b
c
d
f
g
h
j
k
l
31
2. Les avantages du séquençage par terminateurs réversibles
Le principal avantage de cette technique est sa productivité, qui la démarque du
pyroséquenceur 454. Les premiers séquenceurs généraient 1Gb par cycle, mais grâce à
plusieurs améliorations ils ont atteint les 95 Gb par cycle (SHOKRALLA et al., 2012). En
2012, Illumina introduit le séquenceur HiSeq2000. Cette plateforme permet de générer jusqu'à
600 Gb par cycle en 11 jours (SHOKRALLA et al., 2012).
Cette importante quantité de données générées par cette méthode est due à la préparation des
fragments et à leur technique d'amplification.
De plus, le séquençage s'effectue progressivement, un nucléotide après l'autre. En
effet, chaque nucléotide possède un groupement d’inactivation à son extrémité 3’OH ainsi
qu’un fluorochrome spécifique de chaque nucléotide. Le groupement d’inactivation n’est
éliminé qu’après la détection du signal lumineux et un nouveau nucléotide est alors incorporé.
Ainsi, cette technique de séquençage permet de détecter les régions homopolymères.
3. Les limites du séquençage par terminateurs réversibles
a. La taille des séquences et la vitesse d'un cycle
La première limite de cette technique de séquençage est la longueur des fragments
d’ADN séquencés. Au début du séquençage Illumina, la longueur des fragments lus était de
50 à 70 pdb, mais avec l'arrivée d'Illumina HiSeq2000, la taille des séquences peut atteindre
200 pdb (SHOKRALLA et al., 2012). Néanmoins, cette taille reste faible par rapport à celle
proposée par le pyroséquenceur 454.
L'autre différence notable par rapport au séquenceur 454, est la vitesse de séquençage;
en effet un cycle dure plusieurs jours pour le séquenceur Illumina, contre plusieurs heures
pour le séquenceur 454.
b. Les erreurs de séquençage localisées aux extrémités de lecture
L’autre limite de cette technique est la diminution de la fiabilité du séquençage aux
extrémités des séquences.
DOHM et al. en 2008 ont émis l’hypothèse que l’accumulation d’erreurs à l’extrémité
3’ des séquences était due à un phénomène de déphasage, qui est lié à l’extension incomplète
du fragment séquencé ou à l’addition de multiples nucléotides.
En effet, les fragments d'ADN fixés sur la plaque émettent un signal fluorescent en
même temps, car chaque cycle est en train d'ajouter un nucléotide. Mais si l'un des fragments
d'ADN n'est pas allongé correctement, une interférence dans le signal intervient. Ces
interférences peuvent provenir d'une défaillance du photoclivage; ainsi sans déprotection, la
base du cycle suivant ne peut être incorporée, ce qui entraine un décalage. En outre, une
suppression incomplète du fluorophore interfère également avec l'interprétation du signal. Ce
type d'erreur touche préférentiellement les nucléotides G.
32
Ainsi, plus le nombre de cycles augmente, plus les décalages dans la séquence
s’accumulent, conduisant à une augmentation du bruit de fluorescence et à une interprétation
erronée des signaux lumineux (ERLICH et al., 2008). Le taux d'erreur moyen est estimé de 1
à 1.5% (SHENDURE et al., 2008).
c. Les erreurs de substitution
Les substitutions de G par T, et A par C sont parmi les substitutions de base les plus
fréquentes, selon les travaux menés par DOHM et al. en 2008. Ces substitutions peuvent être
dues à une différence insuffisante entre les spectres d'émission de base.
En effet, un laser vert est utilisé pour détecter à la fois G et T. L'intensité de G est
renforcée grâce à l'utilisation d'un filtre qui permet de distinguer G par rapport à T. De même,
A et C sont détectés par un laser rouge. Ainsi, il est parfois difficile de distinguer G et T, et A
et C.
C. Le séquençage par ligation SOLID (Sequencing by Oligonucleotide Ligation
and Detection) par BioSystem
La technologie SOLID est issue de la société Agencourt Personal Genomics et a été
acquise par Applied Biosystem en 2006, elle-même fusionnée ensuite avec Life Technologies.
Cette technique a été décrite pour la première fois dans les travaux de SHENDURE et
al. en 2005. Cette technologie est basée sur une amplification par émulsion, suivie d’une étape
de ligation.
1. Principe du séquençage par ligation SOLID
a. Préparation d'une banque d'ADN
Cette étape, décrite dans les paragraphes précédents, consiste en la préparation d'une
banque d'ADN simple brin associée à des ligands.
Les fragments d’ADN présentant chacun un ligand A et un ligand B biotynilé à son extrémité,
sont mis ensuite en contact avec des billes sur lesquelles se trouve de la streptavidine qui
possède une forte affinité pour la biotine. Ainsi, seuls les fragments d'ADN présentant un
ligand B pourront être récupérés par les billes. Les fragments d'ADN possédant deux
adaptateurs B restent piégés par les billes.
Les ligands A et B servent d’amorce lors de l’amplification clonale de l’ADN.
33
b. Amplification clonale de l'ADN
Chaque microbille présente à sa surface des amorces complémentaires des adaptateurs.
Un seul fragment d'ADN va être fixé sur chaque bille. Une PCR par émulsion est alors
réalisée. Suite à une dénaturation, la molécule d’ADN simple brin néo-synthétisée reste fixée
sur la bille et va être utilisée pour la synthèse d’une autre matrice. La molécule d’ADN simple
brin de départ est quant à elle réutilisée par une autre amorce.
c. Le séquençage par ligation
La dernière étape est le séquençage par ligation (METZKER, 2010).
Les microbilles vont être fixées sur une plaque en verre spécialement traitée. Le
séquençage par ligation débute par la fixation d’une amorce de séquence universelle sur les
fragments d'ADN, en présence d'une ligase.
Suite à cela, un octamère va se fixer au fragment d'ADN (Figure n°4). Il est constitué
d'un enchaînement de deux bases fluorescentes en position 1 et 2 que l’on souhaite séquencer,
de trois bases dégénérées à séquence universelle en position 3, 4 et 5, et de trois bases à
séquence universelle possédant un fluorochrome en position 6,7 et 8. Le fragment d'ADN est
mis en contact avec 16 octamères de séquences différentes correspondant à 4 couleurs (soit 4
octamères codant pour la couleur verte, 4 pour le bleu, 4 pour le rouge et 4 pour le jaune).
Chaque dimère est codé par une couleur (Figure n°5).
Au cours du cycle n, un octamère va venir se fixer grâce à une ligase sur le fragment
d'ADN par complémentarité de base. L'excitation du fluorochrome va permette l'émission
d'un signal caractéristique d'un dimère. Suite à cette émission, les trois dernières bases sont
clivées et éliminent avec elles le fluorochrome. Ainsi, un nouvel octamère peut venir se fixer,
et ainsi de suite tout le long de l'ADN. Au cours de ce cycle n, nous obtenons des
informations sur les dimères 1 et 2, 6 et 7 [...].
A la fin de ce cycle, l'ADN double brin ainsi formé va être dénaturé, et un nouveau
cycle recommence à la position n-1 sur l'ADN matrice (Figure n°4). Lors de ce cycle, on
obtiendra des informations sur les dimères en positions 0 et 1, 5 et 6 [...] Le cycle est réitéré
jusqu'à ce que chaque base soit séquencée deux fois.
Afin de connaître la caractéristique de chaque base, on effectue une superposition de
l'ensemble des données (Figure n°5).
34
Figure n°4 : Les différentes étapes du séquençage Solid par ligation, d’après METZKER,
2010
a) Suite à la fixation sur la matrice d'ADN d'une amorce universelle (violet), une sonde est
ajoutée. Cette sonde est constituée de deux bases (x et y) que l'on souhaite séquencer,
associées à une couleur caractéristique, et de trois bases dégénérées (n) et de trois bases
universelles (z) portant un fluorochrome. Contrairement à la polymérisation, la fixation de la
sonde par une ligase peut être effectuée de manière bidirectionnelle. Le fluorochrome est
excité, ce qui permet la formation d'un signal caractérisé par une couleur. Suite à cela, la
sonde est clivée entre les bases n et z. Cette étape est répétée n fois. Au cycle suivant, la sonde
va être fixée par la ligase au niveau (n-1) de la matrice d'ADN.
b) Système de codage à deux bases associé à une couleur (par exemple AA, CC, GG et TT
sont codés avec la couleur bleue). Chaque association de deux bases est interrogée deux fois
par le système, puis séquencée en un ensemble de couleurs. Chaque séquence de couleur est
alignée afin de pouvoir identifier la séquence de base.
b
35
Figure n°5 : Système de lecture du séquençage de l'ADN par ligation SOLID, d’après
SCHLEBUSH et ILLING, 2012
1) Modèle de couleur, dont chacune correspondant à l'association de deux bases, utilisé pour
le séquençage par ligation SOLID. a) Structure d'un octamère d'oligonucléotides utilisé pour
le séquençage. Le site de clivage (pointillés) permet l'élimination du signal fluorescent
(étoile); cette étape est nécessaire avant l'ajout de l'octamère suivant. b) Tableau représentant
les couleurs attribuées à chaque association de deux nucléotides. B=bleu, G= vert, R= rouge,
O= orange.
2) Grille de lecture du séquençage par ligation. Chaque nucléotide est interrogé deux fois. Il
est à noter que le premier nucléotide dans la lecture finale (A) correspond à la dernière base
de l'amorce universelle dont l'identité est connue, ce qui est nécessaire pour déchiffrer la suite.
1
2
36
2. Les avantages du séquençage par ligation SOLID
L'un des avantages du séquençage par ligation est sa productivité. En effet, cette
technique permet de générer jusqu'à 250 Gb par cycle en une semaine (SHOKRALLA et al.,
2012).
Mais le principal avantage, qui le différencie des autres séquenceurs, est son faible
taux d'erreur grâce à la mise en place de deux mécanismes principaux :
- d'une part l'utilisation d'une ligase et non d'une polymérase, confère à cette technique
un taux d’erreur faible, car cette technique évite les erreurs engendrées par l’ADN
polymérase;
- et d'autre part, l'utilisation de l'encodage par dimère implique que chaque position
d'une base dans la séquence est étudiée deux fois, ce qui conduit à une grande précision, et à
une différenciation des erreurs et des véritables polymorphismes.
Ainsi, il est possible de différencier grâce au code couleur, les SNP des erreurs de
séquençage. Lors d’une erreur de séquençage portant sur plusieurs bases, on constate un seul
changement de couleur par rapport à la séquence de référence. Par contre, la modification de
deux couleurs adjacentes, peut traduire la présence d'un SNP (Figure n°6).
Ainsi, le système SOLID permet une correction des erreurs de séquençage.
Figure n°6 : Identification des SNP et des erreurs de séquençage lors de changement de
couleurs
a) Deux changements de couleur peuvent correspondre à un SNP
b) Un seul changement de couleur, est due à une erreur de séquençage portant sur plusieurs
bases
a
b
3. Les limites du séquençage par ligation SOLID
La principale limite de cette technique de séquençage est la faible taille des amplicons
lus qui est comprise entre 35 et 75 bdp (SHOKRALLA et al., 2012).
37
D. Récapitulation des principales caractéristiques des différents séquenceurs haut
débit
Chaque séquenceur haut débit possède des caractéristiques qui lui sont propres
(Tableau n°2).
Ainsi, les amplicons lus dont la taille est la plus importante sont ceux obtenus par
pyroséquençage 454, qui présentent de plus une vitesse de synthèse très élevée, alors que le
nombre de séquences générées est plus important avec les séquenceurs à terminateurs
réversibles et à ligase SOLID. D’autres critères interviennent, tels que le coût de la machine,
ainsi que le prix de revient par Mégabase séquencée.
L'étendue des applications du séquençage haut débit est immense (BARZON et al., 2011 et
2013, CAPOBIANCHI et al., 2013), et le choix d’utilisation d’un séquenceur dans les études
virologiques va reposer sur ces critères.
Tableau n°2 : Caractéristiques des différents séquenceurs haut débit
Pyrosequençage
454
Séquençage par
terminateurs
réversibles
Illumina
Séquençage par
ligation
SOLID
Taille des
amplicons
lus (Pdb)
Nombre de
séquences
générées
par cycle de
séquençage
Durée d'un
cycle entier
de
séquençage
Prix par
Mbase
Prix par
machine
400-800
500-700 Mb
10-23h
~ 60$
500 000$
50-200
95-600 Gb
7-14j
~ 2$
430 000$
35-75
100-250 Gb
4-8j
~ 2$
591 000$
38
III. L’ANALYSE DES SÉQUENCES OBTENUES PAR SÉQUENÇAGE HAUT DÉBIT
Suite au séquençage des fragments d'ADN, et à l'obtention d'une multitude de
séquences, il est nécessaire de reconstituer la séquence génomique complète. Pour cela,
plusieurs techniques d'analyse sont possibles, et vont différer selon le système de séquençage
haut débit.
Dans le cas où l’on cherche à comparer une séquence virale séquencée à une séquence
déjà décrite, par exemple lors d’une étude de quasi-espèces, on parle de mapping ou
alignement. Deux principaux algorithmes permettent cet assemblage : la table de hachage et la
transformée de Burrows-Wheeler (BWT) (FLICEK et BIRNEY, 2009).
Lorsque l’on cherche à caractériser des nouveaux virus par séquençage d’un ensemble
de populations virales, la séquence virale recherchée n’est pas connue. On parle alors
d’assemblage de novo. Deux principaux algorithmes permettent cet assemblage : le Ovarlap/
Layout/ Consensus, et le graphe de Bruijn.
A. L'alignement des séquences
L'alignement est un processus qui va permettre de comparer les séquences obtenues
avec des séquences génomiques connues. En bioinformatique, l’opération d’alignement vise à
identifier des zones communes à un groupe de k séquences.
1. Alignement par table de hachage
Une table de hachage est une structure de données qui permet une association cléélément, où chaque élément est associé à une clé, et où chaque clé correspond à un seul
élément. Elle consiste en un tableau dont les cases sont appelées alvéoles, et une fonction de
hachage. Elle fait donc correspondre la clé d'un élément à une valeur qui est utilisée comme
index pour cet élément dans la table de hachage. Le but de cette structure de données est
d'accéder le plus rapidement possible à un élément à partir de sa clé.
L'algorithme de la table de hachage est soit basé sur l'ensemble des séquences
générées par séquençage, soit sur le génome de référence. Le but de la table de hachage est de
créer un ensemble de « seed » de la forme 110011, par exemple, où les 1 représentent une
position dans la séquence, et le nombre de 1 est le poids du « seed ». Ainsi, à chaque « seed »
correspondent d’une part les séquences générées, et d’autre part le génome de référence.
Grâce à l’utilisation d’un algorithme complexe, il va être possible, par l’intermédiaire des
« seeds » de faire correspondre une séquence générée à la séquence d’origine (FLICEK et
BRINEY, 2009).
Par exemple, parmi les 28 premières pb d’une lecture, il est construit huit tables de
hachage correspondant à une longueur de 8 et un index de 6 (Figure n°7).
39
Figure n°7 : Stratégie d'alignement basée sur des tables de hachage, d'après FLICEK et
BRINEY, 2009
2. Alignement par la Transformée de Burrows-Wheeler
La Transformée de Burrows-Wheeler est une technique utilisée en compression de
données.
Elle nécessite deux étapes. La première étape est la modification du génome de
référence, qui permet de rassembler les séquences qui se répètent. Tout d'abord, la chaîne de
caractères à coder doit être copiée dans un tableau carré en décalant la chaîne d'un caractère
vers la gauche à chaque nouvelle ligne. Ces lignes sont ensuite classées par ordre
alphabétique. Nous savons que, grâce au décalage, chaque dernière lettre de chaque ligne
précède la première lettre de la même ligne, sauf pour la ligne originale dont on notera la
position. De plus, comme les lignes sont rangées par ordre alphabétique, on peut retrouver la
première colonne du tableau grâce à la dernière colonne (Figure n°8).
Le texte codé est alors constitué de la dernière colonne précédée de la position du texte
original.
La deuxième étape, est la création d’un indice final, qui permet alors une lecture de
positionnement rapide sur le génome (FLICEK et BRINEY, 2009).
40
Figure n°8 : Méthode d’alignement basée sur la transformée de Burrows-Wheeler,
d'après FLICEK et BRINEY, 2009
Afin d’obtenir l’alignement d’une séquence de 14- mer, les points de début et de fin de la
séquence sont notées (^ et $), puis un tableau est établi où chaque ligne correspond à la
séquence de la ligne précédente décalée d’un nucléotide sur la gauche (1).
Les séquences sont ensuite triées par ordre alphabétique (2).
A partir des séquences triées, on récupère les nucléotides de la dernière colonne, qui
correspondent à la séquence transformée (3). Cette séquence a la même longueur que la
séquence originale mais présente des nucléotides dans un ordre différent.
B. L'assemblage des séquences génomiques
1. Qu'est-ce qu'un assembleur?
Un assembleur est un programme informatique dont la fonction est de combiner les
séquences obtenues en séquences contigües, aussi appelées contigs. Le principe de
l'assembleur repose sur le fait que deux séquences se chevauchant proviennent
vraisemblablement de la même région.
L’une des étapes principales est le « scaffolding » ou échaffaudage. Cette étape a pour
but de définir l’ordre et l’orientation des contigs les uns par rapport aux autres, ainsi que les
espaces qui les séparent.
Des indices statistiques tels que la taille maximale, la taille moyenne, la taille cumulée,
ou le N50 des contigs (longueur du contig/ scaffold dont les séquences les plus grandes
couvrent 50% de la longueur totale de l'assemblage) permettent d’estimer la qualité d’un
assemblage (MILLER et al., 2010). Le postulat est que plus les contigs formés sont grands,
41
moins il y aura de trous dans la séquence génomique reconstituée. Toutefois, il est nécessaire
de vérifier la justesse des contigs formés (la présence de contigs chimériques notamment).
2. Les difficultés de l'assemblage des données
La principale difficulté lors d’un assemblage est la présence de répétitions dans les
génomes séquencés. En effet, lorsque deux séquences se chevauchent parfaitement,
l’assembleur l’interprète comme provenant de la même région génomique. Néanmoins, il est
possible que des séquences soient répétées au sein du génome, ainsi l’assembleur va former
des contigs chimériques et de trous dans l’assemblage final.
Afin de limiter ce problème, deux solutions sont possibles. La première est d’utiliser
une technique de séquençage produisant des séquences les plus longues possibles. Si une
lecture est plus longue que la répétition, la présence de séquences spécifiques de la répétition
permettra de résoudre le problème. L’autre solution est d’utiliser une banque de séquences
dite « paired-end ». Les séquences produites sont regroupées par paires dont l’orientation et la
distance les séparant sont renseignées, ajoutant une contrainte à l’assembleur qui doit
respecter ces deux critères supplémentaires lors de la recherche de chevauchements entre
séquences.
3. Les techniques d'assemblage
a. La méthode « overlap-layout-consensus »
Cette méthode est l’une des premières utilisées avec succès pour assembler une
séquence génomique (MILLER et al., 2010). Le principe général est de fusionner des
séquences chevauchantes, en commençant par celles ayant les chevauchements les plus
significatifs, jusqu’à la formation d’une séquence unique (Figure n°9).
•
Etape "overlap": identification des paires chevauchantes
La première étape, dite overlap, a pour but d’aligner les séquences deux à deux. A
chaque alignement va correspondre un score, qui dépendra du pourcentage d’identité
nucléotidique et de la longueur de cet alignement entre deux séquences.
•
Etape "layout": organisation des séquences chevauchantes en une séquence
contiguë
L’étape de layout permet de déterminer l’ordre dans lequel les séquences vont être
assemblées. Les paires de lecture alignées vont être sélectionnées en fonction de leur score, et,
si l’alignement est considéré comme cohérent, les deux séquences sont fusionnées pour
former un contig.
42
Cette étape est la plus difficile ; en effet, il est complexe de déterminer la cohérence de
l’alignement entre deux séquences. Il va alors être primordial de différencier les
chevauchements réels, des chevauchements dus à une répétition.
•
Etape "consensus": Correction des erreurs et production d'une séquence
consensus
Cette dernière étape consiste à établir la séquence consensus des contigs obtenus lors
de l’étape de layout. Ainsi, il est important de déterminer à chaque position quelle base est la
plus représentée.
Figure n°9 : Assemblage par l’algorithme Overlap Layout Consensus, d’après
COMMINS et al., 2009
Les zones de chevauchement sont identifiées. Chaque lecture est représentée graphiquement
comme un nœud, et les chevauchements sont représentés comme des lignes reliant les deux
nœuds impliqués. L'algorithme détermine le meilleur chemin à travers le graphe. Les
informations redondantes (par exemple, les nœuds et les lignes non utilisés) sont éliminées.
Ce procédé est réalisé plusieurs fois et les séquences qui en résultent sont combinées pour
donner la séquence consensus finale.
43
b. La méthode du graphique « De Bruijn »
Cette méthode est très utilisée car elle permet d’éviter l’étape de layout (PEVZNER et
al., 2001).
Dans un premier temps, les séquences à assembler vont être fragmentées en sousséquences de même taille (k), appelées k-mer. Deux k-mer vont pouvoir être assemblés si leur
séquence ne diverge que par le premier nucléotide de l’un et le dernier nucléotide de l’autre.
De cette façon il est possible d’établir un lien entre chacun des K-mer (Figure n°10).
Néanmoins, la présence des répétitions rend plus difficile cet assemblage.
Cette technique nécessite une fragmentation préalable, ce qui semble paradoxal pour
un assemblage. Néanmoins, en évitant l’étape de layout, cette technique permet l’assemblage
d’un nombre important de séquences. En effet, contrairement à l’algorithme Overlap Layout
Consensus qui nécessite un calcul pour chaque alignement entre deux séquences, l’approche
de Bruijn repose sur le fait qu’une identité parfaite doit exister entre deux séquences pour
qu’elles se chevauchent.
Figure n°10 : Représentation du graphe de Bruijn permettant l’assemblage génomique
de deux séquences
Les deux séquences chevauchantes sont découpées en 4-mer. Les nœuds du graphe
représentent les séquences communes de longueur k-1=3. Deux sous-séquences sont reliées
s’il existe une concordance de séquence entre les 3 premiers nucléotides de l’un et les 3
derniers de l’autre. Il est alors possible de fournir la séquence consensus.
GGCCAA
CCAATT
GGCC
GGCC
GCC
GCCA
CCAA
CAAT
AATT
GCCA
CCA
CCAA
CAA
AATT
AAT
CAAT
Séquence consensus : GGCCAATT
44
4. Le choix d'un assembleur
L’utilisation d’un assembleur particulier sera conditionnée par de nombreux
paramètres tels que la stratégie de séquençage utilisée, la présence de séquences
chevauchantes ou encore la quantité de données.
Les assembleurs utilisant la méthode « overlap-layout-consensus » sont plutôt utilisés
pour des séquences allant de 100 à 800 pb tandis que la méthode graphique « De Bruijn » est
plutôt employée avec des séquences de 25 à 100 pb (MILLER et al., 2010).
Toutefois, ce principe d’assemblage est particulièrement sensible aux erreurs car une
identité parfaite entre K-mer est requise pour valider un lien. Ainsi en pratique, l’assemblage
de séquences par cette méthode demande des séquences possédant peu d’erreurs pour être
efficace.
45
46
DEUXIÈME PARTIE:
APPLICATION DU SÉQUENÇAGE
HAUT DÉBIT: LA DECOUVERTE DE
NOUVEAUX VIRUS
47
48
I. INTÉRÊT DU SÉQUENÇAGE HAUT DÉBIT DANS LA DECOUVERTE DE
NOUVEAUX VIRUS
A. Approche métagénomique pour l'identification de nouveaux virus
1. Intérêt d'une approche métagénomique
Les agents pathogènes d’origine virale sont une source importante d’infections
émergentes, notamment lors de la transmission de virus des animaux à l’homme. Les études
épidémiologiques suggèrent que les nouveaux agents infectieux restant à découvrir sont
nombreux (WOOLHOUSE et al., 2008). Ainsi, l’identification et la caractérisation des
nouveaux agents viraux est primordiale. Nous pouvons citer comme exemples récents
d’agents viraux zoonotiques émergents, le virus de la grippe aviaire H5N1 dont l'épidémie a
débuté en 2003 en Corée, et plus récemment au début de l'année 2013 le virus de la grippe
aviaire H7N9 en Asie. Une épidémie a marqué l'histoire, la grippe humaine à H1N1, aussi
appelée grippe espagnole de 1918 qui a fait des millions de morts. Il est alors important de
pouvoir mettre en place une surveillance épidémiologique de ces agents viraux, mais cela
nécessite une connaissance exacte de ces virus, qui n'est pas toujours permise par les
méthodes d'analyse traditionnelles.
Les progrès technologiques ont permis le développement des analyses
métagénomiques, qui consistent en une étude indépendante de l'ensemble des populations
microbiennes (microbiome) dans un échantillon en analysant les séquences nucléotidiques
contenues dans les échantillons (BEXFIELD et al., 2010). Les différents microorganismes
constituant un microbiome peuvent comprendre les bactéries, les champignons et les virus.
L'ADN des micro-organismes présents dans un échantillon donné est extrait puis
cloné. Il est alors possible de séquencer l'ADN cloné. Cet ADN doit ensuite être comparé à
des génomes connus, afin de tenter de savoir à quelle famille et genre viral, voire espèce
virale il appartient. Ceci peut aboutir à la découverte de virus inconnus. Cette technique ne
nécessitant pas d’étape de culture virale, il est possible de mettre en évidence les virus non
cultivables.
Avec le développement de la métagénomique, ce n’est plus seulement les virus en tant
qu’agents pathogènes qui sont étudiés. Il est aujourd’hui possible de caractériser les viromes
d’êtres vivants grâce à une approche métagénomique.
Le virome (également nommé métagénome viral) est la collection de tous les virus qui
se trouvent dans ou sur les êtres vivants (WYLIE et al., 2012). Le virome des êtres vivants
comporte à la fois des virus eucaryotes et procaryotes (bactériophages) (Figure n°11).
L’analyse des viromes est essentielle afin de comprendre comment les communautés
microbiennes influent sur la santé et les maladies humaines ou animales.
49
Figure n°11 : Schématisation des composants du virome humain, d'après WYLIE et al.,
2012
Les cercles représentent les différents composants du virome, qui ont été caractérisés par
séquençage métagénomique. Suite à l’identification des virus, leurs effets sur la santé
humaine et la communauté microbienne doivent être déterminés. Des exemples de questions à
se poser et des implications associées à chaque composant du virome sont inscrits dans les
cases.
2. Analyse des données obtenues par métagénomique
a. L’assemblage des séquences
Avant l'analyse des données, les séquences obtenues par le séquençage des
échantillons d'ADN doivent être assemblées. Les différentes technologies de séquençage
n'offrent pas les mêmes caractéristiques techniques. Les algorithmes de reconstitution
évoluent en permanence, et s’adaptent aux nouvelles technologies de séquençage. Cette phase
est chronophage, et nécessite des contrôles permettant d’avoir un retour sur la qualité de la
technique employée dans un projet.
50
b. La bio-analyse: l'exploitation des données
Le défi de la métagénomique consiste à relier les informations génomiques issues des
clones, à l’organisme ou à l’écosystème duquel l’ADN a été extrait. Les analyses
métagénomiques actuelles se basent sur la comparaison entre des séquences non identifiées et
une banque de données de séquences connues, afin de déterminer le contenu taxonomique
d’un échantillon d’intérêt. L’arbre taxonomique représentatif des organismes en présence est
ainsi dessiné. De ce fait, le choix de la banque de données de référence est une décision
cruciale, puisqu’elle influence directement l’interprétation des résultats. Une telle banque doit
fournir des données les plus représentatives voire les plus exhaustives possible sur le plan
taxonomique, car un taxon non présent dans la banque sera bien sûr impossible à identifier
dans l’échantillon soumis à cette banque.
La majorité des virus ont été découverts en utilisant le programme Basic Local
Alignment Search Tool (BLAST) qui compare les séquences nucléotidiques détectées à celles
d'une base de données, et s'appuie sur le fait que les nouveaux virus ont une certaine
homologie avec les virus connus (BEXFIELD et KELLAM, 2010).
B. Les différentes techniques d'identification de nouveaux virus
1. L'évolution des techniques d'identification de nouveaux virus
Aux techniques de virologie dites classiques, incluant la sérologie, la culture cellulaire,
la microscopie électronique, l'inoculation à l'animal, se sont progressivement substituées des
approches moléculaires. En effet, ces techniques présentaient plusieurs limites : la culture
d’un virus in vitro nécessite notamment de connaître les besoins du virus en question, donc de
connaître le virus lui-même, et ce dernier peut ne pouvoir se multiplier que sur des cellules
spécifiques. On imagine ainsi la difficulté de découvrir un nouveau virus. De nombreux virus
ne sont même pas cultivables in vitro, et le seul moyen de les multiplier pour les étudier est de
les injecter dans un organisme qu’ils peuvent infecter. L'apparition de la microscopie
électronique a été un grand progrès pour la virologie, c'est un outil extrêmement puissant qui
a permis de visualiser les particules virales; cependant pour identifier des virus par
microscopie électronique, il faut qu’ils soient en quantité abondante et de morphologie
spécifique, ce qui limite l’intérêt cette méthode.
C'est pour ces différentes raisons que les techniques moléculaires ont permis une
grande avancée en virologie. Les techniques d'amplification d'acide nucléique (PCR) puis,
plus récemment, l'hybridation sur micropuces d'ADN sont désormais plus communément
utilisées (BEXFIELD et KELLAM, 2010).
Concrètement, la technique de PCR permet la détection d'une dizaine de virus, celle
des micropuces de plusieurs centaines, voire quelques milliers pour les puces de dernière
génération. Les génomes viraux composés d’ADN ou d’ARN peuvent ainsi être détectés,
piégés et analysés, même s’ils sont présents en quantités infinitésimales.
Les micropuces à ADN comprennent des sondes d'oligonucléotides (ou des segments d'ADN)
fixées sur une surface solide. Toutes les séquences complémentaires (marquées par des
nucléotides fluorescents) dans un échantillon s'hybrident à la sonde de la puce. Les résultats
de l'hybridation sont détectés et quantifiés par fluorescence. L'utilisation de micropuces a
51
permis la découverte de nouveaux virus d'origine animale comme les Bornavirus à l'origine
de la maladie de la dilatation proventriculaire chez les psittacidés sauvages (KISTLER et al.,
2008).
2. L'émergence du séquençage haut débit pour la découverte de nouveaux
virus
a. Apport du séquençage haut débit pour la découverte de nouveaux
virus
Le développement du séquençage à haut débit a constitué une véritable révolution, en
permettant le développement d’une approche métagénomique. A titre d'exemple, la technique
de micropuces s'est avérée inefficace dans le cas du virus Schmallenberg, qui n'a pu être
identifié que grâce au séquençage profond d'échantillons sanguins provenant de bovins
malades (HOFFMANN et al., 2012).
b. Analyse des données générées par le séquençage haut débit dans le
cadre d’une approche métagénomique
L’analyse des données du séquençage haut débit est divisée en trois étapes.
La première est le nettoyage des séquences, qui permet d'éliminer les nucléotides de
faible qualité, et de réduire les répétitions de séquence par un assemblage.
La seconde étape est le filtrage des séquences virales. En effet, il est nécessaire
d’éliminer les séquences de l’hôte, par une technique de comparaison de bases de données.
Les séquences du génome de l'homme et d’animaux de différentes espèces ont été
sélectionnées et analysées par des logiciels. Les séquences non hôtes sont regroupées en
contigs, et sont comparées à des séquences déjà connues.
L'étape finale du processus d'analyse de la séquence consiste en une assignation
provisoire taxonomique et en une étude phylogénétique des séquences.
Une fois l’agent viral mis en évidence, celui-ci doit être relié ou non à la pathogénie.
Les postulats de Koch proposent des critères permettant de définir un lien de causalité entre
l'agent et la maladie. Ces postulats ne peuvent pas toujours être appliqués dans le cas d’une
approche métagénomique, car les agents identifiés ne sont parfois pas cultivables. Ainsi, ces
postulats ont été révisés (LIPKIN, 2009). Un nouveau critère d’association a été développé.
Des tests PCR basés sur les séquences identifiées ou les séquences consensus des agents
correspondants sont mis en place. Il faut ensuite rechercher si les agents identifiés sont plus
fréquents chez les cas que chez les contrôles.
52
c. Les critères de choix des séquenceurs haut débit pour la
découverte de nouveaux virus
Une étude comparative de la sensibilité analytique des deux plateformes de
séquençage, en l’occurrence le pyroséquençage 454 et l'Illumina GA, a été réalisée. La
capacité de détection de virus présents au sein d'échantillons biologiques artificiellement
infectés par onze différents virus a été comparée avec les deux techniques (CHEVAL et al.,
2011).
La technique de séquençage Illumina a une plus grande sensibilité que le pyroséquençage
454, et cette sensibilité est proche de celle de la PCR; en effet, deux virus non identifiés par le
pryoséquenceur 454 ont été identifiés par le séquenceur Illumina.
Le séquençage Illumina permet de générer un nombre élevé de séquences de 95 à 600
Gb, contre 500 Mb pour le pyroséquenceur 454, ce qui permet d'augmenter les chances de
détection de nouveaux virus inconnus ou dont les séquences sont éloignées de celles connues.
53
II. DÉCOUVERTE DE NOUVEAUX VIRUS CHEZ L’HOMME PAR SÉQUENÇAGE
HAUT DÉBIT
A. Etude du virome humain par séquençage haut débit
1. Virome de l’appareil respiratoire humain
L’appareil respiratoire humain est fortement exposé aux micro-organismes. Plusieurs
études ont permis d’identifier des agents viraux tels que des Rhinovirus, des Coronavirus, des
virus grippaux, des virus parainfluenza, le virus respiratoire syncitial et des Adénovirus.
Néanmoins, lors de suspicion d’atteinte virale respiratoire, les tests diagnostiques de 30 %
des cas suspectés sont négatifs pour ces agents précédemment cités. On peut alors supposer
que soit les tests utilisés ne sont pas efficaces, soit l’agent causal n’est pas lié à l’un des virus
identifiés. En effet, depuis le début du 21ème siècle, plusieurs virus à tropisme respiratoire ont
été mis en évidence, tel que le Metapneumovirus, le virus du syndrome respiratoire aigu
sévère (SRAS), et le Bocavirus. Certains n’intervenant pas dans les pathologies respiratoires,
sont néanmoins transmis par les voies respiratoires, tels que des Herpesvirus et des
Enterovirus.
LYSHOLM et al. (2012) ont effectué en Suède de Mars 2004 à Mai 2005 une étude de
la population virale des voies respiratoires humaines, à partir d’échantillons de liquide
d'aspiration naso-pharyngés. L’étude a porté sur des patients hospitalisés présentant une
atteinte grave des voies respiratoires inférieures.
Une approche de séquençage par métagénomique a été choisie, afin de caractériser les
virus présents, car cette technique offre l’approche la plus impartiale. Un séquençage haut
débit a été réalisé sur l’ensemble de la population virale par la plateforme 454, et a permis de
générer 703 790 séquences, dont 110 931 se sont révélées être d'origine virale en utilisant un
processeur à classement automatisé. Suite au séquençage, un assemblage de novo a été réalisé.
Cette étude a permis de mettre en évidence chez les 210 patients, 39 espèces de virus,
et plusieurs sous-types viraux. La grande majorité des virus identifiés dans cette étude
appartiennent à trois familles dominées par quatre espèces virales, à savoir les
Paramyxoviridae (virus respiratoire syncitial, et Parainfluenza virus), les Orthomyxoviridae
(virus Influenza) et les Picornaviridae (Rhinovirus), tous connus pour être présents dans
l'appareil respiratoire humain (Figure n°12). Il a également été mis en évidence d'autres virus
connus, tels que le Bocavirus humain, le Coronavirus humain et le virus de la rougeole. Les
résultats obtenus dans cette étude ont permis d’élargir le nombre de souches, de types et
d'espèces d’Anellovirus et de Rhinovirus identifiées. En particulier, il a été identifié un
nouveau type de Rhinovirus, le Rhinovirus C humain.
Les résultats mettent en évidence la force de la méthode pour non seulement identifier
de nouveaux virus, mais aussi pour identifier les virus qui étaient susceptibles d'être oubliés
par des tests cliniques ordinaires, sans préjuger forcément de leur signification pathologique.
54
Figure n°12 : Proportion des virus présents dans les échantillons des voies respiratoires,
d’après LYSHOLM et al., 2012
A) Répartition en plusieurs familles virales selon les homologies de séquence
Répartition virale au sein de la famille des Paramyxoviridae (B) et des Picornaviridae (C).
2. Virome cutané humain
La peau est un écosystème complexe qui héberge une flore très hétérogène. La
majorité des études de la flore cutanée humaine a porté sur des bactéries. La flore virale a été
plus rarement étudiée du fait que la plupart des virus de la peau ne sont pas cultivables (au
moins actuellement) et n'ont pas de séquences consensus pouvant être ciblées par des
méthodes moléculaires. Néanmoins, il a été prouvé que les virus représentent une part
importante de la flore cutanée, comme c’est le cas par exemple du portage asymptomatique
des Papillomavirus bêta et gamma sur peau saine (ANTONSSON et al., 2003). Récemment, il
a été montré que certains représentants du genre Polyomavirus étaient aussi très fréquents.
En effet, les méthodes de métagénomique fonctionnelle ont été récemment appliquées
à des échantillons cutanés, et ont conduit à la description de nouvelles espèces de virus
humains appartenant à la famille des Polyomaviridae. L'une des illustrations la plus frappante
de ces découvertes est l'identification récente du Polyomavirus dans les cellules de Merkel,
isolé primitivement à partir d'une tumeur agressive neuroendocrine de la peau, le carcinome à
cellules de Merkel (MCC), mais détecté par la suite à la surface de la peau de la plupart des
personnes en bonne santé, ainsi que sur la peau normale ou pathologique de patients souffrant
de maladies cutanées bénignes ou malignes non-MCC, ce qui soulève la question de sa réelle
implication dans l'oncogenèse des cellules de la peau (WIELAND et al., 2009).
L’étude menée par FOULONGNE et al., (2012) s’est intéressée à la population virale
présente à la surface de la peau de cinq personnes à peau saine et d’une personne présentant
un carcinome à cellules de Merkel. Elle a utilisé une approche métagénomique par
séquençage haut débit par la plateforme Illumina, avec pour objectif de décrire la flore
cutanée en s’intéressant particulièrement à la composante virale.
55
Les résultats de cette étude mettent en évidence la grande diversité de la flore cutanée
virale avec notamment la présence de nombreux Polyomavirus, Papillomavirus et Circovirus
détectés sur une peau saine. De plus, cette approche a permis d'identifier de nouvelles espèces
virales de Papillomavirus et Circovirus, et a confirmé la faible diversité génétique au sein des
Polyomavirus humains.
Cette étude confirme l’existence d’une flore virale présente sur la peau saine des
individus. Néanmoins, il serait intéressant d’étudier la variabilité du virome cutané en
fonction du contexte pathologique et anatomique de la peau. La participation de ces virus,
seuls ou associés, à des troubles cutanés ou des phénomènes d’oncogenèse reste à étudier.
3. Virome digestif humain
Le virome digestif humain referme plusieurs millions de virus, plus ou moins
pathogènes pour l’hôte. Il peut exister un équilibre entre les virus et son hôte, selon le
contexte environnemental. En cas de modification de cet environnement, l’équilibre est
perturbé.
Une étude menée par VICTORIA et al. (2009) porte sur l’analyse des génomes viraux
présents dans des échantillons de selles prélevés chez 35 enfants d'Asie du Sud atteints de
paralysie flasque aiguë non polio, et chez 6 personnes saines ayant été en contact avec les
malades. La paralysie flasque aiguë (PFA), est caractérisée par l'apparition rapide d’une
paralysie asymétrique, et peut être causée par une variété d'agents viraux seuls ou dans un
contexte de co-infections. Outre les souches sauvages et vaccinales de Poliovirus, plusieurs
Enterovirus non poliomyélitiques, y compris les espèces d'entérovirus humains A sérotype
EV71, ont également été associés à la PFA, et sont liés à plus d'un tiers des cas de PFA chez
les enfants (SOLOMON et WILLISON, 2003).
Tous les échantillons de l’étude ont été testés pour le Poliovirus, et sont revenus
négatifs.
Le séquençage des échantillons a été effectué par deux techniques en parallèle : la
méthode Sanger, et le pyroséquençage 454.
Le séquençage Sanger a permis d’identifier une moyenne de 1.4 virus par échantillon,
contre 2.6 virus par échantillon pour le pyroséquençage ; le séquençage haut débit est donc
une méthode plus sensible.
Cette étude a permis de détecter dans les échantillons de selles des enfants PFA des
virus entériques déjà connus, tels que des Rotavirus, Adenovirus, Picobirnavirus et différentes
espèces d'Enterovirus humains A (HEV-A à HEV-C), ainsi que de nombreux autres membres
de la famille des Picornaviridae, y compris le Parechovirus, le virus Aichi, le Rhinovirus, et
le Cardiovirus humain. De plus, il a été mis en évidence un nouveau virus appartenant au
genre Picornaviridae et quatre nouvelles espèces virales (membres des familles
Dicistroviridae, Nodaviridae et Circoviridae, et du genre de Bocavirus).
Les échantillons provenant des six patients sains ayant eu un contact avec une personne PFA
contenaient également de nombreux virus, en particulier l'Enterovirus humain C.
56
Trois des 35 cas de PFA étudiés étaient mortels: l'échantillon de l'enfant 5550, dans lequel six
virus distincts des eucaryotes (Adenovirus, Cosavirus appartenant à la famille des
Picornaviridae, HEV-B, HEV-C, le Rhinovirus, le virus de la mosaïque du concombre) ont
été observés; le patient 2296 co-infecté par le VHE B et un Cosavirus, et le patient 6178 coinfecté par les Dicistrovirus et Cosavirus. Alors que les Cosavirus sont présents dans les trois
cas mortels, la différence de prévalence des Cosavirus entre l’ensemble des patients PFA et
les sujets sains n'était pas statistiquement significative.
Il a donc été impossible de conclure quant à l’existence d’une association significative
entre la maladie et la présence d'un virus pathogène.
Afin de pouvoir caractériser la pathogénicité des nouveaux virus mis en évidence, il
serait intéressant de développer l'étude dans différents groupes démographiques.
Néanmoins, cette étude est l’une des premières études du virome digestif par
séquençage haut débit. Elle représente une perspective majeure pour la connaissance plus
approfondie du virome digestif humain, et permettra notamment la découverte de nombreux
virus digestifs jusqu’à ce jour inconnus.
B. Découverte de nouvelles pathologies virales par séquençage haut débit
1. Mise en évidence par séquençage haut débit du virus Lujo
En 2008, une épidémie inexpliquée de fièvre hémorragique a été signalée en Afrique
du Sud et en Zambie. Le premier cas documenté concernait un guide touristique en Zambie,
qui est décédé après son hospitalisation. Trois employées de l’hôpital l’ayant soigné, avaient
aussi été contaminées et étaient décédées. Lors de cet épisode de flambée de fièvre
hémorragique, aucun diagnostic n’avait été posé.
BRIESE et al. (2009), ont analysé les ARN extraits de tissus hépatiques et de sérum
des personnes décédées, par pyroséquençage haut débit.
En 72 heures, des fragments de séquençage, représentant environ 50 % du génome
d’un nouveau virus, ont été découverts. Les analyses phylogénétiques ont confirmé la
présence d’un nouveau membre de la famille Arenaviridae. Le virus a été provisoirement
nommé Lujo, en référence à son origine, à LUsaka, en Zambie, et à JOhannesburg, en Afrique
du Sud. Les arbres phylogénétiques ont été établis à partir des séquences du génome viral
(Figure n° 13). Ces arbres montrent que le virus Lujo diverge des Arenavirus de l’ancien et du
nouveau monde, ce qui suggère que le virus Lujo se distingue des virus déjà caractérisés dans
cette famille.
L’utilisation du pyroséquençage haut débit a donc permis l’identification rapide d’un
nouvel agent viral pathogène. Le virus Lujo mis en évidence présente une importante
virulence pour l’homme, avec un taux de létalité de 80%.
57
Maintenant que la séquence du virus de Lujo est connue, une identification rapide des
cas pourra être possible par la mise en place de tests spécifiques.
Néanmoins, la cause de l’émergence de ce virus chez l’Homme reste inconnue.
Figure n°13 : Les analyses phylogénétiques du virus Lujo, d’après BRIESE et al., 2009
Les relations phylogénétiques du LUJV avec les Arenavirus connus ont été analysées à partir
des séquences nucléotidiques des segments L (A), S (B), et des séquences d’acides aminés du
segment L (C), des régions codantes NP (D), G2 (E), et G1 (F)
58
2. Mise en évidence d’un nouvel Arenavirus par séquençage haut débit
En 2008, trois femmes de 64, 63 et 44 ans ont été transplantées avec respectivement le
foie et les deux reins d'un homme décédé à 57 ans d'une hémorragie cérébrale. Ce donneur
était revenu depuis dix jours d'un séjour en Yougoslavie au cours duquel il avait séjourné en
zone rurale. Dans les jours suivant l'intervention, les trois receveuses ont déclaré une
encéphalopathie fébrile qui a été fatale en quatre à six semaines.
Afin d'établir la cause des décès, l'équipe de PALACIOS et al. (2008), s'est intéressée
aux ARN extraits du foie et des reins transplantés. En l'absence d'agents infectieux identifiés,
les médecins ont eu recours au séquençage à haut débit afin d'identifier des séquences
microbiennes qui n'avaient pu être mises en évidence par les micropuces d’ADN, la sérologie
ou la PCR.
Le séquençage à haut débit a généré 103 632 séquences, dont 14 étaient spécifiques
d'un nouvel agent infectieux, un Arenavirus de l'Ancien Monde, qui n’a pas encore été
nommé. La présence de ce virus a été confirmée par culture, PCR, immunohistochimie et
sérologie. Les antigènes viraux ont été retrouvés dans le foie et les reins greffés. Des IgM et
des IgG ont été mises en évidence dans le sérum du donneur, témoignant d'une infection
récente.
Le pyroséquençage est un outil puissant pour la découverte d’agents pathogènes. Il a
permis dans ce cas de séquencer un nouvel Arénavirus, représentant un virus de l’ancien
monde et lié au virus de la chorioméningite lymphocytaire.
Les Arenavirus sont connus pour être transmis à l'homme par les aérosols induits à partir des
urines de rongeurs. L’un d’entre eux est responsable de la chorioméningite lymphocytaire.
Aucune transmission de cette sorte n'a pu être établie précisément chez le donneur. Mais le
voyage en milieu rural en Europe du Sud peut avoir occasionné la contamination.
59
III. DÉCOUVERTE DE NOUVEAUX VIRUS CHEZ LES ANIMAUX PAR
SÉQUENÇAGE HAUT DÉBIT
A. Chez les carnivores domestiques
1. Identification du Bocavirus Canin 3
Les Bocavirus appartiennent à la famille des Parvoviridae. Ils sont connus pour
infecter plusieurs espèces de mammifères, l'homme, les vaches, les porcs, les gorilles, les
chimpanzés, les chiens, les chats, et les chauves-souris. Les infections à Bocavirus peuvent
provoquer des symptômes respiratoires et gastro-intestinaux chez les jeunes animaux et les
humains, mais l’atteinte est souvent subclinique chez les adultes. Alors que de nombreux
Bocavirus ont été initialement identifiés dans les selles ou les sécrétions respiratoires, ils
peuvent également être trouvés dans le sang.
Deux espèces ont déjà été rapportées chez les chiens, le virus minute canin (VMC), à
l’origine de maladies néonatales et de troubles de la fertilité, identifié en 1967 dans les selles
d’un chien sain (MANTEUFEL et TRUYEN, 2008); et le Bocavirus Canin (CBoV), identifié
en 2011 dans des échantillons respiratoires de chiens malades et sains (KAPOOR et al.,
2012a).
Dans l’étude menée par LI et al. (2013), une étiologie infectieuse a été suspectée chez
un chien présentant une gastro-entérite hémorragique, une vascularite nécrosante, une
lymphadénite granulomateuse et une insuffisance rénale anurique. Les analyses effectuées en
post-mortem se sont révélées négatives pour le Parvovirus Canin 2, le Coronavirus entérique
canin, le virus de la maladie de Carré, Salmonella, Campylobacter, Clostridium perfringens,
Cryptosporidium et Giardia.
Dans cette étude, un pyroséquençage haut débit a été réalisé à partir d’extrait de
particules virales issues du foie de ce chien. Les séquences virales obtenues ont été comparées
à une base de données GenBank, et elles ont été identifiées.
Il a ainsi été mis en évidence un nouveau virus qui diverge des deux autres Bocavirus
canins connus, MVC et CBoV, et a été provisoirement nommé Bocavirus canin 3 (CnBoV3)
(Figure n°14).
La mise en évidence du CnBoV3 dans le foie révèle que le virus a probablement traversé les
muqueuses respiratoires ou digestives, qui sont les lieux de réplication des Bocavirus. La
détection d’épisomes par PCR a indiqué que la réplication virale a pu se produire dans les
hépatocytes, et qu’une virémie était également probable, mais l’absence de prélèvement
sanguin n’a pas pu le confirmer. Néanmoins, le rôle du CnBoV3 dans la maladie est difficile à
déterminer, d’autant que le pyroséquençage a également mis en évidence un Circovirus canin,
dont le génome avait été séquencé par KAPOOR et al. (2012b), et qui peut conduire à
l'épuisement lymphocytaire et l'immunosuppression chez le chien.
60
Figure n°14 : Arbre phylogénétique représentant le Bocavirus Canin 3 au sein du genre
Bocavirus, d’après LI et al., 2013
Cet arbre est basé sur les séquences d'acides aminés des protéines VP des espèces de
Bocavirus.
2. Identification des Kobuvirus et Sapovirus Canin
Une étude menée par LI et al. (2011) a pour objectif de caractériser la flore virale
intestinale de chiens.
L’analyse a porté sur les selles de 18 chiens diarrhéiques. Après enrichissement des
particules virales, l’ADN et ARN ont été extraits puis séquencés par pyroséquençage haut
débit. Les séquences générées ont été comparées à une banque de données GenBank. 10% des
séquences correspondaient à des séquences virales, dont les principales familles sont les
Parvoviridae, Picornaviridae, Caliciviridae et Coronaviridae; de plus, deux nouveaux virus
canins ont été identifiés à savoir le Kobuvirus et le Sapovirus canins (Tableau n°3).
61
Tableau n°3 : Virus mis en évidence par pyroséquençage dans les échantillons de selles
de chiens diarrhéiques, d’après LI et al., 2011
CPV2 : Parvovirus canin 2
CCoV : Coronavirus canin
Le genre Kobuvirus appartient à la famille des Picornaviridae, et comprend
actuellement trois espèces: le virus Aichi humain, le Kobuvirus bovin et le Kobuvirus porcin.
D’autres Kobuvirus ont récemment été caractérisés, chez l’homme (les Salivirus et
Klassevirus), et chez la chauve-souris. Les virus Aichi et Salivirus / Klassevirus sont des
agents de gastro-entérite humaine, tandis que les Kobuvirus bovin et porcin ont été détectés
chez des bovins et des porcs sains ou diarrhéiques. Le Kobuvirus bovin a également été
détecté dans les fèces de moutons en bonne santé.
Phylogénétiquement, le Kobuvirus canin est le plus proche parent génétique du virus
Aichi humain, ce qui reflète une origine commune et une divergence relativement récente, qui
laisse supposer la possibilité d’une transmission inter-espèces (Figure n°15).
La RT-PCR a montré que le taux de détection du Kobuvirus canin est relativement
élevé (5%), sans aucune différence de prévalence entre les chiens sains et diarrhéiques. Sur la
base de l'échantillonnage de chiens réalisé ici, la pathogénicité de ces nouveaux virus, si elle
était avérée, est donc susceptible d'être faible, au moins dans la population de chiens adultes
testés ici.
62
Figure n°15 : Organisation du génome du Kobuvirus canin (a), et analyse phylogénétique
des Kobuvirus (b), d’après LI et al., 2011
La région de P1 (grisée) a été utilisée pour construire l'arbre phylogénétique.
Le Sapovirus canin constitue un nouveau groupe dans le genre Sapovirus. Les
Sapovirus sont des virus à ARN appartenant à la famille des Caliciviridae. Il a été montré
que le genre Sapovirus est à l’origine de diarrhées chez l’homme, les porcs et les visons. La
classification des Sapovirus est basée sur la séquence de la capside virale. Ainsi, il existe 5
génogroupes distincts (GI à GV) : les Sapovirus humains appartiennent aux génogroupes GI,
II, IV, V, le Sapovirus porcin appartient au génogroupe GIII, et celui du vison n’est pas
classé.
Dans cette étude, il est décrit un nouveau génogroupe (GIX), composé des Sapovirus
canins (CaSaV1 et -2) (Figure n°16). CaSaV1 a été recherché dans les fèces de 200 chiens
diarrhéiques et 200 chiens en bonne santé en utilisant la PCR en temps réel. Un seul cas
d’infection a été détecté dans chaque groupe, ce qui indique que l’infection par CaSaV1 est
rare dans cette population de chiens. D'autres mesures de la prévalence chez les chiens
diarrhéiques et en bonne santé seront nécessaires pour déterminer le potentiel pathogène du
CaSaV. La grande divergence génétique entre CaSaV1 et 2 suggère que ces deux virus
pourraient avoir une pathogénicité et une virulence différentes.
63
Figure n°16 : Organisation du génome du Sapovirus canin (a), et analyse phylogénétique
des Sapovirus (b), d’après LI et al., 2011
La région VP1 (grisée) a été utilisée pour construire l'arbre phylogénétique.
La caractérisation de deux nouveaux virus canins à partir de seulement 18 échantillons
de matières fécales d'animaux diarrhéiques vivant dans une même région géographique,
indique qu'un nombre important de virus de chiens restent probablement à caractériser.
64
3. Identification du virus de l’hépatite C canine
On estime que 3% de la population humaine mondiale est chroniquement infectée par
le virus de l'hépatite C (VHC). Bien que le VHC ait été découvert il y a plus de 20 ans, son
origine reste obscure en grande partie parce qu'aucun homologue de virus animal n’avait été
identifié. Le VHC appartient au genre Hepacivirus, l'un des quatre genres de la famille des
Flaviviridae. Ces virus sont classés en trois genres établis (Flavivirus, Pestivirus et
Hepacivirus) et un genre proposé, Pegivirus.
Une étude menée par KAPOOR et al. (2011) s’est intéressée à caractériser la flore
virale respiratoire des chiens. Des échantillons respiratoires de chiens présentant des troubles
respiratoires ont été enrichis, les acides nucléiques viraux ont été amplifiés globalement, puis
ont été séquencés par un séquenceur haut débit.
L'analyse bioinformatique des séquences a révélé la présence de plusieurs séquences
sensiblement similaires aux Flavivirus. L'analyse phylogénétique de 6500 nt de séquence
génomique assemblée, a révélé la présence d'un virus génétiquement proche du virus de
l’hépatite C humain, nommé Hépacivirus canin (CHV) (Figure n°17).
Figure n°17 : Analyse phylogénétique représentant le CHV au sein des Flaviviridae,
d’après KAPOOR et al., 2011
L’analyse phylogénétique est basée sur les régions conservées des gènes de l'hélicase (motifs
I-VI) (A) et de l’ARN polymérase (B)
65
La protéine E2 du CHV présente une similarité remarquable avec la protéine E2 du
VHC qui est pourtant la partie la plus variable du génome de ce virus. En outre, le nombre et
la position des résidus cystéine dans la protéine E2 du CHV indiquent que même la structure
tertiaire de CHV est susceptible d'être plus proche du VHC que d'autres virus génétiquement
liés. Cependant, il y a des différences notables entre CHV et le VHC qui peuvent avoir des
répercussions biologiques. La plus frappante est l’absence de micro-ARN chez le virus canin,
dont la fonction chez le VHC est l’amélioration de la réplication du VHC dans le foie humain.
Il reste de plus à démontrer que le CHV est hépatotrope, car les titres viraux mis en
évidence dans le foie du chien sont faibles.
Les similarités mises en évidence entre le CHV et le VHC, et le fait que le CHV se
trouve à la racine des Hepacivirus suggèrent que les Hepacivirus ne sont pas limités aux
primates et que le VHC pourrait avoir été introduit dans la population humaine par contact
avec des chiens ou d'autres espèces non primates.
B. Chez les animaux de rente
1. Etude de viromes
a. Virome digestif des porcs
Les porcs sont le réservoir naturel d'une grande variété de virus capables de provoquer
des maladies humaines, y compris les virus de l'hépatite E, le virus Nipah, et le virus de la
grippe pandémique H1N1-2009 (ou de son ancêtre). La transmission zoonotique des
Norovirus porcins, Sapelovirus, et les Rotavirus a également été discutée.
La diarrhée chez les porcs peut avoir un impact important sur l'industrie porcine, où
les étiologies ne sont pas toujours identifiées. Chez les humains aux Etats Unis, 40% des cas
de diarrhée restent inexpliqués après de nombreux tests pour tous les agents pathogènes
diarrhéiques connus.
En raison de l'utilisation de porcs comme animaux de rente et de leur implication dans
des zoonoses virales, l’équipe scientifique de SHAN et al. (2011) s’est intéressée à prélever
les fèces de porcelets sains et diarrhéiques d'une ferme américaine de haute densité pour une
analyse métagénomique du virome des porcelets.
Les acides nucléiques totaux ont été séquencés par pyroséquençage haut débit. Les séquences
ont été assemblées et comparées à la banque de données Genbank.
Il a été mis en évidence une moyenne de 4,2 virus différents dans les selles de
porcelets en bonne santé ce qui reflète un niveau élevé d'infections asymptomatiques (P<
0.05). Chez les porcs diarrhéiques, il a été mis en évidence une moyenne de 5,4 virus
différents (P< 0.05).
66
Parmi les séquences virales identifiées, 89% possèdent des correspondances avec des
virus à ARN appartenant aux familles des Picornaviridae, Astroviridae, Coronaviridae et
Caliciviridae, et 1% sont liées aux familles de virus à ADN des Circoviridae et Parvoviridae
(Figue n°18).
Aucune concentration élevée d'un seul virus n'a été reliée à la présence de diarrhée. Pour les
Bocavirus et Coronavirus seulement, la prévalence était plus élevée chez les porcs
diarrhéiques.
La principale hypothèse est que les co-infections virales ont submergé les défenses
immunitaires des porcelets. Chez le porcelet, les anticorps maternels sont apportés par le
colostrum, ce qui assure une protection contre les infections auxquelles les truies ont déjà été
exposées. L'absence de symptômes chez certains porcelets fortement co-infectés peut être due
à la présence des anticorps maternels, surtout au début de l'allaitement. Ainsi, chez les
porcelets non sevrés 1.5 co-infections sont détectées en moyenne, alors que 5.2 sont détectées
chez les animaux plus âgés (P< 0.05).
Figure n°18 : Répartition des séquences d’acides nucléiques extraites de selles de porcs,
d’après SHAN et al., 2011
(A) Pourcentages respectifs des séquences d’acides nucléiques d’eucaryotes, de bactéries, de
phages et de virus eucaryotes et des séquences inclassables.
(B) Pourcentages respectifs des séquences d’acides nucléiques viraux en fonction de
différentes familles.
Outre les virus à ADN et ARN précédemment caractérisés, plusieurs génomes viraux
inconnus ou partiellement caractérisés ont également été identifiés, tel que des Astrovirus et
Bocavirus.
Les Astrovirus de porc peuvent être regroupés en 4 grands clades phylogénétiques.
Lors de cette étude, il a été mis en évidence un cinquième clade (PAstV5-33). La présence
d'une importante diversité d'espèce différente d'Astrovirus de porcs au sein d'une même ferme,
indique que la transmission du virus s'effectue en continu à partir de plusieurs sources.
67
Une étude par PCR des Astrovirus présents dans plusieurs fermes canadiennes a montré que
80% des jeunes porcs sains ont été trouvés infectés par divers Astrovirus porcins (LUO et al.,
2011). La détection de plusieurs espèces d'Astrovirus chez les porcs, ainsi que chez les
humains peut refléter la présence d'une transmission inter-espèces, et la présence d'autres
sources animales.
Plusieurs espèces de Bocavirus porcins ont récemment été caractérisées. Les
séquences du génome de Bocavirus obtenues ici sont liées aux séquences 6V et 7V des
Bocavirus identifiées en Chine et Suède. Dans cette étude, le taux de détection des Bocavirus
est de 25%, ce qui est inférieur à celui mis en évidence respectivement en Suède (46%) et en
Chine (70%). Ce taux d'infection apparemment plus faible peut être due à des différences
dans l'âge des animaux et/ou des tissus analysés, et dans les méthodes d'élevage et / ou à une
plus grande sensibilité de la détection des Bocavirus par PCR.
b. Virome intestinal des volailles
La maladie entérique virale est un important problème économique pour l'élevage des
volailles, et malgré de nombreuses recherches, il n'a été mis en évidence aucun agent
étiologique viral particulier.
Toutefois, il a été mis en évidence grâce au diagnostic moléculaire que plusieurs virus
circulent en permanence au sein des élevages de volailles aux Etats-Unis. Ces virus sont
principalement des virus à ARN, tels que les Astrovirus de dinde, les Reovirus de dinde, et les
Rotavirus aviaires, mais il a également été mis en évidence des virus à ADN tel que le
Parvovirus de dinde.
L'objectif de l'étude menée par DAY et al. (2010), était de caractériser tous les virus à
ARN présents dans l'intestin des dindes.
Des intestins de dinde ont été récupérés chez des animaux provenant de plusieurs fermes
américaines. Les prélèvements ont subi plusieurs traitements afin de permettre le séquençage
des ARN viraux totaux par pyroséquençage.
Cette étude a permis de mettre en évidence plusieurs génomes viraux appartenant aux
familles des Picornaviradae, Caliciviridae, et aux Picobirnavirus de dinde. De plus, cette
approche a révélé de nombreuses séquences homologues à celles de Picobirnavirus,
Sapovirus et Lagovirus, mais non encore décrites chez les dindes.
Les données de séquençage générées par cette approche permettront la sélection de
tests de diagnostic moléculaire spécifiques pour les virus entériques. En outre, cette étude
ouvre la voie à des analyses ultérieures de métagénomique comparative, afin de caractériser
les virus communément trouvés dans les élevages atteints de syndromes entériques par
rapport à des élevages sains, de comparer la circulation régionale des virus entériques, et de
comparer les techniques nutritionnelles spécifiques et leurs effets sur le microbiome intestinal.
68
2. Découverte de nouveaux agents viraux pathogènes
a. Découverte d’un nouveau Picornavirus chez les dindonneaux
atteints d'hépatite
L’hépatite virale des dindes est une maladie très contagieuse qui affecte les jeunes
dindonneaux. La maladie est souvent subclinique, provoquant des lésions histologiques
mineures, et se manifeste lors d’un stress, ce qui entraîne des taux de morbidité et de mortalité
variables (KLEIN et al., 1991). Des taux de létalité allant jusqu'à 25% ont été rapportés. Les
signes cliniques sont l'anorexie, la dépression, la diarrhée et la perte de poids, ce qui est
compatible avec un diagnostic d’entérite, le second diagnostic le plus fréquent fait chez les
dindonneaux à travers les États-Unis. L'identification d'un ou plusieurs agents pathogènes et
le développement de tests diagnostiques spécifiques conduiraient à une meilleure
compréhension des étiologies de l’hépatite virale et aideraient à la mise en place de mesures
prophylactiques.
L’étude menée par HONKAVUORI et al. (2011), s’est intéressée au séquençage des
ARN viraux provenant de cloaques, d’intestins, du pancréas, de la bile et du foie de
dindonneaux malades de 8 élevages de Californie.
Le pyroséquençage haut débit de ces ARN viraux a montré des séquences de
Picornavirus. Le clonage ultérieur du génome a révélé une organisation semblable à celle des
Picornavirus avec une conservation des motifs au sein des régions P1, P2 et P3, mais aussi
des caractéristiques uniques, comme une séquence de 1,2 kb codant pour un gène de fonction
inconnue à la jonction des régions P1 et P2.
Les données moléculaires, anatomiques et immunologiques suggèrent que l’hépatite
virale est causée par un nouveau Picornavirus, provisoirement nommé virus de l’hépatite du
dindonneau.
L’ARN viral a été mis en évidence par PCR en temps réel dans le cloaque, les
intestins, le pancréas, la bile et le foie des dindonneaux malades ; ce qui est compatible avec
une transmission oro-fécale. De plus, cet ARN viral a été retrouvé dans des écouvillons
cloacaux de deux dindonneaux asymptomatiques. Ces animaux avaient été logés dans une
ferme infectée par le virus de l’hépatite. Ces observations concordent avec une infection
subclinique.
La prochaine étape pour contrôler cette maladie, est la mise en place de tests de dépistage non
invasifs du virus de l’hépatite des dindonneaux, tels que des écouvillonnages cloacaux par
exemple.
69
b. Mise évidence du virus Schmallenberg chez les bovins
Au cours de l’été 2011, de nombreux cas de diarrhée fébrile associée à une perte
d’appétit et une chute importante de la production de lait ont été rapportés chez des bovins
adultes en Allemagne. Ces symptômes étaient transitoires et disparaissaient en général en
quelques jours. La recherche de nombreux agents pathogènes dans des prélèvements
provenant de bovins malades, tels que les Pestivirus, l’Herpès bovin de type 1, le virus de la
fièvre aphteuse, le virus de fièvre catarrhale ovine, le virus de la maladie épizootique
hémorragique, le virus de la fièvre de la Vallée du Rift, s’est révélée négative malgré
l’utilisation d’approches innovantes.
Au sein d’une ferme près de la ville de Schmallenberg, trois échantillons de sang
prélevés, en octobre 2011, chez des vaches laitières présentant des signes cliniques, ont été
analysés par une approche métagénomique (HOFFMAN et al., 2012). Un échantillon sanguin
d’un animal sain provenant d’une autre ferme a également été analysé. Les acides nucléiques
ont été séquencés par pyroséquençage 454, puis les séquences ont été cartographiées.
Sept séquences d’Orthobunyavirus ont été mises en évidence à partir d’échantillons
d'ARN issus des 3 animaux malades.
Le génome des Bunyavirus comprend trois segments d’ARN simple brin de polarité
négative : les segments L (Large), M (Medium) et S (Small). Le segment L code l’ARN
polymérase ARN dépendante (ou protéine L), le segment M code le précurseur des
glycoprotéines d’enveloppe GN et GC (anciennement appelées respectivement G2 et G1) et
également la protéine Non Structurale m (NSm), et le segment génomique S permet la
transcription d’un unique ARNm qui code la nucléoprotéine N et, par un décalage du cadre de
lecture ouvert, la protéine Non Structurale (NSs) qui serait impliquée dans la pathogénicité.
La comparaison de ces séquences avec des séquences connues a été réalisée par
BLAST. Le genre Orthobunyavirus comprend à lui seul plus de 170 virus. L’analyse
phylogénétique des segments génomiques du nouveau virus identifié a permis de le
rapprocher d’autres Orthobunyavirus connus.
Le nouveau virus partage 69% d’identité avec le virus Akabane pour le segment L,
71% avec le virus Aino pour le segment M, et 97% avec le virus Shamonda pour le segment
S. Cette incohérence peut être due à l'absence de publication sur les séquences des segments
M et L du virus Shamonda. Ainsi, seules les séquences du segment S ont été utilisées pour
l’analyse phylogénétique. La séquence du segment S codant pour la région de la protéine de
nucléocapside a été alignée avec les séquences des sérogroupes Simbu, Bunyamwera, et
Californie (Figure n°19). Ainsi, l'arbre phylogénétique montre que la séquence du segment S
est proche de celle du virus Shamonda au sein du sérogroupe Simbu (Figure n°19). Le
nouveau virus fut dénommé Schmallenberg virus (SBV), du nom de la ville d’où provenaient
les prélèvements d’origine.
Les membres des Bunyaviridae sont largement distribués en Asie, en Afrique et en
Océanie et la transmission se fait principalement par des moucherons piqueurs du genre
Culicoides spp. et par les moustiques. Le sérogroupe Simbu comprend les virus Akabane,
Aino et Shamonda, qui sont pathogènes pour les ruminants. Toutefois, les virus de ce
sérogroupe n'avaient pas été préalablement détectés en Europe.
70
Figure n°19 : Relations phylogénétiques entre le virus Schmallenberg et les virus des
sérogroupes Simbu, Bunyamwera et Californie au sein de la famille des
Orthobunyavirus, d'après HOFFMAN et al., 2012
L'arbre phylogénétique est basé sur la séquence d'acides nucléiques du segment S.
Des échantillons supplémentaires provenant de fermes dont le bétail était touché par la
maladie, ont été testés par RT-qPCR. Douze échantillons principalement issus de bovins
adultes de 6 fermes différentes, étaient positifs pour le nouveau virus. Toutes les fermes ayant
des bovins testés positifs ont été prélevées en septembre, octobre et novembre dans le Land de
Rhénanie du Nord-Westphalie. Le dernier cas, qui date de décembre, est un jumeau de veau
mort-né.
La corrélation entre la présence du virus Schmallenberg et les signes cliniques
observés fut confirmée quelques temps plus tard par une infection expérimentale sur trois
bovins âgés de neuf mois, qui permit de noter que la virémie induite par le SBV semblait être
transitoire (4 jours).
Suite à cette découverte, un test de détection du virus SBV par RT-PCR en temps réel
a été développé. Dans le même temps, un système de surveillance épidémiologique était mis
en place au niveau européen. Au cours du mois de décembre, les Pays-Bas ont signalé pour la
première fois une action tératogène du SBV chez des ovins, dont les caractéristiques
s’assimilent aux effets observés avec les virus Akabane et Aino. Ainsi, des femelles infectées
71
en début de gestation sont capables de transmettre le virus au fœtus (ovins, caprins et bovins)
qui développent alors des malformations atypiques conduisant, la plupart du temps, à une
mort intra-utérine ou à un décès rapide après leur mise bas.
En France, les premiers cas sont apparus en Janvier 2012, dans des élevages ovins en Moselle
et en Meurthe et Moselle. Fin août 2012, la présence du SBV avait été détectée dans près de
3197 élevages dans 74 départements français, dont 1143 élevages ovins, 2019 élevages bovins
et 35 élevages caprins.
C. Chez la chauve-souris
1. Etude du virome digestif de la chauve-souris
Les chauves-souris sont des réservoirs naturels de nombreux virus émergents. Certains
virus de chauves-souris sont à l’origine de maladies humaines graves, tels que des Lyssavirus,
les virus Hendra, Nipah et Ebola. La plupart des virus connus de chauves-souris ont été
découverts chez des chauves-souris apparemment en bonne santé. Quand les chauves-souris
sont infectées expérimentalement avec l’Henipavirus ou le virus de la rage, les chauves-souris
excrètent le virus mais ne présentent pas de signes cliniques comme ceux observés chez les
autres animaux et les humains. Ce phénomène est peut-être dû à l'adaptation du virus à leur
hôte, à une co-infection avec des virus non pathogènes, ou à des caractéristiques spécifiques
du système immunitaire de la chauve-souris lors de l'infection virale. Compte tenu de la
multitude des espèces et de la large distribution géographique des chauves-souris, ces
animaux peuvent être le réservoir de beaucoup de virus inconnus supplémentaires. C’est
pourquoi l’étude de GE et al. (2012) s’est intéressée à caractériser le virome digestif des
chauves-souris par séquençage haut débit.
Dans cette étude, six échantillons de fèces de chauves-souris ont été recueillis à partir
de six endroits différents en Chine, et ont été analysés par une approche métagénomique. Les
échantillons ont subi un séquençage haut débit par la plateforme Illumina/Solexa. Le
séquençage a généré 8 746 417 séquences.
Parmi ces séquences, 13 541 (0,15%) présentent des similitudes avec des séquences de
phages, et 9,170 (0,1%) ont une similarité de séquences avec des virus eucaryotes. Un total de
129 contigs ont été assemblés (> 100 nucléotides) et comparés avec GenBank: 32 contigs ont
été liés à des phages, et 97 étaient liées à des virus d’eucaryotes.
Les séquences et contigs les plus fréquents liés aux virus d’eucaryotes sont
homologues à des séquences de Densovirus, Dicistroviruses, Coronavirus, Parvovirus et
Tobamovirus, correspondant à des virus d'invertébrés, de vertébrés et de plantes.
Ces résultats indiquent qu'un grand nombre de virus inconnus d'insectes et de
mammifères circulent parmi les populations d'insectes et de chauves-souris en Chine.
L'abondance des virus d'insectes dans les fèces de chauves-souris reflète l'alimentation
insectivore de celles-ci.
Cette étude a permis de caractériser pour la première fois le virome de chauve-souris
en Chine. Cette avancée biologique va permettre de guider la découverte et l'isolement des
nouveaux virus dans l'avenir.
72
2. Mise en évidence d'un nouveau Papillomavirus chez la chauve-souris
La découverte de nouveaux virus chez les animaux élargit notre connaissance de la
diversité virale et des zoonoses potentiellement émergentes.
L'utilisation de la PCR a permis de découvrir de nombreux virus d'espèce animale.
Néanmoins, les familles les plus éloignées et certains nouveaux virus ne pourront être mis en
évidence que par une approche métagénomique sans à priori par séquençage haut débit.
Dans l’étude de TSE et al. (2012), 96 échantillons rectaux de chauves-souris en bonne
santé ont été séquencés par séquençage haut débit, par pyroséquençage 454.
Un nouveau Papillomavirus a été mis en évidence chez la chauve-souris. Il présente
60% d’identité nucléotidique avec le Papillomavirus canin (CPV6). Il a été identifié chez une
chauve-souris de l’espèce commune Miniopterus schreibersii ne présentant aucun signe
clinique, et a alors été nommé le Papillomavirus Miniopterus schreibersii de type 1
(MscPV1). Son génome présente une organisation similaire à celle des autres Papillomavirus.
Malgré les similarités nucléotidiques entre les génomes de MscPV1 et CPV6, l’analyse
phylogénétique basée sur la séquence du gène L1 a montré que MscPV1 et Erethizon
dorsatum papillomavirus (EdPV1), un papillomavirus isolé chez le porc-épic américain, sont
plus étroitement liés. Néanmoins, l’analyse phylogénétique a montré que le MscPV1 ne peut
pas être placé dans aucun des genres existant, il représente donc le premier membre d'un
nouveau genre de Papillomavirus, le Dyolambda-papillomavirus.
Il a été rapporté dans des études que cette espèce de chauve-souris est migratrice, et
peut circuler sur une assez longue distance au printemps pour trouver des sites de
reproduction. Compte tenu des possibilités de portage asymptomatique et des longues
distances que ces chauves-souris peuvent parcourir, une étude sur la transmission interespèces s’avèrerait nécessaire pour élucider l'origine de l'évolution et de l'épidémiologie de ce
nouveau genre de Papillomavirus de chauve-souris.
D. Etude du virome d'une colonie d'abeilles présentant un syndrome
d'effondrement des colonies
Le syndrome d'effondrement des colonies d'abeilles (CCD) est caractérisé par la
disparition rapide d'une colonie de la population adulte d'abeilles. Le phénomène du CCD a
été signalé pour la première fois en 2006; toutefois, des apiculteurs ont noté des baisses de la
taille des colonies compatibles avec le CCD dès 2004. On estime que 23% des exploitations
apicoles aux États-Unis ont souffert du CCD au cours de l'hiver 2006-2007. Ces apiculteurs
ont perdu en moyenne 45% de leurs colonies. La principale hypothèse émise a été que le CCD
est dû à l'introduction d'un nouvel agent infectieux. Cette hypothèse a été soutenue par le fait
que le CCD est transmis lors de la réutilisation des équipements de colonies CCD et que cette
transmission peut être interrompue par l'irradiation de l'équipement avant sa réutilisation.
Une étude menée par COX-FOSTER et al. (2007), s'est intéressée à analyser par
métagénomique des échantillons d'abeilles atteintes ou non de CCD. Les échantillons ont été
soumis à un pyroséquençage 454.
73
Les résultats ont montré la présence de bactéries, champignons, parasites, métazoaires
et virus.
L'analyse des données de séquençage a identifié sept virus à ARN précédemment associés à
des maladies chez les abeilles, y compris les membres de la famille des Dicistroviridae et du
genre Iflavirus. Deux iflavirus, le virus du couvain sacciforme et le virus des ailes déformées
(DWV), ainsi que deux Dicistrovirus, le virus de la cellule royale noire (BQCV) et le virus de
la paralysie aigue de l'abeille (ABPV), ont été trouvés à la fois dans les colonies non-CCD et
CCD.
Deux autres Dicistrovirus, le virus du cachemire (KBV) et le virus de la paralysie
aiguë israélienne (IAPV) des abeilles, ont été mis en évidence uniquement dans les
échantillons CCD.
L’association entre chacun de ces 2 agents pathogènes majeurs (IAPV et KBV),
identifiés par l’approche métagénomique, et le CCD, a alors été évaluée sur un plus grand
nombre d’échantillons issus de cas atteints de CCD (30 colonies) et de colonies contrôles (21)
sur une période de 3 ans (2004-2007). La présence de l’IAPV est alors apparue fortement
corrélée au CCD : 83,3 % des colonies atteintes (25/30) étaient porteuses du virus alors qu’il
n’a été détecté que dans une colonie non atteinte par ce syndrome (4,8 %) (Tableau n°4).
L’IAPV est actuellement proposé comme « marqueur significatif » du CCD.
Tableau n° 4 : Analyse des échantillons d'abeilles testés en tant qu’agents étiologiques
potentiels du CCD, d’après COX-FOSTER et al., 2007
Les colonnes représentent le pourcentage d’échantillons positifs parmi les échantillons CCD,
non CCD et le total.
La valeur prédictive positive représente la probabilité qu'un résultat positif pour un agent
donné soit associé à CCD.
La sensibilité est la probabilité que les résultats des tests seront positifs dans tous les cas
CCD.
La spécificité est définie comme la probabilité que tous les échantillons non-CCD seront
associés à des résultats négatifs.
74
TROISIÈME PARTIE :
APPLICATION DU SÉQUENÇAGE
HAUT DÉBIT Á L’ÉTUDE DES
QUASI-ESPÈCES VIRALES
75
76
I. L'ÉTUDE DES QUASI-ESPÈCES VIRALES PAR SÉQUENÇAGE HAUT DÉBIT
A. Notion de quasi-espèce virale et intérêt en virologie
1. Qu'est-ce qu'une quasi-espèce virale?
a. Définition d'une quasi-espèce virale
Une quasi-espèce virale est un ensemble de variants viraux issus d'une même séquence
virale principale, générée par mutation au cours de la réplication virale (DOMINGO et al.,
2012). Initialement décrite par EIGEN en 1971, pour modéliser l'évolution des premières
macromolécules sur la terre, le concept de quasi-espèce a été appliqué à des populations
virales au sein de l'hôte (NOVAK, 1992). Selon la théorie d'Eigen, une séquence principale
va produire, suite à la réplication, des versions mutantes selon une certaine probabilité de
distribution. Eigen a utilisé le terme «queue de comète» pour désigner les erreurs de copie, les
termes «quasi-espèce» et «spectre mutant," maintenant utilisés en virologie, ont été introduits
plus tard.
Les quasi-espèces virales comprennent un ou plusieurs variants majeurs,
quantitativement prédominant(s), ainsi qu’une multitude de variants mineurs, présents en
proportions variables dans l’ensemble de la population virale. C’est cet équilibre qui définit
une quasi-espèce virale. Mais celui-ci n’est pas immuable, il évolue au cours du temps selon
les modifications de l’environnement au sein duquel la quasi-espèce se réplique.
Le concept de quasi-espèce virale, concerne principalement les virus à ARN, qui
présentent une population virale importante et un taux de mutation élevé.
Il est possible de définir une représentation physique des quasi-espèces. EIGEN et al.
en 1993, ont défini un espace où toutes les séquences sont représentées. Une séquence donnée
est associée à un point de l'espace. Une autre séquence est placée à une unité de séquence, si
elle diffère par un nucléotide, et ainsi de suite. Ainsi, dans cet espace, une quasi-espèce forme
un nuage de points centré sur la séquence d'origine (Figure n°20).
77
Figure n°20 : Représentation physique des quasi-espèces virales, d’après LAURING et
ANDINO, 2010
La réplication virale, associée à un taux élevé de mutation, est à l'origine de plusieurs mutants
au cours de chaque cycle de réplication.
Sur cet arbre, chaque branche représente des variants issus d’une séquence principale (point
noir), et les cercles représentent les cycles de réplication. La distribution des séquences après
plusieurs cycles de réplication, forme un "nuage" autour de la séquence principale. Cette
représentation est simplifiée par rapport à la réalité, où d'autres connections interviennent
entre les variants.
b. Les mutations à l’origine d'une diversité virale
Les mutations de la séquence virale principale vont être, au cours de la réplication, à
l’origine de quasi-espèces virales. La survenue de ces mutations est plus fréquente chez les
virus à ARN que chez les virus à ADN. En effet, pour différents virus à ARN infectant des
animaux, le taux intrinsèque des mutations, dû uniquement aux erreurs d’incorporation de
nucléotides par la polymérase, serait de l’ordre de 10 – 4 à 10 – 5 par nucléotide et par cycle de
réplication (DRAKE et HOLLAND, 1999). Autrement dit, près d’une erreur serait introduite
par génome et par cycle de réplication, sachant que la taille moyenne du génome d’un virus
est d’environ 104 nucléotides.
Ce taux élevé de mutation est dû au fait que l’ARN polymérase ne possède pas de
mécanisme correcteur (activité exonucléase 3'-5'), contrairement aux ADN polymérases.
La variabilité des génomes viraux repose sur plusieurs mécanismes, tels que les
mutations ponctuelles et des phénomènes d’insertion/délétion de bases nucléotidiques.
Les mutations ponctuelles ne touchent qu'un seul nucléotide. Ces mutations peuvent
être silencieuses, si elles n’entraînent pas de modification au niveau de la chaîne d’acides
aminés et n’affectent pas une région codante.
Une mutation d'une région codante peut entraîner un changement d'acide aminé, qui
peut être délétère, bénéfique au virus, ou ne pas avoir d'incidence. Dans le cas où la mutation
78
est bénéfique au virus, le mutant viral va progressivement devenir majoritaire par rapport au
virus d'origine.
Les insertions et délétions vont être à l'origine d’un décalage du cadre de lecture, qui
modifiera la traduction.
2. L'intérêt des quasi-espèces virales en virologie
a. Les conséquences de la présence de quasi-espèces virales
Plusieurs facteurs externes peuvent intervenir au cours du processus d'adaptation d'un
virus, comme le système immunitaire, le changement de milieu d'un nouvel hôte ou
l'administration de médicaments. En réponse à ce facteur externe, la proportion des différents
variants est modifiée.
Le taux de mutation élevé des virus à ARN leur permet de s’adapter à différentes
contraintes. Par exemple, il peut limiter l’efficacité d'un traitement thérapeutique ciblé, ainsi
que celle de la vaccination. Il est alors essentiel de comprendre la dynamique d'évolution des
populations virales, afin d'adapter la mise en place de traitements et des vaccins.
De plus, l'autre enjeu de la connaissance des quasi-espèces, est le développement de
tests permettant d'identifier ces variants, et de connaître le plus précisément possible leur
pathogénie et leurs possibilités adaptatives.
b. L'intérêt des quasi-espèces virales en virologie: la notion de seuil
d'erreur
La notion même des quasi-espèces virale implique la présence d'une limite supérieure
du taux de mutation, appelée le seuil d'erreur (BIEBRICHER et EIGEN, 2005). Ainsi, une
augmentation du taux de mutation au-delà d'un certain seuil va entraîner une perte d'équilibre
au sein d’une quasi-espèce, à l'origine d'une disparition de la séquence virale principale et
donc de la diminution de l'infectiosité.
Ainsi, il a été montré pour le virus de la fièvre aphteuse, que la présence d'une base
mutagène (la 5-fluorouracile ou 5-azacytidine) dans la culture cellulaire, entraîne une
diminution de l'infectiosité, et la disparition du virus (SIERRA et al., 2000). En effet, les
traitements mutagènes ont abouti à une augmentation de 2 à 6,4 fois du taux de mutation.
79
B. L'intérêt du séquençage haut débit dans l'étude des quasi-espèces virales
1. Apports du séquençage haut débit dans l'étude des quasi-espèces virales
L'analyse des quasi-espèces virales s'effectue par une technique dite de reséquençage.
Cette technique est utilisée lorsque la séquence du génome de référence est déjà connue. Le
séquençage à haut débit va alors être utilisé afin de connaître les variations génomiques d'un
échantillon donné par rapport à la séquence de référence.
L'introduction des nouvelles générations de séquençage a permis de changer
radicalement l'analyse de la diversité virale (BEERENWINKEL et ZAGORDI, 2011).
En effet, l'un des points déterminants du séquençage haut débit est sa sensibilité plus élevée
que celle de la PCR, qui lui permet de mettre en évidence des variants mineurs présents à une
fréquence inférieure à 20% dans la population virale (WANG et al., 2007).
2. Principe du séquençage haut débit d'une population virale
a. Préparation de l'échantillon
L'étude de la diversité virale dépend de la qualité de l’échantillon et de sa procédure de
préparation. Afin de minimiser le risque d’erreurs, chaque étape requiert une attention
particulière.
i. L'extraction du génome viral
La première étape de la préparation de l'échantillon à séquencer est l'extraction du
génome viral. Les protocoles choisis d'extraction du génome et d'élimination des ARN et
ADN d'autres sources que virales, vont dépendre des procédures mises en place pour le
séquençage (BEERENWINKEL et al., 2012).
Plusieurs situations peuvent se présenter :
- le virus à étudier est connu, le séquençage haut débit va être réalisé sur l'amplicon.
Des amorces spécifiques vont permettre l'amplification du génome viral sans aucun
enrichissement en amont. Néanmoins, il est souvent avantageux d'éliminer l'ADN ou l'ARN
contaminant par un traitement aux DNases ou RNases. Par exemple, l'étude génomique de
l'ARN du VIH nécessite l'élimination des génomes d'ADN proviraux;
- le virus à étudier est connu, mais une approche aléatoire est choisie pour la
réalisation du séquençage. En raison de la forte hétérogénéité de certains virus, il peut être
désavantageux d'utiliser des amorces spécifiques du virus. Ce type d'approche ne permet pas
de différencier le génome viral de tout autre acide nucléique. Ainsi, l'élimination des acides
nucléiques contaminants est obligatoire, principalement dans l'étude de génomes viraux ne
constituant qu'une faible proportion de l'échantillon biologique. Il est mis en place un
traitement DNase et RNase, une filtration, et une centrifugation;
80
- le virus à étudier est inconnu, et une approche aléatoire est mise en place, et il faut
donc éliminer l’ARN et ADN contaminants.
ii. L'amplification du génome viral
Le séquençage haut débit nécessite une quantité importante d'ADN. Ainsi, suite à
l'extraction du génome viral, une amplification ADN est effectuée.
La majorité des virus formant des quasi-espèces étant des virus à ARN, une étape de
transcription inverse est alors nécessaire avant l'amplification virale; elle permet de
transformer les molécules d'ARN en ADNc. Cette étape de rétro-transcription est une étape
limitante dans le processus de séquençage haut débit, et ceci pour plusieurs raisons :
- les transcriptases inverses sont des enzymes sujettes à des erreurs, en raison de l'absence de
toute activité de relecture. Ces erreurs sont difficilement différenciables des véritables
mutations constituant les variants viraux, car celles-ci sont introduites dans la première étape
d'amplification.;
- lors de l'étape de transcription inverse, les ADNc en cours de synthèse peuvent se dissocier
de l'ARN matrice, et venir se fixer sur une région homologue de l'ARN, à l'origine d'ADNc
chimériques artéfactuels ; on appelle ce phénomène le "template switching" (LUO et
TAYLOR, 1990).
Une étude s'est intéressée au séquençage direct de l'ARN sans passage par un ADNc
(OZSOLAK et al., 2009). Les scientifiques ont développé une méthodologie de synthèse
utilisant des oligoribonucléotides, et l'ont appliquée au séquençage direct de l'ARN
polyadénylé de la levure des Saccharomyces cerevisiae. Les ARN poly A ont été capturés sur
une surface revêtue d'oligonucléotides poly dT ; ainsi, le séquençage a pu être amorcé à partir
des queues polyA. Cette approche permet de s’affranchir des erreurs engendrées par la
synthèse d’ADNc, et de séquencer tous les types d’ARN, de n’importe quelle taille. Le taux
d’erreur est de 4%, dont la majorité sont des bases manquantes (2-3%), alors que le taux
d’insertion est de 1-2% et le taux de substitution est de 0.1-0.3%.
Le développement de techniques permettant le séquençage direct des ARN sera une
révolution dans le domaine du séquençage.
b. L'analyse des données
Une fois le séquençage terminé, les différentes données de séquençage vont devoir être
analysées. Cette étape est l'une des plus complexes, puisqu'à partir d'une grande quantité de
fragments d'ADN viraux, il va falloir reconstituer les quasi-espèces virales.
Lors d'études de reséquençage, les séquences générées vont être comparées au génome
de référence, on parle d'alignement. Cette tâche peut être accomplie par des cartes de
séquences courtes ou des algorithmes d'alignement.
L'alignement de séquences biologiques est une technique fondamentale en
bioinformatique, qui consiste à identifier les séries de caractères similaires qui apparaissent
81
dans le même ordre dans les deux séquences, et à inférer les modifications (substitutions,
insertions et suppressions) impliquées dans les différences d'une séquence en l'autre. Cette
technique permet de déduire, sur la base de la similarité de séquence, si deux ou plusieurs
séquences biologiques sont potentiellement homologues, donc si elles partagent un ancêtre
commun, permettant ainsi de mieux comprendre l'évolution des séquences.
L'une des étapes primordiale du séquençage est la différenciation des mutations des
variants viraux par rapport aux erreurs de séquençage. Les erreurs survenues in vitro lors des
étapes de séquençage, sont très proches des mutations que présentent les quasi-espèces
virales; ainsi, il est impossible de les différencier sans avoir recours à des hypothèses et
expériences complémentaires.
L'impact de ces erreurs sur des études portant sur la diversité virale peut être important. Pour
illustrer de problème, considérons un taux d'erreur de 0,2% par paire de bases, et une longueur
de lecture de 400 bp. La quantité des séquences avec au moins une erreur est de 1- (10.002)400 = 0.551. En d'autres termes, plus de 55% des séquences sont incorrectes. Ainsi,
toute estimation de la diversité sur une base des données de séquences brutes sera
considérablement surestimée.
L'idée principale concernant la correction de ces erreurs, repose sur l'hypothèse que les
erreurs techniques ont une distribution aléatoire et sont rares, par rapport aux variants viraux
qui vont être échantillonnés en fonction de leur fréquence dans la population. De ce fait, un
ensemble de séquences semblables les unes aux autres est susceptible de représenter un
groupe de variants viraux. Pour chaque groupe, la séquence de base est la séquence
consensus, la taille du groupe va dépendre de la fréquence des variants. ZAGORDI et al.,
(2010) se sont intéressés au développement de méthodes de calcul permettant cette analyse.
La dernière étape est l'identification des variants viraux, et la détermination de leur
fréquence au sein de la population (BEERENWINKEL et al., 2012).
Plusieurs approches sont alors possibles:
- l'analyse peut porter sur les SNP de chaque séquence, ainsi l'étude repose sur la comparaison
d'un seul nucléotide à la fois (Figure n°21);
- une approche locale, qui définit une fenêtre d'étude. Cette fenêtre est définie par le nombre
de nucléotides et de séquences analysées. Les séquences vont être comparées les unes aux
autres, et seront regroupées selon leur degré de similarité (Figure n°22);
- une approche globale, qui s'intéresse à l'ensemble des séquences. Suite à l'alignement des
séquences en fonction des chevauchements, sous la forme d'un graphe, les haplotypes vont
correspondre à l'ensemble des chemins qu'il est possible de parcourir sur le graphe (Figure
n°23).
82
Figure n°21 : Différentes approches pour l'identification des haplotypes issus d'un
séquençage haut débit, d'après BEERENWINKEL et al., 2012
Trois haplotypes dérivent d'une séquence virale principale, dont les fréquences relatives sont
60% (bleue A), 30.% (orange B), 10% (vert C).
20 séquences ont été générées par séquençage haut débit.
Les erreurs de séquençage sont en rose.
Figure n°22 : Approche locale de l'estimation des haplotypes, d'après BEERENWINKEL
et al., 2012
Une fenêtre locale de séquences générées pas séquençage haut débit est représentée ici (cf.
figure n°23). Les séquences les plus similaires sont regroupées, ce qui permet la formation de
trois groupes correspondant à trois haplotypes (A, B, C)
La séquence soulignée est la séquence de base de l'haplotype, et la taille de chaque groupe
correspond à la fréquence des haplotypes.
83
Figure n°23 : Approche globale de l'estimation des haplotypes, d'après BEERENWINKEL
et ZAGORDI, 2011
a) Cinq séquences de 4pb, couvrent l'ensemble d'une région génomique de 8pb.
b) Après alignement, il a été mis en évidence des séquences chevauchantes: un
chevauchement entre GAGG, CAGG et GGTA, et l'un entre GGTA, TAGC et TAAG.
c) Un haplotype est construit en parcourant les séquences du graphe en commençant par le
nœud de départ, jusqu'au nœud final.
Dans cet exemple, quatre haplotypes différents sont compatibles avec les séquences
observées.
CAGGTAAG
84
II. EXEMPLES D'ÉTUDES DE QUASI-ESPÈCES VIRALES CHEZ L'HOMME PAR
SÉQUENÇAGE HAUT DÉBIT
A. Etude du Virus de l'Immunodéficience Humaine
1. Le VIH: un virus d'une grande variabilité
Le VIH est un rétrovirus du genre Lentivirus. Deux sous-types de VIH sont connus: le
VIH-1, le plus présent dans le monde, et le VIH-2, moins contagieux que VIH-1. Le VIH-1
est classé en quatre sous-groupes: M, O, N et P.
Chez les individus infectés, le VIH-1 présente une importante capacité de variabilité
virale, qui est l'une des caractéristiques majeures de ce virus. Cette variabilité est liée aux
erreurs effectuées par la reverse transcriptase, lors de la rétrotranscription de l'ARN viral en
ADN, et à sa dynamique de réplication très élevée. Le génome du VIH étant composé de près
de 9 200 bp, et il a été montré qu'il se produit approximativement entre une et 10 mutations à
chaque cycle viral (PRESTON et al., 1988). Cette variabilité est aussi la conséquence de
recombinaisons entre les génomes viraux.
Parmi les virus à ARN, les quasi-espèces du VIH sont les plus étudiées. En effet, une
connaissance précise de ces quasi-espèces est primordiale pour la mise en place d'un
traitement. VRANCKEN et al. (2010), s'est intéressé aux différents domaines d'application du
séquençage haut débit, afin de permettre l'amélioration de la connaissance de ce virus, tels que
la détection de variants minoritaires, des variants résistants au traitement antiviral, et
l'adaptation des variants à la réponse immunitaire.
2. Etude de l’adaptation du VIH à la réponse immunitaire de l'hôte
Les mécanismes permettant au VIH de contourner la réponse immunitaire voire de
détruire les cellules du système immunitaire ne sont pas totalement compris. Néanmoins, il a
été prouvé que l’échappement à la réponse immunitaire par la génération de variants viraux
permet la persistance du virus. Il est donc important de comprendre comment apparaissent ces
variants.
Il peut être intéressant de coupler le typage des antigènes leucocytaires humains
(HLA), aussi connus sous le nom de complexe majeur d’histocompatibilité, à la détection des
changements adaptatifs du génome viral. Le complexe majeur d'histocompatibilité code pour
les molécules d'histocompatibilité dont la fonction est de présenter les antigènes aux
lymphocytes T. Le typage des antigènes leucocytaires consiste à placer les lymphocytes à
tester en présence d'anticorps anti-HLA de spécificité connue, avec du complément
hétérologue de lapin et un colorant vital.
85
BIMBER et al. (2009) ont utilisé le pyroséquençage 454, afin de suivre l’évolution des
lymphocytes T CD8+ chez des macaques infectés par le virus d'immunodéficience simienne
(SIV). Il a été mis en évidence que l’échappement au LT-CD8+ apparaissait dès 17 jours
après l’infection, et que les épitopes viraux présentent une importante variabilité.
Chez l’ensemble des animaux testés, les premiers variants viraux apparaissent dès 17 jours, et
la majorité des variants représentent moins de 20% de la population virale.
Le pyroséquençage haut débit a permis d’étudier l’évolution de l’échappement aux LT
CD8+ lors d’une infection par le virus de l’immunodéficience, et a permis de révéler la
complexité des épitopes viraux du SIV reconnus par les LT CD8+.
Ces résultats ont été utilisés par HUGHES et al. (2010), qui se sont intéressés à l'étude
de la fréquence des variants viraux en fonction du temps post-infection.
Le pyroséquençage a été appliqué à une région du gène TAT du SIV codant pour
l'épitope SL8, chez sept macaques infectés.
Le séquençage a été appliqué aux échantillons prélevés 1, 2, 3, 4, 8 et 20 semaines après
l'infection de quatre animaux (rh2122, rh2124, rh2126 et rh2127) et 88 semaines (r00014),
201 semaines (r91113), et 221 semaines après l'infection d'animaux.
Cette étude a montré que la sélection naturelle conduit à une augmentation du nombre
des haplotypes dans la région codant l'épitope étudié, ce qui favorise l'échappement
immunitaire. Après 20 semaines d'infection, un nouvel haplotype de séquence de la région de
l'épitope était présent à une fréquence supérieure à 50% chez chacun des quatre singes, mais
l'haplotype prédominant n'était pas le même chez les quatre singes. Ainsi, il est mis en
évidence que les mutations aléatoires apparaissent sous pression immunitaire, sont
susceptibles de devenir prédominantes au sein d'une population virale et permettent
l'échappement à la réponse immunitaire.
La relation entre la fréquence des haplotypes de l'épitope au moment de l'inoculation,
et post-infection à des temps rapprochés suit une hyperbole.
3. Etude des variants minoritaires du VIH
a. Importance des variants minoritaires
Le séquençage traditionnel des produits de RT-PCR est le test standard pour
déterminer les variants présentant des mutations résistantes aux médicaments lors de thérapie
contre le VIH. Mais l'une des limites majeures de cette technique est son incapacité à détecter
les variants viraux résistants au traitement, qui représentent moins de 20-25 % de la
population virale de l'échantillon du plasma du patient (PALMER et al., 2005). Or, plusieurs
études ont montré que ces variants minoritaires jouent un rôle majeur dans l'échec des
traitements antiviraux (LECOSSIER et al., 2005).
86
VRANCKEN et al. (2010), ont montré que le séquençage des produits de RT-PCR par
pyroséquençage 454 offre l'avantage de conférer une grande sensibilité de détection des
variants mineurs, et une longueur de séquençage relativement importante.
b. Mise en évidence par pyroséquençage de variants minoritaires du
VIH-1 résistants au traitement antiviral
Une étude conduite par WANG et al. (2007), s'intéresse à la mise en évidence, par la
technique de pyroséquençage 454, des séquences de variants minoritaires des gènes codant
pour les protéases et réverse transcriptases du VIH-1.
Le séquençage est effectué à partir des ARN viraux provenant d'extraits d'échantillons
sanguins de patients infectés par le VIH-1.
Le pyroséquençage 454 a permis de mettre en évidence 58 variants viraux par
échantillon, contre 8 pour le séquençage direct par PCR. De plus, le séquenceur haut débit a
mis en évidence au total 72 variants viraux dont la fréquence est supérieure à 20%, et 392
variants viraux dont la fréquence est inférieure à 20%. En comparaison, la méthode de PCR
direct de Sanger, a quant à elle identifié la majorité des variants viraux (76%) dont la
fréquence est supérieure à 20%, mais n'a détecté que quelques variants mineurs (2%) dont la
fréquence est inférieure à 20%.
De plus, parmi les échantillons des 7 patients VIH-1 positifs et traités aux antiviraux,
16 mutations résistantes aux médicaments n'ont été mises en évidence que par le
pyroséquençage. Cinq de ces mutations sont présentes dans plus de 10% des séquences, six
dans 2 à 10% et 5 dans moins de 2%. Ces données ont été comparées avec la méthode de
séquençage Sanger; ainsi l'une des mutations de la protéase présente dans 22% des séquences
générées par le séquençage haut débit, n'a été détectée que dans 20% des clones, et deux des
mutations de la reverse transcriptase présentes dans respectivement 10% et 15.4% des
séquences du séquençage haut débit, n'ont été identifiées que dans 10.9% et 34.8% des clones.
Cette étude a montré que le séquençage haut débit présente une réelle précision, et
permet de détecter des mutations de faible fréquence non détectables par les méthodes
traditionnelles.
c. Etude de l'évolution des variants viraux du VIH-1 au cours d'un
traitement antiviral
Une étude menée par HEDSKOG et al. (2010) s'est intéressée à l'évolution des
variants mineurs résistants au traitement antiviral, avant, pendant et après l'administration du
traitement.
Les prélèvements de 6 individus VIH-1 positifs, avant l'administration du traitement,
puis pendant, et suite à l'arrêt, ont été analysés par pyroséquençage.
L’analyse porte sur le gène pol du VIH-1 qui code pour des protéines enzymatiques,
dont les mutations confèrent une résistance au traitement ; elles sont classées en deux
87
catégories : les mutations résistantes aux inhibiteurs non nucléosidiques de la réverse
transcriptase et les mutations résistantes aux inhibiteurs nucléosidiques de la réverse
transcriptase, dont les mutants résistants à la zidovudine et à la stavudine (nommés L210W,
T215Y/F et K219Q/E), ceux résistants à la lamivudine et l’emtricitabine (nommés M184I/V),
et ceux résistants à la nevirapine, l’efavirenz et l’etravirine (nommés Y181C/I/V, Y188C/L/H
et G190S/A).
Il a été mis en évidence, qu'en combinant une technique de séquençage haut débit à un
analyseur de données, le seuil de détection de variants viraux pouvait être abaissé à 0.05%.
De plus, les résultats de l’évolution des mutations au cours du traitement ont montré
que :
- avant le traitement, les analyses ont été faites chez 5 des 6 patients. Dans cette étude, ils ont
constaté des niveaux significatifs de M184I (4 sur 5 patients), T215I et/ou T215A (4 patients
sur 5) allant de 0,02%-0,12% obtenus dans les échantillons de plasma avant le début du
traitement. La présence ces mutations est quelque peu prévisible, car elles ne diffèrent que
d'un seul nucléotide par rapport au virus sauvage;
- pendant le traitement, le taux de variants viraux résistants augmente progressivement, et cela
aux dépends des variants viraux dits sauvages qui sont peu détectés;
- à l'arrêt du traitement, le taux de variants viraux résistants diminue rapidement, et ils ne sont
plus détectables trois mois après l'arrêt. Néanmoins, les variants sauvages font leur
réapparition, ce qui laisse suspecter la présence de réservoirs viraux en latence, dont la
production est permise par des lymphocytes T CD4+ mémoires.
Cette étude conduite par pyroséquençage haut débit, a permis de caractériser
l'évolution des variants viraux au cours d'un traitement antiviral. En effet, il a été montré que
le concept de quasi-espèce virale est basé sur un équilibre entre les variants majoritaires et
minoritaires, et qu'intervient un processus de sélection qui dépend de la pression
médicamenteuse exercée.
B. Etude des quasi-espèces du virus de l'hépatite C humain
Le virus de l'hépatite C est un petit virus à ARN, classé dans le genre Hepacivirus au
sein de la famille des Flaviviridae. Le VHC présente une importante variabilité, qui est la
conséquence d'une cinétique de réplication élevée, et des erreurs engendrées par l'ARN
polymérase; ainsi de nombreuses mutations peuvent être générées rapidement (RONG et al.,
2010).
Le traitement standard actuel de l'infection chronique par le VHC est basé sur la
combinaison de l'interféron alpha pégylé (PEG-IFN-α) et de la ribavirine. Cependant, il a été
montré que des patients avec une charge virale élevée ne répondaient pas significativement au
traitement.
88
Récemment, les antiviraux à action directe (DAA) ont été développés. Ces molécules
DAA, seules ou en combinaison avec le PEG-IFN RBV, ont été décrites comme présentant
d'importants effets antiviraux.
Il est donc primordial d’identifier les variants viraux présentant une résistance aux
traitements, afin de pouvoir réadapter les traitements, et développer de nouvelles molécules.
1. Etude par séquençage haut débit des variants du VHC suite à un
traitement à l’interféron
Une étude menée par NINOMIYA et al. (2012), s'est intéressée à la mise en évidence
de variants du VHC chez plusieurs patients avec le séquenceur Illumina. L'étude a été
effectuée chez deux patients infectés par le VHC, dont l'un était naïf de tout traitement
(patient 1), l'autre ayant reçu un traitement à l'IFN (patient 7). Le but de l’étude était de
caractériser les variants viraux présents chez le patient 1 et le patient 7, par séquençage haut
débit.
De nombreux variants ont été mis en évidence chez les deux patients. Les variants
majoritaires présentaient la même séquence d'acides aminés. Mais il a été mis en évidence des
variants mineurs, représentant 18% des séquences. Les principales modifications sont des
substitutions d’acides aminés dans la région de la protéine virale NS3 ; le patient 7 a présenté
8 variants différents, et le patient 1 en a présenté 3.
Malgré le fait que cette étude n’ait pas mis en évidence la présence de variants résistants au
traitement à l’IFN, il semble primordial, afin d’optimiser le choix du traitement, d’identifier
les variants résistants et minoritaires avant la mise en place du traitement.
Cette étude a permis de montrer que le pyroséquençage est un outil puissant pour la
caractérisation des quasi-espèces virales du VHC. Elle a permis de mettre en évidence la
présence de variants mineurs viraux.
2. Etude par séquençage haut débit des variants du VHC résistants aux
anti-viraux à action directe
Les agents antiviraux offrent des possibilités thérapeutiques intéressantes pour les
patients porteurs du VHC. Plusieurs protéines virales ont été identifiées comme des cibles
potentielles d'agents antiviraux. Cependant, l'échec des traitements par les antiviraux est
corrélé au développement de variants viraux résistants. Le séquençage haut débit peut être
utilisé pour identifier ces variants résistants. Des études réalisées in vivo ont montré que ces
variants préexistent à l'administration de traitements, dans une proportion généralement
inférieure à 1% par patient, et que l’administration d’antiviraux favorise leur multiplication
(LAUCK et al., 2012).
89
a. Etude in vitro
La dynamique d'émergence de variants résistants aux antiviraux a été étudiée in vitro,
et a montré l'apparition et la disparition de plusieurs variants viraux selon les modifications de
la pression médicamenteuse (VERBINNEN et al., 2010).
Cette étude s'est intéressée à la dynamique d'émergence des variants viraux in vitro, sous
l’effet de niveaux variables de pression sélective exercée avec le TMC380765, un inhibiteur
macrocyclique de la protéase NS3/4A du VHC. L'ARN du VHC a été analysé par
pyroséquençage 454.
Selon la concentration en TMC380765, plusieurs mutations distinctes ont émergé. Des
faibles concentrations en TMC380765 ont abouti à la sélection de mutations de faible
résistance, tandis ce que des concentrations élevées ont abouti à la sélection de mutations de
résistance de haut niveau (Figure n°24).
On peut supposer que lorsqu'une pression médicamenteuse est introduite, les variants
résistants présentent alors un avantage réplicatif, et deviennent ainsi dominants au sein des
quasi-espèces. En absence de cette pression médicamenteuse, les variants résistants
redeviennent alors minoritaires, ce qui rend leur détection complexe.
La technologie de séquençage de profondeur a permis l'étude des variants minoritaires,
présents au sein des quasi-espèces du VHC, selon l'importance de la pression
médicamenteuse. Cette étude offre de nouvelles perspectives en matière d’étude de la
dynamique de résistance aux antiviraux lors d’infection par le VHC.
90
Figure n°24 : Fréquence des mutations des acides aminés issus de la traduction du virus
de l'hépatite C en fonction de la concentration en TMC380765, d'après VERBINNEN et
al., 2010
A) Fréquence des mutations des acides aminés chez les virus faiblement résistants au
TMC380765
B) Fréquence des mutations des acides aminés chez les virus hautement résistants au
TMC380765
Les cercles vides représentent les génomes présentant une mutation unique, et les cercles
pleins ceux présentant plusieurs mutations.
91
b. Etude in vivo
La cinétique de développement de la résistance aux antiviraux, a été étudiée in vivo
chez une souris chimérique ayant des hépatocytes humains (HIRAGA et al., 2011).
Cette étude a utilisé le séquençage haut débit, afin de prouver l'émergence rapide de
résistances au telaprevir, qui est un inhibiteur réversible de la protéase NS3-4A.
Les souris ont été infectées soit par un VHC sauvage, soit par un VHC mutant A156F,
soit par un VHC mutant A156S. Les mutations touchent la région codant pour la protéine
NS3. C'est cette région du génome qui a été analysée par séquençage haut débit.
L’étude s'est intéressée aux titres d'ARN de souris infectées par un variant A156F du
VHC. Les résultats ont montré l'absence de diminution des variants viraux 2 semaines après
un traitement par le telaprevir (Figure n°25). Cependant, 2 semaines de traitement par l’IFNalpha a permis de faire considérablement chuter les taux en ARN du VHC mutant A156F, en
dessous d'un seuil détectable (Figure n°25). Ces résultats montrent que les variants A156F du
VHC sont résistants au télaprévir, mais présentent une grande sensibilité à l'IFN.
Dans une étude ultérieure, il a été mis en évidence un mutant A156F dans la région NS3 du
VHC chez un patient atteint d'hépatite chronique, qui a présenté une augmentation de la
virémie au cours d'une monothérapie par le télaprévir. Il est donc primordial d’adapter le
traitement lors d’émergence de variants A156F.
92
Figure n°25 : Effet du télaprévir chez des souris infectées par un VHC sauvage et par le
mutant A156F, d'après HIRAGA et al., 2011
Les cercles pleins correspondent aux titres viraux de souris infectées par le VHC sauvage.
Les cercles blancs correspondent aux titres viraux de souris infectées par le VHC mutant
A156F.
Les souris infectées par le VHC mutant ont reçu 200 mg / kg de telaprevir par voie orale deux
fois par jour pendant 4 semaines.
Les souris infectées par le virus mutant, et celles infectées par le virus sauvages, ont reçu au
cours des semaines 15 à 20 1500 UI / g / jour d'interféron-alpha.
D'autre part, deux souris infectées par le VHC KT9-sauvage et une souris infectée par
le VHC mutant A156S, ont été traitées avec 200 mg/kg de telaprevir deux fois par jour
pendant 2 semaines (Figure n°26). Au cours de ce traitement, il a été mis en évidence une
diminution des ARN viraux de 1.4 et 2.7 log chez les souris infectées par le virus sauvage. En
revanche, chez la souris infectée par le VHC mutant A153S, la diminution n'a été que de 0.6
log. Le traitement au telaprevir a été renouvelé, à la dose de 300 mg/kg deux fois par jour
pendant 4 semaines, avec une diminution des ARN viraux chez les souris infectées par le
virus sauvage de 2.7 et 3 log et une diminution de 1 log chez la souris infectée par le VHC
mutant A153S. Les souris infectées avec les souches A156S ont développé une virémie plus
faible par rapport à la souche de type sauvage, mais ont montré une forte résistance au
traitement télaprévir.
Bien que chez les souris injectées avec le VHC de type sauvage on ait observé un déclin
rapide de la virémie au début du traitement, une fréquence élevée (11%) du variant V36A
résistants au télaprévir a émergé 2 semaines après le début du traitement, puis ce taux a
diminué quatre semaines après l'arrêt du traitement.
93
Figure n°26 : Effet du télaprévir chez des souris infectées par un VHC sauvage et
mutant A156S, d'après HIRAGA et al., 2011
A) Quantité d’ARN viraux en fonction du temps après la mise en place du traitement au
téléprévir.
Les cercles et triangles pleins correspondent aux titres viraux de souris infectées par le VHC
K19 sauvage.
Les cercles blancs correspondent aux titres viraux de la souris infectée par le VHC mutant
A156S.
Six semaines après l'infection, les souris ont reçu 200 mg / kg de telaprevir par voie orale
deux fois par jour pendant 2 semaines. Quatre semaines après l'arrêt du traitement les souris
ont été traitées avec 300 mg / kg de telaprevir deux fois par jour pendant 4 semaines.
B) Proportion des variants viraux du VHC
Il a été mis en évidence, grâce à l'utilisation du séquençage haut débit, la présence de
variants résistants au telaprevir, avec une vitesse d'apparition rapide suite à l'instauration du
traitement, mais qui disparaissent à l’arrêt du traitement.
94
C. Etude des quasi espèces du virus Influenza A
En Avril 2009, un triple réassortiment du virus influenza d’origine porcine (A/H1N1,
2009), a été mis en évidence chez des personnes présentant des troubles respiratoires.
Le virus Influenza possède une importante variabilité ayant pour origine un taux de mutations
élevé dû à l'activité de l’ARN polymérase et à un phénomène de réassortiment des segments
génomiques, rendu possible car son génome est segmenté en huit segments d’ARN. Les
modifications antigéniques qui peuvent en résulter lorsqu’elles intéressent l’hémagglutinine
virale sont à l'origine de l’émergence de nouveaux virus réassortants (ou hybrides) donc
nouveaux, dont la virulence et l'expression clinique sont imprévisibles. En effet, plusieurs
réassortiments entre les virus humain, aviaire et porcin ont été à l'origine de différentes
pandémies (H1N1, H2N2, H3N2).
L’hémagglutinine (HA) est une glycoprotéine antigénique présente à la surface
du virus de la grippe. Le virus influenza A peut échapper à la réponse immunitaire spécifique
dirigée contre HA, par une accumulation de substitutions d'acides aminés au sein des épitopes
de HA, on parle de dérive antigénique (ou shift). L’hémagglutinine H1, qui détermine avec
l’antigène N (correspondant à la neuraminidase virale) un sous-type HxNy, possède 4 sites
antigéniques, nommés Sa, Sb, Ca, et Cb.
Il est alors important de connaitre les caractéristiques de cette dérive antigénique, afin de
pouvoir prévenir ou anticiper les risques de pandémie.
Dans l'étude menée par KURODA et al. (2010), le but était de localiser les zones de
variabilité de l’HA par rapport aux séquences H1connues par séquençage haut débit des ARN
totaux extraits de poumon d'un patient décédé d'une pneumonie virale due au virus
A/H1N1/2009.
Le séquenceur Illumina a permis de générer 9,46.106 40-mer. Parmi ces séquences,
0,85% ont été identifiés comme appartenant au virus influenza A/H1N1/2009.
Il a été mis en évidence une variabilité des nucléotides de l'hémagglutinine, touchant
en particulier deux acides aminés (Gly172Glu et Gly239Asn de HA).
Les séquences obtenues ont été comparées aux épitopes des HA connues. Gly172Glu, est
situé sur l'épitope Sa, et Gly239Asn est situé sur le site antigénique Ca qui contribue à la
liaison avec le récepteur de l'acide sialique de l'hôte. Ainsi, on peut suspecter que ce dernier
joue un rôle dans la dérive génétique et l’échappement à la réponse immunitaire. Ces deux
variants sont minoritaires.
En conclusion, cette étude a démontré que le séquençage haut débit facilite la mise en
évidence de la variabilité des virus de la grippe A.
95
III. EXEMPLES D'ÉTUDES DE QUASI-ESPÈCES VIRALES CHEZ LES ANIMAUX
PAR SÉQUENÇAGE HAUT DÉBIT
A. Analyse du rôle des quasi-espèces virales dans la peste porcine classique
La peste porcine est une maladie contagieuse, classée dans les maladies réglementées
de catégorie 1, à l'origine de pertes économiques majeures dans l'industrie du porc. L'agent
responsable de la peste porcine classique est un virus de la famille des Flaviviridae, du
genre Pestivirus. Il s’agit d’un virus à ARN présentant une variabilité élevée. Les différentes
formes de la maladie peuvent varier d'une fièvre hémorragique aigüe à une forme chronique,
ou une forme asymptomatique. Le virus de la peste porcine est classé selon son degré de
virulence qui peut aller de hautement virulent, à modérément ou faiblement virulent, et qui
détermine ainsi son expression clinique.
Le génome viral de la peste porcine code pour 4 protéines structurales (dont E2), et 8
protéines non structurales (dont NS5B). La glycoprotéine E2 est hautement immunogène, et
joue un rôle essentiel dans la réplication ; sa séquence est très variable. La protéine NS5B est
une ARN polymérase. Les régions codant les protéines E2 et NS5B ont été sélectionnées afin
d'analyser les quasi-espèces de la peste porcine, et d’explorer les différences entre les régions
conservées et variables du génome.
L’étude menée par TOPFER et al. (2013) vise à corréler la virulence de l’agent aux
différents haplotypes du virus de la peste porcine obtenus par séquençage haut débit.
Le but de l’étude était d’analyser la composition de plusieurs variants viraux de la
peste porcine, qui différent par leur degré de virulence déterminé par les régions du génome
codant pour les protéines E2 et NS5B. Cinq isolats de virulence variable ont été analysés
(Brescia et Koslov à haute virulence, et Uelzen, Paderborn et Hennef de virulence modérée).
Le séquençage a été effectué par pyroséquençage 454.
Les échantillons de porcs infectés par les isolats Koslov et Brescia à un haut niveau de
virulence, montrent une diversité des quasi-espèces et une variabilité des nucléotides plus
importante que celle des échantillons correspondant à des isolats de virulence faible à
modérée (Tableau n°5). Cette variabilité se retrouve sur E5, et NS5B, ce qui n’était pas
évident.
Cette étude a donc montré que les mutations dans les régions codantes E2 et NS5
jouent un rôle dans la virulence de peste porcine; et que cette virulence est corrélée à
l’importance de la diversité du virus de la peste porcine classique.
96
Tableau n°5 : Diversité nucléotidique des protéines E2 et NS5B pour chaque isolat,
d'après TOPFER et al., 2013
La diversité nucléotidique est définie par l'entropie, pour chaque isolat le tableau répertorie
l'entropie moyenne des régions E2 et NS5B
B. Etude de la transmission inter-espèces du virus de l'hépatite E
Le virus de l'hépatite E est le seul membre du genre Hepevirus, de la famille des
Hepeviridæ dont l'organe cible est le foie. Le virus de l'hépatite E est classé en 4 sousgroupes: les génotypes 1 et 2 présents uniquement chez l'homme, et les génotypes 3 et 4
présents chez l'homme et les animaux. Donc, l'hépatite E due aux deux derniers virus est une
zoonose, les animaux tels que les porcs, les sangliers et les cerfs constituant des réservoirs de
ces deux génotypes.
Le génome du virus de l'hépatite E, est composé de trois cadres de lectures ouverts (ORF1.2
et 3). ORF1 présente des domaines conservés et d'autres hypervariables.
BOUQUET et al. (2012) ont étudié la diversité du génotype 3 chez l'homme et le porc,
et se sont intéressés par séquençage haut débit à l'adaptation du virus lors de la transmission
inter-espèces.
Des échantillons de selles ont été prélevés chez un homme infecté par le génotype 3 du
virus de l'hépatite E. Le virus a été inoculé aux porcs, par voie orale. L'étude a porté sur les
échantillons de selles de l'homme, du porc et des échantillons de bile du porc 15 jours après
l'infection. L'analyse a été effectuée avec le séquenceur Illumina qui a permis de générer
27.106 séquences par échantillon.
Les résultats montrent qu'il existe une grande variabilité du virus de l'hépatite E au
sein des échantillons. En effet, plusieurs régions polymorphes ont été mises en évidence
(Tableau n°6). Néanmoins, il a été montré que 29% des sites polymorphes (12/44) trouvés
dans le virus de l'hépatite E de l'échantillon humain ont été conservés au cours de l'infection
de l'hôte hétérologue, le porc.
Ainsi, cette étude a confirmé l'existence de quasi-espèces du virus de l'hépatite E, et a
montré que la majorité des SNP a été conservée lors de la transmission inter-espèces. Ces
résultats pourraient suggérer que la transmission du virus de l'hépatite E du porc à l'humain,
s'effectue en l’absence d'adaptation virale. En conclusion, la transmission du virus de
l'hépatite E des porcs à l’homme ne semble pas associée à une restriction de la diversité
génétique, probablement parce que l'hôte humain n'a pas de réel impact sur le cycle viral des
virus de l'hépatite E de génotypes 3 et 4.
97
Tableau n°6 : Statistiques du polymorphisme du virus de l'hépatite E chez l'homme et
les porcs, d'après BOUQUET et al., 2012
C. Etude de la variabilité du virus de la leucose chez le Lynx ibérique
Le lynx ibérique est l’espèce féline la plus menacée dans le monde, les 200-250
derniers animaux se trouvent au sud de l’Espagne.
Durant l’année 2007, un épisode associé au virus de la leucose féline (FeLV) a tué 7
des 11 lynx infectés (GERET et al., 2011).
Le virus FeLV est un virus à ARN qui appartient à la famille des Retroviridae. Quatre
sous-groupes de FeLV sont connus : FeLV-A est présent chez tous les chats infectés par le
virus FeLV, FeLV-B est issu de recombinaisons entre FeLV-A et des séquences FeLV
endogènes de l’hôte, et les sous groupes C et T sont issus d’une mutation du FeLV-A.
Le virus identifié chez le lynx ibérique est proche de celui du FelV-A.
Quelques cas cliniques dus au FeLV avaient été rapportés chez le lynx ibérique avant
2006, mais la gravité de la maladie était moins importante que celle de 2007. Outre son
important impact clinique, l’épisode de 2007 a été caractérisé par une co-infection bactérienne
par Mycoplasma haemofelis et Candidatus Mycoplasma turicensis. Les études récentes
effectuées chez les chats domestiques, n’ont montré aucune association entre la leucémie
féline et l’infection à Hemoplasma, mais par contre cette co-infection a été retrouvée chez les
chats sauvages d'Europe (Felis sylvestris). Ainsi, l'association de l’agent de la leucémie féline
et d’Hemoplasma chez le lynx ibérique pourrait être due, soit à la génétique de l'hôte (par
exemple, un dysfonctionnement général du système immunitaire par un rétrovirus), soit à une
caractéristique spécifique de la souche infectieuse virale qui aurait rendu l'hôte plus sensible
aux agents pathogènes spécifiques.
Plusieurs mesures de gestion ont été mises en place pour éviter la propagation du
FeLV: les lynx infectés ont été isolés, les animaux non infectés ont été vaccinés contre le
FeLV, et les chats sauvages et domestiques ont été isolés des lynx afin de limiter les contacts
inter-espèces. Ces mesures ont été efficaces puisque seulement un nouveau cas a été identifié
fin 2009.
98
Malgré l’absence de réémergence de la maladie depuis 2009, il était important de
s’intéresser à la pathogénicité de la souche FeLV chez le lynx ibérique, non seulement en
raison des conséquences que ce virus a eu sur la population des lynx, mais aussi parce qu’il
peut exister un risque de retransmission de la souche hautement virulente du virus du lynx aux
chats domestiques.
Le but de l'étude de GERET et al. (2011), était d’évaluer les caractéristiques de cette
souche virale à l’origine de l’épisode de 2007. L’étude a été divisée en deux temps : en
premier lieu, les scientifiques ont voulu identifier les variants de cette souche de FeLV par
pyroséquençage 454 de la région hypervariable du gène de l’enveloppe A (VRA) du FeLV
qui est connue pour être à l’origine de variants pathogènes; dans un second temps, des chats
ont été mis en contact avec le sang d’un lynx infecté en 2007.
Les ARN viraux plasmatiques provenant du sang de trois lynx ibériques ont été
analysés. Les échantillons proviennent du premier lynx qui avait été testé positif pour le FeLV
en Décembre 2006 (lynx'' Roman''), d'un lynx (Uda'''') qui est également mort en 2007, et d'un
lynx ('' Coca'') échantillonné en 2009 qui a été infecté en 2007, mais a survécu jusqu'à présent
malgré la progression de l'infection par le FeLV.
Un total de 3 299 séquences à partir du plasmide de référence ont été analysées. Après
correction des erreurs, les séquences FeLV du lynx ibérique étaient de 87,3 à 97,1%
identiques à la séquence de référence. Aucun variant caractéristique des sous-types FeLV-A et
C n’a été mis en évidence.
La comparaison des variants des lynx infectés précocement et décédés, avec celui de
Coca montre que le virus de 2009 est le même que celui qui a causé l’épidémie de 2007. Ceci
suggère que la souche de FeLV-A qui est à l’origine de l’épisode infectieux n’est pas en soi
extrêmement pathogène, et que d’autres facteurs ont contribué à accroître son effet sur les
lynx ibériques.
En conclusion, les résultats obtenus montrent que la souche responsable de l’épisode
infectieux à FeLV survenu chez le lynx ibérique en 2007 n’est pas associé à des variants
hautement pathogènes, au moins dans les régions génomiques qui ont été étudiées, et cette
souche ne semble pas pathogène lorsqu'elle est inoculée aux chats domestiques. Par
conséquent, les auteurs supposent qu'il n'y a pas de risque accru de transmission de FeLV de
lynx aux chats et suggèrent que l'issue grave de l’épisode FeLV en 2007 était due plutôt à la
sensibilité particulière du lynx ibérique aux agents pathogènes.
99
100
QUATRIÈME PARTIE :
APPLICATION DU SÉQUENÇAGE
HAUT DÉBIT Á L'ÉTUDE
TRANSCRIPTOMIQUE
101
102
I. ÉTUDE TRANSCRIPTOMIQUE ET INTÉRÊT EN VIROLOGIE
A. Principe d'une étude transcriptomique
1. Définition du transcriptome
Le but d'une étude transcriptomique est principalement de mesurer l’abondance des
transcrits d’acide ribonucléique messager (ARNm) pour un grand nombre de gènes de
manière simultanée. En effet, dans une cellule, un certain nombre de gènes sont activés en
fonction du type de la cellule et de son environnement. Le transcriptome est l’ensemble des
transcrits.
Bien que les ARNm ne constituent qu’une étape de l’expression des gènes, leur
abondance est souvent corrélée à l’activité des protéines codées et leur quantification en
parallèle est plus aisée à conduire que celle des protéines.
L'étude transcriptomique permet d'apporter des connaissances supplémentaires sur les
gènes dont l'expression varie lors de modifications de l'environnement, et d'identifier de
nouveaux gènes, ainsi que des microARN (miARN). Les miARN sont des ARN non codants
de 21 à 25 nucléotides qui contrôlent l’expression génique au niveau post-trancriptionnel.
(HARTMANN et al., 2004). Certains de ces gènes sont conservés entre espèces et parfois
même entre phylums. Ces microARN règlent l’expression génique en s’appariant avec des
ARNm cibles dont ils sont partiellement complémentaires. Cette hybridation réprime la
traduction de la protéine correspondante ou clive l’ARNm cible au milieu du site de fixation
du microARN. Ce dernier mécanisme est très similaire à celui mis en œuvre lors de
l’interférence par l’ARN.
2. Les techniques utilisées lors d’une étude transcriptomique
L’étude transcriptomique à grande échelle a été rendue possible par l'utilisation de
puces à ADN, qui permettent d'évaluer le niveau d'expression des gènes (DAVID et al.,
2006). Une seule puce à ADN permet de refléter le niveau d’expression de milliers de gènes à
un moment donné. L’hypothèse sous-jacente à l’analyse des données du transcriptome est que
l’intensité mesurée pour chaque gène représente son niveau d’expression relatif.
Les puces à ADN reposent sur le principe d’hybridation moléculaire entre deux acides
nucléiques simples brins. Les quelques centaines de séquences d’ADN recherchées sont
déposées sur un support. Cet ensemble constitue la puce à ADN. L’ADN à analyser va
s’hybrider selon le principe d’hybridation moléculaire sur les différents acides nucléiques que
porte la puce à ADN. La détection de ces hybridations se fait soit par fluorescence soit par
radioactivité. Ce principe peut être alors utilisé pour l’analyse de transcriptome en hybridant
les ADN complémentaires aux ARNm.
103
Plusieurs limites existent dans cette technique (WANG et al., 2009).
Le principal inconvénient est que les sondes sont conçues avec les séquences étudiées, il doit
donc y avoir une connaissance des séquences à analyser afin de générer les puces. De plus,
des erreurs peuvent être générées suite à des hybridations croisées.
B. Utilisation du séquençage haut débit pour une étude transcriptomique
Le séquençage haut débit de transcrits (RNA seq) apporte un avantage considérable
par rapport aux puces à ADN ; en effet, au lieu d'avoir besoin d'une hybridation entre l'ADNc
et des sondes préconçues, l'ADNc peut directement être séquencé, ce qui va permettre
d'élargir les domaines d'analyse du transcriptome.
Les micropuces vont alors être principalement utilisées pour les comparaisons
d'expression de deux profils d'ARN, alors que le séquençage haut débit sera utilisé pour la
mise en évidence de l’expression de nouveaux gènes.
1.
Principe du séquençage
transcriptomique
haut
débit
au
cours
d'une
étude
a. Préparation des échantillons
Plusieurs étapes sont nécessaires à la préparation des échantillons pour une analyse du
transcriptome; cette préparation doit être la plus rigoureuse possible afin d'éviter l'introduction
d'erreurs dans les banques d'ADN.
Le séquençage haut débit ne peut se réaliser que sur les molécules d'ADN; les
transcrits doivent subir une reverse transcription, et ainsi le séquençage se réalisera sur
l'ADNc.
De plus, le séquençage haut débit n'est possible que sur des petits fragments d'ADN.
Certains petits ARN pourront être directement séquencés tels que les miARN ou les ARN
interférents, mais la majorité devront subir une fragmentation. Cette fragmentation peut avoir
lieu sur l'ARNm par hydrolyse ou nébulisation, ou sur l'ADNc par un traitement à la DNase
ou par ultrasons (WANG et al., 2009).
Certaines manipulations lors de la construction de la banque d'échantillons
compliquent également l'analyse des résultats de RNA-Seq que ce soit par pyroséquençage
454 ou la technique Illumina. Par exemple, de nombreuses séquences courtes identiques
peuvent être générées à partir d'une banque d'ADNc amplifiée. Il est alors important de se
demander si ces séquences sont des artefacts de PCR ou non. L'une des façons de les
distinguer est de déterminer si les mêmes séquences sont observées au cours de différents
cycles de transcription.
104
L'une des autres questions à soulever lorsque l'on prépare des échantillons pour un
séquençage haut débit de transcrits, est de savoir si les banques d'ADNc doivent être
spécifiques ou non de la polarité des brins d’ADN, ce qui a été étudié par CLOONAN et al.
(2008).
La mise en place de telles bibliothèques confère un avantage considérable en informant sur
l'orientation des transcrits, qui peut être primordiale pour l'analyse des régions chevauchantes
des transcrits en sens inverse. Cependant, la mise en place de telles banques est très complexe,
donc peu développée, et les études portent sur les ADNc sans tenir compte de la polarité du
brin à séquencer.
b. Analyse des données
Une fois les séquences générées, ces données doivent être analysées afin de pouvoir
caractériser le transcriptome. Ainsi, les séquences sont cartographiées directement à partir
d'un génome de référence, ou sont d'abord rassemblées en contigs avant de les aligner à la
séquence génomique. La majorité des séquences peuvent être cartographiées à partir de
programmes spécifiques.
Néanmoins, l'analyse des séquences courtes contenant des extrémités poly A, et des
jonctions exon/exon ne peut se faire via ces algorithmes.
Les queues polyA peuvent simplement être identifiées par la présence de nucléotides
A ou T à la fin des séquences. Les jonctions exon/exon peuvent être identifiées par la
présence de séquences spécifiques (la présence des dinuclétotides GT-AG qui délimitent les
sites d'épissage), et seront confirmées par la faible expression des séquences introniques, qui
sont éliminées lors de l'épissage.
Par contre, l'analyse de transcriptomes plus complexes, qui contiennent par exemple
des épissages alternatifs, doit se faire avec une banque de données des différentes séquences
de jonctions connues.
2. Comparaison des techniques de micropuces et de séquençage haut débit
pour une analyse transcriptomique
L'étude de MARIONI et al. (2008), s'est intéressée à comparer deux catégories de
technologies permettant l'étude transcriptomique, d’une part les nouvelles générations de
technologies de séquençage et d’autre part la technologie des puces à ADN. Les résultats
portent sur le nombre de gènes exprimés de manière différentielle dans des cellules de foie et
de rein.
Ces résultats démontrent l'efficacité du séquençage à haut débit pour mesurer les
niveaux d'expression des gènes. En utilisant la plate-forme de séquençage Illumina, il a été
détecté 81% des gènes exprimés, contre 62% pour les puces à ADN (Figure n °27).
105
Cette étude démontre que le séquençage Illumina permet la réalisation d'analyses plus
approfondies du transcriptome, telles que la détection de gènes peu exprimés, de variants de
l'épissage alternatif, et de nouveaux transcrits.
En effet, les puces à ADN ne peuvent mesurer que l'expression des gènes possédant des
sondes complémentaires, ce qui limite leur application.
La résolution et la haute sensibilité des séquenceurs haut débit permet l'analyse de
régions présentant de fortes homologies, l'analyse des bordures exoniques, des profils
d'épissage alternatif, la détection de transcrits rares, et l'étude des petits ARN.
Figure n°27 : Nombre de transcrits mis en évidence par séquençage haut débit et par la
technologie de puces à ADN, d'après MARIONI et al., 2008
106
II. EXEMPLES D'ÉTUDES TRANSCRIPTOMIQUES PAR SÉQUENÇAGE HAUT
DÉBIT LORS D’INFECTIONS VIRALES CHEZ L’HOMME
A. Première étude transcriptomique virale par séquençage haut débit
Les études transcriptomiques par séquençage haut débit se sont particulièrement
intéressées aux grands virus à ADN (RADFORD et al., 2012). L’étude menée sur les
Mimivirus illustre bien l’intérêt du séquençage haut débit pour mener les études
transcriptomiques. Cette étude conduite par BYRNE et al. (2009), a montré que la
transcription des gènes du virus géant Mimivirus obéit à une règle stricte et inédite, baptisée la
règle de « l’épingle à cheveux». Le Mimivirus est un parasite des amibes communes du genre
Acanthamoeba, et est plus gros que bien des bactéries; en effet, ce virus géant compte dans
son génome près de mille gènes. Les approches classiques de phylogénie moléculaire ne
parvenant pas à déterminer l'origine évolutive de ce virus, les scientifiques ont entrepris
d’explorer en détail les processus moléculaires et cellulaires fondamentaux (réplication,
transcription, traduction) mis en œuvre pendant le cycle de réplication de Mimivirus. BYRNE
et al. (2009), ont alors recherché la nature des signaux qui guident la terminaison de la
transcription des gènes de Mimivirus et la polyadénylation des transcrits correspondants. Les
chercheurs viennent de démontrer que la transcription des gènes de Mimivirus obéit à une
règle sans équivalent dans le monde cellulaire. A l’exclusion de tout autre signal, les transcrits
des gènes de Mimivirus se terminent au sein d’une séquence palindromique de taille et de
séquence variables qui est capable de former une structure en « épingle à cheveux ». Cette
étude illustre pour la première fois l’intérêt du séquençage à haut-débit d’un transcriptome
viral.
B. Etude transcriptomique lors d’infection à Poxvirus par séquençage haut débit
Les Poxvirus sont des virus à ADN double brin appartenant à la famille des
Poxviridae, qui est divisée en 8 genres; nous ne nous intéressons ici qu’au genre
Orthopoxvirus. Parmi les Poxvirus du genre Orthopoxvirus pathogènes pour l'homme, se
trouvent les virus de la variole et de la vaccine, ainsi que des virus animaux qui infectent
l'homme accidentellement tel que les virus du cow-pox.
Le virus de la vaccine (VACV) est composé d’un génome d'ADN double brin, d'une
longueur de 200 kbp contenant 200 ORFs; ce virus est peu pathogène pour l'homme. Le virus
de la variole a été éradiqué par la vaccination avec le VACV, avec lequel il présente près de
90% de similitude. En plus de servir de vaccin contre d'autres Poxvirus, le VACV a été
développé comme un vecteur d'expression recombinant pour des études immunologiques chez
les animaux et pour le développement de vaccins vétérinaires.
La transcription du VACV s'effectue dans le cytoplasme, et est régulée par différents
facteurs de transcription, spécifiques à chaque stade précis de l'infection, qui vont reconnaitre
les promoteurs précoces, intermédiaires ou tardifs de l’infection (KNIPE et HOWLEY, 2007).
Immédiatement après l'infection, les ARNm viraux vont être synthétisés précocement au sein
107
du noyau. Les gènes précoces ainsi transcrits, codent pour les protéines nécessaires à la
réplication, dont l’ADN polymérase virale, et des protéines immunomodulatrices. Les ARNm
sortent du noyau, et le génome viral libéré peut se répliquer. Avec la réplication du génome
viral débute l’expression des gènes intermédiaires qui codent des facteurs de transcription
nécessaires à l’expression des gènes tardifs. Ces derniers permettent la synthèse de protéines
requises pour produire de nouvelles particules virales, des enzymes qui vont être associées
aux nouveaux virions, de même que des facteurs de virulence et d’échappement à la réponse
immunitaire de l’hôte.
La diminution de la synthèse des protéines de l'hôte est corrélée à l'expression des gènes
tardifs du VACV. Plusieurs études se sont intéressées à la cinétique d'expression des gènes du
VACV, notamment par l'utilisation de micropuces (GUERRA et al., 2003); néanmoins
l'utilisation du séquençage haut débit pour une analyse du transcriptome, offre une résolution
et une sensibilité plus élevées.
Dans l'étude de YANG et al. (2010), le séquençage haut débit a été utilisé afin
d'analyser le transcriptome du virus de la vaccine. Des ARN ont été extraits de cellules
infectées par le virus de la vaccine; ces prélèvements ont eu lieu à 0, 0,5, 1, 2 et 4 h après
l'infection. Les ADNc ont été séquencés par le séquenceur haut débit SOLID. Dans chaque
échantillon, 40 millions de séquences ont été obtenues, dont environ la moitié peuvent être
alignées sur les génomes viraux et humains.
Dès 0.5h, les ARNm viraux ont été détectés dans les échantillons, et leur nombre a
augmenté entre 1 et 2h. La majorité des régions des transcrits correspondaient aux extrémités
du génome. Ces ARNm correspondent à des transcrits précoces.
Il a été noté une augmentation rapide du nombre d'ARNm viraux et une diminution
progressive de la majorité des ARNm cellulaires sur une période de 4 h, pendant laquelle 25 à
55% des séquences des échantillons étaient d’origines virales.
A 4h, les transcrits sont différents que ceux observés précédemment, ce qui est en
corrélation avec la synthèse d'ARNm tardifs.
Ces données d'analyse de plus de 14 000 ARN messagers, ont permis de construire une carte
spécifique du génome en fonction du stade d'infection, et de déterminer les sites donneurs et
receveurs d'épissage ainsi que les séquences promotrices.
118 ORF du VACV ont été mis en évidence avant la réplication, et 93 ORF supplémentaires
après la réplication.
Néanmoins, cette étude n'a pas permis de différencier les transcrits intermédiaires des tardifs.
En effet, en raison d'une faible différence temporelle dans leur expression, et de leur
proximité génomique, la distinction s'est avérée impossible.
L'étude suivante menée par YANG et al. (2011), s'est intéressée au séquençage haut
débit d'ARNm du virus de la vaccine à 0, 0.5, 2 et 4h post-infection, utilisant la plateforme
SOLID.
Les ARN ont été séquencés dans des cellules infectées contenant un facteur tardif de
transcription G8, qui est exprimé afin de différencier les transcrits intermédiaires et tardifs. De
plus, chaque ORF a été cloné et exprimé individuellement suite à la réplication.
Il a été identifié 38 gènes du VACV qui appartiennent à la phase tardive, et 53 qui
appartiennent à la phase intermédiaire, certains de ces derniers continuant à être exprimés en
108
phase tardive. Ces données ont permis de dresser une carte de la transcription du génome en
phases précoce, intermédiaire et tardive.
La classification des différents gènes a été établie: un gène du VACV exprimé avant la
réplication virale est précoce, les gènes non précoces exprimés en l'absence de facteurs tardifs
sont intermédiaires.
Cette étude a également permis de mettre en évidence les différentes fonctions des
gènes en fonction de leur phase d’expression (Figure n°28).
Les protéines impliquées dans la réplication de l’ADN, la biosynthèse des nucléotides,
la transcription des gènes intermédiaires mais aussi certains mécanismes d’échappement aux
défenses de l’hôte sont exprimés précocement. Les gènes intermédiaires et tardifs codent
respectivement pour les facteurs de la transcription des gènes tardifs et pour les protéines
participant à la morphogenèse et l’assemblage des virions.
La différenciation des gènes intermédiaires et tardifs peut améliorer la compréhension de la
réplication du virus et conduire à des améliorations dans des vecteurs d'expression et des
vaccins recombinants utilisant le VACV.
Figure n°28 : Illustrations des différentes fonctions des gènes du VACV en fonction de
leur stade d’expression (précoce, intermédiaire, et tardif), d'après YANG et al., 2011
109
C. Etude transcriptomique des Herpesvirus par séquençage haut débit
1. Etude du transcriptome du virus Epstein-Barr
Le virus Epstein-Barr (EBV) ou Herpesvirus 4 (HHV-4) est un virus de la famille des
Herpesviridae. Il fait partie de la sous-famille des Gammaherpesvirinae. L’EBV peut
entraîner plusieurs maladies chez l’Homme, dont la mononucléose infectieuse et le lymphome
de Burkitt. Le génome de l’EBV est composé d'un ADN linéaire double brin de 172 kilopaires
de bases. Il code approximativement 100 gènes dont 10 exprimés lors de la phase de latence
du virus.
Des micropuces ont été utilisées afin d'évaluer les niveaux d'expression des gènes de
l’EBV, dans des contextes expérimentaux et cliniques (LI et al., 2006). Néanmoins, les
différentes limites engendrées par l'utilisation des micropuces, ont nécessité le développement
de nouvelles techniques d'étude du transcriptome, ainsi le séquençage haut débit a trouvé sa
place dans l'étude transcriptomique.
L'étude de LIN et al. (2010) s'est intéressée à l'analyse par séquençage haut débit du
transcriptome de l’EBV lors de lymphome de Burkitt. L’analyse a porté sur les lignées
cellulaires infectées de façon latente par les virus Mutu I ou Akata. Le séquençage haut débit
a été effectué par la plateforme Illumina.
Cette analyse a permis la mise en évidence de la majorité des gènes de l’EBV, dont les
gènes lytiques, au sein de cellules infectées de façon latente. Ainsi, cette étude a montré que
les gènes lytiques BHLF1 et LF3 sont parmi les gènes les plus exprimés malgré le fait que les
cellules infectées soient en latence.
2. Etude du transcriptome du Cytomegalovirus
Le Cytomegalovirus appartient aussi à la famille des Herpesviridae. Le
Cytomegalovirus humain (HCMV) est très répandu dans la majorité de la population
mondiale et la principale cause virale de malformations congénitales. Le HCMV est capable
d'infecter une grande variété de types de cellules humaines in vivo et est connu pour établir
une forme latente de l'infection qui persiste tout au long de la vie de l'hôte. Les patients
immunodéprimés sont particulièrement sensibles aux problèmes liés à l'infection.
Afin d’améliorer la compréhension de l'expression du génome de Cytomegalovirus,
GATHERER et al. (2011) ont utilisé le séquençage haut débit afin d’étudier sa transcription
dans des fibroblastes humains. L’étude a principalement porté sur l'identification des
protéines codantes ou non codantes, de l’ARN polyA, et sur la détermination des sites
d’épissage de l'ARN.
Quatre nouveaux gènes viraux transcrits ont été cartographiés (RL8A, RL9A, UL150A
et US33A). De plus, il a été mis en évidence que la majorité des ARN polyadénylés transcrits
110
viraux sont non codants, avec quatre nouveaux gènes mis en évidence (RNA2.7, RNA1.2,
RNA4.9 et RNA5.0).
Il a été montré que l’épissage de l'ARN est plus fréquent que ce qui avait été montré
dans les études précédentes, et il a été mis en évidence 229 sites accepteurs et 132 donneurs
potentiels, concernant 58 gènes codants.
La mise en évidence des ARN épissés est primordiale, car ces ARN peuvent jouer un rôle
important au cours de l’infection de l’hôte.
Ainsi, cette étude a permis de caractériser la complexité de la transcription du
Cytomegalovirus. Il a été démontré que le séquençage haut débit a la capacité de fournir des
informations de haute résolution sur le transcriptome du Cytomegalovirus. Cette technique
pourrait être étendue facilement à des études de transcriptome d’autres souches virales ou
d’autres types cellulaires, à la cinétique d'expression des gènes au cours des infections
lytiques et latente.
Néanmoins, il existe un certains nombres de limites à la technique de séquençage haut
débit. En effet, certains ARN polyA épissés n’ont pas été détectés ; ces séquences concernent
les exons courts ou ne provenant pas d’épissage alternatif.
D. Etude des microARN par séquençage haut débit
1. Etude des microARN au cours de la phase de latence des Herpesvirus
Les Herpesvirus sont caractérisés par leur capacité à maintenir des infections latentes
chez leurs hôtes. Cependant, les mécanismes qui permettent l’établissement et le maintien de
l'état latent restent mal compris.
L’Herpesvirus 1 (HSV-1) établit la latence dans les neurones des ganglions sensoriels, au
niveau desquels les seuls gènes transcrits sont ceux associés à la latence du locus LAT. Les
mécanismes de régulation permettant l'état de latence ne sont pas encore correctement définis.
Ainsi, UMBACH et. al (2008), se sont intéressés au rôle de miARN du HSV-1 au cours de la
phase de latence.
Afin de mener à bien cette étude, les scientifiques ont mis en place un séquençage haut
débit d’ARNm d’HSV-1. Le pyroséquençage 454 a permis de générer 225 439 séquences,
dont 144 955 correspondent à des microARN cellulaires.
Les résultats ont montré que le LAT fonctionnait comme un précurseur primaire des
miARN et codait quatre miARNs (miR-H2, miR-H3, miR-H4, miR-H5) dans les cellules
infectées par le HSV-1 (Figure n°29).
Parmi ces miARNs, le miR-H2-3p est un ARN antisens complémentaire de l'extrémité
3' de l'ARNm correspondant au gène ICPO. Or, le produit du gène précoce ICPO va activer
les gènes intermédiaires et tardifs responsables de la lyse cellulaire. Ainsi, on peut supposer
que l'établissement de la latence dans les neurones est liée à une absence d'expression des
gènes précoces et donc de l'activité cytolytique. La répression des ARNm ICPO par le miRH2-3p explique cette inhibition des gènes précoces et le maintien de la latence.
111
UMBACH et. al (2008) ont également identifié un cinquième miARN à partir d’HSV1 en phase de latence dans les ganglions trigéminés, miR-H6. miR-H6 découle d'un ARN
précurseur inconnu différent de LAT (Figure n°29). Il a été mis en évidence une
complémentarité de ce miARN avec l’ARNm codant ICP4, et l’inhibition de son expression.
Or, ICP4 est également un gène précoce dont l'expression joue un rôle primordial dans la mise
en place de la phase lytique.
Une autre étude a permis la découverte des miARNs chez HSV-2, et cette fois-ci, ce
sont deux miARN qui possèdent une complémentarité avec la séquence d’ICP0 (UMBACH et
al., 2010). Ce système de petits ARN représente donc un mécanisme de régulation assez
important de l’expression des gènes viraux.
Ces études ont donc permis de caractériser les miARN présents au cours de la phase de
latence des HSV1 et 2, ainsi que leur rôle. Il a été mis en évidence que les miARN codés dans
la région du LAT de HHV-1 et 2 semblent jouer un rôle primordial dans le maintien de la
latence, par inhibition des transcrits essentiels à la réplication lytique
Figure n°29 : Représentation de la localisation des miARN du HHV-1, d’après UMBACH
et al., 2008
La localisation, l’orientation ainsi que la taille relative des différents transcrits de la région
sont indiquées. Les coordonnées des différents miARN et des sites de restriction sont
indiqués.
A l’exception de miR-H6, tous les miARN sont dans la même orientation que le gène LAT.
TR : Répétition Terminale ; IR : Répétition Interne ; UL: Région Unique Longue ; US :
Région Unique Courte.
112
2. Etude des micro-ARN du Cytomegalovirus
Le HCMV est connu pour coder au moins 11 précurseurs de miARN qui sont
exprimés et transformés en miARN matures au cours de l'infection (GREY et al., 2005).
Le séquençage haut débit n'avait jamais été appliqué à l'analyse des miARN du
HCMV; des études par biopuces s'étaient limitées à l'étude des miARN de l'hôte (WANG et
al., 2008).
STARK et al. (2012) se sont intéressés à l'étude de l'ensemble des miARN au sein de
cellules de fibroblastes humains infectées par le HCMV, par séquençage au débit par la
plateforme Illumina.
Cette étude a permis d’identifier de nouveaux miARN du HCMV (miR-US22 et miRUS33as) ce qui porte le nombre total de précurseurs de miARN du HCMV à 12 et a
également permis de caractériser les miARN de l'hôte.
De plus, cette étude a permis de caractériser la transformation des précurseurs de
miARN dans les cellules transfectées de façon transitoire et a démontré que leurs formes
matures sont capables de réprimer l’expression des gènes de l’hôte. Ces miARN du HCMV
comptent pour un cinquième de la population totale de smRNA au stade tardif de l'infection :
l’utilisation de la technologie CLIP-seq (réticulation et immunoprécipitation) a permis de
démontrer que l'ensemble de ces miARN s’associent directement avec les protéines humaines
endogènes Ago (argonautes). Cette analyse a montré que les miARN matures de trois prémiRs du HCMV sont intégrés différemment dans les complexes Ago1 et Ago2. Or les
protéines Ago sont des protéines comprises dans le complexe RISC ( RNA-induced silencing
complex); ce complexe multi-protéique joue un rôle central dans le phénomène d'interférence
par ARN; en s'y associant, les miARN viraux interférent avec les ARNm de la cellule en
bloquant leur traduction.
Ainsi, il a été mis en évidence que les miARN du HCMV interagissent avec le mécanisme
endogène d’inhibition de la traduction de l'hôte.
Cas résultats ont donc révélé une plus grande diversité des interactions hôte-HCMV
que ce qui était précédemment apprécié, via les smARN.
E. Etude des interactions transcriptomiques entre l'hôte et le virus
1. Etude des interactions entre le virus de l'hépatite C et la cellule hôte
Une infection persistante par le VHC peut entraîner des maladies du foie telles que la
stéatose hépatique, la fibrose, la cirrhose et le carcinome hépatocellulaire. Malgré cela, les
mécanismes de progression de la maladie sont encore mal compris. Comprendre les
changements induits par l'infection virale au niveau de la cellule hôte permettra de mieux
comprendre comment mettre en place des thérapies ciblées.
113
Dans l'étude menée par WOODHOUSE et al. (2010), l'analyse a porté sur les
modifications d'expression des gènes dans une cellule infectée par le VHC et dans une cellule
non infectée, par séquençage haut débit par la plateforme Illumina. Cette étude a été
complétée par des analyses sur puces et par une analyse des protéines traduites.
Cette triple approche révèle que l'infection par le VHC affecte un certain nombre de
voies canoniques et de fonctions biologiques, y compris l'activation du récepteur pregnane X
et des récepteurs de l'acide rétinoïque qui jouent un rôle dans la réponse antivirale de l'hôte.
En effet, le récepteur pregnane X est une protéine de la superfamille des récepteurs nucléaires,
impliqués dans les phénomènes de détoxification cellulaire. Les récepteurs à l'acide rétinoïque
régulent l’expression d’un ensemble de gènes impliqués dans une grande variété de processus
biologiques comme la différenciation et la prolifération cellulaires, l’apoptose, le
développement embryonnaire et l’homéostasie des tissus. Par voie de conséquence, toute
dérégulation de ces récepteurs a des conséquences pathologiques par la cellule.
Cette approche a également identifié plusieurs mécanismes impliqués dans la
pathogenèse du VHC. L'infection par le VHC a eu un effet sur le métabolisme cellulaire,
conduisant à une augmentation du taux de cholestérol cellulaire et des acides gras libres,
associés à une diminution des niveaux cellulaires de glucose.
De plus, il a été mis en évidence que le VHC induit l'expression de plusieurs protéines
de liaison à l'ARN , tel que la protéine SSB. Cette protéine interagit avec la région IRES de
l'ARN viral du VHC, qui est une région jouant un rôle primordial dans la traduction virale.
Une étude antérieure a montré qu'il existait une granzyme à effet antiviral, par action de
clivage de la protéine SSB empêchant ainsi la traduction virale. Dans cette étude, le facteur de
clivage de la protéine SSB n'a pas pu être identifié.
Une analyse plus poussée de l’ensemble des données contribuera à améliorer la
compréhension de l'interaction virus-hôte du VHC, et l'utilisation de la technologie RNA-Seq
en combinaison avec des puces à ADN et une analyse du protéome pourrait avoir un impact
majeur dans la compréhension et la maîtrise d'autres maladies infectieuses.
2. Etude des interactions entre l'Herpesvirus et la cellule hôte
L'Herpesvirus associé au sarcome de Kaposi (KSHV), aussi connu sous le nom
d'Herpesvirus 8, est un membre de la famille des Herpesviridae. Il a été mis en évidence dans
plusieurs maladies telles que le sarcome de Kaposi, le lymphome primitif des séreuses et la
maladie de Castelman multicentrique, principalement chez des personnes présentant une coinfection avec le virus du Sida (GANEM et al., 2007).
Le KSHV est membre de la sous-famille des Gammaherpesvirinae, qui est composée
de plusieurs virus oncogènes lymphotropes, y compris l’EBV et un homologue murin du
KSHV, l' Herpesvirus murin 68 (MHV68).
Comme tous les Gammaherpesvirinae, le KSHV a des cycles de réplication lytiques et
latents. Lors de l'infection, de nombreux gènes viraux régulent l'expression des gènes
cellulaires, et induisent un arrêt du cycle cellulaire de l'hôte. Ce processus présente deux
114
intérêts pour le virus, d'une part il permet de bloquer les réponses anti-virales cellulaires, et
d'autre part de diminuer la concurrence en limitant le système de traduction des gènes
cellulaires. Cet arrêt du cycle est permis par un blocage de la transcription des gènes de l'hôte,
de l'exportation des ARNm vers le cytoplasme et de leur traduction. Au cours de l'infection
lytique, l'arrêt du cycle de la cellule hôte par les Gammaherpesvirinae est dû aux protéines
alcalines exonucléases (AE) SOX (ORF37) chez le KSHV, et muSOX chez MHV68. Tous
les Herpesvirus codent pour une AE, qui est essentielle à la réplication virale lytique, et
permet la transcription des génomes viraux.
Des études antérieures s'intéressant au nombre de transcrits cellulaires lors d'une
infection lytique au KSHV ont identifié un certain nombre d'ARNm cellulaires qui semblaient
échapper à l'arrêt du cycle cellulaire induit par le virus. Il a été mis en évidence que l'ARNm
codant pour l'interleukine 6 (IL6) était réfractaire à l'arrêt du cycle viral médié par SOX, en
l'absence d'autres facteurs viraux (GLAUSINGER et GANEM, 2004).
Cependant, au cours de l'infection, des facteurs viraux supplémentaires régulent la
transcription, l'épissage et la stabilité des ARNm cellulaires, ce qui pourrait influer sur
l'équilibre des ARNm au cours du cycle lytique.
Afin d'évaluer l'impact de SOX et muSOX sur l'expression des gènes cellulaires et
d'identifier les ARNm résistants à l'arrêt du cycle cellulaire, CLYDE et GLAUNSINGER
(2011) ont analysé les transcrits de cellules infectées par le KSHV ou le MHV68 en présence
ou non de SOX et muSOX, par séquençage haut débit par la plateforme Illumina.
Conformément aux observations précédentes lors de l'infection lytique, la majorité des
transcriptions cellulaires ont été trouvées diminuées dans les cellules exprimant SOX ou
muSOX, avec muSOX agissant comme un facteur plus puissant d'arrêt du cycle cellulaire que
SOX.
Il a été mis en évidence une corrélation entre les niveaux d’expression et le degré de
régulation ; en effet, les ARNm en concentration importante vont être ceux qui seront les plus
régulés. Même parmi ces gènes fortement exprimés, il existe des ARNm résistants, qui
échappent à l'arrêt du cycle de l'hôte, comme c’est le cas des transcrits AEN et IL-6.
Certains ARNm sont directement résistants à SOX, et certains subissent des modifications en
aval de la transcription, leur conférant cette résistance.
Cette étude a permis par l’utilisation du séquençage haut débit, de définir les
mécanismes à l’origine de la sensibilité des ARNm lors d’une infection lytique par les
Gammaherpesvirinae.
115
III. EXEMPLES D'ÉTUDES TRANSCRIPTOMIQUES PAR SÉQUENÇAGE HAUT
DÉBIT CHEZ LES ANIMAUX
A. Analyse transcriptomique du FIV par séquençage haut débit
1. Principe de l'étude
Le virus de l'immunodéficience féline (FIV) est un agent pathogène très répandu,
provoquant une immunodéficience chez des chats domestiques et les félins sauvages
apparentés. Le FIV est un virus ARN, appartient à la famille des Retroviridae, du genre
Lentivirus. Les animaux infectés développent un syndrome d'immunodéficience se
caractérisant par l'épuisement progressif des lymphocytes T CD4 +, une gingivite, une
lymphadénopathie et des troubles neurologiques.
Le génome des lentivirus contient trois cadres de lectures ouverts (gag, pol, env) codant
respectivement pour les protéines de capside majeures, les enzymes virales et des protéines
d’enveloppe. L'expression des gènes viraux nécessite une étape de transcription du génome
proviral, puis un épissage des ARN messagers.
Les isolats de FIV des chats domestiques peuvent être divisés en cinq sous-types; la
classification est basée sur l'analyse phylogénétique des séquences virales env ou gag.
Au sein du sous-type A viral, très répandu, plusieurs isolats différant par leur pathogénicité,
peuvent être distingués. L'isolat FIV Petaluma (PET) est faiblement pathogène, à l'origine
d'une faible charge virale dans le plasma de chats infectés, et a des effets limités sur le rapport
de lymphocytes T CD4 +/ CD8 +. L'isolat Glasgow 8 (GL8) est très virulent, il entraîne des
charges virales plasmatiques élevées, et provoque une importante réduction du ratio
lymphocytes T CD4 + / CD8 +.
L'étude menée par ERTL et al. (2011), s'est intéressée à l'analyse du transcriptome
viral de deux souches de FIV (PET et GL8), de virulence différente, par la technique de
séquençage haut débit par la plateforme Illumina. Une RT-PCR quantitative a également été
mise en place, afin de pouvoir comparer ces deux méthodes.
Le séquençage haut débit a permis de générer un total de 10 à 6.000.000 séquences par
échantillon.
2. Résultats de l'étude
L'utilisation des technologies de séquençage de nouvelles générations a permis
d’obtenir des quantités égales d'ARNm viraux pour l'ensemble des gènes viraux des deux
échantillons. Les deux isolats, PET et GL8, ont présenté des niveaux d'expression très
similaires pour les principaux gènes viraux (seuls les transcrits de la chaine ORF-A ont été
détectés en quantités plus élevées pour GL8 par rapport au PET) (Figure n°30a). En revanche,
la RT-qPCR a montré des niveaux d'ARNm viraux plus élevés dans l'échantillon GL8 (Figure
n°30b). Ces résultats sont donc différents de ceux obtenus par séquençage haut débit. Les
données du séquençage haut débit ont été normalisées par rapport au nombre total de
séquences virales, alors que la RT-qPCR effectue une normalisation par rapport à trois gènes
de ménage cellulaires. Ainsi, les résultats suggèrent que les procédures de normalisation
116
peuvent influer sur le nombre d'ARNm calculés par les deux technologies. La normalisation
du séquençage haut débit est la plus juste.
En ce qui concerne les transcrits épissés, le séquençage haut débit n’a détecté qu'un
nombre limité de ces séquences, et les échantillons ont montré une grande variabilité du
nombre de transcrits détectés. Contrairement au SHD, les analyses par RT-qPCR des
transcrits épissés ont montré de faibles écarts-types entre les échantillons.
En conclusion, le séquençage haut débit s'est avéré être une technique adaptée pour
comparer le niveau de transcription des ARNm viraux entre deux souches de FIV. Il a montré
que les niveaux d'expression des gènes des deux souches virales comparées étaient très
proches.
Néanmoins, la quantification des transcrits épissés a été limitée par la faible longueur des
séquences obtenues. La RT-qPCR semble plus adaptée à la quantification de courtes
séquences spécifiques, et peut encore être considérée comme une alternative utile pour
l’analyse du transcriptome. Il a ainsi été montré des différences notables entre les deux
souches de FIV lors de l'épissage de l'ARNm viral. Ainsi, les divergences dans la régulation
de la maturation post-transcriptionnelle des ARN pourraient contribuer à la différence de
pathogénicité des souches FIV étudiées.
Figure n°30 : Niveaux d'expression des gènes viraux (gag, pol, orf, vif, env) de duplicats
d’échantillons biologiques infectés par deux souches de FIV (PET et GL8), par
séquençage haut débit (a) et par RT-qPCR (b), d’après ERTL et al., 2011
a
b
117
B. Analyse transcriptomique d'Adenovirus de la chauve-souris
1. Principe de l’étude
Les adénovirus (AdV) sont des virus à ADN, dont la taille de leur génome est
comprise entre 26 et 45 kb.
Le cycle de réplication de l’AdV humain peut être divisé en trois phases : précoce,
intermédiaire, et tardive. La phase précoce débute dès l’infection de la cellule hôte par le
virus, elle comprend l'adsorption, la pénétration, le transport de l'ADN viral jusqu’au noyau,
et l'expression d'un ensemble de gènes précoces. Les premiers gènes sont exprimés 1 h après
l'infection (pi), et ils codent pour des protéines jouant un rôle dans la réplication du virus.
Deux gènes viraux, IVA-2 et IX, sont ensuite exprimés à partir de 6 h pi, cela représente la
phase intermédiaire. Suite à cela, la réplication de l'ADN viral commence, et les gènes tardifs
s’expriment. Le cycle complet de l'infection se termine 24 à 36 heures après l'infection des
cellules hôtes.
Les AdV de la chauve-souris (BtAdV) présentent des séquences de faible similarité par
rapport à celles des AdV d’autres espèces, avec seulement 23 à 71% d’identité avec les acides
aminés de l’Adv humain.
Dans l’étude de WU et al. (2013), le séquençage haut débit a été utilisé pour analyser
le transcriptome de l’Adv de chauve-souris au sein d’une lignée de cellules de rein provenant
de l’espèce Myotis de chauve-souris ; les analyses portent sur plusieurs échantillons prélevés à
différentes temps post-infection. Le séquençage a été effectué par la plateforme Illumina.
2. Résultats de l’étude
Une analyse approfondie de l'expression génétique virale en fonction du temps postinfection, a révélé trois étapes de réplication : des gènes à un stade précoce codent
principalement pour des protéines régulatrices du cycle de l’hôte, des gènes à un stade
intermédiaire codent pour les protéines de la réplication de l'ADN et les protéines
d'assemblage, et les gènes à un stade avancé codent pour la plupart des protéines structurales.
Plusieurs gènes ADV de chauves-souris ont été exprimés à des stades différents de ceux de
leurs gènes homologues de l’ADV humain type 2 (le gène IV-2 qui n'était pas présent à 6 h
P.I. dans le type AdV humain 2 a été fortement exprimé à 6 h pi dans BtAdV).
En outre, les sites d'épissage de plusieurs gènes et les régions promotrices des 30
gènes viraux ont été entièrement déterminés.
Dans l'ensemble, le séquençage profond de l'ARN a fourni un profil transcriptionnel
global du BtAdV, et a permis de caractériser les interactions virus-hôte qui sont utiles pour la
compréhension et du mécanisme de réplication du BtAdV, ainsi que sa pathogénèse.
De plus, cette étude s’est intéressée à comparer les techniques de séquençage haut
débit et de RT-qPCR. Il a été mis en évidence des différences entre les profils d'expression
des gènes générés par RNA-Seq et qPCR. Ceci peut être illustré par le niveau d’expression du
gène E1A, qui diffère selon les deux méthodes (Figure n°31). De même, l'expression de deux
118
gènes intermédiaires, PTP et 33K, et de deux gènes tardifs, codant les hexons et les pentons, a
été détectée à 6 et 8 h en utilisant la technique RT-qPCR, mais n'a pas été détectée par analyse
de l'ARN-seq (Figure n°31).
Un certain nombre de facteurs peuvent influer sur les profils d'expression des gènes détectés
par les deux méthodes, comme nous l’avons développé dans la partie précédente.
En conclusion, en cas de cible unique, la q-PCR semble plus sensible que l’ARN-seq, mais
les processus de normalisation affectent les niveaux de détection des ARNm avec les deux
techniques.
Figure n°31 : Comparaison des niveaux d'expression de plusieurs gènes de BtAdV mis
en évidence par RNA-Seq et qPCR, d’après WU et al., 2013
Les triangles pleins correspondent au niveau d’expression des gènes BtAdV mesuré par RTqPCR.
Les carrés pleins correspondent au niveau d’expression des gènes BtAdV mesuré par ARNseq
119
C. Analyse transcriptomique du virus du syndrome dysgénésique et respiratoire
porcin
1. Principe de l'étude
Le syndrome dysgénésique et respiratoire du porc (SDRP), aussi appelé maladie de
l’oreille bleue, est caractérisé par des troubles de la reproduction chez les truies (infertilité,
momification des fœtus en fin de gestation, avortements, mortinatalité) et des problèmes
respiratoires chez les porcelets ainsi que les porcs en croissance (pneumonie interstitielle,
difficultés respiratoires). Ainsi, cette maladie est à l’origine de pertes économiques
importantes dans l’industrie du porc. La maladie est causée par le virus SDRP, un virus à
ADN actuellement classé dans la famille des Arteriviridae et le genre Arterivirus. La
principale cellule-cible du virus est le macrophage alvéolaire du porc. Le virus peut être à
l’origine d’une virémie prolongée, et provoquer des infections persistantes pendant plusieurs
mois. Il est essentiellement transmis par des porcs infectés mais aussi par les fèces, l’urine, la
semence et le fumier infectés.
Les porcs infectés développent une réponse humorale importante et rapide, mais ces
anticorps précoces ne confèrent pas de protection et peuvent même être dangereux par mise
en place d'une facilitation de l’infection anticorps-dépendante, en permettant l'entrée du virus
dans les cellules cibles. La production d'anticorps neutralisants est retardée, et leurs niveaux
restant faibles, ils ne peuvent pas éliminer efficacement les cellules infectées. Toutes ces
raisons rendent la recherche immunologique de ce virus complexe.
Dans l’étude menée par XIAO et al. (2010), l’analyse du transcriptome du virus SDRP
extrait de poumons de porc, a été effectuée par séquençage haut débit, par la plateforme
Illumina ; de plus, des prélèvements pulmonaires de porcs infectés ont été soumis à une étude
histopathologique. Le but de l’étude était de mettre en relation le profil d’expression des
gènes avec les aspects pathogéniques.
2. Résultats de l'étude
Les résultats suggèrent que le virus SDRP utilise de nombreuses stratégies permettant
sa réplication et sa propagation. En effet, il permet de bouleverser la réponse immunitaire
innée de l'hôte en induisant une apoptose, ce qui entraîne l'épuisement des cellules
immunitaires, et la mise en place d'une facilitation de l’infection anticorps-dépendante. De
plus, le virus entraîne un processus inflammatoire permis par l’activation précoce de
molécules inflammatoires. Cette étude a permis de mettre en évidence des gènes liés au
métabolisme des lipides, APOB48R, APOE, PIK3C, dont l’activité augmente au cours de
l’infection par le SDRP. L’IRF3 joue un rôle primordial au cours de l’expression du gène de
l’interféron α, qui permet l’initiation de la réponse anti-virale de la cellule hôte. Cette étude a
montré que les transcrits IRF3 diminuent 168h post-infection chez les porcs infectées. De
plus, il a été montré que les transcrits du CD136, qui est un récepteur du virus SDRP,
augmentent suite à l’infection.
Néanmoins, l'étude des transcrits viraux pulmonaires présente des limites. En effet, le
transcriptome des tissus pulmonaires représente l'ensemble des transcrits de plusieurs cellules,
certaines sont infectées par le virus, certaines sont présentes en réponse au processus
120
infectieux, et certaines sont de passage dans les voies respiratoires. Ainsi, une augmentation
du nombre de cellules au sein du tissu pulmonaire peut être confondue avec une augmentation
de l'abondance des transcriptions.
Malgré cette limitation, cette analyse du transcriptome du SDRP permet une meilleure
compréhension de la pathogénèse de l'infection, et permettra le développement de nouvelles
thérapies antivirales
D. Exemples d'étude de microARN d'Herpesvirus chez les animaux
1. Etude des microARN de l'Herpesvirus aviaire
Une étude menée par BURNSIDE et al. (2011) s'est intéressée à caractériser les
microARN codés par les Herpesvirus aviaires, à savoir le virus de la maladie de Marek (MD)
qui comporte plusieurs sérotypes: le virus oncogène (MDV1) et le virus non-oncogène MDV
(MDV2), ainsi que l'Herpesvirus de la dinde (HVT).
Le MDV1 induit un syndrome lymphoprolifératif dans lequel des lymphomes T agressifs se
développent dans les deux à six semaines après l'infection de poulets sensibles. L'infection par
MDV1 comprend deux étapes principales: une phase lytique et une phase latente. Plusieurs
vaccins ont été développés à partir de souches non oncogènes, telles que MDV2 et HVT, qui
protègent les animaux contre la maladie.
La comparaison des microARN de chacun des Herpesvirus aviaires par séquençage
haut débit Illumina et pyroséquençage 454 a montré qu’ils possèdent des séquences uniques,
et des régions génomiques similaires.
MDV1 et HVT codent notamment pour des microARN homologues à ceux de l'hôte, tel que
miR-221, qui vise un gène important dans la régulation du cycle cellulaire. MDV1 code un
microARN (mdv1-miR-M4) qui partage une séquence d'amorçage avec miR-155, un
microARN de l’hôte jouant un rôle important dans la fonction immunitaire. MDV-miR-M4
est fortement exprimé dans les tumeurs induites par MDV, alors que miR-155 est présent à
des niveaux très bas.
Les microARN sont exprimés au sein des infections lytiques et latentes, ainsi que dans
les tumeurs dérivées du MDV1. Cela suggère que ces petites molécules sont très importantes
pour le virus, et jouent un rôle dans l'échappement immunitaire, dans les mécanismes antiapoptose, ou dans la prolifération tumorale.
121
2. Etude des miARN de l'entérite virale des canards
L’agent étiologique de l'entérite virale des canards est un α-Herpesvirus, aussi appelé
virus de la peste du canard ou Herpesvirus des anatidés ou DEV. L’entérite virale des canards
est une maladie très contagieuse, à l’origine d’une mortalité élevée chez les oiseaux
aquatiques. Une étude récente a montré que le DEV a une structure du génome similaire à
ceux des Iltovirus.
L’étude menée par YAO et al. (2012) s'est intéressée à la mise en évidence de
microARN par séquençage haut débit sur des petits ARN d’une culture de fibroblastes
d'embryon de poulets infectés par la souche 568 de DEV. La plateforme utilisée est la
plateforme Illumina. Elle a permis de générer 345 371 séquences de lecture, dont 34 644 ont
été alignées avec le génome du DEV. Un total de 19 251 d’entre elles correspondait à la
séquence de 46 candidats de miARN du DEV.
Dans cette étude, il a été mis en évidence de nouveaux miARN, qui ont été
principalement cartographiés sur une longue région unique du génome.
Plusieurs miARN ont été analysés de manière séquentielle, ils ont été nommés DEV-miR-D1
à DEV-miR-D24 en fonction de leur emplacement génomique. Les miARN matures ont des
longueurs de séquence de 19-24 nt. Le nombre de séquences individuelles de chacun de ces
24 miARN varie considérablement. Alors que certains des miARN comme le DEV-miR-D8
sont très abondants avec 3028 séquences, d'autres comme le DEV-miR-D2 a été détecté
seulement en un seul exemplaire. Les précurseurs des DEV-miR-D18 et DEV-miR-D19 sont
chevauchants. Une expérience supplémentaire a d’ailleurs montré que seul le DEV-miR-D18
est potentiellement fonctionnel.
L'identification de ces nouveaux miARN est le point de départ d’autres études visant à
examiner leur rôle dans la pathogénicité du virus.
3. Etude des miARN de l'Herpesvirus bovin 1
L’Herpesvirus Bovin 1 (BHV-1) est un membre de la sous-famille des AlphaHerpesvirinae, de la famille des Herpesviridae. La taille du génome du BHV-1 est de 13 5301
pb, avec environ 73 cadres de lecture ouverts. BHV-1 est un agent pathogène majeur du bétail
à travers le monde et est associé à des maladies respiratoires, des troubles de la reproduction,
à une mortalité néonatale ou des maladies dermiques chez les bovins. BHV-1 a été divisé en
trois génotypes 1.1, 1.2a et 1.2b. Les sous-types 1.1 et 1.2a ont été associés à une maladie
grave et à une infection du fœtus, entraînant l'avortement.
L’Herpesvirus bovin de type 5 (BHV-5) est un autre agent pathogène de la famille des
Herpesviridae qui entraine une maladie respiratoire et neurologique chez les bovins et les
ovins. Ce virus est très similaire à BHV-1.
Dans l'étude menée par GLAZOV et al. (2010), il a été supposé que comme les autres
membres de la famille des Herpesviridae, BHV-1 code et exprime des miARN. Étant donné
la relation génétique étroite entre BHV-1 et BHV-5, les scientifiques ont également émis
l'hypothèse qu'au moins certains miARN identifiés chez le BHV-1 seraient également
présents dans le génome du BHV-5.
122
Afin de valider ces hypothèses, un séquençage haut débit a été réalisé sur les ARN de
cellules rénales de bovins inoculées avec le BHV-1, par la plateforme Illumina.
L'analyse bioinformatique des données de séquençage a permis d'identifier 10 gènes
du BHV-1 qui codent pour des miARN. Les analyses de séquences comparatives ont montré
que neuf des BHV-1 miARN sont conservés dans BHV-5.
Cette étude constitue la base de futures enquêtes sur le rôle de ces miARN dans la
régulation post-transcriptionnelle des gènes codés par BHV-1 et des gènes de son hôte.
123
124
CONCLUSION ET PERSPECTIVES
Tout au long de ce travail, nous avons pu constater l'importance du séquençage haut
débit en virologie. Cette technique a révolutionné les domaines d’études virologiques par sa
rapidité et le nombre de données générées. En effet, depuis l’apparition des séquenceurs haut
débit sur le marché, un nombre important de virus, encore inconnus jusqu’à ce jour, ont été
découverts, et leur nombre ne fait qu’augmenter de jour en jour. De plus, le séquençage haut
débit permet la gestion d’infections virales, principalement lors de foyers infectieux pour la
maîtrise desquels des techniques rapides doivent être utilisées. En effet, les séquenceurs
permettent une identification rapide des agents viraux responsables de maladie, ainsi que la
détermination de diverses caractéristiques telles que leur réponse aux traitements anti viraux,
ainsi que les mécanismes de leurs interactions avec la cellule hôte ou l’hôte lui-même.
Néanmoins, il est important de garder à l'esprit les différentes limites que présente encore
le séquençage haut débit. L'une des principales limitations de l'application clinique de cette
technique, est la masse de données obtenues suite au séquençage, ainsi que la gestion de ces
données par des outils bioinformatiques complexes.
De plus, il faut rester vigilant quant à l'interprétation des données obtenues. En effet, lors
d'une approche métagénomique, cette technique permet la mise en évidence d'un nombre
important de séquences virales. Il est alors primordial de s'interroger sur le rôle de ces
séquences virales dans la maladie présente.
Malgré ces limites, et en dépit aussi des progrès rapides qui ont déjà été réalisés au cours
de ces dernières années, de nouveaux séquenceurs voient encore le jour, les séquenceurs de
troisième génération, dont le but est de séquencer une simple molécule d’ADN en temps réel
sans passage par plusieurs cycles. L’Oxford nanopore est l’un de ces nouveaux séquenceurs, il
s’affranchit du processus enzymatique et d’imagerie, et son principe repose sur la mise en
place d’un courant électrique à travers des pores (EISENSTEIN, 2012). L’objectif est de
développer des séquenceurs à peine plus gros qu’un Smartphone.
Ces dispositifs pourraient alors être disponibles en clinique très rapidement, et devenir un
outil diagnostique en médecine humaine ou vétérinaire (DESAI et JERE, 2012; XUAN et al.,
2012). Ils permettraient alors de poser en quelques heures un diagnostic précis, voire
d’adapter un traitement au cas par cas.
Il est donc logique que cette technologie connaisse aussi un grand succès dans d’autres
domaines, tels que la bactériologie. Il est à présent possible, grâce au séquenceur Illumina, de
séquencer le génome bactérien de 5 Mb d’Escherichia coli en une journée pour un coût de
100 $. Les analyses bactériennes par séquençage haut débit portent principalement sur l’ARN
ribosomique 16S. Elles permettent notamment les études des microbiomes environnementaux
du sol et des eaux (WAHL, 2013).
Le séquençage haut débit a aussi permis la gestion d’infections bactériennes comme
par exemple lors de la crise de 2009 due à une souche d’E. coli O104 :H4 représentée par un
hybride hypervirulent (UNDERWOOD et al., 2013).
Compte tenu des progrès technologiques en cours, on peut donc augurer qu’un nombre
croissant d’agents pathogènes très divers vont en bénéficier dans l’avenir.
125
126
BIBLIOGRAPHIE
ABECASIS GR, ALTSHULER D, AUTON A, BROOKS LD, DURBIN RM, GIBBS RA.
(2010). A map of human genome variation from population-scale sequencing. Nature. 467,
61-73
ANTONSSON A, ERFURT C, HAZARD K, HOLMGREN V, SIMON M, KATAOKA A.
(2003). Prevalence and type spectrum of human papillomaviruses in healthy skin samples
collected in three continents. J Gen Virol. 84 (7), 1181–6
BALZER S, MALDE K, JONASSEN I. (2011). Systematic exploration of error sources
in pyrosequencing flowgram data. Bioinformatics. 27(13), 304-309
BARZON
L, LAVEZZO
E, MILITELLO
V, TOPPO
S, PALU
G.
(2011).
Applications of next-generation sequencing technologies to diagnostic virology. Int J Mol
Sci. 12(11), 61-84
BEERENWINKEL N, GUNTHARD HF, ROTH V, METZNER KJ. (2012). Challenges and
opportunities in estimating viral genetic diversity from next-generation sequencing data.
Front Microbiol. 3, 1-16
BEERENWINKEL N, ZAGORDI O. (2011). Ultra-deep sequencing for the analysis of viral
populations. Curr Opin Virol. 1(5), 413-8
BEXFIELD N, KELLAM P. (2010). Metagenomics and the molecular identification of novel
viruses. Vet J. 190(2), 191-8
BIEBRICHER CK, EIGEN M. (2005). The error threshold. Virus Res. 107(2), 117-27
BIMBER BN, BURWITZ BJ, O’CONNOR S, DETMER A, GOSTICK E, LANK SM.
(2009). Ultradeep pyrosequencing detects complex patterns of CD8+ T-lymphocyte escape in
simian immunodeficiency virus-infected macaques. J Virol. 83(16), 8247-53
BOUQUET J, CHEVAL J, ROGEE S, PAVIO N, ELOIT M. (2012). Identical consensus
sequence and conserved genomic polymorphism of hepatitis E virus during
controlledinterspecies transmission. J Virol. 86(11), 6238-45
BRIESE T, PAWESKA JT, MCMULLAN LK, HUTCHISON SK, STREET C, PALACIOS
G, et al. (2009). Genetic detection and characterization of Lujo virus, a new hemorrhagic
fever-associated arenavirus from southern Africa. PLoS Pathog. 5, e1000455
BURNSIDE J, MORGAN R. (2011). Emerging roles of chicken and viral microRNAs in
avian disease. BMC Proc. 5(Suppl 4), S2
127
BYRNE D, GRZELA R, LARTIGUE A, AUDIC S, CHENIVESSE S, ENCINAS S,
CLAVERIE JM, ABERGEL C. (2009). The polyadenylation site of mimivirus transcripts
obeys a stringent ‘hairpin rule. Genome Res. 19, 1233–1242
CAPOBIANCHI MR, GIOMBINI E, ROZERA G. (2013). Next-generation sequencing
technology in clinical virology. Clin Microbiol Infect. 19(1), 15-22
CHEVAL J, SAUVAGE V, FRANGEUL L, DACHEUX L, GUIGON G, DUMEY N.
(2011). Evaluation of high-throughput sequencing for identifying known and unknown
viruses in biological samples. J Clin Microbiol. 49(9), 68-75
CLOONAN N, FORREST AR, KOLLE G, GARDINER BB, FAULKNER GJ, BROWN
MK. et al. (2008). Stem cell transcriptome profiling via massive-scale mRNA sequencing.
Nat Methods. 5(7), 613-9
CLYDE K, GLAUNSINGER BA. (2011). Deep sequencing reveals direct targets of
gammaherpesvirus-induced mRNA decay and suggests that multiple mechanisms govern
cellular transcript escape. PLoS ONE. 6, 8859-8871
COMMINS J, TOFT C, FARES MA. (2009). Computational biology methods and their
application to the comparative genomics of endocellular symbiotic bacteria of insects. Biol
Proced Online. 11, 52-78
COX-FOSTER DL, CONLAN S, HOLMES EC, PALACIOS G, EVANS JD, MORAN NA.
(2007). A metagenomic survey of microbes in honey bee colony collapse disorder. Science.
318, 283-7
DAVID L, HUBER W, GRANOVSKAIA M, TOEDLING J, PALM CJ, BOFKIN L. et al.
(2006). A high-resolution map of transcription in the yeast genome. Proc Natl Acad Sci USA.
103(14), 5320-5
DAY JM, BALLARD LL, DUKE MV, SCHEFFLER BE, ZSAK L. (2010). Metagenomic
analysis of the turkey gut RNA virus community. Virol J. 7, 1-8
DESAI AN, JERE A. (2012). Next-generation sequencing: ready for the clinics? Clin Genet.
81(6), 503-10
DOHM JC, LOTTAZ C, BORODINA T, HIMMELBAUER H. (2008). Substantial biases in
ultra-short read data sets from high-throughput DNA sequencing. Nucleic Acids Res. 36(16),
e105
DOMINGO E, SHELDON J, PERALES C. (2012). Viral quasispecies evolution. Microbiol
Mol Biol Rev. 76(2), 159-216
DRAKE JW, HOLLAND JJ. (1999). Mutation rates among RNA viruses. Proc Natl Acad Sci
U S A. 96(24), 13910–13913
128
EIGEN M. (1993). Viral quasispecies. Sci Am. 269(1), 42-9
EIGEN M. (1971). Selforganization of matter and the evolution of biological
macromolecules. Naturwissenschaften. 58(10), 465-523
EISENSTEIN M. (2012). Oxford Nanopore announcement sets sequencing sector abuzz. Nat
Biotechnol. 30(4), 295-6
ERLICH Y, MITRA PP, DELABASTIDE M, MCCOMBIE WR, HANNON GJ. (2008).
Alta-Cyclic: a selfoptimizing base caller for next-generation sequencing. Nat Methods. 5(8),
679-82
ERTL R, BIRZELE F, HILDEBRANDT T, KLEIN D. (2011). Viral transcriptome analysis of
feline immunodeficiency virus infected cells using second generation sequencing technology.
Vet Immunol Immunopathol. 143, 14-24
FLICEK P, BIRNEY E. (2009). Sense from sequence reads: methods for alignment and
assembly. Nat Methods. 6(11 Suppl), 6-12
FOULONGNE V, SAUVAGE V, HEBERT C, DEREURE O, CHEVAL J, GOUILH MA. et
al. (2012). Human skin microbiota: high diversity of DNA viruses identified on the human
skin by high throughput sequencing. PLoS One. 7(6), e38499
GANEM D. (2007). Kaposi's sarcoma-associated herpesvirus. Fields virology, 5th ed, vol 2
Wolters Kluwer/Lippincott/Williams & Wilkins Co. 2847–2888
GATHERER D, SEIRAFIAN S, CUNNINGHAM C, HOLTON M, DARGAN DJ,
BALUCHOVA K. et al. (2011). High-resolution human cytomegalovirus transcriptome. Proc
Natl Acad Sci U S A. 108, 19755–19760
GE X, LI Y, YANG X, ZHANG H, ZHOU P, ZHANG Y. et al. (2012). Metagenomic
analysis of viruses from bat fecal samples reveals many novel viruses in insectivorous bats in
China. J Virol. 86(8), 4620-4630
GERET CP, CATTORI V, MELI ML, RIOND B, MARTINEZ F, LOPEZ G. et al. (2011).
Feline leukemia virus outbreak in the critically endangered Iberian lynx (Lynx pardinus):
high-throughput sequencing of envelope variable region A and experimental transmission.
Arch Virol. 156(5), 839-854
GLAUNSINGER B, GANEM D. (2004). Highly selective escape from KSHV-mediated host
mRNA shutoff and its implications for viral pathogenesis. J Exp Med. 200(3), 391-8
GLAZOV EA, HORWOOD PF, ASSAVALAPSAKUL W, KONGSUWAN K, MITCHELL
RW, MITTER N. (2010). Characterization of microRNAs encoded by the bovine herpesvirus
1 genome. J Gen Virol. 91, 32-41
GREY F, ANTONIEWICZ A, ALLEN E, SAUGSTAD J, MC SHEA A, CARRINGTON JC.
et al. (2005). Identification and characterization of human cytomegalovirus-encoded
microRNAs. J. Virol. 79,12095–12099
129
GUERRA S, LOPEZ-FERNANDEZ LA, PASCUAL-MONTANO A, MUNOZ M,
HARSHMAN K, ESTEBAN M. (2003). Cellular gene expression survey of vaccinia virus
infection of human HeLa cells. J Virol. 77(11), 493-506
HARTMANN C, CORRE-MENGUY F, BOUALEM A, JOVANOVIC M, LELANDAISBRIERE C. (2004). Les microARN: Une nouvelle classe de régulateurs de l’expression
génique. Médecine Sciences. 20(10), 894-898
HEDSKOG C, MILD M, JEMBERG J, SHERWOOD E, BRATT G, LEITNER T. et al.
(2010). Dynamics of HIV-1 quasispecies during antiviral treatment dissected using ultra-deep
pyrosequencing. PLoS One. 5(7), e11345
HIRAGA N, IMAMURA M, ABE H, HAYES CN, KONO T, ONISHI M. et al. (2011).
Rapid emergence of telaprevir resistant hepatitis C virus strain from wildtype clone in vivo.
Hepatology. 54(3), 781-788
HOFFMANN B, SCHEUCH M, HOPER D, JUNGBLUT R, HOLSTEG M, SCHIRRMEIER
H. et al. (2012). Novel orthobunyavirus in Cattle, Europe, 2011. Emerg Infect Dis. 18(3), 6972
HONKAVUORI KS, SHIVAPRASAD HL, BRIESE T, STREET C, HIRSCHBERG DL,
HUTCHISON SK et al. (2011). Novel picornavirus in Turkey poults with hepatitis,
California, USA. Emerg Infect Dis. 17(3), 480-487
HUGHES AL, O’CONNOR S, DUDLEY DM, BURWITZ BJ, BIMBER BN, O’CONNOR
D. (2010). Dynamics of haplotype frequency change in a CD8+TL epitope of simian
immunodeficiency virus. Infect Genet Evol. 10(4), 55-60
HUSE SM, HUBER JA, MORRISON HG, SOGIN ML, WELCH DM. (2007). Accuracy and
quality of massively parallel DNA pyrosequencing. Genome Biol. 8(7), R143
HYMAN ED. (1988). A new method of sequencing DNA. Anal Biochem 174(2), 423-36
ILLUMINA®. Illumina sequencing technology: Highest data accuracy, simple workflow and
a broad range of applications. [En ligne]
[http://res.illumina.com/documents/products/techspotlights/techspotlight_sequencing.pdf]
(Consulté le 05 Avril 2013)
KAPOOR A, MEHTA N, DUBOVI EJ, SIMMOND P, GOVINDASAMY L, MEDINA JL.
(2012a). Characterization of novel canine bocaviruses and their association with respiratory
disease. J Gen Virol. 93, 341-6
KAPOOR A, DUBOVI EJ, HENRIQUEZ-RIVERA JA, LIPKIN WI. (2012b). Complete
genome sequence of the first canine circovirus. J Virol. 86(12), 1-12.
KAPOOR A, SIMMONDS P, GEROLD G, QAISAR N, JAIN K, HENRIQUEZ JA. et al.
(2011). Characterization of a canine homolog of hepatitis C virus. Proc Natl Acad Sci U S A.
108(28), 8-13
130
KISTLER AL, GANCZ A, CLUBB S, SKEWES –COX P, FISCHER K, SORBER K. et al.
(2008). Recovery of divergent avian bornaviruses from cases of proventricular dilatation
disease: identification of a candidate etiologic agent. Virol J. 5, 1-15
KLEIN PN, CASTRO AE, METEYER CU, REYNOLDS B, SWARTZMAN-ANDERT JA,
COOPER G. (1991). Experimental transmission of turkey viral hepatitis to day-old poults and
identification of associated viral particles resembling picornaviruses. Avian Dis. 35(1), 15-25
KNIPE DM, HOWLEY PM. (2007). Fiels Virology. 5th Ed. Editions Lippincott-Williams
and Wilkins. Philadelphia. 3225p
KURODA M, KATANO H, NAKAJIMA N, TOBIUME M, AINAI A, SEKIZUKA T. et al.
(2010). Characterization of quasispecies of pandemic 2009 influenza A virus (A/H1N1/2009)
by de novo sequencing using a next-generation DNA sequencer. PLoS One. 5(4), e10256
LAUCK M, ALVARADO MORA MV, BECKER EA, BHATTACHARYA D, STRIKER R,
HUGHES AL. et al. (2012). Analysis of hepatitis C virus intrahost diversity across the
coding region by ultradeep pyrosequencing. J Virol. 86(7), 52-60
LAURING AS, ANDINO R. (2010). Quasispecies theory and the behavior of RNA viruses.
PLoS Pathog. 6(7), e1001005.
LEAMON JH, LEE WL, TARTARO KR, LANZA JR, SARKIS GJ, DEWINTER AD et al.
(2003). A massively parallel PicoTiterPlate based platform for discrete picoliter-scale
polymerase chain reactions. Electrophoresis. 24(21), 69-77.
LECOSSIER D, SHULMAN NS, MORAND JOUBERT L, SHAFER RW, JOLY V,
ZOLOPA AR. (2005). Detection of minority populations of HIV-1 expressing the K103N
resistance mutation in patients failing nevirapine. J Acquir Immune Defic Syndr. 38(1), 37-42
LI C, CHEN RS, HUNG YT, LEE CY, YEN YW, LAI RH. et al. (2006). Detection of
Epstein-Barr virus infection and gene expression in human tumors by microarray analysis. J.
Virol. Methods. 133,158-166.
LI L, PESAVENTO PA, LEUTENEGGER CM, ESTRADA M, COFFEY LL, NACCACHE
SN. et al. (2013). A novel bocavirus in canine liver. Virol J. 10, 1-4
LI L, PESAVENTO PA, SHAN T, LEUTENEGGER CM, WANG C, DELWART E, (2011).
Viruses in diarrhoeic dogs include novel kobuviruses and sapoviruses. J Gen Virol. 92, 34-41
LIN Z, XU G, DENG N, TAYLOR C, ZHU D, FLEMINGTON EF. (2010). Quantitative and
qualitative RNA-Seq-based evaluation of Epstein-Barr virus transcription in type I latency
Burkitt's lymphoma cells. J Virol. 84(24), 13053-8
LIPKIN WI. (2009). Microbe hunting in the 21st century. Proc Natl Acad Sci U S A. 106, 6-7
LUO G, TAYLOR J. (1990). Template Switching by Reverse Transcriptase during DNA
Synthesis . J Virol. 64(9), 4321-4328
131
LUO Z, ROI S, DASTOR M, GALLICE E, LAURIN MA, L’HOMME Y. (2011). Multiple
novel and prevalent astroviruses in pigs. Vet Microbiol. 149, 316-23
LYSHOLM F, WETTERBOM A, LINDAU C, DARBAN H, BJERKNER A, FAHLANDER
K et al. (2012). Characterization of the viral microbiome in patients with severe lower
respiratory tract infections, using metagenomic sequencing. PLoS One. 7(2), e30875
MANTEUFEL J, TRUYEN U. (2008). Animal bocaviruses: a brief review. Intervirology.
51(5), 28-34
MARGULIES M., EGHOLM M, ALTMAN WE, ATTIYA S, BADER JS, BEMBEN LA et
al. (2005). Genome sequencing in microfabricated high-density picolitre reactors. Nature
437(7057), 376-80
MARIONI JC, MASON CE, MANE SM, STEPHENS M, GILAD Y. (2008). RNA-seq: an
assessment of technical reproducibility and comparison with gene expression arrays. Genome
Res. 18(9), 9-17
MAXAM AM, GILBERT W. (1977). A new method for sequencing DNA. Proc Natl Acad
Sci USA. 74(2), 560-4
METZKER ML. (2010) Sequencing technologies - the next generation. Nat Rev Genet. 11,
31-46
MILLER JR, KOREN S, SUTTON G. (2010). Assembly algorithms for next-generation
sequencing data. Genomics. 95(6), 15-27
NINOMIYA M, UENO Y, FUNAYAMA R, NAGASHIMA T, NISHIDA Y, KONDO Y. et
al. (2012). Use of illumina deep sequencing technology to differentiate hepatitis C virus
variants. J Clin Microbiol. 50(3), 57-66
NOWAK MA. (1992). What is quasispecies? Trends Ecol Evol. 7(4), 18-21
OZSOLAK F, MILOS PM. (2011) RNA sequencing: advances, challenges and opportunities.
Nat Rev Genet. 12(2), 87-98
OZSOLAK F, PLATT AR, JONES DR, REIFENBERGER JG, SASS LE, MC INERNEY P.
et al. (2009). Direct RNA sequencing. Nature. 461, 814-8
PALACIOS G, DRUCE J, DU L, TRAN T, BIRCH C, BRIESE T. et al. (2008). A new
arenavirus in a cluster of fatal transplant-associated diseases. N Engl J Med. 358(10), 991-8
PALMER S, KEARNEY M, MALDARELL F, HALVAS EK, BIXBY CJ, BAZMI H.
(2005). Multiple, linked human immunodeficiency virus type 1 drug resistance mutations in
treatment-experienced patients are missed by standard genotype analysis. J Clin Microbiol.
43(1), 406-13
132
PEVZNER PA, TANG H, WATERMAN MS. (2001) An Eulerian path approach to DNA
fragment assembly. Proc Natl Acad Sci U S A. 98(17), 48-53
PRESTON BD, POIESZ BJ, LOEB LA. (1988). Fidelity of HIV-1 reverse transcriptase.
Science. 242, 68-71
QUINCE C, LANZEN A, CURTIS TP, DAVENPORT RJ, HALL N, HEAD IM et al. (2009)
Accurate determination of microbial diversity from 454 pyrosequencing data. Nat
Methods. 6(9), 639-41
RADFORD AD, CHAPMAN D, DIXON L, CHANTREY J, DARBY AC, HALL N. (2012)
Application of next-generation sequencing technologies in virology. J Gen Virol. 93, 53-68
RONAGHI M, KARAMOHAMED S, PETTERSSON B, UHLEN M, NYREN P. (1996)
Real-time DNA sequencing using detection of pyrophosphate release. Anal Biochem. 242(1),
84-9
RONAGHI M, UHLEN M, NYREN P. (1998) A sequencing method based on real-time
pyrophosphate. Science 281, 363-365
RONG L, DAHARI H, RIBEIRO RM, PERELSON AS. (2010). Rapid emergence of protease
inhibitor resistance in hepatitis C virus. Sci Transl Med. 2, 30-50
ROTHBERG JM, LEAMON JH. (2008). The development and impact of 454 sequencing.
Nat Biotechnol. 26(10), 1117-24
SANGER F, NICKLEN S, COULSON AR. (1977.a). DNA sequencing with chainterminating inhibitors. Proc Natl Acad Sci U S A. 74(12), 5463-7
SANGER F, AIR GM, BARRELL BG, BROWN NL, COULSON AR, FIDDES CA. et al.
(1977.b). Nucleotide sequence of bacteriophage phi X174 DNA . Nature. 265, 687-695
SCHLEBUSH S, ILING N. (2012). Next generation shotgun sequencing and the challenges of
de novo genome assembly. S Afr J Sci. 108 (11/12), 1-8
SHAN T, LI L, SIMMONDS P, WANG C, MOESER A, DELWART E. (2011). The fecal
virome of pigs on a high-density farm. J Virol. 85(22), 697-708
SHENDURE J, JI H. (2008). Next-generation DNA sequencing. Nat Biotechnol. 26(10), 3545
SHOKRALLA S, SPALL JL, GIBSON JF, HAJIBABAEIM. (2012). Next
generation sequencing technologies for environmental DNA research. Mol Ecol. 21(8), 794805.
SIERRA S, DA SILVA M, LOWENSTEIN PR, DOMINGO E. (2000). Response of footandmouth disease virus to increased mutagenesis: influence of viral load and fitness in loss of
infectivity. J Virol. 74(18), 8316-23
133
SMITH L, SANDERS JZ, KAISER RJ, HUGHES P, DODD C, CONNELL CR. et al. (1986).
Fluorescence detection in automated DNA sequence analysis. Nature. 321, 674-9
SOLOMON T, WILLISON H. (2003). Infectious causes of acute flaccid paralysis. Curr.
Opin. Infect. Dis. 16(5), 76-81
STARK TJ, ARNOLD JD, SPECTOR DH, YEO GW. (2012). Highresolution profiling and
analysis of viral and host small RNAs during human cytomegalovirus infection. J Virol. 86,
226–235
TOPFER A, HOPER D, BLOME S, BEER M, BEERENWINKEL N, RUGGLI N, LEIFER I.
(2013). Sequencing approach to analyze the role of quasispecies for classical swine fever.
Virology. 438(1), 4-9
TSE H, TSANG AK, TSOI HW, LEUNG AS, HO CC, LAU SK. (2012). Identification of a
novel bat papillomavirus by metagenomics. PLoS One. 7(8), e43986
UMBACH JL, WANG K, TANG S, KRAUSE PR, MONT EK, COHEN JI. et al. (2010).
Identification of viral microRNAs expressed in human sacral ganglia latently infected with
herpes simplex virus 2. J Virol. 84(2), 89-92
UMBACH JL, KRAMER MF, JURAK I, KARNOWSKI HW, COEN DM, CULLEN BR.
(2008). MicroRNAs expressed by herpes simplex virus 1 during latent infection regulate viral
mRNAs. Nature. 454, 780–783
UNDERWOOD AP, DALLMAN T, THOMSON NR, WILLIAMS M, HARKER K, PERRY
N. et. al. (2013). Public health value of next-generation DNA sequencing of
enterohemorrhagic Escherichia coli isolates from an outbreak. J Clin Microbiol. 51(1), 232-7
VERBINNEN T, VAN MARCK H, VANDENBROUCKE I, VIJGEN L, CLAES M, LIN TI.
(2010). Tracking the evolution of multiple in vitro hepatitis C virus replicon variants under
protease inhibitor selectionpressure by 454 deep sequencing. J Virol. 84(21), 11124-33
VICTORIA JG, KAPOOR A, LI L, BLINKOVA O, SLIKAS B, WANG C. et al. (2009)
Metagenomic analyses of viruses in stool samples from children with acute flaccid paralysis.
J Virol. 83(9), 4642–51
VOELKERDING KV, DAMES S, DURTSCHI JD. (2010). Next Generation Sequencing for
Clinical Diagnostics-Principles and Application to Targeted Resequencing for Hypertrophic
Cardiomyopathy: A Paper from the 2009 William Beaumont Hospital Symposium on
Molecular Pathology. J Mol Diagn. 12(5), 539-51
VRANCKEN
B,
LEQUIME
S,
THEYS
K,
LEMEY
P.
(2010).
Covering all bases in HIV research: unveiling a hidden world of viral evolution. AIDS Rev.
12(2), 89-102
134
WAHL B, ERNST F, KUMAR YADHU, MULLER B, STANGIER K, PAPROTKA T.
Defining the microbial composition of environmental samples using next generation
sequencing. [En ligne].
[http://www.gatcbiotech.com/fileadmin/Kundendaten/Upload_8.0/Dokumente/16S%20Environment_130218.p
df] (Consulté le 16 Septembre 2013)
WANG C, MITSUYA Y, GHARIZADEH B, RONAGHI M, SHAFER RW. (2007).
Characterization of mutation spectra with ultra-deep pyrosequencing: application to HIV-1
drug resistance. Genome Res. 17(8), 195-201
WANG FZ, WEBER F, CROCE C, LIU CG, LIAO X, PELLET PE. (2008). Human
cytomegalovirus infection alters the expression of cellular microRNA species that affect its
replication. J Virol. 82(18), 9065-74
WANG Z, GERSTEIN M, SNYDER M. (2009). RNA-Seq: a revolutionary tool for
transcriptomics. Nat Rev Genet. 10(1), 57-63
WIELAND U, MAUCH C, KREUTER A, KRIEG T, PFISTER H. (2009). Merkel cell
polyomavirus DNA in persons without merkel cell carcinoma. Emerg Infect Dis. 15(9), 1496–
8
WOODHOUSE SD, NARAYAN R, LATHAM S, LEE S, ANTROBUS R,
GANGADHARAN B. et al. (2010). Transcriptome sequencing, microarray, and proteomic
analyses reveal cellular and metabolic impact of hepatitis C virus infection in vitro.
Hepatology. 52, 443–453
WOOLHOUSE ME, HOWEY R, GAUNT E, REILY L, CHASE-TOPPING M, SAVILL N.
(2008). Temporal trends in the discovery of human viruses. Proc Biol Sci. 275, 2111–2115
WU L, ZHOU P, GE X, WANG LF, BAKER ML, SHI Z. (2013). Deep RNA sequencing
reveals complex transcriptional landscape of a bat adenovirus. J Virol. 87(1), 3-11
WYLIE KM, WEINSTOCK GM, STORCH GA. (2012). Emerging view of the human
virome. Transl Res. 160(4), 83-90
XIAO S, JIA J, MO D, WANG Q, QIN L, HE Z. (2010). Understanding PRRSV infection in
porcine lung based on genome-wide transcriptome response identified by deep sequencing.
PLoS One. 5(6), e11377
XUAN J, YU Y, QING T, GUO L, SHI L. (2012). Next-generation sequencing in the clinic:
Promises and challenges. Cancer Lett. 14(17), 672-6
YANG Z, REYNOLDS SE, MARTENS CA, BRUNO DP, PORCELLA SF, MOSS B.
(2011). Expression profiling of the intermediate and late stages of poxvirus replication. J
Virol. 85, 9899–9908
135
YANG Z, BRUNO DP, MARTENS CA, PORCELLA SF, MOSS B. (2010). Simultaneous
high-resolution analysis of vaccinia virus and host cell transcriptomes by deep RNA
sequencing. Proc Natl Acad Sci U S A. 107, 11513–11518
YAO Y, SMITH LP, PETHERBRIDGE L, WATSON M, NAIR V. (2012). Novel
microRNAs encoded by duck enteritis virus. J Gen Virol. 93, 1530-6
ZAGORDI O, GEYRHOFER L, ROTH V, BEERENWINKEL N. (2010). Deep sequencing
of a genetically heterogeneous sample: local haplotype reconstruction and read error
correction. J Comput Biol. 17(3), 417-28
136
LE SÉQUENÇAGE HAUT DÉBIT :
PRINCIPE ET APPLICATIONS EN
VIROLOGIE
Auteur: RAOUS Anne-sophie
Résumé :
Depuis les prémices du séquençage de l’ADN dans les années 70 par la méthode de
SANGER, le séquençage de l’ADN a connu une évolution majeure, jusqu’à arriver
aujourd’hui à une nouvelle génération de séquençage : le séquençage haut débit. Il regroupe
trois principaux types de séquenceurs : les pyroséquenceurs haut débit, les séquenceurs
Illumina et les séquenceurs SOLID. Cette technique permet le séquençage de plusieurs
millions à milliards de bases d’ADN en quelques heures à quelques jours selon les
séquenceurs.
Ce séquençage est à l’origine d’une révolution dans le domaine de la virologie. Nous nous
sommes intéressés dans ce travail à l’application en virologie humaine et vétérinaire du
séquençage haut débit, tel que la découverte de nouveaux virus, l’étude de quasi-espèces
virales, et l’étude de transcriptomes.
Mots-clés : VIROLOGIE - ADN - SÉQUENÇAGE - SÉQUENÇAGE HAUT DÉBIT POPULATION VIRALE - VARIANTS VIRAUX - ARN - TRANSCRIPTOME
Jury :
Président : Pr
Directeur : Dr Sophie LE PODER
Assesseur : Pr Nadia HADDAD- HOANG XUAN
Adresse de l’auteur :
Anne-sophie RAOUS
17 impasse de la Pauline 13011 Marseille
THE HIGH-THROUGHPUT SEQUENCING:
PRINCIPLE AND APPLICATIONS IN
VIROLOGY
Author: RAOUS Anne-sophie
Summary :
Since the beginnings of DNA sequencing in the 70s by the method of SANGER, sequencing
of DNA has undergone a major evolution until today with a new sequencing generation: the
high-throughput sequencing. It includes three main types of sequencers: high-throughput
pyrosequencers, Illumina sequencers and SOLID sequencers. This technique enables the
sequencing of millions to billions of DNA bases in a few hours to a few days depending on
the sequencers.
This sequencing is causing a revolution in the field of virology. In this study, we focused on
the application in human and veterinary virology of high-throughput sequencing, such as the
discovery of new viruses, the study of viral quasispecies, and transcriptomes analysis.
Keywords : VIROLOGY - DNA - SEQUENCING - HIGH-THROUGHPUT SEQUENCING
- VIRAL POPULATION - VIRAL VARIANTS - RNA - TRANSCRIPTOME
Jury :
President : Pr.
Director : Dr. Sophie LE PODER
Assessor : Pr. Nadia HADDAD- HOANG XUAN
Author’s address :
Anne-sophie RAOUS
17 impasse de la Pauline 13011 Marseille
Téléchargement