Comment lire une étude d`association génétique pangénomique

doi:10.1684/stv.2012.0692
240 Pour citer cet article : Debette S. Comment lire une étude d’association génétique pangénomique (GWAS) ? Sang Thrombose Vaisseaux 2012 ; 24 (5) : 240-7 doi:10.1684/stv.2012.0692
Mini-revue
Sang Thrombose Vaisseaux 2012 ;
24, no5 : 240-7
Comment lire une étude d’association génétique
pangénomique (GWAS) ?
Stéphanie Debette
Université de Versailles Saint-Quentin-en-Yvelines, Structure fédérative de recherche «Innovation, Santé, Épidémiologie »,
Hôpital R Poincaré, Garches, France ; Inserm U708, Neuroépidémiologie, Hôpital de la Salpêtrière, Paris, France ;
Department of Neurology, Boston University School of Medicine, the Framingham Heart Study, Boston, Mass, USA
Résumé. Les études d’association génétique pangénomiques (genome-
wide association study, GWAS) ont pour objectif d’identifier des
facteurs de susceptibilité génétiques des maladies multifactorielles. Elles
consistent à comparer la fréquence de centaines de milliers de variants
génétiques distribués sur l’ensemble des chromosomes entre un groupe
de cas atteints de la maladie et un groupe de témoins, en utilisant
des technologies de génotypage à haut débit. Il s’agit d’une approche
«agnostique », sans hypothèse préalable sur les gènes d’intérêt contrai-
rement aux études d’association génétique de type gène candidat. Le
nombre très important de tests statistiques effectués nécessite une puis-
sance de calcul importante et une correction sur tests multiples, une
valeur p <5×10-8 étant généralement considérée comme significative.
De grands effectifs sont nécessaires pour avoir une puissance statis-
tique suffisante, impliquant des projets multicentriques dans le cadre de
consortia internationaux. Il est important de tenir compte de l’origine eth-
nique et géographique des participants pour s’affranchir d’associations
faussement significatives dues à une «stratification »de la population.
Un autre élément crucial, comme pour toute étude d’association géné-
tique, est de répliquer les associations significatives dans une population
indépendante. Au cours des dernières années les GWAS ont permis
d’identifier des centaines de nouveaux variants génétiques associés à
diverses maladies multifactorielles, généralement à proximité de gènes
préalablement non suspectés. La découverte de nouveaux gènes de sus-
ceptibilité est cruciale pour améliorer la compréhension des mécanismes
biologiques conduisant aux maladies multifactorielles. Ceci pourrait
aboutir à l’identification de nouvelles cibles et stratégies thérapeutiques.
Une autre application potentielle est l’amélioration de la prédiction de
risque et la médecine ou thérapie personnalisée. Jusqu’ici les GWAS ont
exploré principalement les polymorphismes mononucléotidiques dont la
fréquence est relativement élevée. Il est probable que d’autres types de
variation génétique contribuent à l’héritabilité des maladies multifacto-
rielles.
Mots clés : étude d’association génétique, génome, polymorphisme, maladie multifac-
torielle, génotypage à haut débit
Tirés à part :
S. Debette
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
STV, vol. 24, no5, mai 2012 241
Abstract
How to interpret a genome-wide association study (GWAS)?
Genome-wide association studies (GWAS) aim at identifying genetic
susceptibility to multifactorial diseases. They compare the frequency of
several hundred thousand genetic variants distributed across the chro-
mosomes in a group of cases with a given disease and a group of
controls, using high-throughput genotyping technologies. In contrast with
candidate gene association studies, GWAS use an agnostic approach,
requiring no a priori hypothesis about the genes involved. The impor-
tant number of statistical tests performed most often requires access to
computer clusters for adequate processing power, and correction for
multiple testing needs to be performed, a p-value <5×10-8 being usually
considered as statistically significant. Large samples are needed to reach
sufficient statistical power, thus requiring multicenter projects led by inter-
national consortia. It is important to take into account the ethnic and
geographic origin of study participants, in order to avoid false positive
associations due to population stratification. Another crucial point, as
for any genetic association study, is to replicate significant associations
in an independent population. Over the past years, GWAS have lead to
the identification of hundreds of novel genetic variants associated with
various multifactorial diseases. Interestingly these were generally located
within or close to previously unsuspected genes. Discovering new suscep-
tibility genes is essential to improve our understanding of the biological
pathways involved in multifactorial diseases. This could help identify new
therapeutic targets and strategies. Another potential application is impro-
ved risk prediction and personalized medicine or therapy. So far, GWAS
have been mainly focused on common single nucleotide polymorphisms,
i.e. with a relatively high minor allele frequency. Other types of gene-
tic variation are likely to contribute substantially to the heritability of
multifactorial diseases.
Key words: genetic association studies, genome, polymorphism, multifactorial disease,
high throughput genotyping
Problématique
Les études d’association génétique pangénomiques ont
pour objectif d’identifier des facteurs de susceptibilité
génétiques de maladies communes, encore appelées mala-
dies complexes ou multifactorielles. Il s’agit de maladies
fréquentes causées par de multiples facteurs, à la fois
environnementaux et génétiques, ayant individuellement
un effet modeste, mais dont la présence simultanée peut
conduire à la survenue de la maladie. En font partie
par exemple les cancers, les maladies cardiovasculaires,
les maladies neurodégénératives telles que la maladie
d’Alzheimer, les maladies auto-immunes. Les maladies
multifactorielles se distinguent des maladies mendéliennes
ou monogéniques qui sont causées par une mutation
(variation rare) dans un seul gène. Notons toutefois que
même dans les maladies monogéniques l’expression phéno-
typique peut être influencée par des gènes modificateurs
[1], et que les maladies monogéniques et multifacto-
rielles ne sont probablement que les extrêmes d’un même
continuum [2].
Pour identifier un ou plusieurs variants génétiques associés
à une maladie donnée, l’approche la plus communément
utilisée est d’effectuer une étude d’association génétique,
i.e. de comparer la fréquence d’un ou plusieurs variants
génétiques entre un groupe de cas atteints de la maladie
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
242 STV, vol. 24, no5, mai 2012
et un groupe de témoins. Les variants génétiques
les plus fréquemment utilisés sont les polymorphismes
mononucléotidiques (single nucleotide polymorphism,
SNP), représentant une variation individuelle dans la
séquence nucléotidique. Pour un SNP A/G par exemple,
un individu donné peut être porteur d’aucun, un ou deux
allèle(s) G et présenter un des trois génotypes suivants :
AA, AG ou GG. Un allèle donné d’un variant génétique
est considéré comme étant associé à une maladie si sa fré-
quence diffère plus entre cas et témoins que ne le voudrait le
simple hasard. Cela n’implique pas nécessairement un lien
de causalité, dans la mesure où les variants étudiés ne sont
souvent pas directement fonctionnels, mais uniquement en
déséquilibre de liaison avec le variant causal qui n’est pas
observé (figure 1). Les études d’association génétique sont
beaucoup plus puissantes que les analyses de liaison pour
les maladies complexes [3]. Durant plusieurs années les
études d’association génétique étaient effectuées avec un
nombre limité de variants génétiques (souvent un seul), qui
étaient sélectionnés dans des gènes dits « candidats », c’est-
à-dire dont on pensait a priori qu’ils pouvaient intervenir
dans la physiopathologie de la maladie étudiée. Des cen-
taines d’études de ce type ont été publiées, dont très peu
ont abouti à des résultats robustes ayant pu être confirmés
dans des populations indépendantes [4]. Une grande par-
tie de ces études présentaient des limites méthodologiques,
notamment l’utilisation d’effectifs trop faibles donnant une
puissance statistique insuffisante, une analyse limitée de
la variation génétique sur un gène donné, et l’absence de
réplication de résultats significatifs dans une population
indépendante [5, 6]. Par ailleurs, elles sont fondées sur des
Association indirecte
(observée)
Déséquilibre de liaison
A
Phénotype
Association directe
(non observée)
Variant génotypé Variant causal non observé
Chromosome
B
Figure 1. Distinction entre association génétique et relation cau-
sale dans les études d’association génétique. Le variant génotypé
est à considérer comme un «marqueur ». À noter toutefois que
les variants génotypés peuvent parfois être aussi le variant cau-
sal. Le caractère fonctionnel d’un variant doit idéalement être testé
de fac¸on expérimentale (par exemple en testant l’association de
ce variant avec le taux d’expression du gène dans lequel ou près
duquel il se trouve). En l’absence de données expérimentales, cer-
taines localisations des variants génétiques peuvent être en faveur
d’un rôle fonctionnel : dans une séquence régulatrice, dans une
séquence codante – exon – «non-synonyme »ou «missense »
(i.e. modifiant l’acide aminé) ou «non-sense »(i.e. induisant la
survenue prématurée d’un codon stop), dans un site d’épissage
intronique.
hypothèses préalables, possiblement fausses, sur la physio-
pathologie sous-jacente de la maladie.
Depuis quelques années, les études d’association géné-
tiques ont été littéralement révolutionnées par l’avènement
des technologies de génotypage à haut débit. En effet
l’utilisation de micropuces, contenant des séquences oligo-
nucléotidiques définies sur lesquelles l’ADN est hybridisé,
permettent de mesurer de fac¸on automatisée en quelques
jours seulement des centaines de milliers voire plusieurs
millions de variants génétiques répartis sur l’ensemble du
génome, et ce sur plusieurs milliers d’individus à la fois
[7]. Auparavant, le génotypage d’un seul variant effectué
manuellement sur quelques centaines d’individus pouvait
prendre plusieurs semaines. Parallèlement à ces innova-
tions technologiques, le projet international HapMap1a
décrit et mis à disposition des chercheurs les polymor-
phismes les plus fréquents sur l’ensemble du génome,
dans différents groupes ethniques. Ceci a conduit à
l’avènement d’un nouveau type d’étude d’association géné-
tique, dite pangénomique ou « genome-wide association
study » (GWAS) [8]. Ces études consistent à génotyper
un très grand nombre (500 000-5 000 000) de variants
génétiques distribués sur l’ensemble des chromosomes,
sans hypothèse a priori sur les loci (régions génétiques)
d’intérêt.
Méthodes
Description des méthodes
Sur le plan statistique les études d’association génétique
sont basées sur des méthodes classiques. Pour un phénotype
dit binaire (présence ou absence d’une maladie donnée),
une régression logistique est effectuée pour chacun des
centaines des milliers de variants disponibles sur la puce
utilisée [9, 10]. Lorsque des traits quantitatifs sont étudiés,
par exemple la pression artérielle pulsée [11], ou l’index de
masse corporelle [12], une régression linéaire est employée,
et lorsque l’étude GWAS est effectuée dans des études lon-
gitudinales avec des événements incidents, un modèle de
Cox peut être appliqué [13]. Le modèle génétique utilisé est
généralement un modèle additif, avec un degré de liberté,
qui est le modèle le plus puissant dans ce type d’étude.
Un certain nombre de contraintes statistiques et logistiques
doivent toutefois être prises en compte, telles que détaillées
ci-après.
Le nombre très important de tests statistiques effectués
nécessite généralement l’accès à un supercalculateur du
1www.hapmap.org
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
STV, vol. 24, no5, mai 2012 243
fait de la puissance de calcul requise. Par ailleurs, une
correction sur tests multiples doit être effectuée. Il existe
différentes méthodes de correction, mais dans les études
GWAS on considère actuellement une valeur p <5×10-8
comme significative à échelle pangénomique, ce qui tient
compte du nombre total de variants génétiques indépen-
dants sur l’ensemble du génome [14]. Il en découle que de
très grands effectifs sont nécessaires pour avoir une puis-
sance statistique suffisante. En effet, les polymorphismes
génétiques le plus souvent étudiés jusqu’ici sur les puces
pangénomiques (SNPs de fréquence >1-5 %) ont habi-
tuellement des effets de taille modeste, avec des odds ratios
<1,5, le plus souvent entre 1,1 et 1,3 [6]. En règle générale,
les effectifs doivent être de plusieurs milliers de cas et de
témoins.
Les fréquences alléliques et taux de déséquilibre de liaison
étant variables entre individus d’origine ethnique et géo-
graphique différente, il est crucial que les cas et témoins
soient d’origine ethnique identique et issus d’une même
région. En effet, des associations faussement significa-
tives peuvent être observées en cas de « stratification »
de la population, i.e. si la population étudiée contient plu-
sieurs sous-populations différant par leurs caractéristiques
génétiques [15]. Plusieurs outils statistiques permettent de
détecter la présence d’une stratification (qui peut exister au
sein d’un même pays) et de corriger les analyses en tenant
compte de celle-ci. Les techniques les plus fréquemment
utilisées sont les analyses par composantes principales et
le contrôle génomique [16]. Les « quantile-quantile (QQ)
plots » (figure 2) et le facteur d’inflation génomique (qui
doit être le plus proche possible de 1,00) donnent généra-
lement une bonne indication de la qualité des vérifications
et corrections effectuées.
Du fait de la dimension des effectifs requis, les études
GWAS s’effectuent actuellement sous forme de collabo-
rations internationales, le plus souvent dans des consortia
où collaborent cliniciens, statisticiens, épidémiologistes
et généticiens de différents pays [17]. Les résultats des
analyses GWAS de différentes études sont méta-analysés.
Or, les polymorphismes génotypés diffèrent souvent d’une
étude à l’autre en fonction du fournisseur et de la généra-
tion de la puce utilisée. Par conséquent, seule une partie
des polymorphismes génotypés, commune aux différentes
puces, est théoriquement disponible pour une méta-analyse.
Afin de palier à cela, des logiciels statistiques ont été déve-
loppés permettant d’imputer les génotypes de variants ne
se trouvant pas sur la puce utilisée dans une population
donnée. Ils se servent des propriétés de déséquilibre de
liaison entre les variants et des « catalogues » de varia-
tion génétique dans différents groupes ethniques établis
Avant contrôle génomique
Après contrôle génomique
-Log10 de la valeur p attendue
0
024 6810
12345
-Log10 de la valeur p observée
Figure 2. Graphe quantile-quantile ou QQ-plot. La fine ligne
rouge montre la distribution sous l’hypothèse nulle (absence
d’association) ; en gris sont représentées les valeurs p observées
avant contrôle génomique (c’est-à-dire sans corriger les valeurs de
p sur le facteur d’inflation génomique pour tenir compte de la pré-
sence d’une stratification de population) ; en bleu sont représentées
les valeurs p après contrôle génomique, montrant une déviation de
la distribution attendue uniquement pour les valeurs p extrêmes,
qui reflètent vraisemblablement de réelles associations.
par les projets HapMap et 1000 Genomes2. Les méthodes
d’imputation basées sur les derniers référentiels du 1000
Genomes permettent d’inférer les génotypes de 38 millions
de variants génétiques (avec une précision plus ou moins
bonne).
Un élément crucial dans toute étude d’association géné-
tique, aussi bien de type pangénomique que gène-candidat,
est de répliquer toute association significative dans une
population indépendante, afin de s’affranchir de faux
positifs [14]. Souvent, la force de l’association est plus
importante dans l’étude princeps que dans les études de
réplication (ce phénomène est appelé le « winner’s curse »
[18]). Il faut en tenir compte dans le calcul du nombre de
sujets nécessaires pour l’analyse de réplication. Dans un
premier temps il est généralement préférable que les indi-
vidus de l’étude de réplication soient de la même origine
ethnique que les individus inclus dans l’étude d’association
initiale, car il peut exister des différences inter-ethniques
en termes de fréquences alléliques, déséquilibre de liaison
et force de l’association [19]. Dans un second temps, il
est toutefois recommandé de planifier une extension des
analyses à d’autres origines ethniques, d’une part, pour la
2www.1000genomes.org
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
244 STV, vol. 24, no5, mai 2012
généralisabilité des résultats et, d’autre part, parce que cela
peut permettre d’affiner le signal afin d’identifier le variant
causal. A ce jour plus de 95 % des GWAS ont été effectués
sur des populations d’origine européenne [20].
Avantages, inconvénients et limites
Au cours des cinq dernières années les GWAS ont permis
d’identifier des centaines de nouveaux variants génétiques
associés à diverses maladies multifactorielles, confirmés
par des études de réplication indépendantes3.Defac¸on
intéressante, la plupart du temps ces variants se trouvent
dans ou à proximité de gènes préalablement non sus-
pectés comme pouvant être impliqués dans la maladie
étudiée. Ceci confirme l’intérêt majeur d’une approche
« agnostique », sans hypothèse a priori. La découverte de
nouveaux gènes de susceptibilité est cruciale pour améliorer
la compréhension des mécanismes biologiques conduisant
aux maladies multifactorielles (figure 3).
Il est important de noter que les GWAS n’identifient géné-
ralement pas le variant causal (figure 1), et que bien qu’il
soit probable que le gène le plus proche soit souvent
celui qui porte le variant causal, ce n’est pas forcément le
cas. En effet, certains variants génétiques peuvent moduler
l’expression de gènes situés à distance sur le même chro-
mosome (cis), voire sur un autre chromosome (trans) [21].
Un génotypage plus fin voire un séquenc¸age de la région est
nécessaire pour déterminer le variant causal. Des analyses
quantitatives d’expression génique à échelle pangénomique
expression quantitative trait loci », eQTL) [22] peuvent
être utiles pour orienter vers le gène en cause lorsque le
variant causal module le niveau d’expression génique.
Malgré les découvertes majeures rendues possibles grâce
aux GWAS, les variants génétiques qu’ils permettent
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles
cibles et stratégies
thérapeutiques
Prédiction
de risque
Médecine
personnalisée
Figure 3. Implications de l’identification de facteurs de suscepti-
bilité génétique. Inspiré de McCarthy et al. [14].
3http://www.genome.gov/gwastudies
d’identifier n’expliquent qu’une fraction très incomplète
de l’héritabilité des maladies complexes. Ainsi, même
dans des pathologies telles que la maladie de Crohn où
l’approche GWAS a été très fructueuse, permettant la
découverte de plus de 71 loci modulant le risque de la mala-
die, ceux-ci expliquent à peine un quart de l’héritabilité
[23]. Cette proportion est encore plus faible pour d’autres
maladies, aux alentours de 10 % pour le diabète et la coro-
naropathie par exemple [24, 25]. Les GWAS explorent
principalement les polymorphismes mononucléotidiques
dont la fréquence est relativement élevée (>1-5 %). Il est
probable que d’autres types de variation génétique contri-
buent de fac¸on substantielle à l’héritabilité des maladies
multifactorielles, tels que les variants rares, les « copy
number variants » (CNV, i.e. segments d’ADN présents
en nombre variable de copies d’un individu à l’autre), ou
les modifications épigénétiques [26]. L’utilisation de nou-
velles générations de puces incorporant ces autres types
de variation génétique ainsi que des efforts de séquenc¸age
panexomique voire pangénomique sont en cours afin
d’explorer cette « héritabilité manquante ». Par ailleurs,
l’analyse d’interactions gène-environnement et gène-gène,
bien que complexe à échelle pangénomique, devrait per-
mettre également d’étendre la découverte de gènes de
susceptibilité [27, 28].
Exemples et applications
Les éléments importants à vérifier lors de la lecture d’une
étude GWAS par un non statisticien sont résumés dans la
figure 4. Deux types de graphiques fréquemment présentés
dans un GWAS sont le graphe quantile-quantile, dit « QQ-
plot » (figure 2), et le « Manhattan plot » (figure 5).LeQQ
plot (figure 2) correspond au graphe des valeurs p attendues
contre les valeurs p observées et permet de visualiser des
déviations de la distribution observée par rapport à la dis-
tribution attendue. Sur ce graphe, des associations réelles
se traduisent par une déviation par rapport à la distribution
attendue dans l’hypothèse nulle uniquement à l’extrémité
de la distribution, c’est-à-dire pour les p les plus signifi-
catifs (figure 2). Lorsque la déviation concerne l’ensemble
de la distribution des valeurs p, cela indique souvent un
problème de stratification de la population, ou peut aussi
refléter des relations familiales (parfois occultes) entre les
individus inclus dans l’étude ou un problème technique lié
au génotypage [29]. Ceci se traduit également par un facteur
d’inflation génomique anormalement élevé. Le Manhat-
tan plot (figure 5) représente les valeurs p d’association de
chaque SNP avec la maladie étudiée, en fonction de leur
position sur le génome.
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !