Comment lire une étude d`association génétique pangénomique

doi:10.1684/stv.2012.0692

240 Pour citer cet article : Debette S. Comment lire une étude d’association génétique pangénomique (GWAS) ? Sang Thrombose Vaisseaux 2012 ; 24 (5) : 240-7 doi:10.1684/stv.2012.0692

Mini-revue

Sang Thrombose Vaisseaux 2012 ;

24, no5 : 240-7

Comment lire une étude d’association génétique

pangénomique (GWAS) ?

Stéphanie Debette

Université de Versailles Saint-Quentin-en-Yvelines, Structure fédérative de recherche «Innovation, Santé, Épidémiologie »,

Hôpital R Poincaré, Garches, France ; Inserm U708, Neuroépidémiologie, Hôpital de la Salpêtrière, Paris, France ;

Department of Neurology, Boston University School of Medicine, the Framingham Heart Study, Boston, Mass, USA

<[email protected]>

Résumé. Les études d’association génétique pangénomiques (genome-

wide association study, GWAS) ont pour objectif d’identiﬁer des

facteurs de susceptibilité génétiques des maladies multifactorielles. Elles

consistent à comparer la fréquence de centaines de milliers de variants

génétiques distribués sur l’ensemble des chromosomes entre un groupe

de cas atteints de la maladie et un groupe de témoins, en utilisant

des technologies de génotypage à haut débit. Il s’agit d’une approche

«agnostique », sans hypothèse préalable sur les gènes d’intérêt contrai-

rement aux études d’association génétique de type gène candidat. Le

nombre très important de tests statistiques effectués nécessite une puis-

sance de calcul importante et une correction sur tests multiples, une

valeur p <5×10-8 étant généralement considérée comme signiﬁcative.

De grands effectifs sont nécessaires pour avoir une puissance statis-

tique sufﬁsante, impliquant des projets multicentriques dans le cadre de

consortia internationaux. Il est important de tenir compte de l’origine eth-

nique et géographique des participants pour s’affranchir d’associations

faussement signiﬁcatives dues à une «stratiﬁcation »de la population.

Un autre élément crucial, comme pour toute étude d’association géné-

tique, est de répliquer les associations signiﬁcatives dans une population

indépendante. Au cours des dernières années les GWAS ont permis

d’identiﬁer des centaines de nouveaux variants génétiques associés à

diverses maladies multifactorielles, généralement à proximité de gènes

préalablement non suspectés. La découverte de nouveaux gènes de sus-

ceptibilité est cruciale pour améliorer la compréhension des mécanismes

biologiques conduisant aux maladies multifactorielles. Ceci pourrait

aboutir à l’identiﬁcation de nouvelles cibles et stratégies thérapeutiques.

Une autre application potentielle est l’amélioration de la prédiction de

risque et la médecine ou thérapie personnalisée. Jusqu’ici les GWAS ont

exploré principalement les polymorphismes mononucléotidiques dont la

fréquence est relativement élevée. Il est probable que d’autres types de

variation génétique contribuent à l’héritabilité des maladies multifacto-

rielles.

Mots clés : étude d’association génétique, génome, polymorphisme, maladie multifac-

torielle, génotypage à haut débit

Tirés à part :

S. Debette

STV, vol. 24, no5, mai 2012 241

Abstract

How to interpret a genome-wide association study (GWAS)?

Genome-wide association studies (GWAS) aim at identifying genetic

susceptibility to multifactorial diseases. They compare the frequency of

several hundred thousand genetic variants distributed across the chro-

mosomes in a group of cases with a given disease and a group of

controls, using high-throughput genotyping technologies. In contrast with

candidate gene association studies, GWAS use an agnostic approach,

requiring no a priori hypothesis about the genes involved. The impor-

tant number of statistical tests performed most often requires access to

computer clusters for adequate processing power, and correction for

multiple testing needs to be performed, a p-value <5×10-8 being usually

considered as statistically signiﬁcant. Large samples are needed to reach

sufﬁcient statistical power, thus requiring multicenter projects led by inter-

national consortia. It is important to take into account the ethnic and

geographic origin of study participants, in order to avoid false positive

associations due to population stratiﬁcation. Another crucial point, as

for any genetic association study, is to replicate signiﬁcant associations

in an independent population. Over the past years, GWAS have lead to

the identiﬁcation of hundreds of novel genetic variants associated with

various multifactorial diseases. Interestingly these were generally located

within or close to previously unsuspected genes. Discovering new suscep-

tibility genes is essential to improve our understanding of the biological

pathways involved in multifactorial diseases. This could help identify new

therapeutic targets and strategies. Another potential application is impro-

ved risk prediction and personalized medicine or therapy. So far, GWAS

have been mainly focused on common single nucleotide polymorphisms,

i.e. with a relatively high minor allele frequency. Other types of gene-

tic variation are likely to contribute substantially to the heritability of

multifactorial diseases.

Key words: genetic association studies, genome, polymorphism, multifactorial disease,

high throughput genotyping

Problématique

Les études d’association génétique pangénomiques ont

pour objectif d’identiﬁer des facteurs de susceptibilité

génétiques de maladies communes, encore appelées mala-

dies complexes ou multifactorielles. Il s’agit de maladies

fréquentes causées par de multiples facteurs, à la fois

environnementaux et génétiques, ayant individuellement

un effet modeste, mais dont la présence simultanée peut

conduire à la survenue de la maladie. En font partie

par exemple les cancers, les maladies cardiovasculaires,

les maladies neurodégénératives telles que la maladie

d’Alzheimer, les maladies auto-immunes. Les maladies

multifactorielles se distinguent des maladies mendéliennes

ou monogéniques qui sont causées par une mutation

(variation rare) dans un seul gène. Notons toutefois que

même dans les maladies monogéniques l’expression phéno-

typique peut être inﬂuencée par des gènes modiﬁcateurs

[1], et que les maladies monogéniques et multifacto-

rielles ne sont probablement que les extrêmes d’un même

continuum [2].

Pour identiﬁer un ou plusieurs variants génétiques associés

à une maladie donnée, l’approche la plus communément

utilisée est d’effectuer une étude d’association génétique,

i.e. de comparer la fréquence d’un ou plusieurs variants

génétiques entre un groupe de cas atteints de la maladie

242 STV, vol. 24, no5, mai 2012

et un groupe de témoins. Les variants génétiques

les plus fréquemment utilisés sont les polymorphismes

mononucléotidiques (single nucleotide polymorphism,

SNP), représentant une variation individuelle dans la

séquence nucléotidique. Pour un SNP A/G par exemple,

un individu donné peut être porteur d’aucun, un ou deux

allèle(s) G et présenter un des trois génotypes suivants :

AA, AG ou GG. Un allèle donné d’un variant génétique

est considéré comme étant associé à une maladie si sa fré-

quence diffère plus entre cas et témoins que ne le voudrait le

simple hasard. Cela n’implique pas nécessairement un lien

de causalité, dans la mesure où les variants étudiés ne sont

souvent pas directement fonctionnels, mais uniquement en

déséquilibre de liaison avec le variant causal qui n’est pas

observé (ﬁgure 1). Les études d’association génétique sont

beaucoup plus puissantes que les analyses de liaison pour

les maladies complexes [3]. Durant plusieurs années les

études d’association génétique étaient effectuées avec un

nombre limité de variants génétiques (souvent un seul), qui

étaient sélectionnés dans des gènes dits « candidats », c’est-

à-dire dont on pensait a priori qu’ils pouvaient intervenir

dans la physiopathologie de la maladie étudiée. Des cen-

taines d’études de ce type ont été publiées, dont très peu

ont abouti à des résultats robustes ayant pu être conﬁrmés

dans des populations indépendantes [4]. Une grande par-

tie de ces études présentaient des limites méthodologiques,

notamment l’utilisation d’effectifs trop faibles donnant une

puissance statistique insufﬁsante, une analyse limitée de

la variation génétique sur un gène donné, et l’absence de

réplication de résultats signiﬁcatifs dans une population

indépendante [5, 6]. Par ailleurs, elles sont fondées sur des

Association indirecte

(observée)

Déséquilibre de liaison

Phénotype

Association directe

(non observée)

Variant génotypé Variant causal non observé

Chromosome

Figure 1. Distinction entre association génétique et relation cau-

sale dans les études d’association génétique. Le variant génotypé

est à considérer comme un «marqueur ». À noter toutefois que

les variants génotypés peuvent parfois être aussi le variant cau-

sal. Le caractère fonctionnel d’un variant doit idéalement être testé

de fac¸on expérimentale (par exemple en testant l’association de

ce variant avec le taux d’expression du gène dans lequel ou près

duquel il se trouve). En l’absence de données expérimentales, cer-

taines localisations des variants génétiques peuvent être en faveur

d’un rôle fonctionnel : dans une séquence régulatrice, dans une

séquence codante – exon – «non-synonyme »ou «missense »

(i.e. modiﬁant l’acide aminé) ou «non-sense »(i.e. induisant la

survenue prématurée d’un codon stop), dans un site d’épissage

intronique.

hypothèses préalables, possiblement fausses, sur la physio-

pathologie sous-jacente de la maladie.

Depuis quelques années, les études d’association géné-

tiques ont été littéralement révolutionnées par l’avènement

des technologies de génotypage à haut débit. En effet

l’utilisation de micropuces, contenant des séquences oligo-

nucléotidiques déﬁnies sur lesquelles l’ADN est hybridisé,

permettent de mesurer de fac¸on automatisée en quelques

jours seulement des centaines de milliers voire plusieurs

millions de variants génétiques répartis sur l’ensemble du

génome, et ce sur plusieurs milliers d’individus à la fois

[7]. Auparavant, le génotypage d’un seul variant effectué

manuellement sur quelques centaines d’individus pouvait

prendre plusieurs semaines. Parallèlement à ces innova-

tions technologiques, le projet international HapMap1a

décrit et mis à disposition des chercheurs les polymor-

phismes les plus fréquents sur l’ensemble du génome,

dans différents groupes ethniques. Ceci a conduit à

l’avènement d’un nouveau type d’étude d’association géné-

tique, dite pangénomique ou « genome-wide association

study » (GWAS) [8]. Ces études consistent à génotyper

un très grand nombre (500 000-5 000 000) de variants

génétiques distribués sur l’ensemble des chromosomes,

sans hypothèse a priori sur les loci (régions génétiques)

d’intérêt.

Méthodes

Description des méthodes

Sur le plan statistique les études d’association génétique

sont basées sur des méthodes classiques. Pour un phénotype

dit binaire (présence ou absence d’une maladie donnée),

une régression logistique est effectuée pour chacun des

centaines des milliers de variants disponibles sur la puce

utilisée [9, 10]. Lorsque des traits quantitatifs sont étudiés,

par exemple la pression artérielle pulsée [11], ou l’index de

masse corporelle [12], une régression linéaire est employée,

et lorsque l’étude GWAS est effectuée dans des études lon-

gitudinales avec des événements incidents, un modèle de

Cox peut être appliqué [13]. Le modèle génétique utilisé est

généralement un modèle additif, avec un degré de liberté,

qui est le modèle le plus puissant dans ce type d’étude.

Un certain nombre de contraintes statistiques et logistiques

doivent toutefois être prises en compte, telles que détaillées

ci-après.

Le nombre très important de tests statistiques effectués

nécessite généralement l’accès à un supercalculateur du

1www.hapmap.org

STV, vol. 24, no5, mai 2012 243

fait de la puissance de calcul requise. Par ailleurs, une

correction sur tests multiples doit être effectuée. Il existe

différentes méthodes de correction, mais dans les études

GWAS on considère actuellement une valeur p <5×10-8

comme signiﬁcative à échelle pangénomique, ce qui tient

compte du nombre total de variants génétiques indépen-

dants sur l’ensemble du génome [14]. Il en découle que de

très grands effectifs sont nécessaires pour avoir une puis-

sance statistique sufﬁsante. En effet, les polymorphismes

génétiques le plus souvent étudiés jusqu’ici sur les puces

pangénomiques (SNPs de fréquence >1-5 %) ont habi-

tuellement des effets de taille modeste, avec des odds ratios

<1,5, le plus souvent entre 1,1 et 1,3 [6]. En règle générale,

les effectifs doivent être de plusieurs milliers de cas et de

témoins.

Les fréquences alléliques et taux de déséquilibre de liaison

étant variables entre individus d’origine ethnique et géo-

graphique différente, il est crucial que les cas et témoins

soient d’origine ethnique identique et issus d’une même

région. En effet, des associations faussement signiﬁca-

tives peuvent être observées en cas de « stratiﬁcation »

de la population, i.e. si la population étudiée contient plu-

sieurs sous-populations différant par leurs caractéristiques

génétiques [15]. Plusieurs outils statistiques permettent de

détecter la présence d’une stratiﬁcation (qui peut exister au

sein d’un même pays) et de corriger les analyses en tenant

compte de celle-ci. Les techniques les plus fréquemment

utilisées sont les analyses par composantes principales et

le contrôle génomique [16]. Les « quantile-quantile (QQ)

plots » (ﬁgure 2) et le facteur d’inﬂation génomique ␭(qui

doit être le plus proche possible de 1,00) donnent généra-

lement une bonne indication de la qualité des vériﬁcations

et corrections effectuées.

Du fait de la dimension des effectifs requis, les études

GWAS s’effectuent actuellement sous forme de collabo-

rations internationales, le plus souvent dans des consortia

où collaborent cliniciens, statisticiens, épidémiologistes

et généticiens de différents pays [17]. Les résultats des

analyses GWAS de différentes études sont méta-analysés.

Or, les polymorphismes génotypés diffèrent souvent d’une

étude à l’autre en fonction du fournisseur et de la généra-

tion de la puce utilisée. Par conséquent, seule une partie

des polymorphismes génotypés, commune aux différentes

puces, est théoriquement disponible pour une méta-analyse.

Aﬁn de palier à cela, des logiciels statistiques ont été déve-

loppés permettant d’imputer les génotypes de variants ne

se trouvant pas sur la puce utilisée dans une population

donnée. Ils se servent des propriétés de déséquilibre de

liaison entre les variants et des « catalogues » de varia-

tion génétique dans différents groupes ethniques établis

Avant contrôle génomique

Après contrôle génomique

-Log10 de la valeur p attendue

024 6810

12345

-Log10 de la valeur p observée

Figure 2. Graphe quantile-quantile ou QQ-plot. La ﬁne ligne

rouge montre la distribution sous l’hypothèse nulle (absence

d’association) ; en gris sont représentées les valeurs p observées

avant contrôle génomique (c’est-à-dire sans corriger les valeurs de

p sur le facteur d’inﬂation génomique pour tenir compte de la pré-

sence d’une stratiﬁcation de population) ; en bleu sont représentées

les valeurs p après contrôle génomique, montrant une déviation de

la distribution attendue uniquement pour les valeurs p extrêmes,

qui reﬂètent vraisemblablement de réelles associations.

par les projets HapMap et 1000 Genomes2. Les méthodes

d’imputation basées sur les derniers référentiels du 1000

Genomes permettent d’inférer les génotypes de 38 millions

de variants génétiques (avec une précision plus ou moins

bonne).

Un élément crucial dans toute étude d’association géné-

tique, aussi bien de type pangénomique que gène-candidat,

est de répliquer toute association signiﬁcative dans une

population indépendante, aﬁn de s’affranchir de faux

positifs [14]. Souvent, la force de l’association est plus

importante dans l’étude princeps que dans les études de

réplication (ce phénomène est appelé le « winner’s curse »

[18]). Il faut en tenir compte dans le calcul du nombre de

sujets nécessaires pour l’analyse de réplication. Dans un

premier temps il est généralement préférable que les indi-

vidus de l’étude de réplication soient de la même origine

ethnique que les individus inclus dans l’étude d’association

initiale, car il peut exister des différences inter-ethniques

en termes de fréquences alléliques, déséquilibre de liaison

et force de l’association [19]. Dans un second temps, il

est toutefois recommandé de planiﬁer une extension des

analyses à d’autres origines ethniques, d’une part, pour la

2www.1000genomes.org

244 STV, vol. 24, no5, mai 2012

généralisabilité des résultats et, d’autre part, parce que cela

peut permettre d’afﬁner le signal aﬁn d’identiﬁer le variant

causal. A ce jour plus de 95 % des GWAS ont été effectués

sur des populations d’origine européenne [20].

Avantages, inconvénients et limites

Au cours des cinq dernières années les GWAS ont permis

d’identiﬁer des centaines de nouveaux variants génétiques

associés à diverses maladies multifactorielles, conﬁrmés

par des études de réplication indépendantes3.Defac¸on

intéressante, la plupart du temps ces variants se trouvent

dans ou à proximité de gènes préalablement non sus-

pectés comme pouvant être impliqués dans la maladie

étudiée. Ceci conﬁrme l’intérêt majeur d’une approche

« agnostique », sans hypothèse a priori. La découverte de

nouveaux gènes de susceptibilité est cruciale pour améliorer

la compréhension des mécanismes biologiques conduisant

aux maladies multifactorielles (ﬁgure 3).

Il est important de noter que les GWAS n’identiﬁent géné-

ralement pas le variant causal (ﬁgure 1), et que bien qu’il

soit probable que le gène le plus proche soit souvent

celui qui porte le variant causal, ce n’est pas forcément le

cas. En effet, certains variants génétiques peuvent moduler

l’expression de gènes situés à distance sur le même chro-

mosome (cis), voire sur un autre chromosome (trans) [21].

Un génotypage plus ﬁn voire un séquenc¸age de la région est

nécessaire pour déterminer le variant causal. Des analyses

quantitatives d’expression génique à échelle pangénomique

(« expression quantitative trait loci », eQTL) [22] peuvent

être utiles pour orienter vers le gène en cause lorsque le

variant causal module le niveau d’expression génique.

Malgré les découvertes majeures rendues possibles grâce

aux GWAS, les variants génétiques qu’ils permettent

Identification de facteurs de susceptibilité génétique

Meilleure compréhension de biologie sous-jacente

Nouvelles

cibles et stratégies

thérapeutiques

Prédiction

de risque

Médecine

personnalisée

Figure 3. Implications de l’identiﬁcation de facteurs de suscepti-

bilité génétique. Inspiré de McCarthy et al. [14].

3http://www.genome.gov/gwastudies

d’identiﬁer n’expliquent qu’une fraction très incomplète

de l’héritabilité des maladies complexes. Ainsi, même

dans des pathologies telles que la maladie de Crohn où

l’approche GWAS a été très fructueuse, permettant la

découverte de plus de 71 loci modulant le risque de la mala-

die, ceux-ci expliquent à peine un quart de l’héritabilité

[23]. Cette proportion est encore plus faible pour d’autres

maladies, aux alentours de 10 % pour le diabète et la coro-

naropathie par exemple [24, 25]. Les GWAS explorent

principalement les polymorphismes mononucléotidiques

dont la fréquence est relativement élevée (>1-5 %). Il est

probable que d’autres types de variation génétique contri-

buent de fac¸on substantielle à l’héritabilité des maladies

multifactorielles, tels que les variants rares, les « copy

number variants » (CNV, i.e. segments d’ADN présents

en nombre variable de copies d’un individu à l’autre), ou

les modiﬁcations épigénétiques [26]. L’utilisation de nou-

velles générations de puces incorporant ces autres types

de variation génétique ainsi que des efforts de séquenc¸age

panexomique voire pangénomique sont en cours aﬁn

d’explorer cette « héritabilité manquante ». Par ailleurs,

l’analyse d’interactions gène-environnement et gène-gène,

bien que complexe à échelle pangénomique, devrait per-

mettre également d’étendre la découverte de gènes de

susceptibilité [27, 28].

Exemples et applications

Les éléments importants à vériﬁer lors de la lecture d’une

étude GWAS par un non statisticien sont résumés dans la

ﬁgure 4. Deux types de graphiques fréquemment présentés

dans un GWAS sont le graphe quantile-quantile, dit « QQ-

plot » (ﬁgure 2), et le « Manhattan plot » (ﬁgure 5).LeQQ

plot (ﬁgure 2) correspond au graphe des valeurs p attendues

contre les valeurs p observées et permet de visualiser des

déviations de la distribution observée par rapport à la dis-

tribution attendue. Sur ce graphe, des associations réelles

se traduisent par une déviation par rapport à la distribution

attendue dans l’hypothèse nulle uniquement à l’extrémité

de la distribution, c’est-à-dire pour les p les plus signiﬁ-

catifs (ﬁgure 2). Lorsque la déviation concerne l’ensemble

de la distribution des valeurs p, cela indique souvent un

problème de stratiﬁcation de la population, ou peut aussi

reﬂéter des relations familiales (parfois occultes) entre les

individus inclus dans l’étude ou un problème technique lié

au génotypage [29]. Ceci se traduit également par un facteur

d’inﬂation génomique ␭anormalement élevé. Le Manhat-

tan plot (ﬁgure 5) représente les valeurs p d’association de

chaque SNP avec la maladie étudiée, en fonction de leur

position sur le génome.

1 / 8 100%

Comment lire une étude d`association génétique pangénomique

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Comment lire une étude d`association génétique pangénomique

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib