Comment lire une étude d`association génétique pangénomique

publicité
Mini-revue
Sang Thrombose Vaisseaux 2012 ;
24, no 5 : 240-7
Comment lire une étude d’association génétique
pangénomique (GWAS) ?
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
Stéphanie Debette
Université de Versailles Saint-Quentin-en-Yvelines, Structure fédérative de recherche « Innovation, Santé, Épidémiologie »,
Hôpital R Poincaré, Garches, France ; Inserm U708, Neuroépidémiologie, Hôpital de la Salpêtrière, Paris, France ;
Department of Neurology, Boston University School of Medicine, the Framingham Heart Study, Boston, Mass, USA
<[email protected]>
Résumé. Les études d’association génétique pangénomiques (genome-
Tirés à part :
S. Debette
240
Mots clés : étude d’association génétique, génome, polymorphisme, maladie multifactorielle, génotypage à haut débit
Pour citer cet article : Debette S. Comment lire une étude d’association génétique pangénomique (GWAS) ? Sang Thrombose Vaisseaux 2012 ; 24 (5) : 240-7 doi:10.1684/stv.2012.0692
doi:10.1684/stv.2012.0692
wide association study, GWAS) ont pour objectif d’identifier des
facteurs de susceptibilité génétiques des maladies multifactorielles. Elles
consistent à comparer la fréquence de centaines de milliers de variants
génétiques distribués sur l’ensemble des chromosomes entre un groupe
de cas atteints de la maladie et un groupe de témoins, en utilisant
des technologies de génotypage à haut débit. Il s’agit d’une approche
« agnostique », sans hypothèse préalable sur les gènes d’intérêt contrairement aux études d’association génétique de type gène candidat. Le
nombre très important de tests statistiques effectués nécessite une puissance de calcul importante et une correction sur tests multiples, une
valeur p < 5 × 10-8 étant généralement considérée comme significative.
De grands effectifs sont nécessaires pour avoir une puissance statistique suffisante, impliquant des projets multicentriques dans le cadre de
consortia internationaux. Il est important de tenir compte de l’origine ethnique et géographique des participants pour s’affranchir d’associations
faussement significatives dues à une « stratification » de la population.
Un autre élément crucial, comme pour toute étude d’association génétique, est de répliquer les associations significatives dans une population
indépendante. Au cours des dernières années les GWAS ont permis
d’identifier des centaines de nouveaux variants génétiques associés à
diverses maladies multifactorielles, généralement à proximité de gènes
préalablement non suspectés. La découverte de nouveaux gènes de susceptibilité est cruciale pour améliorer la compréhension des mécanismes
biologiques conduisant aux maladies multifactorielles. Ceci pourrait
aboutir à l’identification de nouvelles cibles et stratégies thérapeutiques.
Une autre application potentielle est l’amélioration de la prédiction de
risque et la médecine ou thérapie personnalisée. Jusqu’ici les GWAS ont
exploré principalement les polymorphismes mononucléotidiques dont la
fréquence est relativement élevée. Il est probable que d’autres types de
variation génétique contribuent à l’héritabilité des maladies multifactorielles.
Abstract
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
How to interpret a genome-wide association study (GWAS)?
Genome-wide association studies (GWAS) aim at identifying genetic
susceptibility to multifactorial diseases. They compare the frequency of
several hundred thousand genetic variants distributed across the chromosomes in a group of cases with a given disease and a group of
controls, using high-throughput genotyping technologies. In contrast with
candidate gene association studies, GWAS use an agnostic approach,
requiring no a priori hypothesis about the genes involved. The important number of statistical tests performed most often requires access to
computer clusters for adequate processing power, and correction for
multiple testing needs to be performed, a p-value <5×10-8 being usually
considered as statistically significant. Large samples are needed to reach
sufficient statistical power, thus requiring multicenter projects led by international consortia. It is important to take into account the ethnic and
geographic origin of study participants, in order to avoid false positive
associations due to population stratification. Another crucial point, as
for any genetic association study, is to replicate significant associations
in an independent population. Over the past years, GWAS have lead to
the identification of hundreds of novel genetic variants associated with
various multifactorial diseases. Interestingly these were generally located
within or close to previously unsuspected genes. Discovering new susceptibility genes is essential to improve our understanding of the biological
pathways involved in multifactorial diseases. This could help identify new
therapeutic targets and strategies. Another potential application is improved risk prediction and personalized medicine or therapy. So far, GWAS
have been mainly focused on common single nucleotide polymorphisms,
i.e. with a relatively high minor allele frequency. Other types of genetic variation are likely to contribute substantially to the heritability of
multifactorial diseases.
Key words: genetic association studies, genome, polymorphism, multifactorial disease,
high throughput genotyping
Problématique
Les études d’association génétique pangénomiques ont
pour objectif d’identifier des facteurs de susceptibilité
génétiques de maladies communes, encore appelées maladies complexes ou multifactorielles. Il s’agit de maladies
fréquentes causées par de multiples facteurs, à la fois
environnementaux et génétiques, ayant individuellement
un effet modeste, mais dont la présence simultanée peut
conduire à la survenue de la maladie. En font partie
par exemple les cancers, les maladies cardiovasculaires,
les maladies neurodégénératives telles que la maladie
d’Alzheimer, les maladies auto-immunes. Les maladies
multifactorielles se distinguent des maladies mendéliennes
ou monogéniques qui sont causées par une mutation
(variation rare) dans un seul gène. Notons toutefois que
même dans les maladies monogéniques l’expression phénotypique peut être influencée par des gènes modificateurs
[1], et que les maladies monogéniques et multifactorielles ne sont probablement que les extrêmes d’un même
continuum [2].
Pour identifier un ou plusieurs variants génétiques associés
à une maladie donnée, l’approche la plus communément
utilisée est d’effectuer une étude d’association génétique,
i.e. de comparer la fréquence d’un ou plusieurs variants
génétiques entre un groupe de cas atteints de la maladie
STV, vol. 24, no 5, mai 2012
241
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
et un groupe de témoins. Les variants génétiques
les plus fréquemment utilisés sont les polymorphismes
mononucléotidiques (single nucleotide polymorphism,
SNP), représentant une variation individuelle dans la
séquence nucléotidique. Pour un SNP A/G par exemple,
un individu donné peut être porteur d’aucun, un ou deux
allèle(s) G et présenter un des trois génotypes suivants :
AA, AG ou GG. Un allèle donné d’un variant génétique
est considéré comme étant associé à une maladie si sa fréquence diffère plus entre cas et témoins que ne le voudrait le
simple hasard. Cela n’implique pas nécessairement un lien
de causalité, dans la mesure où les variants étudiés ne sont
souvent pas directement fonctionnels, mais uniquement en
déséquilibre de liaison avec le variant causal qui n’est pas
observé (figure 1). Les études d’association génétique sont
beaucoup plus puissantes que les analyses de liaison pour
les maladies complexes [3]. Durant plusieurs années les
études d’association génétique étaient effectuées avec un
nombre limité de variants génétiques (souvent un seul), qui
étaient sélectionnés dans des gènes dits « candidats », c’està-dire dont on pensait a priori qu’ils pouvaient intervenir
dans la physiopathologie de la maladie étudiée. Des centaines d’études de ce type ont été publiées, dont très peu
ont abouti à des résultats robustes ayant pu être confirmés
dans des populations indépendantes [4]. Une grande partie de ces études présentaient des limites méthodologiques,
notamment l’utilisation d’effectifs trop faibles donnant une
puissance statistique insuffisante, une analyse limitée de
la variation génétique sur un gène donné, et l’absence de
réplication de résultats significatifs dans une population
indépendante [5, 6]. Par ailleurs, elles sont fondées sur des
Phénotype
Association indirecte
(observée)
Déséquilibre de liaison
Association directe
(non observée)
Chromosome
A
B
Variant génotypé
Variant causal non observé
Figure 1. Distinction entre association génétique et relation causale dans les études d’association génétique. Le variant génotypé
est à considérer comme un « marqueur ». À noter toutefois que
les variants génotypés peuvent parfois être aussi le variant causal. Le caractère fonctionnel d’un variant doit idéalement être testé
de façon expérimentale (par exemple en testant l’association de
ce variant avec le taux d’expression du gène dans lequel ou près
duquel il se trouve). En l’absence de données expérimentales, certaines localisations des variants génétiques peuvent être en faveur
d’un rôle fonctionnel : dans une séquence régulatrice, dans une
séquence codante – exon – « non-synonyme » ou « missense »
(i.e. modifiant l’acide aminé) ou « non-sense » (i.e. induisant la
survenue prématurée d’un codon stop), dans un site d’épissage
intronique.
242
hypothèses préalables, possiblement fausses, sur la physiopathologie sous-jacente de la maladie.
Depuis quelques années, les études d’association génétiques ont été littéralement révolutionnées par l’avènement
des technologies de génotypage à haut débit. En effet
l’utilisation de micropuces, contenant des séquences oligonucléotidiques définies sur lesquelles l’ADN est hybridisé,
permettent de mesurer de façon automatisée en quelques
jours seulement des centaines de milliers voire plusieurs
millions de variants génétiques répartis sur l’ensemble du
génome, et ce sur plusieurs milliers d’individus à la fois
[7]. Auparavant, le génotypage d’un seul variant effectué
manuellement sur quelques centaines d’individus pouvait
prendre plusieurs semaines. Parallèlement à ces innovations technologiques, le projet international HapMap1 a
décrit et mis à disposition des chercheurs les polymorphismes les plus fréquents sur l’ensemble du génome,
dans différents groupes ethniques. Ceci a conduit à
l’avènement d’un nouveau type d’étude d’association génétique, dite pangénomique ou « genome-wide association
study » (GWAS) [8]. Ces études consistent à génotyper
un très grand nombre (500 000-5 000 000) de variants
génétiques distribués sur l’ensemble des chromosomes,
sans hypothèse a priori sur les loci (régions génétiques)
d’intérêt.
Méthodes
Description des méthodes
Sur le plan statistique les études d’association génétique
sont basées sur des méthodes classiques. Pour un phénotype
dit binaire (présence ou absence d’une maladie donnée),
une régression logistique est effectuée pour chacun des
centaines des milliers de variants disponibles sur la puce
utilisée [9, 10]. Lorsque des traits quantitatifs sont étudiés,
par exemple la pression artérielle pulsée [11], ou l’index de
masse corporelle [12], une régression linéaire est employée,
et lorsque l’étude GWAS est effectuée dans des études longitudinales avec des événements incidents, un modèle de
Cox peut être appliqué [13]. Le modèle génétique utilisé est
généralement un modèle additif, avec un degré de liberté,
qui est le modèle le plus puissant dans ce type d’étude.
Un certain nombre de contraintes statistiques et logistiques
doivent toutefois être prises en compte, telles que détaillées
ci-après.
Le nombre très important de tests statistiques effectués
nécessite généralement l’accès à un supercalculateur du
1
www.hapmap.org
STV, vol. 24, no 5, mai 2012
10
6
4
2
-Log10 de la valeur p observée
8
Avant contrôle génomique
Après contrôle génomique
0
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
fait de la puissance de calcul requise. Par ailleurs, une
correction sur tests multiples doit être effectuée. Il existe
différentes méthodes de correction, mais dans les études
GWAS on considère actuellement une valeur p < 5 × 10-8
comme significative à échelle pangénomique, ce qui tient
compte du nombre total de variants génétiques indépendants sur l’ensemble du génome [14]. Il en découle que de
très grands effectifs sont nécessaires pour avoir une puissance statistique suffisante. En effet, les polymorphismes
génétiques le plus souvent étudiés jusqu’ici sur les puces
pangénomiques (SNPs de fréquence > 1-5 %) ont habituellement des effets de taille modeste, avec des odds ratios
< 1,5, le plus souvent entre 1,1 et 1,3 [6]. En règle générale,
les effectifs doivent être de plusieurs milliers de cas et de
témoins.
Les fréquences alléliques et taux de déséquilibre de liaison
étant variables entre individus d’origine ethnique et géographique différente, il est crucial que les cas et témoins
soient d’origine ethnique identique et issus d’une même
région. En effet, des associations faussement significatives peuvent être observées en cas de « stratification »
de la population, i.e. si la population étudiée contient plusieurs sous-populations différant par leurs caractéristiques
génétiques [15]. Plusieurs outils statistiques permettent de
détecter la présence d’une stratification (qui peut exister au
sein d’un même pays) et de corriger les analyses en tenant
compte de celle-ci. Les techniques les plus fréquemment
utilisées sont les analyses par composantes principales et
le contrôle génomique [16]. Les « quantile-quantile (QQ)
plots » (figure 2) et le facteur d’inflation génomique ␭ (qui
doit être le plus proche possible de 1,00) donnent généralement une bonne indication de la qualité des vérifications
et corrections effectuées.
Du fait de la dimension des effectifs requis, les études
GWAS s’effectuent actuellement sous forme de collaborations internationales, le plus souvent dans des consortia
où collaborent cliniciens, statisticiens, épidémiologistes
et généticiens de différents pays [17]. Les résultats des
analyses GWAS de différentes études sont méta-analysés.
Or, les polymorphismes génotypés diffèrent souvent d’une
étude à l’autre en fonction du fournisseur et de la génération de la puce utilisée. Par conséquent, seule une partie
des polymorphismes génotypés, commune aux différentes
puces, est théoriquement disponible pour une méta-analyse.
Afin de palier à cela, des logiciels statistiques ont été développés permettant d’imputer les génotypes de variants ne
se trouvant pas sur la puce utilisée dans une population
donnée. Ils se servent des propriétés de déséquilibre de
liaison entre les variants et des « catalogues » de variation génétique dans différents groupes ethniques établis
0
1
2
3
4
5
-Log10 de la valeur p attendue
Figure 2. Graphe quantile-quantile ou QQ-plot. La fine ligne
rouge montre la distribution sous l’hypothèse nulle (absence
d’association) ; en gris sont représentées les valeurs p observées
avant contrôle génomique (c’est-à-dire sans corriger les valeurs de
p sur le facteur d’inflation génomique pour tenir compte de la présence d’une stratification de population) ; en bleu sont représentées
les valeurs p après contrôle génomique, montrant une déviation de
la distribution attendue uniquement pour les valeurs p extrêmes,
qui reflètent vraisemblablement de réelles associations.
par les projets HapMap et 1000 Genomes2 . Les méthodes
d’imputation basées sur les derniers référentiels du 1000
Genomes permettent d’inférer les génotypes de 38 millions
de variants génétiques (avec une précision plus ou moins
bonne).
Un élément crucial dans toute étude d’association génétique, aussi bien de type pangénomique que gène-candidat,
est de répliquer toute association significative dans une
population indépendante, afin de s’affranchir de faux
positifs [14]. Souvent, la force de l’association est plus
importante dans l’étude princeps que dans les études de
réplication (ce phénomène est appelé le « winner’s curse »
[18]). Il faut en tenir compte dans le calcul du nombre de
sujets nécessaires pour l’analyse de réplication. Dans un
premier temps il est généralement préférable que les individus de l’étude de réplication soient de la même origine
ethnique que les individus inclus dans l’étude d’association
initiale, car il peut exister des différences inter-ethniques
en termes de fréquences alléliques, déséquilibre de liaison
et force de l’association [19]. Dans un second temps, il
est toutefois recommandé de planifier une extension des
analyses à d’autres origines ethniques, d’une part, pour la
2
www.1000genomes.org
STV, vol. 24, no 5, mai 2012
243
généralisabilité des résultats et, d’autre part, parce que cela
peut permettre d’affiner le signal afin d’identifier le variant
causal. A ce jour plus de 95 % des GWAS ont été effectués
sur des populations d’origine européenne [20].
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
Avantages, inconvénients et limites
Au cours des cinq dernières années les GWAS ont permis
d’identifier des centaines de nouveaux variants génétiques
associés à diverses maladies multifactorielles, confirmés
par des études de réplication indépendantes3 . De façon
intéressante, la plupart du temps ces variants se trouvent
dans ou à proximité de gènes préalablement non suspectés comme pouvant être impliqués dans la maladie
étudiée. Ceci confirme l’intérêt majeur d’une approche
« agnostique », sans hypothèse a priori. La découverte de
nouveaux gènes de susceptibilité est cruciale pour améliorer
la compréhension des mécanismes biologiques conduisant
aux maladies multifactorielles (figure 3).
Il est important de noter que les GWAS n’identifient généralement pas le variant causal (figure 1), et que bien qu’il
soit probable que le gène le plus proche soit souvent
celui qui porte le variant causal, ce n’est pas forcément le
cas. En effet, certains variants génétiques peuvent moduler
l’expression de gènes situés à distance sur le même chromosome (cis), voire sur un autre chromosome (trans) [21].
Un génotypage plus fin voire un séquençage de la région est
nécessaire pour déterminer le variant causal. Des analyses
quantitatives d’expression génique à échelle pangénomique
(« expression quantitative trait loci », eQTL) [22] peuvent
être utiles pour orienter vers le gène en cause lorsque le
variant causal module le niveau d’expression génique.
Malgré les découvertes majeures rendues possibles grâce
aux GWAS, les variants génétiques qu’ils permettent
Identification de facteurs de susceptibilité génétique
Meilleure compréhension de biologie sous-jacente
Nouvelles
cibles et stratégies
thérapeutiques
Prédiction
de risque
Médecine
personnalisée
Figure 3. Implications de l’identification de facteurs de susceptibilité génétique. Inspiré de McCarthy et al. [14].
3
244
http://www.genome.gov/gwastudies
d’identifier n’expliquent qu’une fraction très incomplète
de l’héritabilité des maladies complexes. Ainsi, même
dans des pathologies telles que la maladie de Crohn où
l’approche GWAS a été très fructueuse, permettant la
découverte de plus de 71 loci modulant le risque de la maladie, ceux-ci expliquent à peine un quart de l’héritabilité
[23]. Cette proportion est encore plus faible pour d’autres
maladies, aux alentours de 10 % pour le diabète et la coronaropathie par exemple [24, 25]. Les GWAS explorent
principalement les polymorphismes mononucléotidiques
dont la fréquence est relativement élevée (> 1-5 %). Il est
probable que d’autres types de variation génétique contribuent de façon substantielle à l’héritabilité des maladies
multifactorielles, tels que les variants rares, les « copy
number variants » (CNV, i.e. segments d’ADN présents
en nombre variable de copies d’un individu à l’autre), ou
les modifications épigénétiques [26]. L’utilisation de nouvelles générations de puces incorporant ces autres types
de variation génétique ainsi que des efforts de séquençage
panexomique voire pangénomique sont en cours afin
d’explorer cette « héritabilité manquante ». Par ailleurs,
l’analyse d’interactions gène-environnement et gène-gène,
bien que complexe à échelle pangénomique, devrait permettre également d’étendre la découverte de gènes de
susceptibilité [27, 28].
Exemples et applications
Les éléments importants à vérifier lors de la lecture d’une
étude GWAS par un non statisticien sont résumés dans la
figure 4. Deux types de graphiques fréquemment présentés
dans un GWAS sont le graphe quantile-quantile, dit « QQplot » (figure 2), et le « Manhattan plot » (figure 5). Le QQ
plot (figure 2) correspond au graphe des valeurs p attendues
contre les valeurs p observées et permet de visualiser des
déviations de la distribution observée par rapport à la distribution attendue. Sur ce graphe, des associations réelles
se traduisent par une déviation par rapport à la distribution
attendue dans l’hypothèse nulle uniquement à l’extrémité
de la distribution, c’est-à-dire pour les p les plus significatifs (figure 2). Lorsque la déviation concerne l’ensemble
de la distribution des valeurs p, cela indique souvent un
problème de stratification de la population, ou peut aussi
refléter des relations familiales (parfois occultes) entre les
individus inclus dans l’étude ou un problème technique lié
au génotypage [29]. Ceci se traduit également par un facteur
d’inflation génomique ␭ anormalement élevé. Le Manhattan plot (figure 5) représente les valeurs p d’association de
chaque SNP avec la maladie étudiée, en fonction de leur
position sur le génome.
STV, vol. 24, no 5, mai 2012
Taille de l’effectif, notamment si résultat négatif, la puissance était-elle suffisante ?
– Précision de la définition du phénotype : lorsque la définition du phénotype est trop vague ou
hétérogène en fonction des études incluses dans une analyse GWAS cela peut conduire à une dilution
des effets.
– Quels sont les seuils de significativité utilisés ? Il est habituel de considérer un p < 5 × 10-8 comme
significatif à échelle pangénomique ; si un autre seuil est utilisé, comment les auteurs le justifient-ils ?
– Les témoins sont-ils de la même origine ethnique et géographique que les cas ? Les auteurs ont-ils
vérifié et le cas échéant pris en compte dans les analyses une éventuelle hétérogénéité de population ?
(vérifier le QQ-plot et le facteur d’inflation génomique notamment).
4
2
-Log10 (P)
6
8
10
Figure 4. Critères de qualité d’une étude GWAS.
0
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
– Les résultats positifs ont-ils été répliqués dans population indépendante ?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16 17 18
20
22
Chromosome
Figure 5. Manhattan plot. Graphe pangénomique des intensités de signal montrant les valeurs p d’association de chaque SNP avec le
phénotype étudié, en fonction de leur position sur le génome. Au sein de chaque chromosome (axe des abscisses), les résultats du GWAS
sont représentés de la gauche vers la droite en débutant à la partie p-terminale de chaque chromosome. Sur l’axe des ordonnées l’unité
est –log10 (p), i.e. la valeur 8 par exemple correspond à un p = 10-8 , la valeur 6 à un p = 10-6 . La ligne en pointillés représente le seuil de
significativité pangénomique de 5×10-8 ; dans cet exemple deux SNP sur le chromosome 5 sont associés avec la maladie étudiée à une
valeur p < 5 × 10-8 .
La principale application attendue à ce jour des GWAS
est une amélioration de la compréhension des mécanismes
biologiques responsables de la survenue des maladies
multifactorielles (figure 3). En effet, par l’identification de
gènes de susceptibilité ils permettent d’orienter directement
vers une protéine et les voies métaboliques dans lesquelles
celle-ci est impliquée. Des progrès importants ont ainsi pu
être faits dans la compréhension de la physiopathologie de
la maladie de Crohn par exemple, par l’identification de
plusieurs gènes de susceptibilité impliqués dans des mécanismes d’autophagie et de réponse aux microbes intestinaux
[30]. Ceci pourrait aboutir à l’identification de nouvelles
cibles et stratégies thérapeutiques [31].
Une autre application potentielle est l’amélioration de la
prédiction de risque (figure 3). En effet, il est possible
d’établir des scores de risque à partir de l’ensemble des
variants génétiques identifiés comme étant associés à une
maladie. Ainsi par exemple, il a été montré que des individus ayant un score de risque génétique de coronaropathie
dans le quintile supérieur de la distribution par rapport au
quintile inférieur ont un risque 1,7 fois plus élevé de présenter un événement coronarien [32]. Cependant à ce jour
les applications cliniques en termes de prédiction de risque
sont limitées.
Les GWAS peuvent également être utilisés pour identifier des variants génétiques modifiant la réponse à certains
médicaments, ouvrant la voie vers une médecine « personnalisée » (figure 3). Par exemple, la réponse au clopidogrel
varie fortement en fonction du génotype d’un polymorphisme du gène CYP2C19, ce qui n’est pas le cas du
STV, vol. 24, no 5, mai 2012
245
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
prasugrel, un autre antiagrégant plaquettaire [33]. Un essai
thérapeutique est en cours pour évaluer l’intérêt d’une antiagrégation plaquettaire guidée par le génotype CYP2C19
comparativement à une antiagrégation plaquettaire standard après la pose d’un stent coronarien4 . Concrètement,
pour l’instant les applications à type de médecine personnalisée sont encore limitées en dehors de quelques cas
particuliers en cancérologie. Cependant, les initiatives se
multiplient afin d’optimiser l’intégration dans la médecine
clinique des informations issues de la recherche en génétique des maladies complexes, en croissance exponentielle
[34, 35]. Conflits d’intérêts : aucun
Lexique
Déséquilibre de liaison : on parle de déséquilibre de liaison entre deux variants génétiques
lorsque les distributions alléliques de ces derniers
ne sont pas indépendantes (sur le plan statistiques elles sont corrélées) ; un déséquilibre de
liaison entre deux variants survient lorsque ceux-ci
ségrèguent ensemble lors de la méïose. Le déséquilibre de liaison est généralement plus fort
entre deux variants proches en termes de localisation, mais deux variants adjacents peuvent aussi
être en équilibre de liaison s’ils sont séparés par
un « hot-spot » de recombinaison.
Facteur d’inflation génomique (␭) : ratio
entre la médiane de la distribution empiriquement
observée des statistiques de test et la médiane de
la distribution attendue ; ceci permet de quantifier
le taux de faux positifs en excès.
Modèle génétique additif : ce modèle
consiste à tester l’association du nombre de copies
de l’allèle à risque (0 à 2) avec le phénotype ; ceci
diffère du modèle dominant (1 ou 2 copies versus
0 copie) et du modèle récessif (2 copies versus 0
ou 1 copie).
Modifications épigénétiques : modifications
génétiques n’altérant pas directement la séquence
nucléotidique mais modulant « l’emballage »
de l’ADN dans le noyau, influençant ainsi
l’expression des gènes.
4
246
http://clinicaltrials.gov/ct2/show/NCT01452152
Odds ratio : aussi dénommé rapport des cotes,
l’odds ratio (OR) permet de quantifier l’association
entre une maladie et un facteur de risque dans
une étude de type cas-témoin (c’est en quelque
sorte une approximation du risque relatif). Dans
un GWAS l’OR traduit la force de l’association
entre la maladie étudiée et un variant génétique
donné.
Variant génétique : région du génome qui
est variable d’un individu à l’autre. Il peut s’agir
d’une variation mononucléotidique, où dans une
localisation donnée du génome deux nucléotides
différents peuvent être observés dans la population (A/T, A/G, A/C, G/C, G/T ou T/C).
D’autres formes de variations comprennent par
exemple les copy number variants (CNV), correspondant à des segments d’ADN présents en
nombre variable de copies d’un individu à l’autre.
Classiquement, lorsqu’un variant génétique est fréquent (> 1 % de la population) on parle de
polymorphisme, lorsqu’il est rare on utilise plutôt le terme mutation. Les variants génétiques les
plus fréquemment étudiés dans les GWAS à ce
jour sont les polymorphismes mononucléotidiques
(single nucleotide polymorphism, SNP).
Références
1. Sebastiani P, Ramoni MF, Nolan V, Baldwin CT, Steinberg MH. Genetic dissection and prognostic modeling of overt stroke in sickle cell anemia.
Nat Genet 2005 ; 37 : 435-40.
2. Antonarakis SE, Chakravarti A, Cohen JC, Hardy J. Mendelian disorders and multifactorial traits : the big divide or one for all? Nat Rev Genet
2010 ; 11 : 380-4.
3. Risch N, Merikangas K. The future of genetic studies of complex human
diseases. Science 1996 ; 273 : 1516-7.
4. Hirschhorn JN, Lohmueller K, Byrne E, Hirschhorn K. A comprehensive review of genetic association studies. Genet Med 2002 ; 4 : 45-61.
5. Dichgans M, Markus HS. Genetic association studies in stroke:
methodological issues and proposed standard criteria. Stroke 2005 ; 36 :
2027-31.
6. Zondervan KT, Cardon LR. Designing candidate gene and genomewide case-control association studies. Nat Protoc 2007 ; 2 : 2492-501.
7. Feero WG, Guttmacher AE, Collins FS. Genomic medicine–an updated
primer. N Engl J Med ; 362: 2001-11.
8. Zeggini E, Rayner W, Morris AP, et al. An evaluation of HapMap
sample size and tagging SNP performance in large-scale empirical and
simulated data sets. Nat Genet 2005 ; 37 : 1320-2.
9. Seshadri S, Fitzpatrick AL, Ikram MA, et al. Genome-wide analysis of genetic loci associated with Alzheimer disease. Jama 2010 ; 303 :
1832-40.
STV, vol. 24, no 5, mai 2012
Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017.
10. Debette S, Bis JC, Fornage M, et al. Genome-wide association studies of MRI-defined brain infarcts: meta-analysis from the CHARGE
Consortium. Stroke 2010 ; 41 : 210-7.
23. Franke A, McGovern DP, Barrett JC, et al. Genome-wide metaanalysis increases to 71 the number of confirmed Crohn’s disease
susceptibility loci. Nat Genet 2010 ; 42 : 1118-25.
11. Wain LV, Verwoert GC, O’Reilly PF, et al. Genome-wide association
study identifies six new loci influencing pulse pressure and mean arterial
pressure. Nat Genet ; 43 : 1005-11.
24. Voight BF, Scott LJ, Steinthorsdottir V, et al. Twelve type 2 diabetes
susceptibility loci identified through large-scale association analysis. Nat
Genet 2010 ; 42 : 579-89.
12. Speliotes EK, Willer CJ, Berndt SI, et al. Association analyses of
249,796 individuals reveal 18 new loci associated with body mass index.
Nat Genet 2010 ; 42 : 937-48.
25. Schunkert H, Konig IR, Kathiresan S, et al. Large-scale association
analysis identifies 13 new susceptibility loci for coronary artery disease.
Nat Genet 2011 ; 43 : 333-8.
13. Ikram MA, Seshadri S, Bis JC, et al. Genomewide association studies
of stroke. N Engl J Med 2009 ; 360 : 1718-28.
26. Eichler EE, Flint J, Gibson G, et al. Missing heritability and strategies for finding the underlying causes of complex disease. Nat Rev Genet
2010 ; 11 : 446-50.
14. McCarthy MI, Abecasis GR, Cardon LR, et al. Genome-wide association studies for complex traits: consensus, uncertainty and challenges.
Nat Rev Genet 2008 ; 9 : 356-69.
15. Campbell CD, Ogburn EL, Lunetta KL, et al. Demonstrating
stratification in a European American population. Nat Genet 2005 ; 37 :
868-72.
16. Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich
D. Principal components analysis corrects for stratification in genomewide association studies. Nat Genet 2006 ; 38 : 904-9.
17. Psaty BM, O’Donnell CJ, Gudnason V, et al. Cohorts for Heart
and Aging Research in Genomic Epidemiology (CHARGE) Consortium:
Design of prospective meta-analyses of genome-wide association studies
from 5 cohorts. Circ Cardiovasc Genet 2009 ; 2 : 273-80.
18. Xiao R, Boehnke M. Quantifying and correcting for the winner’s curse in genetic association studies. Genet Epidemiol 2009 ; 33 :
453-62.
19. Sim X, Ong RT, Suo C, et al. Transferability of type 2 diabetes
implicated loci in multi-ethnic cohorts from Southeast Asia. PLoS Genet
2011 ; 7 : e1001363.
20. Bustamante CD, Burchard EG, De la Vega FM. Genomics for the
world. Nature 2011 ; 475 : 163-5.
21. Ioannidis JP, Thomas G, Daly MJ. Validating, augmenting and refining
genome-wide association signals. Nat Rev Genet 2009 ; 10 : 318-29.
22. Zeller T, Wild P, Szymczak S, et al. Genetics and beyond–the transcriptome of human monocytes and disease susceptibility. PLoS One
2010 ; 5 : e10693.
27. Manning AK, LaValley M, Liu CT, et al. Meta-analysis of geneenvironment interaction: joint estimation of SNP and SNP x environment
regression coefficients. Genet Epidemiol 2011 ; 35 : 11-8.
28. Kam-Thong T, Czamara D, Tsuda K, et al. EPIBLASTER-fast
exhaustive two-locus epistasis detection strategy using graphical processing units. Eur J Hum Genet 2011 ; 19 : 465-71.
29. de Bakker PI, Ferreira MA, Jia X, Neale BM, Raychaudhuri S, Voight
BF. Practical aspects of imputation-driven meta-analysis of genome-wide
association studies. Hum Mol Genet 2008 ; 17(R2) : R122-8.
30. Yano T, Kurata S. An unexpected twist for autophagy in Crohn’s
disease. Nat Immunol 2009 ; 10 : 134-6.
31. Preidis GA, Versalovic J. Targeting the human microbiome with
antibiotics, probiotics, and prebiotics: gastroenterology enters the metagenomics era. Gastroenterology 2009 ; 136 : 2015-31.
32. Ripatti S, Tikkanen E, Orho-Melander M, et al. A multilocus genetic
risk score for coronary heart disease : case-control and prospective cohort
analyses. Lancet 2010 ; 376 : 1393-400.
33. Scott SA, Sangkuhl K, Gardner EE, et al. Clinical Pharmacogenetics Implementation Consortium guidelines for cytochrome P450-2C19
(CYP2C19) genotype and clopidogrel therapy. Clin Pharmacol Ther
2011 ; 90 : 328-32.
34. Ashley EA, Butte AJ, Wheeler MT, et al. Clinical assessment incorporating a personal genome. Lancet 2010 ; 375 : 1525-35.
35. Hamburg MA, Collins FS. The path to personalized medicine. N Engl
J Med 2010 ; 363 : 301-4.
STV, vol. 24, no 5, mai 2012
247
Téléchargement