Mini-revue Sang Thrombose Vaisseaux 2012 ; 24, no 5 : 240-7 Comment lire une étude d’association génétique pangénomique (GWAS) ? Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. Stéphanie Debette Université de Versailles Saint-Quentin-en-Yvelines, Structure fédérative de recherche « Innovation, Santé, Épidémiologie », Hôpital R Poincaré, Garches, France ; Inserm U708, Neuroépidémiologie, Hôpital de la Salpêtrière, Paris, France ; Department of Neurology, Boston University School of Medicine, the Framingham Heart Study, Boston, Mass, USA <[email protected]> Résumé. Les études d’association génétique pangénomiques (genome- Tirés à part : S. Debette 240 Mots clés : étude d’association génétique, génome, polymorphisme, maladie multifactorielle, génotypage à haut débit Pour citer cet article : Debette S. Comment lire une étude d’association génétique pangénomique (GWAS) ? Sang Thrombose Vaisseaux 2012 ; 24 (5) : 240-7 doi:10.1684/stv.2012.0692 doi:10.1684/stv.2012.0692 wide association study, GWAS) ont pour objectif d’identifier des facteurs de susceptibilité génétiques des maladies multifactorielles. Elles consistent à comparer la fréquence de centaines de milliers de variants génétiques distribués sur l’ensemble des chromosomes entre un groupe de cas atteints de la maladie et un groupe de témoins, en utilisant des technologies de génotypage à haut débit. Il s’agit d’une approche « agnostique », sans hypothèse préalable sur les gènes d’intérêt contrairement aux études d’association génétique de type gène candidat. Le nombre très important de tests statistiques effectués nécessite une puissance de calcul importante et une correction sur tests multiples, une valeur p < 5 × 10-8 étant généralement considérée comme significative. De grands effectifs sont nécessaires pour avoir une puissance statistique suffisante, impliquant des projets multicentriques dans le cadre de consortia internationaux. Il est important de tenir compte de l’origine ethnique et géographique des participants pour s’affranchir d’associations faussement significatives dues à une « stratification » de la population. Un autre élément crucial, comme pour toute étude d’association génétique, est de répliquer les associations significatives dans une population indépendante. Au cours des dernières années les GWAS ont permis d’identifier des centaines de nouveaux variants génétiques associés à diverses maladies multifactorielles, généralement à proximité de gènes préalablement non suspectés. La découverte de nouveaux gènes de susceptibilité est cruciale pour améliorer la compréhension des mécanismes biologiques conduisant aux maladies multifactorielles. Ceci pourrait aboutir à l’identification de nouvelles cibles et stratégies thérapeutiques. Une autre application potentielle est l’amélioration de la prédiction de risque et la médecine ou thérapie personnalisée. Jusqu’ici les GWAS ont exploré principalement les polymorphismes mononucléotidiques dont la fréquence est relativement élevée. Il est probable que d’autres types de variation génétique contribuent à l’héritabilité des maladies multifactorielles. Abstract Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. How to interpret a genome-wide association study (GWAS)? Genome-wide association studies (GWAS) aim at identifying genetic susceptibility to multifactorial diseases. They compare the frequency of several hundred thousand genetic variants distributed across the chromosomes in a group of cases with a given disease and a group of controls, using high-throughput genotyping technologies. In contrast with candidate gene association studies, GWAS use an agnostic approach, requiring no a priori hypothesis about the genes involved. The important number of statistical tests performed most often requires access to computer clusters for adequate processing power, and correction for multiple testing needs to be performed, a p-value <5×10-8 being usually considered as statistically significant. Large samples are needed to reach sufficient statistical power, thus requiring multicenter projects led by international consortia. It is important to take into account the ethnic and geographic origin of study participants, in order to avoid false positive associations due to population stratification. Another crucial point, as for any genetic association study, is to replicate significant associations in an independent population. Over the past years, GWAS have lead to the identification of hundreds of novel genetic variants associated with various multifactorial diseases. Interestingly these were generally located within or close to previously unsuspected genes. Discovering new susceptibility genes is essential to improve our understanding of the biological pathways involved in multifactorial diseases. This could help identify new therapeutic targets and strategies. Another potential application is improved risk prediction and personalized medicine or therapy. So far, GWAS have been mainly focused on common single nucleotide polymorphisms, i.e. with a relatively high minor allele frequency. Other types of genetic variation are likely to contribute substantially to the heritability of multifactorial diseases. Key words: genetic association studies, genome, polymorphism, multifactorial disease, high throughput genotyping Problématique Les études d’association génétique pangénomiques ont pour objectif d’identifier des facteurs de susceptibilité génétiques de maladies communes, encore appelées maladies complexes ou multifactorielles. Il s’agit de maladies fréquentes causées par de multiples facteurs, à la fois environnementaux et génétiques, ayant individuellement un effet modeste, mais dont la présence simultanée peut conduire à la survenue de la maladie. En font partie par exemple les cancers, les maladies cardiovasculaires, les maladies neurodégénératives telles que la maladie d’Alzheimer, les maladies auto-immunes. Les maladies multifactorielles se distinguent des maladies mendéliennes ou monogéniques qui sont causées par une mutation (variation rare) dans un seul gène. Notons toutefois que même dans les maladies monogéniques l’expression phénotypique peut être influencée par des gènes modificateurs [1], et que les maladies monogéniques et multifactorielles ne sont probablement que les extrêmes d’un même continuum [2]. Pour identifier un ou plusieurs variants génétiques associés à une maladie donnée, l’approche la plus communément utilisée est d’effectuer une étude d’association génétique, i.e. de comparer la fréquence d’un ou plusieurs variants génétiques entre un groupe de cas atteints de la maladie STV, vol. 24, no 5, mai 2012 241 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. et un groupe de témoins. Les variants génétiques les plus fréquemment utilisés sont les polymorphismes mononucléotidiques (single nucleotide polymorphism, SNP), représentant une variation individuelle dans la séquence nucléotidique. Pour un SNP A/G par exemple, un individu donné peut être porteur d’aucun, un ou deux allèle(s) G et présenter un des trois génotypes suivants : AA, AG ou GG. Un allèle donné d’un variant génétique est considéré comme étant associé à une maladie si sa fréquence diffère plus entre cas et témoins que ne le voudrait le simple hasard. Cela n’implique pas nécessairement un lien de causalité, dans la mesure où les variants étudiés ne sont souvent pas directement fonctionnels, mais uniquement en déséquilibre de liaison avec le variant causal qui n’est pas observé (figure 1). Les études d’association génétique sont beaucoup plus puissantes que les analyses de liaison pour les maladies complexes [3]. Durant plusieurs années les études d’association génétique étaient effectuées avec un nombre limité de variants génétiques (souvent un seul), qui étaient sélectionnés dans des gènes dits « candidats », c’està-dire dont on pensait a priori qu’ils pouvaient intervenir dans la physiopathologie de la maladie étudiée. Des centaines d’études de ce type ont été publiées, dont très peu ont abouti à des résultats robustes ayant pu être confirmés dans des populations indépendantes [4]. Une grande partie de ces études présentaient des limites méthodologiques, notamment l’utilisation d’effectifs trop faibles donnant une puissance statistique insuffisante, une analyse limitée de la variation génétique sur un gène donné, et l’absence de réplication de résultats significatifs dans une population indépendante [5, 6]. Par ailleurs, elles sont fondées sur des Phénotype Association indirecte (observée) Déséquilibre de liaison Association directe (non observée) Chromosome A B Variant génotypé Variant causal non observé Figure 1. Distinction entre association génétique et relation causale dans les études d’association génétique. Le variant génotypé est à considérer comme un « marqueur ». À noter toutefois que les variants génotypés peuvent parfois être aussi le variant causal. Le caractère fonctionnel d’un variant doit idéalement être testé de façon expérimentale (par exemple en testant l’association de ce variant avec le taux d’expression du gène dans lequel ou près duquel il se trouve). En l’absence de données expérimentales, certaines localisations des variants génétiques peuvent être en faveur d’un rôle fonctionnel : dans une séquence régulatrice, dans une séquence codante – exon – « non-synonyme » ou « missense » (i.e. modifiant l’acide aminé) ou « non-sense » (i.e. induisant la survenue prématurée d’un codon stop), dans un site d’épissage intronique. 242 hypothèses préalables, possiblement fausses, sur la physiopathologie sous-jacente de la maladie. Depuis quelques années, les études d’association génétiques ont été littéralement révolutionnées par l’avènement des technologies de génotypage à haut débit. En effet l’utilisation de micropuces, contenant des séquences oligonucléotidiques définies sur lesquelles l’ADN est hybridisé, permettent de mesurer de façon automatisée en quelques jours seulement des centaines de milliers voire plusieurs millions de variants génétiques répartis sur l’ensemble du génome, et ce sur plusieurs milliers d’individus à la fois [7]. Auparavant, le génotypage d’un seul variant effectué manuellement sur quelques centaines d’individus pouvait prendre plusieurs semaines. Parallèlement à ces innovations technologiques, le projet international HapMap1 a décrit et mis à disposition des chercheurs les polymorphismes les plus fréquents sur l’ensemble du génome, dans différents groupes ethniques. Ceci a conduit à l’avènement d’un nouveau type d’étude d’association génétique, dite pangénomique ou « genome-wide association study » (GWAS) [8]. Ces études consistent à génotyper un très grand nombre (500 000-5 000 000) de variants génétiques distribués sur l’ensemble des chromosomes, sans hypothèse a priori sur les loci (régions génétiques) d’intérêt. Méthodes Description des méthodes Sur le plan statistique les études d’association génétique sont basées sur des méthodes classiques. Pour un phénotype dit binaire (présence ou absence d’une maladie donnée), une régression logistique est effectuée pour chacun des centaines des milliers de variants disponibles sur la puce utilisée [9, 10]. Lorsque des traits quantitatifs sont étudiés, par exemple la pression artérielle pulsée [11], ou l’index de masse corporelle [12], une régression linéaire est employée, et lorsque l’étude GWAS est effectuée dans des études longitudinales avec des événements incidents, un modèle de Cox peut être appliqué [13]. Le modèle génétique utilisé est généralement un modèle additif, avec un degré de liberté, qui est le modèle le plus puissant dans ce type d’étude. Un certain nombre de contraintes statistiques et logistiques doivent toutefois être prises en compte, telles que détaillées ci-après. Le nombre très important de tests statistiques effectués nécessite généralement l’accès à un supercalculateur du 1 www.hapmap.org STV, vol. 24, no 5, mai 2012 10 6 4 2 -Log10 de la valeur p observée 8 Avant contrôle génomique Après contrôle génomique 0 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. fait de la puissance de calcul requise. Par ailleurs, une correction sur tests multiples doit être effectuée. Il existe différentes méthodes de correction, mais dans les études GWAS on considère actuellement une valeur p < 5 × 10-8 comme significative à échelle pangénomique, ce qui tient compte du nombre total de variants génétiques indépendants sur l’ensemble du génome [14]. Il en découle que de très grands effectifs sont nécessaires pour avoir une puissance statistique suffisante. En effet, les polymorphismes génétiques le plus souvent étudiés jusqu’ici sur les puces pangénomiques (SNPs de fréquence > 1-5 %) ont habituellement des effets de taille modeste, avec des odds ratios < 1,5, le plus souvent entre 1,1 et 1,3 [6]. En règle générale, les effectifs doivent être de plusieurs milliers de cas et de témoins. Les fréquences alléliques et taux de déséquilibre de liaison étant variables entre individus d’origine ethnique et géographique différente, il est crucial que les cas et témoins soient d’origine ethnique identique et issus d’une même région. En effet, des associations faussement significatives peuvent être observées en cas de « stratification » de la population, i.e. si la population étudiée contient plusieurs sous-populations différant par leurs caractéristiques génétiques [15]. Plusieurs outils statistiques permettent de détecter la présence d’une stratification (qui peut exister au sein d’un même pays) et de corriger les analyses en tenant compte de celle-ci. Les techniques les plus fréquemment utilisées sont les analyses par composantes principales et le contrôle génomique [16]. Les « quantile-quantile (QQ) plots » (figure 2) et le facteur d’inflation génomique (qui doit être le plus proche possible de 1,00) donnent généralement une bonne indication de la qualité des vérifications et corrections effectuées. Du fait de la dimension des effectifs requis, les études GWAS s’effectuent actuellement sous forme de collaborations internationales, le plus souvent dans des consortia où collaborent cliniciens, statisticiens, épidémiologistes et généticiens de différents pays [17]. Les résultats des analyses GWAS de différentes études sont méta-analysés. Or, les polymorphismes génotypés diffèrent souvent d’une étude à l’autre en fonction du fournisseur et de la génération de la puce utilisée. Par conséquent, seule une partie des polymorphismes génotypés, commune aux différentes puces, est théoriquement disponible pour une méta-analyse. Afin de palier à cela, des logiciels statistiques ont été développés permettant d’imputer les génotypes de variants ne se trouvant pas sur la puce utilisée dans une population donnée. Ils se servent des propriétés de déséquilibre de liaison entre les variants et des « catalogues » de variation génétique dans différents groupes ethniques établis 0 1 2 3 4 5 -Log10 de la valeur p attendue Figure 2. Graphe quantile-quantile ou QQ-plot. La fine ligne rouge montre la distribution sous l’hypothèse nulle (absence d’association) ; en gris sont représentées les valeurs p observées avant contrôle génomique (c’est-à-dire sans corriger les valeurs de p sur le facteur d’inflation génomique pour tenir compte de la présence d’une stratification de population) ; en bleu sont représentées les valeurs p après contrôle génomique, montrant une déviation de la distribution attendue uniquement pour les valeurs p extrêmes, qui reflètent vraisemblablement de réelles associations. par les projets HapMap et 1000 Genomes2 . Les méthodes d’imputation basées sur les derniers référentiels du 1000 Genomes permettent d’inférer les génotypes de 38 millions de variants génétiques (avec une précision plus ou moins bonne). Un élément crucial dans toute étude d’association génétique, aussi bien de type pangénomique que gène-candidat, est de répliquer toute association significative dans une population indépendante, afin de s’affranchir de faux positifs [14]. Souvent, la force de l’association est plus importante dans l’étude princeps que dans les études de réplication (ce phénomène est appelé le « winner’s curse » [18]). Il faut en tenir compte dans le calcul du nombre de sujets nécessaires pour l’analyse de réplication. Dans un premier temps il est généralement préférable que les individus de l’étude de réplication soient de la même origine ethnique que les individus inclus dans l’étude d’association initiale, car il peut exister des différences inter-ethniques en termes de fréquences alléliques, déséquilibre de liaison et force de l’association [19]. Dans un second temps, il est toutefois recommandé de planifier une extension des analyses à d’autres origines ethniques, d’une part, pour la 2 www.1000genomes.org STV, vol. 24, no 5, mai 2012 243 généralisabilité des résultats et, d’autre part, parce que cela peut permettre d’affiner le signal afin d’identifier le variant causal. A ce jour plus de 95 % des GWAS ont été effectués sur des populations d’origine européenne [20]. Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. Avantages, inconvénients et limites Au cours des cinq dernières années les GWAS ont permis d’identifier des centaines de nouveaux variants génétiques associés à diverses maladies multifactorielles, confirmés par des études de réplication indépendantes3 . De façon intéressante, la plupart du temps ces variants se trouvent dans ou à proximité de gènes préalablement non suspectés comme pouvant être impliqués dans la maladie étudiée. Ceci confirme l’intérêt majeur d’une approche « agnostique », sans hypothèse a priori. La découverte de nouveaux gènes de susceptibilité est cruciale pour améliorer la compréhension des mécanismes biologiques conduisant aux maladies multifactorielles (figure 3). Il est important de noter que les GWAS n’identifient généralement pas le variant causal (figure 1), et que bien qu’il soit probable que le gène le plus proche soit souvent celui qui porte le variant causal, ce n’est pas forcément le cas. En effet, certains variants génétiques peuvent moduler l’expression de gènes situés à distance sur le même chromosome (cis), voire sur un autre chromosome (trans) [21]. Un génotypage plus fin voire un séquençage de la région est nécessaire pour déterminer le variant causal. Des analyses quantitatives d’expression génique à échelle pangénomique (« expression quantitative trait loci », eQTL) [22] peuvent être utiles pour orienter vers le gène en cause lorsque le variant causal module le niveau d’expression génique. Malgré les découvertes majeures rendues possibles grâce aux GWAS, les variants génétiques qu’ils permettent Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles cibles et stratégies thérapeutiques Prédiction de risque Médecine personnalisée Figure 3. Implications de l’identification de facteurs de susceptibilité génétique. Inspiré de McCarthy et al. [14]. 3 244 http://www.genome.gov/gwastudies d’identifier n’expliquent qu’une fraction très incomplète de l’héritabilité des maladies complexes. Ainsi, même dans des pathologies telles que la maladie de Crohn où l’approche GWAS a été très fructueuse, permettant la découverte de plus de 71 loci modulant le risque de la maladie, ceux-ci expliquent à peine un quart de l’héritabilité [23]. Cette proportion est encore plus faible pour d’autres maladies, aux alentours de 10 % pour le diabète et la coronaropathie par exemple [24, 25]. Les GWAS explorent principalement les polymorphismes mononucléotidiques dont la fréquence est relativement élevée (> 1-5 %). Il est probable que d’autres types de variation génétique contribuent de façon substantielle à l’héritabilité des maladies multifactorielles, tels que les variants rares, les « copy number variants » (CNV, i.e. segments d’ADN présents en nombre variable de copies d’un individu à l’autre), ou les modifications épigénétiques [26]. L’utilisation de nouvelles générations de puces incorporant ces autres types de variation génétique ainsi que des efforts de séquençage panexomique voire pangénomique sont en cours afin d’explorer cette « héritabilité manquante ». Par ailleurs, l’analyse d’interactions gène-environnement et gène-gène, bien que complexe à échelle pangénomique, devrait permettre également d’étendre la découverte de gènes de susceptibilité [27, 28]. Exemples et applications Les éléments importants à vérifier lors de la lecture d’une étude GWAS par un non statisticien sont résumés dans la figure 4. Deux types de graphiques fréquemment présentés dans un GWAS sont le graphe quantile-quantile, dit « QQplot » (figure 2), et le « Manhattan plot » (figure 5). Le QQ plot (figure 2) correspond au graphe des valeurs p attendues contre les valeurs p observées et permet de visualiser des déviations de la distribution observée par rapport à la distribution attendue. Sur ce graphe, des associations réelles se traduisent par une déviation par rapport à la distribution attendue dans l’hypothèse nulle uniquement à l’extrémité de la distribution, c’est-à-dire pour les p les plus significatifs (figure 2). Lorsque la déviation concerne l’ensemble de la distribution des valeurs p, cela indique souvent un problème de stratification de la population, ou peut aussi refléter des relations familiales (parfois occultes) entre les individus inclus dans l’étude ou un problème technique lié au génotypage [29]. Ceci se traduit également par un facteur d’inflation génomique anormalement élevé. Le Manhattan plot (figure 5) représente les valeurs p d’association de chaque SNP avec la maladie étudiée, en fonction de leur position sur le génome. STV, vol. 24, no 5, mai 2012 Taille de l’effectif, notamment si résultat négatif, la puissance était-elle suffisante ? – Précision de la définition du phénotype : lorsque la définition du phénotype est trop vague ou hétérogène en fonction des études incluses dans une analyse GWAS cela peut conduire à une dilution des effets. – Quels sont les seuils de significativité utilisés ? Il est habituel de considérer un p < 5 × 10-8 comme significatif à échelle pangénomique ; si un autre seuil est utilisé, comment les auteurs le justifient-ils ? – Les témoins sont-ils de la même origine ethnique et géographique que les cas ? Les auteurs ont-ils vérifié et le cas échéant pris en compte dans les analyses une éventuelle hétérogénéité de population ? (vérifier le QQ-plot et le facteur d’inflation génomique notamment). 4 2 -Log10 (P) 6 8 10 Figure 4. Critères de qualité d’une étude GWAS. 0 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. – Les résultats positifs ont-ils été répliqués dans population indépendante ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 20 22 Chromosome Figure 5. Manhattan plot. Graphe pangénomique des intensités de signal montrant les valeurs p d’association de chaque SNP avec le phénotype étudié, en fonction de leur position sur le génome. Au sein de chaque chromosome (axe des abscisses), les résultats du GWAS sont représentés de la gauche vers la droite en débutant à la partie p-terminale de chaque chromosome. Sur l’axe des ordonnées l’unité est –log10 (p), i.e. la valeur 8 par exemple correspond à un p = 10-8 , la valeur 6 à un p = 10-6 . La ligne en pointillés représente le seuil de significativité pangénomique de 5×10-8 ; dans cet exemple deux SNP sur le chromosome 5 sont associés avec la maladie étudiée à une valeur p < 5 × 10-8 . La principale application attendue à ce jour des GWAS est une amélioration de la compréhension des mécanismes biologiques responsables de la survenue des maladies multifactorielles (figure 3). En effet, par l’identification de gènes de susceptibilité ils permettent d’orienter directement vers une protéine et les voies métaboliques dans lesquelles celle-ci est impliquée. Des progrès importants ont ainsi pu être faits dans la compréhension de la physiopathologie de la maladie de Crohn par exemple, par l’identification de plusieurs gènes de susceptibilité impliqués dans des mécanismes d’autophagie et de réponse aux microbes intestinaux [30]. Ceci pourrait aboutir à l’identification de nouvelles cibles et stratégies thérapeutiques [31]. Une autre application potentielle est l’amélioration de la prédiction de risque (figure 3). En effet, il est possible d’établir des scores de risque à partir de l’ensemble des variants génétiques identifiés comme étant associés à une maladie. Ainsi par exemple, il a été montré que des individus ayant un score de risque génétique de coronaropathie dans le quintile supérieur de la distribution par rapport au quintile inférieur ont un risque 1,7 fois plus élevé de présenter un événement coronarien [32]. Cependant à ce jour les applications cliniques en termes de prédiction de risque sont limitées. Les GWAS peuvent également être utilisés pour identifier des variants génétiques modifiant la réponse à certains médicaments, ouvrant la voie vers une médecine « personnalisée » (figure 3). Par exemple, la réponse au clopidogrel varie fortement en fonction du génotype d’un polymorphisme du gène CYP2C19, ce qui n’est pas le cas du STV, vol. 24, no 5, mai 2012 245 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. prasugrel, un autre antiagrégant plaquettaire [33]. Un essai thérapeutique est en cours pour évaluer l’intérêt d’une antiagrégation plaquettaire guidée par le génotype CYP2C19 comparativement à une antiagrégation plaquettaire standard après la pose d’un stent coronarien4 . Concrètement, pour l’instant les applications à type de médecine personnalisée sont encore limitées en dehors de quelques cas particuliers en cancérologie. Cependant, les initiatives se multiplient afin d’optimiser l’intégration dans la médecine clinique des informations issues de la recherche en génétique des maladies complexes, en croissance exponentielle [34, 35]. Conflits d’intérêts : aucun Lexique Déséquilibre de liaison : on parle de déséquilibre de liaison entre deux variants génétiques lorsque les distributions alléliques de ces derniers ne sont pas indépendantes (sur le plan statistiques elles sont corrélées) ; un déséquilibre de liaison entre deux variants survient lorsque ceux-ci ségrèguent ensemble lors de la méïose. Le déséquilibre de liaison est généralement plus fort entre deux variants proches en termes de localisation, mais deux variants adjacents peuvent aussi être en équilibre de liaison s’ils sont séparés par un « hot-spot » de recombinaison. Facteur d’inflation génomique () : ratio entre la médiane de la distribution empiriquement observée des statistiques de test et la médiane de la distribution attendue ; ceci permet de quantifier le taux de faux positifs en excès. Modèle génétique additif : ce modèle consiste à tester l’association du nombre de copies de l’allèle à risque (0 à 2) avec le phénotype ; ceci diffère du modèle dominant (1 ou 2 copies versus 0 copie) et du modèle récessif (2 copies versus 0 ou 1 copie). Modifications épigénétiques : modifications génétiques n’altérant pas directement la séquence nucléotidique mais modulant « l’emballage » de l’ADN dans le noyau, influençant ainsi l’expression des gènes. 4 246 http://clinicaltrials.gov/ct2/show/NCT01452152 Odds ratio : aussi dénommé rapport des cotes, l’odds ratio (OR) permet de quantifier l’association entre une maladie et un facteur de risque dans une étude de type cas-témoin (c’est en quelque sorte une approximation du risque relatif). Dans un GWAS l’OR traduit la force de l’association entre la maladie étudiée et un variant génétique donné. Variant génétique : région du génome qui est variable d’un individu à l’autre. Il peut s’agir d’une variation mononucléotidique, où dans une localisation donnée du génome deux nucléotides différents peuvent être observés dans la population (A/T, A/G, A/C, G/C, G/T ou T/C). D’autres formes de variations comprennent par exemple les copy number variants (CNV), correspondant à des segments d’ADN présents en nombre variable de copies d’un individu à l’autre. Classiquement, lorsqu’un variant génétique est fréquent (> 1 % de la population) on parle de polymorphisme, lorsqu’il est rare on utilise plutôt le terme mutation. Les variants génétiques les plus fréquemment étudiés dans les GWAS à ce jour sont les polymorphismes mononucléotidiques (single nucleotide polymorphism, SNP). Références 1. Sebastiani P, Ramoni MF, Nolan V, Baldwin CT, Steinberg MH. Genetic dissection and prognostic modeling of overt stroke in sickle cell anemia. Nat Genet 2005 ; 37 : 435-40. 2. Antonarakis SE, Chakravarti A, Cohen JC, Hardy J. Mendelian disorders and multifactorial traits : the big divide or one for all? Nat Rev Genet 2010 ; 11 : 380-4. 3. Risch N, Merikangas K. The future of genetic studies of complex human diseases. Science 1996 ; 273 : 1516-7. 4. Hirschhorn JN, Lohmueller K, Byrne E, Hirschhorn K. A comprehensive review of genetic association studies. Genet Med 2002 ; 4 : 45-61. 5. Dichgans M, Markus HS. Genetic association studies in stroke: methodological issues and proposed standard criteria. Stroke 2005 ; 36 : 2027-31. 6. Zondervan KT, Cardon LR. Designing candidate gene and genomewide case-control association studies. Nat Protoc 2007 ; 2 : 2492-501. 7. Feero WG, Guttmacher AE, Collins FS. Genomic medicine–an updated primer. N Engl J Med ; 362: 2001-11. 8. Zeggini E, Rayner W, Morris AP, et al. An evaluation of HapMap sample size and tagging SNP performance in large-scale empirical and simulated data sets. Nat Genet 2005 ; 37 : 1320-2. 9. Seshadri S, Fitzpatrick AL, Ikram MA, et al. Genome-wide analysis of genetic loci associated with Alzheimer disease. Jama 2010 ; 303 : 1832-40. STV, vol. 24, no 5, mai 2012 Copyright © 2017 John Libbey Eurotext. Téléchargé par un robot venant de 88.99.165.207 le 24/05/2017. 10. Debette S, Bis JC, Fornage M, et al. Genome-wide association studies of MRI-defined brain infarcts: meta-analysis from the CHARGE Consortium. Stroke 2010 ; 41 : 210-7. 23. Franke A, McGovern DP, Barrett JC, et al. Genome-wide metaanalysis increases to 71 the number of confirmed Crohn’s disease susceptibility loci. Nat Genet 2010 ; 42 : 1118-25. 11. Wain LV, Verwoert GC, O’Reilly PF, et al. Genome-wide association study identifies six new loci influencing pulse pressure and mean arterial pressure. Nat Genet ; 43 : 1005-11. 24. Voight BF, Scott LJ, Steinthorsdottir V, et al. Twelve type 2 diabetes susceptibility loci identified through large-scale association analysis. Nat Genet 2010 ; 42 : 579-89. 12. Speliotes EK, Willer CJ, Berndt SI, et al. Association analyses of 249,796 individuals reveal 18 new loci associated with body mass index. Nat Genet 2010 ; 42 : 937-48. 25. Schunkert H, Konig IR, Kathiresan S, et al. Large-scale association analysis identifies 13 new susceptibility loci for coronary artery disease. Nat Genet 2011 ; 43 : 333-8. 13. Ikram MA, Seshadri S, Bis JC, et al. Genomewide association studies of stroke. N Engl J Med 2009 ; 360 : 1718-28. 26. Eichler EE, Flint J, Gibson G, et al. Missing heritability and strategies for finding the underlying causes of complex disease. Nat Rev Genet 2010 ; 11 : 446-50. 14. McCarthy MI, Abecasis GR, Cardon LR, et al. Genome-wide association studies for complex traits: consensus, uncertainty and challenges. Nat Rev Genet 2008 ; 9 : 356-69. 15. Campbell CD, Ogburn EL, Lunetta KL, et al. Demonstrating stratification in a European American population. Nat Genet 2005 ; 37 : 868-72. 16. Price AL, Patterson NJ, Plenge RM, Weinblatt ME, Shadick NA, Reich D. Principal components analysis corrects for stratification in genomewide association studies. Nat Genet 2006 ; 38 : 904-9. 17. Psaty BM, O’Donnell CJ, Gudnason V, et al. Cohorts for Heart and Aging Research in Genomic Epidemiology (CHARGE) Consortium: Design of prospective meta-analyses of genome-wide association studies from 5 cohorts. Circ Cardiovasc Genet 2009 ; 2 : 273-80. 18. Xiao R, Boehnke M. Quantifying and correcting for the winner’s curse in genetic association studies. Genet Epidemiol 2009 ; 33 : 453-62. 19. Sim X, Ong RT, Suo C, et al. Transferability of type 2 diabetes implicated loci in multi-ethnic cohorts from Southeast Asia. PLoS Genet 2011 ; 7 : e1001363. 20. Bustamante CD, Burchard EG, De la Vega FM. Genomics for the world. Nature 2011 ; 475 : 163-5. 21. Ioannidis JP, Thomas G, Daly MJ. Validating, augmenting and refining genome-wide association signals. Nat Rev Genet 2009 ; 10 : 318-29. 22. Zeller T, Wild P, Szymczak S, et al. Genetics and beyond–the transcriptome of human monocytes and disease susceptibility. PLoS One 2010 ; 5 : e10693. 27. Manning AK, LaValley M, Liu CT, et al. Meta-analysis of geneenvironment interaction: joint estimation of SNP and SNP x environment regression coefficients. Genet Epidemiol 2011 ; 35 : 11-8. 28. Kam-Thong T, Czamara D, Tsuda K, et al. EPIBLASTER-fast exhaustive two-locus epistasis detection strategy using graphical processing units. Eur J Hum Genet 2011 ; 19 : 465-71. 29. de Bakker PI, Ferreira MA, Jia X, Neale BM, Raychaudhuri S, Voight BF. Practical aspects of imputation-driven meta-analysis of genome-wide association studies. Hum Mol Genet 2008 ; 17(R2) : R122-8. 30. Yano T, Kurata S. An unexpected twist for autophagy in Crohn’s disease. Nat Immunol 2009 ; 10 : 134-6. 31. Preidis GA, Versalovic J. Targeting the human microbiome with antibiotics, probiotics, and prebiotics: gastroenterology enters the metagenomics era. Gastroenterology 2009 ; 136 : 2015-31. 32. Ripatti S, Tikkanen E, Orho-Melander M, et al. A multilocus genetic risk score for coronary heart disease : case-control and prospective cohort analyses. Lancet 2010 ; 376 : 1393-400. 33. Scott SA, Sangkuhl K, Gardner EE, et al. Clinical Pharmacogenetics Implementation Consortium guidelines for cytochrome P450-2C19 (CYP2C19) genotype and clopidogrel therapy. Clin Pharmacol Ther 2011 ; 90 : 328-32. 34. Ashley EA, Butte AJ, Wheeler MT, et al. Clinical assessment incorporating a personal genome. Lancet 2010 ; 375 : 1525-35. 35. Hamburg MA, Collins FS. The path to personalized medicine. N Engl J Med 2010 ; 363 : 301-4. STV, vol. 24, no 5, mai 2012 247