Génétique des Maladies Multifactorielles Stéphanie Debette MCU-PH Epidémiologie – Neurologie Lariboisière [email protected] Génétique des maladies multifactorielles Approche épidémiologique Epidémiologie génétique = Branche de l’épidémiologie qui étudie le rôle de facteurs génétiques et de leur interaction avec des facteurs environnementaux dans la survenue de maladies Khoury et al., Fundamentals of Genetic Epidemiology, Oxford University Press 1993 Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008 Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008 Epidemiologie génétique Physiopathologie Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs ex: monitorer évolution maladie Prévention ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 Epidemiologie génétique Physiopathologie Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs ex: monitorer évolution maladie Prévention ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 Exemple de la maladie de Crohn… Découverte gènes de susceptibilité maladie de Crohn a révélé rôle central autophagie et exposition à microbes intestinaux Abraham, NEJM 2009; Feero, NEJM 2010 Yano & Kurata, Nat Immunol 2009 Gène NOD2: détecteur intracellulaire de peptidoglycanes bactériens Gène ATG16L1: dirige composants intracellulaires (microbes) vers lysosomes Nouvelles voies pour approches thérapeutiques Targeting the human microbiome with antibiotics, probiotics, and prebiotics: gastroenterology enters the metagenomics era. Preidis, Gastroenterology 2009 Epidemiologie génétique Physiopathologie Identification de facteurs de susceptibilité génétique Meilleure compréhension de biologie sous-jacente Nouvelles Cibles thérapeutiques Biomarqueurs ex: monitorer évolution maladie Prévention ex: mise en évidence FDR environnemental McCarthy, Nat Rev Genet 2008 Identification de FDR environnementaux par la génétique… Tabac ↗ risque de polyarthrite rhumatoïde de 1.5 en population générale, mais d’un facteur > 20 si certains variants génétiques sur HLA et PTPN22 sont présents! Klareskog, Arthritis Rheum 2006 Amish porteurs de variant génétique sur gène FTO ↗ risque obésité sont protégés de obésité par activité physique Rampersaud, Arch Intern Med 2008; Kilpeläinen, PLOS Med 2011 Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008 Epidemiologie génétique Prédiction de risque? Décevant jusqu’ici, car variants génétiques identifiés jusqu’ici = associés à augmentation modeste de risque (OR < 1.5) Même quand risque relatif plus élevé, pour l’instant pas d’application clinique dans majorité des cas: Allèle Epsilon4 de l’Apolipoprotéine E pour maladie d’Alzheimer Allèles HLA pour maladies autoimmunes Combiner Différents variants génétiques (« scores de risque ») Variants génétiques + autres biomarqueurs (circulants, imagerie…) Cho & Gregersen, NEJM 2011 Ripatti, Lancet 2010 Génétique des maladies multifactorielles: pourquoi? Physiopathologie: Meilleure compréhension des mécanismes moléculaires conduisant à la maladie Prédiction de risque: Identification de populations à risque de développer maladie, en fonction de patrimoine génétique Prévention ciblée (ou « Médecine personnalisée ») Pharmacogénétique: Identification de meilleurs répondeurs à traitement ou d’individus à risque accru d’effets secondaires « Traitement personnalisé » McCarthy, Nat Rev Med 2008 Pharmacogénétique, Exemple CYP2C19 = enzyme impliquée dans bioactivation du clopidogrel Allele CYP2C19*2 du variant génétique rs4244285 = associé à risque ↑ d’évènements cardiovasculaires Utilisation du Clopidogrel en fonction de génotype rs4244285 CYP2C19 chez patients traités par angioplastie pour syndrome coronarien aigu FDA / AHA: « boxed warning », évaluer au cas par cas Scott, Clin Pharmacol Ther 2011 Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Maladies mendéliennes Maladies mendéliennes (ou monogéniques) = causées par mutation dans un seul gène Trois modes de transmission: – Autosomique dominant – Autosomique récessif – Récessif lié à l’X Maladies complexes ou multifactorielles Maladies ayant de multiples facteurs de susceptibilité génétiques et facteurs de risque environnementaux Ne suit pas un mode de transmission mendélien Différentes façon de mesurer contribution de facteurs génétiques: • Héritabilité: proportion de variance phénotypique due à effets génétiques • Risque de récurrence: compare proportion d’apparentés de cas qui sont atteints par maladie versus proportion d’individus atteints en population générale Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Outils en épidémiologie génétique • Analyses de liaison (familles): Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques • Etudes d’association génétique (population générale, cas/témoins): Comparer fréquence des variants génétiques, entre patients et témoins Courtesy Dr. Dupuis Outils en épidémiologie génétique • Analyses de liaison (familles): Examiner la co-transmission d’une génération à l’autre du phénotype et des allèles de marqueurs génétiques • Etudes d’association génétique (population générale, cas/témoins): Comparer fréquence des variants génétiques, entre patients et témoins plus puissant pour maladies complexes Risch, Science 1996 Etudes d’association génétique Single nucleotide polymorphism (SNP) Copie 1 Copie 2 A T G A/C T T C A T G A/C T T C 1000 patients avec AVC: 1000 témoins: CC: n= 50 AC: n= 250 AA: n= 700 CC: n= 10 AC: n= 180 AA: n= 810 Etudes d’association génétique • Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard. Cela n’implique PAS nécessairement un lien de causalité Association indirecte (observée) Déséquilibre de liaison Phénotype Association directe (non observée) chromosome A Variant génotypé B Variant causal non observé Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Quelques chiffres… • ~3 milliards de paires de bases (nucléotides) dans séquence d’ADN humain • 20,000 – 25,000 gènes: – 1.5% du génome (reste contient ADN non-codant, dont introns et séquences régulatrices) – Taille variable, de x100 bases à > 2 millions de bases • 99.9% de la séquence d’ADN est identique d’un individu à l’autre – Portion variable fait la différence… Types de variation génétique • Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique – – Variation individuelle dans séquence nucléotidique Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV) Copie 1 Chr (brin+) Copie 2 Chr (brin+) A T G A/C T T C A T G A/C T T C 2 Allèles possibles: C ou A 3 Génotypes possibles: CC, CA, AA Types de variation génétique Single Nucleotide Polymorphism (SNP) = polymorphisme mononucléotidique – Variation individuelle dans séquence nucléotidique – Plusieurs millions de SNPs, fréq >1% (<1% = mutation ou SNV) – Conséquences: • Neutre: ─ ─ Séquence non codante, non régulatrice Séquence codante mais « synonyme »: exemple: ACC ou ACA même acide aminé (thréonine) • Modification taux d’expression de gène ─ Séquence régulatrice (non codante) • Modification composition protéine: ─ ─ ─ Séquence codante «non-synonyme» ou «missense» Séquence codante «non-sense» (induit codon stop) Intron, site d’épissage (non codante) Types de variation génétique « Copy number variants » = CNV: segment d’ADN ou gène présent en nombre variable de copies d’un individu à l’autre – – – – Perte ou gain Taille variable (10,000 – 5,000,000 bases) Découverte plus récente que SNPs Intra- ou intergénique Polymorphismes de répétition – – – Répétition de séquences en tandem, en nombre variable Taille variable: Microsatellites, STR, VNTR Intra- ou intergénique Calcul de fréquences alléliques pour un SNP Génotype N individus % AA 200 20% AG 500 50% GG 300 30% TOTAL 1000 100% Quelle est la fréquence de l’allèle A? Calcul de fréquences alléliques pour un SNP Génotype N individus N allèles AA 200 400 A AG 500 500 A 500 G GG 300 600 G TOTAL 1000 2000 Quelle est la fréquence de l’allèle A? Freq (A) = (200x2 + 500) / 2000 = 0.45 Quelle est la fréquence de l’allèle G? Calcul de fréquences alléliques pour un SNP Génotype N individus N allèles AA 200 400 A AG 500 500 A 500 G GG 300 600 G TOTAL 1000 2000 Quelle est la fréquence de l’allèle A? Freq (A) = (200x2 + 500) / 2000 = 0.45 Quelle est la fréquence de l’allèle G? Freq (G) = (300x2 + 500) / 2000 = 0.55 Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Equilibre de Hardy-Weinberg Dans une population dont l'effectif est infini (très grand), panmictique (mariages au hasard), en l'absence de mutation et de sélection, les fréquences alléliques et génotypiques restent constantes d’une génération à l’autre: Fréquence du génotype aa = p2 Fréquence du génotype aA = 2pq Fréquence du génotype AA = q2 où p = fréquence de l’allèle a q = fréquence de l’allèle A Equilibre de Hardy-Weinberg • Conditions de Hardy-Weinberg (HW) ne sont généralement pas strictement remplies dans la plupart des populations, mais généralement les génotypes suivent assez bien l’équilibre de HW • En l’absence d’équilibre de HW on doit se poser la question des causes potentielles Par exemple lors de génotypage sur plateformes à haut débit, l’absence d’équilibre de HW dans une population témoin est considéré un signe de génotypage de mauvaise qualité Equilibre de Hardy-Weinberg • Comment tester si équilibre de Hardy-Weinberg est présent? Test de « Goodness of Fit » où Oi = effectif observé pour génotype i Ei = effectif attendu pour génotype i si équilibre de HW X2 suit une loi de Chi-2 à 1 degré de liberté En effet, normalement pour un test de chi-2 de 2 x 3 classes (observé/attendu, aa/aA/AA) il y a 2 degrés de liberté, mais ici on retire un degré de liberté supplémentaire, car on estime les fréquences alléliques à partir des génotypes observés Si équilibre de HW, alors test de Chi-2 est non significatif Déséquilibre de liaison Soit 2 variants génétiques sur même chromosome -Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A) -Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B) On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab Si les deux variants sont indépendants, i.e. en « équilibre de liaison », alors: p(AB)=p(A) x p(B) A/a B/b Déséquilibre de liaison Soit 2 variants génétiques sur même chromosome -Variant 1: Alleles “a” et “A”, fréquences = p(a), p(A) -Variant 2: Alleles “b” et “B”, fréquences = p(b), p(B) On a 4 combinaisons (ou haplotypes) possibles: AB Ab aB ab Si les deux variants ne sont pas indépendants, ils sont dits en déséquilibre de liaison, i.e. p(AB)≠p(A) x p(B) A/a B/b Fréquence de AB dépend non seulement de p(A) et p(B) mais aussi du degré de déséquilibre de liaison (r2, D’) Recombinaison A/a B/b Indépendants Recombinaison A/a B/b Dépendants Etudes d’association génétique • Un allèle est associé à un phénotype si sa fréquence diffère plus entre cas et témoins que par le simple hasard. Cela n’implique PAS nécessairement un lien de causalité Association indirecte (observée) Déséquilibre de liaison Phénotype Association directe (non observée) chromosome A Variant génotypé B Variant causal non observé Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Etudes d’association génétique • Etudes d’association sur “gènes candidats”: – Tester association de phénotype avec polymorphismes génétiques candidats Basé sur hypothèses a priori sur physiopathologie – Centaines d’études d’association gène candidat publiées sur AVC, HSB, infarctus: peu de loci répliqués de façon convaincante – Principaux problèmes méthodologiques Petits effectifs Absence de réplication pré-planifiée Mauvais candidat ... Etudes gène candidat • Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: – Expérimentation animale: Variants génétiques dans LRP1 = associés aux anévrysmes aorte chez l’homme? Inactivation gène LRP1 dans cell. Musculaires lisses souris Anévrysmes Boucher, Science 2003 Etudes gène candidat • Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: – Association connue avec d’autres maladies qui sont corrélées avec la maladie d’intérêt AVC Alzheimer Variants génétiques associés: Gene ApoE CR1 BIN1 CLU PICALM SNP chr Fréq allèle OR (AD) epsilon 19 0.11 2.5 rs3818361 1 0.17219 1.18 rs744373 2 0.27341 1.17 rs11136000 8 0.40328 0.85 rs3851179 11 0.37258 0.87 Lambert, 2009; Seshadri, 2010; Naj, 2011; Hollingsworth, 2011 Etudes gène candidat • Exemples d’hypothèses a priori conduisant à la sélection d’un gène candidat: – Fonction du gène laisse supposer que pourrait être impliqué dans physiopathologie maladie Gène de coagulation, hémostase AVC Genes Polymorphisms OR (IC95%) PAI-1 (Plasminogen activator inhibitor 1) Catto, 1997 rs1799768 (-668/4G>5G) NS Jood, 2005 rs1799768 NS CPB2 (Carbopeptidase B2, plasma = Thrombin-activable fibrinolysis inhibitor) Leebeek, 2005 -438A>G, 505A>G,1040C>T NS Ladenvall, 2007 rs3742264/rs7337140/rs9526136/rs1926447/rs940 OR=2.5(1.4-4.4) PLAT (Plasminogen activator, tissue) Jood, 2005 rs2020918 NS Yamada, 2006 rs2020918 NS VKORC1 (vitamin K epoxide reductase complex, subunit 1) Wang, 2006 rs2359612 (2255T>C) OR=1.8(1.3-2.3) Shen, 2007 rs2359612 OR=1.7(1.4-2.1) Debette & Seshadri, Circ Cardiovasc Genet 2009 Etudes gène candidat Choix des SNPs: • 1-100 par gènes, en fonction de coût et taille gène • SNPs « indépendants » si possible, i.e. pas en déséquilibre de liaison • SNPs potentiellement fonctionnels: – Codant non-synonyme – Dans région régulatrice (promoteur, 3’UTR, site de fixation facteur transcription) – Dans intron, site épissage Etudes d’association génétique • Etudes d’association génétique pangénomiques = GWAS (genome-wide association study) – Génotyper un très grand nombre (500,000-5,000,000) de variants génétiques distribués sur l’ensemble des chromosomes PAS d’hypothèse a priori sur les loci d’intérêt – Récemment possible grâce au projet HapMap et aux technologies de génotypage à haut débit HapMap = projet international décrivant les variations génétiques fréquentes dans différents groupes ethniques Génotypage automatisé et rapide de milliers d’échantillons, pour des x100,000 SNPs. Zeggini, Nature Genet 2005 Création micropuce Hybridisation d’ADN « marqué » Interpretation informatisée Détection de fixation « séquence-spécifique » Feero, NEJM 2010 GWAS – présentation résultats GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) • Population: 19,602 individus d’origine européenne • Phénotype: AVC, 1,544 cas incidents • SNPs: 2.5 Millions, sur les 22 autosomes « Manhattan plot » GWAS – présentation résultats GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) • Population: 19,602 individus d’origine européenne • Phénotype: AVC, 1,544 cas incidents • SNPs: 2.5 Millions, sur les 22 autosomes « Manhattan plot » p=5 x10-8 rs11833579 NINJ2 (chr12p13) rs12425791 GWAS – présentation résultats GWAS visant à identifier FDR génétiques d’AVC (accident vasculaire cérébral) • Population: 19,602 individus d’origine européenne • Phénotype: AVC, 1,544 cas incidents • SNPs: 2.5 Millions, sur les 22 autosomes « Manhattan plot » p=5 x10-8 rs11833579 NINJ2 (chr12p13) rs12425791 GWAS – présentation résultats Représentation régionale des associations de SNPs avec AVC (chr 12p13) Ikram et al., NEJM 2009 GWAS – contraintes logistiques Gènes candidat (18 ou 11 SNPs) • Très grands effectifs nécessaires: – > 1,000, voire > 10,000 – Plus si variant rare – Plus si risque relatif faible GWAS (500,000 ou 300,000 SNPs) Zondervan, Nature Protocols 2007 GWAS – contraintes logistiques Gènes candidat (18 ou 11 SNPs) • Très grands effectifs nécessaires: – > 1,000, voire > 10,000 – Plus si variant rare – Plus si risque relatif faible GWAS (500,000 ou 300,000 SNPs) Zondervan, Nature Protocols 2007 GWAS – contraintes logistiques • Supercalculateurs pour analyser données Nœud de connexion, travail sur Unix http://www.abysse-tech.com GWAS – contraintes logistiques • Coût encore élevés: – ~ 500 Euros pour génotyper 1 SNP sur 2000 sujets – ~ 400,000 Euros pour un GWAS sur 600,000 SNPs sur 2000 sujets – ~ 800,000 Euros pour un GWAS sur 5,000,000 SNPs sur 2000 sujets Etudes d’association génétique • Gènes candidats • Genome-wide Limite analyse à régions sélectionnées sur données ou hypothèses préalables Analyse de variants répartis sur l’ensemble du génome, sans hypothèse préalable Avantages: – Coûte moins cher – Nécessite effectifs moindres Avantages: – Permet de découvrir de nouveaux gènes (approche agnostique) – Couvre mieux variation génétique – A permis découverte x100 gènes Inconvénients: – Ne permet pas de découvrir de nouveaux gènes, non suspectés – Résultats très décevants en moyenne Inconvénients: – Nécessite très grands effectifs (collaborations…) – Coût élevé – Infrastructure (supercalculateur) Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Tests multiples • Tests multiples en étude d’association génétique – Multiples SNPs – Dans un ou plusieurs gènes candidats – Genome-wide (500,000 à 5,000,000 SNPs) – Multiples phénotypes • Comment en tenir compte dans interprétation résultats? Tests multiples • H0: pas d’association entre SNP et M Réalité Décision H0 faux H0 vrai Rejeter H0 correct faux positif Ne pas rejeter H0 faux négatif correct α = probabilité d’erreur de type I = probabilité de rejeter H0, alors que H0 = vrai = probabilité de déclarer une association à tort α = seuil de significativité pour un seul test statistique (α = 0.05) ß = probabilité d’erreur de type II = probabilité de ne pas rejeter H0, alors que H0 = faux = probabilité de ne pas détecter une association qui existe 1-ß = puissance du test Tests multiples • H0: pas d’association entre SNP et M Réalité Décision H0 faux H0 vrai Rejeter H0 correct faux positif Ne pas rejeter H0 faux négatif correct α = probabilité d’erreur de type I = probabilité de rejeter H0, alors que H0 = vrai = probabilité de déclarer une association à tort α = seuil de significativité pour un seul test statistique (α = 0.05) ß = probabilité d’erreur de type II = probabilité de ne pas rejeter H0, alors que H0 = faux = probabilité de ne pas détecter une association qui existe 1-ß = puissance du test Correction de Bonferroni • Si n tests: • seuil de significativité = 0.05/n • ou garder seuil à 0.05 mais multiplier p par n • Exemple Test p Test1 0.047 Test2 0.03 Test3 0.009 Test4 0.10 Test5 0.02 Correction de Bonferroni • Si n tests: • seuil de significativité = 0.05/n • ou garder seuil à 0.05 mais multiplier p par n • Exemple Test p Test1 0.047 Test2 0.03 Test3 0.009 Test4 0.10 Test5 0.02 Surcorrige (conservateur) si tests ne sont pas indépendants, par exemple: SNPs en déséquilibre de liaison Tests multiples • En pratique… – Bonferroni – Autres méthodes: False Discovery Rate, Permutations – Dans GWAS, généralement seuil fixe à p=5x10-8 Correspond à ~ 1 Million de tests indépendants Reflète à peu près la réalité, quelque soit la densité des puces Pour populations européennes… Hétérogénéité ethnique • Il faut tenir compte de la structure de la population Faux positifs (associations faussement significatives) si « stratification » de la population, i.e. si population contient plusieurs sous-populations différant par leur caractéristiques génétiques, notamment fréquences alléliques Campbell, Nat Genet 2005 Population 2 Population 1 250 250 200 200 150 150 Population 1 + 2 100 100 350 50 50 300 0 0 cases cases controls controls Allele 2 = 20% in cases and controls 250 cases controls cases controls Allele 2 = 60% in cases and controls 200 150 100 50 0 cases cases controls controls Allele 2 = 33% in cases and 45% in controls! Hétérogénéité ethnique Il est donc essentiel de… – choisir des témoins de la même origine ethnique que les cas – autant que possible du même pays, voire de la même région Si différentes origines géographiques dans population étudiée, on peut: – stratifier l’analyse par origine géographique (i.e. par pays) – effectuer une analyse groupée en corrigeant sur la stratification par des méthodes statistiques (contrôle génomique, composantes principales) Analyse en composantes principales = appliquée aux données GWAS (génotypes pangénomiques) pour inférer des axes continus de variation génétique Price, Nat Genet 2006 Réplication +++ • Essentielle pour confirmer qu’une association est réelle • Importance d’utiliser des échantillons de réplication indépendants Credibilité augmentée quand groupes d’investigateurs multiples Ikram, NEJM 2009 Réplication dans article initial • 652/3613 caucasiens • 2430 personnes avec 215 AVC incidents afro-américains Réplication dans étude asiatique • 3784/3102 asiatiques Matsushita, J Hum Genet 2010 Réplication +++ • Essentielle pour confirmer qu’une association est réelle • Importance d’utiliser des échantillons de réplication indépendants Crédibilité augmentée quand groupes d’investigateurs multiples Ikram, NEJM 2009 Réplication dans article initial • 652/3613 caucasiens • 2430 personnes avec 215 AVC incidents afro-américains Réplication dans étude asiatique • 3784/3102 asiatiques Matsushita, J Hum Genet 2010 Rosand, NEJM 2010 Réplication +++ • Calcul d’effectif nécessaire doit tenir compte du “winner’s curse” L’étude initiale tend typiquement à surestimer la force de l’association • Même groupe ethnique initialement Du fait de différences en fréquence allélique, déséquilibre de liaison, force de l’association Extension à d’autres groupes ethniques dans un 2è temps: Important pour la généralisabilité des résultats Permet d’affiner le signal du fait de différences de déséquilibre de liaison, plus forte densité en SNPs... Nature 2011; 475:163-165 Génétique des maladies multifactorielles I. Maladies complexes/multifactorielles vs. mendéliennes II. Etudes d’association génétique vs. analyses de liaison III. Quelques rappels I. II. III. Variation génétique Equilibre de Hardy-Weinberg Déséquilibre de liaison IV. Etudes d’association génétique (EAG) I. II. Etudes d’association sur « gènes candidats » Etudes d’association génétique pangénomiques V. Analyse et interprétation des EAG I. II. III. Tests multiples Hétérogénéité de population Réplication VI. Caractérisation des signaux identifiés, perspectives Refining the signal Where is the causative variant? Ioannidis, Nat Rev Genet 2009 Refining the signal Where is the causative variant? Resequencing and fine mapping around confirmed signals Ioannidis, Nat Rev Genet 2009 Refining the signal Where is the causative gene? Ioannidis, Nat Rev Genet 2009 Refining the signal Where is the causative gene? Genome annotation Expression quantitative trait loci Experiments… Ioannidis, Nat Rev Genet 2009 Succès et limites des GWAS… • En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide • La plupart dans gènes préalablement non suspectés • Catalogue online (http://www.genome.gov/gwastudies) 71 gènes pour maladie de Crohn Franke, Nat Genet 2010 38 gènes pour diabète de type 2 Voight, Nat Genet 2010 25 gènes pour maladie coronaire Shunkert, Nat Genet 2011 12 gènes pour Alzheimer Hollingworth, Nat Genet 2011 4 gènes pour AVC (problème hétérogénéité…) Published Genome-Wide Associations through 6/2010, 904 published GWA at p<5x10-8 for 165 traits NHGRI GWA Catalog www.genome.gov/GWAStudies Prédisposition génétique aux AVC ischémiques Module tolérance à ischémie cérébrale Ikram, NEJM 2009 NINJ2 Predispose to arterial thrombosis Dissection Fibrillation auriculaire PITX2, ZFHX2 9p21, HDAC9 Influence méchanismes responsables des sous-types d’AVC ischémique Athérome Other Gretarsdottir, Ann Neurol 2008 Bellenguez, Nat Genet 2012 Traylor, Lancet Neurol 2012 Maladie petites artères ? Diabète Obesité Tabac HTA Hyperchol ? ↑ Risque de et susceptibilité aux Facteurs de risque traditionnels Succès et limites des GWAS… • En ~5 ans, GWAS ont identifié des centaines de nouveaux loci associé avec diverses maladies, avec réplication solide • La plupart dans gènes préalablement non suspectés • Catalogue online (http://www.genome.gov/gwastudies) 71 gènes pour maladie de Crohn 23% héritabilité 38 gènes pour diabète de type 2 10% héritabilité 25 gènes pour maladie coronaire 10% heritabilité 12 gènes pour Alzheimer 4 gènes pour AVC (problème hétérogénéité…) Perspectives Au-delà du GWAS… • Variants rares ─ 1000 génome ─ Séquençage exons / genome entier (ESP-GO, CHARGE-S…) ─ Exome chip • Copy number variants ─ Segments d’ADN présents en nombre variable de copies • Modifications épigénétiques ─ Modulent « emballage » ADN dans noyau et influencent expression • ADN mitochondrial Merci pour votre attention!