TECHNOLOGIE APPLIQUÉE Christine KEYSER, Elizabet PETKOVSKI* Utilisation des SNP pour l’identification humaine RÉSUMÉ Les polymorphismes d’un seul nucléotide ou SNP (Single Nucleotide Polymorphisms) suscitent depuis peu un engouement grandissant dans le domaine de l’identification génétique humaine. Ces marqueurs se révèlent intéressants pour l’analyse de prélèvements biologiques dégradés, mais également dans les tests de paternité. Outre leur utilisation à des fins médico-légales, les SNP constituent également des marqueurs de choix en anthropologie moléculaire pour distinguer différents groupes (ou haplogroupes) au niveau des lignées paternelles et maternelles et estimer ainsi l’origine ethnique des individus étudiés. Les méthodologies de typage des SNP étant en continuel développement, le choix d’une technique ad hoc peut paraître difficile. Notre équipe, impliquée dans des investigations génétiques, a fait celui d’une discrimination allélique par extension d’amorces (formation de produits ayant une masse spécifique pour chaque allèle) suivi d’une détection par spectrométrie de masse MALDI-TOF. L’objectif de cet article est d’argumenter ce choix mais également de développer l’approche méthodologique utilisée, ainsi que les avantages et les inconvénients de cette technique. MOTS-CLÉS Génétique qu SNP, spectrométrie de masse, PCR, identification génétique, contrôle de filiation Use of SNP in human identification SUMMARY Single Nucleotide Polymorphisms or SNPs arouse a growing interest in the field of human genetic identification. These markers are interesting for the analysis of degraded biological samples, as well as for paternity testing. Beside their use in forensic science, SNPs are also of great interest in molecular anthropology. They distinguish groups (called haplogroups) of paternal and maternal lineage and allow the estimation of the studied individuals’ ethnic affiliation. The SNP typing methodologies being in continual development, the choice of an appropriate technology seems difficult. Working in the fields of forensic identification we chose a method based on MALDI-TOF mass spectrometry detection of allele specific primer extension products. The aim of this paper is to explain this choice as well as the used methodological approach and to discuss advantages and limits of this technique. KEYWORDS SNP, mass spectrometry, PCR, forensic genetic, paternity testing I - Introduction Les SNP (pour Single Nucleotide Polymorphisms) constituent les polymorphismes les plus répandus du génome humain. Il s’agit de variations de la séquence d’ADN portant sur un seul nucléotide (figure 1). Ces marqueurs sont répartis sur l’ensemble du génome, toutes les 500 paires de bases en moyenne, aussi bien au niveau des régions codantes (gènes) que des régions non codantes. Ils sont le plus souvent phénotypiquement neutres c’est à dire qu’ils ne modifient pas le phénotype de celui qui les porte. A l’heure actuelle, plus de 5 millions de SNP ont été caractérisés. Cette abondance explique l’énorme intérêt qu’ils suscitent dans les domaines de la médecine et de la pharmacogénétique où ils sont notamment utilisés pour détecter des prédispositions individuelles à certaines maladies ou pour identifier les gènes impliqués dans des maladies multifactorielles. *Institut de Médecine Légale - 11, rue Humann - 67085 Strasbourg cedex - Tél : 03 90 24 33 65 – Fax : 03 90 24 33 62 24 SPECTRA ANALYSE n° 249 • Avril - mai 2006 Technologie appliquée Utilisation des SNP pour l’identification humaine Figure 1 timer l’origine ethnique de l’individu à la source du prélèvement ou de l’échantillon étudié. Les SNP sont des substitutions, insertions ou délétions de nucléotides qui surviennent à des positions uniques dans le génome. II – SNP et identification génétique, atouts et difficultés Dans le domaine de l’identification génétique, l’engouement pour les SNP ne cesse de croître car ceux-ci possèdent plusieurs caractéristiques intéressantes pour des applications médico-légales : 1) Les régions d’ADN ciblées pour l’analyse de SNP sont de petites tailles, ce qui permet l’étude de molécules d’acides nucléiques fragmentées. Ceci est particulièrement important en criminalistique, domaine dans lequel les preuves biologiques laissées sur les scènes de crimes sont souvent présentes à l’état de traces et/ou sont dégradées par des facteurs environnementaux tels que la lumière, la chaleur ou l’humidité. Avec les techniques classiquement utilisées dans les laboratoires d’identification génétique, l’ADN extrait de ces traces peut ne fournir qu’une empreinte (ou profil) génétique partielle, difficilement exploitable ; il en est de même pour les catastrophes de masses (e.g. attentat du World Trade Center, Tsunami du Sud Est Asiatique…) où les restes humains à identifier sont souvent fortement altérés. 2) Les SNP sont considérés comme des marqueurs génétiques stables : ils présentent un taux de mutation bien inférieur à celui des microsatellites ou STR (Short Tandem Repeats), marqueurs actuellement utilisés pour établir le profil génétique d’un individu. Ce taux moindre de mutations (de l’ordre de 10-8 contre 10-3) peut constituer un réel avantage dans les tests de parenté où des mutations qui surviennent sur quelques générations peuvent être sources de confusions. 3) A la différence des STR, l’analyse des SNP n’est pas fondée sur l’étude du polymorphisme de longueur de régions de répétitions ce qui la préserve d’artéfacts liés à des problèmes de « bégaiement » rencontrés par l’ADN polymérase, l’enzyme impliqué dans le processus d’amplification de l’ADN. 4) Les SNP peuvent être étudiés par des techniques d’analyse à haut-débit, ce qui facilite la constitution rapide de base de données intéressant un très grand nombre d’individus (d’où une grande fiabilité dans le calcul des fréquences alléliques par exemple). 5) Lorsque étudiés au niveau du chromosome Y ou de l’ADN mitochondrial, les SNP permettent d’es- Toutefois, ces marqueurs présentent également des inconvénients qui complexifient leur utilisation à des fins judiciaires : 1) Pour chaque SNP, il y a logiquement 4 allèles (ou variants nucléotidiques) possibles, mais le plus souvent seuls 2 des ces 4 allèles existent réellement. Leur polymorphisme limité constitue donc le principal défaut des SNP ; par exemple si l’on appelle A et B les deux allèles possibles à un site polymorphe donné, les individus peuvent être de type AA, AB ou BB. Ces 3 types ou génotypes peuvent paraître faibles en comparaison des 20 à 50 génotypes possibles avec la plupart des STR. Ce polymorphisme réduit peut néanmoins être compensé par l’analyse de nombreux SNP. Il a été démontré que l’analyse combinée d’une cinquantaine de SNP doit permettre d’atteindre un pouvoir informatif équivalent à celui obtenu à l’heure actuelle grâce aux STR (1). 2) Du fait de la nature biallélique de la majorité des SNP, il est difficile de détecter la présence de deux ou plusieurs ADN dans un échantillon ; l’analyse de mélanges d’ADN est donc difficile, or ces derniers sont très nombreux dans les affaires criminelles (e.g. viol : mélange de cellules de l’agresseur et de la victime ; trace de contact : mélange de plusieurs individus…). Au cours des dernières années un grand nombre de techniques de typage des SNP ont été développées, chacune possédant ses propres caractéristiques (pour des revues voir : 2 et 3). Certaines permettent l’analyse d’un petit nombre de marqueurs sur un grand nombre d’échantillons, d’autres autorisent l’analyse d’un grand nombre de marqueurs sur un petit nombre d’échantillons, un dernier ensemble s’applique à l’analyse d’un grand nombre de SNP sur un grand nombre d’échantillons. L’expert judiciaire travaillant le plus souvent à partir d’un nombre restreint de prélèvements, l’étude d’un nombre élevé de marqueurs avec un débit d’analyse moyen est suffisante (excepté dans le cadre de la constitution de bases de données ou de catastrophe de masse). Autre facteur important à considérer : la quantité d’ADN nécessaire pour établir un génotype. Certaines techniques s’appliquent directement sur l’ADN génomique, sans réaction d’amplification préalable, ce qui nécessite une quantité minimum d’ADN matrice relativement importante. Compte tenu des faibles quantités d’ADN extraites à partir d’un nombre non négligeable de prélèvements médico-légaux, le choix d’une technique faisant intervenir une étape préalable d’amplification par PCR (Polymerase Chain Reaction) est indispensable. La possibilité de développer des réactions PCR multiplexes (permettant l’amplification simultanée de plusieurs sites polymorphes) est également primordiale, non seulement pour des questions de quantité d’ADN mais également pour augmenter le pouvoir discriminant de l’analyse. SPECTRA ANALYSE n° 249 • Avril - mai 2006 25 TECHNOLOGIE APPLIQUÉE Autre considération importante dans le contexte médico-légal : l’analyse de mélanges d’ADN. La possibilité de quantifier chaque allèle dans un échantillon peut aider à l’analyse de ces mélanges. Enfin, derniers impératifs : la sensibilité, la reproductibilité, et la précision de la technique doivent être élevées tandis que la durée ainsi que le coût de l’analyse doivent être au plus bas. par des analyses à visée judiciaire, la combinaison technologique employée à l’Institut de Médecine Légale de Strasbourg correspond à une extension d’amorce, qui répond aux besoins qualitatifs d’une analyse d’identification génétique, suivie d’une analyse pas spectrométrie de masse MALDI-TOF (Matrix Assisted Laser Desorption/Ionisation Time-Of-Flight) qui répond notamment aux critères de sensibilité, précision et rapidité. III - Méthodes d’analyse des SNP 1. Discrimination allélique par extension d’amorce Les méthodes de typage des SNP font intervenir deux étapes : une étape de discrimination allélique, correspondant à la formation de produits réactionnels spécifiques à chaque allèle, suivie d’une étape de détection des produits issus de la discrimination allélique. La plupart des techniques de discrimination allélique comprennent une étape de pré-amplification par PCR de la région contenant le SNP. Une analyse post-PCR est ensuite effectuée pour déterminer le variant allélique au site polymorphe considéré. Les analyses post-PCR sont fondées soit sur l’hybridation d’une sonde sur le produit amplifié, soit sur une ligation des amorces, soit sur un clivage de sonde, soit encore sur une extension des amorces. Il existe également différents systèmes de détection des produits de la discrimination allélique parmi lesquels les puces à ADN, l’électrophorèse, la PCR en temps réel, le pyroséquençage, la spectrométrie de masse. Au vu des impératifs exigés 26 SPECTRA ANALYSE n° 249 • Avril - mai 2006 Cette étape, également appelée miniséquençage, est précédée par une étape d’amplification de la région d’ADN contenant le SNP d’intérêt au moyen d’un couple d’amorces. Les produits PCR obtenus sont purifiés au moyen de billes magnétiques puis soumis à la réaction d’extension d’amorce ou PEX (pour Primer EXtension). Cette réaction repose sur l’extension d’une amorce de 1 ou 2 nucléotides, en fonction de la séquence du fragment d’ADN cible. Cette extension se fait grâce à une ADN polymérase qui incorpore de manière indifférente les désoxyNucléotides TriPhosphates (dNTPs) et les didéoxyNucléotide TriPhosphate (ddNTPs, voir Note 1). Dans l’exemple de la Figure 2, une amorce a été conçue pour se fixer à l’extrémité 3’ du SNP d’intérêt, un polymorphisme de type T/A. L’un des quatre dNTP du milieu réactionnel (le dATP) est remplacé par un ddNTP (le ddATP) qui bloque la réaction d’élongation lorsqu’elle rencontre un T. NOTE 1 Les ddNTP bloquent la synthèse de l’ADN par les ADN polymérases après leur incorporation. Ce blocage est dû à l’impossibilité qu’ont ces nucléotides de former une liaison phosphodiester avec un autre nucléotide en raison de l’absence du groupement hydroxyle sur le carbone 3’. Figure 2 Principe de la réaction d’extension d’amorce. L’utilisation combinée de ddNTP avec des dNTP permet d’augmenter les différences de masse entre les allèles d’un SNP. Technologie appliquée Utilisation des SNP pour l’identification humaine Figure 3 Les produits de l’extension d’amorce, mélangés à une matrice, sont co-cristallisés sur une plaque métallique. Le mélange ADN/matrice est frappé par le faisceau d’un laser. Cette énergie est transférée à la matrice qui est vaporisée ce qui permet à une petite partie de l’ADN d’être expulsée dans un analyseur en temps de vol. Le produit ADN chargé est ensuite accéléré avant de pénétrer dans le tube de vol libre de champ où il va voler vers le détecteur. Les molécules chargées volent d’autant plus vite qu’elles sont plus légères. Le temps écoulé, entre l’entrée dans le tube de vol et la collision avec le détecteur, constitue le temps de vol (Time Of Flight). Dans le cas du premier allèle, le ddATP est incorporé immédiatement, ce qui génère un amplicon de 24 nucléotides. Dans le cas du second allèle, le premier nucléotide (dTTP) est incorporé et l’extension se poursuit jusqu’au T ou un ddATP est incorporé, conduisant à l’obtention d’un produit de 25 nucléotides. Ces deux produits d’amplification ou amplicons présentent des masses différentes et peuvent, après une étape de purification, être distingués notamment par leur masse. 2. Détection allélique par spectrométrie de masse MALDI-TOF La spectrométrie de masse (SM) est devenue une technique de choix pour l’étude des biopolymères, notamment depuis le développement de nouvelles méthodes d’ionisation, qui permettent aujourd’hui de vaporiser des molécules aussi grosses que des protéines ou des acides nucléiques. L’une de ces méthodes est la technique d’ionisation par dé- sorption laser assistée par matrice ou MALDI, méthode d’ionisation couramment associée à un analyseur en temps de vol (TOF). La technique MALDI utilise un faisceau laser pour désorber et ioniser un mélange matrice/échantillon co-cristallisé sur une plaque métallique. L’irradiation laser provoque l’ionisation des molécules d’échantillon et de matrice en phase gazeuse. La matrice (un mélange d’acide 3-hydroxypicolinique et de citrate hydrogenodiammonium) permet de minimiser la dégradation de l’échantillon (produits de la réaction PEX) provoquée par l’absorption de l’énergie du faisceau laser incident. Une fois les ions formés, ils sont accélérés par application d’un champ électrostatique et envoyés dans un tube sous vide dans lequel ils sont séparés en fonction de leur vitesse ou temps de vol. Les ions ayant une masse élevée volent plus lentement que les ions ayant une masse plus faible. Leur arrivée au bout du tube est détectée par un multiplicateur et visualisée sous forme d’un spectre (figure 3). Le SPECTRA ANALYSE n° 249 • Avril - mai 2006 27 TECHNOLOGIE APPLIQUÉE Mère Enfant Père présumé Figure 4 Spectres obtenus dans le cadre d’une analyse de paternité. La mère est homozygote, elle possède deux allèles portant une guanine à la position polymorphe et n’a pu transmettre qu’un allèle G à l’enfant. Ce dernier n’a pu hériter de l’allèle A que de son père. Le père présumé étant homozygote A/A, il a pu transmettre l’allèle A et peut être le père biologique dans le cas présent. Bien entendu, ce résultat, obtenu pour un seul locus, n’est pas significatif et il faut tester une cinquantaine d’autres loci pour pouvoir affirmer que le père présumé est bien le père biologique. Le pic non coloré correspond à l’amorce non étendue utilisée dans la réaction PEX. temps de vol est proportionnel à la masse. Cette technique nous a permis de sélectionner, dans un premier temps, une quarantaine de SNP susceptibles d’être utilisés dans le cadre d’identifications génétiques d’individus et de contrôles de filiation (4). La Figure 4 illustre le type de résultats obtenus dans le cadre d’une recherche en paternité. Les allèles se distinguent par leur différence de masse, mesurée sur la base de leur temps de vol et interprétée automatiquement par ordinateur. Cette technique permet, selon l’individu étudié, de déterminer s’il est homozygote ou hétérozygote pour un SNP donné. Bien entendu, l’analyse d’un seul SNP est insuffisante et seule l’analyse simultanée de plusieurs d’entre eux présente un intérêt pour des investigations d’identifications génétiques. Des réactions PEX incluant plusieurs amorces susceptibles de s’hybrider au niveau de différents SNP (réactions multiPEX) ont donc été mises en œuvre dans un second temps. Les résultats de ces travaux, qui intéressent une cinquantaine de SNP devraient être prochainement publiés (5). Ils démontrent clairement l’intérêt d’une approche de 28 SPECTRA ANALYSE n° 249 • Avril - mai 2006 typage des SNP fondée sur une discrimination allélique par extension d’amorce suivie d’une détection par SM MALDI-TOF. IV - Avantages de la SM MALDI-TOF pour des investigations médicolégales L’analyse de polymorphismes ponctuels de l’ADN par extension d’amorces et spectrométrie de masse MALDI-TOF s’avère précise, fiable, sensible, spécifique, rapide, et peu coûteuse. En effet, contrairement à d’autres méthodes de typage des SNP, qui identifient les produits de la discrimination allélique en mesurant la fluorescence émise par des molécules marquées, la spectrométrie de masse MALDI-TOF mesure la masse moléculaire des produits de la réaction d’extension d’amorces. Il s’agit donc d’une méthode de détection directe d’une propriété intrinsèque des molécules analysées : le rapport de leur masse sur leur charge. Technologie appliquée Utilisation des SNP pour l’identification humaine NOTE 2 Notons qu’en France cette application n’est pas possible pour des raisons éthiques. Cette caractéristique fiabilise les résultats, moins sujets à des variations liées aux conditions réactionnelles, et abaisse le coût de l’analyse du fait de l’absence de fluorochromes. L’analyse est rapide : la génération actuelle des instruments MALDI est susceptible d’enregistrer un spectre en moins d’une seconde. La capacité de multiplexage est plus élevée que celle offerte par la plupart des autres méthodes d’analyse et ce grâce à une fenêtre de détection de masses très large. V - Limites de la SM MALDI-TOF pour des investigations médico-légales Pour autant, cette technique présente également des limites, la première étant liée à son implantation peu aisée dans les laboratoires d’identification génétique. En effet, le coût d’une analyse inclut l’investissement consacré à l’équipement qui reste très élevé. La plupart des laboratoires d’investigation génétique sont équipés de séquenceurs automatiques et privilégient des techniques de typage des SNP utilisant cet appareillage (e.g. SNaPshot). Une deuxième limite des SNP concerne l’analyse de mélanges d’ADN. Même si la technique MALDITOF est une technique a priori quantitative, notre expérience démontre qu’il est très difficile d’établir le nombre ainsi que les génotypes des individus à l’origine d’un mélange. La troisième limitation intéresse le multiplexage : plus il est important, plus la sensibilité de la technique diminue. Autre limitation et non des moindres : les contaminations par de l’ADN exogène à l’échantillon à analyser ne peuvent être détectés ce qui réduit considérablement la fiabilité de l’analyse. Notons également que l’approche statistique utilisée pour interpréter les résultats d’un typage SNP est loin d’être validée, notamment dans les tests de paternité (6). Enfin, il faut bien remarquer que la conversion d’un système bien en place (empreintes ou profils génétiques par l’analyse de STR) vers un système peu standardisé (celui des SNP) n’est pas sans impliquer d’importants écueils, parmi lesquels l’abandon de fichiers d’empreintes génétiques laborieusement constitués depuis quelques années (e.g ; Fichier National Automatisé des Empreintes Génétiques ou FNAEG) et leur reconstruction de novo. VI- Conclusion La combinaison technologique retenue par notre équipe pour améliorer les possibilités d’étude du polymorphisme génétique des individus concurrence la majorité des autres méthodes en termes de robustesse, précision, reproductibilité, sensibilité et rapidité. Cela étant, il apparaît clairement aujourd’hui que le remplacement des STR par des SNP pour l’identification génétique n’est pas envisageable dans un futur proche et ce compte tenu des limites apparues lors de la mise en place de stratégies d’analyse basée sur les SNP. Si les SNP sont loin de supplanter les STR dans le domaine de l’investigation génétique, il ne fait aucun doute néanmoins de leur utilité pour compléter les systèmes actuellement utilisés pour des identifications dans le cadre de catastrophe de masse (7) ou pour estimer l’origine ethnique d’un individu à l’origine d’une trace biologique (domaine criminalistique) (Note 2) ou retrouvé dans une sépulture ancienne (domaine anthropologique). Ces dernières applications intéressent l’ADN mitochondrial et le chromosome Y et se révèlent extrêmement prometteuses (8, 9). BIBLIOGRAPHIE (1) GILL P. An assessment of the utility of single nucleotide polymorphisms (SNPs) for forensic purposes. International Journal of Legal Medecine, 2001,114(45), 204-210. (6) AMORIM A., PEREIRA L., Pros and cons in the use of SNPs in forensic kinship investigation : a comparative analysis with STRs, Forensic Science International, 2005, 150, 17-21. (2) CHEN X., SULLIVAN P.F., Single nucleotide polymorphism genotyping : biochemistry, protocol, cost and throughput, The pharmacogenomics Journal, 2003, 3, 77-96. (7) BUDOWLE B., BIEBER F.R., EISENBERG A.J., Forensic aspects of mass disasters : strategic considerations for DNA-based human identification, Legal Medecine (Tokyo), 2005, 7, 230-243. (3) SOBRINO B., BRION M., Carracedo A., SNPs in forensic genetics: a review on SNP typing methodologies, Forensic Science International, 2005, 154, 181-194. (8) QUINTÁNS B., ÁLVAREZ-IGLESIAS V., SALAS A. et al., Typing of mitochondrial DNA coding region SNPs of forensic and anthropological interest using SNaPshot minisequencing. Forensic Science International, 2004, 140, 251-257. (4) PETKOVSKI E., KEYSER-TRACQUI C., HIENNE R. et al., SNPs and MALDI-TOF MS : Tools for DNA typing in forensic paternity testing and anthropology, Journal of Forensic Science, 2005, 50, 535-541. (5) PETKOVSKI E., KEYSER-TRACQUI C., STRUB J.M. et al., A set of 51 biallelic markers for human identification and filiation in French people, Journal of Forensic Science (soumis). (9) BRIÓN M., SANCHEZ J.J., BALOGH K., THACKER C. et al., Introduction of an single nucleotide polymorphism-based “Major Y-chromosome haplogroup typing kit” suitable for predicting the geographical origin of male lineages, Electrophoresis, 2005, 26, 4411-4420. SPECTRA ANALYSE n° 249 • Avril - mai 2006 29