TP1 Site NCBI : http://www.ncbi.nlm.nih.gov/ Vous venez d'isoler une séquence d'ADN (disponible dans le fichier sequenceA.fasta). Le but de ce TP est d’en connaître plus sur l'identité du gène correspondant et de la protéine. A partir des notions vues hier durant le cours et aujourd’hui lors du laïus, vous devez choisir et utiliser les algorithmes appropriés pour caractériser cette séquence. Tous les algorithmes nécessaires sont accessibles sur le site NCBI (http://www.ncbi.nlm.nih.gov). Questions 1- (2 points) Vous voulez d’abord comparer votre séquence inconnue (sequenceA.fasta) à l’ensemble des séquences contenues dans la génothèque d’ADNc (correspondant aux ARNm). Suite à votre analyse, répondez aux questions suivantes : 1.1- Quel algorithme et quelle génothèque allez-vous utiliser? 1.2- De quelle espèce animale est issue votre séquence? 1.3- Quelle est le nom du gène? 1.4- Votre séquence inconnue correspond-elle à un ADNc (ARNm) complet? Expliquer clairement. 1.5- L’ARNm (ADNc) correspondant à cette séquence inconnue code-il pour une protéine? Si oui, a) Identifier un ADNc complet et donner son numéro d’accession b) Indiquer la position des nucléotides au début et à la fin de la protéine prédite. c) Quels sont les premiers et derniers acides aminés de la protéine prédite? Si non, expliquez pourquoi et comment vous en arrivez à cette conclusion. 1.6- Un ARNm (ADNc) similaire est-t-il retrouvé chez d’autres espèces animales ? Si oui, à partir de votre séquence A inconnue, identifiez 1 espèce qui montre une homologie avec votre séquence. Précisez a) le numéro d’accession de la séquence homologue, b) le nombre de nucléotides total de l’ADNc homologue, c) le pourcentage d’identité d) le nombre de nucléotides comparés e) le nombre de nucléotides identiques qui sont inclus dans la comparaison. Si non, expliquez comment vous en arrivez à cette conclusion. 1.7- Un scientifique portugais qui a entendu parler de vos travaux vous fait parvenir la séquence B et vous demande de vérifier s’il travaille sur le même gène que vous ou non. Comparer les 2 séquences. a) Quel algorithme avez-vous utilisé pour répondre à la question? b) c) Quel est le pourcentage d’identité entre les 2 séquences ? d) Basée sur ces résultats, quelle hypothèse pouvez-vous fournir quant à l’identité des 2 séquences ? 2- (2 points) Vous analysez ensuite l’organisation génomique du gène que vous avez identifié (en tenant compte de vos résultats de la section 1). Pour répondre aux prochaines questions, utilisez la séquence d’un ADNc complet (voir section 1.5a). 2.1- Quel algorithme et quelle génothèque vous permettront d’analyser l’organisation génomique de votre séquence? 2.2- Combien de clones ont été retrouvés dans la génothèque? 2.3- Sur quel chromosome est portée la séquence? 2.4- Quel est le nombre d’exons de ce gène? 2.5- Cliquez sur l’icône « Map viewer » situé en haut à droite des comparaisons de séquence. Identifiez les numéros des nucléotides au début et à la fin de l’exon 3 (numérotation par rapport à la séquence de l’ADNc utilisé). 2.6- A partir de « Map viewer », indiquez le pourcentage d’identité entre votre séquence et celle de l’exon 9. 3- (1 point) Finalement, vous voulez connaître les fonctions connues de cette protéine et son lien potentiel avec des maladies. Suite à votre analyse, répondez aux questions suivantes : A quelle(s) maladie(s) pourrai(en)t être associé ce gène? Définissez une fonction de la protéine encodée par ce gène chez l’humain. Quel algorithme avez-vous utilisé? Sequence A 721 agcccacatg ctcttatact 781 gagaaatgaa caagatttca 841 tgaacagttt atggtgctaa 901 tattcagcaa aggatacctg 961 cacatttcat gctttctgga 1021 atttgctgaa taggaaaaaa 1081 tggaaaactg ggatcgaagc 1141 tgaaaatgag ccctaccttc 1201 caataattca atacaaagga 1261 aaacacccat taccatttgt ttaattgaca tgcactttcg aagtctgcgc accaagttgt gaagccagta aacaactgga gagttcaagg cagcttgcct atcgtacgag aagatctgat gggtctagct attggtactc gctagaaaag tacctggggt cactgctatt gatttagatg atttatggag aggatcaaga tgcagtcaaa aaggctagaa gatgtcatac aagttccacg aaatttagta ggcaaagtaa attcaagaga ttgtggacaa gtcaggagtt gtgagggtga aaaagtgtcc cacaagaaga ggaaaatttg ccaccaagtt agggttggat ctaattcctc tgaagaaaag aaacatttag ttttctcaac ctaacagtac aaaagtccag agggggatgg Sequence B 1021 ttatggagag ttgctgaaga 1081 tgtaatacaa gaaagctgat 1141 tcaggagatt aaaatgagaa 1201 aaatgttcca ataattcaag 1261 ggttggacct acagcaccca 1321 tttttctcaa tttttgtggg 1381 aacaaaggac actatttaaa gatcaggatg cagtgaaaaa agctagaagc tttctcgaat gttccaagga acttagtagg caaagtaata ggaaaaaatg gtggacaagt caggagttgt gagggtgagg attgaggctg caagaagagg aaattatgcc accaaattcc cttccttcca aatgccccag aagaaaaaaa acatttagat ataaaggaaa cctaacagta caaaagtcca gaggggtatg gtaccatttg agcatcgcta atgccactgt tcttttggat tatcacctga