TP1 Site NCBI : http://www.ncbi.nlm.nih.gov/ Vous venez d`isoler une

publicité
TP1
Site NCBI : http://www.ncbi.nlm.nih.gov/
Vous venez d'isoler une séquence d'ADN (disponible dans le fichier sequenceA.fasta). Le
but de ce TP est d’en connaître plus sur l'identité du gène correspondant et de la protéine.
A partir des notions vues hier durant le cours et aujourd’hui lors du laïus, vous devez
choisir et utiliser les algorithmes appropriés pour caractériser cette séquence. Tous les
algorithmes nécessaires sont accessibles sur le site NCBI (http://www.ncbi.nlm.nih.gov).
Questions
1- (2 points) Vous voulez d’abord comparer votre séquence inconnue (sequenceA.fasta)
à l’ensemble des séquences contenues dans la génothèque d’ADNc (correspondant aux
ARNm). Suite à votre analyse, répondez aux questions suivantes :
1.1- Quel algorithme et quelle génothèque allez-vous utiliser?
1.2- De quelle espèce animale est issue votre séquence?
1.3- Quelle est le nom du gène?
1.4- Votre séquence inconnue correspond-elle à un ADNc (ARNm) complet?
Expliquer clairement.
1.5- L’ARNm (ADNc) correspondant à cette séquence inconnue code-il pour une
protéine?
Si oui,
a) Identifier un ADNc complet et donner son numéro d’accession
b) Indiquer la position des nucléotides au début et à la fin de la protéine
prédite.
c) Quels sont les premiers et derniers acides aminés de la protéine
prédite?
Si non, expliquez pourquoi et comment vous en arrivez à cette conclusion.
1.6- Un ARNm (ADNc) similaire est-t-il retrouvé chez d’autres espèces
animales ?
Si oui, à partir de votre séquence A inconnue, identifiez 1 espèce qui montre une
homologie avec votre séquence. Précisez
a) le numéro d’accession de la séquence homologue,
b) le nombre de nucléotides total de l’ADNc homologue,
c) le pourcentage d’identité
d) le nombre de nucléotides comparés
e) le nombre de nucléotides identiques qui sont inclus dans la
comparaison.
Si non, expliquez comment vous en arrivez à cette conclusion.
1.7- Un scientifique portugais qui a entendu parler de vos travaux vous fait
parvenir la séquence B et vous demande de vérifier s’il travaille sur le même gène
que vous ou non.
Comparer les 2 séquences.
a) Quel algorithme avez-vous utilisé pour répondre à la question?
b)
c) Quel est le pourcentage d’identité entre les 2 séquences ?
d) Basée sur ces résultats, quelle hypothèse pouvez-vous fournir quant à
l’identité des 2 séquences ?
2- (2 points) Vous analysez ensuite l’organisation génomique du gène que vous avez
identifié (en tenant compte de vos résultats de la section 1). Pour répondre aux prochaines
questions, utilisez la séquence d’un ADNc complet (voir section 1.5a).
2.1- Quel algorithme et quelle génothèque vous permettront d’analyser
l’organisation génomique de votre séquence?
2.2- Combien de clones ont été retrouvés dans la génothèque?
2.3- Sur quel chromosome est portée la séquence?
2.4- Quel est le nombre d’exons de ce gène?
2.5- Cliquez sur l’icône « Map viewer » situé en haut à droite des comparaisons
de séquence. Identifiez les numéros des nucléotides au début et à la fin de l’exon 3
(numérotation par rapport à la séquence de l’ADNc utilisé).
2.6- A partir de « Map viewer », indiquez le pourcentage d’identité entre votre
séquence et celle de l’exon 9.
3- (1 point) Finalement, vous voulez connaître les fonctions connues de cette protéine et
son lien potentiel avec des maladies. Suite à votre analyse, répondez aux questions
suivantes :
A quelle(s) maladie(s) pourrai(en)t être associé ce gène? Définissez une fonction
de la protéine encodée par ce gène chez l’humain. Quel algorithme avez-vous
utilisé?
Sequence A
721 agcccacatg
ctcttatact
781 gagaaatgaa
caagatttca
841 tgaacagttt
atggtgctaa
901 tattcagcaa
aggatacctg
961 cacatttcat
gctttctgga
1021 atttgctgaa
taggaaaaaa
1081 tggaaaactg
ggatcgaagc
1141 tgaaaatgag
ccctaccttc
1201 caataattca
atacaaagga
1261 aaacacccat
taccatttgt
ttaattgaca tgcactttcg aagtctgcgc accaagttgt
gaagccagta aacaactgga gagttcaagg cagcttgcct
atcgtacgag aagatctgat gggtctagct attggtactc
gctagaaaag tacctggggt cactgctatt gatttagatg
atttatggag aggatcaaga tgcagtcaaa aaggctagaa
gatgtcatac aagttccacg aaatttagta ggcaaagtaa
attcaagaga ttgtggacaa gtcaggagtt gtgagggtga
aaaagtgtcc cacaagaaga ggaaaatttg ccaccaagtt
agggttggat ctaattcctc tgaagaaaag aaacatttag
ttttctcaac ctaacagtac aaaagtccag agggggatgg
Sequence B
1021 ttatggagag
ttgctgaaga
1081 tgtaatacaa
gaaagctgat
1141 tcaggagatt
aaaatgagaa
1201 aaatgttcca
ataattcaag
1261 ggttggacct
acagcaccca
1321 tttttctcaa
tttttgtggg
1381 aacaaaggac
actatttaaa
gatcaggatg cagtgaaaaa agctagaagc tttctcgaat
gttccaagga acttagtagg caaagtaata ggaaaaaatg
gtggacaagt caggagttgt gagggtgagg attgaggctg
caagaagagg aaattatgcc accaaattcc cttccttcca
aatgccccag aagaaaaaaa acatttagat ataaaggaaa
cctaacagta caaaagtcca gaggggtatg gtaccatttg
agcatcgcta atgccactgt tcttttggat tatcacctga
Téléchargement