Telechargé par khadidja didij

uniprotKB

publicité
La banque UniprotKB et
le logiciel Blast
UniProtKB
• Disponible depuis n’importe quel navigateur web
Un exemple de recherche de protéine
Histoire d’UniProtKB
1986 : SwissProt
+
Institut Européen
de Bioinformatique
2002 : UniProtKB
Protein
Information
Ressource
Organisation de la banque de données
45 000 000 protéines
• Données entrées à la main
• Résultats vérifiés, issus d’articles
scientifiques, références systématiques.
• 541000 protéines, +600/mois
• Données entrées automatiquement,
par analyse informatique de génomes
• Résultats parfois peu fiables
(identification des séquences codantes
automatiques et déductions des
fonctions par comparaison aux
protéines connues)
• 44 500 000 protéines, +2M le mois
Evolution du nombre de protéines de
la banque Tr-EMBL
Comment identifier automatiquement
une protéine ?
4 types de preuves :
–
–
–
–
au niveau protéique
0.05%
au niveau transcriptionnel
2%
déduction par homologie
23%
Prédiction par analyse de séquence
75%
Comment identifier automatiquement
une protéine ?
La prédiction par analyse de séquence
Identification des CDS (CoDing Sequence) et non des ORF (Open Reading Frame)
• Trouver le cadre de lecture : zone pauvre en codons stop
• Identifier les séquences proches de séquences connues
• Chez les eucaryotes : le problème des introns/exons -> reconnaissance
statistique
Quelques exemples d’utilisation
Le logiciel BLAST
Basic Alignment Search Tool
Principales utilisations de ces outils
• C’est avant tout une mine d’informations sur
les protéines !
• Pour l’identification d’une nouvelle protéine :
travail préliminaire de comparaison aux
protéines connues
• Etude de mécanismes d’évolution
• Travail statistique général sur les protéines
Statistiques générales
Composition en acides aminés
Taille des séquences
5.1 Composition in percent for the
complete database
Ala (A) 8.66
Ser (S) 6.55
Lys (K) 5.33
Gly (G) 7.08
Asp (D) 5.34
Tyr (Y) 3.08
Pro (P) 4.56
Glx (Z) 0
Gln (Q) 3.99
Arg (R) 5.35
Thr (T) 5.55
Met (M)2.49
His (H) 2.19
Cys (C) 1.19
Val (V) 6.80
Xaa (X) 0.02
Leu (L) 9.96
Glu (E) 6.22
Asn (N) 4.11
Trp (W) 1.28
Phe (F) 4.05
Ile (I) 6.10
Asx (B) 0.000
Conclusion
Téléchargement