Listed’exercices3i019 Biologiemoléculaire 1. Définissezcequ’estungénome. 2. Expliquerlesdifférencesentrelesmoléculesd’ADNetd'ARN. 3. Expliquerleprocessusderéplicationdel’ADN. 4. Expliquerleprocessusdetranscriptiondel’ADN. 5. Expliquerlemécanismedeproductiondesprotéines. 6. Quelssontlesdifférentstypesd’ARN,expliquerleursrôles. 7. Surunbrind’unemoléculed’ADN,laséquencedesnucléotidesestCCGTAC.Quelleestla séquencedesnucléotidesquis’associentàcebrinlorsdelaréplication?Lorsdela transcription? Lesgènesetleursfonctions 1. Qu’est-cequel’annotationdegènes? 2. Quellessontlesdifférencesentrelesgènesprocaryoteseteucaryotes? 3. Quelssontlesproblèmesrencontrésparlesoutilsd’annotationdegènesdanslesgénomes procaryotes?Danslesgénomeseucaryotes? 4. Voiciunfragmentd'ADNcontenantledébutdelaséquencecodanted’ungène AATGAAACGCATTAGCACC… TTACTTTGCGTAAGCGTGG… a. Identifiezledébutdelaphasecodantedugène. b. Ecrivezlaséquencenucléotidiquedufragmentd'ARNmcodantpourledébutdela protéine. c. Déduisez-enlaséquencedelaprotéinecorrespondante.Utilisezlecodegénétiqueen annexe. d. Onaisoléuneprotéinemutantedanslaquellelapremièresérineestremplacéepar unearginine. Quellesmutationsnucléotidiquespourraientexpliquercechangementd'acide aminé? e. Dansunepathologie,ontrouveuneformeécourtéedelaprotéine:seulslestrois premiersacidesaminéssontprésents.Quellemutationnucléotidiqueaeulieu? 5. Calculerlemodèlede"background"(compositionennucléotides)pourlaséquenced’ADN acctgcactg. 6. Etantdonnéundictionnairecontenantlaprobabilitéd'apparitiondechaquecodon,par exemple:codons = {‘TTT’ : 0.001, ‘TTC’ :0.002, …}etuneséquencedecodons sousformedelisteS=(‘TTT‘, ‘TCA’, TGA‘, …),donnezlecodepythonquicalculela probabilitépdeSétantdonnélemodèledecodons(p=P(S=c0c1...cN|codons)) 7. Lespromoteurssontdesséquencesd’ADN,généralementenamontdudébutdugèneet responsabledesarégulation.Ilyahabituellementdesvariationsdanslacompositiondela séquencedusitepromoteur(engénéraldessubstitutions). Desexpériencesbiologiquesontpermisdedéterminerlesséquencesdepromoteurssuivantes: acgact acgtga agcccc acgtca tcgtct acgtca acgtca accgca tggtca acctct a. CalculezlamatricedesfréquencesdenucléotidesparpositionFij(i:indicede nucléotide,j:indicedeposition).Rajoutezdespseudo-comptages. b. Calculezlamatricedescoreparposition,wij=log2(Fij/pi),oùpiestlaprobabilitédu nucléotideiaveclemodèledebackground 8. Supposonsqu'unebactérieestatteinteparunvirusquiaffectelamachineriedela réplicationaléatoirementenchangeantlamanièredontchaquenucléotideestrecopié: chaqueApeutêtrerépliquécomme3A,chaqueCpeutêtrerépliquécomme4C,chaqueG peutêtrerépliquécomme4G,etchaqueTpeutêtrerépliquécomme3T. a. Donnezunalgorithme(pythonoupseudo-code)qui,pourdeuxséquencesuetv déterminesiupeutêtreuneversioninfectéedev. b. Donnezunalgorithme(pythonoupseudo-code)quiétantdonnéuneséquenceSdela bactérieetundictionnairedonnantlaprobabilitéderéplicationdechaque nucléotides,produiraaléatoirementuneséquenceinfectée. Parexemple,siS=ACCTGetP={‘A’:0.2,‘C’: 0.5,‘G’: 0.3,‘T’: 0.1},la premièrelettre(unA)a20%dechanced'êtrerépliquécomme3A,laseconde(unC), 50%dechancesdedevenir4C,etc. c. Levirusamuté,etenplusderajouterdescopiesmultiplesd'unepositionpendantla réplication,ilestégalementpossiblequelenucléotidenesoitpasrecopié, provoquantunedélétion.Modifiezl'algorithmedequestion“a”pourprendreen comptecenouveauphénomène.Ondiraparexemplequechaquenucléotidea2%de chancesdenepasêtrerecopié. Alignementparpaire 1) Alignerglobalementlesdeuxséquencessuivantes:U=ACGCCATetV=GCCCTA,en appliquantlesystèmedescoressuivant:Match=2,Mismatch=-1,GAP=-3.Apartirdela matriceconstruite,endéduirelescoredel'alignementglobaloptimal,extraireun alignementoptimal,etcalculerlenombred'alignementsquiontcescoreoptimal. 2) Onapartiellementremplilamatricedeprogrammationdynamiquecorrespondantàun algorithmed'alignementdeséquencesd'ADN;lavoici: a. Queltyped'alignement2à2est-onentrainderéaliser? b. Pourremplircettematrice,quelcoûtaétéutilisépourles«Gaps»?pourles«Match»?pourles «Mismatch»(lecoûtdes«Mismatch»estindépendantducoupledenucléotidesconsidérés)? c. Terminezleremplissagedelagrille. d. Proposezunalignementoptimalpossible. 3) L'algorithmed'alignementglobaldesdeuxséquencesCACGTetAGTdonnelatablede programmationdynamiquesuivante: a) Pour remplir cette matrice, quel coût a été utilisé pour les « Gaps » ? pour les « Match » ? pour les « Mismatch » (le coût des « Mismatch » estindépendantducoupledenucléotidesconsidérés)? b) Proposez un alignement optimal possible. 4) Voicil'alignementobtenupourdeuxséquences: CGTTAACG---ACTGTCT CG-TATCGGCCACTATCT Calculezlescoredecetalignementdanslescassuivants: a)Match=2,Mismatch=-1,GAP=-2 b)Commepoura),maisavecunscoredegapaffine(ouverture=-3,extension=-1) c)Commepourb)maisaveclamatricedesimilaritésuivante: BLAST 1)Lafigure1représentelesrésultatsd'unerecherchedesimilaritéeffectuéeaumoyendel'outil BLAST,pouridentifierdanslegénomehumainlesrégionscodantpourl'enzymeacylphosphatase. a) Quelleestlalongueurdelaséquencerequête(précisezl'unité)? b) QuellemodalitédeBLASTaétéutiliséeetpourquoi? c) CommentinterpréterlesE-valeursrespectivesdesdeuxhitsdelafigure1b?Quelestle meilleurhit? d) Dansquellephaseleshitssont-t-ilstrouvés? e) Expliquerpourquoidansledeuxièmehitlavaleurdepositivitéestsupérieureàlavaleur d'identité. 2) On considère les deux séquences d’ADN : ATTCATTCATTCATTCATTCATTCATTCATTC et ATTGATTGATTGATTGATTGATTGATTGATTG. Quel est, à première vue, leur pourcentage d’identité? Quand on fait un alignement avec l’algorithme de BLAST (avec une taille de mot de 4), aucune similarité n’est trouvée. Pourquoi? 3) Donner le code en python ou pseudo code pour générer la base de données de BLAST. Votre fonction aura la signature db(sequences, w), où sequences est un dictionnaire de séquences et w est la taille de mot. Exemple: sequence = {‘s1’: ‘acgta’, ‘s2’: ‘aacgta’, ‘s3’: ‘acggta’} et w=3, votre fonction doit renvoyer. {acg : [(s1,1), (s2,2), (s3,1)], cgt : [(s1,2), (s2,3)], gta : [(s1,3), (s2,4), (s3,4)], aac:[(s2,1)], cgg:[(s3,2)], ggt:[(s3,3)]} 4) Montrez comment la séquence cgtca sera alignée par BLAST en utilisant les séquences et la base de donnée indexée de la question précédente. Université d'Aix-Marseille Bioinformatique appliquée (BI4U2) Examen 25 juin 2013 Figure 1a: en-tête du résultat de BLAST Figure 1b: sélection d'alignements retournés par BLAST AlignementsMultiples 1) Score d’un alignement multiple. a) Donnez le score de l’alignement multiple global ci dessous selon la méthode de la somme des paires en considérant le système de scores suivant : score(x,x) = +1, score(x,y) = -1, score(x,-) = score(-,x) = -2, score(-,-) = 0 ACTATGTG A-T--GTG A-TT-GTG Page 3 sur 6 b) Est-ce le meilleur alignement global que l’on pouvait obtenir ? Justifiez votre réponse. 2)Donnezlescoredel’alignementmultipleglobalcidessouscalculéselonlaméthodedelasomme despairesenutilisantlamatricedesubstitutionBLOSUM62(donnéeenannexe). NNNIV NNNIV NNN−V NNCIV NCCIV 3)Soitlesalignementsparpaires VEDLIRY VEDLRRY PNELRRY VEDLIRY BNKAALIRF VED--LIRY AEDL-RF VEDLIRY Nousvoudrionsutiliserl’algorithmestarpourobtenirl’alignementmultiple: a) Quelleestlaséquenceguideàutiliser? b) Donnerl’alignementmultipleobtenuparstar 4)SoitunalignementmultipledeséquencesprotéiquesreprésentéenPythonparunelistede chainesdecaractères.Parexemple: almult = ["AHS--LKATL", "L-SW-AA--L", "AHI--LKATL", "LHS--FT--L"]. Dansunalignementmultiple,unesous-partiedel'alignementou"bloc",estconsidéréecomme conservéesiplusde70%desséquencesprésententlemêmeacideaminéàchacunedespositions dubloc(unblocpeutêtreunecolonneunique).Dansl'exempleprécédent,laleucine(L)en dernièrepositionestconservéedanstouteslesséquences,tandisquel'histidine(H)etlasérine(S), respectivementen2deet3èmepositionssontconservéesà75%.Ilyadonc2blocsconservés,dont lespositionsdansl'alignementsont:2-3et10-10(lesgapssontdoncconsidéréscommeun caractère). a) Sionreprésenteunalignementmultipleparunelistenomméelseqdenchaînesde caractères,donnerl'algorithme(enPythonouenpseudo-code)quipermetd'imprimerles positionsdedébutetdefindesblocsconservésdansl'alignement. b) Quelle(s)modification(s)faut-ilapporteràl'algorithmesiilnefautimprimerqueles positionsdesblocsayantunetailleminimaledekcolonnescontiguës? c) Commentmodifierl'algorithmepourimprimerlespositionsdesblocsnonpasconservés, maisdontlescolonnesprésententaumoinsmacidesaminésdifférents(ycomprisgaps, 1<m<=20) e ClustalW (2) 22 5)Apartirduschémasuivantexpliquerlesétapesdesalgorithmesditd'alignementprogressif. Université d'Aix-Marseille Bioinformatique appliquée (BI4U2) Examen 25 juin 2013 e. Pour des raisons indépendantes de l'analyse de séquences, on suppose que l'ornithorynque possède un gène ACYP1 fonctionnel, qui n'a apparemment pas encore été documenté dans notre base de données de séquences. Indiquez une position vraisemblable pour ce gène sur la Phylogénies. Figure 3. Justifiez votre réponse. (1 point) Ornithorynque ACYP2 Cochon ACYP2 Cochon ACYP1 Chimpanzé ACYP2 Chimpanzé ACYP1 Homme ACYP2 Homme ACYP1 1) RemplissezlaTableci-dessousenindiquant,pourchaquepairedeséquences,letype hypothèse où lad’homologie(O=Orthologie;P=Paralogie;I=Identité) séquence requête est nucléique, et donc comparée contre f. Remplissez la Table ci-dessous en indiquant, pour chaque paire de séquences, le type s séquences de la banque, mais également contre toutes les séquences d’homologie (O=Orthologie ; P=Paralogie ; I=Identité). (1 point) entaires inversées de cette même banque, quel bit-score devrait-on attendre gnement pour que sa E-valeur soir inférieure à 10 - 6 ? 4 : Phy logénies. c) Dans l’hypothèse où la séquence requête est nucléique, et donc comparée contre Homme ACYP1 toutes les séquences de la banque, mais également contre toutes les séquences A: Homme ACYP2 complémentaires inversées de cette même banque, quel bit-score devrait-on attendre ez l’algorithme UPGMA sur la matrice de distances suivante : Chimpanzé ACYP1 de cet alignement pour que sa E-valeur soir inférieure à 10 - 6 ? Chimpanzé ACYP2 B C D Cochon ACYP1 -------- Cochon ACYP2 rci ce 4 : Phy logénies. 1 5 8 Exe Ornithorynque ACYP2 2 4 6 Q1) UPGMA : 2) Déroulezl’algorithmeUPGMAsurlamatricededistancessuivante: a) Déroulez l’algorithme UPGMA sur la matrice de distances suivante : e obtenu reflète t’il la matrice de distances originale ? Expliquez en à la fois | A B etC théorique D pratique (mutations) due à l’algorithme UPGMA. ---+-----------A | 1 5 8 B | 2 4 C | 6 b) 3) L’arbre obtenu reflète t’il la matrice de distances originale ? Expliquez en à la fois Lequeldecesdeuxarbresprovientd’uneméthodeUPGMA?Expliquez. deux arbres : la raison pratique (mutations) et théorique due à l’algorithme UPGMA. Page 6 sur 6 A Q2) Voici deux arbres : B de ces deux4)arbres provient d’une méthode UPGMA ? Expliquez. Quelestlenombrepossibled'arbresenracinésavec3espèces?avec4espèces? z la matrice de distances respectant l’arbre obtenu par UPGMA et illustrez la Montrerque,siCnde estlenombred'arbresenracinéspossibleavecnespèces,ona nécessaire au bona. fonctionnement UPGMA. vous, quelle méthode C de distances peut permettre d’obtenir l’autre arbre ? 1=1etCn=(2n-3)Cn-1. t la propriété à respecter pour cette A autre méthode ? B b. DéduisezenlaformulegénéralepourCn=(2n-3)!/2n-2(n-2)! est le rôle des modèles de Jukes-Cantor ou Kimura ? Proposez un exemple a) Lequel de ces deux arbres provient d’une méthode UPGMA ? Expliquez. i justifie leur utilisation (on ne vous demande pas ici de les utiliser, mais de b) Donnez la matrice de distances respectant l’arbre obtenu par UPGMA et illustrez la dans quel contexte ils servent). propriété nécessaire au bon fonctionnement de UPGMA. c) Selon vous, quelle méthode de distances peut permettre d’obtenir l’autre arbre ? Quelle est la propriété à respecter pour cette autre méthode ? hfak.uni-bielefeld.de/gi/Teaching/2015winter/Phylogenetik ercise List 4 — 10.11.2015 Due to: 17.11.2015 c. Supposonsquel'onpuissecalculerlescored'unmillionsd'arbresenuneseconde. – Fitch-algorithm. (3 Points) Combiendetempscelaprendrait-ild'évaluerlescoredetouslesarbresavec10 espèces?avec15espèces? nal work of Walter M. Fitch: “Towards Defining the Course of Evolution: Tree Topology”, publiziert in dem Journal “Systematic Zoology”. You 5) Reconstructiondescaractèresancestraux.Soitl'arbresuivant: nline: http://www.jstor.org/stable/2412116. on the tree on the right. Write rsimony-cost that can be found y for each internal node the set l work of Walter M. Fitch (1971) in the lecture. You can apply an extra hase such that the top-down phase will find all optimal labels. a. Reconstruisezlesséquencesancestralesparparcimonieenutilisantl'algorithmede h the set S for the tree above (the corresponding page is printed on the solutions that weren’tSankoff,avecuncoûtde1pourtouteslessubstitutions. found in task (a)? Indicate such a solution and b. Refaitesmaintenantl'algorithmeenprenantcettefoisuncoûtde1pourles transitionsetuncoûtde2pourlestransversions(voircidessous). – Sanko↵-Algorithm. th unit costs) on the tree from exerost parimonious label for the internal u, a) for each internal node (figure at ren’t found in task 1(a). y trees. (3 Points) 1 Bonus Point: Repeat the exercise with the following cost function: cost A C G T A 0 2 1 2 C 2 0 2 1 G 1 2 0 2 T 2 1 2 0 (3 Points) ssful bioinformatician in his time, wants to find a most parsimonious l possible unrooted trees and calculating the parsimony cost for each .000 trees in one second with his implementation of the Fitch-Algorithm. old does Conni have to become, if he wants to get the result for a dataset ing cluster for christmas. He is now able to calculate 1012 = second with one terahertz and one calculation per clock. Our universe ears old. If Conni would have started his program on this computing w many leaves could have been processed at most until today? Qn he formula Un = i=3 (2i 5) to n. Just calculated Un for growing n onders.) Annexes.