BMC 407 - Structure et Fonction des Génomes Examen 2ème session 2012/2013 Sujet proposé par Frédéric Devaux et Dominique Higuet (Durée 3 heures) Soyez bref et concis : Il sera tenu compte de la présentation et de la qualité rédactionnelle. Lisez l’ensemble du texte avant de commencer à rédiger. Sans support, ni document, ni calculatrice. Téléphones portables éteints et rangés dans les sacs. L’examen se compose de 2 exercices indépendants. Chaque partie doit être traitée sur une copie séparée ! EXERCICE 1 : Clustering, groupes de co-expression et évolution des génomes Des chercheurs ont effectué des analyses de transcriptome dans plus d’une centaine de conditions physiologiques différentes chez deux espèces de levure : l’espèce modèle Saccharomyces cerevisiae et l’espèce pathogène Candida albicans. Ils ont ainsi obtenu des profils d’expression pour tous les gènes de ces deux espèces. Après filtrage des profils invariants, ils ont calculé les distances de corrélation entre tous les profils deux à deux et ont classé les gènes en fonction de ces distances. A partir des classifications obtenues, les chercheurs ont défini dans chaque espèce 4 groupes de gènes fortement co-exprimés. La figure 1 représente les matrices de distances de corrélation obtenues après classification pour ces 4 groupes de gènes dans chacune des deux espèces. Q1 : Qu’est ce qu’une matrice de distance ? Qu’est ce qu’une distance de corrélation ? Que représente une distance de corrélation de 0 ? De 1 ? De 2 ? Q2 : Rappelez le principe de la classification des gènes en fonction de leurs profils d’expression, en détaillant le principe de l’une (et une seule !) des méthodes vues en cours et en TD. Les chercheurs ont mené des analyses de type « Gene Ontology » sur chacun des 4 groupes dans chacune des espèces. Les résultats obtenus sont détaillés dans le tableau 1. Q3 : Que signifient les valeurs P présentées dans le tableau ? Q4 : Présentez et interprétez les résultats du tableau 1. Qu’indique la comparaison des résultats obtenus pour S. cerevisiae et C. albicans ? BMC 407 - Structure et Fonction des Génomes Examen 2ème session 2012/2013 Q5 : A la lumière de ces résultats, présentez et commentez les matrices de distance de la figure 1. Quelle différence majeure y a-t-il entre S. cerevisiae et C. albicans ? Les chercheurs ont trouvé par analyse informatique une séquence enrichie dans les promoteurs de certains groupes de gènes. Il s’agit de la séquence AATTTT. La figure 2 présente la fréquence de cette séquence dans les promoteurs des gènes des différents groupes définis ci-dessus, dans les deux espèces étudiées. Q6 : Présentez et interprétez les résultats de cette figure. Quelle hypothèse pouvez vous émettre pour expliquer les observations faites à la question 5 ? La figure 3 présente une analyse de séquence identique à celle de la figure 2 mais menée sur tout l’arbre phylogénétique des levures. La flèche indique un évènement ancestral de duplication totale du génome chez l’ancêtre commun à une partie de ces espèces (celles dont les noms sont en jaune). Q7 : Commentez et interprétez la figure 3. La figure 4 représente le même arbre que la figure 3, sur lequel ont a indiqué les particularités métaboliques des différentes espèces. Les espèces en noir (rapid aerobic growth) utilisent la respiration et la glycolyse simultanément en présence de glucose et d’oxygène. Les espèces en rouge (rapid anaerobic growth) privilégient la glycolyse et la fermentation et inhibent la respiration en présence de glucose, même si de l’oxygène est disponible. Q8 : En prenant en compte toutes les informations à votre disposition, établissez un modèle simple qui fasse le lien entre les données obtenues dans cette étude, l’évolution des génomes de levure et l’évolution des capacités métaboliques de ces mêmes levures. Catégorie Saccharomyces cerevisiae Candida albicans Groupe 1 Groupe 2 Groupe 3 Groupe 4 Groupe 1 Groupe 2 Groupe 3 Groupe 4 -15 -2 -1 -1 -11 -1 -1 -1 -1 -1 -12 -1 -1 -1 -11 -1 -3 -9 -1 -1 -2 -8 -1 -1 -1 -1 -1 -5 -1 -1 -1 -4 Structural components of cytosolic ribosomes 2,5 x 10 5,2 x 10 9,2 x 10 6,4 x 10 3,2 x 10 2,7 x 10 1,5 x 10 4,4 x 10 Structural components of mitochondrial ribosomes 6,5 x 10 4,1 x 10 2,9 x 10 8,3 x 10 3,5 x 10 6,9 x 10 8,8 x 10 1,7 x 10 nuclear rRNA processing and cytosolic ribosome biogenesis 4,7 x 10 5,6 x 10 8,9 x 10 1,6 x 10 2,1 x 10 9,8 x 10 8,3 x 10 8,5 x 10 response to stress 3,7 x 10 1,2 x 10 3,2 x 10 7,3 x 10 9,0 x 10 4,2 x 10 7,5 x 10 1,4 x 10 Tableau 1 : Analyses Gene Ontology des groupes de la figure 1. Les catégories pour lesquelles une valeur significative a été trouvée dans au moins un des groupes sont indiquées dans la colonne de gauche. Les valeurs indiquées sont les valeurs P de chaque catégorie Gene Ontology pour chaque groupe. BMC 407 - Structure et Fonction des Génomes Examen 2ème session 2012/2013 Figure 1. Matrice des distances (corrélations) entre les profils des gènes deux à deux, après classification et pour chacune des deux espèces étudiées. L’échelle de couleur est fournie à droite de la figure. Les groupes issus de la classification de la matrice sont indiqués à gauche du graphe. Figure 2. Densité de motifs AATTTT dans les séquences en amont des ATG des différents groupes de gènes chez S. cerevisiae (à gauche) et C. albicans (à droite). En abscisse : la distance, en paires de base (bp), à partir de l’ATG des gènes de chaque catégorie (notée de –1 à –600). En ordonnée : le pourcentage de gènes de chaque groupe contenant un motif AATTTT pour une abscisse donnée. BMC 407 - Structure et Fonction des Génomes Examen 2ème session 2012/2013 Figure 3. Densité de motifs AATTTT dans les régions génomiques situées en amont des ATG des différents groupes de gènes définis en figure 1, pour plusieurs espèces de levures. Les espèces en noir n’ont pas connu de duplication totale du génome lors de leur évolution, les espèces en jaune si. Figure 4 : Arbre phylogénétique des levures sur lequel sont reportés l’évènement de duplication totale du génome et les préférences métaboliques des espèces. Rapid aerobic growth : le glucose induit respiration et glycolyse en parallèle. Rapid anaerobic growth : la présence de glucose induit glycolyse et fermentation mais inhibe la respiration. EXERCICE 2 : Génétique des Populations Chez la souris (Mus musculus domesticus), on recherche sur l’ensemble du génome des marques de sélection positive, sur un échantillon de 56 souris issues de 10 populations d’Europe de l’ouest. Q1 : Rappeler le principe de cette recherche. Différentes régions du génome sont ainsi identifiées. Parmi ces régions, une paraît particulièrement intéressante car elle correspond à un locus ayant subi des duplications en tandem successives créant ainsi une famille multigénique. Pour les 4 gènes de cette famille on étudie la séquence codante pour évaluer le rapport dN/dS sur l’ensemble de cet échantillon. dN étant le nombre de substitutions non synonymes/ le nombre de sites non synonymes, et dS étant le nombre de substitutions synonymes/ le nombre de sites synonymes. BMC 407 - Structure et Fonction des Génomes Examen 2ème session 2012/2013 Pour 3 de ces gènes on trouve un dN/dS significativement inférieur à 1, et pour le dernier un rapport significativement supérieur à 1. Q2 : Que veut-on tester en étudiant ce rapport ? Q3 : Interprétez les résultats obtenus. On décide d’analyser ce résultat en relation avec la différenciation génétique des populations au niveau de ce gène. Q4 : Que cherche-t-on avec une telle analyse ? Q5 : Proposez une stratégie pour cette étude. En fait cette étude est une fiction. Actuellement ce genre d’étude est essentiellement réalisé chez l’homme. Q6 : Expliquez pourquoi.