http://esilbac1.esi.umontreal.ca/~lajoimat Introduction à la bio-informatique Mathieu Lajoie 1er août 2008 Département de Biochimie Université de Montréal Biologie: Science du vivant. Informatique: Science du traitement automatique et rationnel de l'information*. *« L'informatique n'est pas plus la science des ordinateurs que l'astronomie n'est celle des télescopes » - Edsger Dijkstra Menu du Jour Entrée Protéines, ADN et Gènes (dans leur Cellule) Plat de résistance La bio-informatique en action Dessert La recherche et les études en bio-informatique Apportez vos question... La cellule Membrane Protéine ADN Noyau ARNm Les protéines sont à la base de la vie Kératine, collagène, hémoglobine, insuline, rhodopsine ... Les protéines sont des chaines d'acides aminés repliées sur elles-mêmes L'ADN contient l'information pour fabriquer les protéines AT GC TA TA CG CG AT AT GC TA T C C A TA A G G T A G G T T C C A CG CG AT On peut lire l'ADN... Le Génome Humain Chromosome 1 A ATGGATAGCATCGATCGATGAAAAAAAAAAAAAAGCAAGTATCATCCTTAGATAGTTCT ATAAGAAGCTAGAGGAGACCTTAACACATGAACAGAAAGAAGGACGACGACGACGAC CTTCCTATTTCTGAAGACTATAAAGCTTCTGAAAGGTTGAGGGGTAACATCTCTCTTTCCT GTTCAAGTTAAGACCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGACGGGA ACAGGAAAGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAGAAACA GTTTTTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCAGGCTGGA TCTCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGCCTCCCAAGTA GCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTTTGTATTTTTAGTAGAGACGGGA TTTCACCGTGTTAGCCAGGATGGTCTCAATCTCCTGACCCAGCTCTGATTGGATCTTTCTAAACTG TGCCATGTTGTGCTTGATGAAGTGGATCAAATGTTAGAGTTAGGTTTTGCTGAACAAGTTGAAGAT ATTATTCATGAATTCTACAAAACTGATTCTGAAGACAGTCCTCAGACTTTACTTTTTTCTGCAGCTC GCCCACAGTGGGTATGCAAAGTTGCAAAAAAATGAGTGAAATCCAGATACGAACAGATTGATGTT TTTGGAAAAATGACTCAAAAGGCTGCAGCTTCTGTGGAACATTTGGCCATCCGGTGTCATTGGTT CAGAGGCCAGCAGTTACTGGAGATGTCCTTCAAGTCTACAGTGGGTCTGAAGGGACGGCTATTAT TTTCTGTGAGACCCAGAGGAGTGTAACTGAAATAGCCATGAATCCACACATAAAACAGAATGCCC AGTGTTTACATGGGGACATTGCACAGTCACAAAGAGAATTTACACTAAAAGACTTCAGAGAAGGT AGTTTTAAAGTTTTGGTGCAACCAACGTGGCTGCCTGTGGTTTGGACATTCCTGAAGTTGACCTG GTGATTCATGGTTCTCCTCCTAGGATGTTGAGTCTATATCCATCGTTCTGGACGCACAGGTAGAGC TGGACAGACAGGGATTTGTATATGTTTTTATCAACCAAGAGAAAGAGGTCAACTAAGATATGTGGA ACAAAAAGTAGGAATTACTTTTAAATGTGTAGGTATTCCTTCTACAATGGATTTAGTTAAATCTAAAA GCACGGATGCCATAAGGTCTCTGGCTTCTGTTTCTTATGCTGCTGTTGATTTTTTCCAACCATCAG CTCAGATACTGACAGAAGAGAAAGGGGCAGTGGATGCATTGGCTGG page 1 ATGGATAATGGATGCATCGATCGATGAAAAAAAAAAAAAAGCAAGTATCATCCTTAGATAGTTCAT AAGAAGCTAGAGGAGACCTTAACACATGAACAGAAAGAAGGACGACGACGACGACCTTCCTATT TCTGAAGACTATAAAGCTTCTGAAAGGTTGAGGGGTAACATCTCTCTTTCCTGTTCAAGTTAAGAC CTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGACGGGAACAGGAAAGAAAGA CATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAGAAACAGTTTTTTGTTTGTTTG TTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCAGGCTGGATCTCGGCTCACTGCA AGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGCCTCCCAAGTAGCTGGGACTACAGG CACCCGCCACCACCCCCGACTATTTTTTTTTGTATTTTTAGTAGAGACGGGATTTCACCGTGTTAG CCAGGATGGTCTCAATCTCCTGACCCAGCTCTGATTGGATCTTTCTAAACTGTGCCATGTTGTGCT TGATGAAGTGGATCAAATGTTAGAGTTAGGTTTTGCTGAACAAGTTGAAGATATTATTCATGAATTC TACAAAACTGATTCTGAAGACAGTCCTCAGACTTTACTTTTTTCTGCAGCTCGCCCACAGTGGGTA TGCAAAGTTGCAAAAAAATGAGTGAAATCCAGATACGAACAGATTGATGTTTTTGGAAAAATGAC TCAAAAGGCTGCAGCTTCTGTGGAACATTTGGCCATCCGGTGTCATTGGTTCAGAGGCCAGCAG TTACTGGAGATGTCCTTCAAGTCTACAGTGGGTCTGAAGGGACGGCTATTATTTTCTGTGAGACCC AGAGGAGTGTAACTGAAATAGCCATGAATCCACACATAAAACAGAATGCCCAGTGTTTACATGGG GACATTGCACAGTCACAAAGAGAATTTACACTAAAAGACTTCAGAGAAGGTAGTTTTAAAGTTTT GGTGCAACCAACGTGGCTGCCTGTGGTTTGGACATTCCTGAAGTTGACCTGGTGATTCATGGTTC TCCTCCTAGGATGTTGAGTCTATATCCATCGTTCTGGACGCACAGGTAGAGCTGGACAGACAGGG ATTTGTATATGTTTTTATCAACCAAGAGAAAGAGGTCAACTAAGATATGTGGAACAAAAAGTAGGA ATTACTTTTAAATGTGTAGGTATTCCTTCTACAATGGATTTAGTTAAATCTAAAAGCACGGATGCCAT AAGGTCTCTGGCTTCTGTTTCTTATGCTGCTGTTGATTTTTTCCAACCATCAGCTCAGATACTGACA GAAGAGAAAGGGGCAGTGGATGCATTGGCTGG fin page 2 000 000 Le Génome Humain Chromosome 1 A gène ATATGAAAAAAAAAAAGCAAGTATCATCCTTAGATAGTTCTACTCATGAATCAAGTG ATAAGAAGCTAGAGGAGACCTTAACACATGAACAGAAAGAAGGAACCTTCTCCAAT CTTCCTATTTCTGAAGACTATAAAGCTTCTGAAAGGTTGAGGGGTAACATCTCTCTTT CCTGTTCAAGTTAAGACCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGA CGGGAACAGGAAAGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATC AAGAAACAGTTTTTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTC GCCCAGGCTGGATCTCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTG CCTCAGCCTCCCAAGTAGCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTTT GTATTTTTAGTAGAGACGGGATTTCACCGTGTTAGCCAGGATGGTCTCAATCTCCTGACCCA GCTCTGATTGGATCTTTCTAAACTGTGCCATGTTGTGCTTGATGAAGTGGATCAAATGTTAGA GTTAGGTTTTGCTGAACAAGTTGAAGATATTATTCATGAATTCTACAAAACTGATTCTGAAGAC AGTCCTCAGACTTTACTTTTTTCTGCAGCTCGCCCACAGTGGGTATGCAAAGTTGCAAAAAA ATGAGTGAAATCCAGATACGAACAGATTGATGTTTTTGGAAAAATGACTCAAAAGGCTGCAG CTTCTGTGGAACATTTGGCCATCCGGTGTCATTGGTCTCAGAGGCCAGCAGTTACTGGAGAT GTCCTTCAAGTCTACAGTGGGTCTGAAGGGACGGCTATTATTTTCTGTGAGACCCAGAGGA GTGTAACTGAAATAGCCATGAATCCACACATAAAACAGAATGCCCAGTGTTTACATGGGGACA TTGCACAGTCACAAAGAGAATTTACACTAAAAGACTTCAGAGAAGGTAGTTTTAAAGTTTTGG TGCAACCAACGTGGCTGCCTGTGGTTTGGACATTCCTGAAGTTGACCTGGTGATTCATGGTT CTCCTCCTAGGATGTTGAGTCTATATCCATCGTTCTGGACGCACAGGTAGAGCTGGACAGAC AGGGATTTGTATATGTTTTTATCAACCAAGAGAAAGAGGTCAACTAAGATATGTGGAACAAAA AGTAGGAATTACTTTTAAATGTGTAGGTATTCCTTCTACAATGGATTTAGTTAAATCTAAAAGCA CGGATGCCATAAGGTCTCTGGCTTCTGTTTCTTATGCTGCTGTTGATTTTTTCCAACCATCAG CTCAGATACTGACAGAAGAGAAAGGGGCAGTGGATGCATTGGCTGGT page 1 Structure et fonctionnement d'un gène ACGATCTGGATCGCTAGCTTCGGCTCGATTATGGATAGA... ADN Structure et fonctionnement d'un gène ACGATCTGGATCGCTAGCTTCGGCTCGATTATGGATAGA... ADN Structure et fonctionnement d'un gène CGC TAG CUU TAU CUC CGC TAU TAG ARNm ACGATCTGGATCGCTAGCTTCGGCTCGATTATGGATAGA... ADN Structure et fonctionnement d'un gène Protéine CGC TAG CUU TAU CUC CGC TAU TAG ARNm ACGATCTGGATCGCTAGCTTCGGCTCGATTATGGATAGA... ADN Structure et fonctionnement d'un gène ACGATCTGGATCGCTAGCTTCGGCTCGATTATGGATAGA... ADN Une première application de la bio-informatique: l'assemblage des génomes TTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGACGGGAACAGGAA AGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAGAAACAGTTTTTT GTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCAGGCTGGATCTC GGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGCCTCCCAAGTAGC TGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGTTAAGACCTTTGG TCCTTATATCACCCGCCACCACCCCCGACTATTTTTCACCCGCCACCACCCCCGACTATTTT AGTTAAGACCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGAC GGGAACAGGAAAGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAG AAACAGTTTTTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCA GGCTGGATCTCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGC CTCCCAAGTAGCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGT TAAGACCTTTGGTCCTTATAT GTTAAGACCTTTGGTCCTGTTAAGACCTTTGGTCCTGTTAAGACCTTTGGTCCTT CCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGACGGGAACAGGAAAGAAA GACATTCTATTTTGCGCCCTTTAGTTAAGAGATTGAAAGACTCCAAAGAGATCAAGAAACAGTTT TTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCAGGCTGGATC TCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGCCTCCCAAGTA GCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGTTAAGACCTTT GG AGTTAAGACCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGAC GGGAACAGGAAAGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAG AAACAGTTTTTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCA GGCTGGATCTCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGC CTCCCAAGTAGCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGT TAAGACCTTTGGTCCTTATAT TTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGACGGGAACAGGAA AGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAGAAACAGTTTTTT GTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCAGGCTGGATCTC GGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGCCTCCCAAGTAGC TGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGTTAAGACCTTTGG TCCTTATATCACCCGCCACCACCCCCGACTATTTTTCACCCGCCACCACCCCCGACTATTTT AGTTAAGACCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGAC GGGAACAGGAAAGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAG AAACAGTTTTTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCA GGCTGGATCTCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGC CTCCCAAGTAGCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGT TAAGACCTTTGGTCCTTATAT GTTAAGACCTTTGGTCCTGTTAAGACCTTTGGTCCTGTTAAGACCTTTGGTCCTT CCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGACGGGAACAGGAAAGAAA GACATTCTATTTTGCGCCCTTTAGTTAAGAGATTGAAAGACTCCAAAGAGATCAAGAAACAGTTT TTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCAGGCTGGATC TCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGCCTCCCAAGTA GCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGTTAAGACCTTT GG AGTTAAGACCTTTGGTCCTTATATGAAGGAAAAGATTTAATAGCTCAAGCACAGAC GGGAACAGGAAAGAAAGACATTCTATTTTGCGCCCTTTGATTGAAAGACTCCAAAGAGATCAAG AAACAGTTTTTTGTTTGTTTGTTTGTTTGTTTGTTTTTTGAGACAGAATCTCGCTCTGTCGCCCA GGCTGGATCTCGGCTCACTGCAAGCTCCGCCGCCCGGGTTCACACCATTTTCCTGCCTCAGC CTCCCAAGTAGCTGGGACTACAGGCACCCGCCACCACCCCCGACTATTTTTTTCCTGTTCAAGT TAAGACCTTTGGTCCTTATAT Activité 1 Visualisation des molécules biologiques Organisation des données biologiques Organismes séquencés ou en cours de séquençage Mammifères séquencés ou en cours de séquençage Étudier l'évolution des espèces et de leur génome Comment évolue l'ADN ? T C G C G T T C C A A A G G T T G C G C A A Simulation "photoshop" de l'évolution Simulation "photoshop" de l'évolution Simulation "photoshop" de l'évolution Fiou ! KABOUMMMM !!!!! Simulation "photoshop" de l'évolution Simulation "photoshop" de l'évolution Simulation "photoshop" de l'évolution Simulation "photoshop" de l'évolution Apparition de nouvelles espèces (spéciation) Apparition de nouvelles espèces (spéciation) ... ACT... mutation T A ... ACA ... ... ACT... Activité 2 ? ~450 millions d’années ~90 millions ~80 millions ~50 millions ~6 millions ~450 millions d’années ~90 millions ~80 millions ~50 millions ~6 millions ? ? ~450 millions d’années ~90 millions ~80 millions ~50 millions ~6 millions ~450 millions d’années ~90 millions ~80 millions ~50 millions ~6 millions ? ? ~450 millions d’années ~90 millions ~80 millions ~50 millions ~6 millions ~450 millions d’années ~90 millions ~80 millions ~50 millions ~6 millions ? ~450 millions d’années ~90 millions ~80 millions ~50 millions ~6 millions Analyse des données de micro-puces à ADN Saine Cancéreuse ARNm Gène X Gène Y Gène Z Saine Gène X Cancéreuse Gène Y Gène Z Saine Puce à ADN Gène X Cancéreuse Gène Y Gène Z Saine Gène X Cancéreuse Gène Y Gène Z Saine Gène X Cancéreuse Gène Y Gène Z Saine Gène X Cancéreuse Gène Y Gène Z Analyse des résultats saine cancéreuse saine + cancéreuse Comparaison des séquences Identification des sites actifs dans les protéines par comparaison de séquences ...TCATTGCTCGATTATGAAACATATAAGA... ...GTAGGCTCGATTATGATAATGATAGGC... ...CTTCGGACGATTATGAGATAGTATGGA... Identification des sites actifs dans les protéines par comparaison de séquences ...TCATTGCTCGATTATGAAACATATAAGA... ...GTAGGCTCGATTATGATAATGATAGGC... ...CTTCGGACGATTATGAGATAGTATGGA... cible thérapeutique potentielle Génétique des populations ACGATCTGGATCGCGAGCTTCGGCTCGATTATGGA ACGACCTGGATCGCTAGCTTCGGCTCGATTGTGGA ACGATCTGGATCGCGAGCTTCGGCTCGATTATGGA ACGACCTGGATCGCTAGCTTCGGCTCGATTGTGGA Environ une base sur 1,200 diffère 3 000 000 000 ÷ 1,200 = 2 500 000 SNPs Comment ? Recueillir des échantillons (ADN, glucose, lipides etc) chez 20 000 adultes âgés entre 40 à 69 ans pour étudier les facteurs génomiques de santé et de maladie. Pourquoi? •Améliorer la prévention, la détection et le traitement des maladies. •Analyser les interactions entre gènes ainsi qu'entre gènes et environnement. Activité 3 Comment devenir bio-informaticien ? Université CÉGEP DEC Sciences Nature maths 536 physique 534 chimie 534 Baccalauréat Bio-info ou biochimie biologie informatique mathématiques Maitrise Bio-info Passage direct Doctorat Bio-info Que réserve l'avenir aux bio-informaticiens ? Profession relativement récente donc peu de données Domaine en effervescence Employeurs : milieu académique, instituts de recherche, industrie pharmaceutique Possibilité de faire une carrière internationale ? Détail des calculs 130m Roman Océantume de Réjean Ducharme: 50 caractères / ligne 30 lignes/pages ->1500 caractères/page 260 pages/livre 52mbp / 1500 caractères/page = 3000000000 2 millions de pages / 260 pages/livre =7692 livres * 1,7 cm /livre =130 mètres (Tour UdeM = 52 mètres) ADN-spaghetti Diamètre ADN: 2 nm (2x10-9 m) Diamètre spaghetti: 2mm (2x10-3 m) => Grosissement: 1 000 000 x =>1m d'ADN dans une cellule =>1000 km de spaghetti Volume: 4 m3 approx pour 1000 km de spag Diamètre d'une cellule:10-30 microns (10-6 mètres) 130m Multiplions les grandeurs par un million... Longueur: 1 m Diamètre: 2 nm Diamètre: ~15 μm 130m Multiplions les grandeurs par un million... Longueur: 1 m Diamètre: 2 nm Longueur: 1000 km ! Diamètre: 2 mm Diamètre: ~15 μm Diamètre: ~15 m cristal structure patron de diffraction carte densité électronique