CHAPITRE 2 THERMODYNAMIQUE ET ORIGINES DE LA VIE 1 © F. Cleri, Institut d’Electronique, Microélectronique et Nanotéchnologie, Université de Sciences et Technologies de Lille, 2007 2 2.1 – La vie et le deuxième principe Le deuxième principe décrit le flux d’énergie dans des procès naturels irréversibles. L’interprétation physique du 2PTD est que le flux d’énergie procède toujours en direction d’une distribution uniforme de l’énergie dans le système fermé (l’univers). La grandeur entropie, S, permet de décrire cette tendance d’une façon plus quantitative. Par exemple, si l’on considère une maison chauffée à température T1 au milieu d’une froide nuit d’hiver à la température T2, la définition calorique de l’entropie nous porte à écrire : [1] ΔS = ΔSmaison + ΔSexterieur ≥ –ΔQ/T1 + ΔQ/T2 Le signe négatif du premier terme indique que la chaleur est transférée de l’intérieur de la maison à l’environnement extérieur. Évidemment, l’entropie augmente car T1>T2 . Si l’on éteint le chauffage, le flux de chaleur persiste jusqu’à T1=T2 . Comme il nous dit l’eq.(22), l’entropie est également une mesure des possibilités. Un volume plus grand permet un nombre plus grand de configurations, d’un même système, donc il est associé à une valeur d’entropie plus élevée. Du point de vue de la thermodynamique, l’univers peut être caractérisé comme un système fermé, dont l’énergie reste constante, mais vient d’être redistribuée et homogénéisée de façon à augmenter l’entropie. Cela porterait à l’ainsi-dite mort thermique de l’univers. Par contre, les mesures de calorimétrie effectuées sur plusieurs systèmes moléculaires vivants, comme ADN, protéines, et même virus et bactéries, montrent que leur contenu en énergie est plus élevé que celui des précurseurs élémentaires. En outres termes les réactions chimiques qui portent aux systèmes vivants sont endothermiques, et pourtant il seront prohibés, ou largement improbables, du seul point de vue de la thermodynamique. On dit parfois que « Clausius et Darwin ne peuvent pas avoir raison en même temps » (R. Caillois, Cohérences aventureuses, Gallimard, 1976). Notre observation, dans le chap. 1.9, que la Terre n’est pas un système fermé, et donc elle reçoit un flux d’énergie et d’entropie négative de l’extérieur, est qualitative. Mais elle ne nous permet pas de progresser dans la complexité de l’organisation de la matière vivante. La combinaison du premier et deuxième principe en une seule équation s’écrit : [2] ΔS ≥ (ΔE + pΔV ) / T , ou ΔG ≤ 0 Cela est le critère pour définir des transformations (par exemple, des réactions chimiques, ou des changements de phase) comme spontanés. Si la transformation se passe au cours d’un temps Δt, il est nécessaire que : [3] ΔG/Δt ≤ 0 À souligner que la notation ‘Δ’ se réfère à la différence entre les instants initial et final de la transformation, ce qui n’empêche que certains stages de la transformation puissent passer à travers de ΔG > 0. C’est pur cela qu’on évite la notation ‘d’ de dérivée, qui impliquerait une décroissance monotonique de l’énergie libre. L’approche à l’équilibre dans un système fermé est signalée par : 3 [4] ΔG/Δt → 0 L’interprétation plus propre de l’eq.[3] se trouve en renversant les termes de la façon suivante : [5] "S 1 $ "E "V ' # & +p )*0 "t T % "t "t ( , ou "S 1 "H # $0 "t T "t Le premier terme représente la variation d’entropie pour des procès internes au système, alors que le deuxième représente la variation d’entropie suite aux échanges d’énergie mécanique ! ! et/ou de chaleur avec l’extérieur. Par exemple, au cours de la cristallisation de l’eau en glace, l’enthalpie mesurée est ΔH= –80 cal/g (réaction exothermique), alors que la variation d’entropie est ΔS= –0.293 cal/(g•K-1). La transformation d’eau en glace devient spontanée à la température : [6] –0.293 – (–80.)/T > 0 , soit T ≤ 273 K Peut-on faire un parallèle entre une réaction de cristallisation comme celle-ci, et l’agrégation de monomères simples en protéines et molécules de la vie ? 2.2 – L’impossible agrégation spontanée des formes de vie Un exemple iper-idéalisé en biologie est le calcul de la probabilité de former spontanément une bactérie comme Eschirichia coli, à partir des précurseurs simples. L’Escherichia coli, autrement appelé colibacille ou E. coli, est une bactérie intestinale des mammifères très commune chez les humains. Découverte en 1885 par Théodore Escherich, dans des selles de nourrissons, c'est un coliforme fécal généralement commensal. Cependant, certaines souches d’E. coli peuvent être pathogènes. L’E.coli est très souvent utilisé en biologie comme exemple d’organisme modèle pour les procaryotes, c’est-à-dire une espèce qui est étudiée de manière approfondie pour comprendre un phénomène biologique particulier, en supposant que les résultats de ces expériences seront aussi partiellement valables pour la connaissance d'autres organismes. Cela est possible parce que les principes biologiques fondamentaux comme les voies métaboliques, régulatrices, et développementales, et les gènes qui portent leur code, sont conservés au cours de l'évolution. De la photo précédente d’un microscope à balayage, on peut estimer le volume pseudocylindrique de la bactérie comme: [7] V = π(D/2)2L = 0.56 µm3 , avec D=diamètre=0.6µm et L=longueur=2µm 4 La cellule individuelle de cette bactérie contient env. 2x1010 atomes, principalement C, H et O, avec un nombre de masse moyen A=10, NA=6.02x1023 nombre d’Avogadro et ρ=1 g/cm3 la densité, assimilée à celle de l’eau : [8] n=densité d’atomes= ρ(NA/A) = 6.02x1022 at/cm3 N = (Vn)-1 = 1.92x1010 atomes Calcul du nombre moyen de protéines : La concentration typique des protéines dans le cytoplasme (mesurée) est de ~180 mg/ml. Donc, dans le volume de 0.56 µm3=0.56x10-12 ml, on a MP=180*0. 56x10-12=10-10 mg de masse en protéines. Si l’on prend pour la masse moyenne d’une protéine la valeur typique de 60 kDalton (1 Dalton est égal à 1/NA grammes) on trouve NP=MP/60kDa=10-13/10-19=106 protéines, dans la typique cellule prokariote de e.coli. Les types de protéines presentes ne sont pas infinis : on compte env. 10.000 protéines differentes pour une cellule eukariote, et env. 2000 protéines differentes pour une cellule prokariote. Donc, on trouve env. 500 copies d’une meme protéine dans notre bacterie. Calcul du nombre d’atomes d’une protéine : Si l’on prend comme structure moléculaire typique le sucre, C6H12O6, on a une masse d’env. 180 Da pour 24 atomes. Donc, on peut simuler qu’une protéine contient env. 60.000/180*24=8000 atomes. Le total des atomes engagés dans les protéines dans e.coli est env. 500*2000*8000=8x109. Le reste des atomes, 1.92x1010–8x109=1.12x1010 represente l’ADN et le cytoplasme : eau, nutrients (sucres) etc. Des mesures de la chaleur d’évaporation de la bactérie donnent une quantité d’énergie de +0.0095 erg, ou +9.5x10-10 J. Puisque 1 eV=1.602 x10-19 J, cela fait +5.93 x109 eV, ou +0.31 eV/atome en moyenne. Donc, la liaison des atomes dans les structures moléculaires et protéiques d’une bactérie demande une contribution ΔH positive, elle n’est pas du tout spontanée (à toute température T le ΔG>0). Alors que dans l’eau, la liaison chimique force les molécules d’eau dans un ordre cristallin, à une température telle que le terme ΔH/T devient suffisamment petit, un bouillon de monomères organiques résiste à l’organisation à toute température. Même si la question n’a pas tellement de sens, car le système Terre est toujours hors d’équilibre, on peut calculer la probabilité d’une telle fluctuation d’énergie pour un système à l’équilibre, au seul but de démontrer que cette idée ne peut avoir rien à voir avec l’insurgence de la vie. Sur l’exemple de l’eq.[24] du chap. 1, cette probabilité serait de l’ordre de : [9] prob ∞ [exp(+0.31)]-1.92x10^10 ~ 10-2580000000 Dès que l’énergie libre des systèmes vivants est aussi grande et positive, la formation et la survie de ces systèmes impliquent un apport constant d’énergie et une réduction de l’entropie de l’extérieur. Pourtant, le maintien des systèmes vivants ne serait pas possible suite à la simple provision d’énergie, en absence d’un moyen de convertir cette énergie en travail utile. Une automobile est un ensemble de moteur, transmission et chaîne de guide, pour convertir l’énergie chimique de l’essence en travail mécanique de locomotion. Simplement mettre des bidons de gazoline sur les fauteuils d’une voiture ne donne pas du travail de locomotion. De la même manière, sans une structure organisée pour transformer la nourriture en travail, les systèmes vivants ne pourraient réaliser aucune des fonctions vitales. 5 En outres termes, la réduction d’entropie ne peut pas produire n’importe quel état d’ordre, mais elle doit être dirigée vers des états ordonnés et complexes choisis parmi des milliards d’autres, pas du tout au hasard, mais par un apport d’information. On ne peut pas s’attendre que le minimum de l’énergie libre soit unique, aussi bien précisé et incontournable, comme il s’avère dans des systèmes énormément plus simples (l’eau cristallisant en glace). Cela est la fonction primaire du code génétique, dans tous les êtres vivants. 2.3 – Complexité et information. Les molécules de la vie L’appréciation que le caractère distinctif des systèmes vivants est la complexité (au sens mathématique) plutôt que le degré d’ordre est une acquisition culturelle assez récente. Cette distinction dérive du fait que tous les ingrédients essentiels pour des systèmes autorepliquants – les enzymes et les acides nucléiques ADN, ARN,… - sont des molécules porteuses d’information codée. Par contre, les cristaux, ou des polymères inorganiques tel que le nylon, sont des systèmes extrêmement bien ordonnés, mais avec un contenu d’information très mince. Les acides nucléiques sont des structures apériodiques (voire désordonnées à coup d’œil) et c’est bien dans leur manque de périodicité qui se cache l’information. Donc, une structure périodique porte l’ordre, une structure apériodique porte la complexité. En termes d’information, les cristaux ou les polymères inorganiques se ressemblent à des bouquins avec toutes les pages remplies avec la même phrase : la disposition des lettres dans un tel bouquin est très ordonnée, mais l’information présentée est très redondante. Par contre, une disposition apériodique peut apporter de l’information – non nécessairement utile ou lisible. Seulement certaines séquences de lettres correspondent à une phrase utile. De la même manière, seulement certaines séquences d’aminoacides dans une protéine, ou certaines séquences de bases dans l’ADN, correspondent à des messages utiles. Donc, le caractère ultérieur des systèmes vivants est la spécificité : il n’est pas suffisant d’être complexe, il faut que la complexité soit bien spécifiée. Si l’on veut construire un cristal en laboratoire de chimie, il est nécessaire une séquence de lettres très bref, suivie de l’instruction « à répliquer à l’infini dans les trois directions ». Si l’on veut obtenir un polypeptide casuel, il suffit une séquence de lettres pour spécifier la proportion des divers aminoacides, suivi de l’instruction « à mélanger au hasard en quantité illimitée ». Si, par contre, l’on veut produire artificiellement une bactérie d’E.coli, il nous faut spécifier exactement le type et la disposition spatiale de tous les 1.92x1010 atomes composant le système. L’entropie d’un système peut être partagée en une composante thermique et une composante de configuration, avec Ωth et ΩC les nombres des combinaisons possibles de l’énergie et de la masse des atomes composant le système : [10] S = Sth + SC = k B ln"th + k B ln"C Si l’on imagine d’avoir un polymère formé d’une séquence casuelle d’aminoacides, et de vouloir le transformer en une protéine reéllement fonctionnelle par voie d’un réarrangement ! des aminoacides dans la « bonne » séquence, il nous faut déterminer la différence d’entropie 6 entre les deux états. Cette différence est l’entropie d’information, un concept introduit par C. Shannon en 1948 : [11] "SI = ( SC , prot # SC ,random ) = kB ln$C , prot # k B ln$C ,random L’information est maximisée dans le cas où la masse de la molécule pourrait être organisée en une seule conformation utile, ΩC,prot=1 , ce qui implique SC,prot=0 et ΔSI=max. On trouve ainsi ! un signe négatif pour "S , car cette entropie est fournie par l’extérieur, par exemple le code I génetique de la cellule. L’équation [11] quantifie la notion que seulement des macromolécules formées par des ! séquences (d’aminoacides, de nucléotides) non-périodiques et spécifiques portent assez d’information, comme requise pour des systèmes vivants. La formation d’une molécule complexe comme l’ADN peut être divisé conceptuellement en deux étapes : la polymérisation des nucléotides nécessaires, et leur réarrangement dans la séquence appropriée. (NOTE : ce procédé est purement conceptuel, employé seulement par simplifier le calcul, mais, dans la réalité, il serait impossible de procéder en une telle manière.) Cette subdivision est utile car elle permet d’attribuer la variation d’entropie thermique entièrement à la première étape, et la variation d’entropie « des configurations » entièrement à la deuxième étape, calculable sur la base de l’eq.[11]. Le nombre Ω de séquences différentes qu’on peut réaliser avec N objets différents est : [12] Ω=N! Si certains objets sont identiques dans la séquence, c’est-à-dire N=n1+n2+…nk, ce nombre de séquences se réduit à : [13] "C = N! n1!n 2!Kn k! Pour une protéine constituée par des aminoacides, on a k=20 car il existe seulement 20 aminoacides différents dans les molécules biologiques (« briques élémentaires », voir tableau ! suivant). Pour une protéine typique, N c’est de l’ordre de N=100-1000. Par contre, l’ADN, montré dans le tableau ci-dessous, est constitué par des paires de séquences, tressées en une double hélice énormément longue ; chaque élement de la séquence est choisi parmi 4 nucléotides, i.e. k=4. N pour une bactérie aussi simple que E.coli est N ~ 4.600.000 . Dans l’ADN, les séquences des deux cotés de l’hélice sont complémentaires : une base A peut s’accrocher seulement à une base T, et une base C seulement à une base G. Pour une séquence donnée, par exemple de type AGTCCAGCATG… on trouvera TCAGGTCGTAC… comme complémentaire sur l’autre coté. Chaque groupe de trois bases, AGT, CCA, GCA, … est un codon. Chaque codon correspond à un seul aminoacide, parmi les 20 possibles. Donc, une protéine de N aminoacides est specifiée par une séquence de ADN de 3N bases. 7 Structure moléculaire de la double hélice et bases A, C, T, G. Tableau de correspondance entre codons de l’ADN et aminoacides. À noter les séquences AUG, qui signale de point de départ d’une nouvelle protéine, et UAG, qui signale le point d’arrêt de la lecture. 8 L-Alanine (Ala / A) L-Cysteine (Cys / C) L-Arginine (Arg / R ) L-Glutamic acid (Glu / E) L-Histidine (His / H ) L-Isoleucine (Ile / I) L-Methionine (Met / M) L-Phenylalanine (Phe / F) L-Threonine (Thr / T) L-Tryptophan (Trp / W) L-Asparagine (Asn / N) L- Aspartic acid (Asp / D) L-Glutamine (Gln / Q ) Glycine (Gly / G) L-Leucine (Leu / L) L-Lysine (Lys / K) L-Proline (Pro / P) L-Tyrosine (Tyr / Y) 9 L-Serine (Ser / S) L-Valine (Val / V) Il faut noter que le nombre de combinaisons possibles des bases est plus large que 20, en fait il est 43=64 : plusieurs codons donnent un meme aminoacide, par exemple ACU, ACC, AGA et ACG codifient toujours la Threonine ; par contre, le Triptophan est codé seulement par UGG. Les aminoacides sont liés entre eux par la liaison peptidique. Ceci est une liaison covalente entre un atome de carbone et un atome d'azote de deux acides aminés. La liaison est le résultat de la réaction entre la fonction COOH (fonction carboxyle) du premier acide aminé et la fonction NH2 (fonction amine) du deuxième, avec comme produit secondaire une molécule H2O (de l'eau) Mis à part les plasmides, petits fragments de genes externes à l’ADN, le genome est l’ensemble de l’information genique codifié par l’ADN, sous forme de morceaux (genes) individués le long de la double hélice. Le chromosome de E.coli est formé comme un seul anneau de 4.6x106 paires de bases d’ADN. Le poids moyen de chacune des 4 bases (A,C,T,G) est env. 155 Da, et le nombre d’atomes est 14-16, auxquels il faut rajouter env. 180 Da ou 15 atomes de la chaine phosphate latérale. Donc, la masse totale d’ADN est MADN=2*4.6x106*335=3.1x109 Da, et le nombre d’atomes engagés dans l’ADN est NADN=2*4.6x106*30=2.76x108. Dans E. coli nous avons la répartition suivante de la masse (n.bre d’atomes): 2.76x108 (ADN), 8x109 (protéines), 1.09x1010 (cytoplasme) Gauche : image MET d’un E.coli, X20000. Centre : comparaison entre la taille relative de la cellule de E.coli et son chromosome. Droite : modèle de condensation du chromosome replié. 10 Or, pour un polypeptide avec N=600 aminoacides distribués également entre chacun des aminoacides, i.e. nk=600/20=30 pour k=1,…20 , on calcule l’entropie de configuration de l’arrangement casuel (r=random) comme : [14] "C ,r = 600! (30!) 20 , " kB (600ln(600) # 600 # 20( 30ln 30 # 30)) = 1797 k B ! ! SC ,r = k B ln"C = k B (ln(600!) # 20ln(30!)) $ où nous avons utilisé l’approximation de Stirling, N!" N ln N # N , valable pour N grand. ! Le même calcul pour l’ADN de la bactérie E.coli, avec les N=4.600.000 bases également distribuées parmi les 4 nucléotides, donnerait : ! [15] "C ,r = (4.6 #10 6 )! (1.15 #10 6!) 4 , SC ,r = k B ln"C = k B (ln(4.6 #10 6!) $ 4 ln(1.15 #10 6!)) % ! ! ( ) " kB 4.6 #10 6 ln(4.6 #10 6 ) $ 4.6 #10 6 $ 4 (1.15 #10 6 ln(1.15 #10 6 ) $1.15 #10 6 ) = 6.38 #10 6 k B On prend toujours que, pour les deux cas, la fonction propre de la protéine ou du brin d’ADN en question, ne correspond qu’à une seule configuration possible des constituants élémentaires, et l’entropie de l’objet final est dans les deux cas : ! [16] SC , protein = SC ,ADN = k B ln1 = 0 L’entropie d’information [11] à T=300 K est, respectivement : ! [17] [18] T"SI , protein = k B T(0 # SC , protein ) = #1.38 $10#23 $ 300 $1797 = #7.44 $10#18 J/molécule T"SI ,ADN = k B T(0 # SC ,ADN ) = #1.38 $10#23 $ 300 $ 6.38 $10 6 = #2.64 $10#14 J/molécule ! Ce calcul met en évidence le fait que, bien que le nombre de choix soit réduit (4 par rapport à 20), l’énorme longueur de la chaîne d’ADN contient beaucoup plus d’information qu’une ! simple protéine. (En fait, la quantité d’information contenue dans la protéine est déjà présente dans l’ADN, car il est de l’ADN que chaque protéine est fabriquée). Si, par contre, en suivant la convention des chimistes, l’on transformait les TΔS par molécule en TΔS par gramme de matière, on trouverait un résultat assez différent (et peut-etre décevant). Si l’on prend une masse moyenne de 100 a.m.u. pour chaque aminoacide, on trouve une masse de Aprotein=10.000 a.m.u. pour la protéine. Par contre, la masse moyenne d’un nucléotide est de 339 a.m.u., ce qui donne AADN=1.356x109 a.m.u. pour le brin d’ADN. Ensuite, on transforme les [17,18] en les multipliant par (NA/Aj), et divisant par 4.167 J/cal, d’où l’on trouve : 11 T"SI , protein = #17.6 cal/gramme , T"SI ,ADN = #0.68 cal/gramme Le fait que l’ADN soit une molécule beaucoup plus lourde qu’une protéine masque complètement l’évidence que le premier contient bien plus d’information que l’autre, comme ! mesures, car simplement un grand nombre ! mesurée par l’entropie (il n’y a pas de meilleures d’atomes ou de composants élémentaires ne suffit pas, comme l’on a vu, pour spécifier le contenu d’information). Encore, il faut considérer que nous n’avons pas pris en considération la contribution à l’entropie relative à la sélection des briques élémentaires nécessaires. En fait, les aminoacides où nucléotides se trouvent toujours mêlés à une grande quantité d’autres constituants moléculaires dans le milieu cellulaire, dont plusieurs interagissent et sont en compétition avec les aminoacides et les nucléotides eux-mêmes. Le problème est l’analogue de se retrouver avec un bidon contenant des centaines de copies des lettres de tous les alphabets connus (grec, cyrillique, caractères européens, hébreu, hittite, hiéroglyphes égyptiens, etc.), et essayer de calculer la probabilité de produire la phrase : NOUS VOULONS APPRENDRE LA BIOPHYSIQUE Il faut avant tout choisir les bonnes lettres (alphabet français), en tirer ensuite un jeu de longueur 33 qui contient la bonne combinaison (2A, 1B, 1D, 3E, etc.), et seulement à ce point-là on peut les assembler et ensuite les ordonner, comme dans notre synthèse idéalisée. Par exemple, il peuvent exister des formes alternées du même aminoacide ou nucléotide (comme les isomères optiques), mais seulement un des formes est celle qui participe à la synthèse (il serait comme choisir entre des voyelles avec des accents différents). 2.4 – Énergie libre pour la synthèse des biomolécules On peut maintenant donner une estimation de l’énergie libre nécessaire pour la synthèse des biomolécules à partir des constituants élémentaires, aminoacides ou nucléotides : [19] "G = "H # T"Stherm # T"SC En utilisant la compilation de données expérimentales de Hutchens (Handbook of Biochemistry and Molecular Biology, 1976), on trouve que pour former un dipeptide en ! partant de divers paires d’aminoacides il est nécessaire de fournir un ΔH=5-8 kcal/mole. Selon les calculs cités de Morowitz, une valeur moyenne pour plusieurs types de biomolécules serait ΔH=16.4 cal/g (le poids se réfère à une goutte de fluide cellulaire). En général, il y a un accord sur le fait que l’enthalpie de formation des biomolécules à partir des aminoacides est toujours positive, donc les réactions chimiques sont endothermiques et pourtant défavorisées par la simple thermodynamique. Par contre, on trouve que l’enthalpie de formation des aminoacides à partir des molécules plus simples en atmosphère réductrice (gaz de méthane, ammoniaque et eau) est négative, allant d’environ ΔH= –50 à –250 kcal/mole, ce qui indique des réactions exothermiques. C’est pour cette raison que les aminoacides se forment avec une relative facilité dans les expériences des « soupes 12 prébiotiques ». D’autre part, si l’on passe à une atmosphère moins réductrice (par exemple dioxyde de carbone, azote et eau) l’enthalpie devient positive. La contribution thermique à l’entropie n’est pas du tout facile à estimer. Certains chercheurs ont suggéré que la réaction de polymérisation, à cause de l’augmentation de la masse, tende à réduire les degrés de liberté de translation, alors que la plus grande complexité structurelle des produits augmenterait les degrés de liberté vibrationnels et rotationnels. Le résultat serait une réduction du nombre de possibilités de distribuer l’énergie totale de la molécule, et donc une diminution de l’entropie thermique. Le même Morowitz a estimé des variations négatives de l’ordre de TΔSth=–65 cal/g. Armstrong et al., dans des travaux plus récents (Journal of Molecular Evolution, vol. 9 p. 218 (1977)), donne les valeurs suivantes pour la oligomérisation de jusqu’à cinq unités de nucléotides: ΔH=11.8 kcal/mole et TΔSth=–15.6 kcal/mole. Même avec des valeurs numériques en quelque désaccord, les indications qualitatives nous disent que la contribution de l’entropie thermique tend à rendre également improbable la formation des biomolécules. Une possible estimation complète pour la protéine de 100 aminoacides est : [20] "G = "H # T"Stherm # T"SC = 16.4 + 65 + 17.6 = 99 cal/gramme et pour l’ADN de 4 million de bases : ! [21] "G = "H # T"Stherm # T"SC = x cal/gramme. Ce flux d’énergie libre est nécessaire pour polymériser les briques élémentaires en une longue protéine ou ADN, et il ne peut pas se verifier en conditions d’équilibre. En effet, une telle ! quantité d’énergie, meme si repartie entre un grand nombre de constituants, ne peut pas facilement se trouver concentrée à l’équilibre, par exemple dans une solutions d’amminoacides en concentration 1 M. Dans ce cas d’exemple, la concentration de protéine que l’on obtiendrait est : [22] K = [protéine] / [gly] [ala] … K est la constante d’équilibre, et peut etre calculée de l’énergie libre comme : [23] K = exp(-ΔG/RT) ou : [24] ΔG = – RT log K Pour ΔG = 99 cal/g = 99000 cal/mole, R=1.986 cal/K/mole et T=300 K, on trouverait : [25] [protéine] ~ 10-75 M une concentration pratiquement nulle. Ce résultat, tout à fait trivial, souligne qu’il est impossible de former les molécules de la vie simplement par hasard, en conditions d’équilibre thermodynamique. 13 Evidemment, cela est une non-réponse. Nous sommes encore très loin de pouvoir compréndre et expliquer (voire réproduire dans un laboratoire) la complexité des mécanismes qui ménent l’architecture de la céllule et du noyau céllulaire, dans toutes les phases de la vie. Pourtant, nous sommes capables de lire certains morceaux du livre. 2.5 – Thèories sur l’origine moléculaire de la vie De fait, il n'existe pas de modèle « standard » pour décrire l'origine de la vie. Cependant le modèle le plus couramment accepté est fondé sur l'enchaînement supposé des évènements suivants : 1. Des conditions prébiotiques plausibles entraînent la création de molécules organiques simples qui sont les briques de base du vivant. 2. Des phospholipides forment spontanément des doubles couches qui sont la structure de base des membranes cellulaires. 3. Les mécanismes qui produisent aléatoirement des molécules d'ARN (acide ribonucléique), capables d'agir comme des ARN-enzymes capables, dans certaines conditions très particulières, de se dupliquer. C'est une première forme de génome, et nous sommes alors en présence de protocellules. 4. Les ARN-enzymes sont progressivement remplacées par des protéines-enzymes, grâce à l'apparition des ribozymes, ceux-ci étant capables de réaliser la synthèse des protéines. 5. L'ADN apparaît et remplace l'ARN dans le rôle de support du génome, dans le même temps les ribozymes sont complétés par des protéines, formant les ribosomes. C'est l'apparition de l'organisation actuelle des organismes vivants. Les plus anciennes traces de molécules organiques ont été retrouvées en 2006, dans des fossiles de crinoïdes. Âgés de 350 millions d'années, il s'agit de composés s'apparentant à des pigments, découverts par Christina O'Malley et ses collègues de l'université de l'Ohio. En paralléle aux études sur la thèorie darwinienne de l’évolution, la duexième moitié du XX siècle a vu la naissance de plusieurs modéles de thèories de l’évolution moléculaire. Ces thèories ont pour but de chercher des parcours d’évolution qui ménent à la structure observée del molécules de la vie (acides nucleiques, proteines, enzymes), en partant des molécules plus simples, jusqu’à remonter aux molécules simples tels que methane, ammoniac, eau… En 1953, Stanley Miller, accompagné de Harold Urey, a cherché de reproduire les conditions de la Terre primitive. Ils ont enfermé dans un ballon des gaz (méthane CH4, ammoniac NH3, hydrogène H2 et eau H2O) et soumis le mélange à des décharges électriques pendant sept jours. Après l’ouverture du ballon, ils ont trouvé des molécules organiques, les briques du vivant, et notamment de l'urée (CON2H4), du formaldéhyde (H2CO), de l'acide cyanhydrique (HCN), des bases et des acides aminés (AA). Certains composés étant présents à plus de 2%. Miller et Urey ont utilisé une atmosphère réductrice (méthane CH4, NH3, H2, H2O) et non pas une atmosphère oxydante, telle qu'elle était sur Terre à époque de l'apparition de la vie. Depuis l’expérience a été refaite plusieurs fois, en variant la composition de l'atmosphère et la source d’énergie (utilisation du rayonnement ultraviolet notamment). Cependant, l’atmosphère oxydante (dioxyde de carbone CO2, azote N2, eau H2O) qui provient du volcanisme donne de très mauvais rendements. 14 Suite aux expériences de Miller, il a fallu déterminer les réactions chimiques qui se sont produites dans l'enceinte (le ballon dans lequel il avait enfermé les différents gaz). Ainsi est née la chimie organique dans l'eau. Les réactions impliquées nécessitent de fortes concentrations, ainsi que des domaines de température et de pH très étroits qui font que ces mécanismes sont très peu probables : une mare en voie d'assèchement pourrait peut-être expliquer les fortes concentrations. L'expérience d’Urey et Miller fut à l'époque très critiquée à cause de ces limitations. De plus, sa fiabilité a été remise en cause, car les molécules organiques obtenues pourraient a priori provenir d'une contamination extérieure. Une contamination extérieure ne tiendrait toutefois pas la route pour les raisons évoquées ci-après. Aujourd'hui, de nombreux modèles résolvent le problème de l'apparition des molécules organiques. Les scientifiques arrivent meme à produire de nombreuses molécules dans des conditions prébiotiques en laboratoires. Pourtant, les expériences de Miller et les modèles qui en sont dérivés ne fournissent pas d'explication sur les étapes suivantes (c'est-à-dire la transition de molécules organiques aux protocellules, puis aux cellules vivantes ayant un métabolisme de base). Aussi les scientifiques ont exploré d'autres voies de recherche. Un problème énorme est posé également par l’apparition de la membrane cellulaire. Les membranes des cellules vivantes sont composées de lipides. Or, on connaît aujourd'hui des acides gras à longue chaîne qui peuvent spontanément former des petites membranes sphériques. Bien que l'on puisse produire de tels compartiments en laboratoires, ces acides gras restent synthétisés par des enzymes. Le processus permettant de former de tels compartiments en l'absence de ces enzymes demeure inconnu. En pus, un compartiment isolé par une membrane ne forme cependant pas une protocellule. Selon Maynard Smith, deux conditions sont nécessaires pour former une véritable protocellule : 1. Les molécules capable de répliquer la forme de base (les réplicateurs) doivent se lier entre elles en un « chromosome », formant ainsi une unité structurelle, garantissant aux réplicateurs de former un tout cohérent après la réplication ; 2. La membrane doit posséder des mécanismes d'échange avec le milieu extérieur, autres que les systèmes à protéines actuels. L’hypothèse du monde à acide ribonucléique est que l’ARN était la principale - et sans doute la seule - forme de vie avant l’émergence de la première cellule à ADN. C'est Walter Gilbert qui a utilisé pour la première fois le terme « monde à ARN » (RNA world en anglais) en 1986. L’hypothèse d'un monde à ARN a aujourd'hui la faveur des scientifiques et est fondée sur plusieurs éléments. Notamment sur le fait que l’ARN est en théorie capable aussi bien d’assurer des tâches métaboliques que d’être le support d'une information génétique. L'ARN a la capacité de stocker une information, en utilisant un code génétique similaire à celui de l'ADN. L’ARN peut également se comporter comme un ribozyme (de la contraction de ribose et enzyme) et catalyser certaines réactions, tout comme les protéines. Du point de vue de la reproduction, cette molécule possède donc deux fonctions primordiales : le stockage de l'information et la catalyse nécessaire à l'auto-réplication. 15 L'ADN peut aussi se recopier lui-même, mais seulement avec l'assistance de protéines. Les protéines sont de très bons catalyseurs mais elles sont incapables de stocker l'information requise pour leur propre réplication. L'ARN est lui capable à la fois de catalyse et d'autoréplication. Ainsi, le ribosome est un ribozyme, dans le sens où le responsable de la synthèse des protéines n'est pas une protéine (comme c'est le cas dans la grande majorité des catalyses d'une cellule vivante) mais l'ARN ribosomal lui même. Ces ribozymes peuvent se replier dans l'espace, faisant apparaître un site actif pour une catalyse, à l'instar des protéines. L'ADN, formant une double hélice rigide, ne peut se replier pour jouer un rôle de catalyseur. Dans l'hypothèse d’un monde à ARN, apparaissent tout d'abord des viroïdes ressemblant à des ARN auto-catalytiques, présents dans des compartiments isolés (qu'ils soient membranaires ou cristallins). Puis des protocellules, capables de métabolisme archaïque, sont soumises à une évolution darwinienne, évoluant ainsi vers des cellules à ARN, capables de présenter une activité variée et complexe. Bien que tous les indices principaux nous disent que l'ARN serait donc à l'origine de l'ADN dans le métabolisme cellulaire, cette transformation ARN-ADN est très difficile à réaliser. De fait, dans tous les organismes vivants, elle est catalysée par des protéines spécialisées : les ribonucléotides-réductases. De plus, cette réaction est très coûteuse en énergie, du fait de la réduction du ribose, et elle produit des radicaux libres, très réactifs, sur la protéine. L'ARN étant une molécule fragile, il paraît improbable qu'elle puisse supporter des radicaux libres sans l'intervention de protéines. Ainsi, l'origine de l'ADN trouve vraisemblablement sa source seulement après l'apparition des protéines, indispensables à chaque étape de sa synthèse à partir de précurseurs de type ARN, au sein de la cellule. Les protéines sont des catalyseurs très efficaces, bien plus que les ribozymes. De même, il existe 20 acides aminés dans le monde vivant, mais seulement quatre nucléotides, les protéines sont donc bien plus diversifiées que les ARN. D'un point de vue évolutif, il est donc peu probable qu'une protéine-enzyme ait été remplacée par une ARN-enzyme. À l'inverse, si les ARN sont bien apparus avant les protéines, il est plausible qu'ils aient été remplacés par des protéines, plus efficaces. Cet argument est étayé par le fait que l'ARN joue un rôle dans la synthèse des protéines, via son rôle fondamental dans les ribosomes actuels. L'ARN aurait donc en quelque sorte conduit à l'apparition des protéines. Les protéines, utilisées dans la structure du ribosome, seraient donc venues plus tard dans le panorama de l’évolution moléculaire, afin d'améliorer le système. Les premières protéines auraient ainsi été sélectionnées de part leur activité améliorant le fonctionnement des ribozymes, pour finalement se substituer à eux. Des structures intermédiaires entre les agrègats de proteines et les cellules proprement dites sont les virus. Les virus sont des objets auto-replicants constitués au minimum d’un acide nucléique et de protéines. Les virus à ARN observés en nature seraient des reliques du monde à ARN. Les virus à ADN pourraient être plus anciens que la première cellule à ADN : la première cellule à ADN aurait donc emprunté ce « nouveau » acide nucléique à un ou plusieurs virus. Didier Raoult et Jean-Michel Claverie ont ainsi découvert le mimivirus : un virus géant à ADN (son génome étant deux fois plus long que le plus petit génome bactérien connu). La particularité de ce virus est qu'il peut produire des protéines impliquées dans la traduction de 16 l'ARN en protéines (comme des enzymes chargeant des acides aminés sur des ARNt), il pourrait donc avoir pour ancêtres des virus plus anciens que la première cellule à ADN. Les enzymes de réplications des virus à ADN sont très différentes d'un virus à l'autre, ainsi que par rapport aux enzymes cellulaires jouant le même rôle. Ces indices laissent penser que les enzymes liées à l'ADN sont apparues au cours d'un « premier âge » du monde à ADN, où existaient cellules à ARN et virus à ARN et à ADN. Selon cette théorie, seulement plus tard on assisterait à l’apparition des cellules à ADN, qui aujourd’hui composent tous les organismes supérieurs. 17