Évolution et plasticité Jean-Baptiste Mouret ISIR (UPMC), Paris, France http://www.isir.upmc.fr Introduction Baldwin NN plastiques Introduction 2 / 30 Introduction Baldwin NN plastiques Introduction • Les réseaux de neurones des êtres vivants sont capables de s’adapter pendant la vie de l’animal • apprentissage • développement (cf plantes) • caractéristique importante de leur efficacité • différence importante avec le non-vivant Ô peut-on obtenir des agents apprenants par évolution ? comment ? Ô qu’est-ce que cela change pour l’évolution ? 3 / 30 Introduction Baldwin NN plastiques Apprentissage et plasticité Dans ce cours (définition pas forcément universellement admises...) : • plasticité : capacité d’un agent à changer pendant sa vie (changer de forme, changer le poids synaptique d’une connexion, ...) en fonction de signaux extérieurs • apprentissage : utilisation de la plasticité pour maximiser une récompense ou minimiser une erreur 4 / 30 Introduction Baldwin NN plastiques Effet Baldwin 5 / 30 Introduction Baldwin NN plastiques Lamarck (1744-1829) • Première théorie de l’évolution (avant Darwin) • Transmission des caractères acquis 6 / 30 Introduction Baldwin NN plastiques Lamarck (2) « Relativement aux habitudes, il est curieux d’en observer le produit dans la forme particulière et la taille de la girafe (camelo-pardalis) : on sait que cet animal, le plus grand des mammifères, habite l’intérieur de l’Afrique, et qu’il vit dans des lieux où la terre, presque toujours aride et sans herbage, l’oblige de brouter le feuillage des arbres, et de s’ efforcer continuellement d’ y atteindre. Il est résulté de cette habitude, soutenue, depuis longtemps, dans tous les individus de sa race, que ses jambes de devant sont devenues plus longues que celles de derrière, et que son col s’est tellement allongé, que la giraffe, sans se dresser sur les jambes de derrière, élève sa tête et atteint à six mètres de hauteur (près de vingt pieds). » – Lamarck, [Philosophie Zoologique 1809, p. 256] 7 / 30 Introduction Baldwin NN plastiques Darwin « Le changement des habitudes produit des effets héréditaires ; on pourrait citer, par exemple, l’époque de la floraison des plantes transportées d’un climat dans un autre. Chez les animaux, l’usage ou le non-usage des parties a une influence plus considérable encore. Ainsi, proportionnellement au reste du squelette, les os de l’aile pèsent moins et les os de la cuisse pèsent plus chez le canard domestique que chez le canard sauvage. Or, on peut incontestablement attribuer ce changement à ce que le canard domestique vole moins et marche plus que le canard sauvage. Nous pouvons encore citer, comme un des effets de l’usage des parties, le développement considérable, transmissible par hérédité, des mamelles chez les vaches et chez les chèvres dans les pays où l’on a l’habitude de traire ces animaux, comparativement à l’état de ces organes dans d’autres pays. » – C. Darwin, [L’origine des espèces 1859, Chap. I] En fait, même Darwin croyait à la transmission des caractères acquis (apport de Darwin : sélection naturelle) 8 / 30 Introduction Baldwin NN plastiques Baldwin • Lamarck (et Darwin) avait tort : les parents ne transmettent pas directement ce qu’ils ont appris à leur progéniture • ... mais est-ce qu’il n’y a vraiment pas de transmission des caractères acquis ? d’après Baldwin (1861-1934), c’est possible ! Ô transmission indirecte via la pression de sélection Baldwin, J.M. (1896) A New Factor in Evolution The American Naturalist, Vol. 30, No. 354 (Jun., 1896), pp. 441-451 9 / 30 Introduction Baldwin NN plastiques Baldwin (2) Explication sur un écosystème de type proie prédateur : • apparition d’un nouveau prédateur • découverte d’un comportement augmentant les chances de survie des proies • les individus capables d’acquérir ce comportement par apprentissage sont favorisés • parmi ceux-ci, ceux qui apprennent le plus vite augmentent encore leur chance de survie • ceux qui ont ce comportement dès le début ont encore plus de chances de survivre ! Ô le caractère est passé de l’appris au génotype Ô l’apprentissage a guidé l’évolution 10 / 30 Introduction Baldwin NN plastiques Simulations informatiques Est-ce que ce scénario est possible ? • Problème de test : trouver une chaîne binaire exacte • A la moindre erreur : fitness nulle, sinon, fitness de 1 • Génome : séquence de ’0’, ’1’ et ’ ?’ • → évolution = recherche aléatoire ! Hinton, G. and Nowlan, S. (1987) How learning can guide evolution Complex Systems, 1987, 1, 495-502 11 / 30 Introduction Baldwin NN plastiques Avec de la plasticité... Les ’ ?’ permettent de tester plusieurs solutions. Exemple : 0010110110110 0011010110101 0010010110011 001 ? ?10110 ? ? ? Ô 0011110110111 ... • chances de reproduction inversement proportionnelles à (1 + 19n)/100, où n est le nombre d’étapes nécessaires pour atteindre la solution 12 / 30 Introduction Baldwin NN plastiques Transformation de l’espace de recherche • L’évolution ne cherche plus une aiguille dans une meule de foin • Elle est guidée par l’apprentissage 13 / 30 Introduction Baldwin NN plastiques Fréquence des allèles 14 / 30 Introduction Baldwin NN plastiques Heterochronous Neural Baldwinism • Comment transférer la connaissance de milliards de poids synaptiques dans seulement 25,000 gènes ? Ô baldwinisme peu probable pour l’intelligence Ô alternative : déplacement de caractères acquis pendant la vie vers des caractères acquis pendant le développement initial (fétus, etc.) 15 / 30 Introduction Baldwin NN plastiques Conclusion : effet Baldwin • intérêt classique de l’apprentissage : l’environnement est incertain Ô il y a un clairement une pression de sélection sur la capacité à s’adapter rapidement aux changements • effet Baldwin : la plasticité/l’apprentissage peut aussi guider l’évolution pour améliorer les espèces y compris pour ce qui ne change pas. 16 / 30 Introduction Baldwin NN plastiques Évolution de réseaux de neurones plastiques 17 / 30 Introduction Baldwin NN plastiques Plasticité Comment un réseau de neurones (biologique) peut-il s’adapter ? • Règle de Hebb (1949) : une connection se renforce quand deux neurones ont une activité corrélée : ∆wij = A · ai · aj • Règle étendue : ∆wij = A · ai · aj + B · ai + C · aj + D Ô apprentissage associatif (non supervisé, sans signal d’erreur) • prise en compte des différences de temps entre les spikes des neurones afférents et efférents : Spike-timing-dependent plasticity (STDP) 18 / 30 Introduction Baldwin NN plastiques Neuro-modulation • La plasticité peut être régulée par d’autres neurones qui émettent des neuro-transmetteurs (ex. la dopamine) • Règle de Hebb neuro-modulée : ∆wij = m · A · ai · aj + B · ai + C · aj + D où m est la sortie d’un neurone modulateur 19 / 30 Introduction Baldwin NN plastiques Défis • Temps d’évaluation • Fitness trompeuse • Complexité des dynamiques • Complexité de la « machinerie » Ô beaucoup de travaux infructueux dans ce domaine... 20 / 30 Introduction Baldwin NN plastiques Plasticité pour la robustesse • Pas de neuro-modulation, pas de récompenses • Évolution de la règle pour chaque neurone Urzelai, J. and Floreano(2001) Evolution of adaptive synapses : Robots with fast adaptive behavior in new environments Evolutionary Computation 21 / 30 Introduction Baldwin NN plastiques Plasticité pour la robustesse (3) Quatre types de règles : • Loi de Hebb : ∆w = (1 − w)xy • Loi postsynaptique : ∆w = w(x − 1)y + (1 − w)xy • Loi présynaptique : ∆w = wx(y − 1) + (1 − w)xy (1 − w)f (x, y ) si f (x, y ) > 0 • Loi de covariance : ∆w = wf (x, y ) sinon 22 / 30 Introduction Baldwin NN plastiques Plasticité pour la robustesse (3) Résultats : individus plus robustes • changement des couleurs • transfert de la simulation au robots physiques • transfert entre différentes plateformes robotiques • ré-arangement de l’environnement « These behaviors are not learned in the classic meaning of the term because they are not necessarily retained forever. For example, the ability to visually locate the black stripe on the wall and move towards it is acquired at a certain stage and disappears once it is no longer necessary. » (Urzelai and Floreano, 2001) Ô dynamique utile mais pas d’apprentissage à long terme 23 / 30 Introduction Baldwin NN plastiques Plasticité pour l’apprentissage par renforcement • on veut prendre en compte une récompense 24 / 30 Introduction Baldwin NN plastiques Résultats • Soltoggio et al : neuromodulation + environnement discret Ô meilleures performances avec la neuro-modulation Ô apprentissage ? uniquement des dynamiques utiles ? Soltoggio et al. (2009) Evolutionary Advantages of Neuromodulated Plasticity in Dynamic, Reward-based Scenarios Artificial Life XI 25 / 30 Introduction Baldwin NN plastiques Résultats (2) Soltoggio et al. (2009) Evolutionary Advantages of Neuromodulated Plasticity in Dynamic, Reward-based Scenarios Artificial Life XI 26 / 30 Introduction Baldwin NN plastiques Nouveauté • Tester la capacité d’apprendre est une fitness très trompeuse pour un algorithme évolutionniste • Alternative : • utiliser une distance comportementale • optimiser la nouveauté du comportement et pas la fitness (Novelty search) J. Lehman and K. O. Stanley (2010) Abandoning Objectives : Evolution Through the Search for Novelty Alone Evolutionary Computation 27 / 30 Introduction Baldwin NN plastiques Nouveauté (2) • même expérience (T-maze + neuro-modulation) • codage : NEAT • description comportementale : chaque test d’apprentissage = (reward, crashed) Ô vecteur de la description de chaque test • distance : distance entre les vecteur de comportement Risi et al. (2009) How novelty search escapes the deceptive trap of learning to learn Proc. of GECCO’09 28 / 30 Introduction Baldwin NN plastiques Nouveauté (2) Risi et al. (2009) How novelty search escapes the deceptive trap of learning to learn Proc. of GECCO’09 29 / 30 Introduction Baldwin NN plastiques Conclusion 30 / 30