Évolution de réseaux de neurones plastiques Jean-Baptiste Mouret ISIR (UPMC/CNRS), Paris, France http://www.isir.upmc.fr Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion But général : concevoir automatique des neuro-contrôleurs avec des capacités d’adaptation en ligne Ô contrôle d’agent autonomes (robots) Approche animat / bio-inspirée: Évolution de réseaux de neurones (neuro-évolution) Mécanismes de plasticité inspirés des neurosciences 2 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Évolution de réseaux de neurones Neural network Population of neural networks Simulation of behavior Dynamic environment Variation Selection 3 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Évolution de réseaux de neurones plastiques Plastic neural network Population of neural networks Simulation of behavior Adaptation Dynamic environment Variation Selection 4 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Lamarck (1744-1829) Première théorie de l’évolution (avant Darwin) Transmission des caractères acquis 5 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Lamarck (2) « Relativement aux habitudes, il est curieux d’en observer le produit dans la forme particulière et la taille de la girafe (camelo-pardalis) : on sait que cet animal, le plus grand des mammifères, habite l’intérieur de l’Afrique, et qu’il vit dans des lieux où la terre, presque toujours aride et sans herbage, l’oblige de brouter le feuillage des arbres, et de s’efforcer continuellement d’ y atteindre. Il est résulté de cette habitude, soutenue, depuis longtemps, dans tous les individus de sa race, que ses jambes de devant sont devenues plus longues que celles de derrière, et que son col s’est tellement allongé, que la giraffe, sans se dresser sur les jambes de derrière, élève sa tête et atteint à six mètres de hauteur (près de vingt pieds). » – Lamarck, [Philosophie Zoologique 1809, p. 256] 6 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Darwin « Le changement des habitudes produit des effets héréditaires ; on pourrait citer, par exemple, l’époque de la floraison des plantes transportées d’un climat dans un autre. Chez les animaux, l’usage ou le non-usage des parties a une influence plus considérable encore. Ainsi, proportionnellement au reste du squelette, les os de l’aile pèsent moins et les os de la cuisse pèsent plus chez le canard domestique que chez le canard sauvage. Or, on peut incontestablement attribuer ce changement à ce que le canard domestique vole moins et marche plus que le canard sauvage. Nous pouvons encore citer, comme un des effets de l’usage des parties, le développement considérable, transmissible par hérédité, des mamelles chez les vaches et chez les chèvres dans les pays où l’on a l’habitude de traire ces animaux, comparativement à l’état de ces organes dans d’autres pays.» – C. Darwin, [L’origine des espèces 1859, Chap. I] En fait, même Darwin croyait à la transmission des caractères acquis (apport de Darwin : sélection naturelle) 7 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Baldwin Lamarck (et Darwin) avait tort : les parents ne transmettent pas directement ce qu’ils ont appris à leur progéniture ... mais est-ce qu’il n’y a vraiment pas de transmission des caractères acquis ? d’après Baldwin (1861-1934), c’est possible ! Ô transmission indirecte via la pression de sélection Baldwin, J. M. (1896). A new factor in evolution. The american naturalist, 30(355):536–553. 8 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Baldwin (2) Explication sur un écosystème de type proie prédateur: apparition d’un nouveau prédateur découverte d’un comportement augmentant les chances de survie des proies les individus capables d’acquérir ce comportement par apprentissage sont favorisés parmi ceux-ci, ceux qui apprennent le plus vite augmentent encore leur chance de survie ceux qui ont ce comportement dès le début ont encore plus de chances de survivre ! Ô le caractère est passé de l’appris au génotype Ô l’apprentissage a guidé l’évolution 9 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Simulations informatiques Est-ce que ce scénario est possible ? Problème de test : trouver une chaîne binaire exacte A la moindre erreur: fitness nulle, sinon, fitness de 1 Génome: séquence de ’0’, ’1’ et ’ ?’ → évolution = recherche aléatoire ! 10 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Avec de la plasticité... Les ’ ?’ permettent de tester plusieurs solutions. Exemple: 0010110110110 0011010110101 0010010110011 001??10110??? Ô 0011110110111 ... chances de reproduction inversement proportionnelles à (1 + 19n)/100, où n est le nombre d’étapes nécessaires pour atteindre la solution 11 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Transformation de l’espace de recherche L’évolution ne cherche plus une aiguille dans une meule de foin Elle est guidée par l’apprentissage 12 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Fréquence des allèles 13 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Heterochronous Neural Baldwinism Comment transférer la connaissance de milliards de poids synaptiques dans seulement 25,000 gènes ? Ô baldwinisme peu probable pour l’intelligence Ô alternative : déplacement de caractères acquis pendant la vie vers des caractères acquis pendant le développement initial (fétus, etc.) 14 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Conclusion : effet Baldwin intérêt classique de l’apprentissage : l’environnement est incertain Ô il y a un clairement une pression de sélection sur la capacité à s’adapter rapidement aux changements effet Baldwin : la plasticité/l’apprentissage peut aussi guider l’évolution pour améliorer les espèces y compris pour ce qui ne change pas. 15 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Plasticité structurelle ou synaptique ? Plasticité structurelle La plasticité structurelle est le mécanisme qui décrit la génération de nouvelles connections et ainsi redéfini la topologie du réseau. Plasticité synaptique La plasticité synaptique est le mécanisme qui change la force des connections existantes. Elle est parfois appelée « plasticité fonctionnelle ». Trappenberg, T. P. (2009). Fundamentals of Computational Neuroscience (2. ed.). Oxford University Press. 16 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Plasticité structurelle Evolved neural networks Static neural networks Plastic neural networks Double cartpole Structural plasticity Functional/synaptic plasticity Exemple : [Nolfi et al., 1994] gènes: position + instructions de croissance Les instructions sont exécutées quand les neurones sont stimulés Nolfi, S., Miglino, O., and Parisi, D. (1994). Phenotypic plasticity in evolving neural networks. In From Perception to Action Conference, Proceedings, pages 146–157. IEEE. 17 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Plasticité synaptique La plupart des travaux sont basés sur la règle de Hebb : wij (t + 1) = wij (t) + ∆wij ∆wij = η · ai · aj (1) (2) wij : poids synaptique entre i et j ai : activation du neurone i η: « taux d’apprentissage ». Extension/généralisation ∆wij = f (ai , aj , wij ) (3) 18 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Plasticité hebbienne : exemple Toutes les synapses sont plastiques L’évolution sélectionne la variante de règle de Hebb pour chaqu synapse Urzelai, J. and Floreano, D. (2001). Evolution of adaptive synapses: Robots with fast adaptive behavior in new environments. Evolutionary Computation, 9(4):495–524. 19 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Règle hebbienne modulée (aussi appelée plasticité hétérosynaptique) Modulatory Neuron >0 <0 Signal Neuron Un paramètre évolué défini le type de neurone (modulateur/modulé) X mi = ϕ2 wij aj (4) j∈Im ∆wij = mi · f (ai , aj , wij ) (5) Bailey, C. H., Giustetto, M., Huang, Y. Y., Hawkins, R. D., and Kandel, E. R. (2000). Is heterosynaptic modulation essential for stabilizing Hebbian plasticity and memory? Nature reviews. Neuroscience, 1(1):11–20. 20 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Plasticité synaptique : exemple inputs Bias -4.55 MOD 1 M-E Turn Reward Home -2.85 -2.58 -2.12 -1.57 8.23 8.25 Out ST 1 2.01 0.23 -2.58 MOD 2 -9.93 -8.48 Soltoggio, A., Dürr, P., Mattiussi, C., and Floreano, D. (2007). Evolving neuromodulatory topologies for reinforcement learning-like problems. Proc. of CEC. 21 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Pourquoi faire évoluer des NN plastiques ? Robustesse comportementale Un agent montre de la robustesse comportementale lorsqu’il garde qualitativement le même comportement en présence de changements environnementaux et morphologiques. Généralement il n’y a pas de système de récompense. Exemple transfert de simulation vers robot réel transfert entre différents robots ré-arrangement de l’environnement “These behaviors were not learned in the classic meaning of the term because they were not necessarily retained forever” Urzelai, J. and Floreano, D. (2001). Evolution of adaptive synapses: Robots with fast adaptive behavior in new environments. Evolutionary Computation, 9(4):495–524. 22 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Pourquoi faire évolution des NNs plastiques ? Changement comportemental Un agent plastique est capable de changements comportementaux dans des scénarios incluant des récompenses si et seulement si : un changement du système de récompense le fait adopter un comportement qualitativement nouveau le NN ne change pas significativement une fois qu’un comportement optimal a été atteint inputs Turn M-E Home Reward Agent with neural controller A network output right turn go straigh T R 1 0.33 R output value -0.33 -1 left turn H A Soltoggio, A., Dürr, P., Mattiussi, C., and Floreano, D. (2007). Evolving neuromodulatory topologies for reinforcement learning-like problems. Proc. of CEC. 23 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Evolved neural networks Static neural networks Plastic neural networks Double cartpole Structural plasticity Unsupervised Hebbian learning Functional/synaptic plasticity Behavioral robustness (no reward) Behavioral changes (reward/error) Supervised learning Reinforcement learning Reality gap Circular corridor 24 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Comment sélectionner les réseaux de neurones plastiques capables d’apprendre? Tester toute les positions possibles de récompense Vérifier que l’agent apprend le comportement optimal dans chaque situation Exemple : T-maze [Soltoggio et al., 2007] Problèmes Ô évaluation de la fitness très lente Ô est-ce que l’on fait vraiment évoluer des capacités d’apprentissage? En fait, on fait évoluer la capacité à sélectionner le bon comportement parmi plusieurs Soltoggio, A., Dürr, P., Mattiussi, C., and Floreano, D. (2007). Evolving neuromodulatory topologies for reinforcement learning-like problems. Proc. of CEC. 25 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Evolved neural networks Static neural networks Plastic neural networks Double cartpole Structural plasticity Unsupervised Hebbian learning Functional/synaptic plasticity Behavioral robustness (no reward) Behavioral changes (reward/error) Supervised learning Reinforcement learning Reality gap Circular corridor Behavioral switch Acquisition of new behaviors T-maze / H-maze Light switch Changement comportemental : tous les scénarios ont été rencontrés pendant l’évolution Acquisition de nouveaux comportements : l’agent peut apprendre des nouveaux comportements dans situations qui n’ont jamais été rencontrées pendant l’évolution 26 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Les capacités d’apprentissage sont ce qui compte Ô nous voulons des agents qui peut réagir à des situations inconnues Évaluer les capacités d’apprentissage est facile.. 1 faire évoluer des NNs avec un sous-ensemble des scénarios possibles 2 après évolution, vérifier que le réseau peut apprendre dans des scénarios qui n’ont pas été utilisés pendant l’évolution ... mais les capacités d’apprentissage ne sont presque jamais évaluées ! [Chalmers, 1990] (apprentissage supervisé) [Tonelli and Mouret, 2011] (boite de Skinner) Chalmers, D. (1990). The evolution of learning: An experiment in genetic connectionism. Connectionist Models Summer School,. Tonelli, P. and Mouret, J.-B. (2011). On the Relationships between Synaptic Plasticity and Generative Systems. In Proc. of GECCO. 27 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Capacités d’apprentissage : exemple I : Lights (stimuli) Reward+ : Food Dispenser O : Levers (actions) Reward - : Electric shock Generator pendant l’évolution : vérifier si N jeux d’association peuvent être appris après l’évolution : vérifier si tous les jeux d’association peuvent être appris 28 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Vers de meilleures capacités d’apprentissage Sélectionner un sous-ensemble de situations [Chalmers, 1990] nécessite un grand nombre de situations Ô fitness longue Choisir des situations aléatoires [Niv et al., 2002] pour chaque évaluation de fitness, choisir un sous-ensemble de situation Ô fitness bruitées et potentiellement lente Chalmers, D. (1990). The evolution of learning: An experiment in genetic connectionism. Connectionist Models Summer School,. Niv, Y., Joel, D., Meilijson, I., and Ruppin, E. (2002). Evolution of Reinforcement Learning in Uncertain Environments: A Simple Explanation for Complex Foraging Behaviors. Adaptive Behavior, 10(1):5–24. 29 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Idée récente : le rôle du développement Encodage génératifs 1.0 0.9 Ô structures régulières 0.8 0.7 GLA score apprendre sur un petit sous-ensemble + régularité 0.6 0.5 Ô duplication des structures d’apprentissage sans sélection explicite 0.4 0.3 0.2 1 2 3 4 5 6 Number of rule sets used for training 7 Ô augmente les capacités d’apprentissage GDS: EvoNeuro, GDS: HyperCPPN, Direct Encoding Tonelli, P. and Mouret, J.-B. (2011). On the Relationships between Synaptic Plasticity and Generative Systems. In Proc. of GECCO. 30 / 31 Introduction Effet Baldwin Plasticité Robustesse / récompense Capacités d’apprentissage Conclusion Conclusion Evolved neural networks Static neural networks Plastic neural networks Double cartpole Structural plasticity Unsupervised Hebbian learning Functional/synaptic plasticity Behavioral robustness (no reward) Behavioral changes (reward/error) Supervised learning Reinforcement learning Reality gap Circular corridor Behavioral switch General learning abilities (GLA) Acquisition of new behaviors T-maze / H-maze Light switch Discrete behaviors Skinner box Bumblebee Continuous behavior ? 31 / 31