Évolution de réseaux de neurones plastiques

publicité
Évolution de réseaux de neurones plastiques
Jean-Baptiste Mouret
ISIR (UPMC/CNRS), Paris, France
http://www.isir.upmc.fr
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
But général : concevoir automatique des
neuro-contrôleurs avec des capacités
d’adaptation en ligne
Ô contrôle d’agent autonomes (robots)
Approche animat / bio-inspirée:
Évolution de réseaux de neurones
(neuro-évolution)
Mécanismes de plasticité inspirés des
neurosciences
2 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Évolution de réseaux de neurones
Neural
network
Population of
neural networks
Simulation
of behavior
Dynamic
environment
Variation
Selection
3 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Évolution de réseaux de neurones plastiques
Plastic neural
network
Population of
neural networks
Simulation
of behavior
Adaptation
Dynamic
environment
Variation
Selection
4 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Lamarck (1744-1829)
Première théorie de l’évolution (avant Darwin)
Transmission des caractères acquis
5 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Lamarck (2)
« Relativement aux habitudes, il est curieux d’en observer le produit dans
la forme particulière et la taille de la girafe (camelo-pardalis) : on sait
que cet animal, le plus grand des mammifères, habite l’intérieur de
l’Afrique, et qu’il vit dans des lieux où la terre, presque toujours aride et
sans herbage, l’oblige de brouter le feuillage des arbres, et de s’efforcer
continuellement d’ y atteindre. Il est résulté de cette habitude, soutenue,
depuis longtemps, dans tous les individus de sa race, que ses jambes de
devant sont devenues plus longues que celles de derrière, et que son col
s’est tellement allongé, que la giraffe, sans se dresser sur les jambes de
derrière, élève sa tête et atteint à six mètres de hauteur (près de vingt
pieds). »
– Lamarck, [Philosophie Zoologique 1809, p. 256]
6 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Darwin
« Le changement des habitudes produit des effets héréditaires ; on
pourrait citer, par exemple, l’époque de la floraison des plantes
transportées d’un climat dans un autre. Chez les animaux, l’usage ou le
non-usage des parties a une influence plus considérable encore. Ainsi,
proportionnellement au reste du squelette, les os de l’aile pèsent moins et
les os de la cuisse pèsent plus chez le canard domestique que chez le
canard sauvage. Or, on peut incontestablement attribuer ce changement
à ce que le canard domestique vole moins et marche plus que le canard
sauvage. Nous pouvons encore citer, comme un des effets de l’usage des
parties, le développement considérable, transmissible par hérédité, des
mamelles chez les vaches et chez les chèvres dans les pays où l’on a
l’habitude de traire ces animaux, comparativement à l’état de ces organes
dans d’autres pays.»
– C. Darwin, [L’origine des espèces 1859, Chap. I]
En fait, même Darwin croyait à la transmission des caractères
acquis (apport de Darwin : sélection naturelle)
7 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Baldwin
Lamarck (et Darwin) avait tort : les parents ne transmettent pas
directement ce qu’ils ont appris à leur progéniture
... mais est-ce qu’il n’y a vraiment pas de transmission des
caractères acquis ?
d’après Baldwin (1861-1934), c’est possible !
Ô transmission indirecte via la pression de sélection
Baldwin, J. M. (1896).
A new factor in evolution.
The american naturalist, 30(355):536–553.
8 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Baldwin (2)
Explication sur un écosystème de type proie prédateur:
apparition d’un nouveau prédateur
découverte d’un comportement augmentant les chances de survie
des proies
les individus capables d’acquérir ce comportement par apprentissage
sont favorisés
parmi ceux-ci, ceux qui apprennent le plus vite augmentent encore
leur chance de survie
ceux qui ont ce comportement dès le début ont encore plus de
chances de survivre !
Ô le caractère est passé de l’appris au génotype
Ô l’apprentissage a guidé l’évolution
9 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Simulations informatiques
Est-ce que ce scénario est possible ?
Problème de test : trouver une chaîne binaire exacte
A la moindre erreur: fitness nulle, sinon, fitness de 1
Génome: séquence de ’0’, ’1’ et ’ ?’
→ évolution = recherche aléatoire !
10 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Avec de la plasticité...
Les ’ ?’ permettent de tester plusieurs solutions.
Exemple:
0010110110110
0011010110101
0010010110011
001??10110??? Ô
0011110110111
...
chances de reproduction inversement proportionnelles à
(1 + 19n)/100, où n est le nombre d’étapes nécessaires pour
atteindre la solution
11 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Transformation de l’espace de recherche
L’évolution ne cherche plus une aiguille dans une meule de foin
Elle est guidée par l’apprentissage
12 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Fréquence des allèles
13 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Heterochronous Neural Baldwinism
Comment transférer la connaissance de milliards de poids
synaptiques dans seulement 25,000 gènes ?
Ô baldwinisme peu probable pour l’intelligence
Ô alternative : déplacement de caractères acquis pendant la vie vers
des caractères acquis pendant le développement initial (fétus, etc.)
14 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Conclusion : effet Baldwin
intérêt classique de l’apprentissage : l’environnement est incertain
Ô il y a un clairement une pression de sélection sur la capacité à
s’adapter rapidement aux changements
effet Baldwin : la plasticité/l’apprentissage peut aussi guider
l’évolution pour améliorer les espèces y compris pour ce qui ne
change pas.
15 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Plasticité structurelle ou synaptique ?
Plasticité structurelle
La plasticité structurelle est le mécanisme qui décrit la génération
de nouvelles connections et ainsi redéfini la topologie du réseau.
Plasticité synaptique
La plasticité synaptique est le mécanisme qui change la force des
connections existantes. Elle est parfois appelée « plasticité
fonctionnelle ».
Trappenberg, T. P. (2009).
Fundamentals of Computational Neuroscience (2. ed.).
Oxford University Press.
16 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Plasticité structurelle
Evolved
neural networks
Static
neural networks
Plastic
neural networks
Double cartpole
Structural
plasticity
Functional/synaptic
plasticity
Exemple : [Nolfi et al., 1994]
gènes: position + instructions de croissance
Les instructions sont exécutées quand les neurones sont stimulés
Nolfi, S., Miglino, O., and Parisi, D. (1994).
Phenotypic plasticity in evolving neural networks.
In From Perception to Action Conference, Proceedings, pages 146–157. IEEE.
17 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Plasticité synaptique
La plupart des travaux sont basés sur la règle de Hebb :
wij (t + 1) = wij (t) + ∆wij
∆wij
= η · ai · aj
(1)
(2)
wij : poids synaptique entre i et j
ai : activation du neurone i
η: « taux d’apprentissage ».
Extension/généralisation
∆wij = f (ai , aj , wij )
(3)
18 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Plasticité hebbienne : exemple
Toutes les synapses sont plastiques
L’évolution sélectionne la variante de règle de Hebb pour chaqu
synapse
Urzelai, J. and Floreano, D. (2001).
Evolution of adaptive synapses: Robots with fast adaptive behavior in new environments.
Evolutionary Computation, 9(4):495–524.
19 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Règle hebbienne modulée
(aussi appelée plasticité hétérosynaptique)
Modulatory
Neuron
>0
<0
Signal
Neuron
Un paramètre évolué défini le type de neurone
(modulateur/modulé)
X
mi = ϕ2
wij aj
(4)
j∈Im
∆wij
= mi · f (ai , aj , wij )
(5)
Bailey, C. H., Giustetto, M., Huang, Y. Y., Hawkins, R. D., and
Kandel, E. R. (2000).
Is heterosynaptic modulation essential for stabilizing Hebbian plasticity and memory?
Nature reviews. Neuroscience, 1(1):11–20.
20 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Plasticité synaptique : exemple
inputs
Bias
-4.55
MOD 1
M-E
Turn
Reward
Home
-2.85
-2.58
-2.12
-1.57
8.23
8.25
Out
ST 1
2.01
0.23
-2.58
MOD 2
-9.93
-8.48
Soltoggio, A., Dürr, P., Mattiussi, C., and Floreano, D. (2007).
Evolving neuromodulatory topologies for reinforcement learning-like problems.
Proc. of CEC.
21 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Pourquoi faire évoluer des NN plastiques ?
Robustesse comportementale
Un agent montre de la robustesse comportementale lorsqu’il garde
qualitativement le même comportement en présence de
changements environnementaux et morphologiques. Généralement
il n’y a pas de système de récompense.
Exemple
transfert de simulation vers robot réel
transfert entre différents robots
ré-arrangement de l’environnement
“These behaviors were not learned in the classic meaning of the term
because they were not necessarily retained forever”
Urzelai, J. and Floreano, D. (2001).
Evolution of adaptive synapses: Robots with fast adaptive behavior in new environments.
Evolutionary Computation, 9(4):495–524.
22 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Pourquoi faire évolution des NNs plastiques ?
Changement comportemental
Un agent plastique est capable de changements comportementaux
dans des scénarios incluant des récompenses si et seulement si :
un changement du système de récompense le fait adopter un
comportement qualitativement nouveau
le NN ne change pas significativement une fois qu’un comportement
optimal a été atteint
inputs
Turn
M-E
Home
Reward
Agent
with neural
controller
A
network output
right turn
go
straigh
T
R
1
0.33
R
output
value
-0.33
-1
left turn
H
A
Soltoggio, A., Dürr, P., Mattiussi, C., and Floreano, D. (2007).
Evolving neuromodulatory topologies for reinforcement learning-like problems.
Proc. of CEC.
23 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Evolved
neural networks
Static
neural networks
Plastic
neural networks
Double cartpole
Structural
plasticity
Unsupervised
Hebbian learning
Functional/synaptic
plasticity
Behavioral robustness
(no reward)
Behavioral
changes (reward/error)
Supervised learning
Reinforcement learning
Reality gap
Circular corridor
24 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Comment sélectionner les réseaux de neurones plastiques
capables d’apprendre?
Tester toute les positions possibles de récompense
Vérifier que l’agent apprend le comportement optimal dans chaque
situation
Exemple : T-maze [Soltoggio et al., 2007]
Problèmes
Ô évaluation de la fitness très lente
Ô est-ce que l’on fait vraiment évoluer des capacités d’apprentissage?
En fait, on fait évoluer la capacité à sélectionner le bon
comportement parmi plusieurs
Soltoggio, A., Dürr, P., Mattiussi, C., and Floreano, D. (2007).
Evolving neuromodulatory topologies for reinforcement learning-like problems.
Proc. of CEC.
25 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Evolved
neural networks
Static
neural networks
Plastic
neural networks
Double cartpole
Structural
plasticity
Unsupervised
Hebbian learning
Functional/synaptic
plasticity
Behavioral robustness
(no reward)
Behavioral
changes (reward/error)
Supervised learning
Reinforcement learning
Reality gap
Circular corridor
Behavioral
switch
Acquisition of
new behaviors
T-maze / H-maze
Light switch
Changement comportemental : tous les scénarios ont été rencontrés
pendant l’évolution
Acquisition de nouveaux comportements : l’agent peut apprendre
des nouveaux comportements dans situations qui n’ont jamais été
rencontrées pendant l’évolution
26 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Les capacités d’apprentissage sont ce qui compte
Ô nous voulons des agents qui peut réagir à des situations
inconnues
Évaluer les capacités d’apprentissage est facile..
1
faire évoluer des NNs avec un sous-ensemble des scénarios possibles
2
après évolution, vérifier que le réseau peut apprendre dans des
scénarios qui n’ont pas été utilisés pendant l’évolution
... mais les capacités d’apprentissage ne sont presque jamais
évaluées !
[Chalmers, 1990] (apprentissage supervisé)
[Tonelli and Mouret, 2011] (boite de Skinner)
Chalmers, D. (1990).
The evolution of learning: An experiment in genetic connectionism.
Connectionist Models Summer School,.
Tonelli, P. and Mouret, J.-B. (2011).
On the Relationships between Synaptic Plasticity and Generative Systems.
In Proc. of GECCO.
27 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Capacités d’apprentissage : exemple
I : Lights (stimuli)
Reward+ :
Food Dispenser
O : Levers
(actions)
Reward - :
Electric shock
Generator
pendant l’évolution : vérifier si N jeux d’association peuvent être
appris
après l’évolution : vérifier si tous les jeux d’association peuvent être
appris
28 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Vers de meilleures capacités d’apprentissage
Sélectionner un sous-ensemble de situations [Chalmers, 1990]
nécessite un grand nombre de situations
Ô fitness longue
Choisir des situations aléatoires [Niv et al., 2002]
pour chaque évaluation de fitness, choisir un sous-ensemble de
situation
Ô fitness bruitées et potentiellement lente
Chalmers, D. (1990).
The evolution of learning: An experiment in genetic connectionism.
Connectionist Models Summer School,.
Niv, Y., Joel, D., Meilijson, I., and Ruppin, E. (2002).
Evolution of Reinforcement Learning in Uncertain Environments: A Simple Explanation for
Complex Foraging Behaviors.
Adaptive Behavior, 10(1):5–24.
29 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Idée récente : le rôle du développement
Encodage génératifs
1.0
0.9
Ô structures régulières
0.8
0.7
GLA score
apprendre sur un petit sous-ensemble
+ régularité
0.6
0.5
Ô duplication des structures
d’apprentissage sans sélection explicite
0.4
0.3
0.2
1
2
3
4
5
6
Number of rule sets used for training
7
Ô augmente les capacités d’apprentissage
GDS: EvoNeuro, GDS: HyperCPPN,
Direct Encoding
Tonelli, P. and Mouret, J.-B. (2011).
On the Relationships between Synaptic Plasticity and Generative Systems.
In Proc. of GECCO.
30 / 31
Introduction
Effet Baldwin
Plasticité
Robustesse / récompense
Capacités d’apprentissage
Conclusion
Conclusion
Evolved
neural networks
Static
neural networks
Plastic
neural networks
Double cartpole
Structural
plasticity
Unsupervised
Hebbian learning
Functional/synaptic
plasticity
Behavioral robustness
(no reward)
Behavioral
changes (reward/error)
Supervised learning
Reinforcement learning
Reality gap
Circular corridor
Behavioral
switch
General learning
abilities (GLA)
Acquisition of
new behaviors
T-maze / H-maze
Light switch
Discrete
behaviors
Skinner box
Bumblebee
Continuous
behavior
?
31 / 31
Téléchargement