Évolution et plasticité - Master informatique

publicité
Évolution et plasticité
Jean-Baptiste Mouret
ISIR (UPMC), Paris, France
http://www.isir.upmc.fr
Introduction
Baldwin
NN plastiques
Introduction
2 / 30
Introduction
Baldwin
NN plastiques
Introduction
• Les réseaux de neurones des êtres vivants sont capables
de s’adapter pendant la vie de l’animal
• apprentissage
• développement (cf plantes)
• caractéristique importante de leur efficacité
• différence importante avec le non-vivant
Ô peut-on obtenir des agents apprenants par évolution ?
comment ?
Ô qu’est-ce que cela change pour l’évolution ?
3 / 30
Introduction
Baldwin
NN plastiques
Apprentissage et plasticité
Dans ce cours (définition pas forcément universellement
admises...) :
• plasticité : capacité d’un agent à changer pendant sa vie
(changer de forme, changer le poids synaptique d’une
connexion, ...) en fonction de signaux extérieurs
• apprentissage : utilisation de la plasticité pour maximiser
une récompense ou minimiser une erreur
4 / 30
Introduction
Baldwin
NN plastiques
Effet Baldwin
5 / 30
Introduction
Baldwin
NN plastiques
Lamarck (1744-1829)
• Première théorie de l’évolution (avant Darwin)
• Transmission des caractères acquis
6 / 30
Introduction
Baldwin
NN plastiques
Lamarck (2)
« Relativement aux habitudes, il est curieux d’en observer le produit
dans la forme particulière et la taille de la girafe (camelo-pardalis) :
on sait que cet animal, le plus grand des mammifères, habite
l’intérieur de l’Afrique, et qu’il vit dans des lieux où la terre, presque
toujours aride et sans herbage, l’oblige de brouter le feuillage des
arbres, et de s’ efforcer continuellement d’ y atteindre. Il est résulté de
cette habitude, soutenue, depuis longtemps, dans tous les individus
de sa race, que ses jambes de devant sont devenues plus longues
que celles de derrière, et que son col s’est tellement allongé, que la
giraffe, sans se dresser sur les jambes de derrière, élève sa tête et
atteint à six mètres de hauteur (près de vingt pieds). »
– Lamarck, [Philosophie Zoologique 1809, p. 256]
7 / 30
Introduction
Baldwin
NN plastiques
Darwin
« Le changement des habitudes produit des effets héréditaires ; on
pourrait citer, par exemple, l’époque de la floraison des plantes
transportées d’un climat dans un autre. Chez les animaux, l’usage ou
le non-usage des parties a une influence plus considérable encore.
Ainsi, proportionnellement au reste du squelette, les os de l’aile
pèsent moins et les os de la cuisse pèsent plus chez le canard
domestique que chez le canard sauvage. Or, on peut
incontestablement attribuer ce changement à ce que le canard
domestique vole moins et marche plus que le canard sauvage. Nous
pouvons encore citer, comme un des effets de l’usage des parties, le
développement considérable, transmissible par hérédité, des
mamelles chez les vaches et chez les chèvres dans les pays où l’on
a l’habitude de traire ces animaux, comparativement à l’état de ces
organes dans d’autres pays. »
– C. Darwin, [L’origine des espèces 1859, Chap. I]
En fait, même Darwin croyait à la transmission des caractères
acquis (apport de Darwin : sélection naturelle)
8 / 30
Introduction
Baldwin
NN plastiques
Baldwin
• Lamarck (et Darwin) avait tort : les parents ne transmettent
pas directement ce qu’ils ont appris à leur progéniture
• ... mais est-ce qu’il n’y a vraiment pas de transmission des
caractères acquis ?
d’après Baldwin (1861-1934), c’est possible !
Ô transmission indirecte via la pression de sélection
Baldwin, J.M. (1896)
A New Factor in Evolution
The American Naturalist, Vol. 30, No. 354 (Jun., 1896), pp. 441-451
9 / 30
Introduction
Baldwin
NN plastiques
Baldwin (2)
Explication sur un écosystème de type proie prédateur :
• apparition d’un nouveau prédateur
• découverte d’un comportement augmentant les chances
de survie des proies
• les individus capables d’acquérir ce comportement par
apprentissage sont favorisés
• parmi ceux-ci, ceux qui apprennent le plus vite augmentent
encore leur chance de survie
• ceux qui ont ce comportement dès le début ont encore
plus de chances de survivre !
Ô le caractère est passé de l’appris au génotype
Ô l’apprentissage a guidé l’évolution
10 / 30
Introduction
Baldwin
NN plastiques
Simulations informatiques
Est-ce que ce scénario est possible ?
• Problème de test : trouver une chaîne binaire exacte
• A la moindre erreur : fitness nulle, sinon, fitness de 1
• Génome : séquence de ’0’, ’1’ et ’ ?’
• → évolution = recherche aléatoire !
Hinton, G. and Nowlan, S. (1987)
How learning can guide evolution
Complex Systems, 1987, 1, 495-502
11 / 30
Introduction
Baldwin
NN plastiques
Avec de la plasticité...
Les ’ ?’ permettent de tester plusieurs solutions.
Exemple :
0010110110110
0011010110101
0010010110011
001 ? ?10110 ? ? ? Ô
0011110110111
...
• chances de reproduction inversement proportionnelles à
(1 + 19n)/100, où n est le nombre d’étapes nécessaires
pour atteindre la solution
12 / 30
Introduction
Baldwin
NN plastiques
Transformation de l’espace de recherche
• L’évolution ne cherche plus une aiguille dans une meule de
foin
• Elle est guidée par l’apprentissage
13 / 30
Introduction
Baldwin
NN plastiques
Fréquence des allèles
14 / 30
Introduction
Baldwin
NN plastiques
Heterochronous Neural Baldwinism
• Comment transférer la connaissance de milliards de poids
synaptiques dans seulement 25,000 gènes ?
Ô baldwinisme peu probable pour l’intelligence
Ô alternative : déplacement de caractères acquis pendant la
vie vers des caractères acquis pendant le développement
initial (fétus, etc.)
15 / 30
Introduction
Baldwin
NN plastiques
Conclusion : effet Baldwin
• intérêt classique de l’apprentissage : l’environnement est
incertain
Ô il y a un clairement une pression de sélection sur la
capacité à s’adapter rapidement aux changements
• effet Baldwin : la plasticité/l’apprentissage peut aussi
guider l’évolution pour améliorer les espèces y compris
pour ce qui ne change pas.
16 / 30
Introduction
Baldwin
NN plastiques
Évolution de réseaux de
neurones plastiques
17 / 30
Introduction
Baldwin
NN plastiques
Plasticité
Comment un réseau de neurones (biologique) peut-il
s’adapter ?
• Règle de Hebb (1949) : une connection se renforce quand
deux neurones ont une activité corrélée :
∆wij = A · ai · aj
• Règle étendue :
∆wij = A · ai · aj + B · ai + C · aj + D
Ô apprentissage associatif (non supervisé, sans signal
d’erreur)
• prise en compte des différences de temps entre les spikes
des neurones afférents et efférents :
Spike-timing-dependent plasticity (STDP)
18 / 30
Introduction
Baldwin
NN plastiques
Neuro-modulation
• La plasticité peut être régulée par d’autres neurones qui
émettent des neuro-transmetteurs (ex. la dopamine)
• Règle de Hebb neuro-modulée :
∆wij = m · A · ai · aj + B · ai + C · aj + D
où m est la sortie d’un neurone modulateur
19 / 30
Introduction
Baldwin
NN plastiques
Défis
• Temps d’évaluation
• Fitness trompeuse
• Complexité des dynamiques
• Complexité de la « machinerie »
Ô beaucoup de travaux infructueux dans ce domaine...
20 / 30
Introduction
Baldwin
NN plastiques
Plasticité pour la robustesse
• Pas de neuro-modulation, pas de récompenses
• Évolution de la règle pour chaque neurone
Urzelai, J. and Floreano(2001)
Evolution of adaptive synapses : Robots with fast adaptive behavior in new environments
Evolutionary Computation
21 / 30
Introduction
Baldwin
NN plastiques
Plasticité pour la robustesse (3)
Quatre types de règles :
• Loi de Hebb : ∆w = (1 − w)xy
• Loi postsynaptique : ∆w = w(x − 1)y + (1 − w)xy
• Loi présynaptique : ∆w = wx(y − 1) + (1 − w)xy
(1 − w)f (x, y ) si f (x, y ) > 0
• Loi de covariance : ∆w =
wf (x, y )
sinon
22 / 30
Introduction
Baldwin
NN plastiques
Plasticité pour la robustesse (3)
Résultats : individus plus robustes
• changement des couleurs
• transfert de la simulation au robots physiques
• transfert entre différentes plateformes robotiques
• ré-arangement de l’environnement
« These behaviors are not learned in the classic meaning of the
term because they are not necessarily retained forever. For
example, the ability to visually locate the black stripe on the wall
and move towards it is acquired at a certain stage and
disappears once it is no longer necessary. » (Urzelai and
Floreano, 2001)
Ô dynamique utile mais pas d’apprentissage à long terme
23 / 30
Introduction
Baldwin
NN plastiques
Plasticité pour l’apprentissage par renforcement
• on veut prendre en compte une récompense
24 / 30
Introduction
Baldwin
NN plastiques
Résultats
• Soltoggio et al : neuromodulation + environnement discret
Ô meilleures performances avec la neuro-modulation
Ô apprentissage ? uniquement des dynamiques utiles ?
Soltoggio et al. (2009)
Evolutionary Advantages of Neuromodulated Plasticity in Dynamic, Reward-based Scenarios
Artificial Life XI
25 / 30
Introduction
Baldwin
NN plastiques
Résultats (2)
Soltoggio et al. (2009)
Evolutionary Advantages of Neuromodulated Plasticity in Dynamic, Reward-based Scenarios
Artificial Life XI
26 / 30
Introduction
Baldwin
NN plastiques
Nouveauté
• Tester la capacité d’apprendre est une fitness très
trompeuse pour un algorithme évolutionniste
• Alternative :
• utiliser une distance comportementale
• optimiser la nouveauté du comportement et pas la fitness
(Novelty search)
J. Lehman and K. O. Stanley (2010)
Abandoning Objectives : Evolution Through the Search for Novelty Alone
Evolutionary Computation
27 / 30
Introduction
Baldwin
NN plastiques
Nouveauté (2)
• même expérience (T-maze + neuro-modulation)
• codage : NEAT
• description comportementale : chaque test
d’apprentissage = (reward, crashed) Ô vecteur de la
description de chaque test
• distance : distance entre les vecteur de comportement
Risi et al. (2009)
How novelty search escapes the deceptive trap of learning to learn
Proc. of GECCO’09
28 / 30
Introduction
Baldwin
NN plastiques
Nouveauté (2)
Risi et al. (2009)
How novelty search escapes the deceptive trap of learning to learn
Proc. of GECCO’09
29 / 30
Introduction
Baldwin
NN plastiques
Conclusion
30 / 30
Téléchargement