Cours 2012: Le cerveau statisticien: L é l ti B é i i iti La révolution

publicité
Cours 2012:
Le cerveau statisticien:
L é l ti B é i
La révolution Bayésienne
en sciences cognitives
i
iti
Stanislas Dehaene
Stanislas
Dehaene
Chaire de Psychologie Cognitive Expérimentale
Cours n°7
Le cerveau vu comme un système prédictif
La notion de « codage prédictif » (predictive coding)
Mumford, 1992; Rao & Ballard, 1999; Friston, 2005
L’hypothèse du « cerveau Bayésien » suggère que notre cerveau infère, à partir des entrées sensorielles, un
partir des entrées sensorielles, un modèle interne du monde extérieur.
A son tour, ce modèle interne peut être utilisé pour créer des anticipations sur
utilisé pour créer des anticipations sur les entrées sensorielles… et un effet de surprise liée à l’erreur de prédiction quand celles‐ci sont violées.
quand celles‐ci sont violées
La notion de « codage prédictif » (predictive coding)
L’idée que le cerveau n’est pas un dispositif passif
d’entrée‐sortie, mais un système actif capable de
générer des prédictions et d’en vérifier la validité,
g
p
,
a une longue histoire dans les domaines de l’éthologie, de la psychologie, et des neurosciences.
 voir par exemple les concepts de copie o pa e e p e es co cepts de cop e
efférente (von Helmholtz, von Holst), de critique
interne (Sutton & Barto) ou de prédiction de la p
(
)
récompense (Schultz)
Les avantages en sont nombreux:
‐ gagner du temps: anticiper, c’est avoir l’information à l’avance, parfois avant même qu’elle
qu
elle atteigne nos récepteurs sensoriels
atteigne nos récepteurs sensoriels
‐ filtrer les entrées: utiliser le passé pour prédire le présent, c’est bénéficier d’un filtre optimal qui peut aider à interpréter une entrée bruitée, voire remplacer totalement un stimulus masqué manqué ou absent
stimulus masqué, manqué ou absent.
‐ simplifier l’architecture et le traitement des données: il n’est pas la peine de représenter ou de transmettre ce que l’on peut prédire.
‐ tirer des inférences optimales: maximiser la vraisemblance p(h|e) d’un modèle des i d i fé
i l
i i l
i
bl
(h| ) d’
dèl d
entrées sensorielles implique de minimiser l’erreur de prédiction sur ces entrées e. (Mumford, 1992; Rao & Ballard, 1999; Friston, 2005).
Le cerveau, l’algorithme E‐M et le principe de l’énergie libre
Friston K
Friston,
K. (2010)
(2010). The free-energy principle: a unified brain theory? Nat Rev Neurosci,
Neurosci 11(2),
11(2) 127
127-138.
138
Pour Karl Friston, l’hypothèse du codage prédictif s’inscrit dans un cadre théorique beaucoup plus large, le principe de minimisation de l’énergie libre:
‐ « tout système auto‐organisé en équilibre avec son environnement doit minimiser son énergie libre »
‐ Le principe de l’énergie libre est une « formulation mathématique de la manière dont les agents biologiques résistent à la tendance naturelle au désordre » : ils « maintiennent leur état dans un environnement changeant ».
‐ Les états de l’organisme doivent donc être de basse entropie : « les agents biologiques d i t i i i l
doivent minimiser la moyenne à long terme de la surprise
àl
t
d l
i ».
‐ L’énergie libre est une équation mathématique qui donne une borne supérieure sur la surprise: « si les agents minimisent l’énergie libre, ils minimisent implicitement la surprise ». ‐ Dans le domaine de la perception, le principe conduit à optimiser les inférences Dans le domaine de la perception le principe conduit à optimiser les inférences
perceptives. « L’agent infère ou représente, de façon implicite, les causes de ses entrées sensorielles selon les principes de l’inférence Bayésienne optimale »
LL’énergie
énergie libre peut être maximisée par l
libre peut être maximisée par l'algorithme
algorithme EM
EM (Expectation‐Maximisation), proposé (Expectation‐Maximisation) proposé
par Dempster et al. (1977): une procédure itérative qui, en alternant deux étapes (E et M) de façon répétée, permet de trouver le maximum de vraisemblance ou le maximum a posteriori des paramètres d’un
des paramètres d
un modèle probabiliste.
modèle probabiliste.
Friston propose que le cerveau utilise un algorithme EM, ce qui, si le modèle générateur est Gaussien, revient à propager des erreurs de prédiction.
Vers une théorie générale de l’organisation du cortex?
Friston, K. ((2005).
) A theory
y of cortical responses.
p
Philos Trans R Soc Lond B Biol Sci, 360(1456),
(
) 815-836.
Nos sensations sont générées par un réseau complexe et hiérarchique de causes.
Notre cortex cherche à inverser ce modèle (au sens de Bayes): inférer les causes cachées de nos sensations à tous les niveaux.
nos sensations à tous les niveaux.
La formalisation de ce problème invite à (1) assigner à chaque niveau d’inférence causale une aire spécifique (2) utiliser un algorithme bidirectionnel de passation de messages.
•Les neurones des couches L
d
h
inférieures implémentent la représentation des causes.
•Les connections
•Les connections descendantes implémentent le modèle prédictif (forward
model): la prédiction du
model): la prédiction du niveau n, sur la base des connaissances au niveau n+1.
•Les
Les connections ascendantes, connections ascendantes,
issues des couches supérieures du cortex, transmettent l’erreur de prédiction: la différence entre l’entrée reçue et sa prédiction.
Quelques phénomènes empiriques qui peuvent être capturés par le modèle du « codage prédictif »
‐
La « Mismatch negativity »: après plusieurs répétitions, la présentation d’un son déviant, inattendu, évoque une réponse cérébrale à la nouveauté.
Garrido, M. I., Kilner, J. M., Kiebel, S. J., & Friston, K. J. (2009). Dynamic causal modeling of the response to frequency deviants. J Neurophysiol, 101(5), 2620‐2631.
Quelques phénomènes empiriques qui peuvent être capturés par le modèle du « codage prédictif »
‐
La « Mismatch negativity »: après plusieurs répétitions, la présentation d’un son déviant, inattendu, évoque une réponse cérébrale à la nouveauté.
‐
D
De nombreuses autres réponses cérébrales sont évoquées par des stimulis
b
t
é
é éb l
té
é
d
ti li
inattendus ou qui violent une règle (MMN auditives à différents niveaux, visuelles, somatosensorielles, ELAN, N400, P3a et P3b). ‐ « Repetition
R titi suppression
i »: l’activation cérébrale diminue lorsqu’une image est l’ ti ti
é éb l di i
l
’
i
t
répétée (Miller & Desimone, 1991; Grill‐Spector et al, 2001; Naccache & Dehaene, 2001)
Débat: S’agit‐il d’une simple habituation, ou d’une authentique erreur de prédiction?
De nombreuses données récentes militent en faveur de l’hypothèse du codage prédictif:
1. Une réponse auditive est évoquée par l’absence d’un son attendu.
2. La MMN peut être évoquée par la répétition d
2. La MMN peut être évoquée par la répétition
d’un
un stimulus dans un paradigme stimulus dans un paradigme
ABABA… où c’est l’alternance qui est attendue.
Horvath, J., & Winkler, I. (2004). How the human auditory system treats repetition amongst change. Neurosci Lett, 368(2), 157‐161.
3. De même, Chris Summerfield montre que la repetition suppression est modulée par les attentes du sujet. Elle est fortement réduite lorsque les stimuli alternent et que c’est la répétition qui constitue un événement surprenant. Summerfield, C., Trittschuh, E. H., Monti, J. M., Mesulam, M. M., & Egner, T. (2008). Neural repetition suppression reflects fulfilled perceptual expectations. Nat Neurosci, 11(9), 1004‐1006.
Sensibilité à l’anticipation de la répétition dans le cortex auditif Todorovic, A.,
Todorovic
A van Ede,
Ede F.,
F Maris,
Maris E.,
E & de Lange,
Lange F.
F P.
P (2011).
(2011) Prior expectation mediates neural adaptation to
repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123.
Présentation d’un ou deux sons successifs (1000 Hz, 5 ms), séparés de 500 ms
Deux types de blocs distincts: 75% de
Deux types de blocs distincts: 75% de paires, 25% de sons uniques; ou l’inverse
Enregistrement MEG chez l’homme
Enregistrement MEG chez l
homme attentif (détection de rares déviants à 1200 Hz)
Sensibilité à l’anticipation de la répétition dans le cortex auditif Todorovic, A.,
Todorovic
A van Ede,
Ede F.,
F Maris,
Maris E.,
E & de Lange,
Lange F.
F P.
P (2011).
(2011) Prior expectation mediates neural adaptation to
repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123.
Dans l’espace temps‐fréquence, les réponses à un second stimulus sont fortement réduites l
lorsque le stimulus est anticipé.
l ti l
t ti i é
Sensibilité à l’anticipation de la répétition dans le cortex auditif Todorovic, A.,
Todorovic
A van Ede,
Ede F.,
F Maris,
Maris E.,
E & de Lange,
Lange F.
F P.
P (2011).
(2011) Prior expectation mediates neural adaptation to
repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123.
Inversement, l’omission d’un stimulus attendu se traduit par une vigoureuse décharge prolongée, particulièrement dans la bande gamma (>40 Hz).
Serait‐ce la trace de la prédiction elle‐même? Ou de la surprise évoquée par l’omission?
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque
dans le cortex inféro‐temporal du singe macaque
Meyer, T., & Olson, C. R. (2011). Statistical learning of visual transitions in monkey
inferotemporal cortex. Proc Natl Acad Sci U S A, 108(48), 19401-19406.
Les décharges des neurones du cortex inféro‐temporal
cortex inféro
temporal sont
sont‐
elles affectées par la prédictabilité des images?
•Fixation passive chez le singe éveillé
•Présentation de paires d’images avec une forte probabilité de transition
•Présence de rares paires dans laquelle cette transition probable est violée.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque
dans le cortex inféro‐temporal du singe macaque
Décharge moyenne de la population de neurones:
• La réponse à l’image prévisible est atténuée pratiquement dès le début
• En proportion directe
p p
de la réponse à l’image non‐prédite.
p
g
p
• La décharge neuronale contient plus d’information décodable sur l’image lorsqu’elle est imprévisible que lorsqu’elle est prédite.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque
dans le cortex inféro‐temporal du singe macaque
• La réponse à l’image 2 est toujours plus lente que pour l’image 1 (probablement parce qu’une
qu
une image remplace l
image remplace l’autre)
autre)
• La réponse à l’image prédite est légèrement accélérée
• L’effet de surprise survient exactement en même temps que la réponse à l’image non‐
prédite – la génération de l
prédite la génération de l’ «
« effet de surprise
effet de surprise » semble instantanée!
» semble instantanée!
• Cette observation n’est pas compatible avec un traitement sériel (identification de l’image, puis de sa nouveauté), mais semble nécessiter un codage prédictif.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque
dans le cortex inféro‐temporal du singe macaque
• L’habituation (ou adaptation) neuronale peut‐elle expliquer l’effet?
• Non, elle semble ne pas jouer un rôle important dans l’effet observé: La réponse à la deuxième image ne dépend absolument pas de l’amplitude
deuxième image ne dépend absolument pas de l
amplitude la réponse à la première la réponse à la première
image.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque
dans le cortex inféro‐temporal du singe macaque
AB (ordre appris)
BA (ordre inverse)
• L’effet est directionnel: l’image An prédit l’image Bn, mais pas l’inverse.
Conclusion: • la réponse du cortex inféro‐temporal traduit une anticipation du stimulus à venir
•les décharges neuronales reflètent l’erreur
•les décharges neuronales reflètent l
erreur de prédiction.
de prédiction
Une implémentation neuronale du codage prédictif
Memory trace ( fi chain)
(synfire
h i )
Wacongne,
C.,
J.
W
C Changeux,
Ch
J P.,
P &
Dehaene, S. (2012). A neuronal
model of predictive coding
accountingg for the mismatch
negativity. J Neurosci, in press.
Neuron index
time
Predictive
Population
Layer 2/3
P(A)
Learning : modification of synaptic weights
P(B)
Error signal
Prediction
Errror
layer4
Thalamic Input
(A)
( )
(B)
( )
A
B
NMDA dependent Spike‐Timing Dependent Plasticity
Dependent Plasticity
Une implémentation
neuronale du codage
g
prédictif
Wacongne, C.,
Wacongne
C Changeux,
Changeux J.
J
P., & Dehaene, S. (2012). A
neuronal model of predictive
codingg accounting
g for the
mismatch negativity. J
Neurosci, in press.
Résultats de la simulation
Oddball
Standard
Anticipation de A : résultat
é l de d
Predictive
l’apprentissage
Population
Layer 2/3
Erreur de prédiction
Prediction
résiduelle
Errror
layer4
Thalamic Input
Résultats de la simulation
Oddball
Deviant
Anticipation de A : résultat
é l de d
Predictive
l’apprentissage
Population
Layer 2/3
Erreur de prédiction
Prediction
résiduelle
Errror
layer4
Thalamic Input
L’effet de Mismatch Negativity
Oddball
Difference
Predictive
Population
Layer 2/3
Layer 2/3
Prediction
Errror
layer4
L’effet de Mismatch Negativity
Oddball
Effet 1 : existence
Predictive
Population
Layer 2/3
Layer 2/3
Prediction
Errror
layer4
Effet 1
Existence of a difference between the responses to standard and deviant sounds
Origine corticale de la MMN, et rôle du récepteur NMDA
Oddball
Effet 1 : existence
Effet 2 : localisation
Experimental data (CSD)
Predictive
Population
Layer 2/3
Layer 2/3
Javitt et al. (1996)
Prediction
Errror
layer4
Effet 2
Maximal difference in supragranular layer (Javitt 1996)
Effet de la fréquence des déviants
Oddball
Effet 1 : existence
Effet 2 : localisation
Effet 3 : frequency
Predictive
Population
Layer 2/3
Layer 2/3
Experimental Data (ERP)
10%
20%
30%
%
Prediction
Errror
layer4
Sato et al. (2000)
Effet 3
Increase in MMN amplitude if the deviant is less frequent(Sato 2000) La probabilité de transition entre les stimuli est directement
internalisée dans les poids synaptiques
La réponse à une répétition inattendue: le paradigme ABAB…
ABABAAB..
ABABAAB
Effet 1 : existence
Effet 2 : localisation
Effet 3 : frequency
Effet 4: MMN
Effet
4: MMN
to repetition
Effet 5
MMN to repetition in an alternate sequence
La réponse à une omission inattendue
AB AB
AB AB A_
A
Effet 1 : existence
Effet 2 : localisation
Effet 3 : frequency
Effet 4: MMN
Effet
4: MMN
to repetition
Effet 5: MMN
to omission
Effet 5
MMN to omission
Codage prédictif ou habituation? Un nouveau test en MEG
Wacongne, C., Changeux, J. P., & Dehaene, S. (2012). A neuronal model of predictive coding accounting for
the
h mismatch
i
h negativity.
i i J Neurosci,
N
i in
i press.
‐ Idée: exposer l’organisme à des paires AB, puis tester la surprise évoquée par AA, BA, BB.
‐ Pour réfuter une éventuelle habituation de neurones sensibles à la paire AB, espacer ces paires de 10 à 20 secondes.
Prédictions:
Une hiérarchie de prédictions dans le cortex
Bekinschtein,, T. A.,, Dehaene,, S.,, Rohaut,, B.,, Tadel,, F.,, Cohen,, L.,, & Naccache,, L. (2009).
(
) Neural signature
g
of the
conscious processing of auditory regularities. Proc Natl Acad Sci U S A, 106(5), 1672-1677.
règle xxxxx
20%
Erreur 80%
La présentation d’une
La présentation d
une note rare, au sein d
note rare au sein d’une
une séquence répétée, évoque une MMN.
séquence répétée évoque une MMN
règle xxxxY
80%
20%
Erreur « locale »
Erreur « globale »
Que se passerait‐il si la séquence toute entière devenait prévisible?
La MMN persiste – elle reflète un système de prédiction local et aveugle.
M i
Mais une seconde réponse à la nouveauté, la P3b, disparaît –
d é
àl
té l P3b di
ît c’est à présent le stimulus ’ t à é t l ti l
monotone qui évoque la P3b.
 Il existe une hiérarchie de prédictions dans le cortex.
 La P3b pourrait refléter le niveau de la prédiction consciente.
Une hiérarchie de prédictions dans le cortex
Bekinschtein,, T. A.,, Dehaene,, S.,, Rohaut,, B.,, Tadel,, F.,, Cohen,, L.,, & Naccache,, L. (2009).
(
) Neural signature
g
of the
conscious processing of auditory regularities. Proc Natl Acad Sci U S A, 106(5), 1672-1677.
règle xxxxY
80%
20%
Erreur « locale »
Erreur « globale »
L’omission démontre l’existence d’une hiérarchie de prédictions
Wacongne,
g , C.,, Labyt,
y , E.,, van Wassenhove,, V.,, Bekinschtein,, T.,, Naccache,, L.,, & Dehaene,, S. (2011).
(
) Evidence for a
hierarchy of predictions and prediction errors in human cortex. Proc Natl Acad Sci U S A, 108(51), 20754-20759.
règle xxxxY
80%
20%
Erreur « locale »
Erreur « globale »
Reconsidérons le cas de la règle xxxxY.
Au niveau supérieur, ce n’est pas une surprise qu’il y ait une surprise! La surprise, c’est qu’ilil n
qu
n’yy en ait pas.
en ait pas
Le modèle hiérarchique implique que l’erreur locale (de niveau 1) est elle‐même prédite et « effacée » par une prédiction de plus haut niveau (de niveau 2).
Une idée simple: en omettant le dernier stimulus, nous pouvons enregistrer ce pur signal idé i l
l d i
i l
i
i l
de prédiction.
Stimulus
Prédiction
Différence
L’omission démontre l’existence d’une hiérarchie de prédictions
Wacongne,
g , C.,, Labyt,
y , E.,, van Wassenhove,, V.,, Bekinschtein,, T.,, Naccache,, L.,, & Dehaene,, S. (2011).
(
) Evidence for a
hierarchy of predictions and prediction errors in human cortex. Proc Natl Acad Sci U S A, 108(51), 20754-20759.
règle xxxxY
80%
20%
Erreur « locale »
Erreur « globale »
Reconsidérons le cas de la règle xxxxY.
Au niveau supérieur, ce n’est pas une surprise qu’il y ait une surprise! La surprise, c’est qu’ilil n
qu
n’yy en ait pas.
en ait pas
Le modèle hiérarchique implique que l’erreur locale (de niveau 1) est elle‐même prédite et « effacée » par une prédiction de plus haut niveau (de niveau 2).
Une idée simple: en omettant le dernier stimulus, nous pouvons enregistrer ce pur signal idé i l
l d i
i l
i
i l
de prédiction.
Prédiction: l’effet d’omission est deux fois plus important pour la règle xxxxY que pour la règle xxxxx, Stimulus
Prédiction
Différence
Une hiérarchie de prédictions dans le cortex auditif
dans le cortex auditif
Wacongne, C., Labyt, E., van Wassenhove, V.,
Bekinschtein, T., Naccache, L., & Dehaene, S.
(
(2011).
) Evidence
id
for
f a hierarchy
hi
h off predictions
di i
and prediction errors in human cortex. Proc Natl
Acad Sci U S A, 108(51), 20754-20759.
L’effet d’omission en MEG
Différence entre les omissions:
La réponse à l’omission du cinquième son est effectivement plus grande dans la
est effectivement plus grande dans la règle xxxxY que dans la règle xxxxx.
Reconstruction des sources corticales des activations observées
source temporale supérieure
source précentrale
Remarquer à Remarquer
à
nouveau l’ordre des réponses:
‐d’abord
d abord ll’effet
effet d’omission
‐ ensuite l’effet de nouveauté locale
‐ enfin l’activation aux sons prédits
Conclusion du cours 2012
Le comportement humain
Le
comportement humain suggère que les suggère que les
adultes et les enfants possèdent une vaste capacité d’inférence statistique à de multiples niveaux (perception action
multiples niveaux (perception, action, lexique, causalité…)
L’architecture du cortex pourrait s’expliquer par la réplication d’un
par la réplication d
un circuit neuronal circuit neuronal
Bayésien (avec des variantes locales).
L’hypothèse du cerveau Bayésien commence à rendre compte de quelques‐unes des questions les plus pressantes en sciences cognitives:
sciences cognitives:
‐ Le problème de l’induction des règles abstraites
‐ La détection des erreurs
‐ La réaction de surprise
L é i d
i
‐ Les compétences des enfants et l’apprentissage précoce
Téléchargement