Apprentissage dans le Cerveau

publicité
Apprentissage dans le Cerveau
François Rivest
Université de Montréal
Hiver 2003
Apprentissage dans le Cerveau
Types de mémoire et d’apprentissage et
leurs structures associés
Boucles motrices
Cervelet
Ganglions de la base (noyaux gris)
Néocortex
Interaction possible (noyaux gris et cortex)
Autres mécanismes synaptiques*
Les types d’apprentissage
Mémoire explicite (déclarative)
Faits (sémantique), événements (épisodique), …
Mémoire implicite (non-déclarative)
Procédurale
Apprentissage associatif
Conditionnement classique
Conditionnement instrumental
Apprentissage non-associatif
Habilités motrices, habitudes, …
Habituation, sensibilisation, …
Amorçage
Les boucles principales
Lobes temporaux médians (hippocampe)
Striatum
Mémoire associative: musculature squelettique
Amygdale
Mémoire procédurale
Conditionnement Instrumental
Cervelet
Mémoire déclarative
Mémoire associative: réponse émotionnelle
Néocortex
Autre
Dissociation Double
Hippocampe
Mémoire Explicite
Sans hippocampe, le rat
ne peut se rappeler où
il a été sans les
indicateurs
Striatum
Mémoire implicite
Sans striatum, le rat ne
peut apprendre à
utiliser les indicateurs
Dissociation Double
Hippocampe
Mémoire Explicite
Sans hippocampe, le
patient ne sait pas à
quelle couleur ou à
combien de couleurs le
son est associé.
Amygdale
Mémoire
émotionnelle
Sans amygdale, le
patient ne répond pas
aux couleurs associées
au son.
Similairement, certaines personnes ne reconnaissent pas les
visages (cortex aires 20-21) alors que d’autres ne reconnaissent
pas les expressions faciales émotionnelles (amygdale).
Des bloqueurs de certains récepteurs peuvent empêcher la
mémoire émotionnelle sans empêcher l’émotion elle-même.
Liens possibles avec la théorie
de l’apprentissage
Cortex
Cervelet
Apprentissage supervisé
Ganglions de la base (striatum)
Apprentissage non-supervisé
Apprentissage par renforcement
Lobe temporal médian (hippocampe)
Apprentissage symbolique
Les boucles motrices
Le cervelet
Mémoire associative:
Musculature squelettique
Cervelet
3 sections
Vestibulocervelet
Spinocervelet
Cérébrocervelet
Différentiables par
leurs entrées et
sorties uniquement.
Rôles du cervelet
Problèmes cérébelleux impliquent
Difficultés d’anticipation musculaires
Difficultés de coarticulation musculaires
Difficultés d’adaptation musculaires
Architecture du cervelet
1 000 000 fibres
parallèles
1 fibre grimpante
Information du cortex et
de la moelle épinière
Proprioception
musculaire (olive
inférieure)
1 cellule de Purkinje
Inhibiteur sur les noyaux
sorties du cervelet
Méchanisme du cervelet
Signal: Fibre grimpante + Fibre parallèle
-> Diminue la connexion (LTD)
Fibre parallèle vers Cellule de Purkinje
Pour quelques minutes à quelques heures
1 tâche test pour le cervelet
2 balles = 2 poids
2 conditions:
Sans manipulation
préalable ni
avertissement
Avec manipulation
préalable et
avertissement
Résultats de la tâche test
Control
Patient
Information
préalable sans
effets.
Nécessité de
vivre/sentir la
situation.
Adaptation
musculaire précise
locale dans le
temps.
Théorie sur le cervelet
Fibres grimpantes de l’olive inférieur signalant
l’erreur de mouvement ou positionnement
basé sur la proprioception.
Fibres parallèles indiquant l’état sensoriel, de
planification et moteur.
Adaptation locale dans le temps
Système supervisé
Cérébrocervelet -> Language ?
Les ganglions de la base
Apprentissage par renforcement
Les ganglions de la base
• Neurones
Dopaminergiques
• Striatum
• Sortie GPi
GABA -
Striosome
Dopa +
Gluta +
SNpc (& VTA)
Matriosome
Cortex
GABA -
GPe
GABA GABA -
Gluta +
GPi (& SNpr)
STN
Thalamus
Neurones dopaminergiques
• Signalent l’erreur sur la récompense espéré.
Neurones du striatum
Striatum
Neurones
10 000 afférences, généralement de 1000
à 10 000 sources différentes (2e après le
cervelet).
Réagissent principalement aux stimuli liés à
des mouvements à faire.
L’activité peut aussi se bâtir d’elle-même.
Ils reçoivent aussi toutes des informations
par voie dopaminergique.
Révision de TD-Learning
Transformation de l’apprentissage par
renforcement en apprentissage supervisé.
Apprendre la fonction Vπ(s), soit l’espérance
de récompense pour l’état s sous la politique
d’action π.
Ou, similairement, apprendre la fonction
Qπ(s,a) pour l’état s et l’action a (Sarsa).
Équations de TD
V
π
(st ) = V (st ) + α [rt +1 + γV (st +1 ) − V (st )]
π
π
δ (t ) = [rt +1 + γV
π
∞
(st +1 ) − V (st )]


V (st ) → Επ ∑ rt +1+ k 
 k =0

π
π
π
Théorie sur le striatum
Les neurones dopaminergiques
fournissent le signal d’erreur sur la
récompense espérée δ(t).
Le striatum représente la fonction Vπ(s).
Le GPi retourne l’information de sortie
sur l’action à privilégier.
Les ganglions de la base
• Neurones
Dopaminergiques
• Striatum
• Sortie GPi
GABA -
Striosome
Dopa +
Gluta +
SNpc (& VTA)
Matriosome
Cortex
GABA -
GPe
GABA GABA -
Gluta +
GPi (& SNpr)
STN
Thalamus
Le nécortex
Apprentissage non-supervisé Hebbian
LTP NMDA/AMPA du cortex
LTP NMDA/AMPA du cortex
Récepteurs AMPA représentent la connexion
synaptique réelle.
Récepteurs NMDA font office de détecteur Hebbian.
Si le neurone post-synaptique est actif en même
temps que le neurone pré-synaptique, alors le
récepteur NMDA ouvre et enclenche le processus de
création de récepteurs AMPA supplémentaires.
(Possibilité de dédoublement synaptique.)
Avec le temps, les récepteurs AMPA se détériorent si
les récepteurs NMDA ne sont pas suffisamment
actifs.
Les ganglions de la base
Transfert de l’apprentissage
procédurale dans cortex
Apprentissage procédurale
Sortie
Hypothalamus
(Récompense rélle)
Cortext
Moteur
(Couche de
sortie)
Récompense réelle
Favorisation d’une action.
État actuelle
Neurones DA
(Erreur sur la
prédiction)
Erreur
Striatum
(Prédiction de la
récompense)
État actuelle
Cortex
Générale
(Couches
cachés)
Récompense Prédite
État actuelle
Action/Récompense Prédite
Ganglion de la base
(TD)
GPi
(Choix de l’action à
favoriser)
Cortex
Sensoriel
(Couche
d’entré)
Entrée
Habituation, Sensibilisation…
Mécanismes synaptiques
Réflexe du retrait de l’ouïe
chez l’aplysie.
Questions?
Merci…
Téléchargement