Apprentissage dans le Cerveau François Rivest Université de Montréal Hiver 2003 Apprentissage dans le Cerveau Types de mémoire et d’apprentissage et leurs structures associés Boucles motrices Cervelet Ganglions de la base (noyaux gris) Néocortex Interaction possible (noyaux gris et cortex) Autres mécanismes synaptiques* Les types d’apprentissage Mémoire explicite (déclarative) Faits (sémantique), événements (épisodique), … Mémoire implicite (non-déclarative) Procédurale Apprentissage associatif Conditionnement classique Conditionnement instrumental Apprentissage non-associatif Habilités motrices, habitudes, … Habituation, sensibilisation, … Amorçage Les boucles principales Lobes temporaux médians (hippocampe) Striatum Mémoire associative: musculature squelettique Amygdale Mémoire procédurale Conditionnement Instrumental Cervelet Mémoire déclarative Mémoire associative: réponse émotionnelle Néocortex Autre Dissociation Double Hippocampe Mémoire Explicite Sans hippocampe, le rat ne peut se rappeler où il a été sans les indicateurs Striatum Mémoire implicite Sans striatum, le rat ne peut apprendre à utiliser les indicateurs Dissociation Double Hippocampe Mémoire Explicite Sans hippocampe, le patient ne sait pas à quelle couleur ou à combien de couleurs le son est associé. Amygdale Mémoire émotionnelle Sans amygdale, le patient ne répond pas aux couleurs associées au son. Similairement, certaines personnes ne reconnaissent pas les visages (cortex aires 20-21) alors que d’autres ne reconnaissent pas les expressions faciales émotionnelles (amygdale). Des bloqueurs de certains récepteurs peuvent empêcher la mémoire émotionnelle sans empêcher l’émotion elle-même. Liens possibles avec la théorie de l’apprentissage Cortex Cervelet Apprentissage supervisé Ganglions de la base (striatum) Apprentissage non-supervisé Apprentissage par renforcement Lobe temporal médian (hippocampe) Apprentissage symbolique Les boucles motrices Le cervelet Mémoire associative: Musculature squelettique Cervelet 3 sections Vestibulocervelet Spinocervelet Cérébrocervelet Différentiables par leurs entrées et sorties uniquement. Rôles du cervelet Problèmes cérébelleux impliquent Difficultés d’anticipation musculaires Difficultés de coarticulation musculaires Difficultés d’adaptation musculaires Architecture du cervelet 1 000 000 fibres parallèles 1 fibre grimpante Information du cortex et de la moelle épinière Proprioception musculaire (olive inférieure) 1 cellule de Purkinje Inhibiteur sur les noyaux sorties du cervelet Méchanisme du cervelet Signal: Fibre grimpante + Fibre parallèle -> Diminue la connexion (LTD) Fibre parallèle vers Cellule de Purkinje Pour quelques minutes à quelques heures 1 tâche test pour le cervelet 2 balles = 2 poids 2 conditions: Sans manipulation préalable ni avertissement Avec manipulation préalable et avertissement Résultats de la tâche test Control Patient Information préalable sans effets. Nécessité de vivre/sentir la situation. Adaptation musculaire précise locale dans le temps. Théorie sur le cervelet Fibres grimpantes de l’olive inférieur signalant l’erreur de mouvement ou positionnement basé sur la proprioception. Fibres parallèles indiquant l’état sensoriel, de planification et moteur. Adaptation locale dans le temps Système supervisé Cérébrocervelet -> Language ? Les ganglions de la base Apprentissage par renforcement Les ganglions de la base • Neurones Dopaminergiques • Striatum • Sortie GPi GABA - Striosome Dopa + Gluta + SNpc (& VTA) Matriosome Cortex GABA - GPe GABA GABA - Gluta + GPi (& SNpr) STN Thalamus Neurones dopaminergiques • Signalent l’erreur sur la récompense espéré. Neurones du striatum Striatum Neurones 10 000 afférences, généralement de 1000 à 10 000 sources différentes (2e après le cervelet). Réagissent principalement aux stimuli liés à des mouvements à faire. L’activité peut aussi se bâtir d’elle-même. Ils reçoivent aussi toutes des informations par voie dopaminergique. Révision de TD-Learning Transformation de l’apprentissage par renforcement en apprentissage supervisé. Apprendre la fonction Vπ(s), soit l’espérance de récompense pour l’état s sous la politique d’action π. Ou, similairement, apprendre la fonction Qπ(s,a) pour l’état s et l’action a (Sarsa). Équations de TD V π (st ) = V (st ) + α [rt +1 + γV (st +1 ) − V (st )] π π δ (t ) = [rt +1 + γV π ∞ (st +1 ) − V (st )] V (st ) → Επ ∑ rt +1+ k k =0 π π π Théorie sur le striatum Les neurones dopaminergiques fournissent le signal d’erreur sur la récompense espérée δ(t). Le striatum représente la fonction Vπ(s). Le GPi retourne l’information de sortie sur l’action à privilégier. Les ganglions de la base • Neurones Dopaminergiques • Striatum • Sortie GPi GABA - Striosome Dopa + Gluta + SNpc (& VTA) Matriosome Cortex GABA - GPe GABA GABA - Gluta + GPi (& SNpr) STN Thalamus Le nécortex Apprentissage non-supervisé Hebbian LTP NMDA/AMPA du cortex LTP NMDA/AMPA du cortex Récepteurs AMPA représentent la connexion synaptique réelle. Récepteurs NMDA font office de détecteur Hebbian. Si le neurone post-synaptique est actif en même temps que le neurone pré-synaptique, alors le récepteur NMDA ouvre et enclenche le processus de création de récepteurs AMPA supplémentaires. (Possibilité de dédoublement synaptique.) Avec le temps, les récepteurs AMPA se détériorent si les récepteurs NMDA ne sont pas suffisamment actifs. Les ganglions de la base Transfert de l’apprentissage procédurale dans cortex Apprentissage procédurale Sortie Hypothalamus (Récompense rélle) Cortext Moteur (Couche de sortie) Récompense réelle Favorisation d’une action. État actuelle Neurones DA (Erreur sur la prédiction) Erreur Striatum (Prédiction de la récompense) État actuelle Cortex Générale (Couches cachés) Récompense Prédite État actuelle Action/Récompense Prédite Ganglion de la base (TD) GPi (Choix de l’action à favoriser) Cortex Sensoriel (Couche d’entré) Entrée Habituation, Sensibilisation… Mécanismes synaptiques Réflexe du retrait de l’ouïe chez l’aplysie. Questions? Merci…