Chapitre I : Les processus d`acquisition Pavlov et le

publicité
Chapitre I : Les processus d’acquisition
I. Pavlov et le conditionnement classique (répondant, de type i)
Pavlov est un physiologiste qui travaillait sur la digestion (prix Nobel de physio).
Nourriture - > salivation
SI
RI
Cloche + nourriture -> salivation
SN
SI
Cloche -> salivation
SC
RC
Extinction : disparition de la RC suite au retrait du si. Il est nécessaire d’associer SI+ SC pour que la
RC soit maintenue. Le si est appelé stimulus renforçateur classique.
Généralisation : processus par lequel les attributs d’un élément sont étendus à d’autres éléments. Il
y a généralisation du stimulus et généralisation de la réponse.
S1
S2 => r
S => r1
r2
Discrimination: inverse. Deux stimuli proches entrainent deux réponses très différentes ou deux
stimuli très différents entrainent deux réponses proches.
Lorsqu’ils sont mal mis en place, ces deux processus peuvent entrainer l’apparition de troubles
appelés névrose expérimentale. Si on associe un carré à de la nourriture et un rond à un choc
électrique, et que l’on présente une forme intermédiaire entre le carré et le rond, il y aura une
réaction névrotique.
Conditionnement de 2ème et 3ème ordre
Frolov : après un premier conditionnement, on associe un sn au SC (par exemple un carré noir à la
cloche) qui finira par entrainer la RC sans qu’il ne soit jamais directement associé au SI.
Ce mécanisme permet d’expliquer certaines phobies ou l’apprentissage de l’écriture (langage =
conditionnement de 1er ordre, écriture conditionnement de 2eme ordre).
Miller et Konorski : ils conditionnent en utilisant des stimuli proprioceptifs. Ex : flexion de la patte
du chien + nourriture => salivation. Au bout d’un moment, le chien fléchit la patte spontanément.
II. Conditionnement de 2ème type (skinérien, instrumental, opérant).
Skinner est l’héritier de Watson et Thorndike.
Dans le manifeste behavioriste, Watson définit le comportement comme l’objet d’étude de la
psychologie. Il faut donc supprimer l’introspection et voir la psychologie comme une branche
objective et expérimentale des sciences de la nature. C’est une psychologie des observables,
quantifiable, qui permet un accord inter-observateur. On peut prédire et contrôler les
comportements de la vie quotidienne.
Thorndike travaille sur la capacité d’adaptation des chats et écrit que tout comportement est
fonction de ses conséquences, c’est la loi de l’effet. Si la conséquence est positive, le comportement
est reproduit. Si elle est négative, le comportement disparait. La cause du comportement est alors
sa conséquence. Pour lui l’objet d’étude de la psychologie est la fréquence d’apparition d’un
comportement en fonction de ses conséquences. La fréquence d’apparition permet de bien
opérationnaliser le comportement, en permettant de bien voir les changements.
Thorndike s’intéresse à des petites unités comportementales qu’il appelle des opérants (= unité
minimale de comportement dont on peut étudier les modifications).
Présenter un stimulus
Augmente la fréquence du
Diminue la fréquence du
comportement
comportement
Renforcement positif
Punition positive
Evitement passif
Retirer un stimulus
Renforcement négatif
Punition négative
Ajourner un stimulus
Renforcement négatif
Punition négative
Evitement actif
Aucune conséquence
Comportement superstitieux
Extinction
Une procédure qui fait augmenter la fréquence d’apparition du comportement est un
renforcement.
Une procédure dans laquelle est présenté un stimulus est positive, une procédure dans laquelle un
stimulus est ajourné ou retiré est négative.
Une stimulation est appétitive si sa présentation augmente la fréquence d’apparition du
comportement ou son retrait la diminue.
Une stimulation est aversive si sa présentation diminue la fréquence d’apparition du
comportement ou si son retrait l’augmente.
L’agent renforçateur est le facteur à l’origine du renforcement, c’est la présentation d’un stimulus
appétitif ou le retrait d’un stimulus aversif.
L’agent punitif ou punisseur fait référence à la présentation d’une stimulation aversive ou au
retrait d’une stimulation appétitive.
Ce sont des agents modulateurs.
Extinction : procédure qui entraine la diminution de la fréquence d’apparition d’un comportement
suite à l’absence de présentation de l’agent renforçateur.
Comportement superstitieux : comportement dont la fréquence d’apparition augmente alors qu’il
n’est suivi d’aucune conséquence.
Catania (1997)
Les procédures de renforcement et de punition sont symétriques.
Pour Skinner la punition était peu efficace car temporaire. Or le renforcement est temporaire
aussi. Pour supprimer un comportement, il faut le punir mais aussi supprimer l’agent renforçateur
qui en était la cause. Pour supprimer un comportement, on peu aussi renforcer le comportement
antagoniste. La punition est utilisée pour faire cesser le comportement rapidement.
Burkhand (1978)
Ils quantifient le temps que passent des enfants sur 3 jeux différents. Ils font deux groupes et
tentent de faire changer les habitudes des enfants en les punissant pour un groupe, en les
renforçant pour l’autre.
Les effets sont les mêmes pour les deux groupes, seulement les sentiments associés aux procédures
sont très différents.
Herman, Azrin (1964)
Appui sur un levier peu soit donner des cigarettes, soit envoyer un son aversif.
Stimulus primaire : stimulus soit essentiel à la survie de l’organisme, soit de nature à provoquer des
lésions sur celui-ci. C’est un si, mais tout si n’est pas forcément primaire.
Ex : eau, nourriture, abri, choc électrique...
Stimulus secondaire : ce sont tous les autres stimuli. Ils acquièrent leur pouvoir par association à
un stimulus primaire ou à un autre stimulus secondaire. Ils n’amènent pas rapidement à un état de
satiété. Ils doivent être distribués rapidement après le comportement.
Stimulus secondaire généralisé : ex l’argent. Il est stockable et interchangeable.
Les stimuli secondaires acquièrent leurs pouvoirs par association par conditionnement classique à
un stimulus primaire.
Stimulus discriminatif : stimulus en présence duquel le comportement émis a une forte probabilité
d’être modulé par ses conséquences. Il sélectionne le bon comportement au bon moment. Le
comportement d’évitement nécessite un stimulus discriminatif.
Stimulus discriminatif + comportement + conséquence = contingence à 3 termes de Skinner.
Ici aussi, c’est un conditionnement classique qui confère son pouvoir au stimulus discriminatif.
Ex : téléphone qui sonne => je décroche
Le feu est rouge => je m’arrête
III. Les chaînes de comportement
Modeler c’est renforcer des approximations de la réponse. Pour modeler, on expose l’organisme au
stimulus appétitif primaire. Ensuite on lui présente quand il émet un comportement général, puis
un comportement plus précis, puis un autre encore plus précis… le stimulus renforce le
comportement précèdent et sélectionne le comportement suivant, il est donc stimulus secondaire
du 1er comportement et stimulus discriminatif du second.
On distingue deux méthodes pour instaurer une chaine de comportement :
-
Une méthode régressive, pour les organismes simples ou ne possédant pas le langage : on
fait acquérir les unités comportementales les plus proches du stimulus primaire en 1er.
IV. les programmes de renforcement
Un programme de renforcement renvoie à la façon dont les agents renforçateurs sont présentés au
sujet.
Programmes
Raison (rapport)
Intervalle
Fixe
Rf
If
Variable
Rv
Iv
1. Les programmes de raison
Déf : programme dans lequel l’arrivée de l’agent renforçateur est déterminée par le nombre de
réponses produites par le sujet. Les programmes de raison peuvent être :
- Fixe = l’agent renforçateur arrive toutes les x secondes.
- Variable = l’agent renforçateur arrive toutes les n réponses. Ex : un démarcheur à domicile
parvient à vendre au n°1, mais pas au n°6 / joueur sur machines à sous.
Plus le programme de raison est élevé, plus le temps de réponse est élevé.
2. Les programmes d’intervalle
Déf : le temps s’écoule entre deux agents renforçateurs, et module le comportement. Les
programmes d’intervalle peuvent être :
- Fixe = l’agent renforçateur est distribué systématiquement tous les jours, semaines, mois…
toutes les x unités de temps. Ex : chez les étudiants, les comportements changent à l’approche
des examens.
- Variable = l’intervalle de l’arrivée successive entre deux agents renforçateurs n’est pas
prédictible. Ex : les interrogations surprises (il faut qu’elles soient régulières quand même).
Dans le programme d’iv, plus l’intervalle est élevé, moins le taux de réponse est élevé.
Ces programmes sont importants car ils vont, en plus de fournir une allure générale, induire des
résistances à l’extinction. Voici deux règles les concernant :
- Les programmes fixes s’étayent plus rapidement que les programmes variables. Ex : il faut faire
plusieurs essais afin de s’assurer qu’une ampoule est belle et bien grillée dans un immeuble
vétuste où les dysfonctionnements sont courants, tandis que chez nous, on comprendra tout de
suite que cette ampoule est grillée.
- A l’intérieur même d’un programme, plus la raison (ou l’intervalle) est élevée, plus l’extinction
sera longue.
Rq : on peut donc arriver à faire produire des comportements très stables sans avoir recours à
beaucoup d’AR.
3. Le programme DRL (débit de réponse lent) – differential low rate of response
L’agent renforçateur n’est délivré que si l’organisme s’abstient de répondre pendant une unité de
temps x.
-
L’organisme est pénalisé s’il répond entre deux intervalles de l’AR.
Ce type de comportement induit un type de comportement très régulier, très faible – lent.
Le concept de motivation n’entre donc pas dans le cadre de ce programme.
Le degré de suppression de la réponse dépend de la proportion de réponses punies.
- Ex : Azrin  des pigeons sont renforcés (à l’aide d’une graine) avec un intervalle variable de
trois minutes. Tout en maintenant ce programme, il a testé d’autres paramètres (punition…).
Chapitre II : Neuroanatomie des comportements
I.
Généralités et rappel neuroanatomique
Ce qui change au cours de la vie, ce n’est pas le stock de neurones mais les connections entre eux.
Il y a mise en œuvre d’un processus de sélection, qui intègre les changements synaptiques dans
l’encéphale.
- Processus de sélection individuel : à partir du cerveau de naissance, on aboutit au cerveau de
l’adulte  darwinisme neuronal (Edelman).
- Même le comportement le plus complexe peut être le fait de processus cumulatifs relativement
simples. Pb : quels sont les modifications opérées dans le sn par le fait de stimulus appétitif
primaire ?
Voies générales du stimulus à la réponse – les différents cortex (voir figure 1) :
- Les cortex primaires = cortex moteur primaire / cortex somesthésique primaire / cortex visuel
primaire.
- Les cortex secondaires = cortex postérieur – pariétal / régions secondaires d’associations /
cortex auditif secondaire / cortex moteur secondaire.
- Les cortex d’association = cortex préfrontal (cortex moteur d’association  intégration située à
la fin des voies sensorielles et au début des voies motrices) / cortex d’association limbique /
cortex pariéto-temporo-occipital.
II. Structures & voies des stimuli appétitifs primaires
En 1954, Olds & Milner mettent au point les premiers outils d’exploration du cerveau. Ils trouvent
(dans les régions diencéphale et mésencéphale) des régions dont la stimulation était recherchée par
l’animal. Cela engendrent des comportements d’auto-stimulations (jusqu’à se laisser mourir de
faim ou de soif), d’où l’appellation « centres de plaisir / de récompenses ». Cela dit, ils trouvèrent
aussi des régions dont la stimulation était aversive.
- Puis, la localisation se précise (grâce aux microélectrodes)  substance noire (région a9) & aire
tegmentale ventrale (région a10). Ces deux régions sont riches en dopaminergiques. La
dopamine est concentrée dans les régions diencéphale & mésencéphale.
- Dans les 90’s, Schultz s’intéresse au mode d’action de ces cellules. « les cellules
dopaminergiques sont activées par le caractère appétitif des stimulations. Elles sont activées
spécialement quand on présente un stimulus appétitif (et non aversif). Les neurones
dopaminergiques sont sensibles à la valence appétitive des stimuli.
-
En 1999, Garris affirme que le comportement d’auto-stimulation ne se produit que si la
stimulation provoque une libération de dopamines. Il mesure la libération effective de
dopamines. Expérimentation de Hernandez & Hoebel (1990) via la technique de microdialyse
 on implante une microsonde dans une région cérébrale spécifique (ex : région préfrontale).
Dans cette microsonde, sera présent une électrode sensible au passage des dopamines (voir
figure 4 – concentration de dopamines au cours des différentes phases d’apprentissage). Cl : la
distribution de stimulus appétitifs primaires provoque la libération de dopamines.
III. Action de la dopamine sur le renforcement des efficacités synaptiques
En 1949, Hebb :
- Met en évidence des effets de la dopamine in vitro (figure 5). « la dopamine a un rôle
potentialisateur. »
- Parle d’« efficacité synaptique » (un rôle peut en activer un autre). Il existe une efficacité présynaptique  quantité de neurotransmetteurs libérée par un PA ; et une efficacité postsynaptique  dépolarisation locale produite par la libération d’une quantité de
neurotransmetteurs.
1. Renforcement pré synaptique par la dopamine
Ce renforcement suppose un mécanisme moléculaire (figure 6a).
- La transmission du PA se fait à partir des récepteurs ionotropes.
- La dopamine agit sur des récepteurs métabotropes. Elle provoque une cascade de réactions via
les secondes messagers intracellulaires : protéines g… ces secondes messagers engagent le
métabolisme de la cellule – voir figure 6b.
- Sous l’action de la dopamine, il y a plus de neurotransmetteurs glutamate.
- Dans la figure 7a, le canal ca++ est ouvert  complexe ca++ calmoduline  augmentation des
AMPc.
- Les canaux ca++ sont ouverts quand le neurone est actif (PA). L’AMPc a alors des propriétés
associatives. Deux conditions : 1) présence de dopamine / 2) neurone activé.
2. Renforcement post synaptique par la dopamine
Le rôle de la dopamine pour ce renforcement découle de travaux sur l’hippocampe, en particulier
sur les neurones pyramidaux.
-
Les récepteurs canaux sont de deux types : 1) NMDA  qui ne sont pas actif quand le
glutamate est libéré. Le canal, perméable au calcium, est obstrué par un ion magnésium / 2)
non NMDA (AMPa) : ces récepteurs font rentrer le na+ et sortir le ca++  dépolarisation (cf.
figure 7b).
Les trois conditions :
- Un bouton terminal d’une synapse faible libère du glutamate mais pas suffisamment pour
engendre un PA.
- Un bouton terminal d’une synapse forte libère du glutamate et produit des epsp suffisants pour
engendrer un PA. Ce PA engendre une onde de choc qui remonte dans la cellule  spike
dendritique.
-
Le spike dendritique fait sauter les ions magnésiums des canaux NMDA. Le glutamate libéré
par la synapse faible se fixe sur les récepteurs  entrée de ca++  renforcement postsynaptique de cette synapse.
En 2002, Baldwin, dans son expérience, montre que pour que l’apprentissage se fasse, il est
nécessaire que les récepteurs à la dopamine et les récepteurs NMDA soient actifs. De même pour la
protéine kinase a (voir figure 8).
3. Modification durable des connexions synaptiques
Explications à la figure 9a.
- Sous l’action prolongée de la dopamine au niveau pré-synaptique, il y a activation de noyaux,
ce qui engendre de nouvelles terminaisons neuronales.
- Au niveau post-synaptique, l’action de la dopamine provoque la perforation de la synapse, ce
qui la dédouble.
Expérience de Bao & Merzenich (2001) :
- Ces auteurs ont montré l’extension du territoire cortical (figure 9b), en étudiant la carte
corticale des neurones activés par le son.
- Sous l’action de la dopamine, la réorganisation corticale est possible. Néanmoins, sous l’action
de l’Ach, cette réorganisation ne se fait plus.
Par conséquent, on peut en déduire que la dopamine n’agit que sur les neurones activés pré et
post-synaptique.
- La sélection neuronale ne s’exerce que sur les neurones actifs. Au niveau moléculaire, la
sélection nerveuse se fait sur un principe de contiguïté temporelle.
4. Principe unifie de renforcement
« Constamment, tout organisme est exposé à une série de stimulus. Constamment, nous produisons
des comportements r. Que l’on se trouve dans un contexte pavlovien ou dans un contexte
skinérien, il y a toujours une relation stimulus – réponse qui se forme. D’un point de vue
biologique, ce qui est intéressant, c’est le phénomène de connexion entre les neurones, » Donahue.
IV. Mode d’action physiologique des stimulus appétitifs secondaires
Les neurones dopaminergiques sont aussi activés par des stimulus appétitifs secondaires.
Cf. l’expérience de SCHULTZ sur les singes (figure 10). Pb : comment ces neurones sont
activés via ces stimulus appétitifs secondaires ? Hypothèse : il y aurait une voie en retour (aire
préfrontale  ATV via FMT – faisceau médian télencéphalique) possible grâce aux stimulus
appétitifs secondaires.
Expérience de TREMBLAY (sur un singe aussi) : on observe si les neurones du cortex
préfrontal réagissent à des stimulus appétitifs secondaires  ils déchargent en effet des PA
par le caractère secondaire / symbolique de la stimulation. On observe que la stimulation du
FMT (petits axones myélinisés à faible diamètre et à faible vitesse – 1-8 m/sec) engendre un
comportement d’auto-stimulation.
La figure 11 nous fait remarquer que ce transfert d’activité se réalise progressivement.
V. Physiologie des apprentissages perceptifs
Le sujet discrimine les environnements susceptibles d’être renforcés  conséquences des
stimulus environnementaux sur les comportements. On distingue :
Les relations avec les stimulus relativement constants, ce qu’on appelle les invariants
perceptifs. Ceux-ci sont construits à l’échelle de l’espèce, et ont donc une corrélation
génétique.
Les relations changeant au cours du temps, mais relativement constantes à l’échelle de la vie,
ce qu’on appelle les régularités perceptives.
A. LES INVARIANTS PERCEPTIFS
1. Le phénomène de vision aveugle (cf. figure 12)
Les afférences coliculaires sont capables de faire adapter les comportements de l’aveugle.
Nous avons une relation verbale.
La perception est une intégration complexe de nombreux systèmes sensoriels, et pas
seulement du système visuel.
Il y a possibilité de modification des invariants perceptifs avec l’usage  plusieurs canaux
(analyses) sensoriels pour un même stimulus. Cela prouve que s’il y a une corrélation
génétique, elle n’est pas figée.
2. Exemples d’invariants perceptifs
En voici diverses illustrations :
Variation dans la fréquence spatiale : variation d’intensité lumineuse par degré d’angle visuel.
Cette variation dépend des espèces, selon la proximité vis-à-vis du sol (cf. figure 13).
Attention des réponses corticales à l’orientation : le cortex recevant des entrées activées par
des bandes verticales contient un plus grand nombre de cellules activées par des bandes
verticales.
Invariants poly sensoriels : le nourrisson va naturellement tourner la tête vers l’onde sonore
 convergence des modalités sensorielles. Autre exemple (cf. figure 14) : la différence de
perception entre l’arrivée du son au niveau des deux oreilles permet de localiser ce son. On
bouche une des deux oreilles de la chouette à 41 jours. On l’enlève au jour 342  on constate
une réadaptation sensorielle progressive, même si Knudsen postule que cette réadaptation
n’est pas aussi évidente.
Rq : chez l’animal, la localisation dans l’espace se construit au cours du temps.
B. LES REGULARITES PERCEPTIVES
1. Apprentissage de lieu (place learning)
Le cortex d’association poly sensoriel (occipito-temporo-pariétal) permet l’apprentissage de
lieu. Ce cortex est en relation avec l’hippocampe.
Expérience de MORRIS – 1983 (figure 15) : le rat témoin se balade et trouve par hasard la
surface laiteuse sur la plate-forme. Au 10e essai, il y va directement. Si on lèse l’hippocampe,
cet apprentissage est nul.
2. Apprentissage par configuration de stimulus
Par apprentissage, on peut faire réagir à un son, à une lumière, de façon discriminante (sans
« son + lumière »).
On y arrive quand même chez les rats dont l’hippocampe est lésé.
3. Interprétation physiologique
Pb : dans quelle mesure l’hippocampe contribue-t-il aux renforcements des connexions entre
stimulus ?
Existence de voies réciproques du cortex poly sensoriel d’association à l’hippocampe  les
neurones du cortex poly sensoriel d’association ont des projections ayant quelques relais vers
l’hippocampe. Ces mêmes voies retournent vers les régions du cortex d’association poly
sensoriel d’origine (cf. figure 17). Le système de ré-entré diffus de l’hippocampe vers le CAS
sélectionne des connexions exprimant les régularités dans l’environnement individuel.
Existence de connexions entre l’ATV et l’hippocampe  les terminaisons dopaminergiques
se situent près des neurones pyramidaux (champ cellulaire 1 – CA1). Lorsqu’un stimulus
appétitif primaire arrive, il y a renforcement de l’efficacité avec laquelle les neurones de
l’hippocampe vont activer le CAS (cf. légende de la figure 17). S’il y a des régularités dans la
relation entre les événements environnementaux, les efficacités synaptiques entre les neurones
simultanément actifs dans le CAS sont un peu renforcées, mais si ces régularités sont suivies
de stimulus appétitifs primaires, alors les efficacités synaptiques sont beaucoup plus fortement
renforcées. Implications comportementales : a) apprentissage latent / b) mémoire flash.
Cf. légende de la figure 18.
VI. Structures & Voies activées par les stimulus aversifs
Les systèmes monoaminergiques sont activés par les stimulus aversifs :
- Les neurones noradrénergiques (situés dans le locus coeruleus) sont sensibles aux
stimulations soudaines et aversives.
- Les neurones sérotoninergiques (situés dans les noyaux de Raphé) sont plus nombreux, et
sont sensibles aux stimulations douloureuses.
Les récepteurs corrélés à ces neurones, les récepteurs métabotropiques, sont à la fois
inhibiteur et facilitateur, mais davantage inhibiteur que facilitateur.
Ces neurones sont reliés à des structures sous-corticales, ce qui permet le déclenchement de
comportements adaptés à ces stimulations aversives :
- L’amygdale  elle appartient au système limbique, dans sa partie paléomammifère, à
l’avant de l’hippocampe. L’amygdale organise les stimulus diversifiés (cf. figure 19a).
Les projections liées à l’amygdale proviennent d’aires associatives. Elle impliquée dans
toutes les structures motrices et végétatives liées aux stimulus aversifs. La réaction de
l’amygdale à ces stimulus est très rapide. En 2003, il a été montré qu’elle n’est pas
seulement corrélée aux stimulations aversives, mais aussi appétitives.
- L’hippocampe  les trois systèmes adrénergiques ont des connexions avec l’hippocampe.
Ces connexions sont en mesure de jouer le même rôle renforçateur pour les structures
reliant les neurones hippocampiques aux cortex d’association poly sensoriel.
VII.
Fonctionnement & Dysfonctionnement de la mémoire
On parle de mémoire lorsqu’on examine l’effet des apprentissages passés sur les
comportements actuels.
Il n’y a pas de stockage, mais une force de connexions entre les neurones  configurations
d’activités adaptées. Les déficits de mémoire seraient donc liés à l’absence du contexte
environnemental.
Il a été prouvé qu’il existe un effet du contexte (effet intraorganique) sur les processus de
mémorisation (cf. expérience de Bower de 1981). Exemple de state dependant learning : un
apprentissage effectué alors que nous sommes drogués sera mieux restitué lorsque nous le
serons de nouveau.
Lésions et comportements mnésiques (cf. figure 20) :
- Amnésie hippocampique (amnésie de type antérograde) : elle se caractérise par
l’incapacité à créer de nouvelles configurations d’activités entre les neurones et le cortex
d’association poly sensoriel, ainsi que par des troubles dans le comportement verbal.
- Lésion du corps calleux (cf. figure 12) : le corps calleux relie les deux hémisphères. Si on
le lèse, il n’y aura plus de communication, ce qui provoque notamment des troubles
d’identifications partiels au niveau visuel et tactile.
Téléchargement