LES THEORIES DE L’APPRENTISSAGE I. LES PREMIERES FORMES D’APPRENTISSAGE A. L’HABITUATION L’habituation est généralement considérée comme la forme la plus simple d’apprentissage. Elle se rencontre dans tout le règne animal, des protozoaires à l’homme. L’habituation est la diminution de l’intensité, de l’amplitude ou de la durée d’une réponse, réponse comportementale, végétative ou nerveuse. C’est donc la diminution puis la disparition de cette réponse lors de la répétition du stimulus évocateur. Exemple : Si l’on présente à un enfant le même objet plusieurs fois de suite, on constate que le temps pendant lequel l’enfant fixe l’objet diminue. Si l’objet change, le temps de fixation augmente à nouveau. C’est ce qu’on appelle « la réaction à la nouveauté ». Depuis 1963, on considère l’habituation comme une forme d’apprentissage. B. L’EMPREINTE L’empreinte est issue des anthropologistes qui étudient les animaux. Le petit apprend à reconnaître sa mère quelques heures après sa sortie de l’œuf, ce qui lui permet de la suivre dans tous ses déplacements. Ainsi, on a pu observer que l’oisillon développe une préférence envers un objet qui, dans les premières heures qui suivent l’éclosion, se trouve dans son environnement. On observe des conduites de poursuite à l’égard d’un stimulus qui peut n’avoir aucun caractère commun avec la mère biologique. L’empreinte correspond donc à une acquisition brusque par un jeune au cours d’une période biologiquement privilégiée. 769784939 3/18 Toutefois, 3 caractéristiques sont nécessaires : Il faut d’une part une période critique, il faut que l’objet soit mobile. Les conséquences sont très importantes sur son devenir. L’empreinte sociale que va subir l’animal a une influence sur sa future vie. Les effets sont irréversibles. II. LES THEORIES BEHAVIORISTES A. LA LOI DE L’EFFET OU APPRENTISSAGE PAR « ESSAIS ET ERREURS » 1. PRESENTATION La loi de l’effet ou apprentissage par « essais et erreurs » a été initialement étudié par Thorndike (1874 – 1944). La plus connue de ses expériences a été conduite sur des chats qui sont placés dans des boîtes que l’on appellera plus tard « des boîtes à problèmes ». Elles sont munies d’un dispositif permettant l’ouverture d’une porte par le chat. On enferme donc un chat affamé et on met de la nourriture en dehors de la cage pour l’attirer. Des réactions comportementales ont été observées, le chat tourne dans la cage, la griffe, la mord et se dresse sur ses pâtes arrières. Comme par hasard, la cage va s’ouvrir. Il a appris par essais et erreurs et s’il recommence, il ouvrira la cage beaucoup plus rapidement. Il y a eu un apprentissage. La nourriture à l’extérieure de la cage est une forme de récompense pour le motiver à sortir. Cette forme d’apprentissage est un processus associatif caractérisé par la formation de connexions entre un stimulus (S) et une réponse (R). S Eléments de situation Cage expérimentale R Eléments de réponse Ouvrir la porte de la cage A partir de ces études des lois de l’apprentissage ont été mises en avant. On peut citer des lois principales et des lois secondaires. 769784939 4/18 2. LOIS PRINCIPALES Loi de l’exercice ou de l’oubli Plus le nombre d’essais augmente, moins l’animal fait d’erreurs. En revanche, si on se limite dans le nombre d’essais, il y a oubli donc pas de connexion et pas d’apprentissage Le non-exercice provoque l’oubli. Loi de l’effet Une connexion S – R peut être renforcée mais aussi affaiblie par l’effet de ses conséquences. Si à la sortie de la cage on donne à l’animal de la nourriture, il y a un effet positif alors que s’il ouvre et qu’on lui donne une décharge électrique il n’appréciera pas. La connexion sera affaiblie et il n’aura aucun intérêt à essayer d’ouvrir la porte. Ces deux lois sont principales car ce sont les conditions nécessaires à l’apprentissage. 3. QUELQUES LOIS SECONDAIRES Réponses multiples Il faut que le sujet ait un répertoire de réponses suffisamment variées. Si ses capacités réactionnelles sont insuffisantes ou si elles sont peu diversifiées, la réalisation d’un apprentissage par essais et par erreurs devient improbable. Attitudes La motivation est un déterminant majeur de l’apprentissage. Si par exemple on met un chat qui a bien mangé il ne cherchera pas à sortir de la cage. Réponses par analogie Lorsqu’une situation antérieure a donné lieu à un certain type de comportement, une situation nouvelle similaire à la précédente tendra à provoquer un comportement identique ou analogue. 4. CONCLUSION Il existe des mécanismes similaires en ce qui concerne l’apprentissage humain. C’est une théorie toujours d’actualité, notamment reprise dans les sciences de l’éducation (concept de transfert). Il y a une importance de la loi de l’effet avec le principe de renforcement et de punition. 769784939 5/18 B. LE CONDITIONNEMENT CLASSIQUE OU CONDITIONNEMENT REPONDANT 1. QUELQUES POINTS On doit le conditionnement répondant à Ivan PAVLOV (1849 – 1936) qui a reçu le prix Nobel de physiologie et de médecine en 1904. Il a fait l’étude physiologique de la sécrétion salivaire chez le chien pour décrire la réponse ou la réaction conditionnelle classique. Cette réaction ou cette réponse conditionnelle repose sur la possibilité pour un organisme d’acquérir et de retenir l’association de 2 stimuli de telle sorte qu’une réponse (salivation) naturellement provoquée par un stimulus (viande) dit « inconditionnel » puisse après apprentissage être obtenue par le second (son) dit « conditionnel ». 2. LA REACTION CONDITIONNELLE La réaction conditionnelle va se construire à partir de plusieurs éléments : Réaction inconditionnelle (RI) = la salivation : Un chien salive sans apprentissage. Stimulus inconditionnel (SI) La poudre de viande suscite un réflexe de salivation. Ce n’est pas encore un apprentissage. Stimulus neutre (SN) Une sonnerie ne déclenche pas de salivation chez le chien. Stimulus conditionnel (SC) Un son est capable dans l’apprentissage de susciter une réponse de type salivation. Réaction conditionnelle (RC) C’est une réponse réflexe déclenchée artificiellement (salivation). Le conditionnement classique consiste donc en une opération qui va rendre efficace l’action d’un stimulus qui ne l’était pas auparavant. 769784939 6/18 Schéma de l’expérimentation Il va y avoir association de 2 stimuli (viande + sonnerie), si bien que le chien, après conditionnement, sera capable de saliver à l’unique son de la cloche. Avant le conditionnement : Stimulus Neutre (SN) (cloche) aucune réponse ou réponse d’orientation Stimulus Inconditionnel (SI) (nourriture) Réaction Inconditionnelle (RI) (salivation) Durant le conditionnement : Stimulus Conditionnel (SC) (cloche) Réponse Inconditionnelle (RI) (salivation) Stimulus Inconditionnel (SI) (nourriture) Après le conditionnement : Stimulus Conditionnel (SC) (cloche) Réaction Conditionnelle (RC) (salivation) 769784939 7/18 3. LES CONDITIONS D’ETABLISSEMENT DE LA REACTION CONDITIONNELLE 5 conditions sont nécessaires à l’établissement de la réaction conditionnelle : Contiguïté temporelle Il est nécessaire qu’il existe une contiguïté temporelle entre la présentation du SC et du SI pour qu’apparaisse une réponse de type conditionnelle. D’une manière générale, il faut que le SN ou le SC soit toujours présenté avant le SI. En effet, le SN qui deviendra SC est efficace lorsqu’il joue le rôle d’un signal annonçant le stimulus inconditionnel (ici la viande). De nombreuses études se sont intéressées à découvrir l’intervalle optimal séparant le SC du SI, et il semblerait que l’établissement de la RC soit plus rapide si l’intervalle se situe autour de ½ seconde. Dans le conditionnement rétroactif, l’apprentissage n’a pas lieu si le SC est placé avant la SI. Pavlov est contre le conditionnement rétroactif. Dans le conditionnement différé ou retardé, on va apprendre au chien à inhiber sa réaction en différant progressivement la présentation de la viande par rapport à la sonnerie. 769784939 8/18 Dans le conditionnement de trace, on apprend à l’animal à ne plus répondre de manière automatique mais à inhiber sa réponse. Les conditionnements différé et de trace sont les plus efficaces car ils sont plus adaptatifs puisque l’organisme peut apprendre à faire des prédictions au sujet de son environnement. La répétition La force de la réaction conditionnelle est fonction du nombre de répétitions, de la conjonction des 2 stimuli. Le renforcement Dans l’établissement d’une réaction conditionnelle, le renforcement est indispensable. Par exemple, si le chien nous donne la patte, on lui donne le sucre. Si on souhaite le renforcement, il faut qu’il y ait une condition particulière. L’intensité du Stimulus Neutre qui deviendra Stimulus Conditionnel L’intensité doit être assez forte pour provoquer une réaction d’orientation, sans cependant être trop élevée sous peine de susciter la peur. Le contrôle de tous les éléments étrangers qui vont venir interférer avec l’apprentissage Les éléments étrangers peuvent être : - liés à l’animal (il y a des animaux plus anxieux, plus craintifs que d’autres) - liés à l’environnement (il ne faut pas d’autres bruits ou d’autres odeurs autour sinon il ne salivera pas). 769784939 9/18 4. L’EXTINCTION ET LE RECOUVREMENT L’établissement de la réaction conditionnelle est réel si nous respectons les 5 conditions exprimées précédemment, mais on peut se demander combien de temps un chien va saliver au bruit d’une cloche. En d’autres termes, que se passe-t-il si nous supprimons le renforçateur ? La réaction conditionnelle est soumise à l’extinction. Schéma : L’apprentissage et les courbes d’extinction L’extinction est considérée comme un processus par lequel les stimuli conditionnels perdent leur capacité à déclencher des réponses conditionnelles parce que les stimuli conditionnels ne sont plus associés à des stimuli inconditionnels. Toutefois, on peut au bout d’un certain temps à nouveau faire entendre le son et l’associer à un élément renforçateur : c’est le recouvrement spontané. Deux hypothèses expliquent le mécanisme de l’extinction : - Hypothèse du simple évanouissement de la réaction conditionnelle. Le processus de recouvrement spontané contredit cette théorie. - Hypothèse de l’effacement par inhibition. La réponse n’est pas oubliée mais inhibée, le chien ne répond plus parce qu’il n’est pas récompensé. 769784939 10/18 Résistances à l’extinction : - Nombre de renforcements donnés au cours du conditionnement (une réaction est d’autant plus difficile à éteindre qu’elle a été abondamment renforcée) - Délai dans l’établissement de la réaction conditionnelle et son extinction (plus il est plus long, plus l’extinction sera difficile) - L’intervalle entre les renforcements (l’extinction est plus difficile après un conditionnement différé car le chien a appris à inhiber) - Les substances chimiques (les sédatifs vont faciliter l’extinction). 5. GENERALISATION ET DISCRIMINATION a) Généralisation Il y a généralisation lorsqu’une réponse ayant été conditionnée avec un stimulus déterminé apparaît également avec des stimuli qui lui ressemblent. Schéma : Variation de fréquence d’un son. On suppose que l’on a conditionné le chien à un son de 1000 Hz. Si on lui fait entendre un son à une fréquence plus petite, on obtient quand même une réponse mais la quantité de salive est moindre. Une réaction serait donnée à chaque fois mais elle est d’autant plus faible que l’on s’éloigne du stimulus conditionnel. L’intensité de la réponse (ex : quantité de salive) est fonction de l’intensité du stimulus (ex : fréquence du son) : c’est le gradient de généralisation. Une fois établie une réaction conditionnelle à un stimulus bien défini, la présentation de stimuli différents peut aussi évoquer la même réaction : c’est la généralisation conditionnelle. Les stimuli susceptibles d’évoquer la réaction conditionnelle ont certaines relations avec le premier stimulus. Leur efficacité est d’autant plus grande qu’ils sont plus semblables à ce dernier. 769784939 11/18 b) Discrimination Discriminer = différencier ses réponses Discriminer, c’est répondre par une réaction donnée à un stimulus bien déterminé et ne pas répondre à des stimuli différents. Nous avons présenté les principales caractéristiques de la réaction conditionnelle classique en ne retenant que les travaux de Pavlov. Partant du conditionnement salivaire comme un prototype, on trouve un nombre important de réactions qui peuvent être conditionnées selon le même schéma. Certains auteurs ont pensé pendant longtemps que le conditionnement pavlovien était une forme d’apprentissage très primitive. Ce point de vue est actuellement discuté et il semblerait que c’est la prise de conscience entre le stimulus conditionnel et le stimulus inconditionnel qui serait la condition nécessaire à l’établissement d’un conditionnement classique chez l’être humain. Ceci expliquerait que le conditionnement soit difficile à établir chez le bébé, mais il faut dire que le conditionnement serait le témoin d’une capacité à saisir des relations de causalité et non pas une forme primitive de l’activité cognitive. 6. EXEMPLES D’APPLICATIONS DU CONDITIONNEMENT CLASSIQUE Exemple : Technique du coussinet pour les problèmes d’incontinence nocturne chez l’enfant. RC : réveil de l’enfant SC (pression) SI (sonnerie) L’avantage est qu’il n’y a pas d’extinction, le conditionnement est durable car il relève d’une adaptation nerveuse. Immersion et désensibilisation systématique, mécanisme d’extinction conditionnelle. 769784939 12/18 C. LE CONDITIONNEMENT OPERANT OU INSTRUMENTAL 1. DEFINITION C’est Skinner (1904 – 1990) qui fut le pionnier du conditionnement opérant qu’il va opposer au conditionnement classique de Pavlov. Skinner va étudier le conditionnement opérant sur l’animal (rat, pigeon) puis assez rapidement il va utiliser le conditionnement opérant pour rendre compte de l’ensemble des apprentissages humains, même celui du langage. Le qualitatif « instrumental » vient du fait que dans cette forme d’apprentissage, l’obtention d’une récompense (renforcement positif) ou une punition (renforcement négatif) dépend de l’activité du sujet, c’est-à-dire de sa réponse. Par conditionnement instrumental, on désigne simplement la réponse du sujet qui est l’instrument dont il dispose pour exercer une influence sur la suite des événements et il doit apprendre à l’utiliser. 2. CONDITIONNEMENT CLASSIQUE ET INSTRUMENTAL : LES SIMILITUDES L’acquisition d’un comportement exige une association. L’acquisition d’un comportement exige aussi une répétition : plusieurs essais successifs sont nécessaires. Le rôle du renforcement est essentiel car sans lui la réaction s’éteindra. 3. CONDITIONNEMENTS CLASSIQUE ET INSTRUMENTAL : LES DIFFERENCES Répondant (Pavlov) Instrumental (Skinner) Relation causale entre le renforcement et la réponse. Le renforçateur (SI) est donné par l’expérimentateur. → Le sujet est passif, il subit le milieu. Loi de contiguïté temporelle. 769784939 Liaison réponse / renforcement arbitraire. Le renforcement dépend de la production de la réponse du sujet → Le sujet est actif, il agit sur le milieu. Loi de l’effet (rôle des récompenses et des punitions) 13/18 4. LE CADRE D’ANALYSE Boîte à Skinner ou « puzzle box » ou « boîte à problème » Elle est munie d’un dispositif de réponse et d’un réceptacle. Unité de comportement qui est le fait d’appuyer sur un bouton. C’est ce que l’on souhaite obtenir après apprentissage. Sous le contrôle du renforcement Stimulus (ex : levier) Milieu Organisme Renforçateur (ex : aliment) Réponse (ex : appui sur levier) La réponse opérante est contrôlée par ses conséquences. 5. LES PRINCIPES DU CONDITIONNEMENT OPERANT a) Contingences de renforcement Les principes du conditionnement opérant décrivent les relations entre le comportement et les conditions environnementales qui vont l’influencer. 3 éléments majeurs apparaissent : Stimuli discriminatifs : ils servent de signaux en procurant de l’information concernant le moment où un opérant (ex : coup de bec) sera renforcé. Réponse opérante : ce n’est pas seulement une réaction à un stimulus mais c’est aussi un moyen d’obtenir une récompense ou d’éviter une punition. 769784939 14/18 Agents renforçateurs : Consommables et manipulables (boissons, bonbons…) Sociaux (contact physique, réponse verbale) Certains comportements → principe de Prémack Renforcements conditionnés généralisés et échangeables (argent) Principe de Prémack : Un comportement émis selon une fréquence élevée peut servir de renforcement à un autre comportement de probabilité d’apparition plus faible (ex : si les résultats scolaires sont mauvais, plus de télévision). Regard particulier sur les agents renforçateurs : Les agents renforçateurs peuvent modifier la fréquence dans le sens d’une augmentation. - Renforcement positif : cela augmente la probabilité d’une réponse opérante. - Renforcement négatif : requiert la présence d’un événement aversif et l’animal ou l’individu va apprendre à éviter ou échapper à cet événement. Echappement = quitter une pièce trop bruyante. Evitement = absorption d’un médicament. Echappement : L’individu est soumis à une situation douloureuse à laquelle il va se soustraire par l’émission d’un comportement. Evitement : Ce type de comportement va permettre à l’individu de prévenir un contact avec une situation aversive, l’individu va se soustraire à la situation. L’évitement peut se développer après l’apprentissage d’une réponse d’échappement. Les agents renforçateurs peuvent modifier la fréquence d’une réponse dans le sens d’une diminution. L’objectif est de réduire voir de supprimer l’émission d’un comportement non approprié (les punitions). 769784939 15/18 Il ne faut pas confondre les notions de renforcement négatif et de punition. La punition se réfère à la réduction de la fréquence d’émission d’une réponse, mais dans la vie courante, la punition est très souvent utilisée indépendamment de ses effets sur le comportement. b) Les programmes de renforcement Il faut varier le délai entre la réponse opérante et le renforçateur. Réponse opérante Renforçateur Programme de renforcement La relation entre la réponse opérante et le renforçateur peut être réglée par diverses modalités que l’on appelle programme de renforcement. Il existe plusieurs programmes de renforcement : Programme de renforcement continu C’est le programme le plus simple : chaque réponse est suivie d’un renforcement quel que soit le moment où la réponse est émise. Programmes à proportion des réponses - à proportion constante (FR ou Fixed Ratio) : Le sujet recevra un renforcement chaque fois qu’il fournira un nombre de réponses déterminé (ex : un pigeon doit tourner la clé 10 fois pour être renforcé). - à proportion variable (VR ou Variable Ratio) : Le renforcement est octroyé après un nombre variable de réponses. Le renforcement est intermittent et la variation se fait autour d’une moyenne. 769784939 16/18 Programmes à composantes temporelles - Programme à intervalle fixe (FI ou Fixed Interval) Toutes les 10 secondes. - Programme à intervalle variable (VI ou Variable Interval) Le renforcement est délivré après une heure variable (de 90 à 100 secondes). A partir de ces différents programmes, Skinner a pu étudier l’apprentissage de différents types de comportement. Par exemple : - La discrimination d’un élément : apprendre à l’animal à émettre une réponse en présence d’un signal qui peut être par exemple une lampe. - La différenciation : la nourriture ne sera donnée que si l’animal fournit une réponse d’une certaine intensité. 6. LES LOIS DU CONDITIONNEMENT OPERANT Le conditionnement opérant a apporté plusieurs points à l’étude de l’apprentissage. Il a conduit à accorder une plus grande généralité aux mécanismes mis en évidence par l’étude du conditionnement Pavlovien. a) Conditions d’établissement L’efficacité du renforcement est dictée par le fait qu’il doit être délivré immédiatement après l’émission d’une réponse et lorsque la réponse est apprise, le délai entre la réponse et le renforcement peut varier. b) L’extinction et le recouvrement spontané Dans le conditionnement opérant, l’extinction et le recouvrement spontané des réponses apprises proviennent d’une répétition du comportement sans renforcement (ex : si un enfant est en colère et que les parents lui disent de se taire, il faut simplement l’ignorer et il y aura extinction des cris de colère). 769784939 17/18 c) La généralisation On peut conditionner un pigeon à picorer une petite plage lumineuse, on mesure la fréquence de réponse, on va faire varier la couleur se rapprochant plus ou moins des stimulus discriminatifs et on aura la même réponse. Chez l’être humain, on a observé les mêmes phénomènes (ex : le transfert d’apprentissage = faire quelque chose de la main droite puis de la main gauche). d) La discrimination Figure 17 : Apprentissage discriminatif sans erreurs 769784939 18/18 e) La névrose expérimentale 7. EXEMPLES D’APPLICATION Enseignement L’enseignement programmé, c’est une technique d’enseignement (avec ordinateur) qui consiste à découper les connaissances en petites unités présentées à l’élève dans un ordre de difficulté gradué. Chaque unité fait l’objet d’une ou plusieurs questions de l’enseignant. Ces questions sont conçues de telle manière que l’élève puisse donner des réponses satisfaisantes faisant l’objet d’un renforcement positif (ex : c’est bien, continue…). Education Thérapie Dans de nombreux troubles du comportement (ex : dépression), par la technique du conditionnement opérant, nous pouvons renforcer le sujet pour qu’il redevienne « normal » (renforcement d’unité comportementale). 769784939 19/18 8. CONCLUSION GENERALE Les théories S – R de l’apprentissage sont insuffisantes dans l’explication d’apprentissages complexes. La théorie de Hull S – O – R est précurseur d’autres théories. Stimulus Organisme Besoin Motivation Réponse Il a défini les habitudes, plus particulièrement des familles d’habitudes. 769784939 20/18