http://www.risc.cnrs.fr/mem_theses_pdf/2015_ARNOUX.pdf

publicité
Rapport de stage CogMaster – master de sciences cognitives M2 – spécialité modélisation 04/06/2015 Bases computationnelles de l’inférence probabiliste chez l’Homme Clara A rnoux Supervision : Valentin Wyart Laboratoire de Neurosciences Cognitives Ecole normale supérieure Durée du stage : Février 2015 -­‐ Juin 2015 Sommaire Sommaire ............................................................................................................................................................... 2 Déclaration d’originalité .................................................................................................................................. 3 Déclaration de contribution ........................................................................................................................... 4 I. Problématique – Introduction ............................................................................................................... 5 II. Démarche et méthodes ........................................................................................................................ 18 A. Participants .......................................................................................................................................... 18 B. Tâche ....................................................................................................................................................... 18 C. Matériel .................................................................................................................................................. 24 D. Modèles .................................................................................................................................................. 24 E. Prétraitement des données de pupillométrie ........................................................................ 29 III. Résultats ................................................................................................................................................... 30 A. Analyses des performances comportementales .................................................................. 30 B. Analyse du comportement sur la base de modèles cognitifs .......................................... 35 IV. Discussion ................................................................................................................................................ 45 Remerciements ................................................................................................................................................. 50 Références .......................................................................................................................................................... 51 Annexes ............................................................................................................................................................... 54 Déclaration d’originalité A ce jour, la question concernant des bases computationnelles de l’inférence probabiliste chez l’Homme n’est pas résolue et n’a pas clairement été abordée dans la littérature. Par ailleurs ce projet repose sur l’hypothèse de travail selon laquelle la prise de décision se fait de manière sous-­‐optimale et cela en partie à cause d’un processus d’inférence sous optimal. Cette hypothèse se démarque des théories actuelles 1,2 qui souvent ne différencient pas formellement le processus d’inférence de celui portant sur la sélection de la réponse ou bien considèrent le processus d’inférence comme quasi-­‐optimal (normatif) mais modulé par des a priori contextuels optimaux lorsque considérés globalement, mais sous-­‐optimaux localement. Déclaration de contribution Ont participé à ces travaux : Clara Arnoux (CA) et Valentin Wyart – superviseur (VW) Lorsque j’ai contacté Valentin Wyart pour effectuer mon stage de M2 sous sa supervision, ce dernier m’a proposé de travailler sur un sujet dont la thématique générale avait été définie en amont par lui même (sous-­‐optimalité de la prise de décision chez l’humain). VM m’a ensuite conseillé un certain nombre de lectures pour cibler ce que serait la thématique de mon stage et choisir parmi les différents axes qu’il souhaitait étudier, j’ai ensuite décidé de travailler sur l’inférence mentale chez l’homme et plus particulièrement l’identification de son espace de représentation. Concernant l’approche générale et la méthodologie (approche guidée par un modèle théorique), celles-­‐ci ont été définies par VW. Lorsque j’ai débuté mon stage, une première tâche pilote avait déjà été mise au point, j’ai recruté et fait passer une quinzaine de sujets sur cette première version pilote. Sur la base des résultats obtenus (non-­‐présentés dans ce rapport), nous avons ensemble réfléchi à certaines modifications : affichage des axes principaux des catégories plutôt que des frontières entre catégories, suppression de la longueur de la séquence la plus longue pour diminuer la durée de l’expérience (60 min. au lieu de 80-­‐90 min. initialement), affichage du pourcentage de mises fortes pour guider les sujets à « balancer » leur utilisation des deux niveaux de mises (faible et forte). Ces modifications ont été codées par VW après avoir été validées ensemble. J’ai effectué le recrutement ainsi que la passation de l’ensemble des sujets (pilotes = 15 sujets et version finale = 25 sujets, chaque sujet prenant part à deux sessions d’enregistrement sur deux jours). J’ai effectué le prétraitement des données d’oculométrie en partant d’un programme de prétraitement générique codé par VW, que j’ai par la suite modifié pour l’adapter au protocole utilisé et rajouter des étapes de traitement des signaux. Les modèles théoriques ainsi que les procédures d’ajustement aux données des sujets testés ont été implémentés dans MATLAB par VW, ainsi que la plupart des modèles statistiques que j’ai par la suite modifiés. Les analyses des résultats obtenus, l’interprétation de ceux-­‐ci ainsi que la formulation des conclusions ont été effectués par VW et CA. J’ai rédigé le mémoire comprenant les figures et VW a ensuite relu et corrigé celui-­‐ci, sans modifier sa structure générale ni l’organisation des différentes sous-­‐parties. I. Problématique – Introduction Prise de décision et accumulation d’information Prise de décision perceptuelle et économique La prise de décision peut être définie de façon générale comme le processus cognitif qui permet d’agir de façon adaptée sur la base d’information. L’information utilisée par l’agent pour décider peut provenir de son environnement sensoriel, c’est dans ce cas une information que l’on peut qualifier de « perceptive », et nous parlerons alors de prise de décision perceptuelle. C’est le cas lorsqu’on se trouve après une semaine de diète dans la forêt vierge devant un fruit inconnu (donc potentiellement non-­‐comestible) et que, en fonction d’informations visuelles et olfactives, on se décide (ou non) à le manger. L’information utilisée pour décider peut également venir de valeurs subjectives « internes », autrement dit des préférences subjectives que l’on a forgées au cours de notre vie, nous parlerons alors de prise de décision économique. C’est le cas lorsqu’on se trouve en face de deux paquets de gâteaux dans un distributeur automatique et que l’on décide d’acheter l’un plutôt que l’autre. Dans cette étude, nous nous sommes intéressés à la première forme de décision, la prise de décision perceptuelle. Une autre façon de décrire ce processus cognitif pourrait être pour un agent de choisir parmi plusieurs interprétations possibles de son environnement sensoriel afin de déterminer comment réagir de façon adaptée. Il peut s’agir de décider de l’identité d’un stimulus isolé ambigu à partir d’une information sensorielle reçue imparfaite, mais encore de déterminer un état global de l’environnement sensoriel sur la base d’informations sensorielles potentiellement hétérogènes réparties dans l’espace et/ou dans le temps. Mécanismes de la prise de décision perceptuelle Ce processus de décision perceptuelle peut être décomposé en trois mécanismes sous-­‐
jacents : 1) l’extraction des signaux sensoriels pertinents pour la décision à prendre, puis 2) l’inférence, définie ici comme l’accumulation de l’information apportée par les signaux sensoriels extraits en faveur des différents états possibles de l’environnement (autrement dit des différentes hypothèses), et enfin 3) le processus de sélection de l’interprétation la plus probable/vraisemblable sur la base de l’information accumulée, et potentiellement, d’une action appropriée. Accumulation/combinaison d’information imparfaite L’étape d’accumulation d’information est importante étant donné que, bien souvent, l’information perceptuelle (c’est à dire extraite de signaux sensoriels) à laquelle nous avons accès est imparfaite (bruitée ou ambiguë) et il est donc impossible de décider de façon informée et fiable sur la base d’un unique échantillon d’information. Dans ce cas, il est nécessaire d’accumuler de l’information perceptuelle dans le temps, ou encore de combiner les informations perceptuelles obtenues par différentes sources sensorielles (dans l’exemple précédent, de combiner l’aspect visuel à l’odeur du fruit inconnu) pour pouvoir prendre une décision appropriée. Cette accumulation ou combinaison d’information perceptuelle, que nous qualifierons donc d’inférence dans la suite de ce rapport, est le processus cognitif qui va nous intéresser tout particulièrement dans ce projet. Quelles sont les théories sur l’accumulation d’information ? Dans la littérature sur la prise de décision perceptuelle, les auteurs font souvent référence à la notion de variable de décision pour parler du signal qui accumule l’information sensorielle pertinente et qui est ensuite comparée à un seuil (ou critère) de décision de façon à choisir une interprétation de l’environnement sensoriel, et éventuellement engager une action appropriée. Cette description basée sur un critère de la prise de décision perceptuelle est le fondement même de la théorie de la détection du signal (ou TDS) proposée par Green et Swets en 19643, mais aussi des modèles « dynamiques » de prise de décision comme le modèle de dit de « diffusion » (pour une revue, voir, par exemple, Ratcliff et Smith, 20044). Deux positions théoriques complémentaires peuvent être adoptées vis-­‐à-­‐vis de la notion de variable de décision : une position « descriptive » (ou phénoménologique) qui ne s’intéresse pas à proprement parler à ce que peut représenter cette variable de décision, mais seulement à décrire comment cette variable accumule de l’information au cours du temps ; ou au contraire, une position « normative » qui cherche à expliquer la nature représentationnelle de cette variable de décision. La différence entre ces deux positions prend tout son sens dans le cadre de la description à trois niveaux proposée par David Marr (1976)5. Le niveau computationnel correspond à la fonction du processus d’inférence, et correspond à la position « normative » ; le niveau algorithmique (ou représentationnel) correspond à la description phénoménologique des mécanismes permettant de réaliser cette fonction, et revient à la position « descriptive » décrite ci-­‐
dessus. Dans ce rapport, nous n’aborderons pas le niveau physique correspondant à l’implémentation des mécanismes d’accumulation d’information au niveau neuronal. Un modèle descriptif : « le modèle de diffusion » Nous allons ici présenter un exemple de modèle théorique : le modèle de diffusion ou drift diffusion model (DDM), décrivant comment la variable de décision accumule l’information à un niveau phénoménologique (donc algorithmique dans le cadre de la subdivision proposée par Marr). Ce modèle théorique est l’un des plus utilisés à l’heure actuelle pour décrire simultanément la précision et la chronométrie des décisions perceptuelles. Il est le plus souvent utilisé pour expliquer la prise de décision dans des tâches de choix forcé à deux alternatives (« two-­‐alternative forced choice » ou « 2AFC ») pour lesquelles le sujet peut répondre aussitôt qu’il/elle le souhaite. Ce modèle considère qu’à chaque instant, la variable de décision accumule de l’information pour l’une ou l’autre des alternatives sur un axe de décision scalaire jusqu’à ce qu’un seuil de décision soit atteint. La particule se déplace dans une direction lorsque l’information apportée à cet instant favorise la première alternative, et dans l’autre direction lorsque l’information favorise la seconde. De façon importante, cette accumulation se fait de manière stochastique ; à chaque instant, la variable de décision intègre un nouvel échantillon d’information auquel est ajouté un échantillon de « bruit » tiré d’une distribution Gaussienne de moyenne nulle. Le modèle fait l’hypothèse qu’une décision est prise lorsque la variable de décision atteint un certain niveau (ou critère). Modèle normatif : l’inférence probabiliste Bayésienne Au contraire des modèles descriptifs/phénoménologiques décrits dans la partie précédente, la position normative sur l’accumulation d’information s’intéresse à la nature de la variable de décision, à ce qu’elle représente. Un cadre naturel consiste à décrire l’accumulation d’information comme un processus d’inférence statistique dite « Bayésienne », car reposant sur le théorème de combinaison probabiliste dit de Bayes. Il est important de noter que le processus d’inférence Bayésienne ne peut être directement assimilé à un processus de prise de décision, mais uniquement à un processus d’accumulation d’information. En effet, un observateur Bayésien ne fait que déterminer la probabilité des différentes alternatives à discriminer, mais ne décide pas à proprement parler. Théorème de Bayes Le modèle normatif repose sur le théorème de combinaison probabiliste dit de Bayes : 𝑃 𝜃 𝑠 ×𝑃(𝑠) 𝑃 𝑠 𝜃 = 𝑝(𝜃)
Ce théorème nous dit qu’un observateur qui doit interpréter a posteriori l’état de l’environnement sur la base d’information incertaine/probabiliste (en opposition à une information certaine/déterministe) 𝜃 peut pour cela combiner les a priori sur les états possibles de l’environnement 𝑃(𝑠) au modèle génératif de celui-­‐ci 𝑃 𝜃 𝑠 . De façon cruciale, ce théorème fournit une équation mathématique permettant de calculer la probabilité a posteriori des états possibles de l’environnement sur la base d’observations générées par l’un de ces états. A ce stade, il est important de noter que la notion de probabilité ne fait pas référence à l’interprétation « fréquentiste » associée à des évènements mais au degré de croyance qu’un individu accorde à une interprétation plutôt qu’une autre. Cette vision « subjective » de probabilité comme degré de croyance s’établit sur la base des a priori et du modèle génératif supposé par l’observateur (Chater et al., 2006). Pour redéfinir précisément les termes de la formule : -­‐ 𝑃 𝑠 𝜃 correspond à des distributions de probabilité qui conditionnent un état possible de l’environnement s à des observations 𝜃 -­‐ 𝑃 𝜃 𝑠 correspond à des distributions de probabilité qui conditionnent une observation 𝜃 aux différents états possibles de l’environnement s. -­‐ P(s) correspond aux a priori sur les états du monde -­‐ P(𝜃) aux a priori sur les observations. Il est important de noter que si les états du monde sont équiprobables, alors 𝑃 𝜃 𝑠 est proportionnel à 𝑃 𝑠 𝜃 . Autrement dit, il est possible d’estimer la probabilité a posteriori des états possibles de l’environnement directement à partir des observations, en calculant la probabilité d’observer ces observations sachant chacun de ces états – sur la base du modèle génératif que l’observateur a des observations en fonction des états possibles. Pour reprendre l’analogie faite par Gold et Shalden (2007)1, le processus d’inférence Bayésienne pourrait être comparé à un jury de tribunal qui doit intégrer de l’information imparfaite (des pièces à conviction plus ou moins ambiguës) relative à différentes interprétations dans le but de rendre un jugement. Les états possibles seraient dans ce cas « coupable » ou « non coupable », les a priori correspondraient aux préjugés ou biais des jurys, tandis que les observations seraient les pièces à conviction. Quant au modèle génératif, il correspondrait dans cet exemple à la façon dont les jurés considèrent que le fait d’être coupable ou non coupable pourrait expliquer les différentes pièces à conviction. Cette vision théorique est soutenue par un grand nombre de données comportementales. Notamment dans le domaine de la perception humaine où les décisions perceptives peuvent être décrites par le formalisme Bayésien. L’étude de Gerardin et al. (2010)6 a notamment montré qu’en considérant un a priori selon lequel la lumière viendrait du haut il était possible d’expliquer le changement d’interprétation concernant la forme d’un objet lorsqu’on modifie l’endroit où il est illuminé. Une autre étude sur la perception humaine, celle de Girschick et al. (2011)7, a étudié la performances des sujets dans une tâche d’estimation d’orientations et a montré que ces jugements étaient plus précis pour des orientations cardinales. Ces différences de performances peuvent être expliquées à partir d’a priori perceptuels, de biais qu’ont les sujets du fait de la distribution de ces orientations dans l’environnement : orientations cardinales plus probables dans l’environnement. Nature de la variable de décision dans un cadre Bayésien Comment appliquer le théorème de Bayes lorsque les observations ne sont pas disponibles simultanément mais délivrées de façon séquentielle – et qu’il est donc nécessaire d’accumuler progressivement de l’information ? Le processus d’inférence Bayésienne décrit au dessus peut s’appliquer de façon séquentielle lorsque les observations sont indépendantes les unes des autres. Plus précisément, si les observations 𝜃! perçues au cours du temps sont indépendantes les unes des autres, alors il est possible de considérer l’interprétation a posteriori à un moment donné sur la base des observations faites, comme la combinaison de l’interprétation a posteriori générée par la nouvelle observation et celle générée par les précédentes observations : 𝑃 𝑠 𝜃!!!…! = 𝑃 𝑠 𝜃!!! ×𝑃 𝑠 𝜃!!!…!!! . Ainsi, ajouter une nouvelle information revient à mettre à jour l’interprétation a posteriori en appliquant le théorème de Bayes de façon séquentielle. Il n’est donc pas nécessaire de mémoriser l’ensemble des observations précédentes à chaque instant mais uniquement de maintenir la probabilité a posteriori sur la base de ces observations précédentes. Il apparaît alors un parallèle fort avec les modèles descriptifs/phénoménologiques d’accumulation d’information : pour le modèle normatif, la variable de décision qui accumule l’information correspond à cette interprétation a posteriori, qui est mise à jour de façon itérative à chaque nouvelle observation. Nous obtenons donc dans ce cas une définition « normative » de la variable de décision en tant que de degré de croyance a posteriori, et non une description purement phénoménologique de la façon dont elle accumule l’information. Il est important de noter que l’application séquentielle du théorème de Bayes (pour des échantillons indépendants les uns des autres) revient à une somme des vraisemblances des observations sachant les différents états possibles, si l’on considère que les calculs sont réalisés dans l’espace des log-­‐probabilités. Il apparaît alors une équivalence entre cette description Bayésienne de l’accumulation d’information et celle proposée par le modèle de diffusion dans lequel la variable de décision somme les échantillons d’information observés. Ces différents modèles permettent tous de décrire comment se fait l’accumulation d’information lors d’une prise de décision perceptuelle mais diffèrent par leur niveau de description : les modèles phénoménologiques ne font qu’une description du mécanisme tandis que le modèle Bayésien propose une définition du contenu de la variable de décision. Après avoir détaillé les modèles qui théorisent l’accumulation d’information (ou inférence), nous allons à présent décrire les tâches qui ont été utilisées pour étudier ce processus de façon expérimentale. Comment l’accumulation d’information a-­‐t-­‐elle été étudiée ? La tâche de « random dot motion » La tâche dite de « random dot motion » (RDM) est une tâche historique qui a été utilisée pour étudier les corrélats psychologiques et cérébraux de l’accumulation d’information au cours du temps. Cette tâche consiste à visualiser un nuage de points aléatoires bougeant de façon plus ou moins cohérente vers la droite ou la gauche (force du stimulus variable) et d’indiquer ensuite, après un certain temps de présentation, quelle était la direction cohérente du mouvement du nuage. Le temps de réponse peut être fixé par l’expérimentateur ou bien laissé libre de façon à ce que le sujet réponde lorsqu’il le souhaite. Cette tâche est souvent utilisée chez les macaques, qui doivent indiquer leur décision en effectuant une saccade oculaire vers une cible à droite si le nuage bouge vers la droite, ou une cible à gauche s’il bouge vers la gauche (voir Figure 1). Figure 1 : Tâche de « random dot motion » chez le singe rhésus. Le singe visualise un nuage de point bougeant de façon plus ou moins cohérente vers la gauche ou la droite et doit indiquer sa décision avec une saccade oculomotrice (figure d’après Gold et Shadlen, 20071). Grâce à cette tâche, les auteurs ont pu dissocier en termes neuraux les trois étapes de la prise de décision perceptuelle que nous avons préalablement présentés : 1) l’extraction de l’information sensorielle pertinente (ici, l’information de mouvement du nuage de points dans les deux directions possibles, gauche et droite), 2) l’accumulation de cette information en faveur des différentes interprétations possibles (gauche ou droite), et 3) la sélection de l’interprétation la plus probable/vraisemblable. MT et extraction de l’information sensorielle pertinente Britten et al. (1996)8 se sont intéressés à la première étape de récupération de l’information sensorielle pertinente. Pour cela ils ont enregistré des neurones de l’aire visuelle MT (pour Middle Temporal visual area), sélective à la présentation d’objets en mouvements. Ils ont isolé des neurones sélectifs à la direction du mouvement droite et d’autre sélectifs à la direction du mouvement gauche. Ils ont observé que lorsque le singe répondait droite alors les neurones sélectifs au mouvement vers la droite étaient plus activés que ceux sélectifs à gauche. De façon cruciale, cette relation entre l’activité des neurones sélectifs et le choix persistait lorsque la cohérence du nuage était nulle (c’est à dire en l’absence d’information perceptuelle pour l’une ou l’autre direction du mouvement). Ce résultat montre que cette relation MT-­‐choix est indépendante du contenu du stimulus et suggère un encodage de l’information sensorielle pertinente pour la décision par cette région. D’autres résultats soutiennent cette interprétation : en stimulant des neurones de MT sélectifs pour une direction du mouvement, il est possible de biaiser les réponses du singe en faveur de cette direction9. LIP et accumulation temporelle d’information Les neurones du MT sont liés à d’autres régions et notamment à la région LIP (pour Lateral IntraParietal area), connue pour son rôle dans la préparation de la réponse motrice : ces neurones garderaient une information utile pour guider le mouvement saccadique. Les auteurs ont sélectionné des neurones dont les champs de récepteurs saccadiques (CR) se trouvaient au niveau d’une des deux cibles (droite et gauche par rapport au nuage de point). Par champ de récepteur « saccadique », on entend la région de l’espace qui induit une activité du neurone avant qu’une saccade oculomotrice ne soit effectuée vers cette région de l’espace10. Pendant la tâche de random dot motion, ces neurones ont une activité qui augmente graduellement si la cible choisie se trouve dans le CR du neurone, et qui diminue sinon. Si la cible choisie se trouve dans le CR pendant la présentation du nuage de points, les neurones déchargent de plus en plus fort jusqu’à un certain seuil au moment de la décision et plus la cohérence est forte plus l’activité du neurone augmente rapidement11. Le seuil atteint au moment du choix est constant quelque soit la cohérence12. Figure 2 : Réponse des neurones de la région LIP pendant la décision. Les activités moyennes sont regroupées selon la force du stimulus (cohérence) et selon si la cible choisie était dans le CR des neurones ou non. A gauche, les activités sont alignées au début du stimulus ; à droite, au moment du choix (Figure tirée de Gold et Shadlen, 20071). Ces propriétés des neurones de LIP suggèrent donc que ces neurones intègrent l’information sensorielle pertinente pour la décision et que ce processus s’arrête une fois qu’un seuil fixe est atteint – comme prédit par le modèle de diffusion. En outre, en stimulant directement pendant la visualisation du nuage de points des neurones de LIP ayant le même CR saccadique, la temps de réponse est raccourci si la cible choisie par le singe était dans ce CR, et rallongé si elle ne se trouvait pas dans le CR13. De plus, cette stimulation biaisait la décision des singes en faveur de la cible située dans le CR saccadique stimulé. Les résultats de cette étude pourraient suggérer un rôle causal de ces neurones dans l’accumulation d’information. Cependant, étant donné que les neurones sélectionnés de LIP sont sensibles à une préparation motrice, il n’est pas possible de distinguer entre une éventuelle accumulation ou d’une préparation de la réponse dans la tâche. Ainsi en stimulant ces neurones, c’est comme si on avait biaisé le sujet pour l’une des réponses sans nécessairement changer l’accumulation d’information. Certains choix perceptuels ne nécessitent pas de préparer de réponse motrice pendant la décision car ils n’impliquent pas nécessairement une action immédiate. C’est le cas par exemple lorsqu’on doit déterminer si un fruit inconnu est comestible ou non-­‐
comestible, on peut interpréter sa comestibilité sans vouloir le manger immédiatement si il est considéré comestible. En réduisant l’inférence à une préparation motrice progressive, il ne serait pas possible d’expliquer ces décisions perceptuelles qui sont prises sans action immédiate et où ne peut donc pas parler de préparation motrice. La tâche de « weather prediction » La tâche de RDM a permis de valider les prédictions principales des modèles descriptifs de prise de décision comme le modèle de diffusion, en particulier l’accumulation d’information en faveur des différentes hypothèses/alternatives jusqu’à un seuil fixe, qui, lorsqu’il est atteint, déclenche la décision. D’autres tâches ont tenté de lier les descriptions normatives de la prise de décision à l’activité cérébrale enregistrée dans les mêmes régions, notamment LIP. Le paradigme dit de « weather prediction » (WT)14,15 est l’un d’entre eux, et correspond à une tâche de catégorisation probabiliste. Le paradigme se déroule de la façon suivante. Dans un premier temps, le singe ou sujet passe par une phase d’apprentissage pendant laquelle des symboles sont associés de façon probabiliste à une réponse, par exemple un carré prédit à 70% une réponse pour une saccade vers la gauche et 30% une saccade vers la droite. Pendant cette phase les sujets apprennent progressivement le pouvoir prédictif de chaque symbole. Dans un deuxième temps, les sujets vont observer des séquences de ces mêmes symboles, dont ils ont appris les poids associés pour chaque réponse, et vont devoir combiner l’information apportée par chaque symbole de façon à choisir la réponse pour laquelle ils ont eu le plus d’information sur la base de l’ensemble des symboles de la séquence. Dans ce cas, c’est l’information apportée par la séquence qui va permettre de prédire la réponse associée. Ainsi si le singe ou sujet observe une séquence avec un premier symbole qui prédit une réponse à 20% vers la droite, un second à 80% vers la gauche, une troisième à 60% vers la gauche et un dernier à 30% vers la droite, il devrait effectuer une saccade vers la gauche car cette séquence prédit une réponse vers la gauche (Figure 3). Figure 3 : Tâche de catégorisation probabiliste de type « weather prediction ». Les singes apprennent à associer des poids prédictifs favorisant la couleur verte ou rouge aux différents symboles pendant une phase d’apprentissage. Puis on leur présente successivement quatre symboles et sur la base de cette séquence ils doivent choisir la couleur pour laquelle ils ont reçu le plus d’information en effectuant une saccade oculaire vers la droite pour vert et une saccade oculaire vers la gauche pour rouge (d’après Yang et Shadlen, 2007)2. Les humains14,15 comme les singes2 arrivent à effectuer la tâche de façon quasi-­‐optimale : ils pondèrent correctement et accumulent l’information associée à chaque forme, ce résultat suggère que dans une tâche de catégorisation perceptuelle les sujets font quelque chose qui peut être assimilable à de l’inférence Bayésienne. Par ailleurs, Yang et Shadlen(2007)2 ont également enregistré ce qu’il se passait dans des neurones de LIP dont les CR se trouvent soit au niveau de cible droite (associée à la couleur verte), soit au niveau de la gauche (associée à la couleur rouge). Les auteurs ont retrouvé une augmentation graduelle de l’activité des neurones de LIP pendant l’accumulation d’information apportée par les symboles successifs : plus l’information associée à la séquence est importante plus la pente de l’activité est importante. La différence fondamentale avec les études faites sur la tâche de RDM est qu’ici les auteurs donnent une interprétation de l’information accumulée par les neurones de LIP, elle correspondrait au logarithme du ratio des probabilités a posteriori pour la couleur préférée du neurone et celle pour la couleur non préférée du neurone (Figure 4). En effet, comme nous l’avons précédemment montré, lorsque les échantillons sont indépendant, l’application séquentielle du théorème de Bayes revient à une somme des probabilités a posteriori dans l’espace des log-­‐probabilités ce qui permet de décrire l’évolution de la variable de décision, ou interprétation a posteriori par un modèle de diffusion. Figure 4 : Effet du logarithme du ratio des probabilités a posteriori pour la couleur préférée du neurone et celle pour la couleur non préférée du neurone. Chaque epoch présente l’activité moyenne des neurones ayant le même CR alignée avec la présentation du symbole2. Ainsi, avec cette étude les auteurs ne sont pas restés dans une approche descriptive des activités de LIP comme dans les tâches de RDM où les auteurs concluaient à une accumulation d’information par ces neurones mais ne donnaient pas d’interprétation quant au contenu informationnel de cette variable de décision. L’approche adoptée dans cette étude est plus « normative », car les auteurs veulent donner une interprétation de la nature de la représentation encodée par les neurones de LIP. Selon les auteurs, il y aurait bien une accumulation d’information par ces neurones et cette information représenterait le logarithme du ratio des probabilités a posteriori pour les deux réponses. Dans quel espace représentationnel se fait l’accumulation d’information ? Quel format pour la variable de décision ? Espace représentationnel des actions Si les résultats concernant ces neurones de LIP suggèrent un encodage de la variable de décision par ces neurones, toutes ces études que nous avons citées préalablement ne permettent pas de dissocier l’accumulation d’information et la préparation motrice étant donné que les neurones de cette région ont des CR associés à une saccade précise. Il se pourrait notamment que la stimulation de ces neurones13 perturbe la préparation motrice et que l’activité de ces neurones corrèle effectivement avec l’information accumulée au cours du temps mais que cette préparation motrice ne soit pas assimilable à un processus d’accumulation d’information mais soit un mécanisme parallèle à celui-­‐
ci. L’hypothèse selon laquelle cette accumulation d’information correspondrait à une préparation motrice définit l’espace représentationnel de l’accumulation comme un espace des actions. Espace représentationnel du stimulus Une autre possibilité serait que cette information accumulée corresponde à l’information sensorielle pertinente du stimulus. Pour la tâche de RDM, l’information pertinente étant la direction du mouvement de chacun des points au cours du temps, cela voudrait dire que les neurones extraient la direction du mouvement de chacun des points et moyennent celle ci au cours du temps, dans une région cérébrale sélective à la direction de mouvement. Dans ce cas, on parlera d’espace représentationnel du stimulus, et l’information encodée dans la variable de décision sera donc liée directement aux dimensions pertinentes du stimulus pour la décision. Espace représentationnel des options Une troisième possibilité pour cet espace représentationnel serait un espace plus abstrait, correspondant aux différentes catégories perceptuelles / interprétations de l’environnement sensoriel entre lesquelles choisir mais indépendant des actions qui peuvent leur être associées. On parlera alors d’espace des options. Finalement la question que nous souhaitons adresser est la suivante : l’information accumulée correspond-­‐t-­‐elle à une information relative aux stimuli indépendante des états possibles (espace du stimulus) ? Ou bien à une information intégrée relativement aux états possibles mais indépendamment des actions (espace des options) ? Ou encore à une préparation motrice (espace des actions) ? Pour la tâche de RDM, cela correspondrait à se demander si les sujets extraient la direction du mouvement de chacun des points et moyenne celle ci au cours du temps, ou bien s’ils intègrent une information convertie en options (direction du mouvement gauche ou droite), ou encore si les sujets accumulent l’information par rapport à l’action qu’ils doivent effectuer comme une préparation motrice. Notre hypothèse expérimentale vis-­‐à-­‐vis de cette question est que l’intégration se fait dans l’espace des options. Quels sont les arguments qui nous permettent de formuler cette hypothèse ? Une accumulation qui se ferait dans l’espace des actions serait donc dépendante des actions faisant suite à une prise de décision perceptuelle. Cependant, comme indiqué précédemment, une prise de décision n’implique pas nécessairement une action immédiate, on parle dans ce cas de décisions couvertes et l’accumulation dans l’espace des actions ne permettrait pas de rendre compte de ces décisions tandis que cela serait rendu possible par une accumulation se faisant dans l’espace des options. D’autre part, les décisions requièrent souvent de combiner de l’information apportée par plusieurs dimensions perceptives ce qui relève d’un mécanisme plus général qu’une accumulation dans l’espace du stimulus dépendant d’une dimension perceptive (par exemple, la direction du mouvement du stimulus ou le contraste du stimulus). La encore, l’accumulation dans l’espace des options pourrait rendre compte de cette combinaison d’information apportée par différentes dimensions perceptives. Optimalité et inférence Bayésienne Pour déterminer l’espace dans lequel a lieu l’accumulation d’information, notre paradigme va avoir pour but de contraindre, avec différentes conditions expérimentales, l’accumulation d’information à avoir lieu dans chacun des trois espaces présentés : stimulus, options et actions. Pour déterminer quel est l’espace « naturel » de représentation, nous mesurerons le degré d’optimalité des décisions prises dans chacun de ces espaces de représentation. Si les décisions prises sont aussi optimales lorsque l’accumulation ne peut avoir lieu dans l’espace des actions mais seulement dans l’espace des options, nous considérerons que l’espace des actions n’est pas l’espace dans lequel l’accumulation d’information a lieu. Si, au contraire, les décisions prises lorsque l’accumulation d’information ne peut qu’avoir lieu dans l’espace du stimulus sont moins optimales que celles prises dans l’espace des options, nous considérerons que l’espace des options joue un rôle central dans l’accumulation d’information. Dans cette partie, nous allons décrire précisément ce que nous définissions par « optimalité ». En effet, la notion d’optimalité ne peut être détaillée que dans le contexte d’un but, la solution optimale est alors complètement définie par le problème posé ce qui implique que la sous-­‐optimalité n’existe que vis à vis d’un objectif1,16. La notion d’optimalité dans le cadre restreint de la prise de prise de décision perceptuelle à laquelle nous faisons référence est celle définie dans le cadre de la théorie probabiliste normative, à savoir par la formule de Bayes, suivie par une règle de décision type « tout-­‐ou-­‐rien » (déterministe). Cependant, résoudre un problème de façon optimale peut dans certains cas s’avérer impossible, soit parce que le modèle génératif n’est pas connu par les individus, ou alors parce que résoudre le problème de façon optimale est trop couteux algorithmiquement pour l’individu, c’est par exemple le cas lorsque les échantillons d’informations ne sont pas indépendant et la solution du problème devient alors mathématiquement intraitable 17–19. On parlera alors de sous-­‐optimalité si les performances sont significativement en dessous des performances optimales. Mais il se peut également que malgré un modèle génératif connu et une solution mathématiquement traitable (indépendance des échantillons), les sujets soient tout de même sous-­‐optimaux. Plutôt que de simplement être informés sur le fait que nos sujets soient optimaux ou non, nous souhaitons également apporter une réponse au pourquoi (c’est à dire, de quelle façon) le sont-­‐ils ou ne le sont-­‐ils pas. La prise de décision perceptuelle peut être, comme nous l’avons dit précédemment, subdivisée en trois différents mécanismes :1) l’extraction des signaux sensoriels pertinents pour la décision à prendre, puis 2) l’inférence, et 3) le processus de sélection. Au regard de ces trois étapes, la sous-­‐optimalité de la prise de décision peut s’expliquer par des sous-­‐optimalité au niveau de ces différents mécanismes. D’une part, l’extraction des signaux sensoriels peut se faire de façon bruitée : les signaux internes qui encodent l’information perceptive sont bruités ce qui introduit une variabilité et peut induire des performances sous-­‐optimales20,21. D’autre part, comme l’ont présenté théoriquement Beck et al. (2012)22, l’inférence peut se faire de façon sous-­‐optimale si le modèle génératif appris n’est pas le bon ou si les sujets ont des biais (des a priori erronés/exagérés sur l’environnement). Ces sous-­‐optimalités en termes d’inférence concernent les croyances des individus, or, il peut tout autant s’agir d’une variabilité dans l’accumulation d’information23 si l’ajout d’une nouvelle information à l’information accumulée dans la variable de décision se fait de façon bruitée comme le suggère d’ailleurs le modèle descriptif DDM où la variable de décision lorsqu’elle intègre un nouvel échantillon d’information y ajoute un échantillon de « bruit ». Par ailleurs, lorsqu’un sujet accumule de l’information, il peut perdre cette information au cours du temps. Enfin, le processus de sélection n’est plus optimal s’il devient biaisé et ou/ variable (non déterministe). Le second intérêt de notre étude serait de caractériser ce qui sous-­‐tend la sous-­‐
optimalité éventuelle de l’inférence mentale dans les différents espaces représentationnel de l’information. Pour questionner les mécanismes sous-­‐jacents au comportement humain nous aurons une approche basée sur des modèles cognitifs. Le principe de cette approche est de définir des modèles du choix et de sélectionner, parmi ces différents modèles, celui qui explique les données comportementales le plus parcimonieusement possible. Un modèle du choix ou modèle cognitif est un modèle (ici reposant sur la théorie Bayésienne) qui prend en entrée les différents paramètres de a tâche et qui produit en sortie des choix que l’on peut comparer à ceux des sujets sur la tâche. Dans ces modèles nous formulons mathématiquement les sous-­‐optimalités éventuelles avec des paramètres. Une fois que nous avons sélectionné un modèle nous pouvons regarder quelles valeurs prennent ces paramètres pour maximiser la vraisemblance entre les données comportementales et les réponses du modèle. Ces valeurs de ces paramètres nous permettent ensuite de donner une explications aux données comportementales que nous observons et ici de caractériser les sous optimalités éventuelles. Paradigme proposé pour répondre à la question adressée Dans cette introduction, nous avons montré que la question de l’espace représentationnel dans lequel l’information est accumulée pour la prise de décision perceptive n’a pas clairement été abordée et résolue. Dans notre étude, nous allons donc adresser cette question avec un paradigme expérimental permettant de distinguer entre les différentes hypothèses que nous avons formulées : espace des actions, du stimulus ou des options. Pour distinguer clairement entre ces trois nous proposons une tâche de type WP où le sujet visualise des séquences de cartes qui apporte une information incertaine pour deux catégories ou réponses possibles et doit ensuite indiquer le paquet pour lequel il à reçu le plus d’information dans la séquence. Le paradigme est similaire à celui proposé par Yang et Shadlen (2007)2 sauf que plutôt que d’utiliser des symboles arbitrairement associés à deux couleurs (les deux réponses possibles dans leur cas), chaque carte présentera une orientation générée à partir d’une distribution probabiliste circulaire gaussienne (parmi deux possibles) et que les deux réponses données au sujets seront les orientations correspondant aux centres de ces catégories. Implémenter la tâche de WP de cette manière permet de réintroduire la notion de dimension sensorielle pertinente pour la décision (ici l’orientation), pour un descriptif visuel se référer à la Figure 3. De façon à dissocier les trois espaces possibles de l’inférence, nous avons défini trois conditions expérimentales dans lesquelles nous contrôlons les indices contextuels données au sujet, et pouvons ainsi le contraindre à effectuer l’accumulation d’information dans un espace plutôt qu’un autre. Dans un cas nous le sujets aura accès pendant la présentation de la séquence aux centres des catégories ainsi qu’à la réponse motrice associée, le sujet pourra dans ce cas accumuler l’information à un niveau perceptif : moyenne des orientations (espace du stimulus) ou vis à vis des options ou encore vis à vis des actions. Pour la seconde condition, le sujet ne pourra qu’accumuler l’information dans l’espace du stimulus étant donné qu’aucune information sur les catégories ne lui sera révélée avant de faire son choix. Enfin, dans la troisième condition, les centres des catégories seront donnés aux sujets sans connaissance de la réponse motrice associée (délivrée au moment du choix), ne permettant alors au sujet que d‘accumuler l’information dans l’espace du stimulus ou des options. II. Démarche et méthodes A.
Participants Vingt-­‐cinq participants âgés de 18 à 30 ans (13 femmes) ont été recrutés par l’intermédiaire du site du RISC (Relais d’Information sur les Sciences de la Cognition). Tous avaient une vision normale ou corrigée (par des lentilles) et aucun n’a reporté de troubles neurologiques ou psychiatriques. Tous les participants ont signé un formulaire de consentement avant de participer à l’expérience. Les sujets ont effectué deux sessions d’une heure environ à moins d’une semaine d’intervalle et ont été dédommagés de 15€ par session. A cette somme s’ajoutait un éventuel bonus de 10€ en fonction des performances, soit un total maximum de 40€ pour les deux heures. Les données de quatre participants ont été exclues de l’analyse des données pupillométriques en raison d’un trop grand nombre de clignements entre la présentation de la première carte de la séquence et celle de la carte ‘réponse’ (seuil d’exclusion : plus de 50% des séquences rejetées sur la base de ce critère). B.
Tâche 1.
Principe La tâche est une variante de la tâche dite de « weather prediction » (détaillée en introduction) où les sujets doivent inférer la catégorie (ou paquet) générateur de la séquence de stimuli (ou cartes) parmi deux catégories possibles caractérisées par deux distributions circulaires Gaussiennes (autrement appelées distributions de von Mises) d’orientations principales différentes mais de même concentration. L’objectif du paradigme étant de déterminer l’espace ou format de représentation dans lequel s’effectue le processus d’inférence (c’est à dire ici l’intégration de l’information associée aux différentes cartes), la tâche a donc été construite en décomposant les indices contextuels disponibles au moment de la présentation des cartes de façon à contrôler le ou les espaces de représentation dans lesquels le processus d’inférence peut avoir lieu. Au cours d’un essai, les indices sont donnés avant la séquence, la séquence est ensuite présentée, suivie d’une ‘carte réponse’ présentant les orientations principales (ou moyennes) des deux paquets et leur réponse motrice associée : chaque orientation principale a une couleur (bleu ou orange) associé à un bouton réponse. Les sujets indiquent leur choix en pressant l’un des boutons puis le sujet reçoit un feedback auditif sur sa réponse. Dans une condition les sujets reçoivent des indices sur les catégories : la moyenne de chaque paquet (centre de la catégorie) avec le mapping de la réponse motrice associée, dans ce cas les sujets peuvent intégrer l’information dans les trois espaces possibles. Dans une autre condition les sujets ne perçoivent que les cartes, aucune information contextuelle n’est donnée, et sont donc contraints d’intégrer dans l’espace du stimulus. Dans une dernière condition, les sujets reçoivent des indices relatifs aux catégories : la moyenne de chaque paquet, mais ils ne savent pas encore quelle catégorie correspond à quelle réponse motrice. Ainsi, les sujets peuvent dans ce cas intégrer dans l’espace du stimulus comme dans l’espace des options, en revanche, ils ne peuvent pas préparer leur réponse motrice, donc intégrer dans l’espace de la réponse. Pour les trois conditions, tous les indices contextuels sont disponibles au moment du choix, car la carte « réponse » est la même dans les trois conditions. Ces trois conditions seront dans la suite de ce rapport, regroupées sous la condition d’indiçage à trois facteurs : sans indice, avec indiçage d’options et enfin indiçage d’options et d’actions. Cette tâche possède l’avantage de pouvoir contrôler le moment ou le sujet intègre l’information étant donné l’aspect séquentiel de la tâche, contrairement à la tâche de RDM où on ne sait pas quand les sujets échantillonnent l’information du stimulus. Les stimuli n’étant pas bruités, l’information donnée au sujet est simple, ce qui rend l’intégration de celle-­‐ci facile pour le sujet. Si l’extraction de l’information n’est pas compliquée pour le sujet, ce qui peut alors poser problème au sujet serait de combiner l’information des différentes cartes, à savoir l’étape d’inférence. La « pauvreté » des stimuli utilisés (notamment leur caractère unidimensionnel) est donc un moyen de réduire notre étude au mécanisme inférentiel et non au traitement perceptif des stimuli. Enfin, du fait de l’indépendance de stimuli, nous insistons sur le fait que dans la tâche les sujets ne doivent pas garder en mémoire les différentes cartes de la séquence, ce n’est donc pas une tâche de mémoire de travail. En effet, cette indépendance de l’information perçue permet, comme nous l’avons vu dans l’introduction de développer des modèles d’accumulation de l’information où une variable de décision est mise à jour (modèle Bayésien dans notre cas) : il suffit pour les sujets d’ajouter l’information apportée par la dernière carte présentée à la variable de décision (contenant donc l’information apportée par les cartes précédentes). D’ailleurs, comme nous le verrons par la suite les sujets ont de meilleures performances pour les séquences plus longues (8 et 12), or si la tâche faisait intervenir la mémoire de travail les sujets ne pourraient pas mémoriser plus de 4 cartes24, ce qui rendrait leurs performances équivalentes pour les trois longueurs de séquences. 2.
Stimuli Les stimuli utilisés étaient des cercles (diamètre : 4 degrés d’angle visuel) présentant un point de fixation (diamètre : 0,2 degré d’angle visuel) au centre et une barre correspondant à un diamètre du cercle d’orientation variable. Les stimuli étaient présentés pendant 100 ms. Les programmes contrôlant l’affichage de ces stimuli et la récolte des réponses ont été implémentés sur MATLAB (MathWorks, Natick, Massachusetts, USA), et utilisaient la boîte à outils logiciels de psychophysique Psychtoolbox-­‐325,26. 3.
Déroulement de la tâche Chaque séquence de cartes était précédée de deux flashes indiquant la vitesse de présentation de la séquence de façon à ce que les sujets puissent prédire le début de la séquence et la fréquence de présentation de celle-­‐ci: 2 Hz (intervalle inter-­‐stimulus de 500 ms) ou 4 Hz (intervalle inter-­‐stimulus de 250 ms). Les sujets ont visualisé des séquences de 4, 8 ou 12 stimulus (ou « cartes ») générées à partir de l’une des deux distributions de von Mises. A la fin de la chaque séquence, une ‘carte réponse’ présentant les orientations principales (ou moyennes) des deux paquets était présentée et le sujet devait indiquer de quel paquet avait-­‐il inféré que la séquence provenait. L’une des deux orientations principales était bleue, l’autre orange. Chaque couleur était associée à un bouton réponse, inchangé pendant toute l’expérience. De cette façon, la couleur permettait d’associer chacune des catégories à une action. Après la réponse du sujet, celui-­‐ci recevait un feedback auditif 500 ms après sa réponse avec un jitter de 50 ms: deux bips ascendants si sa réponse était correcte (s’il avait associé la séquence au bon paquet d’origine), deux bips descendants si sa réponse était incorrecte. Si aucune réponse n’avait été fournie dans les 2000 ms après la présentation de la ‘carte réponse ‘ ou avant que celle-­‐ci ne soit présentée (pendant la présentation de la séquence), le sujet recevait deux bip graves indiquant qu’il avait été trop lent ou trop rapide (inférieur à 3% des séquences pour tous les sujets et moyenne de 7‰ sur tous les sujets). 4.
Condition d’indiçage Comme nous l’avons détaillé en présentant le principe de la tâche, ce facteur expérimental d’indiçage (à trois niveaux) nous permettra de déterminer l’espace de représentation nécessaire aux participants pour effectuer une intégration d’information de manière efficace (i.e., la moins sous-­‐optimale possible). Si notre hypothèse d’intégration dans l’espace des options s’avère être correcte alors nous devrions nous attendre à observer des patterns de performances similaires pour l’indiçage avec options et celui avec options et actions, puisque donner de l’information contextuelle relative à la réponse ne permettrait pas d’améliorer les performances des sujets étant donné que cette information n’est pas utile pour l’accumulation d’information. En revanche, les performances devraient être moins bonnes sans indiçage que pour les deux conditions avec indiçage était donné que la relation entre stimulus et options est critique pour le processus d’inférence. La Figure 5 ci-­‐dessous présente les performances attendues pour les différentes conditions d’indiçage si notre hypothèse d’intégration dans l’espace des options s’avère être la bonne. Figure 5 : Pattern des performances attendues pour les trois hypothèses possibles. Gauche : inférence dans l’espace du stimulus. Les performances ne devraient pas être affectées par la condition d’indiçage. Centre : inférence dans l’espace des options. Les performances devraient être plus importante dans les conditions d’indiçage d’options et d’options et d’actions. Droite : inférence dans l’espace des actions. Les performances devraient être meilleures dans la condition d’indiçage d’options et d’actions que dans les autres. 5.
Type de catégorisation Figure 6 : Distributions génératives pour les deux types de catégorisation. (a) Catégorisation grossière : les 𝝅
𝝅
𝟒
𝝅
𝟒
distributions sont centrées sur et − , concentration de la distribution 𝜿 = 𝟎, 𝟓. (b) Catégorisation fine: les distributions sont centrées sur et −
𝟏𝟔
𝝅
𝟏𝟔
, concentration de la distribution 𝜿 = 𝟑, 𝟖. Dans le but d’apporter des preuves empiriques supplémentaires quant à l’espace de représentation (stimulus, options ou actions) dans lequel les sujets intègrent l’information à travers les cartes présentées, nous avons cherché à savoir comment les sujets étaient affectés aux variations statistiques du stimulus dans chaque condition d’indiçage. Pour cela nous avons introduit dans le dessin expérimental une nouvelle condition à deux facteurs, le type de catégorisation : grossière ou fine. Pour la catégorisation grossière les deux distributions circulaires gaussiennes génératrices sont !
centrées sur des moyennes séparées de et leur concentration vaut 0.5, tandis que pour !
!
la catégorisation fine les moyennes sont séparées et leur concentration vaut 3.8 (voir !"
Figure 6). En effet, si les sujets intègrent dans l’espace du stimulus, c’est l’angle moyen qui devrait être intégré et alors une intégration avec un niveau de précision donné devrait résulter en une performance plus faible pour une catégorisation fine (car les deux catégories sont séparées par une distance angulaire plus faible) que pour une catégorisation grossière. A l’inverse s’ils intègrent dans l’espace des options ou des actions, donc si c’est l’information apportée en faveur des différentes options qui est intégrée, au contraire, une intégration avec un niveau de précision constant entre catégorisation fine et grossière devrait résulter en des performances identiques dans les deux conditions. Figure 7 : Distributions globale des orientations dans la condition de catégorisation grossière (à gauche) et dans la condition de catégorisation fine (à droite). 6.
Structure de la tâche La tâche repose sur un plan factoriel à quatre conditions expérimentales que nous rappelons ici : -­‐ L’indiçage, trois facteurs : sans indice, indiçage d’options et indiçage d’options et d’actions -­‐ Le type de catégorisation, deux facteurs : grossière ou fine -­‐ La longueur de la séquence (nombre de cartes), trois facteurs : 4, 8 ou 12 cartes -­‐ La vitesse de la séquence : lente (2Hz) ou rapide (4Hz) La tâche a été divisée en 10 blocs de test (de 10 minutes chacun) ainsi qu’un bloc d’entrainement au début de la première session. Chaque bloc est divisé en deux sous-­‐
blocs, l’un de catégorisation grossière, l’autre, de catégorisation fine. L’ordre reste constant à travers une session mais est inversé entre les deux sessions. Chaque sujet fait donc une session en commençant par la condition grossière puis l’autre en commençant par la condition fine. L’ordre est contrebalancé à travers les sujets. Les autres facteurs expérimentaux (indiçage, vitesse et longueur de séquence) ont été pseudo-­‐randomisés et contrebalancés à travers les blocs. Chaque bloc comporte 84 séquences, dont 6 séquences d’initialisation au début de chaque sous-­‐bloc afin de permettre au sujet d’avoir quelques essais de transition entre les essais en catégorisation grossière et ceux en fine qui diffèrent visuellement. Ces séquences n’ont pas été prises en compte dans nos analyses. La tâche comporte donc 720 essais au total pour les deux sessions (sans les séquences d’initialisation). Pour que les sujets ne puissent pas mémoriser les centres des catégories lorsque les sujets n’ont pas accès aux indices contexuels, l’axe qui se trouve entre les deux centres des catégories : axe principal de catégorisation, peut prendre 16 valeurs comprises entre 0 et 𝜋, contrebalancées à travers les essais. Nous avons également veillé à ce que la couleur du paquet de soit pas toujours la même de chaque coté de l’axe principal de catégorisation. Enfin, pour chaque condition d’indiçage (pour chaque type de catégorisation), les sujets ont visualisé exactement les mêmes séquences. Ainsi les conditions d’indiçage ne diffèrent que par les indices contextuels et les différences de performances ne pourront pas être expliquées par une différence de difficulté entre les séquences visualisées pour chaque condition d’indiçage. C.
Matériel 1.
Enregistrement de la dilation pupillaire Les participants étaient assis à une distance de 70cm d’un écran BenQ XL2420T de 24‘’, avec une résolution de 1920x1080 pixels et un taux de rafraichissement de 60 Hz. Leur tête était maintenue stable grâce à un repose-­‐menton et un repose-­‐front. La dilatation de la pupille gauche ainsi que sa position étaient mesurés avec un eyetracker Eyelink 1000 (SR Research, Osgoode, Ontario, Canada) à une fréquence d’échantillonage de 500 Hz. Chaque bloc était précédé d’une procédure de calibration à 5 points. Les participants pouvaient faire une pause après le deuxième ou troisième bloc (sur les 5 blocs composant une session expérimentale). Au début de chaque sous-­‐bloc le sujet devait fixer le point de fixation pendant 10 secondes de façon à stabiliser la pupille. Tout au long de la tâche le sujet avait pour instruction de fixer le point de fixation au centre du cercle. D.
Modèles 1.
Modèle optimal La tâche, telle qu’elle a été construite, est associée à un modèle optimal défini par le théorème de Bayes suivi par une sélection non biaisé déterministe de la catégorie la plus vraisemblable (voir introduction). Chaque carte est associée à un LLR (logarithme du rapport des vraisemblances pour chaque catégorie), autrement dit l’information qu’apporte la carte dans la séquence. Dans notre tâche, cela correspond au ratio des valeurs des densités de probabilité génératives des deux catégories correspondant à l’angle de la carte. Cela correspond donc au rapport de deux distribution de von Mises, ce qui correspond à une fonction sinusoïde pour le rapport des log-­‐probabilités pour cette distribution (voir Annexe # pour plus de détails) : LLR !"#$% = 2𝜅 × sin 2𝛿 × sin 2(𝜃! − 𝜃) Où : -­‐ 𝜃! correspond à l’angle de la carte -­‐ 𝜃 correspond à l’axe principal de catégorisation !
!
-­‐ 𝛿 correspond à la distance entre deux catégories ( ou ) !
!"
𝜅 correspond à la concentration des distributions (0.5 ou 3.8) Etant donné que les cartes sont tirées indépendamment les unes des autres, pour calculer l’information apportée par la séquence, il suffit de sommer le LLR de chaque carte pour obtenir le LLR de la séquence. Etant donné que le modèle optimal n’a pas d’a priori sur les distributions des orientations ou sur les catégories, ce LLR de la séquence correspond au logarithme du rapport des probabilités (ou croyances) a posteriori pour chaque catégorie, après avoir visualisé la séquence. Le modèle sélectionne ensuite de façon optimale : il choisi donc la catégorie pour laquelle il a la croyance la plus forte (probabilité a posteriori conditionnée aux cartes visualisée dans la séquence). -­‐
2.
Modèles cognitifs A priori, sur la base des précédents résultats obtenus sur une tâche similaire de catégorisation probabiliste effectuée dans l’équipe, nos sujets réalisent la tâche de façon sous-­‐optimale (leurs performances sont moins bonnes que celles des modèles optimaux). Afin d’expliquer la sous-­‐optimalité des sujets nous avons pris en compte différents paramètres permettant de caractériser les déviations cognitives à l’optimalité. Le modèle que nous considérons est un modèle où les sous-­‐optimalités proviennent du processus d’inférence et non pas du processus de sélection que nous considérons optimal. Nous avons vérifié qu’en effet la variabilité dans le choix provenait bien de l’étape d’inférence et non du processus de sélection en effectuant une comparaison de modèle que nous avons détaillée en annexe 5 (avec également une description de ces paramètres caractérisant la sous-­‐optimalité du processus de sélection). Nous pouvons catégoriser les paramètres en deux classes, l’une regroupant les paramètres de variabilité qui rendent le modèle moins déterministe en termes de réponses prédites : pour la même information le modèle ne produira pas la même réponse. L’autre classe regroupe les paramètres de distorsion, qui eux ne changent pas le caractère déterministe du modèle. a)
Bruit d’inférence Le bruit d’inférence 𝜎!"# est un paramètre stochastique qui ajoute du bruit à l’information apportée par chaque nouvelle carte présentée. Comme nous l’avons détaillé précédemment, chaque carte est associée à un LLR qui caractérise l’information apportée par celle-­‐ci. A ce LLR est ajouté un bruit d’inférence pris dans une distribution normale 1D (avec indiçage, ce qui revient à un bruit projeté sur l’axe principal de catégorisation) ou 2D (sans indice, ce qui revient à un bruit isotrope dans toutes les directions de catégorisation possibles) de moyenne nulle et d’écart-­‐type 𝜎!"# . Cette hypothèse est inspirée de la théorie de détection du signal, où la variabilité est également distribuée comme une loi normale additive de moyenne nulle. Ce bruit d’inférence caractérise le fait que lorsque l’information d’une nouvelle carte est combinée avec l’information accumulée jusqu’alors cela se fait avec une certaine variabilité – autrement dit avec une précision finie. Il s’en suit que la variabilité sur le LLR de la séquence sera de l’ordre de 𝜎!"# 𝑁 − 1 (avec N le nombre de carte de la séquence) puisque le bruit d’inférence ajouté à chaque carte est considéré comme indépendant d’une carte à l’autre. Figure 8 : Représentation de l’information pour le paquet gauche (LLR ou logarithme du rapport des vraisemblances) en fonction du tilt de la carte par rapport à l’axe principal de catégorisation. Le bruit d’inférence ajoute une variabilité sur la valeur du LLR associée aux orientations lorsque le LLR de la séquence est combiné avec celui d’une nouvelle carte, il introduit donc une variabilité sur l’axe des ordonnés correspondant au LLR. La quantité de bruit sur la séquence au moment du choix (une fois la projection faite) est la même quelque soit la condition d’indiçage, pour une valeur donnée de bruit d’inférence. En revanche, le bruit présent pendant l’accumulation est plus important pour la condition sans indice que pour les conditions avec indiçage du fait de la différence de dimension de l’information dans ces deux cas. En effet, sans indice, le bruit est présent dans toutes les directions de catégorisation possibles ; alors qu’il est censé n’être présent que sur l’axe principal/pertinent de catégorisation lorsque un indice d’options et/ou d’actions est disponible. b)
Paramètre de fuite (ou effet de « récense ») Le paramètre de fuite est un paramètre déterministe qui porte sur la capacité des sujets à intégrer l’information apportée successivement par les cartes de la séquences. On parle de fuite d’inférence (ou d’effet de « récence ») lorsqu’il y a perte d’information apportées par les cartes précédentes (c’est à dire sur l’information accumulée) lorsqu’une nouvelle carte est présentée. Au contraire, on parle d’effet de primauté lorsqu’au fur et à mesure de la présentation des cartes de la séquence, l’information de celles est de moins en moins pris en compte. En termes mathématiques, une fuite en terme d’intégration d’information correspond à une sous-­‐pondération de du terme d’information à chaque mise à jour de la croyance a posteriori (multiplication par un facteur inférieur à 1) avant d’être combiné au terme de vraisemblance correspondant à l’information apportée par la nouvelle carte. Au contraire, un effet de « primauté » correspond à une sur-­‐pondération du nouveau terme d’information (multiplication par un facteur supérieur à 1). Ainsi dans notre modèle, lorsque l’information (LLR) d’une nouvelle carte est intégrée à l’information précédant l’apparition de cette carte, cette dernière est pondérée par un terme e!!!"# . Etant donné l’indépendance des cartes, cela revient à pondérer l’information d’une carte située en i-­‐ième position par e!(!!!)!!"# . Si 𝛼!"# > 0, c’est une fuite d’information, i.e. un effet de récence, si 𝛼!"# < 0, au contraire, c’est un effet de primauté. Cette fuite ou effet de primauté de l’information s’effectue sur l’information bruitée intégrée jusqu’à l’apparition de la carte en cours, ainsi le rapport signal sur bruit n’est pas modifié. Figure 9 : Schématisation de la fuite et de l’effet de primauté. Pour l’effet de primauté (en orange), les dernière carte de la séquence sont sous-­‐pondérées par un terme exponentiel tandis que pour l’effet de « recense » ou fuite d’information (courbe bleue) ce sont les premières cartes qui sont sous-­‐pondérées. Nous avons normalisé les poids pour que la carte la plus pondérée dans chacun des cas est un poids de décision égal à 1. c)
Paramètre de distorsion de l’information Comme nous l’avons démontré précédemment, et ce quelque soit la condition d’indiçage ou de catégorisation, l’information (ou LLR) apportée par chaque carte peut s’écrire 2×𝜅×sin (𝛿)×sin (𝜃! − 𝜃) (𝜅: concentration de la distribution ; 𝛿 : distance entre les deux catégories ; 𝜃 : tilt par rapport à l’axe principal de catégorisation). Une conséquence importante de cette équation est que les orientations les plus informatives !
sont celles se trouvant à 𝜃! = ± de l’axe principal de catégorisation (axe séparant les !
deux paquets). Dans la condition grossière, il se trouve que les cartes les plus informatives correspondent aux directions principales des catégories et sont également les plus probables. Ce n’est pas le cas dans la condition de catégorisation fine : les cartes les plus informatives sont excentrées par rapport aux directions principales des catégories, et sont dans le même temps peu probables – beaucoup moins probables que les cartes correspondant aux centres des catégories (il existe un rapport de probabilités de 11 entre les cartes correspondant aux centres des catégories et les cartes les plus informatives pour la catégorisation fine). En conséquence, il se pourrait que nos sujets ne considèrent par ces orientations comme les plus informatives et qu’ainsi leur modèle génératif de conversion entre angle et information (LLR) soit déformées par rapport à la fonction optimale (autrement dit, que les maximum et minimum de cette fonction ne se !
trouvent plus à± de distance de l’axe de catégorisation principal). !
Pour caractériser la sous-­‐optimalité sur cette dimension, nous considérons une fonction LLR déformé représentée par une sinusoïde par morceaux (« piecewise sinusoid ») dont le seul paramètre correspond à l’angle pour lequel la fonction de LLR est maximale, soit l’angle le plus informatif pour le sujet. Cette caractérisation de la distorsion sur le LLR a l’avantage de n’impliquer qu’un paramètre scalaire plutôt qu’un set de paramètres si nous devions ajuster la relation entre l’angle des cartes et l’information apportée pour chaque angle. Si le sujet n’a pas de distorsion dans la représentation de l’information associée aux !
différents angles alors ce paramètre prendra la valeur de . Si le sujet a tendance à sous-­‐
!
pondérer l’information des cartes moins probables dans la condition de catégorisation fine, ou autrement dit à surpondérer les cartes les plus probables, dans ce cas la carte !
considérée comme la plus informative pour le sujet se trouvera entre 0 et .. Au !
contraire, si le sujet surpondère l’information apportée par les cartes les moins !
probables alors le maximum du LLR se trouvera décalé à une distance supérieure à de !
l’axe de catégorisation principal. Figure 10 : Fonction de LLR en faveur du paquet gauche en fonction de l’orientation des cartes relativement à l’axe principal de catégorisation (tilt), théorique (en pointillés) et déformé (en trait plein). Théoriquement la 𝝅
carte la plus informative (quelque soit le type de catégorisation) est celle située à , le LLR est donc maximal 𝟒
pour cette valeur. Si le sujet représente mal l’information sa fonction de LLR sera décalée (LLR déformé) et la 𝝅
carte la plus informative ne se trouvera plus à . 𝟒
d)
Paramètre caractérisant la proportion d’essais où le sujet a répondu au hasard Ce paramètre capture la proportion d’essais où le sujet a répondu au hasard. Nous avons introduit ce paramètre car il permet de capturer les décisions difficiles à expliquer pour le modèle, de façon à éviter une distorsion des paramètres de fit pour capturer les décisions sur quelques réponses aberrantes, à savoir lorsque la séquence est très informative pour une catégorie et que le sujet choisi l’autre catégorie. E.
Prétraitement des données de pupillométrie 1.
Interpolation Lorsque le signal pupillaire est manquant/absent (pour cause de clignements oculaires, ou de mouvements brusques de la tête), le signal est interpolé en utilisant des fonctions polynomiales cubiques (ordre 3) définies par morceaux (« splines » en anglais). 2.
Echantillonnage Avec Eyelink, le signal est échantillonné à 500Hz par défaut, nous le sous-­‐
échantillonnons à 50Hz ce qui permet de réduire la taille des fichiers tout en conservant l’information nécessaire en termes de dynamique de dilatation pupillaire27. 3.
Tri des essais Dans cette étude, le processus qui nous intéresse est celui de l’inférence qui s’effectue pendant la présentation des cartes de la séquence. En conséquence la portion du signal qui nous souhaitons analyser est celle située après le premier flash de la séquence et 300 ms après la carte réponse. Ainsi, si les artefacts se trouvaient dans cet intervalle et que leur durée était trop longue (t > 500 ms) donc mal interpolés alors nous rejetions la séquence. Pour cela le signal est visualisé séquence par séquence en annotant chaque essai comme correct ou incorrect. Nous n’avons gardé que les sujets dont le pourcentage de séquences rejetées n’excédait pas 50%, ce qui a conduit à l’élimination de quatre sujets de l’analyse des données pupillaires. 4.
Suppression des fluctuations lentes Le signal de dilatation pupillaire comporte des fluctuations « lentes » – par rapport à la durée moyenne d’un essai (autour de 5 secs). Dans cette tâche nous ne nous intéressons qu’aux composantes « rapides », ayant un sens à l’échelle temporelle des séquences, les fluctuations lentes de la pupille sont donc supprimées sur chaque sous-­‐bloc. Pour ce faire, nous avons fitté le signal avec une fonction polynomiale cubique définie par morceaux sur des intervalles 30 fois plus longs que la période d’échantillonnage. Puis nous avons soustrait le polynôme au signal de dilation pupillaire. 5.
Standardisation du signal pupillaire Afin d’obtenir un signal pupillaire comparable entre les différents individus nous avons standardisé le signal de chaque sujet (suppression de la moyenne et division par la déviation standard), sur chaque sous-­‐bloc. III. Résultats A.
Analyses des performances comportementales 1.
Résultats comportementaux pour les six paires de conditions Figure 11 : Proportion de réponses correctes (à gauche) et optimales (à droite), moyennée sur l’ensemble des sujets, par indiçage (axe des abscisses) et type de catégorisation (couleur des barres). Les barres d’erreur présentées correspondent aux erreurs standard à la moyenne des sujets (n = 25). Dans la figure ci-­‐dessus, nous avons à gauche la proportion de réponses correctes moyenne des sujets pour chaque paire de condition (indice, type de catégorisation). Sur celle de droite, les barres correspondent à la proportion de réponses optimales. Pour passer de l’un à l’autre il suffit de diviser la proportion de réponses correctes du sujet par la proportion de réponses correctes du modèle optimal (qui ne varie pas pour les six conditions comme nous l’avons vu précédent). Cela nous donne une information sur les performances du sujet relativement au modèle optimal qui ne répond pas toujours correctement comme nous l’avons décrit précédemment. Nous pouvons ainsi, à partir de cette proportion de réponses optimales, comparer directement et facilement les performances du sujet au modèle optimal. Pour un sujet qui se comporte optimalement nous aurions une proportion de réponses optimales égale à 1 dans chaque condition. On observe, un effet principal du type d’indice ainsi que du type de catégorisation (F( 2,48) = 14.694, p < 0.001 ; F(1,24) = 58.454, p < 0.001) ainsi qu’une interaction entre les deux (F(2,48) = 203.178, p < 0.001). Il est important de noter qu’étant donné que nous avons montré l’équivalence des conditions pour le modèle optimal de la tâche, les différences de performances observées pour les données humaines ne peuvent pas s’expliquer par des différences de difficulté théorique entre les conditions. Les sujets sont plus sous-­‐optimaux dans la condition de catégorisation sans indice que dans la condition avec indice d’options (t(24) = -­‐12.8, p < 0.001) et que dans celle avec indices d’options et d’actions (t(24) = -­‐15.1, p < 0.001). Ceci suggère que l’intégration ne se fait pas dans le même espace entre la condition sans indice et celles avec indices et qu’accumuler l’information dans cet espace est plus couteux pour les sujets. Par ailleurs, les sujets sont plus affectés par la catégorisation fine dans cette condition sans indice que dans les deux autres (test t sur la différence de proportion de réponses optimales entre la condition de catégorisation grossière et fine ; sans indiçage – indiçage d’options : t(24) = 5.0138, p < 0.001 ; sans indiçage – indiçage d’options et d’actions : t(24) = 2.8880, p < 0.01) . Cela pourrait être du au fait que les sujets sont plus sensibles aux variations statistiques des stimuli lorsqu’ils doivent effectuer l’accumulation d’information dans l’espace du stimulus. Bien que la différence de performances entre les deux types de catégorisation soit moins importante pour les conditions avec indiçage, cette différente reste significative. Nous nous intéresserons à ce résultat par la suite, avec des analyses basées sur des modèles. En revanche, nous n’observons pas de différence globale significative entre la condition d’indiçage d’options et celle d’indiçage d’options et d’actions (t(24) = -­‐1.03, p = 0.3124). Si on se place maintenant dans un type de catégorisation particulier, là les différences entre ces deux conditions sont marginalement significatives dans le deux cas (catégorisation grossière : t(24) = -­‐2.03, p = 0.0533 ; fine : t(24) = 0.7186, p = 0.0549). Il semblerait donc qu’il est ait une petite différence entre ces deux conditions. 2.
Accumulation de l’information associée aux cartes de la séquence Figure 12 : Proportion de réponses correctes, moyennée sur l’ensemble des sujets, par indiçage (axe des abscisses) et longueur de la séquence (couleur des barres). Les barres d’erreur présentées correspondent aux erreurs standard à la moyenne des sujets (n = 25). Dans ce paragraphe nous souhaitons chercher des preuves empiriques que les sujets intègrent bien l’information apportée par les cartes présentées, pour vérifier cela nous pouvons regarder si la performance augmente bien avec le nombre de cartes présentées. En effet, plus le nombre de cartes dans la séquence est important, plus le sujet reçoit de l’information sur son paquet générateur et plus il doit être facile pour lui déterminer le bon paquet. La Figure 12 représente la proportion de réponses correctes en fonction de la longueur de la séquence pour chaque condition d’indiçage, moyenné sur l’ensemble des sujets. Comme nous l’avons vu précédemment, dans notre tâche, plus les sujets perçoivent de cartes plus ils reçoivent d’information, ainsi leur proportion de réponses correctes devrait augmenter en fonction de la longueur de la séquence. Nous observons bien un effet principal de la longueur de la séquence (F( 2,48) = 97.289, p < 0.001), ce qui nous indique que les sujets accumulent bien l’information. On notera, que nous avons ici montré la proportion de réponses correctes en fonction de la longueur de la séquence et non la proportion de réponses optimales sachant que la proportion de réponses correctes pour le modèle optimal varie en fonction du nombre de cartes présentées (il y a plus d’information pour les séquences longues que les lentes). En regardant plus en détail nos résultats, nous pouvons constater que cette conclusion diffère en fonction la condition d’indice de catégorisation (F( 2,48) = 71.522, p < 0.001). En effet, pour la condition sans indice, la longueur de la séquence ne fait pas statistiquement varier la proportion de réponses entre les trois conditions (4-­‐8 : t = -­‐
1.75, p =0.0926 ; 8-­‐12 : t = -­‐0.4422, p =0.6623 ; 4-­‐12 : t = -­‐2.0605, p =0.0503). Cet effet pourrait être le signe d’une fuite d’information, les sujets auraient du mal à garder en mémoire l’information relative aux premières cartes et ne feraient leur choix que sur la base des dernières cartes visualisées et auraient des performances en deçà de l’optimalité à mesure que la longueur de séquence augmente. Une autre interprétation serait celle d’un effet de primauté, à savoir que les sujets ne prendraient en compte que les premières cartes et ignoreraient les suivantes. Nous faisons l’hypothèse d’une fuite d’information. Pour statuer entre ces deux interprétations nous effectuerons, dans la suite de ce rapport, des analyses complémentaires se basant sur des modèles. 3.
Les sujets pondères en fonction de l’information Dans les conditions d’indiçage avec options et d’indiçage avec options et actions, si le comportement des sujets peut être assimilé à une inférence Bayésienne, alors les sujets devraient intégrer les cartes relativement à la quantité d’information qu’elles possèdent. Mais il se pourrait que les sujets ne se représentent pas l’information de façon graduelle mais qu’ils considèrent cette information comme binaire : la carte a-­‐t-­‐elle apporté plus d’information pour le paquet A ou pour le paquet B, ce qui reviendrait à ne prendre en compte que le signe du LLR. Dans ce cas les sujets ne tiendraient compte que du nombre de cartes ayant apporté plus d’information pour la A que pour B (et inversement) et choisiraient le paquet pour lequel ils ont compté un nombre plus important de cartes. Si les sujets utilisaient effectivement une stratégie de comptage, nous observerions des patterns de performances similaires, à savoir une augmentation des performances en fonction du nombre de cartes dans la séquence car il aurait toujours plus d’information pour des séquences de longueur plus grande. Comme nous ne pouvons pas discréditer ce modèle sur la base des performances observées, nous avons effectué une régression logistique (pour chaque sujet) pour trancher entre ces deux interprétations. Nous avons effectué la régression logistique réponses du sujet en prenant comme régresseurs, dans un cas la somme des LLR des cartes de la séquence et dans l’autre, la somme du signe de ces LLR. Nous avons effectué la régression seulement sur les séquences avec options et d’indiçage avec options et actions et séparément pour les catégorisations fine et grossière. Nous avons calculé l’AIC de ces deux modèles statistiques ce qui nous permet de déterminer le modèle qui explique les mieux les réponses observées. Pour la catégorisation grossière, le modèle de comptage perd pour 24 des 25 sujets (AIC plus grand), ce qui montre que les sujets dans cette condition pondèrent bien les cartes en fonction l’information qu’elles contiennent. 4.
Effet de la vitesse de présentation des cartes de la séquence Dans ce paragraphe nous souhaitons chercher des explications empiriques des différences des l’écart à l’optimalité dans chacune des condition d’indiçage, ce qui nous permettrait d’avancer des hypothèses sur pourquoi un espace serait préférable à un autre. En outre, si nous avions en effet d’interaction entre la condition d’indiçage et la vitesse de la séquence alors cela serait un argument supplémentaire pour dire que l’intégration ne se fait pas dans le même espace dans nos différentes conditions. Si nous observons que lorsque la vitesse de présentation est rapide les performances sont moins bonnes que lorsque les cartes sont présentées plus lentement alors nous pourrions interpréter, nous pourrions supposer que cela est du à computation plus dure à effectuer dans un espace donné. A l’inverse, si les performances sont moins bonnes lorsque la vitesse est lente, cela pourrait suggérer une perte d’information temporelle à mesure que le temps passe : information difficile à garder en mémoire. La vitesse de présentation des séquences n’a pas d’effet significatif sur les performances globales de nos sujets (F( 1,24) = 0.342, p = 0.564). Il n’y a pas d’interaction avec le type de catégorisation (F(1.00,48) = 0.003, p = 0.955), ni avec la longueur de la séquence (F(2,48) = 1.365, p = 0.265), ni avec la condition d’indiçage (F( 2,48) = 1.345, p = 0.270). 5.
Quelle différence entre la condition de catégorisation avec indice d’options et celle avec indice d’options et d’actions ? Etant donné que visuellement les conditions de catégorisation avec indice d’options et avec indice d’options et d’actions ne diffèrent que par les couleurs des orientations principales des paquets (Figure 3) et que les patterns de performances sont similaires, nous pourrions considérer que les sujets font la même chose dans ces deux conditions. Mais est-­‐ce réellement le cas ? Pour répondre à cela, il nous suffit d’observer les temps de réponses dans ces deux conditions. Figure 13 : Temps de réponse moyen des sujets pour les séquences où ils ont répondu de manière optimale, par indiçage (axe des abscisses) et type de catégorisation (couleur des barres). Les barres d’erreur présentées correspondent aux erreurs standard à la moyenne des sujets (n = 25). Pour les deux types de catégorisation, le temps de réponse pour les séquences où les sujets ont répondu optimalement est plus court pour l’indiçage avec options et actions que pour l’indiçage avec options (catégorisation grossière : t = 14.5204, p < 0.001 ; fine : t = 13.0193, p < 0.001). Ces résultats montrent qu’avec indiçage d’options et d’actions, les sujets préparent bien la réponse motrice, ce qu’ils ne peuvent pas faire dans la condition avec seulement les indices d’options. B.
Analyse du comportement sur la base de modèles cognitifs 1.
Fit des paramètres sur les données comportementales et justification du choix de ces paramètres Dans ce paragraphe nous allons détailler les différents résultats obtenus en fittant le modèle sélectionné aux données comportementales (voir annexe 3). Nous justifierons également le choix de ces paramètres en montrant qu’ils capturent bien les résultats comportementaux. a)
Paramètre caractérisant la proportion de réponse faites au hasard Ce paramètre vaut en moyenne 4% sur l’ensemble de nos sujets, ce qui nous permet de dire que le modèle sélectionné capture bien les décisions des sujets. b)
Bruit d’inférence Figure 14 : Paramètre de bruit d’inférence moyen des sujets, par indiçage (couleurs des barres) et type de catégorisation (abscisse). Les barres d’erreur présentées correspondent aux erreurs standard à la moyenne des sujets (n = 25). Ce paramètre de bruit d’inférence caractérise le fait que lorsque l’information d’une nouvelle carte est combinée avec l’information accumulée jusqu’alors cela se fait avec une certaine variabilité – autrement dit avec une précision finie. Ainsi plus ce paramètre est élevé plus les décisions sont variables. Le bruit d’inférence est affecté par la condition d’indiçage (F( 2,48) = 71.679, p < 0,001), le type de catégorisation (F( 1.00,48) = 39.348, p < 0.001) ainsi que par l’interaction de ces deux conditions (F( 2,48) = 18.090, p < 0.001). Les sujets sont plus variables (pour le processus d’inférence) dans la condition sans indice de catégorisation (sans indice – indiçage d’options : t = 8.6457, p< 0.001 ; sans indice – indiçage d’options et d’actions : t = 8.5192, p < 0.001). Par ailleurs, la variabilité des sujets est plus affectée par la condition de catégorisation fine dans cette condition que dans les deux autres conditions (t-­‐test sur la différence entre catégorisation fine et grossière pour : sans indice – indiçage d’options : t = 4.3710, p< 0.001 ; sans indice – indiçage d’options et d’actions : t = 4.3280, p< 0.001). c)
Paramètre de fuite d’évidence (1)
Résultats du fit Figure 15 : Paramètre de fuite d’évidence moyen des sujets, par indiçage (couleurs des barres) et type de catégorisation (abscisse). Les barres d’erreur présentées correspondent aux erreurs standard à la moyenne des sujets (n = 25). Le deuxième paramètre pertinent pour le mécanisme d’inférence est celui de la fuite d’évidence qui caractérise la façon dont les sujets pondèrent les cartes en fonction de leur place dans la séquence. Nous rappelons que si ce paramètre est positif alors cela indique une fuite d’information : perte d’information associée au traitement de chaque nouvelle carte, tandis que si il est négatif cela indique un effet de primauté : au fur et à mesure de la présentation des cartes de la séquence, l’information des nouvelles cartes est de moins en moins prise en compte. En introduisant ce paramètre nous sommes à mesure de dire si les sujets peines à garder en mémoire l’information accumulée dans la variable de décision dans les différentes condition d’indiçage. De nouveau nous observons un effet principal de la condition d’indiçage (F(2,48) = 26.386, p < 0.001), le paramètre de fuite moyen est plus important dans la condition sans indice que dans les deux autres conditions d’indiçage (sans indiçage – indiçage d’options : t(24) = 4.8173, p < 0.001 ; sans indiçage – indiçage d’options et d’actions : t(24) = 5.5462, p < 0.001). Le paramètre de fuite est également significativement plus grand pour la condition d’indiçage d’options que pour celle d’indiçage d’options et d’actions (t(24) = 3.0481, p < 0.01). Sans indiçage, les sujets se basent donc de moins en moins sur les cartes apparues en début de séquence, ils perdent donc de l’information à mesure que de nouvelles cartes sont présentées. Cette détérioration du paramètre de fuite entre les catégorisations sans indice et avec indices pourrait expliquer en partie pourquoi les sujets font l’inférence dans l’espace des options plutôt que du stimulus. En effet, si les sujets arrivent moins bien à garder en mémoire les éléments passés lorsqu’ils intègrent l’information dans l’espace du stimulus, il serait alors plus bénéfique d’effectuer cette intégration dans l’espace des options. Par ailleurs, nous savons que sans indice les sujets combinent a priori des distributions associées aux différentes orientations et doivent donc garder en mémoire une distribution tandis qu’avec indiçage, la valeur à garder en mémoire est scalaire (une probabilité). Cela pourrait expliquer pourquoi les sujets peine à garder en mémoire les premiers éléments et basent ainsi leur décision sur les derniers éléments. Nous avons également un effet principal de la condition du type de catégorisation (F(1.00,48) = 12.642, p <0.05) avec une moins bonne intégration dans la condition de catégorisation fine quand dans la condition grossière (t(24) = 4.8173, p <0.001). Enfin, en addition de ces effets principaux, il y a un effet d’interaction (F(2,48) = 26.541, p < 0.001), caractérisé par le fait que le paramètre de fuite d’évidence est plus impacté par la catégorisation fine dans sans indiçage, ce qui n’est pas le cas pour les deux autres facteurs d’indiçage (test t sur la différence de la valeur du paramètre entre la catégorisation fine et grossière ; sans indiçage : t(24) = 4.8765 ; p < 0.001 ; indiçage d’options : t(24) = -­‐1.4608, p = 0.1570 ; indiçage d’options et d’actions: t(24) = 0.4788, p = 0.6364). Ce résultat, comme celui obtenu sur le bruit d’inférence, suggère que dans la condition sans indiçage les sujets sont plus sensibles aux variations statistiques des stimuli et que cela affecte leurs performances à cause d’une intégration plus bruitée et une perte d’information au cours de cette intégration. (2)
Justification du choix du paramètre de fuite Dans ce paragraphe nous souhaitons expliquer pourquoi nous avons voulu introduire ce paramètre de fuite et montrer que celui-­‐ci est pertinent par rapport aux données comportementales. Pour cela nous avons calculé les poids affectés au LLR des cartes en fonction de leur position par rapport au choix, maximisant le LLH du modèle statistique (voir paragraphe annexe 3 de fit). Figure 16 : Poids de décision des cartes en fonction de leur position par rapport au choix, pour chaque condition d’indiçage. Il apparaît que pour chaque condition d’indiçage, plus les cartes se trouvent loin du moment de la décision (‘carte réponse’) moins celles ci comptent pour la décision du sujet. Dans notre modèle, nous avons modélisé cette décroissance par pondération exponentielle des éléments de la séquence, ce qui nous permet de réduire le nombre de paramètres de douze (poids de chaque carte) à un seul (le paramètre de fuite) et ainsi obtenir un modèle plus parcimonieux. Qualitativement, nous retrouvons les résultats que nous avons obtenu sur le paramètre de fuite (Figure 15), à savoir que la perte d’information est plus importante dans la condition sans indiçage que dans les deux autres conditions d’indiçage et qu’elle est un peu plus forte dans la condition d’indiçage d’options que dans la condition d’indiçage d’options et d’actions. d)
Distorsion d’évidence (1)
Résultats du fit Figure 17 : Paramètre de distorsion d’évidence moyen des sujets, par indiçage (couleurs des barres) et type de catégorisation (abscisse). Les barres d’erreur présentées correspondent aux erreurs standard à la moyenne des sujets (n = 25). Rappelons que ce paramètre caractérise la déformation de la fonction d’information. Si le sujet n’a pas de distorsion dans la représentation de l’information associée aux !
différents angles alors ce paramètre prendra la valeur de . Si cette valeur est inférieure !
!
!
à , alors le sujet surpondère l’information des cartes comprises entre 0 et ± par !
!
rapport à l’axe principal de catégorisation. Dans la condition de catégorisation grossière, les sujets ont un paramètre moyen de distorsion qui ne varie pas statistiquement de , ceci quelque soit la condition d’indice (aucun indice : t = -­‐1.0573, p = 0.3009 ; indiçage d’options : t = 0.0191, p = 0.9849 ; indiçage d’options et d’actions : t = -­‐0.7884, p = 0.4382). Ceci suggère qu’en moyenne les sujets représentent de façon optimale l’évidence associée aux différentes cartes dans la condition de catégorisation grossière (LLR sinusoïdal). Pour ce qui est de la condition de catégorisation fine, dans la condition sans indice les sujets ne divergent pas significativement de l’optimalité sur cette dimension (t = -­‐
0.3258, p = 0.7474). En revanche, il divergent significativement de l’optimalité pour les deux conditions avec indiçage (indice d’options : t = -­‐6.6075, p < 0.001 ; indices d’options et d’actions : t = -­‐6.3871, p < 0.001). Comme indiqué précédemment, et ce contrairement à la condition de catégorisation grossière, pour la catégorisation fine la distribution globale des orientations n’est plus !
quasi-­‐uniforme et les orientations les plus probables sont celles situées entre ± par !
rapport à l’axe principal de catégorisation. En s’appuyant sur les résultats de De Gardelle et Sumemrfield (2011)28. nous pourrions interpréter ces distorsions comme une négligence des « outliers » qui seraient dans notre tâche en condition de catégorisation les orientations les moins probables. Etant donné que toutes les orientations sont quasi-­‐
équiprobables dans la condition de catégorisation grossière, il s’en suit que nous n’observons pas cette distorsion. Enfin, la différence que nous observons entre la condition de catégorisation sans indices et celles avec indices pourrait être que n’ayant pas accès aux options, il ne peut pas à priori percevoir les orientations comme des « outliers » car il ne sait pas où vont se trouver les orientations les moins probables. Une autre interprétation serait que les sujets utilisent plus l’information des cartes qui sont les plus ressemblantes vis-­‐à-­‐vis du centre des catégories. Nous discuterons plus en détails ces deux interprétations dans la discussion de ce rapport. (2)
Justification du choix du paramètre de distorsion d’évidence Dans ce paragraphe nous souhaitons expliquer pourquoi nous avons voulu introduire ce paramètre de distorsion d’évidence et montrer que celui-­‐ci est pertinent par rapport aux données comportementales. Afin d’observer si les répondaient en prenant bien en compte l’information des cartes des séquences visualisées nous avons, pour chaque sujet et pour chaque condition expérimentale (indiçage x type de catégorisation), effectué une régression logistique sur ses réponses avec comme régresseurs la quantité d’information théorique apportée par quartile de LLR. Ainsi nous disposons, pour chaque sujet et pour chaque condition expérimentale, le poids associé à chaque quartile de LLR (ou autrement dit niveau d’information). En théorie si les sujets intègre optimalement l’information, nous devrions avoir une pondération plus importante pour les quartiles les plus informatifs, cela quelque soit la condition expérimentale. Nous constatons que pour la condition sans indiçage (pour les deux conditions de catégorisation) les niveaux les plus informatifs sont les plus pondérés dans le choix (quasi linéaire dans les deux cas). En revanche, pour les deux conditions d’indiçage, cette augmentation ne persiste que pour la catégorisation grossière. Ces résultats indiquent bien que dans les conditions d’indiçage en catégorisation fine, les sujets ne représentent plus la fonction de LLR de façon optimale étant donné que les orientations théoriquement les plus informatives ne sont pas celles qui contribuent le plus au choix. Ce sont ces résultats qui nous amené à envisager une distorsion dans la représentation d’évidence, caractérisée par le paramètre de distorsion 𝜃!"# . Figure 18 : Poids des cartes dans la décision en fonction de leur niveau d’information. Les valeurs rapportées sont les poids obtenus par régression logistique des réponses par la quantité d’information théorique apportée par quartile de LLR. Les barres grises représentent les poids obtenus pour les données comportementales et les points représentes ceux obtenus pour les données simulées avec un paramètre de distorsion optimal (les autres paramètres rentrés dans le modèle étant les paramètres moyens du fit des sujets). Afin de vérifier que ce paramètre de distorsion, que nous avons introduit dans le modèle, traduit bien ces effets de distorsion dans la représentation de l’information, nous avons effectué une régression logistique, cette fois-­‐ci sur les réponses simulées en considérant le paramètre de distorsion optimal (tous les autres paramètres étant ceux estimés par le fit avec notre modèle). Nous observons sur la Figure 18 une pondération graduelle en fonction du niveau d’information, quelque soit la condition. Ce résultat montre que ce paramètre capture bien la distorsion d’information. 2.
Quels paramètres impactent le plus les performances ? Figure 19 : Part explicative de chaque paramètre d’inférence sur la baisse des performances entre 1. l’optimalité et la catégorisation grossière, 2. l’optimalité et la catégorisation grossière, 3. La catégorisation grossière et fine, pour chaque condition d’indiçage. Dans les paragraphes précédents nous avons vu que les performances de nos sujets sont liées aux variations des différents paramètres de notre modèle. Si nous pouvons voir que ces derniers influencent les performances nous ne savons pas, en revanche, quel paramètres ont le plus d’impact sur la chute des performances observées sur la base des analyses que nous avons présentées précédemment. Dans ce paragraphe, nous aimerions savoir, d’une part, ce qui affecte principalement les performances de sujets par rapport à l’optimalité (pour chaque type de catégorisation et chaque condition d’indiçage) et d’autre part pourquoi les sujets ont-­‐ils des performances moins bonnes en catégorisation fine qu’en catégorisation grossière pour chaque condition d’indiçage car il se pourrait que ce ne soit pas les mêmes paramètres qui impactent le plus la chute de performances entre la catégorisation fine et grossière dans nos trois conditions d’indiçage. Pour chaque set de données (parmi les 25) et pour chacun des trois paramètres liés à l’inférence nous avons simulé la proportion de réponses optimales dans chaque condition d’indiçage en considérant tous les paramètres comme optimaux sauf pour le paramètre d’intérêt fixé à la valeur du paramètre moyen de fit du sujet associé à ce set de données dans cette condition d’indiçage. Nous avons ensuite moyenné sur les 25 simulations la proportion de réponses optimales. Comme nous n’avons fait varier qu’un paramètre et que les autres gardent leur valeur optimale, cette proportion de réponses optimales moyenne simulée reflète (en comparaison avec la valeur maximale, à savoir 1) à quel point le paramètre affecte la performance. Sur le premier panel horizontal de la Figure 19, nous constatons que pour la catégorisation grossière le paramètre qui affecte le plus les performances vis à vis de l’optimalité est le bruit d’inférence dans toutes les conditions d’indiçage (plus de 70%). Le paramètre de distorsion d’évidence n’influence que très peu les performances, ce qui est normal étant donné que celui ci est quasi optimal (Figure 17) pour toutes les conditions d’indiçage. Pour la catégorisation fine, le bruit d’inférence est également le paramètre qui fait le plus chuter les performances mais la distorsion d’évidence affecte plus les performances que pour la catégorisation grossière ( ~13% vs. ~4%). D’après le dernier panel horizontal de la figure nous pouvons dire que la chute de performances observées entre la catégorisation grossière et fine pour la condition sans indiçage est attribuable, quasiment totalement, à la variabilité dans le processus d’inférence et la perte d’information (pratiquement moitié-­‐moitié). Au contraire, pour les conditions avec indiçage la cause principale de la chute des performances est la distorsion d’information (plus de 50% de la chute des performances est expliquée par ce paramètre. 3.
Données pupillométriques Figure 20 : Signaux pupillaires pour les différentes longueurs de séquences (couleurs), dans chaque condition d’indiçage et pour chaque vitesse de présentation de la séquence. Les signaux sont alignés au moment de la décision. Dans cette partie nous nous intéresserons aux signaux de dilatation pupillaire, nous avons enregistrés ce signal de façon à avoir un signal physiologique dans lequel pourrait se refléter des variables cognitives et qui pourrait donc apporter des informations sur ce qu’il se passe pendant l’inférence et non seulement au niveau des choix des sujets, à l’issue du processus d’inférence. Les résultats que nous allons présenter ci-­‐dessous sont des résultats préliminaires et sont qualitatifs. Sur la Figure 20, nous observons que, de façon générale, plus la séquence est longue plus le signal atteint un seuil haut. Néanmoins il convient de nuancer ce résultat pour les différentes conditions d’indiçage. Pour la condition avec indiçage d’options et d’actions, les seuils atteints pour les trois longueurs de séquence sont bien distincts tandis que pour la condition d’indiçage d’options les seuils se confondent pour les séquences de 8 et 12 cartes car il y a une saturation du signal pour les séquences les plus longues. Pour la condition sans indiçage le signal sature également mais cette fois ci pour les séquences de 8 et 12 cartes ce qui fait que les signaux pour les trois longueurs de séquence se ressemblent. Une autre observation que nous pouvons faire est que les signaux diffèrent également selon la vitesse à laquelle sont présentées les séquences. En effet, pour une longueur de séquence donnée les signaux atteignent un même seuil quelque soit la vitesse de présentation de la séquence mais à plus rapidement pour les séquences rapides. Ce résultat nous permet d’avancer que ce signal ne reflète pas une augmentation de la dilatation pupillaire à mesure que le temps passe, auquel cas nous aurions des pentes équivalentes quelque soit la vitesse de présentation. Qui plus est, la saturation des signaux pourrait refléter un effet de la perte d’information au cours du temps puisque les signaux saturent plus pour la condition sans indiçage pour laquelle le paramètre de fuite est le plus important. Nos résultats sur le paramètre de fuite, nous indiquaient également une perte d’information plus importante pour la condition d’indiçage d’options que celle d’indiçage d’options et d’actions et nous observons que le signal sature plus pour la première pour la seconde condition. IV. Discussion Accumulation d’information dans l’espace des options Notre étude visait à étudier le mécanisme d’inférence dans le cadre de la prise de décision perceptive chez les sujets humains. Comme nous l’avons défini dans l’introduction de ce rapport, l’inférence peut être considérée ici comme l’accumulation de l’information apportée par les signaux sensoriels extraits en faveur des différents états possibles de l’environnement. Cette information est accumulée car elle est incertaine et que plus l’on dispose d’échantillons d’information plus nous sommes a même de trancher entre différents états possibles de l’environnement. Dans notre tâche, l’information est bien incertaine puisque probabiliste et les sujets accumulent effectivement cette information de façon optimiser leurs performances. En effet, plus les sujets plus il y a de cartes dans la séquence meilleures sont leurs performances 1,2,23. La principale question adressée par cette étude concernait l’espace représentationnel de l’information accumulée. Notre hypothèse était que l’intégration de l’information se fait dans un espace catégoriel, indépendant de la dimension sensorielle du stimulus et indépendant également des actions à effectuer plutôt que dans un espace du stimulus où l’information accumulée serait liée aux dimensions sensorielles pertinentes pour la décision ou que dans un espace des actions où l’accumulation d’information correspondrait à une préparation motrice. Les performances observées dans nos trois conditions expérimentales suggèrent que notre hypothèse d’accumulation dans l’espace des options est correcte. Effectivement, lorsque les sujets sont contraints de faire l’intégration dans l’espace du stimulus, leurs performances sont significativement moins bonnes que lorsqu’on leur donne la possibilité d’intégrer dans l’espace du stimulus ou dans celui des options. Ce premier résultat discrédite l’hypothèse d’une intégration dans l’espace du stimulus en faveur d’une intégration dans l’espace des options ou des actions. De surcroît, lorsqu’on donne en plus la possibilité aux sujets d’effectuer l’inférence dans l’espace des actions leur performances ne différent pas du cas où on leur permet pas de le faire. Ce second résultat suggère donc qu’il est équivalent pour le sujet d’effectuer cette accumulation dans l’espace des actions et des options. Ainsi, si l’on considère le mécanisme d’inférence comme ayant toujours lieu dans le même espace de représentation, alors celui-­‐ci correspondrait à l’espace des options sur la base de nos données. Cependant, nous ne pouvons pas exclure l’idée que les sujet intègrent dans l’espace des actions lorsqu’ils ont accès aux actions à effectuer et qu’ils intègrent dans l’espace des options lorsqu’ils n’y ont pas accès. Cette interprétation impliquerait d’avoir différents mécanismes dédiés à ce processus plutôt qu’un mécanisme générique ayant l’avantage d’être indépendant : 1) des dimensions perceptuelles en cause dans la décision, et 2) indépendant des actions qui peuvent en résulter. La validation de notre hypothèse de travail soulève néanmoins une question : pourquoi l’inférence a-­‐t-­‐elle lieu dans cet espace des options plutôt que celui du stimulus ou des actions ? Une moins grande sensibilité aux fluctuations sensorielles des stimuli D’après nos résultats, un changement des propriétés statistiques des distributions génératives des angles présentés qui ne change pas la quantité d’information moyenne apportée par chaque carte (catégorisation grossière vs. fine) affecte plus les performances des sujets lorsqu’ils sont contraints d’accumuler l’information dans l’espace du stimulus (sans indiçage) que lorsque ils l’accumulent dans l’espace des options (avec indiçage des options). Ainsi, intégrer dans l’espace des options (plutôt que dans l’espace du stimulus – ici de l’orientation des cartes présentées) conférerait une moindre sensibilité à des changements de statistiques des propriétés sensorielles des stimuli. Une information accumulée moins variable Le paramètre d’inférence dans la condition sans indiçage, où le sujet accumule l’information sur la base des orientations des cartes, étant significativement plus important que dans lorsqu’il peut accumuler l’information vis-­‐à-­‐vis des options, nous sommes en mesure de dire que l’accumulation d’information est plus variable dans le cas premier cas que dans le second. En outre, nous avons montré que cette variabilité de l’inférence est la cause principale de la chute des performances par rapport à l’optimalité. Aussi, intégrer dans un espace catégoriel plutôt que dans l’espace du stimulus pourrait permettre de se préserver de la variabilité avec laquelle se fait l’intégration d’un nouvel échantillon d’information à l’information déjà accumulée et ainsi d’optimiser son choix. Une meilleure mémorisation de l’information accumulée Un autre argument permettant de justifier l’intégration dans cet espace optionnel serait de dire que dans cet espace, l’information est mieux mémorisée que dans l’espace des options. Effectivement, nous avons pu constater que le paramètre de fuite est plus important lorsque les sujets accumulent l’information au format sensoriel. Pour aller plus loin, il apparaît d’après la théorie Bayésienne que pour ce format d’intégration l’accumulation opère sur des distributions, tandis qu’elle opère sur des variables scalaires (probabilités) pour les autres conditions. Si les sujets encodent, comme le modèle Bayésien normatif le suggère, des distributions lorsqu’ils réalisent la tâche sans indices contextuels (donc dans l’espace du stimulus), alors il pourrait être plus difficile de garder en mémoire l’information accumulée car elle serait sous la forme d’une distribution de probabilité quant à l’angle moyen de la séquence plutôt qu’une d’une valeur scalaire correspondant au log-­‐ratio de vraisemblance entre les deux options possibles lorsque le sujet utilise les indices contextuels. Une dimensionnalité minimale pour la variable de décision Lorsque les sujet reçoivent des informations contextuelles sur les états possibles du monde (ici le centre des deux catégories), utiliser ces indices et intégrer l’information relativement à ceux-­‐ci, en somme de façon catégorielle, lui permet de réduire la dimension de l’espace dans lequel il intègre cette information. En effet, dans notre tâche si le sujet intègre dans l’espace du stimulus, il considère que les cartes ont pu être générées à partir de n’importe quelle distribution, l’espace est donc multidirectionnel. Tandis que s’il accumule l’information relativement aux deux catégories possibles, alors l’accumulation se fait dans un espace à deux dimensions. Il se pourrait que considérer une multitude d’états possibles de l’environnement pendant l’inférence soit couteux pour le sujet, car plus demandant en ressources computationnelles et qu’il soit préférable d’intégrer l’information dans l’espace des options plutôt que du stimulus. Une indépendance du choix vis-­‐à-­‐vis des actions Pour motiver une intégration dans l’espace des options plutôt que de la réponse nous pouvons dire qu’intégrer l’information dans un format catégoriel indépendant des actions permet de considérer un mécanisme qui plus général qui peut s’appliquer à des décisions couvertes (non suivies d’une action). Néanmoins, d’après nos résultats les sujets perdent un peu moins d’information au cours du temps lorsque qu’ils peuvent préparer leur réponse motrice. Il se pourrait donc que lorsque cela est possible les sujets accumulent l’information sous forme de préparation motrice car l’information est mieux conservée bien que dans notre tâche cela n’implique pas de différence dans les performances selon si les sujets on accès ou non aux actions associées aux catégories. Interprétation des signaux pupillaires Nos résultats préliminaires sur la dilatation pupillaire nous ont permis de proposer une interprétation sur ce que pourrait refléter ce signal, à savoir un signal d’accumulation. Plus précisément nous observons que le signal a une pente plus faible lorsque le sujet intègre l’information sans indice contextuels, ce qui pourrait refléter qu’il a moins d’information accumulée dans cette condition que dans les conditions avec indices contextuels. Si cette interprétation s’avérait être correcte alors la saturation observée dans la condition sans indice contextuel et dans la condition avec les indices d’options, bien que moins marquée, pourrait refléter l’effet de la fuite d’information. Des analyses complémentaires seraient nécessaires pour quantifier ces effets et vérifier ou non cette interprétation. Une autre interprétation pourrait être que ces signaux sont des signaux d’urgence à répondre30. Auquel cas, plus le sujet aurait envie de donner sa réponse plus la dilatation pupillaire serait importante. Dans le cas où le sujet peut préparer sa réponse ce signal serait donc plus fort car il aurait envie de donner sa réponse, de même dans le cas où le sujet peut catégoriser son choix pendant l’accumulation d’information, il devrait avoir envie de répondre mais ce signal serait moins fort car il ne connaît pas encore les actions associées. Au contraire, dans le cas où le sujet n’aurait pas d’informations contextuelles il ne devrait pas avoir d’urgence à répondre car il ne sait pas encore les choix qui lui seront proposés. Critiques et améliorations Baisse des performances en catégorisation fine : un rejet des « outliers » ou une mauvaise compréhension de la tâche ? Nos résultats nous indiquent que pour les condition avec indiçage dans la condition de catégorisation fine, les sujets ne représentent pas l’information de façon optimale : ils considèrent pas les cartes les plus informatives théoriquement comme celles leur apportant le plus d’information pour le choix – leur choix ne se repose pas plus sur ces cartes bien quelles soient plus informatives. Dans cette condition de catégorisation fine, les cartes les plus informatives ne sont pas les plus probables ce qui nous a amené à proposer l’hypothèse d’un rejet des outliers : données moins probables donc potentiellement moins fiables28. Cependant, comme nous avons expliqué les instructions à partir de la catégorisation grossière et que dans cette condition les cartes les plus informatives sont également les plus probables, il se pourrait que les sujets aient considéré que cette propriété était également valable pour la catégorisation fine. Dans ce cas, les sujets auraient un biais préférentiel pour les centres des catégories (plus probables). Pour tester cette hypothèse nous pourrions faire passer de nouveaux sujets mais cette fois ci seulement sur la condition de catégorisation fine et voir si ces distorsions d’information persistent. Si ce n’est pas le cas une troisième hypothèse serait que les sujets ont simplement un biais préférentiel pour les centres des catégories sans que cela soit dû à la façon dont ils ont compris les instructions. Utilisation d’un indice de confiance pour la réponse des sujets Dans cette tâche, nous avions récupéré une information sur la confiance des sujets en leur permettant d’indiquer s’ils étaient confiants sur leur réponse ou non : deux boutons réponses pour chaque catégorie. Nous n’avons pas à ce jour analysé les résultats au regard de ces indications de confiance, nous avons considéré les réponses comme binaires en groupant les réponses ‘haute’ et ‘basse’ confiance ensemble. Mais, nous pourrions utiliser cette information de confiance du sujet sur sa réponse pour interroger les processus métacognitifs dans chacune des conditions : les sujets sont-­‐ils plus confiants dans certaines conditions et cela est il corrélé avec leurs performances ? Perspectives A la suite de ce travail, nous souhaiterions utiliser l’électroencéphalographie (EEG) pour pouvoir régresser l’information apportée par chaque carte et regarder quelles régions corrèlent avec celle-­‐ci dans les différentes conditions d’indiçage. Un des résultats qui confirmerait notre hypothèse au niveau neural serait que les aires associatives (ni sensorielles ni motrices) du cerveau ne corrèlent avec l’information accumulée au cours de la séquence que dans les conditions avec des indices contextuels. Par ailleurs, une autre question porte sur le type d’information accumulée. Dans ce rapport, nous avons étudié le processus d’inférence sur la base d’indices extérieurs sur lesquels le sujet n’a aucun contrôle. En ce sens, le sujet est un observateur de l’état de l’environnement et se borne à tenter de l’interpréter à l’issue de chaque séquence. Cependant, le formalisme Bayésien que nous avons introduit s’appliquerait de la même façon si l’information accumulée portait une valeur « affective » (de récompense par exemple). On pourrait imaginer une variation de la tâche utilisée dans ce rapport en changeant les instructions données au sujet : au lieu de demander au sujet de donner son interprétation de chaque séquence, on pourrait le mettre dans une condition dans laquelle la catégorie de chaque séquence présentée est contrôlée par les deux boutons réponse. Le sujet ne connaitrait pas a priori quel bouton contrôle quelle catégorie, et l’une des deux catégories seulement serait récompensante. Le sujet devrait alors inférer la couleur de chaque séquence, mais dans une situation où chaque carte correspond non plus à un indice extérieur, mais à une conséquence directe de son action précédente. Est-­‐
ce que les propriétés de l’accumulation d’information seraient les mêmes pour ces deux types d’inférence ? La réponse à cette question pourrait permettre de faire un pont entre deux champs de recherche sur la prise de décision (économique vs. perceptuelle) sur la base d’un seul et même paradigme. Remerciements Je remercie Valentin Wyart pour m’avoir accompagné tout au long des étapes de la
réalisation de ce mémoire, et qui par ses conseils et critiques a guidé mes réflexions.
Je tiens également à remercier mes amis et collègues de laboratoire pour m’avoir
communiqué leur enthousiasme et pour avoir partagé de nombreux instants précieux autour
d’un café.
Je remercie également mes proches pour leur présence, leurs encouragements et leur
curiosité, source de réflexion de tous les instants.
Références 1. Gold, J. I. & Shadlen, M. N. The neural basis of decision making. Annu. Rev. Neurosci. 30, 535–574 (2007). 2. Yang, T. & Shadlen, M. N. Probabilistic reasoning by neurons. Nature 447, 1075–
1080 (2007). 3. Tanner, W. P. & Swets, J. A. A decision-­‐making theory of visual detection. Psychol. Rev. 61, 401–9 (1954). 4. Smith, P. L. & Ratcliff, R. Psychology and neurobiology of simple decisions. Trends Neurosci. 27, 161–168 (2004). 5. Marr, D. & Poggio, T. From understanding computation to understanding neural circuitry. AI Memo 357, 1–22 (1976). 6. Gerardin, P., Kourtzi, Z. & Mamassian, P. Prior knowledge of illumination for 3D perception in the human brain. Proc. Natl. Acad. Sci. U. S. A. 107, 16309–16314 (2010). 7. Girshick, A. R., Landy, M. S. & Simoncelli, E. P. Cardinal rules: visual orientation perception reflects knowledge of environmental statistics. Nat. Neurosci. 14, 926–
932 (2011). 8. Britten, K. H., Newsome, W. T., Shadlen, M. N., Celebrini, S. & Movshon, J. a. A relationship between behavioral choice and the visual responses of neurons in macaque MT. Vis. Neurosci. 13, 87–100 (1996). 9. Ditterich, J., Mazurek, M. E. & Shadlen, M. N. Microstimulation of visual cortex affects the speed of perceptual decisions. Nat. Neurosci. 6, 891–898 (2003). 10. Colby, C. L., Duhamel, J. R. & Goldberg, M. E. Visual, presaccadic, and cognitive activation of single neurons in monkey lateral intraparietal area. J. Neurophysiol. 76, 2841–2852 (1996). 11. Shadlen, N. N. & Newsome, W. T. Neural basis of a perceptual decision in the parietal cortex (area lip) of the rhesus monkey. J. Neurophysiol. 86, 1916–1936 (2001). 12. Roitman, J. D. & Shadlen, M. N. Response of neurons in the lateral intraparietal area during a combined visual discrimination reaction time task. J. Neurosci. 22, 9475–9489 (2002). 13. Hanks, T. D., Ditterich, J. & Shadlen, M. N. Microstimulation of macaque area LIP affects decision-­‐making in a motion discrimination task. Nat. Neurosci. 9, 682–689 (2009). 14. Knowlton, B. J., Squire, L. R. & Gluck, M. a. Probabilistic classification learning in amnesia. Learn. Mem. 1, 106–120 (1994). 15. Gluck, M. a., Shohamy, D. & Myers, C. How do People Solve the ‘Weather Prediction’ Task?: Individual Variability in Strategies for Probabilistic Category Learning. Learn. Mem. 9, 408–418 (2002). 16. Griffiths, T. L. & Tenenbaum, J. B. Optimal predictions in everyday cognition. Psychol. Sci. 17, 767–773 (2006). 17. Pouget, A., Beck, J. M., Ma, W. J. & Latham, P. E. Probabilistic brains: knowns and unknowns. Nat. Neurosci. 16, 1170–8 (2013). 18. Griffiths, T. L., Chater, N., Norris, D. & Pouget, A. How the Bayesians got their beliefs (and what those beliefs actually are): Comment on Bowers and Davis (2012). Psychol. Bull. 138, 415–422 (2012). 19. Chater, N., Tenenbaum, J. B. & Yuille, A. Probabilistic models of cognition: Conceptual foundations. Trends in Cognitive Sciences 10, 287–291 (2006). 20. Osborne, L. C., Lisberger, S. G. & Bialek, W. A sensory source for motor variation. Nature 437, 412–416 (2005). 21. Faisal, A. A., Selen, L. P. J. & Wolpert, D. M. Noise in the nervous system. Nat. Rev. Neurosci. 9, 292–303 (2008). 22. Beck, J. M., Ma, W. J., Pitkow, X., Latham, P. E. & Pouget, A. Not Noisy, Just Wrong: The Role of Suboptimal Inference in Behavioral Variability. Neuron 74, 30–39 (2012). 23. Brunton, B. W., Botvinick, M. M. & Brody, C. D. Rats and Humans Can Optimally Accumulate Evidence for Decision-­‐Making. (2013). 24. Cowan, N. The Magical Mystery Four. Curr. Dir. Psychol. Sci. 19, 51–57 (2010). 25. Brainard, D. H. The Psychophysics Toolbox. Spat. Vis. 10, 433–436 (1997). 26. Pelli, D. G. The VideoToolbox software for visual psychophysics: transforming numbers into movies. Spat. Vis. 10, 437–442 (1997). 27. Einhäuser, W. et al. Human eye-­‐head co-­‐ordination in natural exploration. Network 18, 267–297 (2007). 28. De Gardelle, V. & Summerfield, C. Robust averaging during perceptual judgment. Proc. Natl. Acad. Sci. U. S. A. 108, 13341–13346 (2011). 29. Cisek, P., Puskas, G. A. & El-­‐Murr, S. Decisions in changing conditions: the urgency-­‐
gating model. J. Neurosci. 29, 11560–11571 (2009). Annexe 1 : Formalisme mathématique des modèles optimaux dans chaque condition d’indiçage A chaque condition d’indiçage de la tâche est associé un modèle optimal Bayésien, modèle qui décrit, d’après le théorème de combinaison probabiliste (détails dans l’introduction du rapport), comment l’information est optimalement accumulée. Bien que les modèles diffèrent dans leur formalisme, nous allons montrer qu’ils sont mathématiquement équivalents par rapport aux choix, c'est-­‐à-­‐dire qu’ils fournissent les mêmes réponses pour une séquence donnée. Pour éviter que les sujets n’associent pas une couleur à une position par rapport à l’axe de catégorisation principal et puissent ainsi prédire, dans la condition d’indiçage d’options (sans couleurs) les couleurs associées au orientations principales des paquets et donc préparer leur réponse motrice, nous avons randomisé la position des paquets (bleu et orange) par rapport à l’axe principal de catégorisation. Il en découle que le paquet orange n’est pas forcément orienté dans le sens des aiguilles d’une montre par rapport à l’axe de catégorisation principal. Mais afin de faciliter l’explication de l’équivalence de ces modèles nous considérons arbitrairement des séquences où le paquet situé à gauche de l’axe principal de catégorisation (axe situé entre les centres des deux catégories) est le paquet orange, celui à droite, le paquet bleu. A.
Condition sans indice Pour cette condition, la distribution a posteriori que doit calculer le modèle optimal est celle de l’orientation moyenne de la séquence 𝜇 sachant les cartes de la séquence visualisée, 𝑝 𝜇 𝑋!!!…! . A chaque nouvelle carte le modèle optimal bayésien met à jour cette distribution en combinant celle-­‐ci avec la probabilité a posteriori associée à la nouvelle carte : 𝑝 𝜇 𝑋!!!…! ∝ 𝑝 𝜇 𝑋! ×𝑝 𝜇 𝑋!!!…!!! Etant donné que dans cette condition il n’y a pas d’a priori sur la position de la moyenne ou sur la position de chaque stimulus, nous pouvons assimiler la probabilité a posteriori associée à chaque carte à la vraisemblance 𝑝 𝑋! 𝜇 , soit la probabilité d’observer le stimulus sachant la moyenne, comprise entre 0 et 𝜋 (d’après le théorème de combinaison probabiliste). Par construction de la tâche, la probabilité a posteriori d’observer la moyenne sachant la carte visualisée est une distribution circulaire gaussienne centrée sur l’orientation de la carte et de concentration (apprise par la modèle). En outre, sachant que toutes les cartes de la séquence sont indépendantes nous pouvons écrire la distribution de vraisemblance des orientations de la séquence, donc la distribution a posteriori, comme le produit des vraisemblances de chaque carte, à savoir des distribution distribution de von Mises centrées sur l’orientation de la carte : !
𝑝 𝜇 𝑋!!!…! = 𝑝 𝑋!!!…! |𝜇 !
𝑝 𝑋! 𝜇 =
!!!
!!!
𝑒 !.!"# !(!!!! )
2𝜋𝐼! (𝜅)
Une fois ces distributions combinées et la ‘carte réponse’ présentée, l’observateur optimal bayésien calcule les probabilités associées aux deux orientations des paquets bleu, 𝑝 𝜇! 𝑋!!!…! et orange, 𝑝 𝜇! 𝑋!!!…! , on passe alors de la notion de distribution (ensemble de valeurs) à celle de probabilité (une seule valeur). Afin de choisir entre les deux catégories, l’observateur optimal calcule le logarithme du ratio de ces deux probabilités : 𝑝 𝜇! 𝑋!!!…!
=
log
𝑝 𝜇! 𝑋!!!…! !
𝜅 cos 2 𝜇! − 𝜃! − cos 2 𝜇! − 𝜃! !!!
𝑝 𝜇! 𝑋!!!…!
log
= 2𝜅× sin 2𝛿 ×
𝑝 𝜇! 𝑋!!!…! Avec: ! !!
-­‐ 𝜃 = ! ! : axe principal de catégorisation !
!
sin 2( 𝜃! − 𝜃) !!!
𝛿 = 𝜇! − 𝜇! : différence entre les centres des paquets (positif) Enfin, la sélection de l’action : orange ou bleue se fait également de manière optimale, à savoir que si le logarithme des probabilités a posteriori est positif la catégorie orange sera sélectionnée par le décideur optimal, tandis que si celui ci est négatif alors la catégorie bleue sera choisie. La sélection de l’action est donc ici déterministe, ce qui rend le modèle optimal déterministe. Le modèle reçoit une information imparfaite non déterministe et maximise la proportion de réponses correctes qu’i peut effectuer. Néanmoins, il ne peut pas décidé correctement tout le temps étant donné que les cartes apportent une information incertaine pour les choix, ce qui rend la tâche difficile. -­‐
B.
Condition avec indice d’options Dans la condition avec indices d’options, les états possibles du monde sont connus dès le début de la séquence puisque les moyennes des deux distributions sont présentées tout au long de la séquence et que la concentration de celles-­‐ci a été apprise par le modèle. Les deux catégories possibles sont notées 𝐺 pour la catégorie située à gauche de l’axe principal de catégorisation et 𝐷 pour celle située à droite. Dans ce cas, l’observateur optimal Bayésien calcule les probabilités a posteriori que la séquence ait été générée par la catégorie gauche, 𝑝 𝐺 𝑋!!!…! ), ou par la catégorie droite, 𝑝 𝐷 𝑋!!!…! ). Comme les cartes sont générées de façon indépendante et que le modèle optimal n’a pas d’a priori sur la catégorie génératrice de la séquence ni sur les cartes de la séquence alors cette probabilité a posteriori peut s’écrire comme les produit des vraisemblances associées à chacune des cartes : !
𝑝 𝑂! 𝑋!!!…! ) =
!
𝑝(𝑋! | 𝑂! ) =
!!!
!!!
𝑒 !.!"# !(!! !!! )
2𝜋𝐼! (𝜅)
Il s’agit ici de probabilités et non de distributions car le modèle a accès l’orientation de la carte ainsi qu’à l’orientation des deux catégories. De même que précédemment plutôt que de s’intéresser aux probabilités a posteriori on peut formaliser cela avec le logarithme du ratio des probabilités a posteriori : 𝑝 𝐺 𝑋!!!…! )
log
=
𝑝 𝐷 𝑋!!!…! )
!
!!!
𝑝(𝑋! |𝐺)
log =
𝑝(𝑋! |𝐷)
!
LLR !"#$% !!!
Ce LLR !"#$% correspond à l’information apportée par une carte, c’est le logarithme du rapport des vraisemblances de la carte : LLR !"#$% = 𝜅 cos 2 𝜃! – 𝜇! − cos 2 𝜃! – 𝜇! = 2𝜅 × sin 2𝛿 × sin 2(𝜃! − 𝜃) D’après cette formule, on observe que l’information sur les orientations correspond à un sinus centré sur l’axe principal de catégorisation amplifiée par un terme dépendant de la différence entre les centres des catégories et de la concentration des distributions génératives des catégories. Conformément aux propriétés d’indépendantes des cartes et l’absence d’a priori, calculer le logarithme des probabilités a posteriori revient à calculer le LLR (log-­‐
likelihood ratio ou logarithme du rapport des vraisemblances) de la séquence, soit la somme tous les LLRcarte. Une fois que l’observateur optimal bayésien a accès aux couleurs, donc aux actions, il peut simplement convertir ce LLRcarte sur les options gauche/droite en LLRcarte sur les actions. Le logarithme du ratio des probabilités a posteriori des couleurs s’exprime comme la somme des LLRcarte sur les actions : 𝑝 𝑂 𝑋!!!…! )
log
= 𝐿𝐿𝑅!"# =
𝑝 𝐵 𝑋!!!…! )
!
2𝜅 × sin 2𝛿 × sin 2(𝜃! − 𝜃) !!!
Nous retrouvons bien la formule que nous avions trouvé dans la condition sans indice et comme la sélection s’opère de la même façon (sur le signe du LLR de la séquence), de façon là encore déterministe. On a donc bien une équivalence entre les modèles optimaux pour ces deux conditions. C.
Condition avec indices d’options et d’actions Pour cette troisième condition, le modèle optimal est semblable à celui détaillé pour la condition avec indice d’options, le seul changement à noter est que l’observateur optimal peut directement accumuler le LLRcarte vis à vis des couleurs / actions plutôt que des options. Figure 21 : Représentation du modèle Bayésien pour les différentes conditions d’indiçage pour une séquence de quatre cartes où le paquet orange se trouve à gauche de l’axe principal de catégorisation. A gauche, le modèle pour la condition sans indiçage combine à chaque nouvelle carte la distribution de vraisemblance de la séquence qu’il avait juste avant de visualiser la nouvelle carte (en pointillé) avec la distribution a de vraisemblance associée à la nouvelle carte (en trait plein) pour obtenir la distribution de vraisemblance mise à jour de la séquence (en trait plein gras). Au moment où la carte réponse est présentée (dernier graphique en bas à gauche), le modèle optimal accède aux catégories et peut ainsi calculer les probabilités a posteriori associée aux deux réponses (orange et bleu). (b) Le modèle pour la condition avec indiçage (soit d’options, soit d’options et d’actions) calcule le LLR (logarithme du ratio des vraisemblance associée à chaque option) de la carte présentée (à partir de la fonction de LLR définie sur l’orientation des cartes : courbe sinusoïdale) puis le combine avec le LLR de la séquence qu’il avait juste avec que la nouvelle carte ne soit présenté et met à jour le LLR (schémas de droite) en sommant les deux. La dernière mise à jour correspond au LLR sur lequel va s’effectuer la sélection de façon déterministe : si positif alors on choisi la catégorie orange, sinon la catégorie bleue. Dans cet exemple la réponse orange sera sélectionnée. D.
Equivalent géométrique des modèles Bayésiens Du fait des distributions circulaires gaussiennes utilisées, nous avons vu que l’information – en termes de log-­‐probabilités – associée aux cartes est définie par une fonction sinusoïdale, qui selon la règle de combinaison probabiliste Bayésienne doit être additionnée à travers les cartes présentées. Ainsi grâce aux fonctions trigonométriques nous pouvons proposer des interprétations géométriques aux modèles bayésiens présentés ci-­‐dessus. Sans indice, l’intégration d’information de façon Bayésienne peut être vue comme une somme vectorielle de vecteurs d’angle 2 𝜃! et dont la longueur est définie par la concentration de la séquence et la différence entre le centre des paquets : 2𝜅 × sin 2𝛿. La projection du vecteur résultant sur l’axe des abscisses correspond à l’information de la séquence au moment de la présentation de la carte réponse. Pour les deux conditions avec indiçage, plutôt que d’effectuer une somme vectorielle (ce qui revient à conserver l’information en termes de distribution), les vecteurs sont directement projetés sur l’axe de catégorisation principal, ce qui revient au même que de projeter le vecteur résultant en utilisant les formules trigonométriques classiques Annexe 2 : Procédures d’analyse statistique des données Pour nos analyses statistiques nous avons utilisé : -­‐ l’analyse de variance à mesures répétées -­‐ le test de Student -­‐ la régression linéaire et logistique A.
Analyse de variance à mesures répétées (ANOVA) B.
Test de Student ou test t Dans le corps du rapport les analyses que nous effectuons se font sur des donnée à deux facteurs à deux (indiçage, type de catégorisation, vitesse de la séquence) ou trois (longueur de la séquence) niveaux (ou modalités). Afin d’établir si nous avons des effets principaux des facteurs ou/et un effet d’interaction entre ces derniers sur les valeurs de chacun de nos paramètres (ou sur les performances des sujets), nous effectuons une analyse de variance à mesures répétées, avec les sujets testés comme mesures répétées. Dans nos analyses nous reporterons les valeurs du test de Fisher associées aux deux facteurs et à leur interaction ainsi que leur p-­‐value. Le test de Student, ou test t est utilisé pour tester statistiquement l’hypothèse d’égalité de l'espérance de deux variables aléatoires suivant une loi normale et de variance inconnue. Dans nos analyses les variables aléatoires étudiées pourront être les performances des sujets dans une condition expérimentale de façon à tester l’équivalence de deux conditions expérimentales, ou bien elles pourront correspondre aux paramètres fittés des sujets afin de tester la différence entre ces paramètres dans différentes conditions expérimentales. De même que pour l’ANOVA, les sujets sont utilisés comme mesures répétées. C.
Régressions linéaire et logistique Un modèle de régression linéaire est un modèle de régression d'une variable expliquée sur une ou plusieurs variables explicatives (régresseurs) dans lequel on fait l'hypothèse que la fonction qui relie les variables explicatives à la variable expliquée est linéaire dans ses paramètres. L’objectif d’une régression linéaire est d’estimer ces paramètres en minimisant la différence entre les valeurs de la variable expliquée et les valeurs prédites par le modèle linéaire pour un ensemble d’observations de cette variable expliquée. Pour un modèle de régression logistique, la variable d’intérêt est binomiale, c’est à dire qu’elle ne peut prendre que deux valeurs : 0 ou 1 et n’est donc plus possible de modéliser la relation entre cette variable est la variables explicatives par un modèle linéaire. En revanche, on peut se ramener à un modèle linéaire si on considère les vraisemblances des observations conditionnées aux deux valeurs de la variable d’intérêt (variables continues) et en faisant l’hypothèse que le logarithme du ratio de ces vraisemblances est linéairement lié aux variables explicatives. Dans cette tâche les réponses étant binaires : catégorie A ou B, nous utiliserons ce modèle de régression logistique lorsque nous chercherons à quantifier l’importance d’une variable explicative sur le choix des sujets. Annexe 3 : Procédure d’ajustement du modèle aux données Pour chaque sujet nous récupérons les données que le sujet a observées (c’est à dire les séquences d’angles des cartes présentées) ainsi que les réponses qu’il a faites (orange ou bleu) pour chaque séquence. La procédure d’ajustement du modèle aux données des sujets testés consiste à déterminer les valeurs des paramètres présentés précédemment qui maximise la probabilité (ou vraisemblance) pour le modèle de produire les réponses observées chez les sujets. Dans la suite de ce rapport nous utiliserons le terme de « fit » pour faire référence à cette procédure d’ajustement. On peut définir certains paramètres comme fixes, qui ne varieront pas pendant la procédure de fit. Les paramètres libres sont eux ajustés de façon à maximiser la fonction de vraisemblance du modèle ou de façon équivalente à maximiser la fonction de log-­‐
vraisemblance (« log-­‐likelihood » ou LLH). Le LLH est une fonction des paramètres du modèle statistique et correspond au logarithme de la vraisemblance d’un ensemble de valeurs de paramètres sachant les réponses R observées (pour le sujet) : log (ℒ 𝜃 R ), c'est-­‐à-­‐dire au logarithme de la probabilité d’observer ces réponses R sachant ce jeu de paramètres, log (𝑃 𝑅 𝜃 ). Comme les N séquences présentées aux participants sont indépendantes entre elles nous pouvons écrire cette fonction de log-­‐likelihood comme une simple somme : !
log (𝑃 𝑅! 𝜃 ) 𝐿𝐿𝐻 = !!!
Comme nous faisons l’hypothèse que les 6 paires de conditions (indiçage x type de catégorisation) diffèrent en termes d’inférence et pas de sélection nous fittons les trois paramètres liés au mécanisme d’inférence 𝜎!"# , 𝛼!"# , 𝜃!"# sur chaque paire tandis que pour ceux liés à la sélection et celui caractérisant la proportion d’essais pour lequel le sujet a répondu au hasard, nous fittons les paramètres sur l’ensemble des conditions. Annexe 4 : Simulation du modèle sélectionné Figure 22 : Simulation du modèle sélectionné et comparaison avec les données comportementales. Proportion de réponses optimales pour chaque condition expérimentale (6). Les barres correspondent aux données comportementales et les cercles aux données simulées à partir des paramètres moyens des sujets (obtenus en fittant le modèle aux données des sujets). Les barres d’erreur présentées correspondent aux erreurs standard à la moyenne des sujets (n = 25). Afin de vérifier que le modèle que nous avons sélectionné (avec les trois paramètres liés à l’inférence et celui lié à la proportion d’essais où le sujet a répondu au hasard) explique bien nos données, nous avons simulé la proportion de réponses optimales du modèle sur les 25 jeux de données (des sujets) en prenant pour chaque jeu de données le meilleur ensemble de paramètres fittés du le sujet correspondant. Si le modèle choisi est pertinent nous devrions retrouver le même pattern de performances pour les données simulées et pour les données comportementales. Nous observons bien des patterns similaires, ce qui montre que notre modèle capture qualitativement les performances des sujets. On constate néanmoins que pour la condition fine les données simulées s’écartent un peu de des données comportementales, cela peut être expliqué par une variabilité plus important dans la catégorisation fine et donc les paramètres sont un peu moins bien estimé dans cette condition que pour la condition grossière. Annexe 5 : Variabilité dans le processus d’inférence ou de sélection ? D.
Paramètres de sélection 1.
Biais de sélection Au terme d’une séquence, le décideur optimal base sa décision sur le signe du LLR de la séquenceLLR !"# : orange si positif, bleu si négatif. Néanmoins, on pourrait considérer qu’un décideur non-­‐optimal ait un biais préférentiel pour ou l’autre des couleurs, donc pour une des deux réponses. Auquel cas, plutôt que d’avoir un axe de décision situé à 0 celui-­‐ci sera situé à 𝜇!"# > 0 si le biais est en faveur de paquet orange ou 𝜇!"# < 0 s’il est en faveur du paquet bleu. Cette caractérisation n’est pas sans rappeler la théorie de la détection du signal qui relie une variable de décision bruitée à une réponse observée27. Selon cette théorie, l’information observée a été causée par un stimulus et étant donné que cette observation est bruitée, elle définie alors des distributions normales conditionnellement aux deux états possibles du stimulus (typiquement présent ou absent). La réponse est déterminée par un critère de décision qui s’applique à la variable de décision, généralement définie par le rapport des vraisemblances. Le paramètre de biais de sélection est donc un équivalent de ce critère de sélection appliqué à l’information bruitée de la séquence (Figure 23). Figure 23 : Paramètre de biais de sélection. Pour une séquence donnée Ce paramètre agit comme un critère de sélection dans la théorie de détection du signal. Il défini un seuil à partir duquel l’information accumulée apporte assez d’information pour l’une ou l’autre des réponses. 2.
Bruit de sélection Comme nous l’avons défini ci-­‐dessus le processus de sélection pourrait être biaisé (conduisant à une sous-­‐optimalité dans le processus de sélection). Or, il se pourrait qu’en plus d’être biaisé, ce processus de sélection ne soit pas purement déterministe – autrement dit qu’il soit en partie stochastique. C’est pourquoi nous considérerons un terme de bruit de sélection 𝜎!"# qui permettrait de définir le biais de sélection comme une variable aléatoire prise-­‐dans une distribution normale centrée sur 𝜇!"# et d’écart-­‐
type 𝜎!"# . E.
Comparaison et sélection de modèle Dans cette annexe, nous comparons notre modèle, sur la base du critère d'information d'Akaike (AIC), à différents modèles où la sélection ne se fait pas de façon optimale. Dans tous les modèles proposés, de même que dans notre modèle nous laissons libre et constant à travers les conditions le paramètre lié à la proportion de réponses faites au hasard et nous laissons libre et variable à travers les conditions ceux liés à l’inférence. Nous avons voulu vérifier si nos paramètres liés au processus de sélection pouvaient expliquer une partie de nos données, pour cela nous avons comparé quatre modèles : -­‐ Modèle 1 : celui où le bruit d’inférence varie entre les 6 conditions et le bruit de sélection est nul. -­‐ Modèle 2 : celui où le bruit de sélection varie entre les 6 conditions et le bruit d’inférence est nul -­‐ Modèle 3 : celui où les deux bruits peuvent varier entre les 6 conditions. -­‐ Modèle 4 : celui où le bruit d’inférence varie entre les 6 conditions et le bruit de sélection est positif mais ne varie pas entre les 6 conditions. Nous récupérons les valeurs d’AIC pour chaque modèle et chaque sujet et nous effectuons un « family wise test », un équivalent du t-­‐test apparié avec les sujets comme mesures répétées. Ce test nous permet de sélectionner le premier modèle comme étant le plus parcimonieux. Ainsi nous pouvons fixer le bruit de sélection à zéro dans la suite de nos analyses. Par ailleurs, nous avons effectué cette même analyse avec le biais de sélection et nous avons trouvé que le modèle avec un biais de sélection nul gagne (p(1) = 0.9945, p(2) = 0.0023, p(3) = 0, p(4) = 0.0032). Au terme de ces analyses nous avons vérifié que, d’une part, le bruit stochastique que nous observons dans nos données n’est pas dû au processus de sélection mais au processus d’inférence. D’autre part, que les sujets font la sélection de réponse de manière optimale. Ce second résultat nous permet de montrer a posteriori que la tâche n’a pas introduit de biais, ni de bruit au niveau de la sélection de la réponse et que par conséquent nous pouvons analyser les effets que nous observons en termes de sous-­‐optimalité dans le processus d’inférence. Cette comparaison de modèle nous permet de justifier que nous utilisions le modèle qui nous avons présenté dans le corps du rapport, à savoir celui ayant comme paramètres : -­‐ Bruit d’inférence (x6) -­‐ Paramètre de fuite (x6) -­‐ Distorsion d’évidence (x6) -­‐ Paramètre de proportion d’essais répondu au hasard (x1) 
Téléchargement