Perception, Décision et Attention Visuelles: Ce que les potentiels évoqués nous apprennent sur le fonctionnement du système visuel. Rufin VanRullen1 et Simon J. Thorpe2 1 2 Caltech, Div. of Biology, Pasadena, CA (USA) Centre de Recherche Cerveau et Cognition, Toulouse (France) Résumé: La vitesse à laquelle le système visuel humain peut analyser une scène visuelle est encore aujourd’hui un sujet de controverse. Pourtant, cette donnée est fondamentale pour appréhender la complexité des mécanismes neuronaux sousjacents. En contrôlant systématiquement les propriétés physiques des stimuli grâce à un paradigme de “tâche duale”, nous avons pu isoler dans le temps les composantes des potentiels évoqués visuels reflétant les traitements de bas niveau (sensoriels, dès 75 millisecondes post-stimulus) et de haut-niveau (liés à la décision du sujet, à partir de 150 millisecondes post-stimulus). D’un point de vue théorique, ce résultat suggère que ce type de traitement visuel peut être basé sur la propagation “feed-forward” à travers le système visuel d’une seule vague de potentiels d’action portant l’information dans sa structure spatio-temporelle. Dans ce contexte, l’attention visuelle serait implémentée par un avantage temporel pour l’objet attendu ou ses caractéristiques. Les données expérimentales supportent cette interprétation. Introduction. L’extraordinaire efficacité du système visuel humain, et des systèmes visuels naturels en général, est implicitement démontrée par la plupart de nos activités quotidiennes, comme par exemple le simple fait de pouvoir lire ce chapitre, de conduire un véhicule, ou de regarder la télévision. La rapidité avec laquelle notre système visuel réalise ces tâches est cependant moins bien appréhendée. Bien qu’il nous semble pouvoir interpréter une nouvelle image se présentant à nos yeux de façon quasi-instantanée, les processus neuronaux qui mènent à cette interprétation nécessitent un temps de traitement non négligeable. Les potentiels évoqués visuels constituent un outil fascinant pour évaluer la durée de ces processus, car ils peuvent refléter l’activité neuronale avec une précision temporelle de l’ordre de quelques millisecondes. Les résultats obtenus en potentiels évoqués par Thorpe et al (1996), détaillés dans le chapitre précédent, démontrent que l’activité électrique évoquée par un stimulus visuel diffère environ 150 ms après la stimulation selon que ce stimulus est une cible pour la tâche (une image contenant un animal) ou un distracteur (image ne contenant pas d’animal). Ces données sont corroborrées par d’autres études qui suggèrent que certaines composantes du potentiel évoqué après 150 ms (par exemple une négativité présentant un pic à 170ms, appelée N170) peuvent être spécifiques à la présence d’un visage (Bötzel et al, 1995; 1 Jeffreys, 1996; Schendan et al, 1998) ou d’autres objets (Rossion et al, 2000) dans la scène visuelle. D’autres techniques expérimentales, telles les enregistrements intracrâniaux (réalisés chez des sujets épileptiques humains; Allison et al, 1999) ou la magnétoencéphalographie (MEG, qui présente une résolution spatiale bien supérieure à celle de l’EEG; Halgren et al, 2000), ont permis de localiser cette activité neuronale dans la partie ventrale du lobe temporal humain (le gyrus fusiforme, équivalent du cortex inféro-temporal du singe). Cependant un certain nombre d’études plus récentes, s’intéressant en particulier au traitement des images de visages, ont rapporté des effets de haut niveau (i.e. liés à la catégorie du stimulus) bien plus précoces, pouvant apparaître avant 100 ms post-stimulus (Seeck et al, 1997; George et al, 1997; Debruille et al, 1998; Mouchetant-Rostaing et al, 2000a,b). Les plus extrêmes suggèrent que la reconnaissance des visages (Seeck et al, 1997), ou la discrimination du genre des visages (Mouchetant-Rostaing et al, 2000a) pourraient être réalisées avant même 50 ms post-stimulus. Ce résultat est particulièrement étonnant, si l’on considère que ces latences sont parmi les plus courtes qui peuvent être observées en potentiels évoqués, et ont été identifiées comme reflétant l’activation du cortex visuel primaire (Clark et al, 1995; Clark et Hillyard, 1996). Sur le plan théorique, ces résultats, s’ils étaient validés, auraient des conséquences dramatiques. Le système visuel humain serait en effet capable d’analyser en détail une scène visuelle après seulement une, voire deux étapes synaptiques à la sortie de la rétine. C’est-à-dire que le cortex visuel primaire, dont les cellules sont connues pour leurs réponses à des stimulations simples telles que des barres orientées (Hubel et Wiesel, 1959, 1968) pourrait en fait représenter explicitement la catégorie d’un stimulus complexe! Une autre possibilité toutefois, serait que ces différences précoces reflètent en réalité des propriétés sensorielles (de bas-niveau) des stimuli présentés. Ces propriétés sont en général difficiles à contrôler systématiquement. Toute différence sensorielle entre 2 catégories de stimuli (par exemple, au niveau des fréquences spatiales) ou 2 conditions expérimentales (par exemple, l’état d’éveil ou de concentration des sujets) peut se retrouver dans les potentiels évoqués, qui ne sont qu’une moyenne de l’activité électrique sur plusieurs centaines d’essais. Cette différence néammoins ne serait pas suffisante pour permettre la catégorisation systématique de chaque stimulus présenté. Afin de tester cette hypothèse, il est nécessaire de pouvoir séparer les traitements reflétant les propriétés sensorielles des stimuli utilisés, et les traitements reflétant les propriétés de haut niveau de ces stimuli, c’est-à-dire non seulement leur catégorie, mais également leur statut cible/non-cible relativement à la tâche effectuée. L’approche que nous présentons ici a permis de réaliser cette séparation grâce à l’introduction d’un nouveau type de paradigme expérimental: le paradigme de tâche duale (“alternating dual-task paradigm”, VanRullen et Thorpe, 2001a,b). Séparation des processus visuels de haut et de bas niveau. Dans l’une des conditions expérimentales, répliquant l’expérience de Thorpe et al (1996), 16 sujets assis en face d’un écran d’ordinateur devaient relâcher un bouton si l’image naturelle qui était flashée pendant 20 ms contenait un animal. Les potentiels évoqués visuels étaient enregistrés simultanément sur 32 électrodes distribuées sur la surface du scalp. Dans l’autre condition, les mêmes 16 sujets devaient répondre aux images de la catégorie “moyens de transport”. Dans chaque tâche, la moitié des images non-cibles 2 appartenaient à la catégorie cible de l’autre tâche (i.e. véhicules dans la tâche “animal”, et animaux dans la tâche “moyens de transport”) et l’autre moitié était constituée de distracteurs (i.e. de scènes ne contenant ni animal, ni véhicule). Pour comparer ces 2 tâches dans les mêmes conditions, 10 séries de 96 essais étaient réalisées en alternance pour chaque tâche (soit 20 au total). Des images d’une même catégorie (ayant donc des propriétés sensorielles identiques) pouvaient donc être traitées comme cible ou non-cible dans différentes séries. De plus, la moitié des scènes de la catégorie “véhicule” étaient des images de voitures, permettant d’effectuer des comparaisons à l’intérieur d’une même catégorie. Les images dans chaque catégorie étaient choisies de manière à être très diverses. La figure 1 montre 2 exemples de séquences d’images présentées à un sujet. Les images d’animaux pouvaient contenir des mammifères, mais également des oiseaux, poissons ou insectes. Les images de véhicules contenaient aussi bien des voitures que des camions, trains, bateaux, avions, hélicoptères ou montgolfières. La taille, le nombre ou la position des cibles dans chaque scène était imprévisible. Les scènes distracteurs étaient également très variées, pouvant contenir des paysages, des arbres, ou des routes et bâtiments, etc… Figure 1. A gauche: 2 séquences de 12 images présentées dans les tâches de catégorisation “animal” et “vehicule”, avec les temps de réaction du sujet le plus rapide (temps de réaction médians 288 ms dans la tâche animal et 293 ms dans la tâche véhicule, pourcentages correct respectifs 92.7% et 92.6%). A droite: activités différentielles entre les images cibles et les images distracteurs (non inclus les images cibles de l’autre tâche) dans les 2 tâches de catégorisation. Grandes moyennes pour les 16 sujets, électrodes regroupées selon la position: frontales, centrales, pariétales, occipitales. Les résultats comportementaux (VanRullen et Thorpe, 2001b) ne mettent en évidence aucune différence de performance entre les 2 tâches de catégorisation. Les pourcentages corrects sont en moyenne autour de 94%, et les temps de réaction médians légèrement 3 supérieurs à 350 ms. De plus, le taux de catégorisation est au-dessus du niveau de la chance avant même 250 ms, une valeur étonnamment courte, qui constitue une limite supérieure pour la durée des traitements perceptuels et le commencement de la décision du sujet. Les potentiels évoqués peuvent renforcer encore ces contraintes, et définir précisément le décours temporel des différents mécanismes mis en jeu. Dans chaque tâche, on observe une forte activité différentielle entre cibles et distracteurs, plus apparente sur les électrodes frontales, après environ 150ms (figure 1), correspondant à l’activité différentielle rapportée précédemment pour une tâche de catégorisation “animal/non-animal” (Thorpe et al, 1996). Au même moment les activités différentielles sont relativement prononcées pour chaque site d’enregistrement (central, pariétal, occipital), ce qui indique un effet de grande magnitude. De plus, ces résultats sont reproduits ici pour une catégorie cible différente (“véhicule”). Il faut souligner ici que puisque cette catégorie est clairement une catégorie “artificielle”, il ne semble pas y avoir pour ce type de traitement visuel rapide d’avantage pour les stimuli “naturels” ou biologiquement pertinents (VanRullen et Thorpe, 2001b). Outre cette forte activité différentielle entre cibles et distracteurs démarrant après 150 ms, on observe également (Figure 1) une activité plus précoce, et plus faible, environ 75 ms après la présentation du stimulus. Dans le contexte de la distinction faite précédemment entre traitements sensoriels de bas-niveau, et traitements décisionnels de haut niveau, comment interpréter chacune de ces différences? Il est possible de comparer les différentes catégories visuelles utilisées ici (animaux, véhicules, répartis en 2 sous-catégories: voitures et autres véhicules) de manière indépendante de la tâche réalisée. Pour chaque sujet, les potentiels évoqués par des images d’une même catégorie sont moyennés indépendamment du statut cible/non-cible de ces images (en accordant le même poids relatif à chaque condition lors du calcul de cette moyenne). Ces potentiels évoqués spécifiques à une catégorie visuelle, et indépendants des conditions expérimentales, sont ensuite comparés 2 à 2. Les activités différentielles correspondantes sont représentées figure 2. Le traitement évoqué par 2 catégories visuelles diverge après environ 75-80ms. Ces différences sont clairement indépendantes de la tâche réalisée, et du statut des images dans cette tâche. En particulier, les éléments des catégories “voiture” et “autres véhicule” ont exactement le même statut dans les 2 tâches: cibles dans la tâche “véhicule”, non-cibles dans la tâche “animal”. La différence ne peut donc être attribuée qu’à des propriétés visuelles intrinsèques (de bas niveau) de ces catégories. Inversement, quelle est l’activité évoquée spécifiquement par la tâche de catégorisation elle-même, i.e. quelle est la différence entre le traitement des images cibles et non-cibles, toutes propriétés sensorielles des stimuli étant égales par ailleurs? L’utilisation du paradigme de tâche duale permet de répondre à cette question: on peut regrouper les images d’une catégorie visuelle lorsqu’elles sont cibles pour la tâche, et les comparer aux images de cette même catégorie lorsqu’elles sont non-cibles. Chaque activité différentielle représentée dans la figure 3 montre ce type de comparaison, pour une catégorie visuelle donnée. Quelle que soit la catégorie considérée, cette différence d’activité entre images cibles et non-cibles de la même catégorie visuelle apparait après environ 150 ms, et suit un décours temporel similaire. 4 Figure 2. Effets de la catégorie visuelle. Chaque courbe représente la différence d’activité entre 2 catégories visuelles données. Les essais cibles et non-cibles ont le même poids relatif pour chaque comparaison. a. Animaux vs véhicules, pour différents groupes d’électrodes (occipital, pariétal, central, frontal). Par souci de simplicité, l’erreur standard de la moyenne est représentée uniquement pour les électrodes pariétales. b. Animaux vs voitures. c. Animaux vs autres véhicules. d. Voitures vs. autres véhicules. Dans chaque cas la différence d’activité évoquée par les catégories visuelles correspondantes apparait significativement après 75-80 ms. Figure 3. Effets liés à la décision du sujet. Chaque courbe représente la différence d’activité électrique entre les essais cible et non-cible pour une même catégorie d’images. a. Essais cibles vs non-cibles pour les images d’animaux et de véhicules regroupées, et pour different groupes d’électrodes. Par souci de simplicité, l’erreur standard de la moyenne est représentée uniquement pour les électrodes frontales. b. Animaux en tant que cible vs. animaux en tant que non-cible. c. Véhicules en tant que cible vs véhicules en tant que non-cible. d. Véhicules autres que voitures en tant que cible vs en tant que non-cible. e. Voitures en tant que cible vs en tant que non-cible. Dans chaque cas l’activité evoquée par les cibles diffère significativement de celle évoquée par les non-cibles après environ 150-160 ms. Cette activité est indépendante de la catégorie visuelle impliquée, mais corrélée avec le fait que les sujets génèrent ou inhibent une commande motrice, c’est-à-dire avec la décision des sujets. 5 Cette activité différentielle à 150 ms constitue certainement l’équivalent dans notre paradigme de tâche duale de la différence entre cibles et distracteurs rapportée dans des études précédentes (Thorpe et al, 1996; voir le chapitre de Denis Fize). Cependant, l’effet démontré ici est totalement indépendant de la catégorie visuelle impliquée, car cette différence est observée lorsque l’on compare les essais cibles et non-cibles pour la même catégorie visuelle. Cette activité est donc corrélée à la décision des sujets, plutôt qu’aux propriétés visuelles des stimuli. Il faut noter également qu’il n’existe pas de différence entre cibles et non-cibles avant 150 ms, ce qui implique que le type de différence précoce que nous avons observé à environ 75-80 ms ne porte aucune information sur le statut cible/noncible des stimuli visuels. Nous avons donc isolé 2 mécanismes distincts. Le premier correspond à un traitement sensoriel précoce, dépendant de la catégorie visuelle du stimulus, mais pas de la tâche réalisée, et qui démarre environ 75ms après la présentation du stimulus. Le second correspond à un traitement de haut niveau, indépendant de la catégorie visuelle impliquée, lié à la tâche effectuée et à la décision des sujets. Cet effet est observé 150 ms après la présentation du stimulus. Quelles structures neuronales sont impliquées spécifiquement dans chacun de ces différents mécanismes? Compte-tenu de la latence de la première activité sensorielle (i.e. 75 ms, avec un pic à environ 120 ms), et des besoins spécifiques de ce type de tâche de catégorisation, impliquant probablement des mécanismes d’extraction de propriétés visuelles telles que la forme ou la couleur, cette première activité différentielle serait compatible avec une activation des aires visuelles extrastriées telles que V2 ou V4. Une étude récente en MEG (Halgren et al, 2000) montre que des régions occipitales similaires répondent différemment à différentes catégories de stimuli avec des latences d’environ 110 ms, du même ordre que celle trouvée ici. A première vue il peut paraître surprenant qu’une activité différentielle reflétant la catégorie du stimulus visuel puisse être supportée par des aires extrastriées “précoces”. Mais à n’importe quel niveau du système visuel, l’information extraite est par définition corrélée avec la stimulation visuelle, et doit donc différer selon la catégorie correspondante. Ceci n’implique pas que l’identité ou la catégorie du stimulus soit activement encodée dans ces régions. Par contre, lorsque l’activité neuronale est corrélée avec la décision des sujets plutôt qu’avec l’entrée visuelle, il est évident que l’information extraite est suffisante pour permettre la détection des cibles. Les objets constituant la scène visuelle ont donc été reconnus et catégorisés: un tel processus serait vraisemblablement réalisé dans les dernières étapes de la voie ventrale (occipito-temporale) du système visuel. Comme mentionné précédemment, de nombreuses études en IRMf montrent que ces aires occipito-temporales peuvent s’activer différemment pour différentes catégories d’objets (Aguirre et al, 1998; Epstein et Kanwisher, 1998; Ishai et al, 1999; Fize et al, 2000). Ces hypothèses concernant la localisation des activités observées dans notre tâche sont confirmées par l’analyse de sources des potentiels évoqués (Figure 4). 6 Figure 4. Localisation, orientation et amplitudes des sources des 2 types d’activité différentielle observés précédemment. Ces analyses sont réalisées grâce au logiciel BESA. a. Sources de l’activité différentielle précoce reflétant les traitements sensoriels du stimulus visuel (animal vs véhicule, indépendant de la tâche effectuée). Ces sources sont compatibles avec une activation des aires occipitales extrastriées précoces (V2, V4). b. Sources de l’activité différentielle démarrant à 150 ms post-stimulus, et reflétant le statut cible/non-cible du stimulus visuel. Ces sources sont compatibles avec une activation des aires occipito-temporales ventrales (gyrus fusiforme). Décision en 150 ms? Il apparaît que l’activité différentielle à 150 ms observée dans un certain nombre d’études, plus que la catégorie du stimulus visuel présenté (animal, véhicule, distracteur), reflète en réalité le statut de ce stimulus relativement à la tâche effectuée. Cette activité neuronale diffère selon que le sujet décide ou non de générer une commande motrice en réponse à la scène visuelle. Elle est ainsi corrélée avec la décision même du sujet. Nous tentons maintenant de définir précisément la relation qui existe entre cette activité différentielle à 150 ms et les réponses motrices elles-mêmes. La plus simple relation imaginable entre décision visuelle et réponse motrice serait une fonction linéaire: le sujet initierait une réponse à un instant donné avec une probabilité directement proportionnelle à l’amplitude de l’activité différentielle observée à cet instant. La distribution des temps de réaction serait donc proportionnelle à cette activité différentielle mesurée en fonction du temps, moyennant un certain délai correspondant à l’exécution de la commande motrice (i.e. l’intervalle de temps entre l’initiation de cette commande et le mouvement effectif du sujet). Nous allons voir ici que cette hypothèse simpliste explique très efficacement les données observées. Pour tester cette hypothèse, les valeurs absolues de l’activité différentielle cible vs noncible sur chaque électrode ont été additionnées, donnant lieu en quelque sorte à une mesure de l’énergie globale de cette activité différentielle. Parce que cette mesure est une somme des valeurs absolues sur 32 électrodes, le bruit inhérent au signal EEG ne s’annule pas mais s’accumule. Cette activité différentielle globale doit donc être ramenée à zéro en soustrayant ce niveau de bruit (-2.68 µV) sur la période [-100 ms; +100 ms]. L’activité 7 différentielle résultante (que nous appellerons dorénavant activité différentielle “nette”), est significativement supérieure à zéro après 155 ms (t-test, p<.05 pendant plus de 10 ms). La réaction motrice des sujets, elle, est significativement plus fréquente pour les images cibles que pour les images non-cibles après 220-230ms (ce temps de réponse est donc appelé “temps de discrimination”; VanRullen et Thorpe, 2001b). S’il existe un délai d’éxécution de la commande motrice, celui-ci est donc au minimum de 70 ms. Le début de l’activité différentielle nette significative (155 ms) est donc aligné avec le temps de discrimination (220-230 ms) par un décalage temporel de 70 ms. Enfin le coefficient de proportionnalité suggéré par l’hypothèse mentionnée plus haut (une relation linéaire directe entre activité différentielle cible vs non-cible et réponses motrices) est déterminé sur les 50 ms qui s’ensuivent (i.e. la période [155 ms; 205 ms] en temps “EEG”, et la période [225 ms; 275 ms] en temps “comportemental”). L’activité différentielle nette est finalement multipliée par ce coefficient de proportionnalité (1.134 réponses motrices par sujet par µV net). Le résultat de cet alignement et renormalisation est surprenant (figure 5). La distribution des temps de réaction est en effet directement proportionnelle à l’activité différentielle nette sur la période [205 ms; 395 ms], soit pour plus de 120 ms après l’intervalle de normalisation. Cette correspondance parfaite est présente même durant la partie nonlinéaire du signal, une propriété qui ne s’observerait par pure coïncidence qu’avec une probabilité de l’ordre de celle de gagner à la loterie! Figure 5. Mapping de l’activité différentielle nette (absolue) sur l’histogramme des temps de réaction pour les 2 tâches (“animal”, traits noirs; “véhicule”, traits gris). L’activité différentielle nette “cible vs non-cible” est la somme de cette activité différentielle sur les 32 électrodes, ramenée à un niveau de bruit nul sur la période [-100 ms; +100 ms]. La courbe principale montre la moyenne pour les 16 sujets, la courbe insérée à droite montre le même mapping individuellement pour un sujet. L’axe temporel des potentiels évoqués visuels a été aligné avec le temps de discrimination comportemental par un décalage de 70 ms, correspondant au temps d’éxécution de la commande motrice. L’axe vertical (EEG) a ensuite été normalisé pour correspondre à la distribution des temps de réaction pour les 50 ms suivantes. Le fait que les 2 types de courbes (activité différentielle nette, et histogramme des temps de réaction) ne diffèrent significativement qu’après 390-400ms (temps comportemental) suggère que cette activité électrique différentielle reflète directement le mécanisme de décision sur lequel est basée la génération de la commande motrice. 8 Il semble donc que, à une opération de seuillage près ainsi qu’un réalignement temporel, il existe une relation purement et simplement linéaire entre la réponse motrice et l’activité différentielle “cible vs non-cible” après 150 ms. Les réponses motrices surviennent 70 ms en moyenne après cette étape “décisionnelle”, avec une probabilité directement proportionnelle à l’intensité de l’activité différentielle observée. Une telle transformation “linéaire” entre activité neuronale et réponse motrice est compatible avec les théories actuelles de la prise de décision et de la génération d’une commande motrice : accumulation (stochastique) d’une certaine “information” (évidence, activité, spikes,…) jusqu’à ce qu’un seuil (stochastique également) soit atteint (Luce, 1986 ; Ratcliff et al. 1999). Il est donc plus que vraisemblable que l’activité différentielle observée entre essais cibles et non-cibles, qui démarre dès 150 ms, reflète l’étape décisionnelle sur laquelle est basée la génération (ou l’inhibition) de la réponse motrice. Pour caractériser plus précisément cette relation entre décision visuelle et réponse motrice, nous comparons maintenant les 8 sujets les plus rapides aux 8 sujets les plus lents. Figure 6. Mappings réalisés séparément pour les 8 sujets les plus rapides, et les 8 sujets les plus lents (notations identiques à la figure 5). Le décalage temporel entre potentiels évoqués et temps de réaction est de 70 ms dans chaque cas. Le facteur de normalisation met ici en correspondance le maximum de l’activité différentielle nette pour les sujets rapides et le maximum de leur distribution de temps de réaction. La courbe pour les sujets lents a subi la même transformation. La probabilité d’occurrence d’une réponse motrice est une fonction linéaire de l’activité différentielle "cible vs non-cible" qui précède, avec le même facteur de proportionnalité quelle que soit la rapidité du sujet. Seul le délai entre le début de l’étape "décisionnelle" et la réponse motrice est corrélé à la rapidité des sujets (environ 70 ms pour les sujets rapides, et 100 ms pour les sujets lents). 9 Les distributions des temps de réaction ont été recalculées pour chaque groupe, ainsi que les activités différentielles nettes “cible vs non-cible”. Ces potentiels évoqués ont ensuite été “mappés” ensemble sur les distributions des temps de réaction de la façon suivante : après correction (ici on a déduit un niveau de bruit moyen de 3.6 µV nets), et après décalage de 70 ms (la valeur moyenne obtenue précédemment), l’axe vertical des EEG a été renormalisé de sorte que l’activité différentielle maximale pour les sujets rapides (définie comme la moyenne sur la période [260 ; 280 ms]) corresponde au maximum de la distribution des temps de réaction des sujets rapides, moyennée pour les 2 tâches (facteur de normalisation 1.5 µV nets par sujet par réponse motrice). Le “mapping” obtenu pour les sujets lents est lui entièrement déterminé par celui réalisé pour les sujets rapides. La figure 6 montre cependant que le facteur de normalisation appliqué dans un cas (sujets rapides) fonctionne parfaitement pour l’autre (sujets lents) : la probabilité d’occurrence d’une réponse motrice pour un sujet lent est proportionnelle à l’activité différentielle cible vs non-cible, avec le même coefficient de proportionnalité que pour un sujet rapide. Cette activité différentielle est d’amplitude moindre chez les sujets lents, ce qui explique l’étalement des temps de réaction. Par contre, si le décalage temporel de 70 ms entre processus "décisionnel" et réponse motrice semble très légèrement sur-estimé dans le cas des sujets rapides, il est sous-estimé (d’environ 30 ms) pour les sujets lents. Il semblerait donc que les sujets “lents” soient définis par une durée supérieure de la réponse motrice, plutôt qu’une durée supérieure du traitement visuel sous-jacent. Néammoins, notons que ce délai pourrait également s’expliquer par un temps d’intégration décisionnelle plus long chez les sujets lents : puisque l’amplitude de l’activité différentielle est plus faible chez ces sujets, elle est donc moins fiable, et il est nécessaire de l’intégrer plus longuement avant de prendre une décision “raisonnable”. Les sujets lents ne seraient donc pas définis par une moins bonne “vivacité” dans la réponse motrice, mais par une faible amplitude de l’activité neuronale qui différencie les essais “cibles” des autres. Bien que cette interprétation soit plus complexe, et donc potentiellement moins plausible que la précédente, les données recueillies ici ne permettent pas de départager ces 2 hypothèses. Pour résumer les résultats présentés jusqu’ici, l’application du paradigme de tâche duale a permis de séparer dans le temps différents mécanismes impliqués dans la catégorisation visuelle rapide (figure 7). Lorsqu’une scène visuelle est présentée brièvement à un sujet au temps “zéro”, l’activité neuronale évoquée par cette stimulation se reflète dans les EEG après 50 ms. Presque immédiatement (i.e. après 75-80 ms), les traitements sensoriels effectués par le système visuel diffèrent selon la catégorie du stimulus. Cette différence n’est cependant que le reflet naturel des différences physiques moyennes (de bas-niveau) entre différentes catégories de stimuli. Ce n’est qu’à partir de 150 ms que l’activité neuronale observée dans les potentiels évoqués reflète le statut “cible/non-cible” des stimuli, et par conséquent la décision même des sujets, qui sera directement à l’origine des réponses comportementales observées après 220-230 ms. Bien que cette durée du traitement visuel de 150 ms soit plus longue que certaines études l’avaient précédemment suggéré, nous verrons par la suite qu’elle est en fait étonnamment courte, lorsque l’on considère l’architecture du système visuel, et le nombre d’étapes neuronales que l’information représentant la scène visuelle doit traverser pour donner lieu à une réponse motrice. 10 Figure 7. Décours temporel des différents mécanismes neuronaux mis en jeu dans les tâches de catégorisation visuelle rapide. L’activité neuronale se reflète dans les potentiels évoqués seulement 50 ms après la stimulation visuelle. Après 75 ms, on observe le reflet de l’encodage sensoriel des différentes catégories. A partir de 150 ms, la représentation neuronale mise en jeu est suffisamment abstraite pour permettre la catégorisation, i.e. pour décider qu’une cible est présente ou absente et générer la réponse motrice appropriée, qui pourra survenir après environ 220-230 ms. Implications théoriques: contraintes temporelles pour les modèles du système visuel. Les résultats présentés jusqu’ici définissent un certain nombre de contraintes que les théories du traitement neuronal de l’information visuelle se doivent de prendre en compte. Sur la base de ces données expérimentales, nous allons tenter de construire, pas à pas, un modèle du système visuel qui permette d’expliquer comment une scène visuelle complexe peut être analysée en seulement 150 ms pour donner lieu à une représentation neuronale de haut niveau, une représentation suffisamment élaborée pour déterminer la catégorie du stimulus visuel, une représentation qui permettrait de générer une décision comportementale. L’architecture d’un tel modèle est bien sûr dictée par les données biologiques et anatomiques. De la rétine au cortex inféro-temporal, où les neurones peuvent encoder explicitement l’identité ou la catégorie d’un stimulus présenté dans leur champ récepteur, l’information visuelle doit traverser une hiérarchie d’étapes neuronales ou aires corticales. Les neurones dans chacune de ces étapes sont sélectifs à des propriétés de plus en plus complexes à l’intérieur de leur champ récepteur: contraste local dans la rétine et le corps genouillé latéral, orientation, fréquences spatiales dans le cortex visuel primaire, formes simples dans les aires visuelles extra-striées V2, V4. En tout, au moins une dizaine d’étapes synaptiques jalonnent le cheminement de chaque image présentée au système visuel. Les données présentées plus tôt suggèrent que 150 ms sont suffisantes pour parcourir cette hiérarchie. En moyenne, chaque étape neuronale dispose donc de 10 à 15 ms pour intégrer l’information en provenance de l’étape précédente, générer une réponse sous la forme de potentiels d’action (ou “spikes”), et transmettre cette réponse à l’étape suivante. Ceci soulève la question du codage neuronal de l’information. 11 La plupart des modèles de réseaux de neurones (e.g. McCulloch et Pitts, 1943; Rumelhart et McClelland, 1986) présupposent que l’information est encodée par chaque neurone dans la fréquence d’émission de ses potentiels d’action. Cette idée est basée sur les propriétés observées dans les neurones réels ou “integrate-and-fire”, qui intègrent l’information dans leur champ récepteur jusqu’à atteindre un certain seuil, déchargent alors un potentiel d’action, et recommencent indéfiniment ce processus d’intégration (après une certaine période appelée “réfractaire”). Ainsi, plus un neurone est activé, plus il déchargera de potentiels d’action dans un intervalle temporel donné (Adrian, 1926). Cependant, dans la majorité des cas, la fréquence de décharge observée pour les neurones du système visuel est bien inférieure à 100 Hz (i.e. moins de 100 spikes par seconde). Dans une fenêtre temporelle de 10 à 15 ms, très rares seront donc les cellules qui pourront générer 2, voire 3 spikes. Une large proportion des neurones considérés générera un potentiel d’action unique, la grande majorité des neurones restant néammoins silencieuse. Dans ces conditions, un codage d’information par fréquence d’émission de potentiels d’action est impossible, ou toutefois serait particulièrement peu fiable (Thorpe et Imbert, 1989): en effet, pour déterminer la fréquence de décharge de chaque neurone, au moins 2 spikes sont nécessaires. Comment alors une population neuronale peut-elle encoder efficacement l’information visuelle, lorsque chaque neurone ne peut générer que zéro ou un spike? Les propriétés basiques du neurone “integrate-and-fire” recèlent en fait une réponse simple à cette question. Parce qu’un neurone accumule ses entrées jusqu’à parvenir à un certain seuil, le moment précis auquel il atteindra ce seuil et génèrera un potentiel d’action, tout comme sa fréquence de décharge (mais bien plus rapidement), reflètera exactement son niveau d’activation. Si l’on considère maintenant une population de neurones, la structure spatio-temporelle précise des décharges sur cette population permet d’encoder exactement un stimulus d’entrée. Ce mécanisme est illustré à la figure 8. La première vague de potentiels d’action générée par une population en réponse à un stimulus d’entrée peut représenter explicitement l‘information dans sa structure spatio-temporelle, et plus précisément dans les latences de décharge de chaque neurone. Une autre alternative serait de s’intéresser non pas aux dates précises d’émission de potentiel d’action pour chaque neurone, mais plutôt à l’ordre dans lequel les différents neurones d’une population s’activent. Ce type de codage “par rang” (Thorpe et Gautrais, 1997, 1998), plus plausible sur le plan biologique, est en réalité très efficace. Le nombre de stimuli qui peuvent être représentés par un tel mécanisme est une fonction factorielle du nombre de neurones considérés: pour des populations de taille compatible avec les données biologiques, la puissance de ce codage en termes de transmission d’information peut satisfaire les besoins de n’importe quelle tâche visuelle complexe. Une étude récente (VanRullen et Thorpe, 2001c) démontre par exemple qu’un tel codage permet de transmettre l’information visuelle de la rétine au cortex, alors que seulement 1% des cellules ganglionnaires de la rétine ont déchargé un unique potentiel d’action. Un neurone recevant l’information encodée de cette manière, doit être capable de décoder l’ordre d’arrivée des spikes afférents. Ce décodage peut ête réalisé dans des conditions où le neurone subit une désensibilisation progressive, au fur et à mesure que ses entrées lui parviennent. En effet, il se trouvera alors optimalement activé uniquement quand ses afférents s’activent dans l’ordre auquel il est sélectif (i.e. l’ordre décroissant des poids de ses connexions synaptiques). Par conséquent, la latence de décharge d’un tel neurone reflètera directement sa sélectivité au stimulus d’entrée. En d’autres termes, le mécanisme 12 de codage spatio-temporel proposé ici est “cascadable”: la présentation d’un stimulus visuel induit dans la rétine la génération d’une vague de potentiels d’action portant l’information dans sa structure spatio-temporelle. Les neurones de l’étape suivante analysent cette information, et génèrent à leur tour une réponse sous la forme d’une vague de potentiels d’action, à l’intérieur de laquelle l’information la plus pertinente est portée par les toutpremiers spikes. Une telle vague se propageant à travers le système visuel, régénérée à chaque étape de traitement, et incorporant peu à peu l’information extraite par les sélectivités des différents neurones (et éventuellement, raffinée par des interactions latérales feed-forward; VanRullen et al, 2001d), pourrait donner lieu finalement à une représentation complexe du stimulus visuel (i.e. une représentation explicite de son identité ou de sa catégorie), dans un temps compatible avec la durée du traitement visuel observée expérimentalement. Figure 8. Lorsqu’un pattern d’entrée est présenté à une population de neurones, les premières réponses de cette population peuvent être considérées comme une vague spatio-temporelle de potentiels d’action. A l’intérieur de cette vague, les propriétés des neurones “integrate-and-fire” impliquent que les cellules les plus activées répondront avec les latences les plus courtes. L’intensité ou la saillance du stimulus visuel est donc convertie en une asynchronie temporelle. Un neurone recevant cette information peut répondre sélectivement à l’ordre de décharge à l’intérieur d’une telle vague. Avec 8 neurones d’entrée, 8! soit plus de 40000 stimulus différents peuvent être ainsi discriminés. Un tel modèle du système visuel a donc été construit, et appliqué à un problème visuel complexe: la détection des visages dans des images naturelles (VanRullen et al, 1998). Ce modèle est composé de différentes couches de traitement correspondant à différentes aires du système visuel (figure 9). L’image d’entrée est convertie dans la rétine en une vague spatio-temporelle de potentiels d’action. Les cellules de la rétine répondent sélectivement à des contrastes locaux de 2 polarités: point clair sur fond sombre (cellules ON-center) ou point sombre sur fond clair (cellules OFF-center). Les contrastes les plus forts sont donc transmis par les premiers spikes de cette vague. Celle-ci est reçue au niveau suivant par des 13 populations de cellules sélectives à des bords de différentes orientations (8 orientations, séparées par 45°). Ce niveau correspond donc à un modèle simplifié du cortex visuel primaire V1. Les réponses de ces populations sont à leur tour transmises, sous la forme d’une nouvelle vague de spikes, aux neurones de l’étape suivante, qui ont été rendus sélectifs à l’ordre de décharge caractéristique de la présence d’une bouche, ou d’un oeil droit ou gauche dans leur champ récepteur (apprentissage supervisé, procédure non décrite ici). Enfin, les réponses de ces neurones convergent vers une dernière population, dont les neurones sont capables d’intégrer spatialement ces différentes informations, pour répondre spécifiquement à la présence d’un visage centré dans leur champ récepteur. Comme illustré dans la figure 9, ce modèle est capable de détecter et de localiser les visages dans des images naturelles. Les tests effectués sur de larges bases de données montrent que les performances de ce système surpassent de loin celles des autres modèles classiques de traitement des visages (Turk et Pentland, 1991; Sung et Poggio, 1994; Rowley et al, 1998; Moghaddam et Pentland, 1995; Valentin et al, 1994). L’efficacité et la rapidité du modèle présenté ici résident en fait dans le type de codage utilisé. Un seul potentiel d’action pour chaque neurone suffit pour encoder l’information entre 2 étapes successives. De plus, parce que l’information la plus saillante est portée par les toutes premières décharges d’une vague de potentiels d’action se propageant à travers le système, la majorité des traitements peuvent être réalisés alors qu’une faible proportion des neurones de chaque couche a été activée. La propagation en mode “feed-forward” d’une telle vague de potentiels d’action, portant l’information visuelle dans sa structure spatio-temporelle, pourra mener finalement à l’activation de neurones dans les derniers niveaux, dont la réponse reflète spécifiquement l’identité (ici visage/non-visage) du stimulus présenté. Cette représentation de haut niveau pourrait donc servir de base à la génération de réponses comportementales sélectives. Le modèle décrit ici est cependant l’un des seuls à ce jour à pouvoir expliquer comment le système visuel humain pourrait parvenir à un tel résultat en seulement 150 ms. Ce type de système, même s’il reproduit et explique une large part des données observées par l’expérimentation, n’est toutefois pas un modèle complet du système visuel, pour un certain nombre de raisons. Tout d’abord, ce modèle est statique, c’est-à-dire que les traitements effectués ne dépendent pas de la tâche effectuée, ou d’un “but central” poursuivi par l’organisme dans lequel il serait implémenté. Deux stimulations identiques donneront toujours lieu à la même séquence d’activation dans ce système, et donc à la même réponse. A l’inverse, le système visuel humain est capable d’adapter les traitements effectués à la tâche en cours, de sorte qu’une image d’animal, par exemple, pourra donner lieu à une réponse motrice dans certains cas (tâche de catégorisation “animal” décrite précédemment), et pas dans d’autres (tâche de catégorisation “véhicule”). De plus, le modèle décrit jusqu’ici est coûteux en termes du nombre de neurones requis. Pour permettre de détecter des objets à différentes positions, nous avons utilisé un neurone sélectif à chaque objet pour chaque position possible de l’objet. Par comparaison, les neurones du système visuel des primates peuvent souvent répondre à leur stimulus préféré à différentes positions dans leur champ récepteur. Les neurones du cortex inféro-temporal ont par exemple des champs récepteurs qui couvrent parfois la majorité du champ visuel. Ce type d’organisation, cependant, rend le système vulnérable aux erreurs d’interprétation, car 2 objets (ou plus) peuvent se retrouver dans le même champ récepteur, et causer des phénomènes de conjonction illusoire (Treisman et Schmidt, 1982). 14 Figure 9. Propagation d’une vague de potentiels d’action initiée par la présentation d’une image naturelle dans un modèle du système visuel appliqué à la détection des visages (VanRullen et al, 1998). Le système est composé de 4 couches, comprenant un certain nombre de cartes rétinotopiques, à l’intérieur desquelles chaque pixel représente un neurone. La position du pixel dans la carte correspond au centre du champ récepteur du neurone dans l’image d’entrée. Les pixels gris représentent les neurones qui ont déchargé un unique potentiel d’action, le niveau de gris reflétant l’ordre de décharge dans la couche correspondante (le premier neurone à décharger est représenté par un point blanc). L’image d’entrée est décomposée dans la rétine par des cellules ON- et OFF-center. La vague spatiotemporelle initiée dans la rétine est propagée à travers le système en mode “feed-forward”. Dans la seconde couche, les neurones répondent à des bords de différentes orientations (8 orientations séparées par 45°; seulement 4 orientations représentées ici). Les neurones de la 3ème couche ont appris à répondre sélectivement à l’ordre de décharge caractéristique de la présence d’un oeil gauche, d’une bouche ou d’un oeil droit dans leur champ récepteur. Ces informations sont combinées au dernier niveau, où les neurones répondent sélectivement à la présence d’un visage centré dans leur champ récepteur. La position du (ou des) neurone(s) activé(s) dans cette carte indique la position du (des) visage(s) dans l’image d’entrée. 15 L’attention visuelle semble être la solution apportée par la biologie à ces deux types de problèmes. L’attention peut en effet moduler les réponses neuronales en fonction de priorités et buts “centraux”, et par là-même permet de regrouper les éléments ou objets de la scène visuelle et de leur attribuer une valeur sémantique, même lorsque ces éléments ou objets se retrouvent simultanément dans le champ récepteur d’un unique neurone. Afin de pouvoir incorporer dans notre modèle une composante attentionnelle qui lui permettra de dépasser ses limitations, nous retournons maintenant à l’analyse des données expérimentales, et essayons de caractériser dans le contexte présent la nature des mécanismes attentionnels qui surviennent dans le système visuel humain. Attention visuelle: données expérimentales. L’effet de l’attention sur les différentes composantes du potentiel évoqué visuel a fait l’objet de nombreuses études (voir par exemple Hillyard et al, 1998). Les auteurs s’accordent en général sur le fait que la composante P1 (dont la latence et le pic d’amplitude varient selon les études entre 75 et 135 ms) subit une forte modulation attentionnelle. Elle est en général plus prononcée pour l’hémisphère contralatéral à la partie du champ visuel où est dirigée l’attention (Heinze et al, 1990). La composante N1, plus tardive (150-200ms) semble être également modulée par l’attention, mais cet effet correspondrait à un mécanisme distinct de celui observé pour la P1 (Mangun et Hillyard, 1991; Luck 1995). Selon certains auteurs, la modulation de la première composante (P1) correspondrait à une facilitation des traitements sensoriels précoces, alors que l’effet attentionnel observé sur la seconde (N1) reflèterait un mécanisme dirigeant l’attention vers les stimuli importants pour la tâche (Luck et al, 1990). Hillyard et Anllo-vento (1998) suggèrent que la première serait tout simplement le reflet de l’attention spatiale, la seconde correspondant à une forme d’attention non-spatiale, sélective à des propriétés spécifiques de l’objet sélectionné. La plupart de ces études démontrent que l’amplitude des potentiels évoqués peut être modulée relativement tôt (dès 75 ms) par l’attention visuelle. Qu’en est-il cependant de la latence de ces différentes composantes? Une étude récente (DiRusso et Spinelli, 1999a) démontre que l’activité neuronale visuelle évoquée par un stimulus survient environ 10-15 ms plus tôt lorsque l’attention est portée sur ce stimulus, dans le cas de la composante P1. Cet avantage temporel pour le stimulus attendu est déja présent, mais de moindre amplitude, pour des composantes encore plus précoces du potentiel évoqué (dès 60 ms poststimulus). Cet effet apparait lorsque le stimulus est défini par un contraste de luminance, mais pas pour un contraste de couleur (DiRusso et Spinelli, 1999b). Le stimulus sélectionné par l’attention traverserait ainsi le système visuel avec une avance temporelle significative (et qui augmenterait d’étape en étape) sur les autres objets de la scène visuelle. Cette idée est confirmée par l’illusion visuelle de la “ligne en mouvement” (Hikosaka et al, 1991, 1993a,b). Lorsqu’un point lumineux est présenté brièvement, suivi après un court délai (environ 50 ms) par une barre horizontale alignée avec ce point, un observateur perçoit un mouvement (illusoire) à l’intérieur de la barre, comme si elle apparaissait graduellement à partir du point lumineux. L’explication de ce phénomène est en fait relativement simple: l’apparition du point attire l’attention sur sa position; lorsque la barre est présentée, l’attention favorise les réponses neuronales à proximité de ce point, permettant aux neurones proches du focus attentionnel de décharger avec un avantage 16 temporel sur les neurones éloignés. La réponse du système est donc similaire à ce que l’on obtiendrait si la barre apparaissait graduellement à partir du point lumineux. Les résultats de psychologie expérimentale apportent une pierre supplémentaire à cet édifice (Pashler, 1998). L’attention spatiale portée sur une cible engendre en effet une diminution significative des temps de réaction motrice dans des tâches de discrimination rapide ou “go/no-go” (Posner, 1980; Kingstone, 1992; Neumann et al, 1993). Ces données semblent converger vers l’idée que l’attention visuelle se traduit par une précédence temporelle pour la région d’intérêt. Un tel avantage temporel, qui pourrait s’accroître à mesure que l’information visuelle avance dans le système, signifie que durant une certaine période, la seule information qui sera disponible aux neurones des derniers niveaux de la hiérarchie visuelle (e.g cortex inféro-temporal) concernera uniquement l’objet sélectionné par l’attention. Ces neurones pourront donc analyser cette information sans craindre de commettre des erreurs de conjonction illusoire. Un tel mécanisme attentionnel est particulièrement approprié dans le cadre d’un modèle où les premières décharges d’une vague spatio-temporelle de potentiels d’action transportent l’information la plus saillante. Grâce à cet avantage temporel, ces premières décharges correspondront en effet à l’objet attendu, qui sera ainsi interprété par le système comme étant tout particulièrement saillant. Un avantage temporel en faveur du focus attentionnel? Dans le modèle du système visuel que nous avons construit jusqu’ici, l’information est portée par l’asynchronie temporelle des décharges dans une vague de spikes traversant le système. L’attention visuelle pourrait agir sur cette asynchronie en donnant un avantage temporel à l’information sélectionnée (VanRullen et Thorpe, 1999). La saillance relative de cette information serait ainsi accrue, lui permettant de dominer les traitements effectués. Cet effet peut être obtenu simplement en diminuant les seuils de décharge des neurones qui encodent spécifiquement cette information (i.e. les neurones dont le champ récepteur se trouve à l’intérieur du focus attentionnel dans le cas de l’attention spatiale), ou de façon équivalente, en augmentant leur potentiel de membrane. Les neurones touchés par l’attention atteindront ainsi leur seuil plus rapidement que les autres, et en conséquence déchargeront plus tôt. Afin d’illustrer les propriétés d’un tel mécanisme, considérons une population de neurones du corps genouillé latéral (LGN) transmettant au cortex visuel l’information de contraste local (figure 10). Dans des conditions normales de stimulation, les cellules les plus activées atteindront leur seuil le plus tôt, et déchargeront en premier. Un neurone cible recevant les spikes de cette population pourra donc rapidement accumuler l’information concernant les éléments les plus saillants du stimulus. Supposons maintenant que l’état de repos des neurones de cette population soit biaisé pour une certaine région du champ visuel, de sorte que les neurones dans cette région aient une tendance accrue à décharger avec une avance temporelle sur les autres. Dans ces conditions, notre cellule cible interprètera les propriétés du stimulus à cette position comme les plus saillantes. La figure 10 montre une reconstruction de l’information transmise par une telle population dans différentes conditions de modulation attentionnelle. Cette reconstruction correspond à une estimation de l’information qui serait transmise à notre cellule cible. Alors qu’une faible proportion des neurones du LGN a déchargé, l’information déjà transmise au cortex représente en priorité l’objet sur lequel est dirigée l’attention. Cet objet dominera donc les étapes de traitement suivantes. 17 Figure 10. Reconstructions de l’information transmise par une population de cellules du LGN lorsque 1% des cellules ont généré un potentiel d’action unique, dans différentes conditions de modulation attentionnelle. En haut à gauche, en l’absence de biais attentionnel, l’information transmise en priorité correspond aux régions les plus saillantes (i.e. contrastées). Lorsque l’attention est dirigée sur une position particulière (comme l’indique le point lumineux dans les 3 autres images réduites), le transfert d’information est biaisé de sorte que l’information se propage plus rapidement à cet endroit. La première information reçue au niveau suivant, interprétée comme la plus importante, correspond donc aux endroits les plus saillants en l’absence de modulation attentionnelle, ou aux propriétés de l’objet attendu lorsque l’attention est présente. Ce mécanisme attentionnel augmente ainsi la saillance relative du stimulus sélectionné par l’attention (Reynolds et al, 1999). La réponse de la population est similaire à ce qui serait obtenu si le stimulus attendu était présenté en isolation (Reynolds et Desimone, 1999). Par conséquent, un neurone cible recevant cette information au niveau suivant se comportera comme si son champ récepteur s’était “rétréci” autour du focus attentionnel (Moran et Desimone, 1985). Ces reconctructions sont calculées avec un algorithme similaire à celui décrit par VanRullen et Thorpe (2001c). La modulation attentionnelle illustrée ici dans le cas d’une population de cellules du LGN, peut bien sûr intervenir à n’importe quel niveau de traitement du système visuel. L’avantage temporel pour la région d’intérêt augmentera progressivement à chaque étape, de sorte que la première information qui parviendra aux neurones des dernières étapes, et qui déterminera leur réponse, représentera spécifiquement l’objet attendu. Cette propriété est particulièrement importante dans des systèmes où une “compétition biaisée” (Desimone et Duncan, 1995) est nécessaire pour résoudre les amibiguités induites par la présence simultanée de plusieurs objets dans un même champ récepteur. Le modèle de reconnaissance d’objets présenté à la figure 11 démontre cette propriété. Ce modèle comporte 6 couches de traitement organisées hiérarchiquement. Les champs récepteurs des neurones s’agrandissent sensiblement de couche en couche, permettant d’obtenir au dernier niveau des réponses invariantes à la position des objets présentés. Chaque neurone du dernier niveau est entraîné à répondre sélectivement à un objet donné. Neuf objets différents ont été utilisés pour ces simulations. Lorsqu’un objet est présenté en isolation, quelle que soit sa position rétinotopique, seul le neurone sélectif à cet objet s’active en sortie. Il n’y a donc pas besoin de mécanisme attentionnel dans ce cas. Cependant, quand 2 objets apparaissent dans le champ récepteur d’un même neurone, l’un deux étant son stimulus préféré, la probabilité d’activation du neurone est réduite à environ 18 45%. De plus, chaque neurone du dernier niveau répond à la présentation simultanée de 2 stimuli auxquels il n’est pas sélectif (i.e. une conjonction illusoire a lieu) avec une probabilité de 5%. Figure 11. Résultat de la propagation d’une image contenant 2 stimuli dans un modèle de détection d’objets équipé du mécanisme attentionnel proposé ici. Le système est constitué d’une hiérarchie de couches de traitement dont les neurones ont des champs récepteurs de plus en plus larges et des sélectivités de plus en plus complexes (rétine: cellules sélectives au contraste à 2 polarités; couche “orientation”: sélectivité à 4 orientations différentes et 2 polarités; couche “complex orientation”: 4 orientations, invariance à la polarité; couche “features”: sélectivité à des jonctions en forme de T ou L, et à des terminaisons; couche “complex features”: similaire à la précédente, avec un degré supplémentaire d’invariance à la position). Au dernier niveau, une simplification du cortex inférotemporal, les neurones sélectifs aux objets ont des champs récepteurs qui peuvent englober les 2 stimuli. Sans modulation attentionnelle, ils répondent sélectivement à leur stimulus préféré présenté seul, mais moins de 50% du temps lorsqu’un autre stimulus apparaît simultanément. Lorsque l’attention est dirigée sur l’un des 2 stimuli, les seuils des neurones dont le champ récepteur se trouve dans la région d’intérêt sont diminués à différents niveaux du système, de sorte que les neurones correspondant auront tendance à décharger plus tôt. Dans ces conditions, l’objet sélectionné est correctement détecté dans 96% des cas. 19 La mise en jeu d’un mécanisme attentionnel donnant un avantage temporel à l’un des 2 objets présentés simultanément permet de restaurer la sélectivité des neurones. Plus précisément, lorsque les seuils des neurones situés dans la région attentionnelle sont diminués de 5% à 20% à différents niveaux du système (couches “orientation”, “complex orientation”, “features” et “complex features”), un neurone sélectif à un objet répond maintenant 96% du temps lorsque l’attention est dirigée sur cet objet, et avec une probabilité de 2% lorsque cet objet est présent dans son champ récepteur, mais l’attention est dirigée sur l’autre objet. Enfin, la probabilité de réponse à une paire d’objets auxquels le neurone n’est pas sélectif (conjonction illusoire) est ramenée à moins de 0.5%. Le mécanisme de modulation attentionnelle proposé ici permet donc de modifier les réponses neuronales en accord avec des buts ou priorités “centraux” (ici externes au système modélisé, ou “top-down”). En donnant un avantage temporel à un objet ou à ses propriétés, il permet de s’assurer que la première information parvenant aux derniers niveaux de traitement du système représentera explicitement et uniquement l’objet attendu. Les neurones recevant cette information interprèteront cet objet ou ses propriétés comme étant particulièrement saillants, et génèreront une réponse appropriée, avant même que l’information correspondant au reste de la scène visuelle (ou du champ récepteur) ne vienne influencer leur décision. L’utilisation d’un tel mécanisme attentionnel permet de munir les neurones d’une invariance à la position dans de larges champs récepteurs, sans se soucier des erreurs de “conjonction illusoire”. De ce fait, ce système requiert bien moins de neurones qu’un système équivalent où l’invariance à la position serait obtenue en répliquant à chaque position possible l’entière hiérarchie du traitement visuel. En d’autres termes, le mécanisme attentionnel décrit ici reproduit bien les propriétés computationnelles qui font de l’attention une composante primordiale du traitement neuronal dans les systèmes visuels biologiques. Ici encore, l’encodage de l’information visuelle dans le domaine temporel apporte une explication théorique des traitements visuels de haut niveau qui est compatible avec la rapidité observée pour ces traitements dans le système visuel humain. Conclusion Un modèle du traitement de l’information dans le système visuel a été présenté, et mis en relation avec les données expérimentales concernant la catégorisation visuelle rapide. Ce modèle n’explique pas toute l’étendue des capacités du système visuel humain, et doit être considéré à ce stade comme une hypothèse théorique plutôt qu’une réalité biologique. Cette approche démontre cependant que les données recueillies par l’expérimentation, et tout particulièrement par les méthodes de potentiels évoqués visuels, qui reflètent les traitements neuronaux avec une haute résolution temporelle, peuvent mener par une suite de déductions logiques à un modèle théorique détaillé des mécanismes neuronaux qui sous-tendent la perception visuelle. Dans le cas de la catégorisation visuelle rapide, la propagation en mode feed-forward à travers le système visuel d’une vague spatio-temporelle de potentiels d’action, portant l’information dans l’asynchronie temporelle des décharges neuronales, qui peut être modifiée de manière “bottom-up” par les sélectivités neuronales et de manière “top-down” par l’attention visuelle, permettrait d’expliquer comment le système visuel humain est capable de générer une décision motrice sélective à une catégorie donnée d’objets en seulement 150ms. 20 Références. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. Adrian, E. D. (1926). The impulses produced by sensory nerve endings: Part I. J Physiol (London), 61, 49-72. Allison, T., Puce, A., Spencer, D. D., & McCarthy, G. (1999). Electrophysiological studies of human face perception. I: Potentials generated in occipitotemporal cortex by face and non-face stimuli. Cereb Cortex, 9(5), 415-430. Botzel, K., Schulze, S., & Stodieck, S. R. (1995). Scalp topography and analysis of intracranial sources of face-evoked potentials. Exp Brain Res, 104(1), 135-143. Clark, V. P., Fan, S., & Hillyard, S. A. (1995). Identification of early visually evoked potential generators by retinotopic and topographic analyses. Hum Brain Map, 2, 170-187. Clark, V. P., & Hillyard, S. A. (1996). Spatial selective attention affects early extrastriate but not striate components of the visual evoked potential. J Cog Neurosci, 8, 387-402. Debruille, J. B., Guillem, F., & Renault, B. (1998). ERPs and chronometry of face recognition: following-up Seeck et al. and George et al. Neuroreport, 9(15), 3349-3353. Desimone, R., & Duncan, J. (1995). Neural mechanisms of selective visual attention. Annual Review of Neuroscience., 18, 193-222. Di Russo, F., & Spinelli, D. (1999). Electrophysiological evidence for an early attentional mechanism in visual processing in humans. Vision Res, 39(18), 2975-2985. Di Russo, F., & Spinelli, D. (1999). Spatial attention has different effects on the magno- and parvocellular pathways. Neuroreport, 10(13), 2755-2762. George, N., Jemel, B., Fiori, N., & Renault, B. (1997). Face and shape repetition effects in humans: a spatio-temporal ERP study [see comments]. Neuroreport, 8(6), 1417-1423. Halgren, E., Raij, T., Marinkovic, K., Jousmäki, V., & Hari, R. (2000). Cognitive Response Profile of the Human Fusiform Face Area as Determined by MEG. Cereb Cortex, 10(1), 69-81. Heinze, H. J., Luck, S. J., Mangun, G. R., & Hillyard, S. A. (1990). Visual event-related potentials index focused attention within bilateral stimulus arrays. I. Evidence for early selection. Electroencephalogr Clin Neurophysiol, 75(6), 511-527. Hikosaka, O., Miyauchi, S., & Shimojo, S. (1991). Focal visual attention produces motion sensation in lines. Investigative Ophtalmology and Visual Science, 32(Suppl.), 716. Hikosaka, O., Miyauchi, S., & Shimojo, S. (1993). Focal visual attention produces illusory temporal order and motion sensation. Vision Res, 33(9), 1219-1240. Hikosaka, O., Miyauchi, S., & Shimojo, S. (1993). Visual attention revealed by an illusion of motion. Neurosci Res, 18(1), 11-18. Hillyard, S. A., Teder-Salejarvi, W. A., & Munte, T. F. (1998). Temporal dynamics of early perceptual processing. Curr Opin Neurobiol, 8(2), 202-210. Hillyard, S. A., & Anllo-Vento, L. (1998). Event-related brain potentials in the study of visual selective attention. Proc Natl Acad Sci U S A, 95(3), 781-787. Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurons in the cat's striate visual cortex. J Physiol, 148, 574-591. Hubel, D. H., & Wiesel, T. N. (1968). Receptive fields and functional architecture of the monkey striate cortex. J Physiol (London), 195, 574-591. Jeffreys, D. A. (1996). Evoked potential studies of face and object processing. Visual Cognition, 3, 1-38. Kingstone, A. (1992). Combining expectancies. Quarterly Journal of Experimental Psychology., 44, 69-104. Luce, R. D. (1986). Response Times. Oxford: Oxford University Press. Luck, S. J. (1995). Multiple mechanisms of visual-spatial attention: recent evidence from human electrophysiology. Behav Brain Res, 71(1-2), 113-123. 21 24. Luck, S. J., Heinze, H. J., Mangun, G. R., & Hillyard, S. A. (1990). Visual event-related potentials index focused attention within bilateral stimulus arrays. II. Functional dissociation of P1 and N1 components. Electroencephalogr Clin Neurophysiol, 75(6), 528-542. 25. Mangun, G. R., & Hillyard, S. A. (1991). Modulations of sensory-evoked brain potentials indicate changes in perceptual processing during visual-spatial priming. J Exp Psychol Hum Percept Perform, 17(4), 1057-1074. 26. McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 5, 115-133. 27. Moghaddam, B., & Pentland, A. (1995). Probabilistic visual learning for object detection. Paper presented at the The Fifth International Conference on Computer Vision, Cambridge, MA. 28. Moran, J., & Desimone, R. (1985). Selective attention gates visual processing in the extrastriate cortex. Science, 229, 782-784. 29. Mouchetant-Rostaing, Y., Giard, M. H., Bentin, S., Aguera, P. E., & Pernier, J. (2000a). Neurophysiological correlates of face gender processing in humans. Eur J Neurosci, 12(1), 303310. 30. Mouchetant-Rostaing, Y., Giard, M.-H., Delpuech, C., Echallier, J.-F., & Pernier, J. (2000b). Early signs of visual categorization for biological and non-biological stimuli in humans. NeuroReport, 11(11), in press. 31. Neumann, O., Esselmann, U., & Klotz, W. (1993). Differential effects of visual-spatial attention on response latency and temporal-order judgment. Psychol Res, 56(1), 26-34. 32. Pashler, H. (1998). The Psychology of Attention. Cambridge, MA: MIT Press. 33. Posner, M. I., Snyder, C. R. R., & Davidson, B. J. (1980). Attention and the detection of signals. Journal of Experimental Psychology: General., 109, 160-174. 34. Ratcliff, R., Van Zandt, T., & McKoon, G. (1999). Connectionist and diffusion models of reaction time. Psychol Rev, 106(2), 261-300. 35. Reynolds, J. H., Chelazzi, L., & Desimone, R. (1999). Competitive mechanisms subserve attention in macaque areas V2 and V4. J Neurosci, 19(5), 1736-1753. 36. Reynolds, J. H., & Desimone, R. (1999). The role of neural mechanisms of attention in solving the binding problem. Neuron, 24(1), 19-29, 111-125. 37. Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R., Linotte, S., & Crommelinck, M. (2000). The N170 occipito-temporal component is delayed and enhanced to inverted faces but not to inverted objects: an electrophysiological account of face-specific processes in the human brain. NeuroReport, 11(1), 69-74. 38. Rowley, H. A., Baluja, S., & Kanade, T. (1998). Neural network-based face detection. IEEE Trans. Pattern Anal. Mach. Intell., 20, 23-38. 39. Rumelhart, D. E., & McClelland, J. L. (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Vol 1: Foundations. Cambridge, MA: MIT Press/Bradford Books. 40. Schendan, H. E., Ganis, G., & Kutas, M. (1998). Neurophysiological evidence for visual perceptual categorization of words and faces within 150 ms. Psychophysiology, 35(3), 240-251. 41. Seeck, M., Michel, C. M., Mainwaring, N., Cosgrove, R., Blume, H., Ives, J., Landis, T., & Schomer, D. L. (1997). Evidence for rapid face recognition from human scalp and intracranial electrodes [see comments]. Neuroreport, 8(12), 2749-2754. 42. Sung, K., & Poggio, T. (1994). Example-based learning for view-based human face detection. Proceedings Image Understanding Workshop, II, 843-850. 43. Thorpe, S. J., & Imbert, M. (1989). Biological constraints on connectionist models. In R. Pfeifer & Z. Schreter & F. Fogelman-Soulié & L. Steels (Eds.), Connectionism in Perspective. (pp. 6392). Amsterdam: Elsevier. 44. Thorpe, S. J., Fize, D., & Marlot, C. (1996). Speed of processing in the human visual system. Nature, 381, 520-522. 22 45. Thorpe, S. J., & Gautrais, J. (1997). Rapid visual processing using spike asynchrony. In M. C. Mozer & M. Jordan & T. Petsche (Eds.), Advances in Neural Information Processing Systems (MIT Press ed., Vol. 9, pp. 901-907). Cambridge: MIT Press. 46. Thorpe, S. J., & Gautrais, J. (1998). Rank order coding: a new coding scheme for rapid processing in neural networks. In J. Bower (Ed.), Computational Neuroscience : Trends in Research. New York: Plenum Press. 47. Turk, M., & Pentland, A. (1991). Eigenfaces for recognition. Journal of Cognitive Neuroscience, 3(1), 71-86. 48. Valentin, D., Abdi, H., O'Toole, A., & & Cottrell, G. W. (1994). Connexionnist models of face processing : a survey. Pattern Recognition, 27, 1209-1230. 49. VanRullen, R., Gautrais J., Delorme A., & Thorpe, S. J. (1998). Face Processing using One Spike Per Neuron. Biosystems, 48(1-3), 229-239. 50. VanRullen, R., & Thorpe, S. J. (1999). Spatial attention in asynchronous neural networks. NeuroComputing, 26-27, 911-918. 51. VanRullen, R., & Thorpe, S. J. (2001a). The time course of visual processing: from early perception to decision-making. J Cog Neuroscience, 13(3). 52. VanRullen, R., & Thorpe, S. J. (2001b). Is it a bird? Is it a plane? Ultra-rapid visual categorisation of natural and artifactual objects. Perception, in press. 53. VanRullen, R., & Thorpe, S. J. (2001c). Rate coding vs temporal order coding: what the retinal ganglion cells tell the visual cortex. Neural Computation, 13(6). 54. VanRullen, R., Delorme, A., & Thorpe, S. J. (2001d). Feed-forward contour integration in primary visual cortex based on asynchronous spike propagation. Neurocomputing, (submitted). 23