Perception, Décision et Attention Visuelles

publicité
Perception, Décision et Attention Visuelles:
Ce que les potentiels évoqués nous apprennent sur le
fonctionnement du système visuel.
Rufin VanRullen1 et Simon J. Thorpe2
1
2
Caltech, Div. of Biology, Pasadena, CA (USA)
Centre de Recherche Cerveau et Cognition, Toulouse (France)
Résumé:
La vitesse à laquelle le système visuel humain peut analyser une scène visuelle
est encore aujourd’hui un sujet de controverse. Pourtant, cette donnée est
fondamentale pour appréhender la complexité des mécanismes neuronaux sousjacents. En contrôlant systématiquement les propriétés physiques des stimuli
grâce à un paradigme de “tâche duale”, nous avons pu isoler dans le temps les
composantes des potentiels évoqués visuels reflétant les traitements de bas
niveau (sensoriels, dès 75 millisecondes post-stimulus) et de haut-niveau (liés à
la décision du sujet, à partir de 150 millisecondes post-stimulus). D’un point de
vue théorique, ce résultat suggère que ce type de traitement visuel peut être basé
sur la propagation “feed-forward” à travers le système visuel d’une seule vague
de potentiels d’action portant l’information dans sa structure spatio-temporelle.
Dans ce contexte, l’attention visuelle serait implémentée par un avantage
temporel pour l’objet attendu ou ses caractéristiques. Les données
expérimentales supportent cette interprétation.
Introduction.
L’extraordinaire efficacité du système visuel humain, et des systèmes visuels naturels en
général, est implicitement démontrée par la plupart de nos activités quotidiennes, comme
par exemple le simple fait de pouvoir lire ce chapitre, de conduire un véhicule, ou de
regarder la télévision. La rapidité avec laquelle notre système visuel réalise ces tâches est
cependant moins bien appréhendée. Bien qu’il nous semble pouvoir interpréter une
nouvelle image se présentant à nos yeux de façon quasi-instantanée, les processus
neuronaux qui mènent à cette interprétation nécessitent un temps de traitement non
négligeable. Les potentiels évoqués visuels constituent un outil fascinant pour évaluer la
durée de ces processus, car ils peuvent refléter l’activité neuronale avec une précision
temporelle de l’ordre de quelques millisecondes.
Les résultats obtenus en potentiels évoqués par Thorpe et al (1996), détaillés dans le
chapitre précédent, démontrent que l’activité électrique évoquée par un stimulus visuel
diffère environ 150 ms après la stimulation selon que ce stimulus est une cible pour la tâche
(une image contenant un animal) ou un distracteur (image ne contenant pas d’animal). Ces
données sont corroborrées par d’autres études qui suggèrent que certaines composantes du
potentiel évoqué après 150 ms (par exemple une négativité présentant un pic à 170ms,
appelée N170) peuvent être spécifiques à la présence d’un visage (Bötzel et al, 1995;
1
Jeffreys, 1996; Schendan et al, 1998) ou d’autres objets (Rossion et al, 2000) dans la scène
visuelle. D’autres techniques expérimentales, telles les enregistrements intracrâniaux
(réalisés chez des sujets épileptiques humains; Allison et al, 1999) ou la magnétoencéphalographie (MEG, qui présente une résolution spatiale bien supérieure à celle de
l’EEG; Halgren et al, 2000), ont permis de localiser cette activité neuronale dans la partie
ventrale du lobe temporal humain (le gyrus fusiforme, équivalent du cortex inféro-temporal
du singe).
Cependant un certain nombre d’études plus récentes, s’intéressant en particulier au
traitement des images de visages, ont rapporté des effets de haut niveau (i.e. liés à la
catégorie du stimulus) bien plus précoces, pouvant apparaître avant 100 ms post-stimulus
(Seeck et al, 1997; George et al, 1997; Debruille et al, 1998; Mouchetant-Rostaing et al,
2000a,b). Les plus extrêmes suggèrent que la reconnaissance des visages (Seeck et al,
1997), ou la discrimination du genre des visages (Mouchetant-Rostaing et al, 2000a)
pourraient être réalisées avant même 50 ms post-stimulus. Ce résultat est particulièrement
étonnant, si l’on considère que ces latences sont parmi les plus courtes qui peuvent être
observées en potentiels évoqués, et ont été identifiées comme reflétant l’activation du
cortex visuel primaire (Clark et al, 1995; Clark et Hillyard, 1996). Sur le plan théorique, ces
résultats, s’ils étaient validés, auraient des conséquences dramatiques. Le système visuel
humain serait en effet capable d’analyser en détail une scène visuelle après seulement une,
voire deux étapes synaptiques à la sortie de la rétine. C’est-à-dire que le cortex visuel
primaire, dont les cellules sont connues pour leurs réponses à des stimulations simples telles
que des barres orientées (Hubel et Wiesel, 1959, 1968) pourrait en fait représenter
explicitement la catégorie d’un stimulus complexe!
Une autre possibilité toutefois, serait que ces différences précoces reflètent en réalité des
propriétés sensorielles (de bas-niveau) des stimuli présentés. Ces propriétés sont en général
difficiles à contrôler systématiquement. Toute différence sensorielle entre 2 catégories de
stimuli (par exemple, au niveau des fréquences spatiales) ou 2 conditions expérimentales
(par exemple, l’état d’éveil ou de concentration des sujets) peut se retrouver dans les
potentiels évoqués, qui ne sont qu’une moyenne de l’activité électrique sur plusieurs
centaines d’essais. Cette différence néammoins ne serait pas suffisante pour permettre la
catégorisation systématique de chaque stimulus présenté.
Afin de tester cette hypothèse, il est nécessaire de pouvoir séparer les traitements reflétant
les propriétés sensorielles des stimuli utilisés, et les traitements reflétant les propriétés de
haut niveau de ces stimuli, c’est-à-dire non seulement leur catégorie, mais également leur
statut cible/non-cible relativement à la tâche effectuée. L’approche que nous présentons ici
a permis de réaliser cette séparation grâce à l’introduction d’un nouveau type de paradigme
expérimental: le paradigme de tâche duale (“alternating dual-task paradigm”, VanRullen et
Thorpe, 2001a,b).
Séparation des processus visuels de haut et de bas niveau.
Dans l’une des conditions expérimentales, répliquant l’expérience de Thorpe et al (1996),
16 sujets assis en face d’un écran d’ordinateur devaient relâcher un bouton si l’image
naturelle qui était flashée pendant 20 ms contenait un animal. Les potentiels évoqués
visuels étaient enregistrés simultanément sur 32 électrodes distribuées sur la surface du
scalp. Dans l’autre condition, les mêmes 16 sujets devaient répondre aux images de la
catégorie “moyens de transport”. Dans chaque tâche, la moitié des images non-cibles
2
appartenaient à la catégorie cible de l’autre tâche (i.e. véhicules dans la tâche “animal”, et
animaux dans la tâche “moyens de transport”) et l’autre moitié était constituée de
distracteurs (i.e. de scènes ne contenant ni animal, ni véhicule). Pour comparer ces 2 tâches
dans les mêmes conditions, 10 séries de 96 essais étaient réalisées en alternance pour
chaque tâche (soit 20 au total). Des images d’une même catégorie (ayant donc des
propriétés sensorielles identiques) pouvaient donc être traitées comme cible ou non-cible
dans différentes séries. De plus, la moitié des scènes de la catégorie “véhicule” étaient des
images de voitures, permettant d’effectuer des comparaisons à l’intérieur d’une même
catégorie. Les images dans chaque catégorie étaient choisies de manière à être très diverses.
La figure 1 montre 2 exemples de séquences d’images présentées à un sujet. Les images
d’animaux pouvaient contenir des mammifères, mais également des oiseaux, poissons ou
insectes. Les images de véhicules contenaient aussi bien des voitures que des camions,
trains, bateaux, avions, hélicoptères ou montgolfières. La taille, le nombre ou la position
des cibles dans chaque scène était imprévisible. Les scènes distracteurs étaient également
très variées, pouvant contenir des paysages, des arbres, ou des routes et bâtiments, etc…
Figure 1. A gauche: 2 séquences de 12 images présentées dans les tâches de catégorisation “animal” et
“vehicule”, avec les temps de réaction du sujet le plus rapide (temps de réaction médians 288 ms dans la tâche
animal et 293 ms dans la tâche véhicule, pourcentages correct respectifs 92.7% et 92.6%). A droite: activités
différentielles entre les images cibles et les images distracteurs (non inclus les images cibles de l’autre tâche) dans
les 2 tâches de catégorisation. Grandes moyennes pour les 16 sujets, électrodes regroupées selon la position:
frontales, centrales, pariétales, occipitales.
Les résultats comportementaux (VanRullen et Thorpe, 2001b) ne mettent en évidence
aucune différence de performance entre les 2 tâches de catégorisation. Les pourcentages
corrects sont en moyenne autour de 94%, et les temps de réaction médians légèrement
3
supérieurs à 350 ms. De plus, le taux de catégorisation est au-dessus du niveau de la
chance avant même 250 ms, une valeur étonnamment courte, qui constitue une limite
supérieure pour la durée des traitements perceptuels et le commencement de la décision du
sujet. Les potentiels évoqués peuvent renforcer encore ces contraintes, et définir
précisément le décours temporel des différents mécanismes mis en jeu.
Dans chaque tâche, on observe une forte activité différentielle entre cibles et distracteurs,
plus apparente sur les électrodes frontales, après environ 150ms (figure 1), correspondant à
l’activité différentielle rapportée précédemment pour une tâche de catégorisation
“animal/non-animal” (Thorpe et al, 1996). Au même moment les activités différentielles
sont relativement prononcées pour chaque site d’enregistrement (central, pariétal, occipital),
ce qui indique un effet de grande magnitude. De plus, ces résultats sont reproduits ici pour
une catégorie cible différente (“véhicule”). Il faut souligner ici que puisque cette catégorie
est clairement une catégorie “artificielle”, il ne semble pas y avoir pour ce type de
traitement visuel rapide d’avantage pour les stimuli “naturels” ou biologiquement pertinents
(VanRullen et Thorpe, 2001b).
Outre cette forte activité différentielle entre cibles et distracteurs démarrant après 150 ms,
on observe également (Figure 1) une activité plus précoce, et plus faible, environ 75 ms
après la présentation du stimulus. Dans le contexte de la distinction faite précédemment
entre traitements sensoriels de bas-niveau, et traitements décisionnels de haut niveau,
comment interpréter chacune de ces différences?
Il est possible de comparer les différentes catégories visuelles utilisées ici (animaux,
véhicules, répartis en 2 sous-catégories: voitures et autres véhicules) de manière
indépendante de la tâche réalisée. Pour chaque sujet, les potentiels évoqués par des images
d’une même catégorie sont moyennés indépendamment du statut cible/non-cible de ces
images (en accordant le même poids relatif à chaque condition lors du calcul de cette
moyenne). Ces potentiels évoqués spécifiques à une catégorie visuelle, et indépendants des
conditions expérimentales, sont ensuite comparés 2 à 2. Les activités différentielles
correspondantes sont représentées figure 2. Le traitement évoqué par 2 catégories visuelles
diverge après environ 75-80ms. Ces différences sont clairement indépendantes de la tâche
réalisée, et du statut des images dans cette tâche. En particulier, les éléments des catégories
“voiture” et “autres véhicule” ont exactement le même statut dans les 2 tâches: cibles dans
la tâche “véhicule”, non-cibles dans la tâche “animal”. La différence ne peut donc être
attribuée qu’à des propriétés visuelles intrinsèques (de bas niveau) de ces catégories.
Inversement, quelle est l’activité évoquée spécifiquement par la tâche de catégorisation
elle-même, i.e. quelle est la différence entre le traitement des images cibles et non-cibles,
toutes propriétés sensorielles des stimuli étant égales par ailleurs? L’utilisation du
paradigme de tâche duale permet de répondre à cette question: on peut regrouper les images
d’une catégorie visuelle lorsqu’elles sont cibles pour la tâche, et les comparer aux images
de cette même catégorie lorsqu’elles sont non-cibles. Chaque activité différentielle
représentée dans la figure 3 montre ce type de comparaison, pour une catégorie visuelle
donnée. Quelle que soit la catégorie considérée, cette différence d’activité entre images
cibles et non-cibles de la même catégorie visuelle apparait après environ 150 ms, et suit un
décours temporel similaire.
4
Figure 2. Effets de la catégorie visuelle. Chaque courbe représente la différence d’activité entre 2 catégories
visuelles données. Les essais cibles et non-cibles ont le même poids relatif pour chaque comparaison. a. Animaux
vs véhicules, pour différents groupes d’électrodes (occipital, pariétal, central, frontal). Par souci de simplicité,
l’erreur standard de la moyenne est représentée uniquement pour les électrodes pariétales. b. Animaux vs voitures.
c. Animaux vs autres véhicules. d. Voitures vs. autres véhicules. Dans chaque cas la différence d’activité évoquée
par les catégories visuelles correspondantes apparait significativement après 75-80 ms.
Figure 3. Effets liés à la décision du sujet. Chaque courbe représente la différence d’activité électrique entre les
essais cible et non-cible pour une même catégorie d’images. a. Essais cibles vs non-cibles pour les images
d’animaux et de véhicules regroupées, et pour different groupes d’électrodes. Par souci de simplicité, l’erreur
standard de la moyenne est représentée uniquement pour les électrodes frontales. b. Animaux en tant que cible vs.
animaux en tant que non-cible. c. Véhicules en tant que cible vs véhicules en tant que non-cible. d. Véhicules
autres que voitures en tant que cible vs en tant que non-cible. e. Voitures en tant que cible vs en tant que non-cible.
Dans chaque cas l’activité evoquée par les cibles diffère significativement de celle évoquée par les non-cibles
après environ 150-160 ms. Cette activité est indépendante de la catégorie visuelle impliquée, mais corrélée avec le
fait que les sujets génèrent ou inhibent une commande motrice, c’est-à-dire avec la décision des sujets.
5
Cette activité différentielle à 150 ms constitue certainement l’équivalent dans notre
paradigme de tâche duale de la différence entre cibles et distracteurs rapportée dans des
études précédentes (Thorpe et al, 1996; voir le chapitre de Denis Fize). Cependant, l’effet
démontré ici est totalement indépendant de la catégorie visuelle impliquée, car cette
différence est observée lorsque l’on compare les essais cibles et non-cibles pour la même
catégorie visuelle. Cette activité est donc corrélée à la décision des sujets, plutôt qu’aux
propriétés visuelles des stimuli. Il faut noter également qu’il n’existe pas de différence entre
cibles et non-cibles avant 150 ms, ce qui implique que le type de différence précoce que
nous avons observé à environ 75-80 ms ne porte aucune information sur le statut cible/noncible des stimuli visuels.
Nous avons donc isolé 2 mécanismes distincts. Le premier correspond à un traitement
sensoriel précoce, dépendant de la catégorie visuelle du stimulus, mais pas de la tâche
réalisée, et qui démarre environ 75ms après la présentation du stimulus. Le second
correspond à un traitement de haut niveau, indépendant de la catégorie visuelle impliquée,
lié à la tâche effectuée et à la décision des sujets. Cet effet est observé 150 ms après la
présentation du stimulus. Quelles structures neuronales sont impliquées spécifiquement
dans chacun de ces différents mécanismes?
Compte-tenu de la latence de la première activité sensorielle (i.e. 75 ms, avec un pic à
environ 120 ms), et des besoins spécifiques de ce type de tâche de catégorisation,
impliquant probablement des mécanismes d’extraction de propriétés visuelles telles que la
forme ou la couleur, cette première activité différentielle serait compatible avec une
activation des aires visuelles extrastriées telles que V2 ou V4. Une étude récente en MEG
(Halgren et al, 2000) montre que des régions occipitales similaires répondent différemment
à différentes catégories de stimuli avec des latences d’environ 110 ms, du même ordre que
celle trouvée ici. A première vue il peut paraître surprenant qu’une activité différentielle
reflétant la catégorie du stimulus visuel puisse être supportée par des aires extrastriées
“précoces”. Mais à n’importe quel niveau du système visuel, l’information extraite est par
définition corrélée avec la stimulation visuelle, et doit donc différer selon la catégorie
correspondante. Ceci n’implique pas que l’identité ou la catégorie du stimulus soit
activement encodée dans ces régions.
Par contre, lorsque l’activité neuronale est corrélée avec la décision des sujets plutôt
qu’avec l’entrée visuelle, il est évident que l’information extraite est suffisante pour
permettre la détection des cibles. Les objets constituant la scène visuelle ont donc été
reconnus et catégorisés: un tel processus serait vraisemblablement réalisé dans les dernières
étapes de la voie ventrale (occipito-temporale) du système visuel. Comme mentionné
précédemment, de nombreuses études en IRMf montrent que ces aires occipito-temporales
peuvent s’activer différemment pour différentes catégories d’objets (Aguirre et al, 1998;
Epstein et Kanwisher, 1998; Ishai et al, 1999; Fize et al, 2000).
Ces hypothèses concernant la localisation des activités observées dans notre tâche sont
confirmées par l’analyse de sources des potentiels évoqués (Figure 4).
6
Figure 4. Localisation, orientation et amplitudes des sources des 2 types d’activité différentielle observés
précédemment. Ces analyses sont réalisées grâce au logiciel BESA. a. Sources de l’activité différentielle précoce
reflétant les traitements sensoriels du stimulus visuel (animal vs véhicule, indépendant de la tâche effectuée). Ces
sources sont compatibles avec une activation des aires occipitales extrastriées précoces (V2, V4). b. Sources de
l’activité différentielle démarrant à 150 ms post-stimulus, et reflétant le statut cible/non-cible du stimulus visuel.
Ces sources sont compatibles avec une activation des aires occipito-temporales ventrales (gyrus fusiforme).
Décision en 150 ms?
Il apparaît que l’activité différentielle à 150 ms observée dans un certain nombre d’études,
plus que la catégorie du stimulus visuel présenté (animal, véhicule, distracteur), reflète en
réalité le statut de ce stimulus relativement à la tâche effectuée. Cette activité neuronale
diffère selon que le sujet décide ou non de générer une commande motrice en réponse à la
scène visuelle. Elle est ainsi corrélée avec la décision même du sujet. Nous tentons
maintenant de définir précisément la relation qui existe entre cette activité différentielle à
150 ms et les réponses motrices elles-mêmes.
La plus simple relation imaginable entre décision visuelle et réponse motrice serait une
fonction linéaire: le sujet initierait une réponse à un instant donné avec une probabilité
directement proportionnelle à l’amplitude de l’activité différentielle observée à cet instant.
La distribution des temps de réaction serait donc proportionnelle à cette activité
différentielle mesurée en fonction du temps, moyennant un certain délai correspondant à
l’exécution de la commande motrice (i.e. l’intervalle de temps entre l’initiation de cette
commande et le mouvement effectif du sujet). Nous allons voir ici que cette hypothèse
simpliste explique très efficacement les données observées.
Pour tester cette hypothèse, les valeurs absolues de l’activité différentielle cible vs noncible sur chaque électrode ont été additionnées, donnant lieu en quelque sorte à une mesure
de l’énergie globale de cette activité différentielle. Parce que cette mesure est une somme
des valeurs absolues sur 32 électrodes, le bruit inhérent au signal EEG ne s’annule pas mais
s’accumule. Cette activité différentielle globale doit donc être ramenée à zéro en
soustrayant ce niveau de bruit (-2.68 µV) sur la période [-100 ms; +100 ms]. L’activité
7
différentielle résultante (que nous appellerons dorénavant activité différentielle “nette”), est
significativement supérieure à zéro après 155 ms (t-test, p<.05 pendant plus de 10 ms). La
réaction motrice des sujets, elle, est significativement plus fréquente pour les images cibles
que pour les images non-cibles après 220-230ms (ce temps de réponse est donc appelé
“temps de discrimination”; VanRullen et Thorpe, 2001b). S’il existe un délai d’éxécution
de la commande motrice, celui-ci est donc au minimum de 70 ms. Le début de l’activité
différentielle nette significative (155 ms) est donc aligné avec le temps de discrimination
(220-230 ms) par un décalage temporel de 70 ms. Enfin le coefficient de proportionnalité
suggéré par l’hypothèse mentionnée plus haut (une relation linéaire directe entre activité
différentielle cible vs non-cible et réponses motrices) est déterminé sur les 50 ms qui
s’ensuivent (i.e. la période [155 ms; 205 ms] en temps “EEG”, et la période [225 ms; 275
ms] en temps “comportemental”). L’activité différentielle nette est finalement multipliée
par ce coefficient de proportionnalité (1.134 réponses motrices par sujet par µV net).
Le résultat de cet alignement et renormalisation est surprenant (figure 5). La distribution
des temps de réaction est en effet directement proportionnelle à l’activité différentielle nette
sur la période [205 ms; 395 ms], soit pour plus de 120 ms après l’intervalle de
normalisation. Cette correspondance parfaite est présente même durant la partie nonlinéaire du signal, une propriété qui ne s’observerait par pure coïncidence qu’avec une
probabilité de l’ordre de celle de gagner à la loterie!
Figure 5. Mapping de l’activité différentielle nette (absolue) sur l’histogramme des temps de réaction pour les 2
tâches (“animal”, traits noirs; “véhicule”, traits gris). L’activité différentielle nette “cible vs non-cible” est la
somme de cette activité différentielle sur les 32 électrodes, ramenée à un niveau de bruit nul sur la période [-100
ms; +100 ms]. La courbe principale montre la moyenne pour les 16 sujets, la courbe insérée à droite montre le
même mapping individuellement pour un sujet. L’axe temporel des potentiels évoqués visuels a été aligné avec le
temps de discrimination comportemental par un décalage de 70 ms, correspondant au temps d’éxécution de la
commande motrice. L’axe vertical (EEG) a ensuite été normalisé pour correspondre à la distribution des temps de
réaction pour les 50 ms suivantes. Le fait que les 2 types de courbes (activité différentielle nette, et histogramme
des temps de réaction) ne diffèrent significativement qu’après 390-400ms (temps comportemental) suggère que
cette activité électrique différentielle reflète directement le mécanisme de décision sur lequel est basée la
génération de la commande motrice.
8
Il semble donc que, à une opération de seuillage près ainsi qu’un réalignement temporel, il
existe une relation purement et simplement linéaire entre la réponse motrice et l’activité
différentielle “cible vs non-cible” après 150 ms. Les réponses motrices surviennent 70 ms
en moyenne après cette étape “décisionnelle”, avec une probabilité directement
proportionnelle à l’intensité de l’activité différentielle observée. Une telle transformation
“linéaire” entre activité neuronale et réponse motrice est compatible avec les théories
actuelles de la prise de décision et de la génération d’une commande motrice : accumulation
(stochastique) d’une certaine “information” (évidence, activité, spikes,…) jusqu’à ce qu’un
seuil (stochastique également) soit atteint (Luce, 1986 ; Ratcliff et al. 1999).
Il est donc plus que vraisemblable que l’activité différentielle observée entre essais cibles et
non-cibles, qui démarre dès 150 ms, reflète l’étape décisionnelle sur laquelle est basée la
génération (ou l’inhibition) de la réponse motrice. Pour caractériser plus précisément cette
relation entre décision visuelle et réponse motrice, nous comparons maintenant les 8 sujets
les plus rapides aux 8 sujets les plus lents.
Figure 6. Mappings réalisés séparément pour les 8 sujets les plus rapides, et les 8 sujets les plus lents (notations
identiques à la figure 5). Le décalage temporel entre potentiels évoqués et temps de réaction est de 70 ms dans
chaque cas. Le facteur de normalisation met ici en correspondance le maximum de l’activité différentielle nette
pour les sujets rapides et le maximum de leur distribution de temps de réaction. La courbe pour les sujets lents a
subi la même transformation. La probabilité d’occurrence d’une réponse motrice est une fonction linéaire de
l’activité différentielle "cible vs non-cible" qui précède, avec le même facteur de proportionnalité quelle que soit la
rapidité du sujet. Seul le délai entre le début de l’étape "décisionnelle" et la réponse motrice est corrélé à la rapidité
des sujets (environ 70 ms pour les sujets rapides, et 100 ms pour les sujets lents).
9
Les distributions des temps de réaction ont été recalculées pour chaque groupe, ainsi que les
activités différentielles nettes “cible vs non-cible”. Ces potentiels évoqués ont ensuite été
“mappés” ensemble sur les distributions des temps de réaction de la façon suivante : après
correction (ici on a déduit un niveau de bruit moyen de 3.6 µV nets), et après décalage de
70 ms (la valeur moyenne obtenue précédemment), l’axe vertical des EEG a été renormalisé
de sorte que l’activité différentielle maximale pour les sujets rapides (définie comme la
moyenne sur la période [260 ; 280 ms]) corresponde au maximum de la distribution des
temps de réaction des sujets rapides, moyennée pour les 2 tâches (facteur de normalisation
1.5 µV nets par sujet par réponse motrice). Le “mapping” obtenu pour les sujets lents est lui
entièrement déterminé par celui réalisé pour les sujets rapides. La figure 6 montre
cependant que le facteur de normalisation appliqué dans un cas (sujets rapides) fonctionne
parfaitement pour l’autre (sujets lents) : la probabilité d’occurrence d’une réponse motrice
pour un sujet lent est proportionnelle à l’activité différentielle cible vs non-cible, avec le
même coefficient de proportionnalité que pour un sujet rapide. Cette activité différentielle
est d’amplitude moindre chez les sujets lents, ce qui explique l’étalement des temps de
réaction. Par contre, si le décalage temporel de 70 ms entre processus "décisionnel" et
réponse motrice semble très légèrement sur-estimé dans le cas des sujets rapides, il est
sous-estimé (d’environ 30 ms) pour les sujets lents. Il semblerait donc que les sujets “lents”
soient définis par une durée supérieure de la réponse motrice, plutôt qu’une durée
supérieure du traitement visuel sous-jacent. Néammoins, notons que ce délai pourrait
également s’expliquer par un temps d’intégration décisionnelle plus long chez les sujets
lents : puisque l’amplitude de l’activité différentielle est plus faible chez ces sujets, elle est
donc moins fiable, et il est nécessaire de l’intégrer plus longuement avant de prendre une
décision “raisonnable”. Les sujets lents ne seraient donc pas définis par une moins bonne
“vivacité” dans la réponse motrice, mais par une faible amplitude de l’activité neuronale qui
différencie les essais “cibles” des autres. Bien que cette interprétation soit plus complexe, et
donc potentiellement moins plausible que la précédente, les données recueillies ici ne
permettent pas de départager ces 2 hypothèses.
Pour résumer les résultats présentés jusqu’ici, l’application du paradigme de tâche duale a
permis de séparer dans le temps différents mécanismes impliqués dans la catégorisation
visuelle rapide (figure 7). Lorsqu’une scène visuelle est présentée brièvement à un sujet au
temps “zéro”, l’activité neuronale évoquée par cette stimulation se reflète dans les EEG
après 50 ms. Presque immédiatement (i.e. après 75-80 ms), les traitements sensoriels
effectués par le système visuel diffèrent selon la catégorie du stimulus. Cette différence
n’est cependant que le reflet naturel des différences physiques moyennes (de bas-niveau)
entre différentes catégories de stimuli. Ce n’est qu’à partir de 150 ms que l’activité
neuronale observée dans les potentiels évoqués reflète le statut “cible/non-cible” des
stimuli, et par conséquent la décision même des sujets, qui sera directement à l’origine des
réponses comportementales observées après 220-230 ms.
Bien que cette durée du traitement visuel de 150 ms soit plus longue que certaines études
l’avaient précédemment suggéré, nous verrons par la suite qu’elle est en fait étonnamment
courte, lorsque l’on considère l’architecture du système visuel, et le nombre d’étapes
neuronales que l’information représentant la scène visuelle doit traverser pour donner lieu à
une réponse motrice.
10
Figure 7. Décours temporel des différents mécanismes neuronaux mis en jeu dans les tâches de catégorisation
visuelle rapide. L’activité neuronale se reflète dans les potentiels évoqués seulement 50 ms après la stimulation
visuelle. Après 75 ms, on observe le reflet de l’encodage sensoriel des différentes catégories. A partir de 150 ms, la
représentation neuronale mise en jeu est suffisamment abstraite pour permettre la catégorisation, i.e. pour décider
qu’une cible est présente ou absente et générer la réponse motrice appropriée, qui pourra survenir après environ
220-230 ms.
Implications théoriques: contraintes temporelles pour les modèles du système visuel.
Les résultats présentés jusqu’ici définissent un certain nombre de contraintes que les
théories du traitement neuronal de l’information visuelle se doivent de prendre en compte.
Sur la base de ces données expérimentales, nous allons tenter de construire, pas à pas, un
modèle du système visuel qui permette d’expliquer comment une scène visuelle complexe
peut être analysée en seulement 150 ms pour donner lieu à une représentation neuronale de
haut niveau, une représentation suffisamment élaborée pour déterminer la catégorie du
stimulus visuel, une représentation qui permettrait de générer une décision
comportementale.
L’architecture d’un tel modèle est bien sûr dictée par les données biologiques et
anatomiques. De la rétine au cortex inféro-temporal, où les neurones peuvent encoder
explicitement l’identité ou la catégorie d’un stimulus présenté dans leur champ récepteur,
l’information visuelle doit traverser une hiérarchie d’étapes neuronales ou aires corticales.
Les neurones dans chacune de ces étapes sont sélectifs à des propriétés de plus en plus
complexes à l’intérieur de leur champ récepteur: contraste local dans la rétine et le corps
genouillé latéral, orientation, fréquences spatiales dans le cortex visuel primaire, formes
simples dans les aires visuelles extra-striées V2, V4. En tout, au moins une dizaine d’étapes
synaptiques jalonnent le cheminement de chaque image présentée au système visuel. Les
données présentées plus tôt suggèrent que 150 ms sont suffisantes pour parcourir cette
hiérarchie. En moyenne, chaque étape neuronale dispose donc de 10 à 15 ms pour intégrer
l’information en provenance de l’étape précédente, générer une réponse sous la forme de
potentiels d’action (ou “spikes”), et transmettre cette réponse à l’étape suivante. Ceci
soulève la question du codage neuronal de l’information.
11
La plupart des modèles de réseaux de neurones (e.g. McCulloch et Pitts, 1943; Rumelhart et
McClelland, 1986) présupposent que l’information est encodée par chaque neurone dans la
fréquence d’émission de ses potentiels d’action. Cette idée est basée sur les propriétés
observées dans les neurones réels ou “integrate-and-fire”, qui intègrent l’information dans
leur champ récepteur jusqu’à atteindre un certain seuil, déchargent alors un potentiel
d’action, et recommencent indéfiniment ce processus d’intégration (après une certaine
période appelée “réfractaire”). Ainsi, plus un neurone est activé, plus il déchargera de
potentiels d’action dans un intervalle temporel donné (Adrian, 1926). Cependant, dans la
majorité des cas, la fréquence de décharge observée pour les neurones du système visuel est
bien inférieure à 100 Hz (i.e. moins de 100 spikes par seconde). Dans une fenêtre
temporelle de 10 à 15 ms, très rares seront donc les cellules qui pourront générer 2, voire 3
spikes. Une large proportion des neurones considérés générera un potentiel d’action unique,
la grande majorité des neurones restant néammoins silencieuse. Dans ces conditions, un
codage d’information par fréquence d’émission de potentiels d’action est impossible, ou
toutefois serait particulièrement peu fiable (Thorpe et Imbert, 1989): en effet, pour
déterminer la fréquence de décharge de chaque neurone, au moins 2 spikes sont nécessaires.
Comment alors une population neuronale peut-elle encoder efficacement l’information
visuelle, lorsque chaque neurone ne peut générer que zéro ou un spike?
Les propriétés basiques du neurone “integrate-and-fire” recèlent en fait une réponse simple
à cette question. Parce qu’un neurone accumule ses entrées jusqu’à parvenir à un certain
seuil, le moment précis auquel il atteindra ce seuil et génèrera un potentiel d’action, tout
comme sa fréquence de décharge (mais bien plus rapidement), reflètera exactement son
niveau d’activation. Si l’on considère maintenant une population de neurones, la structure
spatio-temporelle précise des décharges sur cette population permet d’encoder exactement
un stimulus d’entrée. Ce mécanisme est illustré à la figure 8. La première vague de
potentiels d’action générée par une population en réponse à un stimulus d’entrée peut
représenter explicitement l‘information dans sa structure spatio-temporelle, et plus
précisément dans les latences de décharge de chaque neurone. Une autre alternative serait
de s’intéresser non pas aux dates précises d’émission de potentiel d’action pour chaque
neurone, mais plutôt à l’ordre dans lequel les différents neurones d’une population
s’activent. Ce type de codage “par rang” (Thorpe et Gautrais, 1997, 1998), plus plausible
sur le plan biologique, est en réalité très efficace. Le nombre de stimuli qui peuvent être
représentés par un tel mécanisme est une fonction factorielle du nombre de neurones
considérés: pour des populations de taille compatible avec les données biologiques, la
puissance de ce codage en termes de transmission d’information peut satisfaire les besoins
de n’importe quelle tâche visuelle complexe. Une étude récente (VanRullen et Thorpe,
2001c) démontre par exemple qu’un tel codage permet de transmettre l’information visuelle
de la rétine au cortex, alors que seulement 1% des cellules ganglionnaires de la rétine ont
déchargé un unique potentiel d’action.
Un neurone recevant l’information encodée de cette manière, doit être capable de décoder
l’ordre d’arrivée des spikes afférents. Ce décodage peut ête réalisé dans des conditions où le
neurone subit une désensibilisation progressive, au fur et à mesure que ses entrées lui
parviennent. En effet, il se trouvera alors optimalement activé uniquement quand ses
afférents s’activent dans l’ordre auquel il est sélectif (i.e. l’ordre décroissant des poids de
ses connexions synaptiques). Par conséquent, la latence de décharge d’un tel neurone
reflètera directement sa sélectivité au stimulus d’entrée. En d’autres termes, le mécanisme
12
de codage spatio-temporel proposé ici est “cascadable”: la présentation d’un stimulus visuel
induit dans la rétine la génération d’une vague de potentiels d’action portant l’information
dans sa structure spatio-temporelle. Les neurones de l’étape suivante analysent cette
information, et génèrent à leur tour une réponse sous la forme d’une vague de potentiels
d’action, à l’intérieur de laquelle l’information la plus pertinente est portée par les toutpremiers spikes. Une telle vague se propageant à travers le système visuel, régénérée à
chaque étape de traitement, et incorporant peu à peu l’information extraite par les
sélectivités des différents neurones (et éventuellement, raffinée par des interactions latérales
feed-forward; VanRullen et al, 2001d), pourrait donner lieu finalement à une représentation
complexe du stimulus visuel (i.e. une représentation explicite de son identité ou de sa
catégorie), dans un temps compatible avec la durée du traitement visuel observée
expérimentalement.
Figure 8. Lorsqu’un pattern d’entrée est présenté à une population de neurones, les premières réponses de cette
population peuvent être considérées comme une vague spatio-temporelle de potentiels d’action. A l’intérieur de
cette vague, les propriétés des neurones “integrate-and-fire” impliquent que les cellules les plus activées
répondront avec les latences les plus courtes. L’intensité ou la saillance du stimulus visuel est donc convertie en
une asynchronie temporelle. Un neurone recevant cette information peut répondre sélectivement à l’ordre de
décharge à l’intérieur d’une telle vague. Avec 8 neurones d’entrée, 8! soit plus de 40000 stimulus différents
peuvent être ainsi discriminés.
Un tel modèle du système visuel a donc été construit, et appliqué à un problème visuel
complexe: la détection des visages dans des images naturelles (VanRullen et al, 1998). Ce
modèle est composé de différentes couches de traitement correspondant à différentes aires
du système visuel (figure 9). L’image d’entrée est convertie dans la rétine en une vague
spatio-temporelle de potentiels d’action. Les cellules de la rétine répondent sélectivement à
des contrastes locaux de 2 polarités: point clair sur fond sombre (cellules ON-center) ou
point sombre sur fond clair (cellules OFF-center). Les contrastes les plus forts sont donc
transmis par les premiers spikes de cette vague. Celle-ci est reçue au niveau suivant par des
13
populations de cellules sélectives à des bords de différentes orientations (8 orientations,
séparées par 45°). Ce niveau correspond donc à un modèle simplifié du cortex visuel
primaire V1. Les réponses de ces populations sont à leur tour transmises, sous la forme
d’une nouvelle vague de spikes, aux neurones de l’étape suivante, qui ont été rendus
sélectifs à l’ordre de décharge caractéristique de la présence d’une bouche, ou d’un oeil
droit ou gauche dans leur champ récepteur (apprentissage supervisé, procédure non décrite
ici). Enfin, les réponses de ces neurones convergent vers une dernière population, dont les
neurones sont capables d’intégrer spatialement ces différentes informations, pour répondre
spécifiquement à la présence d’un visage centré dans leur champ récepteur.
Comme illustré dans la figure 9, ce modèle est capable de détecter et de localiser les visages
dans des images naturelles. Les tests effectués sur de larges bases de données montrent que
les performances de ce système surpassent de loin celles des autres modèles classiques de
traitement des visages (Turk et Pentland, 1991; Sung et Poggio, 1994; Rowley et al, 1998;
Moghaddam et Pentland, 1995; Valentin et al, 1994). L’efficacité et la rapidité du modèle
présenté ici résident en fait dans le type de codage utilisé. Un seul potentiel d’action pour
chaque neurone suffit pour encoder l’information entre 2 étapes successives. De plus, parce
que l’information la plus saillante est portée par les toutes premières décharges d’une vague
de potentiels d’action se propageant à travers le système, la majorité des traitements
peuvent être réalisés alors qu’une faible proportion des neurones de chaque couche a été
activée. La propagation en mode “feed-forward” d’une telle vague de potentiels d’action,
portant l’information visuelle dans sa structure spatio-temporelle, pourra mener finalement
à l’activation de neurones dans les derniers niveaux, dont la réponse reflète spécifiquement
l’identité (ici visage/non-visage) du stimulus présenté. Cette représentation de haut niveau
pourrait donc servir de base à la génération de réponses comportementales sélectives. Le
modèle décrit ici est cependant l’un des seuls à ce jour à pouvoir expliquer comment le
système visuel humain pourrait parvenir à un tel résultat en seulement 150 ms.
Ce type de système, même s’il reproduit et explique une large part des données observées
par l’expérimentation, n’est toutefois pas un modèle complet du système visuel, pour un
certain nombre de raisons. Tout d’abord, ce modèle est statique, c’est-à-dire que les
traitements effectués ne dépendent pas de la tâche effectuée, ou d’un “but central” poursuivi
par l’organisme dans lequel il serait implémenté. Deux stimulations identiques donneront
toujours lieu à la même séquence d’activation dans ce système, et donc à la même réponse.
A l’inverse, le système visuel humain est capable d’adapter les traitements effectués à la
tâche en cours, de sorte qu’une image d’animal, par exemple, pourra donner lieu à une
réponse motrice dans certains cas (tâche de catégorisation “animal” décrite précédemment),
et pas dans d’autres (tâche de catégorisation “véhicule”). De plus, le modèle décrit jusqu’ici
est coûteux en termes du nombre de neurones requis. Pour permettre de détecter des objets
à différentes positions, nous avons utilisé un neurone sélectif à chaque objet pour chaque
position possible de l’objet. Par comparaison, les neurones du système visuel des primates
peuvent souvent répondre à leur stimulus préféré à différentes positions dans leur champ
récepteur. Les neurones du cortex inféro-temporal ont par exemple des champs récepteurs
qui couvrent parfois la majorité du champ visuel. Ce type d’organisation, cependant, rend le
système vulnérable aux erreurs d’interprétation, car 2 objets (ou plus) peuvent se retrouver
dans le même champ récepteur, et causer des phénomènes de conjonction illusoire
(Treisman et Schmidt, 1982).
14
Figure 9. Propagation d’une vague de potentiels d’action initiée par la présentation d’une image naturelle dans un
modèle du système visuel appliqué à la détection des visages (VanRullen et al, 1998). Le système est composé de
4 couches, comprenant un certain nombre de cartes rétinotopiques, à l’intérieur desquelles chaque pixel représente
un neurone. La position du pixel dans la carte correspond au centre du champ récepteur du neurone dans l’image
d’entrée. Les pixels gris représentent les neurones qui ont déchargé un unique potentiel d’action, le niveau de gris
reflétant l’ordre de décharge dans la couche correspondante (le premier neurone à décharger est représenté par un
point blanc). L’image d’entrée est décomposée dans la rétine par des cellules ON- et OFF-center. La vague spatiotemporelle initiée dans la rétine est propagée à travers le système en mode “feed-forward”. Dans la seconde
couche, les neurones répondent à des bords de différentes orientations (8 orientations séparées par 45°; seulement
4 orientations représentées ici). Les neurones de la 3ème couche ont appris à répondre sélectivement à l’ordre de
décharge caractéristique de la présence d’un oeil gauche, d’une bouche ou d’un oeil droit dans leur champ
récepteur. Ces informations sont combinées au dernier niveau, où les neurones répondent sélectivement à la
présence d’un visage centré dans leur champ récepteur. La position du (ou des) neurone(s) activé(s) dans cette
carte indique la position du (des) visage(s) dans l’image d’entrée.
15
L’attention visuelle semble être la solution apportée par la biologie à ces deux types de
problèmes. L’attention peut en effet moduler les réponses neuronales en fonction de
priorités et buts “centraux”, et par là-même permet de regrouper les éléments ou objets de la
scène visuelle et de leur attribuer une valeur sémantique, même lorsque ces éléments ou
objets se retrouvent simultanément dans le champ récepteur d’un unique neurone. Afin de
pouvoir incorporer dans notre modèle une composante attentionnelle qui lui permettra de
dépasser ses limitations, nous retournons maintenant à l’analyse des données
expérimentales, et essayons de caractériser dans le contexte présent la nature des
mécanismes attentionnels qui surviennent dans le système visuel humain.
Attention visuelle: données expérimentales.
L’effet de l’attention sur les différentes composantes du potentiel évoqué visuel a fait
l’objet de nombreuses études (voir par exemple Hillyard et al, 1998). Les auteurs
s’accordent en général sur le fait que la composante P1 (dont la latence et le pic
d’amplitude varient selon les études entre 75 et 135 ms) subit une forte modulation
attentionnelle. Elle est en général plus prononcée pour l’hémisphère contralatéral à la partie
du champ visuel où est dirigée l’attention (Heinze et al, 1990). La composante N1, plus
tardive (150-200ms) semble être également modulée par l’attention, mais cet effet
correspondrait à un mécanisme distinct de celui observé pour la P1 (Mangun et Hillyard,
1991; Luck 1995). Selon certains auteurs, la modulation de la première composante (P1)
correspondrait à une facilitation des traitements sensoriels précoces, alors que l’effet
attentionnel observé sur la seconde (N1) reflèterait un mécanisme dirigeant l’attention vers
les stimuli importants pour la tâche (Luck et al, 1990). Hillyard et Anllo-vento (1998)
suggèrent que la première serait tout simplement le reflet de l’attention spatiale, la seconde
correspondant à une forme d’attention non-spatiale, sélective à des propriétés spécifiques de
l’objet sélectionné.
La plupart de ces études démontrent que l’amplitude des potentiels évoqués peut être
modulée relativement tôt (dès 75 ms) par l’attention visuelle. Qu’en est-il cependant de la
latence de ces différentes composantes? Une étude récente (DiRusso et Spinelli, 1999a)
démontre que l’activité neuronale visuelle évoquée par un stimulus survient environ 10-15
ms plus tôt lorsque l’attention est portée sur ce stimulus, dans le cas de la composante P1.
Cet avantage temporel pour le stimulus attendu est déja présent, mais de moindre
amplitude, pour des composantes encore plus précoces du potentiel évoqué (dès 60 ms poststimulus). Cet effet apparait lorsque le stimulus est défini par un contraste de luminance,
mais pas pour un contraste de couleur (DiRusso et Spinelli, 1999b). Le stimulus sélectionné
par l’attention traverserait ainsi le système visuel avec une avance temporelle significative
(et qui augmenterait d’étape en étape) sur les autres objets de la scène visuelle.
Cette idée est confirmée par l’illusion visuelle de la “ligne en mouvement” (Hikosaka et al,
1991, 1993a,b). Lorsqu’un point lumineux est présenté brièvement, suivi après un court
délai (environ 50 ms) par une barre horizontale alignée avec ce point, un observateur
perçoit un mouvement (illusoire) à l’intérieur de la barre, comme si elle apparaissait
graduellement à partir du point lumineux. L’explication de ce phénomène est en fait
relativement simple: l’apparition du point attire l’attention sur sa position; lorsque la barre
est présentée, l’attention favorise les réponses neuronales à proximité de ce point,
permettant aux neurones proches du focus attentionnel de décharger avec un avantage
16
temporel sur les neurones éloignés. La réponse du système est donc similaire à ce que l’on
obtiendrait si la barre apparaissait graduellement à partir du point lumineux. Les résultats de
psychologie expérimentale apportent une pierre supplémentaire à cet édifice (Pashler,
1998). L’attention spatiale portée sur une cible engendre en effet une diminution
significative des temps de réaction motrice dans des tâches de discrimination rapide ou
“go/no-go” (Posner, 1980; Kingstone, 1992; Neumann et al, 1993).
Ces données semblent converger vers l’idée que l’attention visuelle se traduit par une
précédence temporelle pour la région d’intérêt. Un tel avantage temporel, qui pourrait
s’accroître à mesure que l’information visuelle avance dans le système, signifie que durant
une certaine période, la seule information qui sera disponible aux neurones des derniers
niveaux de la hiérarchie visuelle (e.g cortex inféro-temporal) concernera uniquement l’objet
sélectionné par l’attention. Ces neurones pourront donc analyser cette information sans
craindre de commettre des erreurs de conjonction illusoire. Un tel mécanisme attentionnel
est particulièrement approprié dans le cadre d’un modèle où les premières décharges d’une
vague spatio-temporelle de potentiels d’action transportent l’information la plus saillante.
Grâce à cet avantage temporel, ces premières décharges correspondront en effet à l’objet
attendu, qui sera ainsi interprété par le système comme étant tout particulièrement saillant.
Un avantage temporel en faveur du focus attentionnel?
Dans le modèle du système visuel que nous avons construit jusqu’ici, l’information est
portée par l’asynchronie temporelle des décharges dans une vague de spikes traversant le
système. L’attention visuelle pourrait agir sur cette asynchronie en donnant un avantage
temporel à l’information sélectionnée (VanRullen et Thorpe, 1999). La saillance relative de
cette information serait ainsi accrue, lui permettant de dominer les traitements effectués.
Cet effet peut être obtenu simplement en diminuant les seuils de décharge des neurones qui
encodent spécifiquement cette information (i.e. les neurones dont le champ récepteur se
trouve à l’intérieur du focus attentionnel dans le cas de l’attention spatiale), ou de façon
équivalente, en augmentant leur potentiel de membrane. Les neurones touchés par
l’attention atteindront ainsi leur seuil plus rapidement que les autres, et en conséquence
déchargeront plus tôt.
Afin d’illustrer les propriétés d’un tel mécanisme, considérons une population de neurones
du corps genouillé latéral (LGN) transmettant au cortex visuel l’information de contraste
local (figure 10). Dans des conditions normales de stimulation, les cellules les plus activées
atteindront leur seuil le plus tôt, et déchargeront en premier. Un neurone cible recevant les
spikes de cette population pourra donc rapidement accumuler l’information concernant les
éléments les plus saillants du stimulus. Supposons maintenant que l’état de repos des
neurones de cette population soit biaisé pour une certaine région du champ visuel, de sorte
que les neurones dans cette région aient une tendance accrue à décharger avec une avance
temporelle sur les autres. Dans ces conditions, notre cellule cible interprètera les propriétés
du stimulus à cette position comme les plus saillantes. La figure 10 montre une
reconstruction de l’information transmise par une telle population dans différentes
conditions de modulation attentionnelle. Cette reconstruction correspond à une estimation
de l’information qui serait transmise à notre cellule cible. Alors qu’une faible proportion
des neurones du LGN a déchargé, l’information déjà transmise au cortex représente en
priorité l’objet sur lequel est dirigée l’attention. Cet objet dominera donc les étapes de
traitement suivantes.
17
Figure 10. Reconstructions de l’information transmise par une population de cellules du LGN lorsque 1% des
cellules ont généré un potentiel d’action unique, dans différentes conditions de modulation attentionnelle. En haut
à gauche, en l’absence de biais attentionnel, l’information transmise en priorité correspond aux régions les plus
saillantes (i.e. contrastées). Lorsque l’attention est dirigée sur une position particulière (comme l’indique le point
lumineux dans les 3 autres images réduites), le transfert d’information est biaisé de sorte que l’information se
propage plus rapidement à cet endroit. La première information reçue au niveau suivant, interprétée comme la plus
importante, correspond donc aux endroits les plus saillants en l’absence de modulation attentionnelle, ou aux
propriétés de l’objet attendu lorsque l’attention est présente. Ce mécanisme attentionnel augmente ainsi la saillance
relative du stimulus sélectionné par l’attention (Reynolds et al, 1999). La réponse de la population est similaire à
ce qui serait obtenu si le stimulus attendu était présenté en isolation (Reynolds et Desimone, 1999). Par
conséquent, un neurone cible recevant cette information au niveau suivant se comportera comme si son champ
récepteur s’était “rétréci” autour du focus attentionnel (Moran et Desimone, 1985). Ces reconctructions sont
calculées avec un algorithme similaire à celui décrit par VanRullen et Thorpe (2001c).
La modulation attentionnelle illustrée ici dans le cas d’une population de cellules du LGN,
peut bien sûr intervenir à n’importe quel niveau de traitement du système visuel.
L’avantage temporel pour la région d’intérêt augmentera progressivement à chaque étape,
de sorte que la première information qui parviendra aux neurones des dernières étapes, et
qui déterminera leur réponse, représentera spécifiquement l’objet attendu. Cette propriété
est particulièrement importante dans des systèmes où une “compétition biaisée” (Desimone
et Duncan, 1995) est nécessaire pour résoudre les amibiguités induites par la présence
simultanée de plusieurs objets dans un même champ récepteur.
Le modèle de reconnaissance d’objets présenté à la figure 11 démontre cette propriété. Ce
modèle comporte 6 couches de traitement organisées hiérarchiquement. Les champs
récepteurs des neurones s’agrandissent sensiblement de couche en couche, permettant
d’obtenir au dernier niveau des réponses invariantes à la position des objets présentés.
Chaque neurone du dernier niveau est entraîné à répondre sélectivement à un objet donné.
Neuf objets différents ont été utilisés pour ces simulations. Lorsqu’un objet est présenté en
isolation, quelle que soit sa position rétinotopique, seul le neurone sélectif à cet objet
s’active en sortie. Il n’y a donc pas besoin de mécanisme attentionnel dans ce cas.
Cependant, quand 2 objets apparaissent dans le champ récepteur d’un même neurone, l’un
deux étant son stimulus préféré, la probabilité d’activation du neurone est réduite à environ
18
45%. De plus, chaque neurone du dernier niveau répond à la présentation simultanée de 2
stimuli auxquels il n’est pas sélectif (i.e. une conjonction illusoire a lieu) avec une
probabilité de 5%.
Figure 11. Résultat de la propagation d’une image contenant 2 stimuli dans un modèle de détection d’objets
équipé du mécanisme attentionnel proposé ici. Le système est constitué d’une hiérarchie de couches de traitement
dont les neurones ont des champs récepteurs de plus en plus larges et des sélectivités de plus en plus complexes
(rétine: cellules sélectives au contraste à 2 polarités; couche “orientation”: sélectivité à 4 orientations différentes et
2 polarités; couche “complex orientation”: 4 orientations, invariance à la polarité; couche “features”: sélectivité à
des jonctions en forme de T ou L, et à des terminaisons; couche “complex features”: similaire à la précédente, avec
un degré supplémentaire d’invariance à la position). Au dernier niveau, une simplification du cortex inférotemporal, les neurones sélectifs aux objets ont des champs récepteurs qui peuvent englober les 2 stimuli. Sans
modulation attentionnelle, ils répondent sélectivement à leur stimulus préféré présenté seul, mais moins de 50% du
temps lorsqu’un autre stimulus apparaît simultanément. Lorsque l’attention est dirigée sur l’un des 2 stimuli, les
seuils des neurones dont le champ récepteur se trouve dans la région d’intérêt sont diminués à différents niveaux
du système, de sorte que les neurones correspondant auront tendance à décharger plus tôt. Dans ces conditions,
l’objet sélectionné est correctement détecté dans 96% des cas.
19
La mise en jeu d’un mécanisme attentionnel donnant un avantage temporel à l’un des 2
objets présentés simultanément permet de restaurer la sélectivité des neurones. Plus
précisément, lorsque les seuils des neurones situés dans la région attentionnelle sont
diminués de 5% à 20% à différents niveaux du système (couches “orientation”, “complex
orientation”, “features” et “complex features”), un neurone sélectif à un objet répond
maintenant 96% du temps lorsque l’attention est dirigée sur cet objet, et avec une
probabilité de 2% lorsque cet objet est présent dans son champ récepteur, mais l’attention
est dirigée sur l’autre objet. Enfin, la probabilité de réponse à une paire d’objets auxquels le
neurone n’est pas sélectif (conjonction illusoire) est ramenée à moins de 0.5%.
Le mécanisme de modulation attentionnelle proposé ici permet donc de modifier les
réponses neuronales en accord avec des buts ou priorités “centraux” (ici externes au
système modélisé, ou “top-down”). En donnant un avantage temporel à un objet ou à ses
propriétés, il permet de s’assurer que la première information parvenant aux derniers
niveaux de traitement du système représentera explicitement et uniquement l’objet attendu.
Les neurones recevant cette information interprèteront cet objet ou ses propriétés comme
étant particulièrement saillants, et génèreront une réponse appropriée, avant même que
l’information correspondant au reste de la scène visuelle (ou du champ récepteur) ne vienne
influencer leur décision. L’utilisation d’un tel mécanisme attentionnel permet de munir les
neurones d’une invariance à la position dans de larges champs récepteurs, sans se soucier
des erreurs de “conjonction illusoire”. De ce fait, ce système requiert bien moins de
neurones qu’un système équivalent où l’invariance à la position serait obtenue en répliquant
à chaque position possible l’entière hiérarchie du traitement visuel. En d’autres termes, le
mécanisme attentionnel décrit ici reproduit bien les propriétés computationnelles qui font
de l’attention une composante primordiale du traitement neuronal dans les systèmes visuels
biologiques. Ici encore, l’encodage de l’information visuelle dans le domaine temporel
apporte une explication théorique des traitements visuels de haut niveau qui est compatible
avec la rapidité observée pour ces traitements dans le système visuel humain.
Conclusion
Un modèle du traitement de l’information dans le système visuel a été présenté, et mis en
relation avec les données expérimentales concernant la catégorisation visuelle rapide. Ce
modèle n’explique pas toute l’étendue des capacités du système visuel humain, et doit être
considéré à ce stade comme une hypothèse théorique plutôt qu’une réalité biologique. Cette
approche démontre cependant que les données recueillies par l’expérimentation, et tout
particulièrement par les méthodes de potentiels évoqués visuels, qui reflètent les traitements
neuronaux avec une haute résolution temporelle, peuvent mener par une suite de déductions
logiques à un modèle théorique détaillé des mécanismes neuronaux qui sous-tendent la
perception visuelle. Dans le cas de la catégorisation visuelle rapide, la propagation en mode
feed-forward à travers le système visuel d’une vague spatio-temporelle de potentiels
d’action, portant l’information dans l’asynchronie temporelle des décharges neuronales, qui
peut être modifiée de manière “bottom-up” par les sélectivités neuronales et de manière
“top-down” par l’attention visuelle, permettrait d’expliquer comment le système visuel
humain est capable de générer une décision motrice sélective à une catégorie donnée
d’objets en seulement 150ms.
20
Références.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
Adrian, E. D. (1926). The impulses produced by sensory nerve endings: Part I. J Physiol
(London), 61, 49-72.
Allison, T., Puce, A., Spencer, D. D., & McCarthy, G. (1999). Electrophysiological studies of
human face perception. I: Potentials generated in occipitotemporal cortex by face and non-face
stimuli. Cereb Cortex, 9(5), 415-430.
Botzel, K., Schulze, S., & Stodieck, S. R. (1995). Scalp topography and analysis of intracranial
sources of face-evoked potentials. Exp Brain Res, 104(1), 135-143.
Clark, V. P., Fan, S., & Hillyard, S. A. (1995). Identification of early visually evoked potential
generators by retinotopic and topographic analyses. Hum Brain Map, 2, 170-187.
Clark, V. P., & Hillyard, S. A. (1996). Spatial selective attention affects early extrastriate but not
striate components of the visual evoked potential. J Cog Neurosci, 8, 387-402.
Debruille, J. B., Guillem, F., & Renault, B. (1998). ERPs and chronometry of face recognition:
following-up Seeck et al. and George et al. Neuroreport, 9(15), 3349-3353.
Desimone, R., & Duncan, J. (1995). Neural mechanisms of selective visual attention. Annual
Review of Neuroscience., 18, 193-222.
Di Russo, F., & Spinelli, D. (1999). Electrophysiological evidence for an early attentional
mechanism in visual processing in humans. Vision Res, 39(18), 2975-2985.
Di Russo, F., & Spinelli, D. (1999). Spatial attention has different effects on the magno- and
parvocellular pathways. Neuroreport, 10(13), 2755-2762.
George, N., Jemel, B., Fiori, N., & Renault, B. (1997). Face and shape repetition effects in
humans: a spatio-temporal ERP study [see comments]. Neuroreport, 8(6), 1417-1423.
Halgren, E., Raij, T., Marinkovic, K., Jousmäki, V., & Hari, R. (2000). Cognitive Response
Profile of the Human Fusiform Face Area as Determined by MEG. Cereb Cortex, 10(1), 69-81.
Heinze, H. J., Luck, S. J., Mangun, G. R., & Hillyard, S. A. (1990). Visual event-related
potentials index focused attention within bilateral stimulus arrays. I. Evidence for early selection.
Electroencephalogr Clin Neurophysiol, 75(6), 511-527.
Hikosaka, O., Miyauchi, S., & Shimojo, S. (1991). Focal visual attention produces motion
sensation in lines. Investigative Ophtalmology and Visual Science, 32(Suppl.), 716.
Hikosaka, O., Miyauchi, S., & Shimojo, S. (1993). Focal visual attention produces illusory
temporal order and motion sensation. Vision Res, 33(9), 1219-1240.
Hikosaka, O., Miyauchi, S., & Shimojo, S. (1993). Visual attention revealed by an illusion of
motion. Neurosci Res, 18(1), 11-18.
Hillyard, S. A., Teder-Salejarvi, W. A., & Munte, T. F. (1998). Temporal dynamics of early
perceptual processing. Curr Opin Neurobiol, 8(2), 202-210.
Hillyard, S. A., & Anllo-Vento, L. (1998). Event-related brain potentials in the study of visual
selective attention. Proc Natl Acad Sci U S A, 95(3), 781-787.
Hubel, D. H., & Wiesel, T. N. (1959). Receptive fields of single neurons in the cat's striate visual
cortex. J Physiol, 148, 574-591.
Hubel, D. H., & Wiesel, T. N. (1968). Receptive fields and functional architecture of the monkey
striate cortex. J Physiol (London), 195, 574-591.
Jeffreys, D. A. (1996). Evoked potential studies of face and object processing. Visual Cognition,
3, 1-38.
Kingstone, A. (1992). Combining expectancies. Quarterly Journal of Experimental Psychology.,
44, 69-104.
Luce, R. D. (1986). Response Times. Oxford: Oxford University Press.
Luck, S. J. (1995). Multiple mechanisms of visual-spatial attention: recent evidence from human
electrophysiology. Behav Brain Res, 71(1-2), 113-123.
21
24. Luck, S. J., Heinze, H. J., Mangun, G. R., & Hillyard, S. A. (1990). Visual event-related
potentials index focused attention within bilateral stimulus arrays. II. Functional dissociation of
P1 and N1 components. Electroencephalogr Clin Neurophysiol, 75(6), 528-542.
25. Mangun, G. R., & Hillyard, S. A. (1991). Modulations of sensory-evoked brain potentials
indicate changes in perceptual processing during visual-spatial priming. J Exp Psychol Hum
Percept Perform, 17(4), 1057-1074.
26. McCulloch, W. S., & Pitts, W. (1943). A logical calculus of the ideas immanent in nervous
activity. Bulletin of Mathematical Biophysics, 5, 115-133.
27. Moghaddam, B., & Pentland, A. (1995). Probabilistic visual learning for object detection. Paper
presented at the The Fifth International Conference on Computer Vision, Cambridge, MA.
28. Moran, J., & Desimone, R. (1985). Selective attention gates visual processing in the extrastriate
cortex. Science, 229, 782-784.
29. Mouchetant-Rostaing, Y., Giard, M. H., Bentin, S., Aguera, P. E., & Pernier, J. (2000a).
Neurophysiological correlates of face gender processing in humans. Eur J Neurosci, 12(1), 303310.
30. Mouchetant-Rostaing, Y., Giard, M.-H., Delpuech, C., Echallier, J.-F., & Pernier, J. (2000b).
Early signs of visual categorization for biological and non-biological stimuli in humans.
NeuroReport, 11(11), in press.
31. Neumann, O., Esselmann, U., & Klotz, W. (1993). Differential effects of visual-spatial attention
on response latency and temporal-order judgment. Psychol Res, 56(1), 26-34.
32. Pashler, H. (1998). The Psychology of Attention. Cambridge, MA: MIT Press.
33. Posner, M. I., Snyder, C. R. R., & Davidson, B. J. (1980). Attention and the detection of signals.
Journal of Experimental Psychology: General., 109, 160-174.
34. Ratcliff, R., Van Zandt, T., & McKoon, G. (1999). Connectionist and diffusion models of
reaction time. Psychol Rev, 106(2), 261-300.
35. Reynolds, J. H., Chelazzi, L., & Desimone, R. (1999). Competitive mechanisms subserve
attention in macaque areas V2 and V4. J Neurosci, 19(5), 1736-1753.
36. Reynolds, J. H., & Desimone, R. (1999). The role of neural mechanisms of attention in solving
the binding problem. Neuron, 24(1), 19-29, 111-125.
37. Rossion, B., Gauthier, I., Tarr, M. J., Despland, P., Bruyer, R., Linotte, S., & Crommelinck, M.
(2000). The N170 occipito-temporal component is delayed and enhanced to inverted faces but
not to inverted objects: an electrophysiological account of face-specific processes in the human
brain. NeuroReport, 11(1), 69-74.
38. Rowley, H. A., Baluja, S., & Kanade, T. (1998). Neural network-based face detection. IEEE
Trans. Pattern Anal. Mach. Intell., 20, 23-38.
39. Rumelhart, D. E., & McClelland, J. L. (1986). Parallel Distributed Processing: Explorations in
the Microstructure of Cognition. Vol 1: Foundations. Cambridge, MA: MIT Press/Bradford
Books.
40. Schendan, H. E., Ganis, G., & Kutas, M. (1998). Neurophysiological evidence for visual
perceptual categorization of words and faces within 150 ms. Psychophysiology, 35(3), 240-251.
41. Seeck, M., Michel, C. M., Mainwaring, N., Cosgrove, R., Blume, H., Ives, J., Landis, T., &
Schomer, D. L. (1997). Evidence for rapid face recognition from human scalp and intracranial
electrodes [see comments]. Neuroreport, 8(12), 2749-2754.
42. Sung, K., & Poggio, T. (1994). Example-based learning for view-based human face detection.
Proceedings Image Understanding Workshop, II, 843-850.
43. Thorpe, S. J., & Imbert, M. (1989). Biological constraints on connectionist models. In R. Pfeifer
& Z. Schreter & F. Fogelman-Soulié & L. Steels (Eds.), Connectionism in Perspective. (pp. 6392). Amsterdam: Elsevier.
44. Thorpe, S. J., Fize, D., & Marlot, C. (1996). Speed of processing in the human visual system.
Nature, 381, 520-522.
22
45. Thorpe, S. J., & Gautrais, J. (1997). Rapid visual processing using spike asynchrony. In M. C.
Mozer & M. Jordan & T. Petsche (Eds.), Advances in Neural Information Processing Systems
(MIT Press ed., Vol. 9, pp. 901-907). Cambridge: MIT Press.
46. Thorpe, S. J., & Gautrais, J. (1998). Rank order coding: a new coding scheme for rapid
processing in neural networks. In J. Bower (Ed.), Computational Neuroscience : Trends in
Research. New York: Plenum Press.
47. Turk, M., & Pentland, A. (1991). Eigenfaces for recognition. Journal of Cognitive Neuroscience,
3(1), 71-86.
48. Valentin, D., Abdi, H., O'Toole, A., & & Cottrell, G. W. (1994). Connexionnist models of face
processing : a survey. Pattern Recognition, 27, 1209-1230.
49. VanRullen, R., Gautrais J., Delorme A., & Thorpe, S. J. (1998). Face Processing using One
Spike Per Neuron. Biosystems, 48(1-3), 229-239.
50. VanRullen, R., & Thorpe, S. J. (1999). Spatial attention in asynchronous neural networks.
NeuroComputing, 26-27, 911-918.
51. VanRullen, R., & Thorpe, S. J. (2001a). The time course of visual processing: from early
perception to decision-making. J Cog Neuroscience, 13(3).
52. VanRullen, R., & Thorpe, S. J. (2001b). Is it a bird? Is it a plane? Ultra-rapid visual
categorisation of natural and artifactual objects. Perception, in press.
53. VanRullen, R., & Thorpe, S. J. (2001c). Rate coding vs temporal order coding: what the retinal
ganglion cells tell the visual cortex. Neural Computation, 13(6).
54. VanRullen, R., Delorme, A., & Thorpe, S. J. (2001d). Feed-forward contour integration in
primary visual cortex based on asynchronous spike propagation. Neurocomputing, (submitted).
23
Téléchargement