psychologie et neuropsychologie cognitive i

publicité
PSYCHOLOGIE ET NEUROPSYCHOLOGIE COGNITIVE I
Année académique 2010-2011
Titulaire: Philippe Mousty& Wim Gevers
PSYCHOLOGIE ET NEUROPSYCHOLOGIE COGNITIVE I ..................................................... 1
2. La cognition visuelle .................................................................................................................... 1
2.1 Mécanismes de saisie de l’information .................................................................................. 1
2.1.0. La lumière - qu'est-ce que c'est ...................................................................................... 1
2.1.1. Description anatomique de l’oeil humain ...................................................................... 2
2.1.2. Les voies visuelles de la rétine au cortex ....................................................................... 3
Types de cellules : ............................................................................................................ 4
Chiasma optique ............................................................................................................... 4
2.1.3. La rétine.......................................................................................................................... 4
2.1.4. Champs récepteurs des cellules ganglionnaires des CGL (corps Genouillées Latéraux
du Thalamus) ............................................................................................................................ 5
2.1.5. Patrons de réponses des cellules corticales (cellules du cortex : première zone de
projection de l’information) ..................................................................................................... 8
2.1.6. Architecture du cortex visuel primaire (V1) .................................................................. 8
2.1.7. Le cortex visuel extrastrié (V2-V5) ............................................................................... 9
2.1.8. Deux circuits anatomiquement et fonctionnellement distincts ? .................................... 9
2.2 La théorie de David Marr (1982) ......................................................................................... 10
2.3 Les processus perceptifs de bas niveau – Esquisse primale ................................................. 12
2.3.1 L’esquisse primale brute ............................................................................................... 12
2.3.2. L'esquisse primale complète......................................................................................... 12
2.3.3 L’esquisse 2 1/2-D (représentation intégrée des surfaces) ............................................ 14
2.3.3.1 La perception de la profondeur .............................................................................. 14
2.3.3.2 La perception du mouvement ................................................................................. 19
2. La cognition visuelle
On ne peut pas faire abstration des données biologiques : œil + circuit neuronaux.
2.1 Mécanismes de saisie de l’information
2.1.0. La lumière - qu'est-ce que c'est


Nous captons la lumière réfléchie par les surfaces
et les objets que l’on regarde.
La lumière est composée d’ondes
électromagnétiques (= flux de particules appelées
photons) dont la longueur varie. Onde sinusoïdale
 longueur d’onde.
Page 1 of 21


Chaque longueur d’onde dans le spectre lumineux visible (380-780 nm) correspond à une
nuance de couleur allant du violet au rouge). On ne perçoit qu’une toute petite partie des
ondes.
Relations entre les caractéristiques physiques de la stimulation lumineuse et la perception:
Optique = ce qui est mesurable
Perception = ce que l’on voit
Intensité (w) d’un signal lumineux
-> Luminance (cd/m²) (candela par m²)
Luminosité (source lumineuse)
-> Brillance (objet brillant ou pas)
Chrominance:
 Longueur d’onde (nm)
 Pureté (%)
Chromaticité:
 Teinte (nuance de couleur)
 Saturation (vive : plus homogène, pâle)
2.1.1. Description anatomique de l’oeil humain


Cornée (protection extérieure)
Pupille : diaphragme (muscle) : permet de
régler la quantité de lumière qui pénètre dans
l’oeil
 Cristallin (lens) : mise au point, accomodation
 lentille (modification de la courbure, on
voit donc net plus ou moins loin)
 Rétine : Tout le fond de l’œil, tapissé de nerfs
envoyés vers le nerf optique.
 Nerf optique (blind spot = point aveugle,
disque optique)
Les yeux bougent à tout moment pour mettre
l'image la plus claire possible sur la tache jaune
(fovéa)
Page 2 of 21
2.1.2. Les voies visuelles de la rétine au cortex
Au départ de l'oeil, les fibres nerveuses empruntent

soit la voie principale = voie géniculo-striée (vers les corps genouillés latéraux du
thalamus CGL/lateral geniculate nucleus; LGN) d'où elles se projettent sur le cortex
visuel primaire (ou strié, V1)

soit une autre voie souscorticale importante =
voie rétino-tectale vers
les colliculus supérieurs
(où elles sont en contact
avec des neurones
moteurs qui
commandent les
mouvements des yeux,
de la tête, du corps),
pulvinar -> cortex
visuel (pas V1) et autres
régions cérébrales:
Attention, mémoire,
contrôle du mouvement
occulaire.

Ces voies véhiculent de l'information dans les deux sens (feedback)
Page 3 of 21
Types de cellules :

photoréceptrices au niveau de la rétine (cônes et bâtonnets) :
détectent des points de lumière Transformation des signaux
lumineux en signaux nerveux.

ganglionnaires (Rétine et CGL): encodent la quantité de
lumière dans une région très délimitée de la rétine (plus
proche de la périphérie, elles ont des champs récepteurs
relativement larges càd qu'elles combinent l'information
provenant de larges aires de la rétine, plus proches de la
fovéa les champs récepteurs sont plus étroits. La
combinaison des réponses donne l'intensité moyenne de la
lumière)

corticales : certaines détectent les lignes et les contours, d'autres contribuent à des processus
plus élaborés (reconnaissance des formes et objets)  différents rôles
NB: il y en a des binoculaires, que le stimulus soit présenté à un oeil ou à l'autre, elles
réagissent.
Chiasma optique
Croisement des fibres nerveuses issues des faces rétiniennes
nasales de l'oeil
NB: chaque rétine est divisée en deux hémirétines: une nasale
interne et une temporale externe, les voies optiques des
hémirétines nasales subissent un chgmt de côté au niveau du
chiasme
ipsilatéral: du même côté du corps, contralatéral : du côté opposé
Chaque hémichamp visuel comprend le champ nasal de l'oeil
contralatéral et le champ temporal de l'oeil ipsilatéral. Les
champs visuels temporaux étant plus étendus que les champs
visuels nasaux, la vision de la périphérie du champ visuel est
purement monoculaire.
HVG est vu par nasal G qui est croisé à D et temporal D qui reste
à D => tt va ds HD
=> représentation contralatérale de l’espace visuel au niveau du cortex : Hémichamp visuel
gauche (HVG) -> hémisphère Droit (HD), et inversément: HVD-> Rétine G -> HG
2.1.3. La rétine
plus de 10 sortes de cellules différentes, 3 couches

+- 127 millions de cellules
photoréceptrices (par oeil) dans le
fond de la rétine
Page 4 of 21




+- 800.000 cellules ganglionnaires (par oeil) envoient les infos vers le cerveau
Les cellules ganglionnaires concentrent donc l’activité de nombreux photorécepteurs
Ce phénomène de convergence est nettement moins marqué pour
les cônes de la fovéa qu'en périphérie
Une cellule ganglionnaire est un type de neurone situé dans la
rétine de l'œil qui reçoit une information visuelle des
photorécepteurs via de nombreux intermédiaires cellulaires tels
que les cellules bipolaires, les cellules amacrines, et les cellules
horizontales. Les axones des cellules ganglionnaires de la rétine
sont myélinisés. La partie myélinisée se situe en dehors de l'œil.
Ces axones forment le nerf optique et sont connectés au corps
genouillé latéral dans le cerveau. Les cellules ganglionnaires de la
rétine envoient des axones au corps géniculé latéral via le nerf
optique.
Deux types de cellules photoréceptrices :
1. Cônes ( 7 millions):
 Vision des couleurs (3 types de cônes: rouge, vert et bleu)
 Faible sensibilité (-> vision diurne, photopique = de jour)
 Haute résolution spatiale, grande acuité
 Principalement concentrés dans les régions fovéale (rouge et vert) et parafovéale =>
perception des détails fins
2. Bâtonnets (120 millions):
 Vision achromatique (pigment visuel = rhodopsine) Pas sensible à la longueur d’onde.
 Faible résolution spatiale, grande sensibilité (vision scototopique - de nuit), très grande
résolution temporelle
 Distribués sur toute la surface de la rétine (sauf fovéa)
 perception ambiante, globale, détection des mouvements
La lumière engendre des réactions chimiques au niveau des pigments visuels qui sont traduites
par la cellule en activité électrique
œil gauche: Distribution des cônes
(ligne) et bâtonnets (pointillés) sur la
rétine par rapport à la fovéa, nombre
de cellules par mm² (bleu = tache
aveugle)
2.1.4. Champs récepteurs des cellules
ganglionnaires des CGL (corps Genouillées Latéraux du Thalamus)
Kuffler (1953) enregistre l’activité de cellules ganglionnaires chez le chat, ces cellules ne
réagissent que si une région bien précise du champ visuel est stimulée (champ récepteur). Il met
donc en évidence deux types de cellules dont les champs récepteurs concentriques diffèrent :
Page 5 of 21
-> Cellules (bipolaires ?) ON/OFF:
 Si stimulus lumineux au centre de la cellule,
l’activité de la cellule augmente.
 Si stimulus lumineux en périphérie de la
cellule, l’activité de la cellule diminue.
 Plus leur taux d'activité augmente, plus
l'intensité de la lumière perçue augmente
-> Cellules (bipolaires ?) OFF/ON:
 patron d'activité opposé
 plus leur taux d'activité augmente, plus la brillance diminue
Cellules bipolaires = l'intermédiaire entre +sieurs photorécepteurs et les cellules ganglionnaires.
Les réponses de ces cellules augmentent donc en cas de variations d'intensité lumineuse et
diminuent lorsque l'intensité lumineuse est uniforme  détecteur de variation lumineuse
Illustration psychophysique: Bandes de Mach
Lorsqu’on regarde l’image, on voit
un ton homogène noir à gauche, un
ton homogène blanc à droite, un
degradé de gris au mileu. Au bord du
dégradé de gris, on voit à droite une
zone plus blanche que le blanc et à
gauche, une zone plus noire que le
noir. Ce sont les bandes de Mach.
La luminance est ce qui est réel, la
brillance, ce que l’on perçoit, on a
une illusion, il y a un écart entre le
stimulus et l’impression perceptive.
Les cellules entièrement dans le blanc ou entièrement dans le noir reçoivent partout la même
quantité de lumière. Pour la cellule au centre à droite, tout le
centre est fortement illuminé, une partie de la périphérie est
illuminée et l’autre moins. Il y a donc une rupture de la balance
entre le centre et la périphérie. Il y a moins de lumière
périphérique à gauche et donc plus de lumière sur la partie ON
par rapport à la partie OFF, on a donc une augmentation de l’activité de la cellule et donc un pic
de brillance. Pour la cellule au centre à gauche, c’est le contraire, on a une plus grande luminosité
sur la partie périphérique par rapport à la
partie centrale, on a
donc une diminution de l’activité et donc
une chute de brillance.
C’est une façon d’expliquer le phénomène
mais pas la seule.
Grille de Hermann
Page 6 of 21
(Voir diagramme page suivante)
Là où on fixe le regard, c'est la fovéa => cellules ganglionnaires plus petites et plus précises =>
vision correcte: c'est blanc.
Examinons ensuite la périphérie, en bas à droite du diagramme. Le champ récepteur se trouvant à
l'intersection de la croix blanche reçoit plus de lumière dans sa périphérie inhibitrice que le
champ récepteur se trouvant entre deux carrés noirs. Par conséquent, le centre excitateur de ce
champ récepteur entre les deux carrés produit une réponse plus forte que le champ récepteur se
trouvant à l'intersection de la croix blanche. => l'intersection en périphérie a l'air plus foncée que
les lignes.
Lorsque vous vous trouvez à une certaine distance de
celle-ci, vous noterez certainement que la zone d'ombre
est également visible au niveau de votre point de
fixation
A Receptive Field Model:
Quid de la réponse des cellules à centre OFF ?
Soient les récepteurs C & D. Ils sont de taille assez
petite, tout comme les champs récepteurs se trouvant près de la fovéa, et de ce fait, tombent
entièrement dans l'espace se trouvant entre deux carrés noirs de la grille.
De ce fait, C & D sont « remplis » de lumière uniforme, chacun d'entre
eux devraient émettre une réponse faible identique. De ce fait, la lumière
perçue devrait être identique à ces endroits.
Maintenant, considérons les champs A & B. Les centres inhibiteurs de ces
champs récepteurs reçoivent la même stimulation, mais il y a plus
d'excitation pour B et de ce fait, la réponse de B est plus forte que la
réponse de A. Ce pattern (modèle) de réponse est opposé à celui observé
avec les cellules à centre ON.
Que se passe-t-il ? Afin de donner du sens à l'analyse, nous devons
admettre que la lumière perçue diminue avec l'augmentation de la réponse
des cellules à centre OFF. Avec cette supposition, nous prédisons que la
zone B devrait être plus sombre que la zone A, ce qui est la même
prédiction que celle obtenue avec les cellules à centre ON.
Est-il
raisonnable de penser que les réponses des cellules à centre ON et à centre
OFF sont liées à nos perceptions de différentes manières ? Bien, il y a des preuves supportant
cette idée. Souvenez-vous les études sur les animaux qui ont démontré que les cellules à centre
ON et à centre OFF soutiennent différents aspects de la vision: les cellules à centre ON sont
nécessaires pour détecter les augmentation de lumière, alors que les cellules à centre OFF sont
nécessaires pour détecter les diminutions de lumière. De plus, le signal en provenance des
cellules à centre ON et à centre OFF est divisé au niveau de différentes couches dans le système
visuel, permettant donc au système de savoir quel type de cellule produit une réponse. De ce fait,
il devient plausible de prétendre que les réponses peuvent mener à différentes perceptions.
Page 7 of 21
2.1.5. Patrons de réponses des cellules corticales (cellules du cortex :
première zone de projection de l’information)
Hubel & Wiesel (1962) Enregistrent l’activité de cellules simples du cortex visuel chez le chat


Le champ récepteur des cellules corticales simples
o concentre l’activité de plusieurs cellules ganglionnaires
o est généralement de forme allongée
Ces cellules corticales répondent comme des détecteurs de traits, p.ex. l’orientation
l'épaisseur ou la longueur de lignes (à gauche) ou de contours (frontière entre les objets)(à
droite). Il y en a donc plusieurs sortes. Il y a aussi des parties ON et des parties OFF.
2.1.6. Architecture du cortex visuel primaire (V1)



Architecture fonctionnelle composée de différentes couches de
cellules organisées en colonnes
Distribution topographique des cellules corticales en fonction
de leur spécialisation dans le traitement de traits particuliers
(illustré ci-contre par le traitement de l’orientation de lignes : «
colonnes d’orientation »)
Principalement deux types de cellules: simples et complexes
Cellules simples et complexes :

Cellules simples (aire17 – V1)
o monoculaires => colonnes de dominance oculaire
o codage de traits tels que la taille, la position, la couleur
 Cellules complexes (aire 18 - V2)
o binoculaires: réagissent si le trait visuel est détecté par les deux yeux au même endroit
du champ visuel (réagissent si ce qui est capté par les deux yeux concorde)
o codage de traits tels que l’orientation, le mouvement
N.B. : il existe aussi des cellules hypercomplexes (aire19) qui combinent les informations des
cellules simples et complexes et codent les angles, les courbes, les contours, ….
 Les cellules simples et complexes sont très spécialisées (ex : ne réagissent qu’à une certaine
orientation bien précise)
 Elles peuvent répondre aussi à d’autres types de traits : épaisseur des lignes, mouvements,
couleur
Page 8 of 21
Cellule simple, elle réagit à
l’orientation verticale, moins la ligne
est proche de la verticale, moins il y
a de réaction.
Cellule sensible au mouvement de la
surface qui va de haut en bas.
Lorsque le mouvement est latéral, la
cellule ne réagit pas du tout.
2.1.7. Le cortex visuel extrastrié (V2-V5)
Travaux de Zeki (1992) (Prix Nobel)
 Etudes sur le singe macaque
 Identification de plusieurs aires hautement spécialisées dans le cortex visuel strié (V1) et
extrastrié (V2-V5) :
 V1 et V2 : étapes précoces du traitement
 V3 et V3A : formes et objets en mouvement
 V4 : couleur, orientation des lignes, contours
 V5 : mouvement
Chez l’homme : même genre d’organisation que le singe
 Imagerie cérébrale fonctionnelle
 Troubles neuropsychologiques suite à des lésions du cortex:
o Dans V1 -> « Blindsight » : perte de la perception
consciente des informations visuelles dans une partie du
champ visuel.
o Dans V4 -> « achromatopsie » : altération sélective de la
perception des couleurs.
o Dans V5 -> « akinétopsie » : altération sélective de la
perception des objets en mouvement
2.1.8. Deux circuits anatomiquement et
fonctionnellement distincts ?
Les couches ventrales
1 et 2 du CGL
contiennent des plus
gros neurones que les
couches dorsales 3, 4,
5 et 6. On utilise donc
le terme
magnocellulaire (M,
du latin magnus gros)
pour désigner les
deux couches
ventrales et
Page 9 of 21
parvocellulaire (P, du latin parvus
petit) pour les 4 autres.
a. Système magnocellulaire et voie
"dorsale" (ou "occipitopariétale") =
"where" pathway : zone de
projection à l’arrière de la tête,
traitement de la localisation des
choses.
b. Système parvocellulaire et voie
"ventrale" (ou "occipitotemporale")
= "what" pathway : lobe temporale,
identification des formes, des objets.
Circuits séparés au départ de la
rétine mais en interaction croissante
dans les étapes plus élaborées du
traitement de l'information visuelle.
Voir aussi
-Musée de la perception et de la
cognition, ULB, Lapse (M. Lange).
Ce site n'a plus été mis à jour depuis
quatre ans. (http://www.ulb.ac.be/psycho/fr/docs/museum/) Psychology Department of the
University of Toronto (
http://server.esc.cquest.utoronto.ca/psych/psy280f/ohoptions.html) The Joy of Visual Perception
(http://www.yorku.ca/eye/toc-sub.htm) LE CERVEAU À TOUS LES NIVEAUX!
(http://www.lecerveau.mcgill.ca/flash/index_a.html) Webvision: Visual Cortex
(http://webvision.med.utah.edu/VisualCortex.html) Optical Illusions and Visual Phenomena
(http://www.michaelbach.de/ot/index.html)
Hall of Illusions (http://www.illusionworks.com/html/hall_of_illusions.html)
2.2 La théorie de David Marr (1982)

Théorie générale de la perception visuelle qui permet de rendre compte des processus
perceptifs à la fois:
o De bas niveau (perception de la profondeur, de la forme, de la texture, de la couleur et
des surfaces des objets).
o Et de haut niveau (reconnaissance des objets, visages, mots, …)

La Théorie de Marr considère que l'appariement entre informations en cours de traitement
perceptif et informations stockées préalablement en mémoire est tardif: l'accent est mis sur les
Page 10 of 21
processus automatiques ascendants ("bottom
up") par rapport aux processus descendants
("top down")

Pour lui, il y a trois niveaux d'explication de
la cognition: le niveau computationnel
(fonction, but), le niveau des représentations
et des algorithmes et le niveau phsyique
sous-jacent de réalisation (ou hardware).

D'autres théories/modèles considèrent que
cet appariement pourrait être soit plus
précoce, soit basé sur des interactions entre
processus ascendants et descendants à un
moment plus précoce du traitement (par exemple le "feedback model")

Des modèles plus
spécifiques sont proposés
pour expliquer des aspects
plus particuliers de la
perception:
o perception de la
couleur
o perception de la
profondeur, de la
stéréoscopie, du
mouvement
o perception des
lettres, des visages,
des objets 3D

Modèle computationnel dont l’architecture comprend trois niveaux :
1. Esquisse primale ou primaire (« Primal sketch »)
 Permet une description bi-dimensionnelle des changements d’intensité lumineuse de la
stimulation (esquisse primale brute)
 Extrait des informations isolées sur les bords, les contours des surfaces (esquisse
primale complète).
 Dépendante du point de vue de l’observateur. Si on bouge 3 mm, ce sera différent.
C’est le traitement de ce qui est projeté sur la rétine (2D) dans la première zone de
traitement cortical.
2. Esquisse 2 1/2-D (« 21/2-D sketch ») - étape intermédiaire de représentations
 Construit une description bi-dimensionnelle de la profondeur et de l’orientation des
surfaces sur la base d’informations comme la texture, la couleur, le mvt, la disparité
binoculaire (petit décalage entre ce que perçoit l’œil gauche et l’œil droit), …
Page 11 of 21

Toujours dépendante du point de vue de l’observateur
3. Représentation 3-D (« 3-D model representation »)
 Elaboration d’une représentation tri-dimensionnelle de l’objet
 Indépendante du point de vue de l’observateur
 Processus perceptifs de haut niveau (reconnaissance des objets)
 Appariement des informations extraites des traitements de bas niveau avec les
connaissances stockées préalablement en mémoire
2.3 Les processus perceptifs de bas niveau – Esquisse primale

Processus allant de l’esquisse primale brute à la construction de l’esquisse 2 1/2-D
2.3.1 L’esquisse primale brute
On détecte des variations d’intensité lumineuse sur l’image rétinienne.
 Processus perceptifs les plus précoces -> Mesure des gradients d'intensité de lumière à chaque
point du champ visuel (// pixels d’une photo)
 Processus liés à l’activité des cellules photoréceptrices et ganglionnaires des CGL ???
PHOTORÉCEPTRICES SUR le CGL ?
 Construction d’une représentation qui traduit de manière explicite où se situent les
changements d’intensité et de composition spectrale de la lumière dans le champ visuel.
 Description encore « localiste » de l’information, non structurée.
Par exemple : une ligne = juxtaposition de segments de même orientation et de
terminaisons
 Description dépendante du point de vue de l’observateur qui ne tient pas compte des
mouvements de l’observateur ou du monde extérieur
 Représentation peu « fiable » car un changement d’intensité peut résulter de plusieurs
facteurs:
o frontières entre surfaces
o changement de texture à l'intérieur des surfaces
o différences dans l'illumination des surfaces, ombres, ....
 Différents algorithmes ont tenté de simuler ces processus (Marr & Hildreth, 1980 ; Watt &
Morgan, 1984)
Illustration: Les variations d’intensité lumineuse sont aussi importantes à
l’intérieur (ou à l’extérieur) qu’aux bords (frontières) de la figure.
2.3.2. L'esquisse primale complète

Des processus de groupement de ces éléments disparates vont permettre de reconstituer la
structure globale des lignes et des surfaces, ainsi que leur texture.

Marr reprend ici un certain nombre de principes mis en évidence par l’école de la Gestalt
(psychologues en Allemagne) (Kofka, Wertheimer, …)
– Proximité.
– Similitude.
Page 12 of 21
–
–
Bonne continuité. On reconstruit ce qui manque.
Fermeture / closure.

Principe du « destin commun » : on regroupe les
éléments d’une scène s’ils effectuent le même
mouvement ou un mouvement coordonné. Si des
points bougent, on les regroupe naturellement.

Ces principes peuvent se combiner mais aussi entrer
en conflit
Au dessus, on peut voir deux losanges ou un M au
dessus d’un W. En dessous, on ne sait pas si on peut
classer par ligne ou par colonne. Ou grouper par
proximité ou par similarité ?

Loi du « moindre engagement » (Marr 1976): si
plusieurs principes de groupement sont incompatibles, alors la décision est différée. Lors d’un
conflit on attend des informations en plus.  groupement en plusieurs étapes

Selon les conceptions classiques, ces principes de groupement permettent d’isoler les objets
dans une scène (distinction figure-fond)
<- Illusion des triangles de Kanisza

Pas toujours sans ambigüité… Les interprétations peuvent être différentes. Par exemple,
illusions du vase/visages de Rubin et illusion de l’homme-rat

Les mêmes contours peuvent donc être interprétés comme ceux d’objets distincts : ceci
dépend de la manière dont les processus perceptifs précoces vont réaliser les groupements et
l’interprétation des contours (avant que n’interviennent les processus de reconnaissance).

Selon Marr, l’esquisse primale complète n’est qu’une simple description des surfaces
présentes dans l’image ; à ce stade du traitement, il n'y a aucune intervention des
connaissances de plus haut niveau (processus « top-down »)
Page 13 of 21
2.3.3 L’esquisse 2 1/2-D (représentation intégrée des surfaces)


Les changements d’intensité les plus forts dans une image sont souvent dûs à des
changements d'illumination qui n'ont rien à voir avec les propriétés visuelles distinctives des
objets:
o Ombres ou masquage provoqués par d’autres objets
o L’image rétinienne se modifie en fonction des mouvements de l’observateur ou des
objets eux-mêmes
Le passage de la représentation statique et dénuée de profondeur (esquisse primale) à une
représentation 3-D nécessite un niveau de représentation intermédiaire.

Marr utilise le terme "esquisse 2 1/2-D " de manière métaphorique pour désigner cette
représentation intermédiaire qui rend explicites :
o Les orientations locales des surfaces
o Leur distance par rapport à celui qui les regarde
o Les discontinuités dans l'orientation ou dans la profondeur des surfaces visibles.

Représentation toujours dépendante du point de vue de l’observateur (=> pas de
représentation des faces cachées de l’objet)
Et indépendante des connaissances de plus haut niveau (=> aucune hypothèse n’est encore
faite sur la nature, l'utilisation, ou la fonction des objets perçus)

(Illusion de la jeune/vieille femme de Boring, 1930, le menton de la jeune
femme est le nez de la sorcière
" La représentation des surfaces visibles doit être réalisée avant de savoir
si ces surfaces appartiennent à un cheval ou à un homme ou à un arbre"
(Marr, 1982, p. 272).

La construction de cette représentation 2 1/2-D se fonde sur l’analyse des informations
fournies par des indices disponibles dans le donné sensoriel tels que :
– la couleur,
– la disparité binoculaire,
– la texture,
– le mouvement, etc.. du monde extérieur et nos
mouvements personels

Ces indices sont utilisés pour nous permettre de percevoir la
profondeur dans une image 2-D (cinéma) ou dans le
monde réel (3-D)
2.3.3.1 La perception de la profondeur

De nombreux indices sont utilisés pour percevoir la
profondeur :
A. Indices oculomoteurs : lié à la motricité de l’œil et à
l’accodomation du cristallin
Page 14 of 21


Convergence : l'angle de convergence augmente en fonction de la proximité de l’objet
fixé (voir ci-dessus)
Accomodation : mise au point plus précise pour objets rapprochés
B. Indices visuels
 Monoculaires : statiques et dynamique
 Disparité binoculaire
B.1. Indices visuels monoculaires statiques (un seul œil dans bouger)
 Interposition : objets interposés sont perçus plus proches

Perspective linéaire : convergence des lignes // =
indice de profondeur

Perspective géométrique (peintres de la
Renaissance) : Structure commune mais de taille différente.

Perspective aérienne : les objets distants sont perçus moins nets
(interférence entre lumière et atmospère).

Gradient de texture : plus dense en fonction de la
distance des objets :
La «falaise visuelle» (Gibson). Combinaison de
perspective géométrique et différence de texture. Plus
les carrés sont petits plus on pense que c’est loin.

Ombrage : l’illumination des objets 3-D crée sur leur surface des variations dans le
gradient de luminance (ombres) qui servent d’indices pour estimer la profondeur.
Le système perceptif fait l’hypothèse que la source
de lumière vient du haut, certains cercles sont
perçus comme des bosses, d’autres comme des
cratères. L’image de droite est identique à celle de
gauche mais a subi une rotation de 180°.

Taille : des objets identiques apparaissent plus distants si ils produisent une projection sur
la rétine plus petite
o Constance de taille = capacité d’extraire des variations continuelles de la
stimulation (au niveau de l’image rétinienne) les propriétés invariantes de la taille
objective des objets (parce que l’on connaît la taille réelle de l’objet)
o Lorsqu’un personnage s’éloigne, la taille de son image rétinienne décroît. Si deux
personnages équidistants donnent des images rétiniennes de taille différente, c’est
qu’ils sont de tailles différentes; en vertu de la constance de taille, le système
perceptif fera pourtant l’hypothèse qu’ils se trouvent à des distances différentes.
NB: Les indices visuels de profondeur peuvent entrer en conflit avec
la constance de taille provoquant de nombreuses illusions
perceptives: illusions de Ponzo (ciPage 15 of 21
contre), le long d’un mur, le personnage qui est le plus loin paraît plus grand alors que sur
l’image il a la même taille mais le mur donne une illusion de perspective), …

L’illusion « inverse »: les disques semblent de
taille égale (perspective géométrique)…alors
qu’ils sont de taille différente :

La chambre déformée de Ames
L’œil fait un compromis entre ce que l’on voit et ce
que l’on connaît: ici on a l’impression de voir une
chambre normale avec des personnages de taille très
différentes. On regarde la pièce avec un seul œil et par
le trou. Les indices de perspective sont créés pour
avoir l’illusion d’une chambre normale.

L'illusion de la lune
La lune paraît beaucoup plus grande lorsqu’elle est à l’horizon plutôt qu’au Zénith. Une
explication possible : au sol, il y a des indice de texture qui montre que l’objet est éloigné, la
lune nous paraît donc plus éloignée et donc plus grosse. Autre explication:le ciel nous
apparaît comme un dôme surbaissé. Cette apparence est très nette un jour de nuage avec
éclaircies. Comme la lune a le même diamètre réel à l'horizaon et au zénith, notre cerveau
"comprend" qu'elle est donc lointaine et plus grosse. voir figure de droite
B.2. Indice visuel monoculaire dynamique (les yeux bougent)
Parallaxe de mouvement : Lorsque l’oeil se déplace par rapport à une scène visuelle (ou que les
objets du monde extérieur se déplacent par rapport à l'observateur), les projections rétiniennes des
objets extérieurs par rapport au point de fixation peuvent fournir deux indices pertinents pour
estimer la profondeur (ou la distance relative des objets les uns par rapport aux autres):
1. la vitesse angulaire des déplacements des projections sur la rétine qui est d'autant plus
élevée que les objets sont éloignés du point de fixation
Page 16 of 21
2. la direction des mouvements sur la rétine qui vont dans le même sens que le déplacement
des objets extérieurs si ceux-ci sont disposés plus loin que le point de fixation ou dans la
direction opposée s'ils se situent en avant du point de fixation.
Dans la situation où l'oeil est fixe et que les objets se
déplacent latéralement, la direction du mouvement sur la
rétine est non pertinente (les objets se déplacent toujours
dans le sens opposé sur la rétine) et la vitesse angulaire
informe sur la distance des objets, mais cette fois par rapport
à l'observateur.
B.3. Indice visuel binoculaire

Disparité spatiale binoculaire : Les yeux sont distants de 6-7 cm => les images rétiniennes
sont de ce fait légèrement différentes.
C'est donc la différence entre les positions spatiales des objets projetées
sur les deux rétines par rapport au point de fixation du regard (ou point
de convergence).
La disparité binoculaire fournit deux types d’indices sur cette distance
relative des objets par rapport au point de fixation
 Magnitude de la profondeur
o Petite : faible disparité
o Grande : grande disparité. Plus la disparité est grande, plus
l’objet est éloigné du point de fixation.
 Polarité de la distance. En avant ou en arrière du point de fixation
o Plus loin : disparité « non-croisée » (nasale)
o Moins loin : « disparité croisée » (temporale) Si on
devait regarder l’objet, on devrait « loucher » avec les
yeux (donc croisé)
On mesure la disparité pour les points C et D. Pour F, la disparité est
nulle, on est sur la fovéa. Pour mesurer, on reporte C et D de l’œil
gauche sur le droit. On a donc la distance DD’ qui est plus grande que
la distance CC’, la disparité est donc plus grande pour D qui est plus
éloigné que C du point F.
Même chose pour les objets plus près que le point F.
Page 17 of 21

Principe de stéréoscopie découvert par Wheatstone (1838), inventeur du premier stéréoscope
(à miroirs), popularisé ensuite par Brewster (au centre) et Holmes (à droite)

Deux images exploitant le mécanisme de disparité binoculaire sont présentées séparément à
chaque oeil (stéréogrammes) -> effet de stéréoscopie (illusion de percevoir la profondeur)

Si les deux images sont trop différentes, on produit de la « rivalité binoculaire » : des
éléments de chaque image sont vus en alternance.

Même phénomène pour le son, celui-ci est perçu de manière différente par les deux oreilles ce
qui donne une impression de profondeur.

Bela Julesz : stéréogrammes camouflés : Des agencements aléatoires de points présentés à
chaque oeil, où aucun contour n’est visible peuvent cependant produire un effet de
stéréoscopie. Les deux images sont identiques à l’exception d’une plage carrée de points au
centre qui est légèrement décalée vers l’intérieur (=> disparité croisée) donnant l’impression
d’un carré qui se détache au dessus du fond.
Ceci indique que les processus perceptifs précoces (processus ascendants ou « bottomup»)
précèdent le traitement des formes et non l’inverse.

Anaglyphes : effet de stéréoscopie produit par deux images superposées de couleurs
complémentaires (ex : rouge-bleu/vert) et regardées au travers de lunettes bicolores. Les
lunettes bicolores permettent de filtrer l’information pour chaque œil.

Wallpapers stereograms (ou Autostereograms) Christopher Tyler (1983) : il a inventé le
stéréogramme avec une seule image. L’effet stéréoscopique est obtenu en vision parallèle ou
croisée au moyen d’une seule image qui contient une image cachée.
Il faut regarder le stéréogramme de près avec les yeux relâchés. Puis éloigner le stéréogramme
des yeux petit à petit jusqu’au moment où on voit l’image en 3D.
Si on regarde un motif qui se répète horizontalement, mais en faisant converger les yeux en un
point situé derrière le mur, le cerveau va superposer un motif vu par l'œil gauche, et un autre
motif similaire vu par l'œil droit pour former une image virtuelle "derrière" le mur. La profondeur
à laquelle l'image virtuelle est vue dépend de la distance entre les deux motifs observés.

Approche computationnelle : l'algorithme de Marr & Poggio (1976) a permis de simuler
l’effet de stéréoscopie
Page 18 of 21

Troubles de la stéréoscopie
o Grandes différences individuelles
o 5-10% de personnes sont atteintes de « cécité stéréoscopique » (mais perçoivent
quand-même la profondeur par d’autres indices)
o Rôle de l’expérience visuelle précoce (strabisme, acuité réduite ou suture d’1 oeil)
dans le développement des cellules binoculaires.
2.3.3.2 La perception du mouvement

Le mouvement est inhérent à la perception visuelle. L’image rétinienne n’est jamais stable
dans des conditions naturelles en raison de :
o Mouvements du monde extérieur
o Mouvements du corps et/ou de la tête de l’observateur
o Mouvements oculaires (poursuite, convergence, saccades)


Si l’on stabilise artificiellement l’image rétinienne, la perception est fortement altérée
Notre organisation neuronale répond avant tout à des changements de la stimulation. En
l’absence de changement, les cellules cessent de répondre. Si on anesthésie les yeux pour ne
pas leur permettre de bouger et qu’on reste debout, on risque de tomber.

En outre, certaines cellules corticales répondent de manière très sélective à des mouvements
dans des directions particulières.

Mesure de l’effet d’adaptation à un mouvement dans
une direction donnée : mouvements du monde extérieur
Stimulus = mvt de bas en haut. On mesure le seuil
d’activation = le tps de réaction au mvt qui augmente si
le pré-test va dans le même sens
Ex : « Waterfall illusion » : Si on fixe une chute d’eau pendant un certain temps puis qu’on
arrête brusquement le mouvement de chute, on a l’impression que l’eau remonte.
Ces effets seraient dûs au phénomène d’adaptation
o Lorsqu’une image est statique, tous les réseaux neuronaux répondent de manière
égale
o Lorsqu’un mouvement dirigé est présenté durant une période suffisamment
longue, les réseaux neuronaux spécialisés dans la direction de ce mouvement vont
s’adapter (// fatigue) et diminuer leur réponse
o Après adaptation, la présentation d’une image statique va entraîner une
perturbation dans la balance de réponse des différents réseaux neuronaux : les
réseaux adaptés répondent moins créant ainsi l’impression perceptive d’un
mouvement de sens opposé

Notion de flux optique (« Optic flow », Gibson, 1950) : Les mouvements de l’observateur (ou
ceux du monde extérieur vers l'observateur) provoquent des transformations constantes au
niveau de l’image rétinienne. Si on se rapproche de l’horizon, celui-ci reste net mais
Page 19 of 21
l’environnement extérieur bouge sur la rétine. En dehors du point de fixation, tout bouge sur
la rétine. On peut par exemple avoir la texture du sol qui bouge.
Le "flux optique" correspond aux vitesses de défilement d'objets présents dans
l'environnement d'un observateur sur la rétine de celui-ci.
Ces transfos de l'image rétinienne peuvent être utilisées par le système perceptif pour…
o Identifier la direction d’un mouvement
 Mouvement vers l’objet => expansion de l’image rétinienne de celui-ci
 Vitesse du mouvement d’expansion plus rapide en périphérie alors que la
vision reste constante au point de fixation
o Estimer le temps d’arrivée d’un objet qui se déplace vers l’observateur
 Comme l’image rétinienne subit une expansion exponentielle quand on se
rapproche d’un objet, l’expansion de l’image rétinienne peut signifier que
l’objet se rapproche de nous ou que nous avançons vers lui
Source de nombreux effets spéciaux au cinéma et d’effets illusoires dans la perception du
mouvement (« moving room » où ce sont les murs qui se déplacent donnant l’impression à
l’observateur d’avancer alors qu’il est immobile ; impression de mouvement dans un train à
l’arrêt provoquée par le déplacement d’un autre train, ….)
Le flux optique est donc un indice puissant d’information quant à la structure 3-D du monde
environnant.
Mouvement apparent:

Illusion découverte par les psychologues de la Gestalt (Wertheimer, 1912)

Cet effet illusoire de mouvement dépend de trois facteurs principaux :
a. L’intervalle de temps séparant la présentation successive des deux
images (ISI : intervalle inter-stimuli)
b. L’effet de similitude entre les éléments des deux images :
l’alternance des deux images ci-contre en superposition crée
l’impression du déplacement vertical d’un disque et d’une étoile.
c. L’effet de proximité entre les éléments des deux images : ce sont les objets les plus
proches qui bougent entre eux.

Kinématogrammes à points aléatoires (Random dots kinematograms; Julesz, 1971)
o L’alternance rapide des deux patrons de points ci-contre, en
superposition, fait émerger un triangle et un cercle. Ces deux
figures, invisibles dans chacun des patrons, apparaissent alors
animées d’un mouvement vibratoire sur un fond statique.
o L’effet de mouvement apparent est créé grâce au décalage
latéral d’un sous-ensemble de points entre les deux patrons,
Page 20 of 21


tous les autres points (fond) occupant par ailleurs la même position spatiale.
Cet exemple constitue un argument en faveur de l'idée que l’extraction des informations
relatives au mouvement précède celles relatives aux formes.
Les effets illusoires créés par le mouvement apparent (MA) et les kinématogrammes (KPA)
sont observés dans des conditions très différentes :
o IIs doivent être plus courts pour les KPA (<100 msec) que pour le MA (<300 msec)
o Le MA peut être observé si l’on présente l’une des deux images à chaque oeil (pas le
KPA)
o Contrastes de brillance et de couleur pour le MA, de brillance seulement pour les KPA
o MA peut s’obtenir pour des formes plus complexes (carré -> triangle avec impression
de déformation des formes)
o L’espace inter-stimuli doit être sombre pour les KPA
Selon Bradick (1980), MA et KPA résulteraient de processus de traitement de niveaux
différents
o KPA : systèmes neuronaux sensibles à la détection et à la directionnalité du
mouvement. Traitement beaucoup plus précoce.
o MA : processus de niveaux plus élevés mais dépendant des informations extraites au
niveau de l’esquisse primale
Page 21 of 21
Téléchargement