Section c) L`exploration oculaire - Département d`information et de

publicité
_____________
chapitre 7
L’ŒIL ET LA VISION
c) L’exploration oculaire
. nystagmus, secousse, dérive, vergence
et torsion
. le balayage du regard
_____________
EXERGUE
“Lorsqu’on décrit l’œil,
on le compare souvent à un appareil photo,
mais les aspects les plus intéressants
de la perception
sont justement ceux qui diffèrent
radicalement
de ceux de la caméra”.
Richard-L. GREGORY
psycho-physiologiste britannique
_____________
c) L’EXPLORATION OCULAIRE
Nous avons donné un aperçu des mécanismes physiologiques qui sont à la base de la
perception visuelle. Mais pour lire une image, il faut d’abord porter les yeux sur
elle. Regarder une image, c’est donc, pour ce qui est de l’apparence extérieure au
moins, déplacer les yeux sur le champ de vision. Mais ce déplacement des yeux n’est
pas simple. C’est en réalité l’intrication harmonieuse de plusieurs types de
mouvements qui permettent au regard de balayer l’image. Des mouvements
involontaires et des mouvements conscients sont en cause.
Nystagmus, secousse, dérive, vergence et torsion
Les mouvement involontaires sont nombreux et répondent à deux fonctions
essentielles: celle de permettre à l’image rétinienne de persister (le nystagmus, les
secousses et la dérive) ou de coordonner les deux images pour permettre la vision
binoculaire (mouvements de vergence et de torsion).
Le nystagmus, dit aussi tremor ou tremblement, consiste en un micro-déplacement
réflexe de l’œil (en fait décomposable en deux temps: un mouvement continu dans
un sens et saccadé pour le retour). Ces déplacements ont une amplitude de plus ou
moins une minute d’arc à la fréquence de 50 à 100 fois par seconde. Le nystagmus est
autonome pour chaque œil (contrairement aux saccades qui sont coordonnées): le
nystagmus a pour fonction essentielle de changer continuellement l’emplacement
de l’image lumineuse sur la rétine. De cette manière, l’image focale se déplace
légèrement à chaque mouvement nystagmique et déclenche un certain nombre de
nouveaux récepteurs (30 à 50) qui prennent le relais des cellules déjà déclenchées et
qui sont donc devenues, comme on le sait, inertes pour un moment.
Les saccades involontaires (flicks, disent certains auteurs), que nous appellerons
secousses pour éviter la confusion avec les saccades d’exploration, sont des
déplacements, réflexes eux aussi, entre deux fixations fovéales. Elles ont une
amplitude moyenne de 5 minutes d’arc et se produisent environ une fois par
seconde (en réalité, la fréquence se répartit à l’intérieur d’une fourchette de 30 par
seconde à une à toutes les 5 secondes). Les secousses sont nécessaires pour visionner
le champ visuel. En effet, la vision fovéale n’est que de 2 minutes d’arc et le champ
total, incluant la vision périphérique, totalise près de 210 degrés. Il est donc
nécessaire, pour explorer ce champ en vision précise, de déplacer l’image lumineuse
pour l’amener plage par plage sur la fovea. Cela se fait grâce aux secousses. Les
psycho-physiologistes Riggs et alii (1953) ont démontré -en rendant l’image
lumineuse fixe sur la rétine par un mécanisme approprié- que sans secousse, l’image
rétinienne s’évanouit.
__________________________________________________________
_______
AMPLITUDE ET FREQUENCE
La présente section mentionne un grand nombre de chiffres qui expriment des
amplitudes et des fréquences auxquelles répond l’œil humain. Nous rappelons ici
les systèmes de référence en question.
Pour décrire l’amplitude de déplacement du regard, on utilise les mesures
habituelles pour mesurer la circonférence: 360° degrés, chacun divisé en 60 minutes,
chacune divisée en 60 secondes. En effet, l’œil pivotant autour d’un axe dont la
pupille serait le centre, on peut imaginer facilement que le faisceau de balayage du
regard correspond à un arc de cercle, qui produit son équivalent à petite échelle sur
la rétine.
Par ailleurs, compte tenu que le temps dont il est question en matière de
mouvements oculaires est très petit, on divise la seconde en 1000 parties; on obtient
donc pour l’évoquer des millièmes de secondes, dits “millisecondes” (symbole:
msec.). On écrit tout aussi bien des fractions simples correspondant à leur valeur en
millisecondes:
__________________________________________________________
_______
50 msec.
1/20 sec.
100 msec.
1/10 sec.
200 msec.
1/5 sec.
250 msec.
1/4 sec.
500 msec.
1/2 sec.
__________________________________________________________
_______
__________________________________________________________
_______
La dérive, c’est le glissement progressif et involontaire de l’œil sur le champ visuel.
Avant que se produise un mouvement correctif par une nouvelle saccade, la dérive
peut atteindre une amplitude de plus ou moins 5 minutes d’arc; cinq cycles de dérive
peuvent se produire par seconde. La psycho-physiologiste américaine Ulker
Tuluney-Keesey (1976) affirme que c’est la dérive qui participe le plus à maintenir la
vision.
Tous ces mécanismes ne semblent pas régis par la nature de l’image mais bien plutôt
par la nature de la rétine. Cela est mis en évidence par Boyce (1967) qui a montré que
ni les variations de couleur, ni de brillance n’ont changé les patterns de
déplacement, mais Carifa & Hebbard (1967) ont montré que des variations de
contraste altèrent ces patterns. Toutefois, l’éminent ophtalmologiste chercheur
Tom-N. Cornsweet (1956) a montré que la séquence des saccades pouvait changer
selon la nature du stimulus. Tout cela pour dire qu’il y a une grande différence
entre garder les yeux immobiles et fixer du regard; dans ce dernier cas, afin de voir,
les yeux bougeront involontairement; dans le premier cas, on peut empêcher les
yeux de bouger involontairement, mais alors, infailliblement, l’image virera au flou.
Ce sont les mouvements de vergence (convergence/divergence) qui permettent
-avec le phénomène de l’accomodation cristalline, bien sûr- de conserver les rayons
lumineux exactement sur le plan rétinien. Ce sont des mouvement automatiques,
et pourtant, relativement lents: 1/2 à 3/4 de seconde pour un mouvement de
convergence (plan éloigné à plan rapproché) de l’ordre de 5 degrés d’arc. Ce qui ne
veut pas dire, au contraire, que le mouvement est lent à démarrer (latence faible). Le
mouvement de divergence est encore plus lent, avec accélération progressive pour
un mouvement de longueur croissante. Mais les différences interindividuelles sont
grandes. Ces mouvements de vergence sont supportés par des mouvements de
torsion qui, comme eux, ont pour but de conserver coordonnées les deux images.
Ces mouvements sont réflexes; certains sont automatiques et liés mécaniquement
aux muscles qui orientent l’œil dans une direction donnée, d’autres sont de type
gyroscopique et compensent (jusqu’à 6 degrés d’arc) l’inclination de la tête pour
tenter de conserver l’image perçue “à la verticale”.
Evidemment, il y a aussi la possiblité de mouvements plus ou moins conscients. Le
premier est la saccade, mouvement de déplacements sporadiques de l’ordre de 1/10
de seconde pour une amplitude de 40 degrés d’arc à moins de 1/40 de seconde pour
une amplitude de 5 degrés. Cela représente tout de même 10% du temps de balayage
d’une image, selon la psycho-physiologue française Ariane Levy-Schœn (1969); en
effet, grossièrement, chaque saccade de 1/40 de seconde est suivie d’un fixation de
1/4 de seconde. Ces saccades participent soit d’une réaction réflexe à l’apparition
d’information nouvelle dans le champ périphérique, soit à la correspondance
dérivée d’un élément du champ périphérique avec la Gestalt informationnelle en
voie de structuration. Evidemment, l’initiation du mouvement saccadique exige lui
aussi un certain temps de latence: entre 150 et 300 millisecondes. Mais ce temps
varie: il est plus court -réaction plus vive- pour une direction vers le haut, de même
que vers la droite, mais surtout il est corrélatif à l’éloignement fovéal (dans ce
dernier cas, existe une différence de l’ordre de plus ou moins 40 millisecondes entre
les stimuli selon qu’ils sont à 10 ou 40 degrés du point de fixation). Pendant le temps
de la saccade, se produit un brouillage partiel de la vision.
Le deuxième mouvement conscient est le balayage volontaire continu du champ. Le
regard se déplace habituellement sur un mode saccadique. Il peut être continu dans
le cas où l’objet d’observation se déplace par rapport au regardeur -mais seulement
dans ce cas. C’est ce que l’on appelle poursuite visuelle ou “pistage visuel”. LevySchœn (1969) explique: “La détermination proprement optique du mouvement
oculaire continu est essentielle. En effet, presque tous les auteurs sont d’accord pour
reconnaître la nécessité de la fixation du regard sur un objet, mobile par rapport à la
tête, pour déclencher ce type de mouvement. Il ne peut être obtenu volontairement:
lorsqu’on croit ‘suivre des yeux’ une ligne ou un cercle, le regard procède en fait par
saccades, et ce n’est que si l’on guide le regard en parcourant du doigt cette ligne ou ce
cercle que les yeux décriront un trajet continu.” L’image se regarde obligatoirement
plage par plage, à moins de suivre une “proie” en déplacement.
Le balayage du regard
Tout cela nous amène à la seule question pratique relative à l’exploration oculaire:
existe-t-il un déroulement standard de la séquence de lecture des images? Certains
opposent la lecture imagique à la lecture alphabétique. Celle-ci serait séquentielle,
linéaire, temporelle; celle-là serait instantanée, globale et unitaire. Richaudeau
(1968) a montré que la lecture alphabétique se fait en une suite de saccades/fixations
pendant chacune desquelles c’est l’image d’une plage de caractères qui est reconnue
formellement pour tel mot ou tel groupe de mots. Il n’en est donc pas autrement
que pour la lecture imagique qui se déroule en une suite de saccades, disons de 1/40
de seconde, suivies chacune d’une fixation, disons de 1/4 de seconde (200
millisecondes comme moyenne minimale selon l’éminent spécialiste Ulric Neisser,
1967). Encore que l’on puisse voir une image simple en moins de 50 millisecondes
(1/20 de seconde); on peut percevoir une image moyenne en une seule fixation de
plus ou moins 300 millisecondes. Si une image est plus complexe, cela nécessitera
évidemment une suite de saccades/fixations. Alors, quelle séquence de fixations
exploratoires suivra le regard?
Il est évident que la plage de fixation fovéale n’est pas le fruit du hasard. On a vu
que toute modification du champ déclenche un réflexe de fixation vers cette plage.
Par la suite, d’autres plages, éventuellement significatives par rapport à la perception
qui est en train de se structurer, sont aperçues inconsciemment dans le champ
périphérique; le regard se dirigera dans une fixation subséquente vers cette plage
d’intérêt. Il est à remarquer que nous avons utilisé le mot “plage”; en effet, ce que
l’on appelle habituellement “point de fixation”, c’est-à-dire ce qui est regardé en
vision fovéale, couvre davantage une plage qu’un seul point sur la face de la rétine.
Mais encore une fois, qu’est-ce qui amène à faire une fixation fovéale à tel point
donné d’une image? Qu’est-ce qui favorise tel schéma de repérage plutôt que tel
autre? Gould & Dill (1969) répondent à cela en affirmant que, par un processus
inconscient, la mise au point se fait exactement sur la partie de l’image qui contient
les formes qui répondent à ce qu’on recherche; devant une image donnée, l’œil se
pose automatiquement sur les objets qui nous intéressent et qui ont été
inconsciemment repérés par la vision périphérique et globale du premier coup
d’œil. Le professeur Geoffrey-R. Loftus (1976) de l’université Cornell pense plutôt
que l’œil se posera d’abord sur la partie la plus informative de l’image (dans le sens
de la théorie de l’information); selon ses propres mots, l’œil focalise sur les objets
dont “le facteur de probabilité qui se trouve là est bas compte tenu de l’ensemble de
l’image et de l’histoire du sujet.” Cela revient à dire que le contenu graphémique
des images même influence l’ordre du balayage et il est vrai qu’il a été prouvé que
certains facteurs intrinsèques influencent grandement la fixation fovéale. Ainsi,
dans une tâche de repérage, L.-G. Williams (1967) a démontré que la couleur est un
indice fort qui facilite le repérage alors que la taille et la forme sont des indices
faibles. S’il est sans doute vrai que les parties les plus informatives de l’image
sollicitent davantage le regard, il est aussi vrai que ses surfaces les plus riches de sens
pour le regardeur (celles qui représentent des humains, par exemple) commandent
le plus grand nombre de fixations tel que l’avait déjà montré il y a longtemps le
professeur G.-T. Buswell (1935) dans son ouvrage précurseur How People Look at
Pictures. Mackworth & Morandi (1967) suggèrent que les quelques premières
fixations seraient plutôt globales pour permettre de déceler les plages précises où
faire un “zoom in”. Une chose est sûre en tout cas: ce qui est retenu d’une image a
été fixé avant la troisième fixation et a été refixé plusieurs fois par la suite comme l’a
prouvé avec évidence Loftus (1972). D’ailleurs, les bons regardeurs font des fixations
nombreuses et courtes (Boynton, 1960); et la durée et l’ordre des fixations ne
semblent pas avoir d’incidence sur la mémorisation des images.
Le grand public imagine qu’il existe des schémas normalisés de balayage d’une
image; on pose au départ que le processus de lecture est automatique et constant.
Autrement dit, la séquence de déchiffrage imagique se répéterait d’image en image,
peu importe la nature de l’image ou la personnalité du regardeur. Plusieurs
schémas de séquences de balayage ont été avancés; les plus répandus sont ceux du
balayage en Z, du balayage en spirale et du balayage hiérarchique.
Certains lecteurs auront donc peut-être entendu dire qu’une image est lue dans un
parcours “en Z”. Dans un mouvement naturel-culturel de super-lecture, le
regardeur parcourrait l’image selon ce tracé, quitte à revenir par la suite à un point
ou l’autre qu’il aura perçu comme possiblement intéressant. On explique ce modèle
par la prégnance de l’acculturation occidentale dans laquelle on utilise des écritures
de gauche à droite et de haut en bas. Cela serait-il différent dans d’autres cultures?
Ainsi l’Arabe s’écrit de droite à gauche et de haut en bas, le Japonais de haut en bas et
de droite à gauche, etc. John-D. Gould (1976) des laboratoires de recherche IBM croit
en effet que l’habitude de lecture influence l’enchaînement des saccades. Mais cela
n’expliquerait pas encore le comportement de lecture imagique des illettrés
fonctionnels que certains auteurs évaluent à près de 10% de la population
alphabétisée d’Amérique du Nord (il y en aurait près de 400,000 au Québec
seulement); ils sont pourtant d’assidus lecteurs d’images. Il est possible aussi que ce
schéma de lecture ait été façonné par les images les plus répandues; ainsi l’imagerie
populaire est friande des images de personnages (images pieuses de saints, portraitssouvenirs, images de presse qui font une large place aux personnages publics, etc.)
qui attirent donc le regard dans le tiers supérieur -au niveau de la tête et des yeux en
particulier, comme l’a clairement démontré le psycho-physiologue russe Alfred-L.
Yarbus (1967). C’est aussi ce modèle de la lecture en Z qui est privilégié par les
maquettistes publicitaires d’expérience; ainsi, il est réputé que la structure des
annonces de périodiques qui attirent le plus l’attention est conforme à ce modèle.
Cela permet un cheminement en corrélation étroite avec le processus de Strong
(1925), un des plus répandus en stratégie publicitaire, dit “processus AIDA”,
anagramme de quatre étapes caractéristiques: 1. attirer l’Attention (cela se fait
habituellement dans le tiers ou la moitié supérieur d’une image); 2. provoquer
l’Intérêt et susciter le Désir (cela se fait grâce à une image et/ou un texte suivi qui
occupent le deuxième tiers ou moitié); 3. enfin, inciter à l’Action (on s’y essaie en
utilisant une conclusion finale qui tente de faire agir le consommateur; on dispose
cet appel avec la signature de l’annonceur dans la partie inférieure droite). Cette
disposition en trois plans successifs commande de toute évidence un parcours en Z
de l’annonce.
Un second modèle prétend que la lecture imagique se poursuit selon un balayage
“en spirale” progressant de la plus grande aire à la plus petite. Ce balayage partirait
du coin supérieur gauche, ferait un premier tour d’image en rasant les marges, puis
un deuxième tour à circonférence plus réduite, et ainsi de suite jusqu’à ce que la
surface ait été entièrement parcourue. Ce modèle se justifie par la structure même
de l’esprit humain qui, pour comprendre, tend à cheminer de la conséquence au
principe (analyse) puis du principe à la conséquence (synthèse). La première réaction
d’un humain face à un ensemble complexe est d’en faire le tour pour tenter d’y
découvrir des sous-ensembles. Ainsi, face à une image, le regardeur tente d’en avoir
une appréhension globale dans un premier temps, puis il essaie ensuite d’y repérer
des sous-ensembles (cf Macworth & Morandi, 1967). Ford et alii (1959) ont démontré
à l’évidence grâce à la technique du reflet cornéen enregistré que, pour les champs
circulaires à tout le moins, la trajectoire du regard est également circulaire, elle aussi.
Ce modèle est donc tout à fait plausible.
Selon le photojournaliste et théoricien hongro-français Paul Almasy (1975), le
parcours du regard sur une image statique se déroule selon une structure
hiérarchique. Selon lui, les unités perceptibles sont de trois types: les être vivants,
les êtres inanimés mobiles et les êtres inanimés statiques; il les appelle composantes
vivantes, mouvantes et stables. D’après cet auteur, ce ne sont pas les facteurs
physiologiques ou psychologiques qui imposent la séquence des fixations mais le
contenu même des images. Les regardeurs seraient reliés par un lien affectif
invisible aux représentations humaines; les personnages seraient donc aperçus dans
un premier temps. Puis, ce sont les représentations de choses en mouvement,
comme les animaux, les nuages, les automobiles, qui attireraient le regard dans un
deuxième temps, par association d’idées sans doute avec les objets en mouvement
qui, dans la réalité, sollicitent l’attention. Enfin, les représentations d’objets
immobiles seraient examinées dans un troisième temps. Ce modèle évoque la
division du monde en trois règnes: animal, végétal et minéral; et certains croient
que c’est cette hiérarchie qui contraint la séquence de lecture.
Selon Yarbus (1967), il n’y aurait pas de parcours d’exploration standard, ni pour
toutes les images, ni pour tous les regardeurs, ni pour toutes les circonstances. Il a
démontré que la séquence des fixations oculaires se structure selon le but poursuivi
par le regardeur. Ainsi, pour une image donnée représentant plusieurs personnages
dans un intérieur, l’œil reviendra plus souvent sur un point ou l’autre selon le but
poursuivi par le regardeur et ce point sera différent selon qu’il faille, disons,
“deviner l’âge des personnes présentes” ou “mémoriser l’emplacement des objets”.
Par exemple, voici sept enregistrements de séances de balayage d’une même image,
chacune durant trois minutes. Chaque relevé révèle l’intention du regardeur
correspondant
à la tâche qui lui avait été assignée: 1. examen libre; 2. étudier le cadre de vie de la
famille; 3. dire l’âge des protagonistes; 4. déduire l’acitivité des gens avant l’arrivée
du “survenant”; 5. mémoriser les vêtements; 6. mémoriser l’emplacement des
personnes et des objets; 7. évaluer la longueur de la période d’absence du
“survenant”.
On peut remarquer que les recherches de laboratoire sont loin encore d’avoir donné
une réponse définitive sur un hypothétique schéma contraignant d’exploration
oculaire. On peut retenir en tout cas que le nombre de fixations est plus grand pour
la partie supérieure et pour la partie gauche. Brandt (1945) a montré que la première
fixation se situe en haut et à gauche de l’image, que la deuxième se situe encore plus
haut et plus à gauche. L’historien d’art allemand Henrich Wolfflin (1928) prétendait
que, à cause du parcours naturel de gauche à droite qui amène le point final sur la
partie droite d’une image, on doit y rassembler les éléments les plus importants;
c’est, selon lui, cette distribution spatiale qui procure le meilleur effet de
composition. La bio-psychologie apporte sur la question un élément d’information
intéressant. La docteur Jerre Levy (1977) de l’université de Chicago affirme que la
perception est asymétrique et que la partie gauche d’une image est privilégiée. Son
argument est le suivant: puisque nous savons que c’est le cerveau droit qui traite
l’information spatiale, le champ gauche aura toujours un traitement préférentiel.
Elle dit: “Quand on regarde une image, l’hémisphère droit est mis en marche
sélectivement, produisant un biais qui fléchit l’attention vers la gauche et y produit
un intérêt psychologique accru. C’est pour cette raison que les images qui corrigent
cette instabilité en ayant le contenu le plus important ou le poids le plus grand vers
la droite, sont jugées plus satisfaisantes sur le plan esthétique.” Mais ce pattern
exploratoire ne marque pas tant l’ordre des fixations que la fréquence avec laquelle
une plage est fixée.
Il se peut aussi que la recherche de modèles généralisables soit chimérique. Gould
(1976) faisait remarquer: “Généralement, les gens scrutent une image pour en
découvrir le sens et non pas pour y identifier une cible précise. En conséquence, les
recherches sur le repérage qui supposent l’examen répété d’un grand nombre de
présentations similaires n’ont qu’une utilité réduite, dans les cas où on regarde une
image pour sa signification. (...) Par exemple, connaît-on la syntaxe et la sémantique
imagique? Quel est le rôle des mouvements oculaires dans ce cas? Si on connaissait
la structure profonde d’une image, pourrait-on prévoir la manière dont une
personne la regarderait ? Est-ce que la manière dont on rassemble, synthétise et
emmagasine l’information imagique diffère fondamentalement de la façon dont on
rassemble, synthétise et emmagasine les phrases que l’on lit ou entend?”
Nous terminerons en mentionnant quelques points qui demeurent cependant
arrêtés: D’une part, 1. les schémas acquis de latéralité et de séquentialité privilégient
le tiers supérieur gauche de l’image; 2. les iconèmes qui portent le plus grand sens
provoquent en premier le regard; 3. des paramètres motivationnels comme
l’homéostasie affective ou la tâche poursuivie influencent l’ordre des fixations; 4.
les différences entre individus et la constance du schéma exploratoire chez un
individu donné laissent supposer qu’on lit une image selon sa forme de pensée
propre; 5. un regardeur retourne sans cesse aux mêmes iconèmes qu’il a identifiés
comme essentiels et laisse pour compte les iconèmes secondaires. D’autre part, 1. la
quantité de détails dans un iconème donné n’influence pas le nombre ou la durée
des fixations; 2. la séquence exploratoire d’une image couleur ne diffère en rien de
celle de la même image en noir et blanc; 3. les contours, si nécessaires pour
permettre à l’image rétinienne de se former, sont partie négligeable pour
l’exploration.
Concluons avec Yarbus (1967) que “encore une fois la distribution des points de
fixation sur un champ, la séquence dans laquelle l’intérêt du regardeur va d’un point
à un autre, la durée des fixations, le cycle de visionnement particulier à chacun, etc.
sont déterminés par la nature du champ et par le problème que le regardeur doit
résoudre au moment du visionnement.”
Téléchargement