Chapitre 3 : La perception des sons de l`environnement, une

publicité
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
Chapitre 3: La perception des sons de l’environnement, une
revue de la littérature
Les deux premiers chapitres posent le contexte théorique, le Chapitre 1 sur la mémoire
situe l’objectif, le Chapitre 2 sur l’amorçage fourni l’outil pour l’étudier. L’objectif de ce
troisième chapitre est de présenter le matériau que nous utiliserons pour étudier l’organisation
de la mémoire sémantique. Avant de continuer plus avant une définition, un peu plus
formelle, des sons de l’environnement, ou tout du moins de ce que nous considérerons, nous,
comme tel, s’impose.
Qu’est-ce qu’un son de l’environnement?
L'un des premiers travaux du domaine (Vanderveer, 1979) propose plusieurs critères
pour définir les sons de l'environnement :
i-Ils sont produits par des événements réels.
ii-Ils ont une signification donnée par les événements qui les produisent.
iii-Ils sont beaucoup plus compliqués que les sons simulés en laboratoire comme les
sons purs.
iv-Ils ne font pas partie d'un système de communication comme le langage.
Quelques années plus tard, Ballas et Howard (1987) apportent quelques modifications
à cette première définition. Ces stimulations ne sont clairement, ni du langage, ni de la
musique, mais ce type de définition par exclusion les renvoie à un plan secondaire. Ils
proposent de conserver uniquement les deux premiers critères proposés par Vanderveer, les
deux derniers étant exclusifs. Les avantages de garder uniquement ces critères seraient
95
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
nombreux selon eux. Premièrement, ils sont consistants avec les notions intuitives sur la
nature des sons de l'environnement. Deuxièmement, ils demandent la spécification exacte de
la source qui produit le son, encourageant de fait la rigueur scientifique. Troisièmement, ces
critères impliquent que la fonction de la perception est de reconnaître les événements et non
pas simplement de traiter le signal acoustique. Finalement, ces deux critères rapprochent les
sons de l'environnement du langage, en gardant en tête que la signification des mots repose
sur des conventions sociales.
Comme nous pouvons le voir définir les sons de l'environnement n'est pas chose aisée,
nous garderons la définition proposée par Ballas et Howard (1987). Un son de
l'environnement est produit par un événement réel et a du sens en vertu de sa relation causale
à cet événement, mais contraste avec les conventions sociales définissant la signification des
mots.
Au même titre que le langage ou les images, les sons de l’environnement véhiculent
du sens. Cette caractéristique les rend très intéressants pour notre propos, l’organisation de
notre mémoire sémantique. En premier lieu, comment un son de l’environnement est-il
capable d’activer des connaissances sémantiques? Si un tel accès est possible, comment ces
connaissances sont-elles organisées en mémoire? Nous avons vu à travers les deux premiers
chapitres l’évolution des recherches et les débats engendrés par l’étude des objets visuels.
Nous pouvons à priori répondre par l’affirmative à la première question pour les images
(Bowers et al., 1999), les arguments expérimentaux restant cependant rares. Nous détaillerons
un certain nombre d’études comportementales ayant pour objets les sons de l’environnement
(Ballas, 1993; Van Petten & Rheinfelder, 1995), suggérant un accès à des structures de
connaissances abstraites, mais n’offrant pas une vue globale du phénomène observé. Nous
verrons également des études d’imagerie cérébrale, de neuropsychologie et
96
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
d’électrophysiologie qui s’intéressent aux traitements sémantiques du langage et des sons de
l’environnement (Bozeat et al., 2000; Clarke et al., 1996, 2000; Lebrun et al., 1998, 2001;
Plante, Van Petten, & Senkfor, 2000). Les données de ces études ne sont pas convergentes,
suggérant ou non une dissociation des structures impliquées pour le traitement sémantique des
sons de l’environnement. Dans un premier temps, nous essaierons de comprendre, si comme
pour les images, les sons peuvent activer directement des connaissances en mémoire
sémantique. Avant de pouvoir répondre à cette question, il semble judicieux de présenter
quelques études relatives au matériel que nous utiliserons. L’objectif de ce chapitre sera de
situer les sons de l’environnement dans les recherches actuelles, plus particulièrement la
relation qu’ils entretiennent avec le sens qu’ils véhiculent.
1 Processus de traitement de l’information auditive
L’objectif de cette thèse est dans un premier temps de déterminer si un son de
l’environnement est capable d’activer des structures de connaissances abstraites en mémoire
sémantique. Nous ne cherchons pas à étudier les déterminants acoustiques qui permettent de
savoir si le son entendu est un aboiement de chien ou non, ni même les différences entre
l’aboiement d’un doberman et celui d’un teckel, nous voulons étudier les activations des
représentations de connaissances abstraites associées au concept «chien», par le biais d’un
son de l’environnement, si elles existent. L’étude des processus de traitements perceptifs qui
amènent à l’identification d’un son dépasse largement le cadre de ce manuscrit (voir,
McAdams & Bigand, 1993; Moore, 2003, pour une revue). Néanmoins, nous présenterons
rapidement les principales étapes perceptives nécessaires à l’identification d’un son (voir,
Ballas, 1993; Gygi, 2001, pour une revue sur les sons de l’environnement).
97
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
«In everyday life, the sound reaching our ears generally arises from a number of
different sound sources. The auditory system is usually able to parse the acoustic input, so
that the components deriving from each source are grouped together and form part of a
single perceptual stream. Thus each source may be ascribed its own pitch, timbre, loudness,
and location, and sometimes source may be identified as familiar. The identification of a
particular sound source depends on the recognition of its timbre.» (Moore, 2003, p.296-7).
Le propos de Moore (2003) nous intéresse particulièrement et marque la frontière de
notre recherche. Que se passe-t-il une fois qu’un ensemble de caractéristique acoustiques
correspondant à un son de l’environnement est perçu? Question ambitieuse s’il en est, qui
nous conduit directement au cœur de notre problématique. McAdams et Bigand (1993)
propose un schéma qui résume les principaux processus de traitement de l’information
auditive et leurs interactions (Figure 3.1). Nous détaillerons certaines de ces étapes de
traitement.
Figure 3.1: Principaux processus de traitement de l’information auditive et leurs interactions, figure
adaptée de McAdams et Bigand (1993).
98
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
La transduction
Le processus de transduction consiste, dans le cas de l’audition, par la transformation
d’un signal mécanique engendré par le son, en un message nerveux utilisable par notre
système nerveux central. Pour plus de détails, nous renvoyons le lecteur au premier chapitre
de l’ouvrage de Moore (2003) qui explique brillamment les étapes conduisant à transformer
un son en signal nerveux (voir aussi, Delorme & Flückiger, 2003).
Processus de groupement auditif
Ces processus sont mis en jeu lors de l’analyse de scène auditive (Bregman, 1990).
L’être humain est capable dans un environnement sonore, d’une part de séparer les sons émis
par différentes sources (ségrégation), et d’autre part de réunir toutes les composantes
(fréquentielles par exemple) issues d’une même source (fusion). Ces processus renvoient
directement à une partie de la citation de Moore proposée quelques lignes plus haut: «The
auditory system is usually able to parse the acoustic input, so that the components deriving
from each source are grouped together and form part of a single perceptual stream.» (voir
Bregman, 1990, pour une revue).
Extraction ou calcul des propriétés ou attributs perceptifs
Cette extraction correspond à la deuxième partie de la citation empruntée à Brian
Moore: «Thus each source may be ascribed its own pitch, timbre, loudness, and location,
and sometimes source may be identified as familiar. The identification of a particular sound
source depends on the recognition of its timbre.». Après la ségrégation et la fusion des
différents événements sonores par les processus de groupement auditif, chaque événement
pourra être analysé selon différents attributs perceptifs (durée, intensité, hauteur, timbre...).
99
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
Structures de connaissances abstraites
Nous voilà au cœur de cette thèse, les auteurs du schéma décrivent cette étape
comme: «Une fois représentées dans le système perceptif, les qualités perceptives peuvent
être interprétées en fonction des structures de connaissances évoquées. L’événement sonore,
ou la séquence d’événements, est alors reconnu, identifié, et reçoit une signification qui
dépend du contexte et de l’expérience antérieure de l’auditeur.» (McAdams & Bigand, 1993,
p.7).
Nous allons aborder, dans les points suivants, les études effectuées spécifiquement
avec des sons de l’environnement, qui nous renseignent sur l’accès voir l’organisation des
connaissances conceptuelles activées par ces stimulations. Nous détaillerons les apports de
différentes disciplines appartenant aux neurosciences. Des comparaisons seront faites avec
d’autres sources auditives comme la musique ou le langage, particulièrement avec les études
de neuropsychologie.
2 Sons de l’environnement et connaissances abstraites, un état des lieux
L’objet de ce point n’est pas de dresser une liste exhaustive de l’ensemble des études
se rapportant aux sons de l’environnement. Une telle approche ne ferait que nous éloigner de
notre objectif. Nous présenterons un ensemble de recherches qui directement ou indirectement
étudient les connaissances conceptuelles qui nous permettent de donner du sens aux
stimulations sonores qui nous intéressent. La littérature restreinte dans le domaine des sons de
l’environnement permettra de détailler certaines études importantes au niveau cognitif.
Différentes approches seront présentées. Les études comportementales, souvent sur les traces
de celle du langage, interrogent sur la pertinence d’une telle approche et constitueront la plus
100
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
grande partie de ce chapitre. Les études d’imagerie fonctionnelle, qui suggèrent des processus
de traitements différents selon que l’on tente d’identifier ou de localiser un son, proposent
également un stockage sémantique commun. L’approche neuropsychologique apporte des
informations sur la nature des dysfonctionnements suite à des atteintes cérébrales. Nous
verrons que certains patients sont déficients pour reconnaître des sons de l’environnement tout
en conservant des capacités langagières et musicales intactes. De la même manière, d’autres
patients présentent des troubles langagiers qui épargnent leur capacité à identifier des sons de
l’environnement. Nous terminerons cette revue de littérature par les études
électroencéphalographiques qui proposent des traitements différentiels en fonction de la
nature verbale ou non du matériel, mais suggèrent également un accès à une mémoire
sémantique commune. L’ensemble des approches conduit à considérer un son de
l’environnement sous plusieurs aspects. Sa nature sonore le rattache à la cognition auditive et
nous fait l’étudier en fonction de la musique ou du langage parlé. Des comparaisons seront
faites en fonction de ses deux pendants sonores, principalement dans les études de
neuropsychologie. Les sons peuvent également convoyer du sens, cet aspect a intéressé
quelques psychologues cognitivistes qui les ont étudiés en employant les méthodes déjà
utilisées pour le langage. Assez récemment le son de l’environnement a pris un nouveau statut
dans un ensemble de recherche mêlant toutes les compétences des différents domaines que
nous venons de citer (psychologie cognitive et disciplines des neurosciences). Ces stimuli ont
pris une place un peu similaire à celle des images, longtemps considérées comme les
stimulations non-verbales signifiantes par excellence. Ce changement a pris du temps à
s’opérer du fait des écueils rencontrés par les cognitivistes dans leurs études sur les sons de
l’environnement, abordés avec les méthodes développées pour l’étude du langage, mais
également par l’ancrage de ces stimulations dans une conception sonore globale avec le
langage et la musique. Les développements récents mettent en exergue les similitudes qui
101
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
semblent exister entre les images et les sons tant au niveau de la différenciation des voies de
traitements «Où» («Where») et «Quoi» («What»), mais également pour le stockage des
connaissances en mémoire sémantique. Le son change de statut et devient au même titre que
les images une source de compréhension qui pourra mieux éclairer le fonctionnement cognitif
général.
2.1 Les études comportementales
Nous restreindrons les études comportementales au domaine de la psychologie
cognitive, nous n’aborderons pas les études psychophysiques et acoustiques utilisant des sons
de l’environnement (Freed, 1990), ni l’approche écologique (Vanderveer, 1979; Gaver,
1993a, 1993b) qui dépassent largement le cadre de cette thèse.
2.1.1 Écoute dichotique
Durant les années 1960 quelques chercheurs se sont intéressés au rôle différentiel des
hémisphères en fonction de la nature verbale ou non des stimulations (Bakker, 1967; Kimura,
1961, 1964, Knox & Kimura, 1970). Ces études utilisant l’écoute dichotique montrent que le
matériel verbal est mieux retenu quand il est présenté à l’oreille droite (hémisphère gauche,
HG), l’inverse étant observé pour l’oreille gauche (hémisphère droit, HD). Déjà la
spécialisation hémisphérique, que nous retrouverons au cours de cette revue, particulièrement
dans le point consacré aux études neuropsychologiques, apparaît entre le langage (HG) et les
sons de l’environnement (HD).
102
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
2.1.2 Identification de sons de l’environnement
Dans une série de deux études portant sur l’identification de sons de l’environnement,
Lass et al. (1982, 1983) mettent en évidence une forte influence de la familiarité, qui sera
étudiée plus en détail quelques années plus tard par Ballas et ses collaborateurs. Lass et al.
(1982) présentent 40 sons de l’environnement repartis en 4 catégories (animaux, instruments
de musique, objets et sons humains). Les sons les mieux identifiés sont ceux de la catégorie
«sons humains», suivis par les instruments, les objets et enfin les animaux. Les performances
d’identification pour la catégorie des animaux est en moyenne de 77,5%, ceci contraste avec
les trois autres catégories où les sujets identifient les sons dans plus de 90% des cas. Les
auteurs concluent que leur patron de résultats serait dû à la familiarité des sujets avec les sons
de chaque catégorie. Quand on regarde le détail des résultats, les sujets identifient très bien les
cris des animaux domestiques (chien, chat) et échouent pour les animaux de ferme (cochon,
mouton). Ils font l’hypothèse que l’exposition quotidienne peu courante à certains cris
d’animaux entraîne les différences de résultats qu’ils observent. Ces deux études mettent en
évidence deux facteurs déterminants pour l’identification des sons de l’environnement, la
typicalité et la familiarité.
2.1.3 Les travaux de James Ballas et collaborateurs
Pendant presque 15 ans, Ballas a fait des sons de l’environnement son principal objet
d’étude. Nous détaillerons quelques-unes de ses recherches en commençant par celles
réalisées en collaboration avec Howard. Ils s’intéressent dans un premier temps à
l’apprentissage de séquences de sons inspiré par des travaux issus d’études d’apprentissage
implicite de grammaire artificielle utilisant des lettres (Reber, 1967, 1969, 1976). Howard et
Ballas (1980) étudient le rôle de structures syntaxiques et sémantiques en utilisant des sons
103
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
avec et sans signification. Au cours de trois expériences, ils font apprendre à des sujets des
séquences de sons grammaticales ou non (Figure 3.2).
D
A
C
D
A
Entrée
Sortie
C
B
E
B
A
B
Stimuli Expérimentaux
Codes
Exp1
Exp2
Exp3
A
B
C
D
E
1157 Hz
1250 Hz
1345 Hz
1442 Hz
1542 Hz
Foreuse
Applaudissement
Bruit blanc
Coup de marteau
Choc de bois
Ouverture d’une vanne
Eau qui coule
Bruit blanc
Choc métallique
Chasse d’eau
Figure 3.2: Diagramme de la grammaire à état fini utilisée pour construire les séquences grammaticales
(G) et non-grammaticales (NG). Les différents stimuli des trois expériences sont détaillés en fonction de la
grammaire. Diagramme adapté d’Howard et Ballas (1980).
La première expérience consiste à présenter des séquences, grammaticales (G) ou non
grammaticales (NG), composées de sons purs à deux groupes de sujets. L’expérience se
déroule en deux phases. Dans une première phase d’étude, ils présentent aux sujets, selon leur
groupe, des séquences G ou NG, de 4 à 6 sons d’une durée de 80ms chacun. À l’issue de
cette phase d’apprentissage, les auteurs informent les sujets que les séquences de sons qu’ils
104
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
viennent d’entendre sont gouvernées par des règles. Ces règles leur serviront pendant la
deuxième partie de l’expérience, la phase de test, dans laquelle les sujets devront déterminer
au cours d’une tâche de reconnaissance si les séquences qu’on leur présente sont G ou NG. Le
groupe G obtient de meilleures performances que le groupe NG, les résultats vont dans le
même sens que ceux rapportés avec les grammaires artificielles de lettres.
Les auteurs construisent l’Expérience 2 selon le même principe en remplaçant les sons
purs par des sons de l’environnement d’une durée de 82 ms (voir Figure 3.2, pour les détails).
Les résultats sont similaires mais d’une amplitude moindre que ceux observés pour les sons
purs. L’utilisation de sons de l’environnement, plutôt que de sons purs, semble gêner
l’apprentissage des structures G. Howard et Ballas suggèrent que la présence d’informations
sémantiques supplémentaires pour les sons de l’environnement par rapport aux sons purs, a
peut-être biaisé les sujets causant la diminution de l’amplitude de l’effet entre les deux
expériences. Ils décident de conduire une troisième étude sur le modèle de la seconde. Ils
conservent un groupe G et un groupe NG divisés chacun en deux. Une moitié des sujets de
chaque groupe est invitée à lire un petit texte qui fournit les informations sémantiques
relatives à chaque son, sans toutefois donner d’informations sur les règles qui peuvent unir les
différents sons présentés: «All of the individual sounds relate to water and steam. You will
hear such things as drips, water flushing down a drain, a valve being turned on, steam
escaping, and radiator pipes clanging» (Howard & Ballas, 1980, p.436). L’autre moitié des
sujets de chaque groupe ne reçoit pas les informations sémantiques relatives à chaque son. Les
auteurs pensent que prévenir les sujets pourrait éviter qu’ils soient influencés par la
signification des sons. À nouveau, les sujets du groupe G ont des performances de
reconnaissance supérieures à celles du groupe NG. Les informations sémantiques données à la
moitié des sujets entrent en interaction avec le groupe, G ou NG. Les sujets du groupe G
réussissent mieux la tâche quand ils ont eu les instructions. Les auteurs suggèrent que nous
105
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
utilisions pour appréhender les sons, à la fois des connaissances sur les structures syntaxiques
(structure temporelle) et sémantiques (connaissances sur la source de l'événement sonore,
Expérience 3), mais aussi les informations perceptives présentes dans les sons de
l'environnement (Expérience 1).
Plusieurs années plus tard, les mêmes auteurs (Ballas & Howard, 1987) poursuivent
l’étude comparative entre les stimuli verbaux et sonores non-verbaux. Ils font des
comparaisons directes entre les processus «top-down» et «bottom-up» impliqués dans le
traitement du langage et des sons de l’environnement. L’influence des processus «top-down»
inclut les résultats de leurs travaux antérieurs (Howard & Ballas, 1980, 1982). Concernant les
processus «bottom-up», ils s‘inspirent des travaux de Vanderveer (1979), Warren et
Verbrugge (1984) ou encore de Bregman (1978) pour l’implication des caractéristiques
acoustiques des sons (timbre, hauteur, caractéristiques spectro-temporelles...). Ils s’intéressent
également à la fréquence d’occurrence des sons de l’environnement, qu’ils comparent aux
effets de fréquence des mots, pour eux ce facteur semble difficilement testable (Ballas
essayera en 1993). Les auteurs parlent également d’incertitude causale («causal
uncertainty»), qui peut être comparée aux effets d’homonymie observés en langage. Cette
incertitude concerne la source qui génère le son, confondre le miaulement d’un chat avec les
cris d’un bébé par exemple. Pour déterminer cette ambiguïté quant à la source, ils proposent
un facteur (Hj) qui se base sur la théorie de l’information (l’entropie, DeGreen, 1971, cité
dans Ballas & Howard, 1987). Ce facteur se calcule selon l’équation suivante:
n
Hj = -
p(ci) log2p(ci)
i=1
*Hj = l’entropie causale du son «j»
*n = le nombre de catégories d’événements dans lequel se retrouve classé le son «j»
*p(ci) = la proportion de réponses pour le son «j» dans la catégorie «i»
106
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
Pour évaluer la validité de leur facteur d’entropie, les auteurs analysent les résultats
d’une série de trois expériences dans lesquelles les sujets doivent identifier et fournir un
indice de confiance pour neuf sons de l’environnement. La corrélation entre l’entropie causale
et l’indice de confiance (mesuré sur une échelle en 5 points) est significativement négative
(r=–.89, p<.01), indiquant que la confiance du sujet diminue d’autant plus que le nombre de
causes (ou sources) qui peuvent engendrer le son augmente. Identifier un son présenté en
isolation dépend donc en partie du nombre de causes différentes qui peuvent le générer (voir
Gygi, 2001, pour une interprétation plus nuancée).
Ces deux études (Howard & Ballas, 1980; Ballas & Howard, 1987) font des parallèles
entre le traitement des sons de l’environnement et du langage. Elles documentent
principalement l’apprentissage de règles sous-tendant des séquences de sons et des effets
d’homonymie. Les auteurs concluent dans leur article : «... the recognition of isolated speech
and environmental sounds produces similar patterns of semantic interpretations... an
underlying structure enhances learning of environmetal sounds and, as with speech, is
learned implicitly...» (Ballas & Howard, 1987, p.111-2).
Ballas et Mullins (1991) poursuivent l’étude des sons de l’environnement en ligne
directe avec les deux travaux que nous avons de détaillé. Les parallèles faits avec le langage,
plus particulièrement l’effet d’homonymie, forment le point de départ de cette étude.
L’objectif est d’étudier les effets de contexte sur l’entropie causale d’un son. Tout
naturellement, ils se tournent vers un paradigme de recherche déjà éprouvé en langage,
l’amorçage. Ils basent leur étude autour des deux observations principales faites
précédemment sur l’homonymie (Ballas & Howard, 1987) et les séquences grammaticales
cohérentes de sons (Howard & Ballas, 1980). Ils forment des paires de sons qui peuvent être
confondus tout en restant discriminables («nearly homonymous pairs», paires presque
homonymes), par exemple le vent qui souffle et un hurlement d’animal. Ces sons constituent
107
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
les cibles, qui sont intégrées dans des séquences de trois à six sons selon trois modalités, des
séquences consistantes, biaisées et aléatoires (Expérience 1). Par exemple, la séquence
consistante pour le pétard est composée des sons suivants: une allumette qu’on gratte, la
mèche d’un pétard qui brûle, une explosion, et pour la séquence biaisée: de la nourriture
coupée en tranches, puis en morceau, la mèche d’un pétard qui brûle. Le sujet doit choisir
dans une tâche de choix forcé le son parmi la paire d’homonymes qui correspond le mieux au
contexte proposé (dans notre exemple entre la mèche d’un pétard qui brûle et du bacon qui
frit). Les séquences consistantes augmentent les performances des sujets quand on les
compare aux séquences biaisées, mais pas avec la ligne de base qui correspond à la
présentation d’un label linguistique correspondant à l’un des sons d’une paire d’homonymes
sur lequel le sujet doit effectuer une correspondance entre le mot et le son. Les auteurs
proposent deux interprétations pour rendre compte de leurs résultats. D’une part, le contexte
consistant a peu ou pas d’influence et donc les effets en contexte biaisé sont inhibiteurs.
D’autre part, les résultats en condition ligne de base et consistant pourraient être des
performances plafond. Ils pensent que comme les sujets sont amenés à identifier chacun des
sons proposés, les effets de contexte sont réduits. Ils proposent une nouvelle expérience
(Expérience 2) pour tester cette hypothèse, elle est identique à la première expérience à la
différence qu’une phrase décrit le contexte sonore avant chaque essai. La comparaison des
résultats des deux premières expériences conduit les auteurs à conclure que l’ajout d’une
phrase pour décrire le contexte a peu d’effet sur les performances. Ces résultats vont dans le
sens d’une interprétation en termes d’effet inhibiteur créé par les séquences biaisées. Dans les
deux dernières expériences, ils conservent une structure similaire à celle de la première
expérience en changeant la ligne de base (identification d’un seul son au lieu d’une paire) et la
tâche, en remplaçant le choix forcé par une tâche d’identification libre. Le sujet doit identifier
tous les sons présentés en écrivant une phrase pour les décrire (Expérience 3). Les résultats
108
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
sont similaires à ceux des deux premières expériences. Ils réalisent alors une dernière
expérience pour évaluer l’influence des labels linguistiques avec une tâche d’identification.
Quatre groupes de sujets sont formés, deux groupes entendent des sons isolés, et les deux
autres les séquences de sons utilisées dans les expériences précédentes. Un groupe dans
chacune de ces conditions voit des phrases de contexte biaisé, et l’autre des phrases de
contexte consistant. Les performances sont meilleures dans les deux groupes où le contexte
est consistant avec la cible à identifier. Les deux groupes qui voient des contextes biaisés
donnent significativement plus de réponses correspondant aux «presque homonymes»
(>40%), dans les groupes consistants ce type d’erreurs est extrêmement rare (<3%).
Ballas et Mullins (1991) avaient pour objectif de poursuivre l’étude des similitudes
entre les sons de l’environnement et le langage (Howard & Ballas, 1980; Ballas & Howard,
1987). Ils documentent un nouveau phénomène les effets de contexte pour les sons de
l’environnement, cependant le patron de résultats ne correspond pas à celui attendu, en
d’autres termes ils ne répliquent pas les effets observés en langage. Les auteurs proposent
plusieurs conclusions, en utilisant la théorie de la détection du signal sur leur quatre
expériences et en se basant sur les comparaisons des mesures de la sensibilité et de biais de
réponse. La sensibilité reste constante tant que des alternatives spécifiques (plusieurs sources
possibles pour un même son) peuvent être évaluées comme étant une cause probable du son.
Le biais de réponse augmente en fonction de l’ajout d’information contextuelle, dans le cas où
les informations fournies sont erronées. Les auteurs concluent que la généralisation des effets
de contexte, documentés dans le domaine du langage, doit être faite avec prudence pour les
sons de l’environnement, car il ne semble pas exister de parallèle entre les deux. Il existe une
organisation hiérarchique pour la perception du langage (phonèmes, mots, phrases) qui
influence fortement notre compréhension. Cette organisation n’est pas présente pour les sons
de l’environnement. Une autre différence entre le langage et les sons de l’environnement
109
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
réside dans l’importance des unités perçues. D’après Ballas et Mullins, en langage, tous les
stimuli ont généralement du sens et contribuent au contexte. Cet état est différent pour les
sons, nous y sommes continuellement soumis et ils peuvent ou non avoir de l’importance. Ces
disparités entre le langage et les sons permettent d’argumenter sur les différences entre les
effets de contexte obtenus dans ces deux domaines. Les résultats de cette étude suggèrent des
différences fondamentales entre le langage et les sons de l’environnement, conduisant les
auteurs à modifier leur approche comparative entre les sons et le langage, pour se centrer sur
les seuls sons de l’environnement.
Ballas (1993) décide d’étudier les facteurs déterminants pour l’identification des sons
de l’environnement isolés et plus particulièrement la validité de son facteur d’incertitude
causale (Hcu, correspondant au facteur Hj détaillé plus haut dans l’étude de Ballas et Howard
(1987)). Il utilise 41 sons de l’environnement d’une durée de 625ms comprenant des signaux
(sonnette, alarme...), des sons modulés (fusil automatique, scier du bois...), des sons
impliquant plusieurs bruits mécaniques (trotteuse d’une horloge, ouverture d’une porte), des
sons d’impacts (bruit de pas, décrochement du téléphone...), et des sons d’eau (tirer la chasse,
goutte d’eau...). L’étude se divise en cinq expériences qui explorent l’influence de facteurs
acoustiques, écologiques, perceptifs et cognitifs sur l’identification des 41 sons. La première
expérience s’appuie sur les résultats d’une étude précédente (Ballas, Sliwinski, & Harding,
1986) où les auteurs mettent en évidence une fonction logarithmique entre le temps
d’identification et l’entropie causale pour 41 sons de l’environnement. Ballas (1993) veut
déterminer si l’entropie (Hcu, «causal uncertainty», incertitude causale) est dépendante de
facteurs perceptifs (analyse auditives des sons) et/ou cognitifs (prises en compte des
différentes sources qui ont pu générer le son). Il mesure dans un premier temps, les
caractéristiques acoustiques des 41 sons, comme les propriétés spectrales (Transformée de
Fourier), temporelles (nombre et durée des impulsions...), et spectro-temporelles (amplitude
110
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
moyenne, mesure de la pression du son). Dans un second temps, 30 sujets sont chargés
d’identifier les 41 sons lors d’une première écoute, puis lors d’une seconde écoute, on leur
demande de donner toutes les alternatives possibles pour un son donné et de juger de la
familiarité des sons. Avec l’ensemble de ces données, acoustiques, cognitives et l’incertitude
causale l’auteur effectue des corrélations. Les temps de réponse des sujets (linéarisés par une
fonction logarithmique) sont fortement corrélés à l’incertitude causale des sons (r=.89), la
précision des sujets s’échelonne de 4 à 100% en fonction des 41 sons et est négativement
corrélée avec les temps de réaction (r=-.72). Aucune caractéristique acoustique n’est
significativement corrélée avec les temps de réponse ou la précision. La combinaison de
l’ensemble des facteurs acoustiques permet d’expliquer 50% de la variance des temps
d’identification.
Dans l’Expérience 2, Ballas mesure la fréquence écologique des sons de
l’environnement. Vingt-cinq sujets sont recrutés pour une semaine, pendant laquelle ils
doivent enregistrer jusqu’à 50 noms de sons, exception faite des sons musicaux et langagiers.
L’auteur a réuni 1185 noms de sons et a pu les classer en fonction de la date, de l’heure et du
contexte. La moitié a été enregistrée «à la maison», pour la plupart entre 7 heures et 22
heures. Vingt-deux des sons utilisés dans l’Expérience 1 se retrouve nommés dans les
résultats de cette étude. La corrélation entre la fréquence écologique et les temps de réaction
est faible mais significative (r=.42). La combinaison des caractéristiques acoustiques des
sons et de leur fréquence écologique permet d’expliquer 75% de la variance des temps de
réaction.
Dans une troisième expérience, Ballas demande à des sujets de noter les sons grâce à
18 échelles en fonction de facteurs cognitifs (agréabilité, représentativité...) et perceptifs
(intensité, hauteur...). Les résultats aux échelles sont corrélés à ceux des deux premières
expériences. Par exemple, les scores de l’échelle de reconnaissance sont corrélés avec la
111
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
précision enregistrée dans l’Expérience 1 (r=.73). De la même manière, les performances de
l’échelle «puissance» sont corrélées avec l’intensité (r=.49). Une analyse en composante
principale des résultats (ACP) permet en fonction des différentes échelles de mettre en
évidence que trois facteurs expliquent 87% de la variance. Le premier facteur correspond aux
performances des échelles en rapport avec le degré d’identification des sons, comme la
facilité avec laquelle on peut former une image mentale, la similarité du son par rapport à son
stéréotype mentale (Rosch, 1975) ou encore la facilité à verbaliser l’événement sonore. Le
second facteur dépend de la qualité perçue des sons, comme l’agréabilité, la relaxation ou
encore l’agressivité. Le troisième facteur correspond au nombre de sons classés dans la même
catégorie, jugés similaires et le nombre de causes estimées pour un son. L’auteur utilise une
analyse hiérarchique en clusters pour déterminer si les scores des échelles perceptives et
cognitives produisent des catégories («clusters») interprétables pour les sons de
l’environnement. Les données permettent de dégager une organisation des sons en quatre
grandes catégories distinctives. Les quatre catégories correspondent aux bruits en rapport avec
l’eau, aux bruits informatifs (sirène, sonnerie téléphone, sonnette...), aux sons qui ne sont pas
très identifiables comme ceux en rapport avec des automobiles ou l’ouverture/fermeture de
portes et aux sons composés de plusieurs transitions (interrupteurs, agrafeuse...). L’échantillon
de sons étudié reste néanmoins restreint et peu varié, sans cris d’animaux ni instruments de
musique par exemple. Les résultats des corrélations montrent l’importance des facteurs
acoustiques, perceptifs et cognitifs pour l’identification des sons de l’environnement. Les
deux dernières expériences sont réalisées pour étudier l’influence de la typicalité et de la
probabilité de la source d’un son sur l’incertitude causale et l’étiquetage linguistique des sons.
Les Expériences 4 et 5 sont des expériences d’amorçage, on demande au sujet de lire
un mot puis d’écouter un son. La tâche consiste à déterminer si oui ou non le mot (amorce) est
une source possible pour le son entendu (cible). L’hypothèse de Ballas, à propos de son
112
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
facteur Hcu, est qu’il existe des causes hautement (haute) et faiblement (basse) probables
(voir résultats Tableau 3.1). Les résultats de l’Expérience 4 montrent que les sujets sont plus
rapides pour répondre «oui» (1382ms) que «non» (1680ms). L’influence de la probabilité
(haute ou basse) n’est pas significative mais entre en interaction avec le type de réponse. Les
probabilités «hautes» sont confirmées plus rapidement que les «basses» mais rejetées plus
lentement que les «basses». Les résultats vont dans le sens des corrélations observées dans
l’Expérience 1 entre l’incertitude causale et les temps d’identification.
Expérience 4
Amorce Réponse TR en ms
Haute
Oui
1239
Basse
Oui
1585
Haute
Non
1961
Basse
Non
1619
Expérience 5
Typique Amorce Réponse TR en ms
Oui
Haute
Oui
1175
Oui
Basse
Oui
1488
Non
Haute
Oui
1568
Non
Basse
Oui
1806
Oui
Haute
Non
1188
Oui
Basse
Non
1455
Non
Haute
Non
2023
Non
Basse
Non
1524
Tableau 3.1: Temps de réactions (en ms) des Expériences 4 et 5 en fonction de la nature de l’amorce
(amorce hautement (haute) ou faiblement (basse) probable, comme source possible du son), de la réponse
attendue et de sa typicalité (uniquement pour l’expérience 5, typique ou non typique).
L’Expérience 5 consiste à étudier l’implication à la fois de la probabilité de la cause
(Expérience 4) mais également de sa typicalité. Les deux sont incluses et confondues dans le
facteur Hcu et dans la capacité d’identification des sons de l’environnement. La typicalité fait
référence à des exemplaires qui sont très représentatifs de leur catégorie (Rosch, 1975). Les
résultats montrent qu’en général, les temps de réponse sont plus rapides pour les probabilités
«hautes» plutôt que «basses» et pour les sons typiques plutôt que non typiques. La seule
exception reste le rejet des probabilités «hautes» pour les sons non typiques qui prennent
plus de temps.
113
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
Ballas (1993) met en évidence, à travers ses 5 expériences, le rôle de différents
facteurs (variables acoustiques, fréquence écologique, incertitude causale, typicalité des sons)
impliqués dans l’identification de son ensemble de 41 sons de l’environnement (voir
également Gygi, Kidd, & Watson, 2000, pour une approche similaire). Il reste prudent quant à
la généralisation de ses résultats du fait du nombre limité de sons utilisés. Néanmoins son
facteur d’incertitude causale (Hcu) a déjà été détaillé dans d’autres études utilisant des
ensembles de sons différents (par exemple, Ballas et al., 1986).
Cet ensemble d’études est probablement le plus complet dans le domaine de la
perception des sons de l’environnement, il permet de mieux cerner comment nous donnons du
sens à ces stimulations et quels sont leurs rapports avec le langage. L’identification et les
comparaisons faites avec le langage constituent les apports principaux de Ballas et ses
collaborateurs. Nous allons en reprendre les points centraux et détailler en quoi ils sont
importants pour comprendre l’organisation des sons de l’environnement en mémoire
sémantique.
Ballas et ses collaborateurs ont réalisé de nombreuses comparaisons entre les
traitements des sons de l’environnement et du langage. Leurs résultats qui dans un premier
temps permettent d’observer des similitudes, révèlent également des différences de traitement.
Howard et Ballas (1980) mettent en évidence l’existence de structures syntaxiques et
sémantiques pour les sons de l’environnement similaires à celles observées avec des
grammaires artificielles utilisant des lettres (Reber, 1969). De la même manière, le
phénomène d’homonymie observé en langage trouve une correspondance dans la perception
des sons de l’environnement (Ballas & Howard, 1987). Par exemple, si vous entendez le mot
«/vr/» en isolation, il vous sera impossible sans autres informations de déterminer s’il s’agit
de verre, vert, ver, ou vers. De la même manière, entendre un son de vapeur en isolation ne
114
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
vous dira pas s’il s’agit d’une bouilloire, d’un train à vapeur ou encore d’une cocotte-minute
(correspond à l’incertitude causale, Ballas, 1993; Ballas & Howard, 1987). Ballas et Mullins
(1991) s’appuyant sur le parallèle qu’ils observent entre le phénomène d’homonymie pour les
mots et de l’incertitude causale pour les sons, emploient les effets de contexte pour étudier
l’organisation des sons. Les effets de contexte qu’ils observent pour les sons de
l’environnement sont différents de ceux rapportés dans le domaine du langage. L’observation
de ces différences conduisent Ballas à arrêter les études comparatives entre le traitement du
langage et des sons de l’environnement. Cependant en 1993, Ballas met en évidence un
certain nombre de facteurs entrant en jeu dans l’identification des sons de l’environnement
comme, les facteurs acoustiques, la fréquence écologique, l’incertitude causale et la typicalité.
Afin d’étudier l’influence de la typicalité et de l’incertitude causale sur l’identification des
sons de l’environnement, Ballas réalise deux expériences d’amorçage répété inter-format
(1993, Expériences 4 & 5). Ces deux dernières expériences permettent pourtant d’observer
des effets d’amorçage facilitateurs, similaires à ceux rapportés dans le domaine du langage.
Bien que le contexte est important pour permettre l’identification pertinente des sons
de l’environnement (Ballas & Howard, 1987), Ballas et Mullins (1991) échouent à mettre en
évidence avec des sons de l’environnement, des effets de contexte similaires à ceux rapportés
dans le cas du langage. Ce résultat est cependant à nuancer aux vues des données rapportés
deux ans plus tard par Ballas (1993). L’auteur arrêtera d’utiliser les sons de l’environnement
comme support pouvant véhiculer du sens suite à son étude de 1993. Cependant, le dernier
résultat de Ballas est crucial pour nous car il suggère qu’un mot désignant la source d’un son
peut faciliter le traitement de ce son, comparé à un son sans rapport avec le mot. Cette
facilitation indique qu’un mot active le concept qui lui correspond et que la pré-activation de
ce concept permet de faciliter le traitement d’un son lui correspondant.
115
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
2.1.4 Mémoire et sons de l’environnement
Nous détaillerons dans ce point quelques-unes des études s’intéressant directement aux
capacités de notre mémoire lorsque nous traitons des sons de l’environnement. Nous verrons
tout d’abord un ensemble de recherche qui a abordé la relation entre les sons de
l’environnement et la mémoire selon une approche structurale. Cette approche s’inscrit dans
le cadre des recherches sur la dissociation entre la mémoire implicite et la mémoire explicite
(Graf & Schacter, 1985), en employant des tâches d’amorçage à long terme (Chiu, 2000, Chiu
& Schacter, 1995, Stuart & Jones, 1995). Une seconde partie sera consacrée à l’étude des
relations entre les sons de l’environnement et la mémoire sémantique selon l’approche
fonctionnelle. Nous verrons d’une part des études qui tachent de déterminer comment les sons
de l’environnement sont stockés en mémoire sémantique en se basant sur des théories comme
celle du double codage développée par Paivio (1971, 1986) (Barlett, 1977; Lawrence &
Cobb, 1978; Paivio, Philipchalk, & Rowe, 1975; Thompson & Paivio, 1994). D’autre part,
nous détaillerons les résultats d’études qui donnent des indications sur les liens que peuvent
entretenir les sons de l’environnement au sein de la mémoire sémantique, en présentant la
partie comportementale de l’étude de Van Petten et Rheinfelder (1995), et en revenant sur les
résultats de Ballas (1993, Expériences 4 & 5), qui documentent des effets facilitateurs
d’amorçage répété inter-format avec des sons de l’environnement.
Sons de l’environnement et mémoire implicite
Certains travaux ont abordé l’étude de la mémoire implicite par les sons de
l’environnement dans des tâches d’amorçage répété à long terme (Chiu, 2000; Chiu &
Schacter, 1995; Stuart & Jones, 1995). Stuart et Jones mettent en évidence des effets
d’amorçage «associatif» avec des sons de l’environnement, résultats que n’observent pas
Chiu et Schacter (1995). Les résultats de Stuart et Jones sont cependant à considérer avec
116
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
prudence. Chiu (2000) en contrôlant un certain nombre de facteurs observe des résultats
similaires à ceux de Chiu et Schacter (1995). Deux conceptions s’opposent au travers de ces 3
études, d’une part Stuart & Jones proposent que les sons de l’environnement, contrairement
aux traitements des autres stimulations (mots écrits et parlés, images...), pourraient profiter
d’activations de connaissances conceptuelles dans des tâches d’amorçage à long terme. Ceci
donnerait aux sons de l’environnement un statut à part dans le fonctionnement cognitif de
l’être humain et plus particulièrement au niveau de la mémoire. D’autre part, Chiu et Schacter
(1995) et Chiu (2000) rapportent que les sons de l’environnement à l’instar des autres types de
stimulations (mots écrits et parlés, images...) seraient traités par un sous-système du PRS,
donc en fonction de caractéristiques exclusivement perceptives. Nous détaillerons ces trois
études et en discuterons les résultats.
Chiu et Schacter (1995) ont deux objectifs en étudiant les sons de l’environnement
avec un paradigme d’amorçage à long terme. Ils veulent déterminer si comme pour les images
l’amorçage répété inter-format à long terme est complètement éliminé pour les sons. Leur
second objectif est d’étendre les connaissances du domaine verbal auditif en amorçage répété
au domaine non-verbal auditif. Deux tâches différentes sont utilisées pour comparer les
performances en mémoire implicite et explicite. Le principe général consiste à présenter en
phase d’étude un son de l’environnement d’une durée de 5s, puis après un délai variable
comprenant en général des tâches de remplissage, un fragment de son d’une seconde
(correspondant à la première seconde du son utilisé en amorce) est présenté en phase de test.
La tâche du sujet est de donner le premier mot qui lui vient à l’esprit. Le test sera de nature
implicite (amorçage) si aucune autre indication n’est fournie au sujet (identification de
fragment sonore) et de nature explicite si on enjoint le sujet à se souvenir de la phase d’étude
pour répondre (rappel indicé de fragment sonore). Dans l’Expérience 1, tous les sujets voient
en phase d’étude un mot correspondant au nom du son pendant 2s, suivi soit du son de
117
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
l’environnement correspondant, soit d’un écran blanc, pendant 5s. La nature de la tâche
d’encodage diffère selon les sujets, elle est soit sémantique (on demande au sujet de
déterminer si le nom présenté désigne un événement qu’il rencontre souvent dans leur vie
quotidienne), soit non-sémantique (le sujet doit prononcer le nom du son silencieusement
dans sa tête et déterminer si sa hauteur diminue, reste constante, ou augmente entre le début et
la fin du mot). Un délai de 5mn, durant lequel on pose des questions de culture générale aux
sujets, sépare la phase d’étude de celle de test. On présente en phase de test un fragment de
son de 1s, qui correspond ou non à du matériel déjà vu en phase d’étude. La moitié des sujets
de chaque groupe d’encodage (sémantique et non-sémantique) passe un test différent, soit un
test explicite (rappel indicé), soit un test implicite (identification). La tâche du sujet consiste à
donner le premier mot qui lui vient à l’esprit et de le noter sur une feuille de papier. Les
résultats montrent qu’il y a un effet principal des stimuli en fonction de leur format de
présentation en phase d’étude, «nom et son», «nom» et «non étudié». Les seuls effets
d’amorçage sont observés dans la condition «nom et son», les performances pour les items
présentés uniquement en phase d’étude sous forme de mot ne diffèrent pas de celles des items
qui n’ont pas été étudiés. Cela montre d’une part, qu’il n’y a pas d’effets d’amorçage répété
inter-format à long terme pour les sons de l’environnement dans une tâche d’identification de
fragment sonore. D’autre part, un effet d’amorçage répété important est observé quand le son
est présenté en phase d’étude et ce, quelle que soit la nature de l’encodage effectué
(sémantique ou non-sémantique). Les performances du test implicite ne se dissocient pas du
test explicite, les auteurs suggèrent qu’il y ait eu une «contamination» du test implicite par
des stratégies de récupération explicites. La profondeur de l’encodage semble également ne
pas avoir d’effet (sémantique et non-sémantique). Les deux expériences suivantes simplifient
la première en ne gardant qu’une condition de présentation en phase d’étude, «nom et son»
(Expérience 2) et «nom» (Expérience 3). Ces manipulations permettront, selon les auteurs,
118
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
de dissocier plus efficacement l’impact de la profondeur de traitement (sémantique versus
non-sémantique) et de la nature du test employé (implicite versus explicite). La procédure de
l’Expérience 2 est similaire à celle de la première, exceptée pour l’encodage non-sémantique
où il est demandé au sujet de prononcer «my name is XXX» et d’en comparer la hauteur
(plus haute, identique, ou plus basse) avec celle du son de l’environnement présenté. Un effet
d’amorçage répété à long terme similaire à celui de l’Expérience 1 est à nouveau observé. Les
résultats montrent une interaction entre l’encodage et le type de test qui n’apparaissait pas
précédemment. Le pourcentage de réponses correctes est plus important en test implicite pour
un encodage non-sémantique plutôt que sémantique, l’inverse étant observé dans le cas du test
explicite. L’amorçage pour les informations auditives non-verbales peut ainsi se dissocier de
la mémoire explicite en fonction de l’encodage des stimuli. La dernière expérience
(Expérience 3) consiste à déterminer si la dissociation observée dans l’Expérience 2 est due
en partie au label linguistique proposé avec le son ou non lors de la phase d’étude.
L’Expérience 3 est identique à l’Expérience 2 à la différence que seuls les labels linguistiques
sont proposés en phase d’étude. Les résultats de cette expérience montrent que le label
linguistique seul ne suffit pas à entraîner un amorçage répété inter-format à long terme (test
implicite) pour des sons de l’environnement. Les observations pour le test explicite
contrastent avec celles du test implicite, montrant qu’à la fois des facteurs conceptuels
(influence de la tâche d’encodage, Expériences 2 & 3) et perceptifs (performances plus faibles
lorsque le label linguistique est présenté en isolation comparé à celles obtenues quand le son
est vu en étude, Expériences 1 & 3) affectent le rappel indicé de fragment de son. L’effet de la
profondeur d’encodage se retrouve dans les Expériences 2 et 3, suggérant l’implication de
traitements sémantiques lors de la récupération. L’ensemble de ces résultats permet de
déterminer deux caractéristiques de l’amorçage répété à long terme pour les sons de
l’environnement. L’encodage du nom du son en phase d’étude n’est pas suffisant pour générer
119
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
un effet d’amorçage de répétition à long terme (Expériences 1 & 3). En revanche, lorsque
l’encodage se fait à la fois avec le nom et le son, les résultats indiquent des effets d’amorçage
indépendamment de l’encodage effectué (sémantique ou non-sémantique). Ces données vont
dans le sens d’une interprétation des effets d’amorçage pour les sons de l’environnement en
termes de processus perceptifs, et les auteurs de conclure: «These experiments provide
converging evidence that priming of environmental sound identification is mediated primarily
by perceptual processes, generated within what we have called the perceptual representation
system or PRS», (Chiu & Schacter, 1995, p. 452).
Stuart et Jones (1995) utilisent une méthodologie différente pour étudier les effets
d’amorçage à long terme pour les sons de l’environnement. Certains de leurs résultats
diffèrent de ceux de Chiu et Schacter (1995). Leur étude se divise en trois expériences, dans la
première ils proposent d’une part, de répliquer les effets d’amorçage répété à long terme
observés pour les mots prononcés (Schacter & Church, 1992) et d’autre part, de tester si les
processus impliqués pour dénommer les sons de l’environnement sont différents ou non de
ceux impliqués dans l’identification des mots parlés. Ils présentent en phase d’étude un
ensemble de sons de l’environnement et un ensemble de mots prononcés, dont les sujets
doivent prononcer silencieusement le nom (ce qui sous-entend d’identifier la source du son).
Le sujet doit, pendant cette phase, compter le nombre de syllabes correspondant au mot qu’il
prononce silencieusement. Le délai entre les deux phases est de quelques minutes. La phase
de test consiste à identifier des mots prononcés noyés dans du bruit (à un seuil d’identification
de 50%), ces mots sont soit nouveaux, soit vus en phase d’étude sous forme de sons de
l’environnement ou de mots prononcés. Les résultats de cette étude montrent que la
présentation d’un mot prononcé en phase d’étude facilite son identification en phase de test
comparé à un mot nouveau. Pour les sons de l’environnement, présenter le label linguistique
qui leur correspond en phase de test ne permet pas d’observer d’effet d’amorçage répété inter120
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
format à long terme. Dans l’Expérience 2, ils utilisent des sons de l’environnement en phase
de test plutôt que des mots prononcés, le reste de l’expérience est similaire à la première
expérience sauf en ce qui concerne la tâche demandée en phase de test. La méthode
d’atténuation des sons diffère. En phase de test, le son de l’environnement est atténué de
55dB, puis l’atténuation est diminuée par étape de 5 dB jusqu’à ce que le sujet soit en mesure
d’identifier le son. Les sons de l’environnement sont identifiés à un niveau d’atténuation plus
élevé lorsqu’ils ont déjà été vus en phase d’étude, comparé au mot lui correspondant ou à la
ligne de base (son de l’environnement non étudié). Les performances en ligne de base ne
diffèrent pas de celles d’amorçage répété inter-format à long terme (mot prononcé-son de
l’environnement). Les données de ces deux expériences répliquent avec une méthodologie
différente celles de Chiu et Schacter (1995). L’Expérience 3 se base sur un principe similaire
à celui utilisé dans la deuxième expérience à la différence que seuls des sons de
l’environnement sont présentés en phase d’étude. Les sons utilisés en phase de tests diffèrent
selon qu’ils soient nouveaux, déjà entendus par les sujets en phase d’étude ou similaires à
ceux entendus en étude (par exemple le son d’une machine à écrire mécanique en étude et
d’une électrique en test). Le principal résultat indique que les performances d’identification
sont meilleures en condition similaire comparé à celles de la ligne de base, et surtout qu’elles
ne diffèrent pas de celles de la condition identique. Les auteurs proposent l’existence d’unités
abstraites en mémoire, spécifiques aux sons de l’environnement appelés «audiogènes». Ces
unités seraient activées par différents exemplaires d’un même son ou d’une même catégorie.
Ce résultat n’est pas en accord avec les conclusions de Chiu et Schacter (1995). Si les
traitements pour les sons de l’environnement dans les tests implicites reposent uniquement sur
des traitements perceptifs (comme le propose le PRS développé par Schacter) alors, la
présentation d’un son similaire au niveau du sens et non pas des caractéristiques acoustiques
121
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
ne devrait pas entraîner d’effets d’amorçage, du fait des différences acoustiques entre les
deux.
Chiu (2000) s’interroge sur les données rapportées par Stuart et Jones (Expérience 3).
Les deux principales théories de l’amorçage à long terme proposent que le dit amorçage
repose sur des traitements perceptifs. Schacter envisage l’existence d’un système qui se base
sur des représentations perceptives (voir Tulving & Schacter, 1990) et Roediger et ses
collègues proposent la théorie du transfert approprié (TAP, voir, Roediger & McDermott,
1993), où le transfert entre la phase d’étude et de test dépend entièrement de la similarité entre
les traitements utilisés lors de ces deux phases. Les résultats de Stuart et Jones indiqueraient
que les sons de l’environnement posséderaient une représentation en mémoire totalement
différente des autres stimulations qu’elles soient verbales ou non. En se basant sur ces
arguments Chiu (2000) examine en détail la procédure utilisée par Stuart et Jones (1995). Il
propose quatre facteurs qui auraient pu influencer les résultats de Stuart et Jones (1995,
Expérience 3):
(1)La procédure des limites ascendantes n’est pas adéquate pour les tests de mémoire
implicite car elle tend à encourager le devinement et/ou l’implication, volontaire ou non,
correspondant dans ce cas à un test de mémoire explicite.
(2)Nous sommes capables d’extraire des informations des sons sans toutefois pouvoir
de les identifier lorsqu’ils sont noyés dans un bruit blanc (Schacter & Church, 1992,
Expérience 1).
(3)Ils font porter l’attention de leurs sujets sur le mot qui correspond au son en phase
d’étude, les tests de mémoire implicite demandent plutôt de porter attention aux
caractéristiques physiques des stimulations lors de la phase d’étude (intensité, hauteur...).
(4)Stuart et Jones ne fournissent pas de données sur d’éventuelles similarités
acoustiques de leurs sons similaires.
122
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
La première expérience de Chiu a deux objectifs, premièrement tester l’hypothèse
selon laquelle l’amorçage pour les sons de l’environnement est spécifique à l’exemplaire
utilisé (dépendant uniquement des caractéristiques perceptives des stimuli), deuxièmement,
déterminer si cette spécificité dépend des facteurs d’encodage et de récupération. En phase
d’étude, les sujets voient un mot à l’écran pendant 2s, puis entendent pendant 5s le son qui
correspond à ce mot. Selon son groupe, le sujet effectue une tâche d’encodage sémantique ou
non-sémantique, suivent quatre tâches de remplissage d’une durée de 15 à 20mn. Les sujets
sont à nouveau divisés en phase de test, selon qu’ils passent le test explicite (rappel indicé du
fragment sonore), ou le test implicite (identification du fragment sonore) lors de la
présentation du fragment de son d’une seconde. Trois fragments cibles différents sont utilisés,
identiques à l’étude, similaires (deux sons assez différents mais dénommés de la même
manière), ou non étudiés. Les résultats montrent que l’amorçage est plus important dans le cas
où l’exemplaire est identique, comparé à la ligne de base (fragment non étudié) et à la
condition «similaire». L’amorçage est de moindre amplitude, mais s’observe également pour
la condition similaire par rapport à la ligne de base. Un patron similaire est observé dans la
tâche de mémoire explicite. L’encodage sémantique profite de manière générale à la tâche de
rappel indicé. Ces résultats nuances ceux de Stuart et Jones (1995) où l’effet d’amorçage était
équivalent pour les sons similaires et les sons étudiés. Chiu fait tout de même remarquer que
les différences méthodologiques sont importantes, particulièrement le fait de présenter le nom
du son en phase d’étude. L’Expérience 2 est similaire à la première si ce n’est que les labels
linguistiques ne sont plus présentés durant la phase d’étude. Le niveau d’amorçage et de
rappel indicé est moins important dans la deuxième expérience comparée à la première,
particulièrement dans la condition identique. La nature de l’encodage affecte le rappel indicé
mais pas l’amorçage. Le fait de ne pas présenter le nom accompagné du son semble avoir un
effet qui n’était pas attendu aux vues des expériences précédentes (Chiu & Schacter, 1995,
123
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
Stuart & Jones, 1995). La présentation du nom en isolation en phase d’étude n’influence pas
les effets d’amorçage lorsque des sons de l’environnement sont utilisés en test. L’Expérience
3 est selon Chiu une réplication de celle de Stuart et Jones (1995, Expérience 3). Il noie les
sons dans un bruit blanc et propose un test implicite d’identification (amorçage) et un test
explicite de reconnaissance sur le même matériel. Le reste de la procédure est identique à
celle de l’Expérience 2. Dans la tâche de reconnaissance, les sujets doivent indiquer si le son
est nouveau, différent ou identique. Les résultats montrent, pour le test de mémoire implicite
un effet d’amorçage pour les conditions identique et similaire mais seulement pour l’encodage
non-sémantique. Les performances en reconnaissance sont meilleures pour les items
identiques comparés aux similaires. Les effets sont plus importants dans le cas de l’encodage
sémantique. Dans cette expérience, les résultats d’amorçage ne permettent pas de mettre en
évidence de différence entre la condition identique et similaire. L’auteur propose que la tâche
est moins facile que celles proposées dans les deux premières expériences. Dans l’expérience
4, le masquage du bruit blanc est diminué pour rendre les sons plus discriminables, la tâche de
reconnaissance est abandonnée, le reste de la procédure est identique à l’Expérience 3. Un
effet d’amorçage est observé en encodage non-sémantique pour les cibles identiques mais pas
différentes en fonction de la ligne de base. L’amorçage est de même amplitude en condition
similaire et identique par rapport à la ligne de base, quand l’encodage est de nature
sémantique. Ce résultat montre bien que l’amorçage est spécifique à l’exemplaire, comme le
montre les résultats en amorçage non-sémantique. L’ensemble des résultats rapportés par
Chiu (2000) suggère que les résultats de Stuart et Jones (1995, Expérience 3) ont
probablement été contaminés par une récupération explicite du matériel vu en phase d’étude.
L’ensemble de ces études suggère l’existence d’un système de représentations
perceptives opérant à un niveau pré-sémantique (PRS, Tulving & Schacter, 1990), spécifique
aux sons de l’environnement (voir Chiu & Schacter, 1995). Le PRS en général a été
124
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
développé pour rendre compte des effets d’amorçage à long terme (mémoire implicite) de
nature perceptive et lexicale. Le système a été fractionné en plusieurs sous-systèmes, ces
systèmes sont distincts des autres systèmes mnésiques (épisodique, sémantique et procédural)
tout en entrant en interaction avec eux (Tulving, 1991). Le principe suppose qu’une
stimulation active ou crée une représentation structurale perceptive qui facilitera le traitement
de cette même stimulation sur la base d’indices perceptifs. Chiu et Schacter (1995, Expérience
2) montrent que l’amorçage à long terme pour les sons de l’environnement peut se dissocier
de la mémoire explicite (rappel indicé) en fonction de la manière dont sont encodés les stimuli
en phase d’étude. Les résultats des tests explicites diffèrent de ceux des tests implicites
(amorçage), montrant qu’à la fois des facteurs conceptuels (tâche d’encodage) et perceptifs
(phase d’étude: label linguistique versus son) affectent le rappel indicé de fragment de son.
Ces résultats sont en accord avec les résultats de Stuart et Jones (1995, Expériences 2 et 3) et
Chiu (2000, Expériences 1, 2 et 4), et suggèrent l’existence d’un sous-système du PRS pour
les sons de l’environnement similaires à ceux déjà détaillés pour les mots présentés
visuellement (Burgund & Marsolek, 1997), les mots présentés auditivement (Schacter &
Church, 1992) et les objets visuels (Schacter & Cooper, 1993). L’effet d’amorçage entre deux
exemplaires différents d’un même son observé par Stuart et Jones (1995, Expérience 3)
semble dû à une contamination de nature explicite comme le montre Chiu (2000, Expérience
4). L’ensemble de ces données est donc cohérent et propose l’existence d’un sous-système
PRS pour les sons de l’environnement au même titre que ceux proposés pour les mots et les
objets visuels.
Théorie du double codage et sons de l’environnement
Les recherches présentées dans cette partie comparent les performances de mémoire
pour les sons de l’environnement, les mots et/ou les images dans des paradigmes de
125
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
reconnaissance de rappel libre et sériel. Les résultats de cet ensemble d’études montrent que
selon le paradigme utilisé les performances varient ou non en fonction du matériel considéré.
Les données sont interprétées dans le cadre de la théorie du double codage proposée par
Paivio (1971, 1986) en intégrant les sons de l’environnement.
L’étude de Barlett (1977) prend comme point de départ celle de Bower et Holyoak
(1973) qui étudiaient le rôle de la verbalisation de sons de l’environnement en phase d’étude
et de test. Après un délai d’une semaine suivant la phase d’étude, ils observent que lorsque le
son de l’environnement est correctement étiqueté linguistiquement lors de la phase d’étude et
de test il est mieux reconnu. Bower et Holyoak (1973) en concluent que la reconnaissance des
sons de l’environnement se base principalement sur le stockage et la récupération
«d’interprétations perceptives». Ces interprétations perceptives seraient dépendantes d’un
étiquetage correct lors de la phase d’étude. Barlett (1977) change la méthodologie employée
par Bower et Holyoak dont les études impliquaient une verbalisation explicite des sons de
l’environnement, car il pense qu’une verbalisation obligatoire peut biaiser le sujet et l’amener
à utiliser des «interprétations perceptives». L’Expérience 1 a pour objectif de répliquer les
résultats de Bower et Holyoak (1973) en modifiant deux paramètres, le délai d’une semaine
est remplacé par deux délais de 5 et 65mn. Barlett ajoute également une tâche de rappel libre
en plus de celle de reconnaissance. Les sujets entendent les sons et doivent leur trouver une
étiquette linguistique, suit un délai de 5 ou 65 minutes selon le groupe, une tâche de rappel
libre et une tâche de reconnaissance. Les résultats montrent que les sons de l’environnement
correctement étiquetés sont mieux reconnus, quel que soit le délai, comparé à ceux qui ne sont
pas correctement étiquetés durant la phase d’étude, répliquant les résultats rapportés par
Bower et Holyoak (1973). Ce résultat suggère un stockage et une récupération basés sur une
interprétation verbalisable pour les sons de l’environnement. Les résultats indiquent une
relation entre le rappel libre et la reconnaissance, les sons correctement étiquetés et rappelés
126
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
sont mieux reconnus que les cibles dont les étiquettes ne sont pas rappelées. La deuxième
expérience étudie l’effet du type de matériel appris durant l’apprentissage (son, étiquette
linguistique, son + étiquette linguistique) sur les performances de rappel et de reconnaissance.
La reconnaissance des sons de l’environnement est dépendante d’un étiquetage correct qu’il
soit fourni par l’expérimentateur (condition son + label) ou généré par le sujet (condition son).
Les performances des groupes «étiquette linguistique» et «étiquette linguistique+ son» se
différencient exclusivement dans la tâche de reconnaissance où le premier groupe a des
performances plus faibles que le suivant. Les résultats de cette étude sont compatibles et
interprétés par les auteurs dans le cadre de la théorie du double codage (Paivio, 1971).
D’autres études (Philipchalk & Rowe, 1971; Warren, Obusek, Farmer, & Warren,
1969) comparent les performances en rappel sériel avec les performances dans des tâches de
rappel libre entre du matériel verbal et non-verbal (son de l’environnement). Les résultats
indiquent que les performances sont plus faibles pour les sons de l’environnement par rapport
aux stimuli verbaux en mémoire séquentielle (rappel sériel) et identique quand on considère
les performances dans les tâches de rappel libre. Par la suite, Paivio et al. (1975) utilisent une
approche similaire pour tenter d’intégrer à la fois les données sur les sons et les images dans
la théorie du double codage. Ils utilisent des images et des sons de l’environnement avec les
labels linguistiques correspondant (écrit et oral) dans des tâches de rappel libre et sériel. Les
résultats de la première expérience montrent que le matériel non-verbal est mieux rappelé que
le verbal en rappel libre, le verbal montrant de meilleures performances en rappel sériel. Dans
une deuxième expérience, ils décident d’augmenter leur échantillon d’items à retenir (de 12 à
20). À nouveau, les performances sont meilleures en rappel libre comparé au rappel sériel et
le non-verbal est mieux rappelé que le verbal en rappel libre et inversement. La modalité
interagit avec la nature non-verbale des stimuli, les images sont mieux rappelées que les mots
avec l’inverse pour les stimuli auditifs où les sons de l’environnement sont moins bien
127
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
rappelés que les mots. L’analyse en fonction du canal auditif montre dans le cas de la
modalité auditive le rappel libre est meilleur que le sériel. Les items verbaux sont mieux
rappelés que les non-verbaux, le rappel sériel est meilleur pour les mots que pour les sons,
mais ils ne diffèrent pas en rappel libre ce qui est en accord avec les résultats de Philipchalk et
Rowe (1971). Pour le matériel visuel, les performances sont supérieures en rappel libre par
rapport au rappel sériel, mais les images sont mieux rappelées que les mots. Les auteurs
concluent que la distinction pour le stockage en mémoire se fait plutôt en termes de différence
verbal/non-verbal plutôt que visuel/auditif. L’ensemble de leurs résultats accréditent
l’hypothèse selon laquelle les stimulations non-verbales sont au moins stockées aussi
efficacement que les informations verbales, mais que les informations de nature séquentielle
sont mieux retenues dans le domaine verbal.
Lawrence et Cobb (1978) étudient la mémoire pour les sons de l’environnement et les
images. Leur objectif est d’étudier si les performances en reconnaissance inter-modalités
(photos-sons) sont obligatoirement inférieures à celles en intra-modalités (sons-sons). Pour
tester leur hypothèse, ils proposent une tâche de reconnaissance présentée selon un délai
variable (immédiat, 2 jours, ou 7 jours) et selon trois conditions dépendant du matériel appris
en phase d’étude et reconnu en phase de test (étude-test: photos-sons; sons-photos; sonssons). Les résultats montrent que seul le délai a un effet sur les performances, plus il est long
plus les performances sont basses, suggérant que la reconnaissance de matériel non-verbal est
indépendante de la modalité de présentation. Ces observations vont dans le même sens que les
résultats rapportés par Paivio et al. (1975) pour les stimuli non-verbaux dans des tâches de
rappel libre.
Plus récemment, Thompson et Paivio (1994) ont proposé au travers de trois
expériences de rappel libre, une indépendance des systèmes de mémoire pour les sons de
l’environnement et les images. Cette étude poursuit les travaux proposés par Paivio et al.
128
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
(1975) et Lawrence et Cobb (1978), en s’intéressant plus spécifiquement aux différences au
sein de la modalité non-verbale entre les sons de l’environnement et les images. Les auteurs
posent l’hypothèse d’une séparation fonctionnelle entre les représentations auditive et visuelle
dans le domaine non-verbal. Ils comparent dans la première expérience les performances dans
une tâche de rappel libre lorsque les items sont répétés dans la même modalité (sons-sons,
images-images) ou non (images-sons). Trois conditions d’apprentissage sont utilisées
«intentionnel sans tâche de distraction», «intentionnel avec tâche de distraction», «incident
avec tâche de distraction». Le rappel libre est meilleur dans le cas d’une présentation selon
deux modalités différentes (images-sons) comparé à la même modalité de présentation (sonssons, images-images) et ce quelle que soit la condition d’apprentissage. Ces résultats
suggèrent un codage différentiel pour les sons de l’environnement et les images résultant
d’une addition entre le code visuel et auditif. Une autre interprétation serait d’imaginer que
cette additivité n’est pas dû aux codes visuel et imagé mais simplement à l’apport
d’informations différentes sur un même objet. Cette hypothèse est testée dans une seconde
expérience où deux images différentes d’un même objet sont présentées. Cette expérience
utilise aussi une ligne de base en présentant une image ou un son en isolation. Tous les
participants font une tâche de rappel libre dans la condition d’apprentissage intentionnel avec
tâche distractrice. Cinq conditions de présentations sont utilisées, son seul, image seule, image
et son présentés simultanément, deux fois la même image, et deux images différentes d’un
même objet. Ils observent un effet significatif de la condition de présentation, où les
performances en rappel libre sont meilleures uniquement dans le cas d’une présentation
simultanée sons-images. L’additivité semble donc bien due à l’association entre des
informations visuelles et auditives. Dans leur dernière expérience, les auteurs contrôlent le
facteur temps, en effet les sons étaient présentés plus longtemps car ils nécessitent plus de
temps pour être identifiés que les images. Ils répliquent leur deuxième expérience en utilisant
129
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
exclusivement des images dont le temps de présentation est doublé selon deux conditions
deux fois la même image et deux images d’un même objet. Les performances pour les deux
conditions augmentent de manière similaire dans ces conditions, mais le patron de résultat
reste proche de celui de l’Expérience 2. Les auteurs interprètent leur résultat comme une
extension logique de la théorie du double codage. D’un côté, le stockage verbal et de l’autre le
stockage non-verbal qui peut se différencier selon que l’on considère les sons de
l’environnement et les images. Une autre interprétation reste possible, certains items seraient
mieux rappelés sous forme sonore et d’autres sous forme visuelle. La combinaison des deux
formats en phase d’étude pouvant générer une augmentation des performances en rappel libre
du fait de la saillance de certains indices, visuels dans certains cas, auditifs dans d’autres et
donc sans additivité. Cependant les résultats de Lawrence et Cobb (1978) laissent penser que
cette interprétation n’est pas adéquate. Une photo vue en phase d’étude est tout aussi efficace
qu’un son si la cible à reconnaître est un son. Ce résultat suggère que les traitements pour la
reconnaissance, tout du moins entre ces deux types de stimulations, se basent sur les mêmes
indices.
Les résultats de cet ensemble d’études contribuent à la compréhension du
fonctionnement de la MLT en dissociant les performances obtenues avec du matériel verbal et
non-verbal. Barlett (1977) rapporte que les performances concernant les sons de
l’environnement sont dépendantes des opérations effectuées en phase d’étude, uniquement en
reconnaissance comparé au rappel libre. Les performances de reconnaissance seraient
dépendantes d’une association correcte entre le nom de la source du son (fourni ou non par
l’experimentateur) et le son. D’autres études (Paivio et al., 1975; Philipchalk & Rowe, 1971;
Warren et al., 1969) indiquent des performances identiques dans des tâches de rappel libre
entre du matériel verbal et des sons de l’environnement, performances qui diffèrent au profit
130
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
des mots quand la tâche utilisée est un rappel sériel. Ces résultats suggèrent des différences de
fonctionnement de la MLT en fonction de la nature du matériel considéré (mot ou son de
l’environnement). Les différences de performances entre les stimulations verbales et nonverbales ont conduit certains chercheurs à comparer le traitement des sons de l’environnement
et des objets visuels pour améliorer la compréhension du fonctionnement de notre MLT, plus
particulièrement dans le cadre de la théorie du double codage de Paivio (1971). Lawrence et
Cobb (1978) montrent que les performances de reconnaissance sont identiques pour les sons
de l’environnement et les images qu’ils soient associés ou non en phase d’étude. Les auteurs
ne font pas de comparaisons avec les mots. Thompson et Paivio (1994) étudient plus
spécifiquement les différences entre les sons de l’environnement et les objets visuels avec une
tâche de rappel libre. Leurs résultats indiquent que la combinaison entre un son et une image
améliore les performances comparées à un mot, une image ou un son en isolation.
L’ensemble de ces données suggèrent que le fonctionnement de notre mémoire diffère
en fonction de la nature des stimulations considérées verbales ou non-verbales. Le
fonctionnement de la mémoire se différencie entre les objets visuels et les sons de
l’environnement, proposant une extension au modèle de Paivio (1971, 1986) en ajoutant un
sous-système cognitif spécialisé pour représenter les sons de l’environnement.
Sons de l’environnement et amorçage inter-format à court terme
Nous verrons trois expériences d’amorçage inter-format à court terme entre le langage
et les sons de l’environnement qui documentent partiellement le phénomène (Ballas, 1993,
Expériences 4 et 5 (mot-son, déterminer si le mot est oui ou non une source probable du son),
Van Petten & Rheinfelder, 1995, Expérience 1 (son-mot, décision lexicale)). Les expériences
menées par Ballas ont déjà été détaillées précedemment, nous décrirons donc uniquement
l’Expérience 1 de Van Petten et Rheinfelder (1995). Il n’existe pas à notre connaissance
131
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
d’études abordant un même ensemble de sons de l’environnement avec un paradigme
d’amorçage à court terme (son-mot, mot-son et son-son). Les méthodologies (décision
lexicale versus confirmation de la source) et les ensembles de sons différents entre les deux
expériences limitent les comparaisons et les interprétations que nous pouvons en tirer.
L‘étude de Van Petten et Rheinfelder est principalement électrophysiologique, nous
reviendrons sur leurs résultats dans le point consacré à ce type de mesures. Elles veulent
étudier les effets de contexte avec les potentiels évoqués, pour comparer les effets langagiers
et ceux propres aux sons de l’environnement. Sans entrer dans le détail, les effets de contexte
dans le domaine du langage, étudiés avec la technique des potentiels évoqués produisent une
onde négative (N400) qui varie en amplitude selon les liens sémantiques partagés entre
l’amorce et la cible (Betin, Kutas, & Hillyard, 1995). L’objectif dans cette recherche est de
comparer les résultats des effets de contexte entre les sons de l’environnement et le langage.
Dans l’Expérience 1, les auteurs, avant d’utiliser les potentiels évoqués, veulent s’assurer que
les effets de contexte peuvent s’observer à un niveau comportemental avec des sons de
l’environnement. Un essai se déroule de la façon suivante, un son (amorce) est présenté
pendant 2500ms, suivit d’un ISI de 500ms, puis un mot ou un non-mot prononcé (cible). Le
sujet doit effectuer le plus rapidement et le plus correctement possible une tâche de décision
lexicale sur la cible. La cible peut prendre trois formes différentes, un non-mot, le mot
désignant la source du son ou un mot non lié au son. Les résultats montrent que les sujets
mettent moins de temps pour dire que le mot relié au son est un mot (867ms) plutôt que pour
le mot non relié (956ms). Les auteurs documentent le premier effet d’amorçage répété interformat avec des sons de l’environnement dans le sens son-mot. Ce résultat atteste de
l’existence d’effets de contexte pour les sons et permet donc à Van Petten et Rheinfelder
(1995) de réaliser leur étude comparative des potentiels évoqués apparaissant lors du
traitement du langage et des sons de l’environnement. Dans les grandes lignes, les résultats
132
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
montrent que les effets de contexte produisent des N400 à la fois pour les sons et les mots
avec une plus grande implication de l’hémisphère droit pour les sons et inversement pour les
mots.
Les deux expériences que Ballas (1993) mènent dans son étude documentent des effets
d’amorçage répété inter-format dans le sens mot-son. Il montre qu’il est plus rapide de
déterminer qu’un mot est la cause d’un son plutôt que l’inverse. Les résultats de ces deux
études (Ballas, 1993; Van Petten & Rheinfelder, 1995) montrent des effets d’amorçage répété
inter-format similaires à ceux observés dans le domaine des objets visuels (voir Chapitre 2, 3).
Une étude (Dick, Bussière, & Saygin, 2002) dont l’objectif est de tester l’hypothèse de
sous-vocalisation (nous reviendrons sur cette hypothèse dans le point de ce chapitre consacré
aux études électrophysiologiques) utilise une tâche proche de l’interférence mot-OBJET.
Figure 3.3: Exemple de stimulations utilisées dans l’expérience de Dick et al. 2002, où l’image de la
vache constitue la cible, le violon et le mouton les distracteurs, et le son «moooooo» correspond au meuglement,
voir le texte pour plus d’explications.
Ils présentent deux images (Figure 3.3) pendant 1000ms avant de faire entendre un
son qui correspondra à l’une des deux. Le sujet doit déterminer le plus rapidement possible si
le son correspond à l’image de droite ou à l’image de gauche. Ils utilisent deux conditions
133
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
l’une où le distracteur est relié sémantiquement à la cible (partie gauche de la Figure 3.3) et
l’autre où le distracteur n’a pas de liens avec la cible (partie droite de la Figure 3.3). Les sujets
mettent plus de temps à répondre lorsque le distracteur est relié à l’image cible (1243ms)
plutôt que non (1098 ms). Les auteurs manipulent une autre condition où ils demandent aux
sujets de ne pas sous-vocaliser le nom du son («no naming condition») ou de le faire
(«naming»). Ils observent que les sujets de la condition nommer le son silencieusement
mettent plus de temps (1257ms) que ceux qui sont enjoints de ne pas le faire (1084ms). Ceci
montre d’après les auteurs que la sous-vocalisation du nom du son n’est qu’un traitement
additionnel et non pas une condition sine qua none à l’identification d’un son de
l’environnement.
2.1.5 Sur les traces de Snodgrass et Vandervart (1980)
L’objectif de Fabiani et al. (1996) est de constituer des normes pour la dénomination
des sons de l’environnement (la base de sons qui était exclusivement disponible par internet
n’est plus accessible). L’approche adoptée est celle déjà utilisée par Snodgrass et Vandervart
(1980) pour les objets visuels. Plusieurs différences distinguent cette étude de celle de Ballas
(1993). Les sons duraient 625ms chez Ballas alors qu’ils durent 400ms dans cette étude. Les
sons de Ballas restaient assez restreints en termes de catégories (machines ou signaux), alors
que les sons de Fabiani et al. (1996) appartiennent à de nombreuses catégories (machines,
animaux, jeux vidéo, dessins animés...). Ballas se focalise sur la cause du son alors que
Fabiani et al. cherchent plutôt à déterminer si un son est facilement identifiable dans la
tradition de l’étude de Snodgrass et Vandervart. Ils testent 96 sons de l’environnement au
cours de quatre expériences identiques, seule la population étudiée change d’une expérience à
l’autre, respectivement de la première à la dernière expérience, de jeunes adultes (19 à 34
ans), des personnes âgés (61 à 88 ans), des personnes âgés avec une maladie d’Alzheimer
134
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
probable (54 à 80 ans) et enfin des enfants (5 à 16 ans). Ils calculent pour chaque population
le pourcentage de concordance des noms, le nom «modal» et le facteur H. Le nom «modal»
correspond au nom donné le plus souvent pour un son spécifique, dont le pourcentage de
concordance des noms est le reflet. Le facteur H est directement lié aux nombres de sources
différentes données pour un son, plus il est élevé moins il y a de consensus pour le dénommer
(la formule s’inspire directement de celle de Snodgrass et Vandervart, 1980). Les jeunes
adultes identifient le plus facilement les sons humains (jusqu’à 70% d’identification), les sons
d’animaux puis en dernier les sons artificiels (dont l’identification descend parfois à 20%), le
facteur H est de 2,74 et le pourcentage de concordances des noms est égal à 48%. Les
personnes âgées ont un patron de résultats similaires à celui des jeunes adultes avec un facteur
H légèrement plus élevé (2,97). Les personnes âgées, avec une maladie d’Alzheimer probable,
ont des résultats difficilement comparables à ceux des autres populations. Pour environ 20%
des sons présentés, ces personnes âgés sont incapables de trouver un mot pour les dénommer.
Les performances des enfants sont similaires à celles des adultes, cependant, les enfants ont
des performances d’identification supérieures aux autres populations pour les sons artificiels.
Les auteurs pensent que cette tranche d’âge (9 à 16 ans) est plus familière avec les jeux vidéo
et les dessins animés.
En général, les sons humains ou d’animaux sont mieux reconnus que les sons
artificiels (on regrettera que les sons artificiels ne comprennent pas de bruits d’objets, comme
par exemple, un marteau-piqueur ou encore une automobile, et se limite à des sons de
synthèse ou des imitations). Les résultats de cette étude montrent un grand nombre de
similarités avec les études utilisant des images. Cependant, les auteurs notent que les sons
utilisés dans cette étude seraient plus proches de fragments d’image du fait de leur durée
d’exposition très brève plutôt que des images complètes comme celles utilisées par Snodgrass
et Vandervart (1980). Les auteurs signalent également que de nombreux sons en isolation ne
135
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
peuvent être identifiés de manière fiable sans contexte du fait de l’incertitude sur la source
(rejoignant de fait, les travaux de Ballas sur l’incertitude causale, 1993) ce qui les distingue
des images.
2.1.6 Synthèse sur les études comportementales
Au niveau de la MLT
Les études comportementales que nous venons détailler ébauchent le fonctionnement
de notre mémoire sémantique en fonction de la nature des stimulations considérées (sons de
l’environnement, mots et objets visuels). La mémoire sémantique semble s’organiser, à un
niveau fonctionnel, principalement en fonction de la nature verbale ou non-verbale des
stimulations (Paivio et al., 1975). Le fonctionnement de la mémoire se diviserait au sein du
domaine non-verbal avec des sous-systèmes spécialisés pour les sons de l’environnement et
pour les objets visuels (Thompson & Paivio, 1994). Au niveau de l’approche structurale et
concernant plus particulièrement la dissociation entre mémoire implicite et explicite, le
traitement des mots, des sons et des images serait sous la dépendance de sous-systèmes
similaires à ceux décrits dans le PRS (Chiu, 2000; Chiu & Schacter, 1995). L’ensemble de
ces données propose une organisation différente en fonction de la nature des stimulations
(mots, images et sons) tout en suggérant des processus de traitement pré-sémantique
similaires en mémoire implicite. Cependant cela ne nous renseigne pas sur l’organisation
fonctionnelle qui peut exister au sein d’un même ensemble de stimulations. Nous avons vu
dans le chapitre précédent que les images et les mots activeraient des systèmes conceptuels
organisés de manière similaire (Bowers et al., 1999). L’état actuel des recherches ne permet
pas d’avancer le même type de conclusions pour les sons de l’environnement. Les travaux en
amorçage répété inter-format à court terme suggèrent l’existence d’activations conceptuelles
136
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
entre les mots et les sons, mais comme nous l’avons vu les méthodologies utilisés et les
différences de matériel ne permettent pas de faire de comparaisons (Ballas, 1993, Van Petten
& Rheinfelder, 1995). De plus ces activations ne renseignent pas sur les liens que pourraient
entretenir les sons de l’environnement entre eux du fait de l’utilisation d’un paradigme
d’amorçage répété.
Au niveau du format des stimulations
Les sons de l’environnement partagent des caractéristiques communes avec le langage
et les images tout en s’en différenciant. Revenons sur quelques points principaux concernant
les comparaisons faites entre sons de l’environnement et langage. Ces relations se traduisent
par certaines similarités, comme le phénomène d’homonymie (Ballas & Howard, 1987), la
«qualité» du stockage en mémoire (Paivio et al., 1975). On observe également des
phénomènes similaires mais, dont les effets s’expriment différemment selon que l’on
considère le langage ou les sons de l’environnement, par exemple, la présence de structure
sémantique et syntaxique pour les sons de l’environnement (Howard & Ballas, 1980), qui
diffèrent de celles existants pour le langage (Ballas, 1991), ou encore, l’existence d’effets
inhibiteurs d’amorçage en long contexte pour les sons de l’environnement, contrairement au
langage (Ballas, 1991). Les résultats des études comportementales mettent également en avant
des différences, comme une meilleure rétention des informations séquentielles spécifique aux
stimulations langagières (Paivio et al., 1975) et l’implication différentielle des hémisphères
cérébraux (Knox & Kimura, 1970). Les études que nous avons vues suggèrent que des
parallèles exacts n’existent pas entre le langage et les sons. De la même manière, les relations
entre les images et les sons montrent certaines similitudes mais également de grandes
différences. Pour les similitudes, les effets d’amorçage répété inter-format sont observés à la
fois pour les sons de l’environnement (Ballas, 1993; Van Petten & Rheinfelder, 1995) et les
137
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
images (Wheeldon & Monsell, 1992). Il n’y a pas de différences au niveau des performances
de reconnaissance entre les images et les sons (Lawrence & Cobb, 1978). Cependant,
certaines différences existent entre les images et les sons, par exemple, le contexte est
beaucoup plus important pour un son qu’une image (Fabiani et al., 1996). Les images
entretiennent des relations différentes de celles des sons avec le langage, nous citerons l’effet
de supériorité de l’image sur le mot (Paivio & Caspo, 1973) qui ne semble pas exister entre
les sons et les mots (Paivio et al., 1975). Les relations qui existent entre ces trois types de
stimulations pouvant véhiculer du sens sont complexes comme le montre l’ensemble des
données que nous avons présentés. Les données ne nous renseignent pas sur les liens que
peuvent entretenir les sons de l’environnement entre eux. Les sons restent plus difficiles à
identifier que les images et les mots et leurs relations avec le contexte diffèrent sensiblement
de celles observées pour le langage (Ballas, 1991). L’étude des associations entre les sons de
l’environnement paraît primordiale pour nous permettre d’appréhender efficacement
l’organisation globale de notre mémoire sémantique et plus spécifiquement les interactions
qui peuvent exister entre les sons de l’environnement et le contexte dans lequel nous pouvons
être amenés à les entendre.
Nous avons vu, dans le chapitre précédent le rôle central pris par les atteintes
cérébrales, et particulièrement l’aphasie optique, dans les recherches en MLT. Ces troubles
constituent l’un des piliers sur lequel repose les hypothèses quant à l’organisation des
connaissances en mémoire pour les objets visuels (voir Chapitre 1, 3.2). Existe-t-il des
atteintes cérébrales qui pourraient par leurs conséquences ressembler à celles rapportées pour
les images pour la perception des sons de l’environnement? Quelles sont les différentes
atteintes qui perturbent la perception «normale» des sons de l’environnement? L’objet du
point suivant est de présenter les troubles de l’audition rapportés en neuropsychologie, puis de
138
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
détailler quelques études en rapport avec les sons de l’environnement. L’objectif reste de faire
des parallèles avec les études menées dans le domaine des objets visuels (voir Chapitre 2,
3.2). Nous intégrerons dans le point suivant certaines études d’imagerie cérébrale et
d’électrophysiologie qui permettent d’obtenir de concert avec les données de
neuropsychologie un tableau plus complet de la perception des sons de l’environnement.
2.2 Approches complémentaires pour l’étude de la perception des sons de
l’environnement
Dans ce point, nous verrons les différents apports de la neuropsychologie, des études
d’imagerie cérébrale et d’électrophysiologie pour la perception des sons de l’environnement.
Nous commencerons par la neuropsychologie, nous verrons que des atteintes sélectives au
niveau cérébral peuvent altérer la perception des sons de l’environnement. La comparaison
des troubles entre les stimulations auditives (musique, langage et sons de l’environnement)
permet, particulièrement dans le cas de troubles sémantiques, d’explorer les liens qui existent
entre le traitement du langage et celui des sons de l’environnement. Nous verrons que ces
deux types de stimulations peuvent être perturbés à différents niveaux que nous illustrerons
principalement par la distinction entre les agnosies auditive, aperceptive et sémantique. Ces
comparaisons nous conduiront à parler de la dissociation des voies de traitement associées à la
localisation et à l’identification des sons (voies «What», «Quoi» et «Where», «Où»), qui
repose à la fois sur des études de neuropsychologie et d’imagerie cérébrale. La voie du
«Quoi» nous intéresse plus particulièrement et concerne les traitements qui associent un
ensemble de caractéristiques perceptives à du sens, des travaux récents permettent de faire des
comparaisons entre les objets visuels et les sons de l’environnement. Pour finir ce point, nous
parlerons des études électrophysiologiques qui abordent la distinction entre le traitement du
139
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
langage et des sons de l’environnement par l’étude de la composante N400, qui en langage
varie en fonction de la relation sémantique qui lie la cible au contexte. Avant de détailler
certaines des études neuropsychologiques concernant les sons de l’environnement, nous
aborderons succinctement les troubles liés à la perception auditive.
2.2.1 Troubles liés à la perception auditive
Le fonctionnement cognitif auditif peut être atteint de manière sélective, que ce soit au
niveau du langage, de la musique, ou encore des sons de l’environnement. Ces troubles ont
conduit à proposer différents termes en fonction de l’atteinte considérée (voir, Griffiths, Rees,
& Green, 1999; Polster & Rose, 1998, pour une revue). Nous présenterons la surdité
corticale, la surdité verbale pure et les agnosies auditives.
La surdité corticale
Une personne souffrant de surdité corticale perçoit, la musique, le langage et les sons
de l’environnement comme des bruits désagréables. Ces troubles se caractérisent par une
extinction des potentiels évoqués auditifs corticaux sans lésions au niveau du tronc cérébral
(Rapin, 1985). Les cas sont peu nombreux pour plusieurs raisons, des lésions bilatérales
localisées au niveau des aires auditives sont relativement rares (à noter que l’on parle
d’hémiacousie pour une atteinte unilatérale, Michel, 1993). Ce syndrome est souvent
transitoire dans sa forme globale évoluant vers une forme plus spécifique, comme la surdité
verbale pure ou l’agnosie auditive (Mendez & Geehan, 1988).
140
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
La surdité verbale pure
Kussmaul (1877, cité dans Polster & Rose, 1998) utilise la désignation de surdité
verbale pure pour décrire une incapacité à comprendre le langage parlé malgré la préservation
de l’audition, de la production de la parole et de capacités de lecture. Le terme «pure» ne
signifie pas que le patient souffre uniquement de ce trouble, en effet les patients souffrent
souvent d’autres troubles comme par exemple d’agnosie auditive (von Stockert, 1982) ou
d’amusie (Tanaka, Yamadori, & Mori, 1987). On distingue deux cas différents de surdité
verbale pure résultant soit d’une incapacité à discriminer les phonèmes, soit d’un traitement
pré-phonémique déficient (voir Auerbach et al., 1982, pour plus de détails).
L’agnosie auditive
L’agnosie auditive se définit selon la nature des stimulations auditives considérées
(avec ou sans les sons verbaux) et également en fonction du niveau de traitement perturbé
(aperceptif ou sémantique).
Deux conceptions existent pour définir ces agnosies. L’agnosie auditive se définit soit
par analogie avec l’agnosie visuelle (voir Chapitre 2) comme étant l’incapacité à reconnaître
des sons en l’absence de déficit de traitement du langage, soit comme un trouble pouvant
toucher l’ensemble des stimulations auditives, incluant le langage, où l’agnosie verbale
(surdité verbale) est une forme particulière d’agnosie auditive. Notons que l’agnosie musicale
est appelée amusie (voir Peretz, 2001, 2003, pour une revue).
Deux formes d’agnosie auditive se distinguent en fonction de la nature des traitements
perturbés (voir Peretz, 1993, pour une revue; Vignolo, 1982). On distingue l’agnosie
aperceptive et l’agnosie sémantique selon que les troubles touchent respectivement la
perception (trouble de la discrimination des patrons acoustiques) ou la reconnaissance
(incapacité à associer les patrons acoustiques à une signification) des stimulations auditives.
141
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
Cette distinction renvoie à un modèle de reconnaissance auditive qui conçoit la perception en
deux étapes (Figure 3.4).
MODELE A DEUX ETAPES
Entrée
auditive
ANALYSE
ACOUSTIQUE
REPRESENTATIONS
PERCEPTION
RECONNAISSANCE
AGNOSIE APERCEPTIVE
AGNOSIE ASSOCIATIVE
Figure 3.4: Représentation du processus de reconnaissance à deux étapes et du classement des agnosies
qui en résultent, reprise de Peretz (1993).
2.2.2 Atteintes sélectives de la perception des sons de l’environnement
La distinction verbal/non-verbal se retrouve dans les études de neuropsychologie, la
majorité des cas rapportés montrent une dissociation entre les capacités langagières (langage
oral) et non langagières (incluant à la fois la musique et les sons de l’environnement). Les
troubles des sons de l’environnement sont souvent observés conjointement à des troubles de
la musique (Eustache, Lechevalier, Viader, & Lambert, 1990; Motoruma, Yamadori, Mori, &
Tamaru, 1986). Nous diviserons ce point en deux parties, le premier traitera des observations
permettant de distinguer l’agnosie aperceptive de l’agnosie sémantique pour la perception des
sons de l’environnement. La seconde partie consistera à montrer que différents aspects du
traitement des sons peuvent être sélectivement atteints comme la perception du mouvement, la
reconnaissance ou encore la localisation. Ceci nous conduira à présenter les derniers
142
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
développements quant à l’existence de deux voies spécialisées, à l’image de celles qui sont
envisagées pour les objets visuels, la voie du «Quoi» et la voie du «Où», nous consacrerons
un dernier point sur la voie qui nous intéresse le plus celle du «Quoi».
Agnosie aperceptive et agnosie sémantique pour les sons de
l’environnement
Les cas rapportés sont rarement spécifiques aux sons de l’environnement (Albert,
Sparks, von Stockert, & Sax, 1972; Fujii et al., 1990) et sont généralement associés à des
troubles perceptifs plutôt que sémantiques (Lambert et al., 1989). La plupart du temps les
traitements des sons de l’environnement et de la musique sont perturbés (Eustache et al.,
1990; Lambert et al., 1989; Motoruma et al., 1986; Spreen, Benton, & Fincham, 1965) avec
une bonne préservation des capacité langagières. Parfois, la perception des sons de
l’environnement et du langage est déficiente avec une préservation de la perception de la
musique (Mendez, 2001). Les troubles de la modalité auditive peuvent, comme nous l’avons
vu, détériorer plusieurs capacités à la fois. Les recherches qui s’intéressent plus
particulièrement à des perturbations de la perception des sons de l’environnement étudient
souvent des patients cérébrolésés présentant également des troubles de la musique et/ou du
langage. Clarke et al. (1996) comparent les performances de 20 patients cérébrolésés dans
différentes tâches de reconnaissance auditive, à celles de 60 sujets contrôles. Leur approche
permet de différencier l’agnosie auditive aperceptive de l’agnosie sémantique chez des
patients lésés au niveau de l’hémisphère gauche, droit, voir des deux, présentant ou non des
troubles aphasiques. Nous détaillerons les différentes tâches qu’ils utilisent en présentant
directement les résultats qui leur sont associés:
*Identification sémantique: le sujet doit effectuer une correspondance son-image.
On lui fait écouter un son de l’environnement qu’il doit associer à une image parmi cinq.
143
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
L’image représente soit l’objet correspondant au son (nous prendrons un tintement de verre
comme exemple, Figure 3.5), soit un objet pouvant produire un son acoustiquement et
sémantiquement similaire (bruit de vaisselle), sémantiquement similaire (déboucher une
bouteille), acoustiquement similaire (une clochette), ou sans rapport (une mitraillette).
Figure 3.5: Images que le sujet pouvait sélectionner lors d’un essai suite à l’écoute d’un son (la cible
dans l’exemple étant «verres») lors d’un test d’identification sémantique en fonction des cinq conditions de
présentation, repris de Clarke et al. (1996), voir le texte pour les explications.
Cinq patients présentent des performances sévèrement perturbées dans ce test, trois
d’entre eux n’ont pas de troubles langagiers, et un à une lésion de l’hémisphère droit. Sur les
patients restant, cinq présentent des troubles de compréhension auditive et visuelle avec lésion
de l’hémisphère gauche, associés à une aphasie globale (1 cas), de Wernicke (3 cas) ou
transcorticale perceptive (1 cas).
144
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
*Reconnaissance asémantique: on demande au sujet de déterminer si deux extraits
sonores différents sont produits ou non par un même objet. Par exemple, si le son à comparer
est un son de voiture, on trouvera comme échantillon sonore, soit un son de voiture différent
(la seule réponse oui), un son sémantiquement et acoustiquement lié (camion), un son
sémantiquement lié (train), un son acoustiquement lié (tondeuse à gazon), ou un son sans
rapport (vache).
Deux patients présentent un déficit sévère et quatre un déficit modéré dans cette tâche.
L’un d’entre eux souffre d’une aphasie globale avec lésion de l’hémisphère gauche. Les cinq
autres n’ont pas de troubles langagiers, trois ont une lésion de l’hémisphère droit, et deux des
lésions bilatérales.
*Ségrégation des objets sonores: plusieurs sous-tests sont inclus dans cette catégorie.
Les sujets doivent repérer un objet sonore dans un environnement bruité, en augmentant son
intensité jusqu’à sa détection (étape d’intensité), ou encore déterminer s’ils entendent un ou
deux objets lorsque le délai entre plusieurs sons est modulé (modulation temporelle cohérente,
par exemple un son de galop). Le troisième test consiste à manipuler la synchronie de départ
des sons en faisant varier le moment du départ de deux sons, le sujet doit dire s’il entend un
ou deux sons. Ajouter à ces trois tests, les auteurs contrôlent les aptitudes discriminatives et
perceptives de leurs sujets en mesurant le seuil de discrimination d’intensité, de fréquence, et
la capacité à percevoir des sons de très courte durée (2 à 100 ms).
Neuf patients présentent des troubles de ségrégation des objets sonores, trois en étape
d’intensité, un seul en modulation temporelle cohérente, et sept en synchronie de départ des
sons.
Les auteurs dénombrent sept profils différents en fonction des performances obtenues
dans leur trois tâches (Tableau 3.2).
145
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
Profil
1
2
3
4
5
6
7
IS
TEST
RA SOS
LESION
HD HG
B
+
+
+
3
4
-
+
+
-
-
4
1
+
-
+
1
-
1
+
-
-
1
-
-
-
+
-
2
-
-
-
-
+
1
1
-
-
-
-
-
-
1
Tableau 3.2: Différents profils en fonction des performances (Clarke et al., 1996) aux différents tests
(IS: Identification Sémantique, RA: Reconnaissance Asémantique, SOS: Ségrégation des Objets Sonores) et de
la localisation des lésions (HG: Hémisphère Gauche, HD: Hémisphère Droit, B: Bilatérales).
Les résultats de cette étude mettent en évidence trois doubles dissociations pour les
sons de l’environnement. Une double dissociation s’observe entre l’identification sémantique
et la reconnaissance asémantique (profils 3 & 4 versus 5), entre l’identification et la
ségrégation d’objets sonores (profils 2 & 4 versus 6), et enfin entre la reconnaissance
asémantique et la ségrégation d’objets sonores (profils 2 & 5 versus 3 & 6). Ces résultats vont
dans le sens d’une séparation entre ces trois traitements pour les sons de l’environnement.
Certains patients présentent donc des atteintes sélectives au niveau de leurs capacités
discriminatives (agnosie auditive aperceptive) ou d’identification (agnosie auditive
sémantique) pour les sons de l’environnement. De plus, il semble qu’il n’existe pas de relation
forte entre l’aphasie (visuelle et/ou auditive) et les capacités de compréhension auditive nonverbale. Seulement un tiers des patients avec troubles langagiers présente également des
troubles dans la reconnaissance des sons de l’environnement. Les auteurs font une revue de la
littérature concernant les agnosies auditives, et rapportent que les déficits pour les sons de
l’environnement sont souvent associés à des lésions bilatérales (Motoruma et al., 1986;
Taniwaki, Tagawa, Sato, & Iino, 2000), avec quelques cas de lésions de l’hémisphère droit
(Fujii et al., 1990) ou gauche (Pasquier et al., 1991). Les deux hémisphères sont censés jouer
un rôle différent pour ce qui concerne le traitement des sons de l’environnement. Vignolo
146
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
(1982) montre que la plupart des patients souffrant d’agnosie auditive associée avec des
lésions de l’hémisphère droit présentent également des troubles perceptifs et discriminatifs.
En comparaison, les patients qui sont atteints à l’hémisphère gauche souffrent généralement
de troubles sémantiques et/ou associatifs. Plus récemment, Schnider et al. (1994) parviennent
à des conclusions similaires sur un ensemble de 52 patients (29 lésés à l’hémisphère gauche et
23 au droit). Les données de Clarke et al. (1996) contrastent avec la dichotomie hémisphère
gauche-sémantique et hémisphère droit-discriminatif pour les sons. Dans leur étude, une
lésion de l’hémisphère droit entraîne des déficits dans les tâches d’identification sémantique
et de reconnaissance asémantique plus fréquents (37,5 % des cas) que des lésions de
l’hémisphère gauche (11 % des cas). Dans le cas de la tâche de ségrégation des objets, les
déficits sont plutôt attribuables à une lésion de l’hémisphère gauche (50 % des cas) que du
droit (37,5 % des cas). Tanaka, Nakano et Obayashi (2002) utilisent, avec des sons de
l’environnement, un test similaire à celui d’identification sémantique employé dans l’étude de
Clarke et al. (1996), (à la différence qu’ils n’utilisent pas de condition «sémantiquement et
acoustiquement» liée à la cible), chez 24 patients (12 lésés unilatéralement à droite et 12 à
gauche, suite à une hémorragie putaminale). Leurs observations suggèrent que la latéralité de
l’atteinte hémisphérique est indépendante des résultats des patients au test d’identification
(voir cependant Saygin et al., 2003, pour une interprétation différente). En conclusion, cette
étude suggère que différentes capacités relatives aux traitements des sons de l’environnement
peuvent s’effectuer indépendamment les unes des autres et impliquent de manière
différentielle nos hémisphères cérébraux. Ce dernier point laisse penser que la reconnaissance
auditive non-verbale diffère de celle du langage tout du moins au niveau des circuits corticaux
impliqués.
En ce qui concerne la dissociation entre agnosie auditive aperceptive et sémantique,
les résultats de ces études semblent en accord. L’agnosie aperceptive est représentée par un
147
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
échec aux tâches de ségrégation des objets sonores, et l’agnosie sémantique se retrouve chez
des patients qui échouent aux tests d’identification sémantique et de reconnaissance
aperceptive. Un parallèle peut même être fait entre les deux formes d’agnosie visuelle,
l’agnosie associative (identification sémantique) et l’agnosie asémantique (reconnaissance
asémantique).
Localiser et identifier un son, vers une dissociation
Récemment un certain nombre de chercheurs se sont intéressés aux dissociations qui
semblent exister entre la localisation et l’identification des sons, chez l’humain «normal» et
l’animal (Belin & Zatorre, 2000; Lewis et al. 2004; Maeder et al., 2001; Rauschecker &
Tian, 2000). Des études chez des patients cérébrolésés permettent également de mettre en
évidence de telles dissociations (Adriani et al., 2003; Clarke & Bellmann Thiran, 2004;
Clarke et al., 2000, 2002). Cette distinction est particulièrement intéressante, car d’une part
elle attribue des voies de traitement spécifiques à l’identification et à la localisation des sons
de l’environnement et d’autre part l’existence de ces deux voies («Où» et «Quoi») pour le
traitement des objets visuels ajoute un parallèle supplémentaire entre les objets visuels et
auditifs.
Clarke et al. (2000) comparent les performances de quatre patients présentant des
lésions de l’hémisphère gauche. Trois tests différents sont utilisés, un test de reconnaissance
sémantique (identique au test d’identification sémantique utilisé par Clarke et al. (1996)), un
test de localisation auditive (deux tests sont utilisés, l’un des deux nécessitent des
compétences verbales très faibles pour permettre à l’un des sujets de le passer) et un test de
reconnaissance du mouvement. Les résultats de leur étude montrent une double dissociation
entre les capacités de reconnaissance («Quoi») et les fonctions spatiales («Où») pour les
sons de l’environnement. Les auteurs proposent deux voies anatomiquement différentes en
148
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
fonction des lésions de leur patient. Une voie pour la reconnaissance auditive qui
comprendrait les aires auditives latérales et la convexité latérale. L’autre voie impliquée pour
l’analyse spatiale auditive comprendrait les aires auditives postérieures, l’insula et la
convexité pariétale. La même équipe (Maeder et al., 2001) conduit une expérience d’imagerie
cérébrale pour explorer la distinction entre reconnaissance et spatialisation pour les sons de
l’environnement chez les sujets normaux. Ils utilisent une tâche de reconnaissance (le sujet
doit détecter des cris d’animaux dans un fond sonore) et une tâche de localisation (déterminer
si deux sons proviennent ou non de la même localisation). Leurs résultats montrent que les
réseaux «Où» et «Quoi» pour les stimulations auditives sont au moins partiellement
indépendants. La reconnaissance d’un son de l’environnement implique bilatéralement, la
partie antérieure du lobe temporal médian, la partie ventrale du precuneus, et le cortex
préfrontal gauche. La localisation des sons, quant à elle, implique le lobule pariétal inférieur,
des parties du cortex préfrontal et prémoteur et la partie dorsale du precuneus. Les activations
bilatérales observées pour la reconnaissance des sons de l’environnement dans l’étude de
Maeder et al. (2001) conduisent Clarke et al., (2002) à tester 15 patients souffrant de lésions
de l’hémisphère droit. La double dissociation, entre la reconnaissance et la spatialisation des
sons de l’environnement, déjà observée pour des patients lésés au niveau de l’hémisphère
gauche (Clarke et al., 2000) se retrouve dans cette étude. La reconnaissance des sons semble
nécessiter l’intégrité de la convexité temporale, pour la localisation les zones impliquées
comprennent les convexités pariétale et frontale.
Cet ensemble d’études suggèrent une dissociation entre les traitements de
reconnaissance et de spatialisation pour les sons de l’environnement. Une double dissociation
pour ces deux fonctions est observée suite à des lésions unilatérales gauches (Clarke et al.,
2000) ou droites (Clarke et al., 2002). L’étude d’imagerie de Maeder et al. (2001) chez les
sujets normaux suggère également une telle dissociation. Si l’existence de ces deux voies
149
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
semble confirmée par des sources convergentes, rien n’atteste une séparation complète de ces
processus chez le sujet normal. De plus, les études de neuropsychologie ont été menées avec
des patients dont les lésions existaient au moins depuis quelques mois. Ce délai permet des
réorganisations fonctionnelles qui peuvent comprendre le cortex auditif, ce qui permettrait
d’expliquer qu’on puisse indifféremment observer cette double dissociation suite à des lésions
présentes dans l’hémisphère gauche ou droit. Pour l’ensemble de ces raisons, Adriani et al.
(2003) ont testé 30 patients (15 ayant une lésion dans l’hémisphère gauche, et 15 ayant une
lésion dans l’hémisphère droit) dont les lésions sont survenues en moyenne dans les 10,4
jours avant les tests. Les trois tests utilisés sont similaires à ceux déjà employés dans l’étude
de Clarke et al. (2000), reconnaissance, localisation et perception du mouvement des sons de
l’environnement. Les résultats de cette étude montrent:
(1)Une double dissociation, entre d’une part la reconnaissance des sons et d’autre part
la localisation et la perception du mouvement des sons, déjà rapportée pour des patients lésés
depuis plusieurs mois (Clarke et al., 2000, 2002) se retrouve chez des patients lésés depuis
moins de deux semaines.
(2)Les déficits dans les performances de reconnaissance, de localisation et/ou de
perception du mouvement sont toujours associés à des lésions de structures auditives
partagées (par les deux voies comprenant, le thalamus auditif, la radiation acoustique, l’aire
primaire auditive et de petites régions en périphérie des aires auditives) et la voie «Où» et/ou
la voie «Quoi». Cette observation suggère que la lésion d’une région connue comme
impliquée dans le traitement du «Où» ou du «Quoi» (Maeder et al., 2001) est nécessaire
mais non suffisante pour générer un déficit.
Les données sont partiellement similaires à celles obtenues précédemment (Clarke et
al., 2000, 2002), ces deux voies seraient présentes et activées bilatéralement. Dans les études
précédentes, les observations de déficits sont faites chez des patients souffrant de lésions
150
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
unilatérales à droite ou à gauche. Les données permettent donc deux interprétations, par
exemple pour la reconnaissance, soit les deux hémisphères sont spécialisés, le droit pour les
traitements perceptifs/discriminatifs et le gauche pour les traitements sémantiques (Vignolo,
1982), soit les traitements effectués par l’hémisphère intact sont perturbés par ceux de
l’hémisphère lésé (Clarke et al., 2002). Cette étude suggère que ces deux voies de traitement
des sons de l’environnement correspondent à des réseaux spécialisés qui sont interconnectés
par les structures auditives partagées.
De la voie du «Quoi» au sens des sons en images
Deux études d’imagerie récentes (Adams & Janata, 2002, Lewis et al., 2004)
permettent d’appréhender les régions cérébrales impliquées dans l’identification des sons de
l’environnement. Nous détaillerons ces deux études, en commençant par celle d’Adams et
Janata (2002).
Ces auteurs ont deux objectifs, identifier le circuit neuronal responsable de
l’identification et de la catégorisation d’objets auditifs, et déterminer si il est commun à celui
impliqué dans le traitement des objets visuels. La première expérience sert de base à celle que
les sujets passeront dans le scanner, et consiste à présenter au sujet 65 images et 65 sons, les
sons représentants des objets différents des images. Ils présentent les sons et les images
simultanément à un label verbal qui peut varier selon 4 conditions (prenons l’exemple de
l’image d’un corbeau le mot affiché sera (i)Corbeau (correspondant, niveau exemplaire),
(ii)Oiseau (correspondant, niveau de base), (iii)Moineau (différent, niveau exemplaire),
(iv)Chat (différent, niveau de base). Le mot et l’objet sont présentés simultanément pendant
2s. La tâche du sujet consiste à faire une tâche de vérification de nom le plus rapidement
possible en déterminant si les deux stimuli correspondent ou non. Une fois la réponse donnée,
l’essai suivant débute 1s plus tard (les stimulations sont présentées en bloc de sons ou
151
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
d’images). Les temps de réaction des sujets sont plus courts pour les objets présentés
visuellement, ils répondent également plus rapidement pour vérifier le niveau de base plutôt
que l’exemplaire. Aucune indication n’est fournie pour comparer les résultats des réponses
négatives et positives. L’Expérience 2 se déroule avec 12 sujets et reprend le principe de la
première à quelques détails près. 30 sons et 30 images sont sélectionnés parmi ceux de
l’Expérience 1, une tâche est ajoutée pour contrôler les activations propres à la lecture du
label linguistique (tâche sémantique). Ils demandent aux sujets de déterminer si le mot qui
leur est présenté désigne un objet qui peut se mouvoir par lui-même ou non. Les résultats
comportementaux, en termes de temps de réaction, sont plus longs, mais restent similaires en
termes d’effets, à ceux de la première expérience. Les données d’imagerie mettent en
évidence le rôle central du gyrus frontal inférieur pour discriminer des objets auditifs aussi
bien dans des tâches de détection que de jugement phonologique ou sémantique (voir,
Wagner, 1999, pour une revue). Les résultats de cette étude semblent suggérer que l’activité
de cette région permettrait l’association des représentations conceptuelles avec les
caractéristiques spectro-temporelles des sons. Les activations dans le cas de sons de
l’environnement sont bilatérales. Les activations de cette structure dans l’hémisphère gauche
sont considérés comme dépendantes de traitements langagiers (Price, 2000). Les activations
quand elles sont localisées à droite sont observées dans le cas de traitement de stimulations
auditives non-verbales comme la musique (Zatorre, Evans, & Meyer, 1994) ou pour un accès
à la mémoire sémantique pour les images (Wagner, 1999). Les auteurs proposent que les
temps de réaction plus longs et les activations du gyrus frontal inférieur observés pour les
objets auditifs mais pas pour les objets visuels reposent sur deux raisons principales. Les sons
de l’environnement se définissent uniquement par un ensemble de caractéristiques spectrotemporelles, l’intégration perceptive de cet ensemble persiste jusqu’à l’identification du son
ou sa fin. Le temps d’identification d’un son est donc extrêmement dépendant de ses
152
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
propriétés acoustique comme la périodicité (scier du bois versus un moteur). Quand un son est
entendu, le déroulement du traitement de ses caractéristiques spectro-temporelles permet de
rechercher des associations en mémoire sémantique en fonction du patron acoustique qui est
en train d’être analysé. Les auteurs prennent l’exemple de l’activation d’un concept par une
autre stimulation (image ou mot), la décision ne pourra être prise que lorsque les
caractéristiques spectro-temporelles seront associées elle-mêmes à une signification.
Cette étude met en évidence trois régions qui pourraient correspondre à des
représentations communes sémantiques/conceptuelles pour les images et les sons de
l’environnement. Le sillon frontal inférieur permettrait de différencier les items des niveaux
de base et subordonnés pour les images et les sons. Une activation plus importante est
observée, pour les deux modalités, dans l’opercule frontal pour la catégorisation du niveau
subordonné. Finalement, la soustraction des conditions «niveau de l’exemplaire»-«niveau
de base» active des petites régions similaires proches des gyri fusiforme médian et frontal
inférieur.
Les auteurs concluent qu’il semble exister une mémoire sémantique sous forme de
réseau tout du moins pour les images et les sons dont les accès seraient polymodaux (selon
que l’on considère les images ou les sons de l’environnement) et intimement lié au langage.
Lewis et al. (2004) proposent une revue de littérature des études d’imagerie, en plus de
leur propre expérience, pour identifier les régions cérébrales impliquées dans la
reconnaissance des sons de l’environnement. Ils utilisent 105 sons de l’environnement joués à
l’endroit (reconnaissables) et joués à l’envers (non identifiables) ajoutés à 140 silences. Le
sujet doit indiquer, s’il peut reconnaître ou identifier le son, s’il est incertain ou s’il ne peut
pas le reconnaître. Les résultats de leur étude d’imagerie montrent que la reconnaissance des
sons de l’environnement génère une activation plus importante:
153
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
*bilatéralement, dans et à proximité de la portion postérieure du gyrus temporal
médian.
*dans le sillon temporal supérieur, avec un site isolé mais robuste dans l’hémisphère
droit, et de manière plus étendue dans le gauche.
D’autres régions sont activées dans l’hémisphère gauche comme le cortex frontal
inférieur, le gyrus fusiforme inférieur, le gyrus angulaire, et le cortex cingulaire postérieur.
Les auteurs comparent les résultats de leur expérience avec les données d’autres
expériences d’imagerie cérébrale réalisées dans le même laboratoire (Binder, et al., 1997,
2000; Lewis, Beauchamp, & DeYoe, 2000), avec le même appareillage et en utilisant les
mêmes techniques d’analyse. L’ensemble de ces données sont compilées et les auteurs
proposent un modèle cortical pour le traitement des sons de l’environnement et du langage
oral en trois étapes:
* Étapes d’entrée: elles se rapportent aux traitements acoustiques détaillés dans
l’étude de Binder et al. (2000). On compare les zones corticales plus activées par un son
modulé plutôt que par un bruit blanc, et par des mots plutôt qu’un son modulé. Les données
montrent une progression dorsoventrale des activations à mesure que la complexité de la
structure acoustique du son augmente. Le patron d’activation rapporté par Binder et al. (2000)
correspond à la superposition des zones corticales activées par les sons de l’environnement
qu’ils soient ou non reconnaissables. Ces résultats sont également consistants avec d’autres
études d’imagerie en rapport avec les sons de l’environnement (Engelien et al., 1995; Maeder
et al. 2001).
* Étapes intermédiaires: elles correspondent pour le langage aux associations lexicosémantiques. Les résultats de cette étude sont comparés à ceux de Binder et al. (1997). Les
régions qui sont activées (à l’exception de l’activation bilatérale de la partie postérieure du
gyrus temporal médian, et du gyrus supramarginal gauche) lors de la reconnaissance des sons
154
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
de l’environnement se superposent à celles impliquées dans le traitement de mot parlés. Dans
les deux études, la tâche des sujets nécessitait de reconnaître les stimulations et d’accéder à
leur sens.
* Étapes de sortie: l’activation du cortex frontal inférieur gauche par les sons de
l’environnement reconnaissable est consistant avec une étape de sortie. Cette étape
correspond à l’accès phonologique et la préparation articulatoire. Cette partie du cortex est
également activée lorsqu’un sujet arrive à reconnaître un objet visuel (Bar et al., 2001).
Nous avons vu pour les étapes intermédiaires que deux structures étaient activées dans
le cas spécifique de la reconnaissance et/ou de l’identification des sons de l’environnement.
L’activation bilatérale de la partie postérieure du gyrus temporal médian est particulièrement
intéressante. En ce qui concerne l’activation de cette structure dans l’hémisphère gauche,
deux fonctions lui sont attachées, d’une part les connaissances catégorielles (objets
manufacturés versus animaux, Martin & Chao, 2001), d’autre part lors de la récupération
d’information sur les connaissances des actions (Phillips, Noppeney, Humphreys, & Price,
2002). On peut illustrer ce dernier point en comparant la reconnaissance d’un son de
l’environnement avec celle du nom correspondant prononcé. Les traitements qui sont
nécessaires pour la reconnaissance d’un son de l’environnement impliquent certainement la
récupération d’actions visuelles ou motrices associées à la production du son.
Les auteurs proposent également des parallèles entre la reconnaissance des objets
visuels et auditifs. Contrastant avec les traitements sémantique et langagier, la reconnaissance
des sons de l’environnement active également la partie postérieure du gyrus temporal médian
dans l’hémisphère droit. Cette activation dans l’hémisphère droit permet de faire des
parallèles entre les objets visuels et auditifs, d’autant plus que cette zone se situe entre le
cortex visuel et auditif. La voie de traitement du «Quoi» montre des similitudes pour ces
deux types d’objets rejoignant les observations d’Adams et Janata (2002).
155
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
2.2.3 Les sons de l’environnement électrifiés
Nous discuterons des résultats de quelques études d’électrophysiologie s’intéressant au
traitement des sons de l’environnement. Les travaux de Van Petten et Rheinfelden (1995) et
Plante et al. (2000) avec la méthode des potentiels évoqués font des comparaisons entre les
traitements des sons de l’environnement, du langage et des images chez les sujets
«normaux» ou souffrant de troubles d’apprentissage. Nous verrons ensuite deux études
(Friedman, Cycowicz, & Dziobek, 2003; Mecklinger, Opitz, Friederici, 1997) qui utilisent le
paradigme de nouveauté P3 en potentiels évoqués, pour aborder les sons de l’environnement.
Nous terminerons en présentant les résultats de Lebrun et al. (1998, 2001), en ERD («EventRelated Desynchronisation») et potentiel évoqué qui permettent de faire des parallèles entre
le traitement des sons et du langage.
Van Petten et collaborateurs
Nous avons déjà abordé la première expérience de Van Petten et Rheinfelder (1995)
dans ce chapitre dans le point consacré aux études comportementales. Dans leur deuxième
expérience, elles utilisent la méthode des potentiels évoqués. Deux groupes de sujets sont
formés en fonction de la présentation des stimulations. On présente à un groupe de sujets un
mot (amorce) suivit d’un son (cible) correspondant ou non à l’objet désigné par le mot, puis
un fragment de son, qui peut ou non être une partie de celui qui vient d’être entendu. La tâche
du sujet consiste à déterminer si oui ou non le fragment de son provient du son qu’il vient
d’entendre. Le deuxième groupe suit une procédure similaire, si ce n’est que le format des
stimulations change, ils entendent le son suivi d’un mot et enfin d’un fragment de mot. Les
résultats montrent que quel que soit le mode de présentation des stimulations (son-mot ou
mot-son) on observe des composantes N400. La différence entre les deux conditions résident
dans l’implication différentielle des hémisphères cérébraux en fonction de la cible considérée.
156
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
L’hémisphère droit est plus impliqué pour le traitement des sons de l’environnement que le
gauche et le patron inverse est observé pour les mots. Les auteurs concluent que l’engagement
des hémisphères cérébraux est différent selon que l’on donne du sens à des mots ou des sons
de l’environnement.
Les résultats de l’étude que nous avons juste détaillés ont conduit l’une des auteurs à
poursuivre l’étude comparative entre les mots et les sons de l’environnement. Plante et al.
(2000) partent de l’hypothèse que l’accès au sens pour les mots et les sons de l’environnement
se fait par des populations de neurones différentes (Van Petten & Rheinfelder, 1995). Elles
utilisent la méthode des potentiels évoqué avec une procédure proche (même présentation,
amorce-cible-fragment, tâche de correspondance (oui/non) du fragment avec la cible) à celle
utilisée dans l’étude précédente (Van Petten & Rheinfelder, 1995). Les deux changements
majeurs se situent au niveau de la population étudiée et du matériel utilisé. Deux groupes de
sujets sont comparés des sujets contrôles et des sujets avec des troubles d’apprentissage. Les
personnes avec des troubles de l’apprentissage semblent être perturbées au niveau de la
stabilisation du vocabulaire, les déficits sont donc liés au langage. Dans cette étude, deux
listes d’items sont constituées, une liste verbale (Mot écrit (amorce)-Mot prononcé (cible)) et
une liste non-verbale (Dessin (amorce) – Son de l’environnement (cible)), l’amorce et la cible
sont sémantiquement reliées (elles étaient répétées dans l’étude de 1995). Les résultats
montrent que les sujets souffrant de problèmes d’apprentissage ont un patron de résultats
différent de celui des sujets contrôles en ce qui concerne les composantes N400. Cependant,
ils ne présentent pas de composante N400 pour les stimulations verbales contrairement aux
sujets contrôles. Pourtant pour les stimulations non-verbales, les résultats sont identiques quel
que soit le groupe de sujet considéré, la composante N400 est de plus faible amplitude dans le
cas de paires d’items (image-son) reliés sémantiquement comparé aux items non liés. Les
157
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
auteurs concluent que l’implication des hémisphères cérébraux est différentielle selon que
l’on donne du sens à des stimulations verbale ou non-verbale.
Le paradigme de détection de la nouveauté P3
La capacité à détecter des événements inhabituels ou nouveaux est importante pour le
stockage d’information en mémoire. La modulation de la composante P3 de nouveauté est
souvent interprétée dans le domaine de l’orientation. Cette onde s’observe dans des situations
où des stimulations inattendues ou nouvelles apparaissent (voir Friedman, Cycowicz, &
Gaeta, 2001, pour une revue). Mecklinger et al. (1997) présentent des sons de
l’environnement reconnaissables (10% des sons), intégrés dans un ensemble de son purs
standards (son pur d’une fréquence de 600Hz, 80% de sons), ou déviants (son pur d’une
fréquence de 660Hz, 10% des sons). Tous les sons durent 200ms, et sont séparés par un ISI
de 600ms. Les résultats montrent que l’onde P3 s’observe à la fois pour les sons déviants et
les sons de l’environnement, mais que seuls ces derniers génèrent une composante
ressemblant à la N400 au niveau pariétal droit. Les auteurs concluent qu’il semble exister un
processus d’identification automatique (en plus de la détection de la nouveauté) pour les sons
de l’environnement.
Friedman et al. (2003) utilisent la mesure de la nouveauté pour étudier les relations
inter-format entre un son de l’environnement et le label linguistique qui lui correspond.
Chaque sujet passe 10 blocs de 80 essais, composés de 64 sons purs de 700Hz, de
stimulations «nouvelles» (8 par bloc, un son de l’environnement ou un mot) et de 8 cibles
(son pur de 1000Hz). La tâche du sujet consiste à appuyer sur un bouton lorsqu’il détecte une
cible, il n’est pas informé de la présence de sons «nouveaux». Les sons de l’environnement
et les labels linguistiques peuvent être présenté selon deux conditions, soit le son (amorce)
apparaît en premier suivi plus tard par le mot (cible) qui lui correspond, ou l’inverse le mot en
158
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
amorce et le son en cible. L’hypothèse des auteurs est que si les sons de l’environnement
permettent d’accéder à une signification, l’habituation selon le format de présentation (sonmot versus mot-son) devrait être différent. Les résultats montrent que seule la présentation
d’un son en amorce et d’un mot en cible conduit à une réduction de l’onde P3 de nouveauté.
Les auteurs interprètent leurs résultats à la lumière des travaux de Paivio (1971, 1986). Les
sons de l’environnement nécessiteraient comme les images un double traitement, perceptif et
sémantique. Ainsi, quand le son est présenté en amorce le traitement perceptif s’effectue suivi
du traitement sémantique, et lorsque le mot apparaît le concept verbal contacte la
représentation sémantique activée précédemment par le son entraînant une diminution de
l’amplitude de la P3 de nouveauté. Maintenant, quand un mot apparaît une représentation
sémantique est activée, et lors de la présentation du son un traitement perceptif
supplémentaire s’intercale entre les deux traitements sémantiques ce qui pourrait faire que
l’amplitude de l’onde ne diminue pas.
Les travaux de Lebrun
L’auteur mène des travaux d’étude comparatifs entre la perception des sons de
l’environnement et du langage. Lebrun conclut: «... notre travail a confirmé des données bien
connues provenant de la neuropsychologie lésionnelle, concernant le rôle prédominant de
l’hémisphère gauche dans le traitement sémantique des sons de l’environnement et de
l’hémisphère droit dans leur traitement perceptif.» (Lebrun, 1997, p.234). Cette conclusion
s’appuie sur les résultats d’études neurophysiologiques comparant le traitement de sons
familiers (reconnaissables) ou non familiers (très difficilement reconnaissables) (Lebrun et al.,
1998) et de ce même ensemble de son avec le langage (Lebrun et al., 2001). Lebrun et al.
(1998) mettent en évidence l’implication des deux hémisphères dans le traitement de sons de
l’environnement qu’ils soient ou non reconnaissables. L’hémisphère droit serait responsable
159
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
des traitements perceptifs que le son soit reconnaissable ou non. Pour l’hémisphère gauche,
les activations (désynchronisations) sont similaires au début, mais diffèrent sur la fin
particulièrement pour les sons non reconnaissables (synchronisations). Les auteurs suggèrent
que le son qu’il soit reconnaissable ou non entre dans un cycle de traitement sémantique,
aboutissant à l’identification pour les sons avec signification et à des phénomènes inhibiteurs
pour ceux sans signification.
Lebrun et al. (2001) comparent les activations pour le traitement de sons de
l’environnement (reconnaissables ou non) et du langage. Au niveau des traitements présémantiques, les hémisphères cérébraux s’impliquent de manière différentielle en fonction de
la nature des stimulations, l’hémisphère gauche pour le langage et l’hémisphère droit pour les
sons de l’environnement. Le principal résultat de l’étude réside dans les activations de zones
communes situées à gauche dans la zone temporale pour les sons et les mots. Les auteurs
suggèrent qu’il existerait un réseau sémantique commun pour les sons et les mots, ou que les
sons conduiraient à activer le mot qui leur correspond, mot qui à son tour activerait la
représentation sémantique qui lui correspond. Cependant des activations dans les régions
postérieures droites pourraient indiquer l’existence de structures de traitement sémantique
propres aux sons, mais le décours temporel leur fait dire que cela paraît peu probable.
L’ensemble de ces trois approches différentes nous renseigne sur la spécialisation
hémisphérique, l’existence de voies de traitement spécialisées et de similitudes entre la
perception des objets visuels et du langage avec celle des sons de l’environnement.
Spécialisation hémisphérique et perception des sons de l’environnement
Les résultats des études électrophysiologiques proposent une spécialisation des
hémisphères cérébraux pour le traitement des sons de l’environnement, le gauche pour les
160
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
traitements sémantiques et le droit pour les traitements acoustiques (Lebrun et al., 1998,
2001; Plante et al., 2000; Van Petten & Rheinfelder, 1995, voir cependant Mecklinger et al.,
1997). Les activation «sémantiques» observées dans l’hémisphère gauche lors de
l’identification de sons de l’environnement les ont conduit à proposer l’hypothèse de sousvocalisation. Le son, dans cette conception, activerait le label linguistique qui à son tour irait
activer les connaissances conceptuelles qui lui son liées (voir, Dick et al., 2002, pour des
contre arguments). Les études d’imagerie cérébrale et de neuropsychologie proposent des
conclusions un peu plus nuancées. Généralement, les activations sont plutôt de nature
bilatérale, avec des traitements perceptifs localisés plutôt à droite et un peu à gauche et
inversement pour les traitements sémantiques. Clarke et ses collaborateurs proposent en
s’appuyant sur leurs travaux de neuropsychologie et d’imagerie cérébrale que les traitements
impliqués préférentiellement dans un hémisphère soient intiment liés à ceux de l’autre
hémisphère. Cette proposition expliquerait pourquoi, tout du moins en neuropsychologie, une
détérioration de l’identification des sons de l’environnement ne soit pas toujours sous la
dépendance de lésion à l’hémisphère gauche. L’hypothèse de Clarke s’appuie également sur
l’existence de structures auditives partagées entre la voie du «Où» et la voie du «Quoi»,
que nous détaillerons dans le point suivant.
La voie du «Où» et la voie du «Quoi»
Deux voies spécialisées semblent exister («Où», localisation et «Quoi»,
identification) à la fois pour les sons de l’environnement et les objets visuels. Les deux voies
dans le cas des sons utilisent des systèmes auditifs partagés (Adriani et al., 2003) en fonction
de sites cérébraux qui la plupart du temps sont repartis bilatéralement. Ces deux voies sont
mises en évidence à la fois par des études de neuropsychologie (Adriani et al., 2003) et
d’imagerie cérébrale (Maeder et al., 2001). La voie du «Quoi» nous intéresse tout
161
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
particulièrement, puisqu’elle consiste à donner du sens à un patron acoustique. Les données
dont nous disposons sont assez limitées, mais il semble que l’association entre le patron
acoustique correspondant à un son et sa signification s’effectue de manière bilatérale (Adams
& Janata, 2002; Lewis et al., 2004) dans des structures déjà connues pour les autres formes
de stimulations (pour les mots, activations à gauche, pour les images activations bilatérales).
Néanmoins les sons de l’environnement se différencient du langage selon Adams et Janata
(2002) du fait d’une intégration perceptive plus importante. Les résultats d’électrophysiologie
de Friedman et al. (2003) cadrent avec cette l’hypothèse. Adams et Janata concluent qu’il
semble exister une mémoire sémantique sous forme de réseau tout du moins pour les images
et les sons dont les accès seraient polymodaux et intimement liés au langage.
Notre objectif de recherche est centré sur la mémoire sémantique que nous voulons
étudier grâce aux sons de l’environnement. L’ensemble des études que nous venons de
présenter indique comment un son de l’environnement véhicule du sens (Adams & Janata,
2002, par exemple) et quels liens ils entretiennent en MLT avec les autres stimulations
signifiantes (Thompson & Paivio, 1994, par exemple). De nombreux résultats, qu’ils soient
issus de psychologie cognitive ou des neurosciences, suggèrent que la mémoire sémantique
serait organisée en fonction de la nature verbale ou non des stimulations, et que les
stimulations non-verbales seraient intimement liées aux verbales. La nature des liens qui
unissent les images, les mots et les sons de l’environnement sont encore mal connus. Ce
constat n’a rien d’étonnant quand on sait que nous ignorons comment sont organisées les sons
de l’environnement au sein du sous-sytème de mémoire sémantique qui semble leur être
dévolu (Thompson & Paivio, 1994). Dans le cas des objets visuels les auteurs supposent
générallement qu’ils sont organisés Grosso modo d’une manière similaire aux stimulations
langagières (Bowers et al. 1999), pour lesquelles nous disposons de plusieurs modèles se
162
Chapitre 3: La perception des sons de l’environnement, une revue de la littérature
basant sur de nombreuses données expérimentales (issues d’études des effets de contexte par
exemple). Une compréhension globale du fonctionnement de notre mémoire sémantique
nécessite que nous étudions chacun de ses modules pour ensuite comprendre quels sont les
liens que ces sous-systèmes de mémoire sémantique (pour les objets visuels, les mots et les
sons de l’environnement) entretiennent entre eux. L’étude de l’organisation du
fonctionnement du sous-système de mémoire sémantique qui semble dévolu aux sons de
l’environnement est donc un enjeu crucial pour comprendre la mémoire sémantique dans sa
globalité.
L’objectif de l’introduction était de présenter ce que nous voulons étudier, la mémoire
sémantique (Chapitre 1), en utilisant le paradigme d’amorçage (Chapitre 2) en parallèle avec
les études effectuées sur les images (Chapitres 2 & 3). L’étude des sons de l’environnement,
comme unités capables d’activer des connaissances abstraites, pourrait contribuer à améliorer
nos connaissances sur la nature et l’organisation de notre mémoire sémantique. Ces
problématiques seront étudiées dans la partie expérimentale.
163
Téléchargement