Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Les deux premiers chapitres posent le contexte théorique, le Chapitre 1 sur la mémoire situe l’objectif, le Chapitre 2 sur l’amorçage fourni l’outil pour l’étudier. L’objectif de ce troisième chapitre est de présenter le matériau que nous utiliserons pour étudier l’organisation de la mémoire sémantique. Avant de continuer plus avant une définition, un peu plus formelle, des sons de l’environnement, ou tout du moins de ce que nous considérerons, nous, comme tel, s’impose. Qu’est-ce qu’un son de l’environnement? L'un des premiers travaux du domaine (Vanderveer, 1979) propose plusieurs critères pour définir les sons de l'environnement : i-Ils sont produits par des événements réels. ii-Ils ont une signification donnée par les événements qui les produisent. iii-Ils sont beaucoup plus compliqués que les sons simulés en laboratoire comme les sons purs. iv-Ils ne font pas partie d'un système de communication comme le langage. Quelques années plus tard, Ballas et Howard (1987) apportent quelques modifications à cette première définition. Ces stimulations ne sont clairement, ni du langage, ni de la musique, mais ce type de définition par exclusion les renvoie à un plan secondaire. Ils proposent de conserver uniquement les deux premiers critères proposés par Vanderveer, les deux derniers étant exclusifs. Les avantages de garder uniquement ces critères seraient 95 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature nombreux selon eux. Premièrement, ils sont consistants avec les notions intuitives sur la nature des sons de l'environnement. Deuxièmement, ils demandent la spécification exacte de la source qui produit le son, encourageant de fait la rigueur scientifique. Troisièmement, ces critères impliquent que la fonction de la perception est de reconnaître les événements et non pas simplement de traiter le signal acoustique. Finalement, ces deux critères rapprochent les sons de l'environnement du langage, en gardant en tête que la signification des mots repose sur des conventions sociales. Comme nous pouvons le voir définir les sons de l'environnement n'est pas chose aisée, nous garderons la définition proposée par Ballas et Howard (1987). Un son de l'environnement est produit par un événement réel et a du sens en vertu de sa relation causale à cet événement, mais contraste avec les conventions sociales définissant la signification des mots. Au même titre que le langage ou les images, les sons de l’environnement véhiculent du sens. Cette caractéristique les rend très intéressants pour notre propos, l’organisation de notre mémoire sémantique. En premier lieu, comment un son de l’environnement est-il capable d’activer des connaissances sémantiques? Si un tel accès est possible, comment ces connaissances sont-elles organisées en mémoire? Nous avons vu à travers les deux premiers chapitres l’évolution des recherches et les débats engendrés par l’étude des objets visuels. Nous pouvons à priori répondre par l’affirmative à la première question pour les images (Bowers et al., 1999), les arguments expérimentaux restant cependant rares. Nous détaillerons un certain nombre d’études comportementales ayant pour objets les sons de l’environnement (Ballas, 1993; Van Petten & Rheinfelder, 1995), suggérant un accès à des structures de connaissances abstraites, mais n’offrant pas une vue globale du phénomène observé. Nous verrons également des études d’imagerie cérébrale, de neuropsychologie et 96 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature d’électrophysiologie qui s’intéressent aux traitements sémantiques du langage et des sons de l’environnement (Bozeat et al., 2000; Clarke et al., 1996, 2000; Lebrun et al., 1998, 2001; Plante, Van Petten, & Senkfor, 2000). Les données de ces études ne sont pas convergentes, suggérant ou non une dissociation des structures impliquées pour le traitement sémantique des sons de l’environnement. Dans un premier temps, nous essaierons de comprendre, si comme pour les images, les sons peuvent activer directement des connaissances en mémoire sémantique. Avant de pouvoir répondre à cette question, il semble judicieux de présenter quelques études relatives au matériel que nous utiliserons. L’objectif de ce chapitre sera de situer les sons de l’environnement dans les recherches actuelles, plus particulièrement la relation qu’ils entretiennent avec le sens qu’ils véhiculent. 1 Processus de traitement de l’information auditive L’objectif de cette thèse est dans un premier temps de déterminer si un son de l’environnement est capable d’activer des structures de connaissances abstraites en mémoire sémantique. Nous ne cherchons pas à étudier les déterminants acoustiques qui permettent de savoir si le son entendu est un aboiement de chien ou non, ni même les différences entre l’aboiement d’un doberman et celui d’un teckel, nous voulons étudier les activations des représentations de connaissances abstraites associées au concept «chien», par le biais d’un son de l’environnement, si elles existent. L’étude des processus de traitements perceptifs qui amènent à l’identification d’un son dépasse largement le cadre de ce manuscrit (voir, McAdams & Bigand, 1993; Moore, 2003, pour une revue). Néanmoins, nous présenterons rapidement les principales étapes perceptives nécessaires à l’identification d’un son (voir, Ballas, 1993; Gygi, 2001, pour une revue sur les sons de l’environnement). 97 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature «In everyday life, the sound reaching our ears generally arises from a number of different sound sources. The auditory system is usually able to parse the acoustic input, so that the components deriving from each source are grouped together and form part of a single perceptual stream. Thus each source may be ascribed its own pitch, timbre, loudness, and location, and sometimes source may be identified as familiar. The identification of a particular sound source depends on the recognition of its timbre.» (Moore, 2003, p.296-7). Le propos de Moore (2003) nous intéresse particulièrement et marque la frontière de notre recherche. Que se passe-t-il une fois qu’un ensemble de caractéristique acoustiques correspondant à un son de l’environnement est perçu? Question ambitieuse s’il en est, qui nous conduit directement au cœur de notre problématique. McAdams et Bigand (1993) propose un schéma qui résume les principaux processus de traitement de l’information auditive et leurs interactions (Figure 3.1). Nous détaillerons certaines de ces étapes de traitement. Figure 3.1: Principaux processus de traitement de l’information auditive et leurs interactions, figure adaptée de McAdams et Bigand (1993). 98 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature La transduction Le processus de transduction consiste, dans le cas de l’audition, par la transformation d’un signal mécanique engendré par le son, en un message nerveux utilisable par notre système nerveux central. Pour plus de détails, nous renvoyons le lecteur au premier chapitre de l’ouvrage de Moore (2003) qui explique brillamment les étapes conduisant à transformer un son en signal nerveux (voir aussi, Delorme & Flückiger, 2003). Processus de groupement auditif Ces processus sont mis en jeu lors de l’analyse de scène auditive (Bregman, 1990). L’être humain est capable dans un environnement sonore, d’une part de séparer les sons émis par différentes sources (ségrégation), et d’autre part de réunir toutes les composantes (fréquentielles par exemple) issues d’une même source (fusion). Ces processus renvoient directement à une partie de la citation de Moore proposée quelques lignes plus haut: «The auditory system is usually able to parse the acoustic input, so that the components deriving from each source are grouped together and form part of a single perceptual stream.» (voir Bregman, 1990, pour une revue). Extraction ou calcul des propriétés ou attributs perceptifs Cette extraction correspond à la deuxième partie de la citation empruntée à Brian Moore: «Thus each source may be ascribed its own pitch, timbre, loudness, and location, and sometimes source may be identified as familiar. The identification of a particular sound source depends on the recognition of its timbre.». Après la ségrégation et la fusion des différents événements sonores par les processus de groupement auditif, chaque événement pourra être analysé selon différents attributs perceptifs (durée, intensité, hauteur, timbre...). 99 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Structures de connaissances abstraites Nous voilà au cœur de cette thèse, les auteurs du schéma décrivent cette étape comme: «Une fois représentées dans le système perceptif, les qualités perceptives peuvent être interprétées en fonction des structures de connaissances évoquées. L’événement sonore, ou la séquence d’événements, est alors reconnu, identifié, et reçoit une signification qui dépend du contexte et de l’expérience antérieure de l’auditeur.» (McAdams & Bigand, 1993, p.7). Nous allons aborder, dans les points suivants, les études effectuées spécifiquement avec des sons de l’environnement, qui nous renseignent sur l’accès voir l’organisation des connaissances conceptuelles activées par ces stimulations. Nous détaillerons les apports de différentes disciplines appartenant aux neurosciences. Des comparaisons seront faites avec d’autres sources auditives comme la musique ou le langage, particulièrement avec les études de neuropsychologie. 2 Sons de l’environnement et connaissances abstraites, un état des lieux L’objet de ce point n’est pas de dresser une liste exhaustive de l’ensemble des études se rapportant aux sons de l’environnement. Une telle approche ne ferait que nous éloigner de notre objectif. Nous présenterons un ensemble de recherches qui directement ou indirectement étudient les connaissances conceptuelles qui nous permettent de donner du sens aux stimulations sonores qui nous intéressent. La littérature restreinte dans le domaine des sons de l’environnement permettra de détailler certaines études importantes au niveau cognitif. Différentes approches seront présentées. Les études comportementales, souvent sur les traces de celle du langage, interrogent sur la pertinence d’une telle approche et constitueront la plus 100 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature grande partie de ce chapitre. Les études d’imagerie fonctionnelle, qui suggèrent des processus de traitements différents selon que l’on tente d’identifier ou de localiser un son, proposent également un stockage sémantique commun. L’approche neuropsychologique apporte des informations sur la nature des dysfonctionnements suite à des atteintes cérébrales. Nous verrons que certains patients sont déficients pour reconnaître des sons de l’environnement tout en conservant des capacités langagières et musicales intactes. De la même manière, d’autres patients présentent des troubles langagiers qui épargnent leur capacité à identifier des sons de l’environnement. Nous terminerons cette revue de littérature par les études électroencéphalographiques qui proposent des traitements différentiels en fonction de la nature verbale ou non du matériel, mais suggèrent également un accès à une mémoire sémantique commune. L’ensemble des approches conduit à considérer un son de l’environnement sous plusieurs aspects. Sa nature sonore le rattache à la cognition auditive et nous fait l’étudier en fonction de la musique ou du langage parlé. Des comparaisons seront faites en fonction de ses deux pendants sonores, principalement dans les études de neuropsychologie. Les sons peuvent également convoyer du sens, cet aspect a intéressé quelques psychologues cognitivistes qui les ont étudiés en employant les méthodes déjà utilisées pour le langage. Assez récemment le son de l’environnement a pris un nouveau statut dans un ensemble de recherche mêlant toutes les compétences des différents domaines que nous venons de citer (psychologie cognitive et disciplines des neurosciences). Ces stimuli ont pris une place un peu similaire à celle des images, longtemps considérées comme les stimulations non-verbales signifiantes par excellence. Ce changement a pris du temps à s’opérer du fait des écueils rencontrés par les cognitivistes dans leurs études sur les sons de l’environnement, abordés avec les méthodes développées pour l’étude du langage, mais également par l’ancrage de ces stimulations dans une conception sonore globale avec le langage et la musique. Les développements récents mettent en exergue les similitudes qui 101 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature semblent exister entre les images et les sons tant au niveau de la différenciation des voies de traitements «Où» («Where») et «Quoi» («What»), mais également pour le stockage des connaissances en mémoire sémantique. Le son change de statut et devient au même titre que les images une source de compréhension qui pourra mieux éclairer le fonctionnement cognitif général. 2.1 Les études comportementales Nous restreindrons les études comportementales au domaine de la psychologie cognitive, nous n’aborderons pas les études psychophysiques et acoustiques utilisant des sons de l’environnement (Freed, 1990), ni l’approche écologique (Vanderveer, 1979; Gaver, 1993a, 1993b) qui dépassent largement le cadre de cette thèse. 2.1.1 Écoute dichotique Durant les années 1960 quelques chercheurs se sont intéressés au rôle différentiel des hémisphères en fonction de la nature verbale ou non des stimulations (Bakker, 1967; Kimura, 1961, 1964, Knox & Kimura, 1970). Ces études utilisant l’écoute dichotique montrent que le matériel verbal est mieux retenu quand il est présenté à l’oreille droite (hémisphère gauche, HG), l’inverse étant observé pour l’oreille gauche (hémisphère droit, HD). Déjà la spécialisation hémisphérique, que nous retrouverons au cours de cette revue, particulièrement dans le point consacré aux études neuropsychologiques, apparaît entre le langage (HG) et les sons de l’environnement (HD). 102 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature 2.1.2 Identification de sons de l’environnement Dans une série de deux études portant sur l’identification de sons de l’environnement, Lass et al. (1982, 1983) mettent en évidence une forte influence de la familiarité, qui sera étudiée plus en détail quelques années plus tard par Ballas et ses collaborateurs. Lass et al. (1982) présentent 40 sons de l’environnement repartis en 4 catégories (animaux, instruments de musique, objets et sons humains). Les sons les mieux identifiés sont ceux de la catégorie «sons humains», suivis par les instruments, les objets et enfin les animaux. Les performances d’identification pour la catégorie des animaux est en moyenne de 77,5%, ceci contraste avec les trois autres catégories où les sujets identifient les sons dans plus de 90% des cas. Les auteurs concluent que leur patron de résultats serait dû à la familiarité des sujets avec les sons de chaque catégorie. Quand on regarde le détail des résultats, les sujets identifient très bien les cris des animaux domestiques (chien, chat) et échouent pour les animaux de ferme (cochon, mouton). Ils font l’hypothèse que l’exposition quotidienne peu courante à certains cris d’animaux entraîne les différences de résultats qu’ils observent. Ces deux études mettent en évidence deux facteurs déterminants pour l’identification des sons de l’environnement, la typicalité et la familiarité. 2.1.3 Les travaux de James Ballas et collaborateurs Pendant presque 15 ans, Ballas a fait des sons de l’environnement son principal objet d’étude. Nous détaillerons quelques-unes de ses recherches en commençant par celles réalisées en collaboration avec Howard. Ils s’intéressent dans un premier temps à l’apprentissage de séquences de sons inspiré par des travaux issus d’études d’apprentissage implicite de grammaire artificielle utilisant des lettres (Reber, 1967, 1969, 1976). Howard et Ballas (1980) étudient le rôle de structures syntaxiques et sémantiques en utilisant des sons 103 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature avec et sans signification. Au cours de trois expériences, ils font apprendre à des sujets des séquences de sons grammaticales ou non (Figure 3.2). D A C D A Entrée Sortie C B E B A B Stimuli Expérimentaux Codes Exp1 Exp2 Exp3 A B C D E 1157 Hz 1250 Hz 1345 Hz 1442 Hz 1542 Hz Foreuse Applaudissement Bruit blanc Coup de marteau Choc de bois Ouverture d’une vanne Eau qui coule Bruit blanc Choc métallique Chasse d’eau Figure 3.2: Diagramme de la grammaire à état fini utilisée pour construire les séquences grammaticales (G) et non-grammaticales (NG). Les différents stimuli des trois expériences sont détaillés en fonction de la grammaire. Diagramme adapté d’Howard et Ballas (1980). La première expérience consiste à présenter des séquences, grammaticales (G) ou non grammaticales (NG), composées de sons purs à deux groupes de sujets. L’expérience se déroule en deux phases. Dans une première phase d’étude, ils présentent aux sujets, selon leur groupe, des séquences G ou NG, de 4 à 6 sons d’une durée de 80ms chacun. À l’issue de cette phase d’apprentissage, les auteurs informent les sujets que les séquences de sons qu’ils 104 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature viennent d’entendre sont gouvernées par des règles. Ces règles leur serviront pendant la deuxième partie de l’expérience, la phase de test, dans laquelle les sujets devront déterminer au cours d’une tâche de reconnaissance si les séquences qu’on leur présente sont G ou NG. Le groupe G obtient de meilleures performances que le groupe NG, les résultats vont dans le même sens que ceux rapportés avec les grammaires artificielles de lettres. Les auteurs construisent l’Expérience 2 selon le même principe en remplaçant les sons purs par des sons de l’environnement d’une durée de 82 ms (voir Figure 3.2, pour les détails). Les résultats sont similaires mais d’une amplitude moindre que ceux observés pour les sons purs. L’utilisation de sons de l’environnement, plutôt que de sons purs, semble gêner l’apprentissage des structures G. Howard et Ballas suggèrent que la présence d’informations sémantiques supplémentaires pour les sons de l’environnement par rapport aux sons purs, a peut-être biaisé les sujets causant la diminution de l’amplitude de l’effet entre les deux expériences. Ils décident de conduire une troisième étude sur le modèle de la seconde. Ils conservent un groupe G et un groupe NG divisés chacun en deux. Une moitié des sujets de chaque groupe est invitée à lire un petit texte qui fournit les informations sémantiques relatives à chaque son, sans toutefois donner d’informations sur les règles qui peuvent unir les différents sons présentés: «All of the individual sounds relate to water and steam. You will hear such things as drips, water flushing down a drain, a valve being turned on, steam escaping, and radiator pipes clanging» (Howard & Ballas, 1980, p.436). L’autre moitié des sujets de chaque groupe ne reçoit pas les informations sémantiques relatives à chaque son. Les auteurs pensent que prévenir les sujets pourrait éviter qu’ils soient influencés par la signification des sons. À nouveau, les sujets du groupe G ont des performances de reconnaissance supérieures à celles du groupe NG. Les informations sémantiques données à la moitié des sujets entrent en interaction avec le groupe, G ou NG. Les sujets du groupe G réussissent mieux la tâche quand ils ont eu les instructions. Les auteurs suggèrent que nous 105 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature utilisions pour appréhender les sons, à la fois des connaissances sur les structures syntaxiques (structure temporelle) et sémantiques (connaissances sur la source de l'événement sonore, Expérience 3), mais aussi les informations perceptives présentes dans les sons de l'environnement (Expérience 1). Plusieurs années plus tard, les mêmes auteurs (Ballas & Howard, 1987) poursuivent l’étude comparative entre les stimuli verbaux et sonores non-verbaux. Ils font des comparaisons directes entre les processus «top-down» et «bottom-up» impliqués dans le traitement du langage et des sons de l’environnement. L’influence des processus «top-down» inclut les résultats de leurs travaux antérieurs (Howard & Ballas, 1980, 1982). Concernant les processus «bottom-up», ils s‘inspirent des travaux de Vanderveer (1979), Warren et Verbrugge (1984) ou encore de Bregman (1978) pour l’implication des caractéristiques acoustiques des sons (timbre, hauteur, caractéristiques spectro-temporelles...). Ils s’intéressent également à la fréquence d’occurrence des sons de l’environnement, qu’ils comparent aux effets de fréquence des mots, pour eux ce facteur semble difficilement testable (Ballas essayera en 1993). Les auteurs parlent également d’incertitude causale («causal uncertainty»), qui peut être comparée aux effets d’homonymie observés en langage. Cette incertitude concerne la source qui génère le son, confondre le miaulement d’un chat avec les cris d’un bébé par exemple. Pour déterminer cette ambiguïté quant à la source, ils proposent un facteur (Hj) qui se base sur la théorie de l’information (l’entropie, DeGreen, 1971, cité dans Ballas & Howard, 1987). Ce facteur se calcule selon l’équation suivante: n Hj = - p(ci) log2p(ci) i=1 *Hj = l’entropie causale du son «j» *n = le nombre de catégories d’événements dans lequel se retrouve classé le son «j» *p(ci) = la proportion de réponses pour le son «j» dans la catégorie «i» 106 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Pour évaluer la validité de leur facteur d’entropie, les auteurs analysent les résultats d’une série de trois expériences dans lesquelles les sujets doivent identifier et fournir un indice de confiance pour neuf sons de l’environnement. La corrélation entre l’entropie causale et l’indice de confiance (mesuré sur une échelle en 5 points) est significativement négative (r=–.89, p<.01), indiquant que la confiance du sujet diminue d’autant plus que le nombre de causes (ou sources) qui peuvent engendrer le son augmente. Identifier un son présenté en isolation dépend donc en partie du nombre de causes différentes qui peuvent le générer (voir Gygi, 2001, pour une interprétation plus nuancée). Ces deux études (Howard & Ballas, 1980; Ballas & Howard, 1987) font des parallèles entre le traitement des sons de l’environnement et du langage. Elles documentent principalement l’apprentissage de règles sous-tendant des séquences de sons et des effets d’homonymie. Les auteurs concluent dans leur article : «... the recognition of isolated speech and environmental sounds produces similar patterns of semantic interpretations... an underlying structure enhances learning of environmetal sounds and, as with speech, is learned implicitly...» (Ballas & Howard, 1987, p.111-2). Ballas et Mullins (1991) poursuivent l’étude des sons de l’environnement en ligne directe avec les deux travaux que nous avons de détaillé. Les parallèles faits avec le langage, plus particulièrement l’effet d’homonymie, forment le point de départ de cette étude. L’objectif est d’étudier les effets de contexte sur l’entropie causale d’un son. Tout naturellement, ils se tournent vers un paradigme de recherche déjà éprouvé en langage, l’amorçage. Ils basent leur étude autour des deux observations principales faites précédemment sur l’homonymie (Ballas & Howard, 1987) et les séquences grammaticales cohérentes de sons (Howard & Ballas, 1980). Ils forment des paires de sons qui peuvent être confondus tout en restant discriminables («nearly homonymous pairs», paires presque homonymes), par exemple le vent qui souffle et un hurlement d’animal. Ces sons constituent 107 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature les cibles, qui sont intégrées dans des séquences de trois à six sons selon trois modalités, des séquences consistantes, biaisées et aléatoires (Expérience 1). Par exemple, la séquence consistante pour le pétard est composée des sons suivants: une allumette qu’on gratte, la mèche d’un pétard qui brûle, une explosion, et pour la séquence biaisée: de la nourriture coupée en tranches, puis en morceau, la mèche d’un pétard qui brûle. Le sujet doit choisir dans une tâche de choix forcé le son parmi la paire d’homonymes qui correspond le mieux au contexte proposé (dans notre exemple entre la mèche d’un pétard qui brûle et du bacon qui frit). Les séquences consistantes augmentent les performances des sujets quand on les compare aux séquences biaisées, mais pas avec la ligne de base qui correspond à la présentation d’un label linguistique correspondant à l’un des sons d’une paire d’homonymes sur lequel le sujet doit effectuer une correspondance entre le mot et le son. Les auteurs proposent deux interprétations pour rendre compte de leurs résultats. D’une part, le contexte consistant a peu ou pas d’influence et donc les effets en contexte biaisé sont inhibiteurs. D’autre part, les résultats en condition ligne de base et consistant pourraient être des performances plafond. Ils pensent que comme les sujets sont amenés à identifier chacun des sons proposés, les effets de contexte sont réduits. Ils proposent une nouvelle expérience (Expérience 2) pour tester cette hypothèse, elle est identique à la première expérience à la différence qu’une phrase décrit le contexte sonore avant chaque essai. La comparaison des résultats des deux premières expériences conduit les auteurs à conclure que l’ajout d’une phrase pour décrire le contexte a peu d’effet sur les performances. Ces résultats vont dans le sens d’une interprétation en termes d’effet inhibiteur créé par les séquences biaisées. Dans les deux dernières expériences, ils conservent une structure similaire à celle de la première expérience en changeant la ligne de base (identification d’un seul son au lieu d’une paire) et la tâche, en remplaçant le choix forcé par une tâche d’identification libre. Le sujet doit identifier tous les sons présentés en écrivant une phrase pour les décrire (Expérience 3). Les résultats 108 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature sont similaires à ceux des deux premières expériences. Ils réalisent alors une dernière expérience pour évaluer l’influence des labels linguistiques avec une tâche d’identification. Quatre groupes de sujets sont formés, deux groupes entendent des sons isolés, et les deux autres les séquences de sons utilisées dans les expériences précédentes. Un groupe dans chacune de ces conditions voit des phrases de contexte biaisé, et l’autre des phrases de contexte consistant. Les performances sont meilleures dans les deux groupes où le contexte est consistant avec la cible à identifier. Les deux groupes qui voient des contextes biaisés donnent significativement plus de réponses correspondant aux «presque homonymes» (>40%), dans les groupes consistants ce type d’erreurs est extrêmement rare (<3%). Ballas et Mullins (1991) avaient pour objectif de poursuivre l’étude des similitudes entre les sons de l’environnement et le langage (Howard & Ballas, 1980; Ballas & Howard, 1987). Ils documentent un nouveau phénomène les effets de contexte pour les sons de l’environnement, cependant le patron de résultats ne correspond pas à celui attendu, en d’autres termes ils ne répliquent pas les effets observés en langage. Les auteurs proposent plusieurs conclusions, en utilisant la théorie de la détection du signal sur leur quatre expériences et en se basant sur les comparaisons des mesures de la sensibilité et de biais de réponse. La sensibilité reste constante tant que des alternatives spécifiques (plusieurs sources possibles pour un même son) peuvent être évaluées comme étant une cause probable du son. Le biais de réponse augmente en fonction de l’ajout d’information contextuelle, dans le cas où les informations fournies sont erronées. Les auteurs concluent que la généralisation des effets de contexte, documentés dans le domaine du langage, doit être faite avec prudence pour les sons de l’environnement, car il ne semble pas exister de parallèle entre les deux. Il existe une organisation hiérarchique pour la perception du langage (phonèmes, mots, phrases) qui influence fortement notre compréhension. Cette organisation n’est pas présente pour les sons de l’environnement. Une autre différence entre le langage et les sons de l’environnement 109 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature réside dans l’importance des unités perçues. D’après Ballas et Mullins, en langage, tous les stimuli ont généralement du sens et contribuent au contexte. Cet état est différent pour les sons, nous y sommes continuellement soumis et ils peuvent ou non avoir de l’importance. Ces disparités entre le langage et les sons permettent d’argumenter sur les différences entre les effets de contexte obtenus dans ces deux domaines. Les résultats de cette étude suggèrent des différences fondamentales entre le langage et les sons de l’environnement, conduisant les auteurs à modifier leur approche comparative entre les sons et le langage, pour se centrer sur les seuls sons de l’environnement. Ballas (1993) décide d’étudier les facteurs déterminants pour l’identification des sons de l’environnement isolés et plus particulièrement la validité de son facteur d’incertitude causale (Hcu, correspondant au facteur Hj détaillé plus haut dans l’étude de Ballas et Howard (1987)). Il utilise 41 sons de l’environnement d’une durée de 625ms comprenant des signaux (sonnette, alarme...), des sons modulés (fusil automatique, scier du bois...), des sons impliquant plusieurs bruits mécaniques (trotteuse d’une horloge, ouverture d’une porte), des sons d’impacts (bruit de pas, décrochement du téléphone...), et des sons d’eau (tirer la chasse, goutte d’eau...). L’étude se divise en cinq expériences qui explorent l’influence de facteurs acoustiques, écologiques, perceptifs et cognitifs sur l’identification des 41 sons. La première expérience s’appuie sur les résultats d’une étude précédente (Ballas, Sliwinski, & Harding, 1986) où les auteurs mettent en évidence une fonction logarithmique entre le temps d’identification et l’entropie causale pour 41 sons de l’environnement. Ballas (1993) veut déterminer si l’entropie (Hcu, «causal uncertainty», incertitude causale) est dépendante de facteurs perceptifs (analyse auditives des sons) et/ou cognitifs (prises en compte des différentes sources qui ont pu générer le son). Il mesure dans un premier temps, les caractéristiques acoustiques des 41 sons, comme les propriétés spectrales (Transformée de Fourier), temporelles (nombre et durée des impulsions...), et spectro-temporelles (amplitude 110 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature moyenne, mesure de la pression du son). Dans un second temps, 30 sujets sont chargés d’identifier les 41 sons lors d’une première écoute, puis lors d’une seconde écoute, on leur demande de donner toutes les alternatives possibles pour un son donné et de juger de la familiarité des sons. Avec l’ensemble de ces données, acoustiques, cognitives et l’incertitude causale l’auteur effectue des corrélations. Les temps de réponse des sujets (linéarisés par une fonction logarithmique) sont fortement corrélés à l’incertitude causale des sons (r=.89), la précision des sujets s’échelonne de 4 à 100% en fonction des 41 sons et est négativement corrélée avec les temps de réaction (r=-.72). Aucune caractéristique acoustique n’est significativement corrélée avec les temps de réponse ou la précision. La combinaison de l’ensemble des facteurs acoustiques permet d’expliquer 50% de la variance des temps d’identification. Dans l’Expérience 2, Ballas mesure la fréquence écologique des sons de l’environnement. Vingt-cinq sujets sont recrutés pour une semaine, pendant laquelle ils doivent enregistrer jusqu’à 50 noms de sons, exception faite des sons musicaux et langagiers. L’auteur a réuni 1185 noms de sons et a pu les classer en fonction de la date, de l’heure et du contexte. La moitié a été enregistrée «à la maison», pour la plupart entre 7 heures et 22 heures. Vingt-deux des sons utilisés dans l’Expérience 1 se retrouve nommés dans les résultats de cette étude. La corrélation entre la fréquence écologique et les temps de réaction est faible mais significative (r=.42). La combinaison des caractéristiques acoustiques des sons et de leur fréquence écologique permet d’expliquer 75% de la variance des temps de réaction. Dans une troisième expérience, Ballas demande à des sujets de noter les sons grâce à 18 échelles en fonction de facteurs cognitifs (agréabilité, représentativité...) et perceptifs (intensité, hauteur...). Les résultats aux échelles sont corrélés à ceux des deux premières expériences. Par exemple, les scores de l’échelle de reconnaissance sont corrélés avec la 111 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature précision enregistrée dans l’Expérience 1 (r=.73). De la même manière, les performances de l’échelle «puissance» sont corrélées avec l’intensité (r=.49). Une analyse en composante principale des résultats (ACP) permet en fonction des différentes échelles de mettre en évidence que trois facteurs expliquent 87% de la variance. Le premier facteur correspond aux performances des échelles en rapport avec le degré d’identification des sons, comme la facilité avec laquelle on peut former une image mentale, la similarité du son par rapport à son stéréotype mentale (Rosch, 1975) ou encore la facilité à verbaliser l’événement sonore. Le second facteur dépend de la qualité perçue des sons, comme l’agréabilité, la relaxation ou encore l’agressivité. Le troisième facteur correspond au nombre de sons classés dans la même catégorie, jugés similaires et le nombre de causes estimées pour un son. L’auteur utilise une analyse hiérarchique en clusters pour déterminer si les scores des échelles perceptives et cognitives produisent des catégories («clusters») interprétables pour les sons de l’environnement. Les données permettent de dégager une organisation des sons en quatre grandes catégories distinctives. Les quatre catégories correspondent aux bruits en rapport avec l’eau, aux bruits informatifs (sirène, sonnerie téléphone, sonnette...), aux sons qui ne sont pas très identifiables comme ceux en rapport avec des automobiles ou l’ouverture/fermeture de portes et aux sons composés de plusieurs transitions (interrupteurs, agrafeuse...). L’échantillon de sons étudié reste néanmoins restreint et peu varié, sans cris d’animaux ni instruments de musique par exemple. Les résultats des corrélations montrent l’importance des facteurs acoustiques, perceptifs et cognitifs pour l’identification des sons de l’environnement. Les deux dernières expériences sont réalisées pour étudier l’influence de la typicalité et de la probabilité de la source d’un son sur l’incertitude causale et l’étiquetage linguistique des sons. Les Expériences 4 et 5 sont des expériences d’amorçage, on demande au sujet de lire un mot puis d’écouter un son. La tâche consiste à déterminer si oui ou non le mot (amorce) est une source possible pour le son entendu (cible). L’hypothèse de Ballas, à propos de son 112 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature facteur Hcu, est qu’il existe des causes hautement (haute) et faiblement (basse) probables (voir résultats Tableau 3.1). Les résultats de l’Expérience 4 montrent que les sujets sont plus rapides pour répondre «oui» (1382ms) que «non» (1680ms). L’influence de la probabilité (haute ou basse) n’est pas significative mais entre en interaction avec le type de réponse. Les probabilités «hautes» sont confirmées plus rapidement que les «basses» mais rejetées plus lentement que les «basses». Les résultats vont dans le sens des corrélations observées dans l’Expérience 1 entre l’incertitude causale et les temps d’identification. Expérience 4 Amorce Réponse TR en ms Haute Oui 1239 Basse Oui 1585 Haute Non 1961 Basse Non 1619 Expérience 5 Typique Amorce Réponse TR en ms Oui Haute Oui 1175 Oui Basse Oui 1488 Non Haute Oui 1568 Non Basse Oui 1806 Oui Haute Non 1188 Oui Basse Non 1455 Non Haute Non 2023 Non Basse Non 1524 Tableau 3.1: Temps de réactions (en ms) des Expériences 4 et 5 en fonction de la nature de l’amorce (amorce hautement (haute) ou faiblement (basse) probable, comme source possible du son), de la réponse attendue et de sa typicalité (uniquement pour l’expérience 5, typique ou non typique). L’Expérience 5 consiste à étudier l’implication à la fois de la probabilité de la cause (Expérience 4) mais également de sa typicalité. Les deux sont incluses et confondues dans le facteur Hcu et dans la capacité d’identification des sons de l’environnement. La typicalité fait référence à des exemplaires qui sont très représentatifs de leur catégorie (Rosch, 1975). Les résultats montrent qu’en général, les temps de réponse sont plus rapides pour les probabilités «hautes» plutôt que «basses» et pour les sons typiques plutôt que non typiques. La seule exception reste le rejet des probabilités «hautes» pour les sons non typiques qui prennent plus de temps. 113 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Ballas (1993) met en évidence, à travers ses 5 expériences, le rôle de différents facteurs (variables acoustiques, fréquence écologique, incertitude causale, typicalité des sons) impliqués dans l’identification de son ensemble de 41 sons de l’environnement (voir également Gygi, Kidd, & Watson, 2000, pour une approche similaire). Il reste prudent quant à la généralisation de ses résultats du fait du nombre limité de sons utilisés. Néanmoins son facteur d’incertitude causale (Hcu) a déjà été détaillé dans d’autres études utilisant des ensembles de sons différents (par exemple, Ballas et al., 1986). Cet ensemble d’études est probablement le plus complet dans le domaine de la perception des sons de l’environnement, il permet de mieux cerner comment nous donnons du sens à ces stimulations et quels sont leurs rapports avec le langage. L’identification et les comparaisons faites avec le langage constituent les apports principaux de Ballas et ses collaborateurs. Nous allons en reprendre les points centraux et détailler en quoi ils sont importants pour comprendre l’organisation des sons de l’environnement en mémoire sémantique. Ballas et ses collaborateurs ont réalisé de nombreuses comparaisons entre les traitements des sons de l’environnement et du langage. Leurs résultats qui dans un premier temps permettent d’observer des similitudes, révèlent également des différences de traitement. Howard et Ballas (1980) mettent en évidence l’existence de structures syntaxiques et sémantiques pour les sons de l’environnement similaires à celles observées avec des grammaires artificielles utilisant des lettres (Reber, 1969). De la même manière, le phénomène d’homonymie observé en langage trouve une correspondance dans la perception des sons de l’environnement (Ballas & Howard, 1987). Par exemple, si vous entendez le mot «/vr/» en isolation, il vous sera impossible sans autres informations de déterminer s’il s’agit de verre, vert, ver, ou vers. De la même manière, entendre un son de vapeur en isolation ne 114 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature vous dira pas s’il s’agit d’une bouilloire, d’un train à vapeur ou encore d’une cocotte-minute (correspond à l’incertitude causale, Ballas, 1993; Ballas & Howard, 1987). Ballas et Mullins (1991) s’appuyant sur le parallèle qu’ils observent entre le phénomène d’homonymie pour les mots et de l’incertitude causale pour les sons, emploient les effets de contexte pour étudier l’organisation des sons. Les effets de contexte qu’ils observent pour les sons de l’environnement sont différents de ceux rapportés dans le domaine du langage. L’observation de ces différences conduisent Ballas à arrêter les études comparatives entre le traitement du langage et des sons de l’environnement. Cependant en 1993, Ballas met en évidence un certain nombre de facteurs entrant en jeu dans l’identification des sons de l’environnement comme, les facteurs acoustiques, la fréquence écologique, l’incertitude causale et la typicalité. Afin d’étudier l’influence de la typicalité et de l’incertitude causale sur l’identification des sons de l’environnement, Ballas réalise deux expériences d’amorçage répété inter-format (1993, Expériences 4 & 5). Ces deux dernières expériences permettent pourtant d’observer des effets d’amorçage facilitateurs, similaires à ceux rapportés dans le domaine du langage. Bien que le contexte est important pour permettre l’identification pertinente des sons de l’environnement (Ballas & Howard, 1987), Ballas et Mullins (1991) échouent à mettre en évidence avec des sons de l’environnement, des effets de contexte similaires à ceux rapportés dans le cas du langage. Ce résultat est cependant à nuancer aux vues des données rapportés deux ans plus tard par Ballas (1993). L’auteur arrêtera d’utiliser les sons de l’environnement comme support pouvant véhiculer du sens suite à son étude de 1993. Cependant, le dernier résultat de Ballas est crucial pour nous car il suggère qu’un mot désignant la source d’un son peut faciliter le traitement de ce son, comparé à un son sans rapport avec le mot. Cette facilitation indique qu’un mot active le concept qui lui correspond et que la pré-activation de ce concept permet de faciliter le traitement d’un son lui correspondant. 115 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature 2.1.4 Mémoire et sons de l’environnement Nous détaillerons dans ce point quelques-unes des études s’intéressant directement aux capacités de notre mémoire lorsque nous traitons des sons de l’environnement. Nous verrons tout d’abord un ensemble de recherche qui a abordé la relation entre les sons de l’environnement et la mémoire selon une approche structurale. Cette approche s’inscrit dans le cadre des recherches sur la dissociation entre la mémoire implicite et la mémoire explicite (Graf & Schacter, 1985), en employant des tâches d’amorçage à long terme (Chiu, 2000, Chiu & Schacter, 1995, Stuart & Jones, 1995). Une seconde partie sera consacrée à l’étude des relations entre les sons de l’environnement et la mémoire sémantique selon l’approche fonctionnelle. Nous verrons d’une part des études qui tachent de déterminer comment les sons de l’environnement sont stockés en mémoire sémantique en se basant sur des théories comme celle du double codage développée par Paivio (1971, 1986) (Barlett, 1977; Lawrence & Cobb, 1978; Paivio, Philipchalk, & Rowe, 1975; Thompson & Paivio, 1994). D’autre part, nous détaillerons les résultats d’études qui donnent des indications sur les liens que peuvent entretenir les sons de l’environnement au sein de la mémoire sémantique, en présentant la partie comportementale de l’étude de Van Petten et Rheinfelder (1995), et en revenant sur les résultats de Ballas (1993, Expériences 4 & 5), qui documentent des effets facilitateurs d’amorçage répété inter-format avec des sons de l’environnement. Sons de l’environnement et mémoire implicite Certains travaux ont abordé l’étude de la mémoire implicite par les sons de l’environnement dans des tâches d’amorçage répété à long terme (Chiu, 2000; Chiu & Schacter, 1995; Stuart & Jones, 1995). Stuart et Jones mettent en évidence des effets d’amorçage «associatif» avec des sons de l’environnement, résultats que n’observent pas Chiu et Schacter (1995). Les résultats de Stuart et Jones sont cependant à considérer avec 116 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature prudence. Chiu (2000) en contrôlant un certain nombre de facteurs observe des résultats similaires à ceux de Chiu et Schacter (1995). Deux conceptions s’opposent au travers de ces 3 études, d’une part Stuart & Jones proposent que les sons de l’environnement, contrairement aux traitements des autres stimulations (mots écrits et parlés, images...), pourraient profiter d’activations de connaissances conceptuelles dans des tâches d’amorçage à long terme. Ceci donnerait aux sons de l’environnement un statut à part dans le fonctionnement cognitif de l’être humain et plus particulièrement au niveau de la mémoire. D’autre part, Chiu et Schacter (1995) et Chiu (2000) rapportent que les sons de l’environnement à l’instar des autres types de stimulations (mots écrits et parlés, images...) seraient traités par un sous-système du PRS, donc en fonction de caractéristiques exclusivement perceptives. Nous détaillerons ces trois études et en discuterons les résultats. Chiu et Schacter (1995) ont deux objectifs en étudiant les sons de l’environnement avec un paradigme d’amorçage à long terme. Ils veulent déterminer si comme pour les images l’amorçage répété inter-format à long terme est complètement éliminé pour les sons. Leur second objectif est d’étendre les connaissances du domaine verbal auditif en amorçage répété au domaine non-verbal auditif. Deux tâches différentes sont utilisées pour comparer les performances en mémoire implicite et explicite. Le principe général consiste à présenter en phase d’étude un son de l’environnement d’une durée de 5s, puis après un délai variable comprenant en général des tâches de remplissage, un fragment de son d’une seconde (correspondant à la première seconde du son utilisé en amorce) est présenté en phase de test. La tâche du sujet est de donner le premier mot qui lui vient à l’esprit. Le test sera de nature implicite (amorçage) si aucune autre indication n’est fournie au sujet (identification de fragment sonore) et de nature explicite si on enjoint le sujet à se souvenir de la phase d’étude pour répondre (rappel indicé de fragment sonore). Dans l’Expérience 1, tous les sujets voient en phase d’étude un mot correspondant au nom du son pendant 2s, suivi soit du son de 117 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature l’environnement correspondant, soit d’un écran blanc, pendant 5s. La nature de la tâche d’encodage diffère selon les sujets, elle est soit sémantique (on demande au sujet de déterminer si le nom présenté désigne un événement qu’il rencontre souvent dans leur vie quotidienne), soit non-sémantique (le sujet doit prononcer le nom du son silencieusement dans sa tête et déterminer si sa hauteur diminue, reste constante, ou augmente entre le début et la fin du mot). Un délai de 5mn, durant lequel on pose des questions de culture générale aux sujets, sépare la phase d’étude de celle de test. On présente en phase de test un fragment de son de 1s, qui correspond ou non à du matériel déjà vu en phase d’étude. La moitié des sujets de chaque groupe d’encodage (sémantique et non-sémantique) passe un test différent, soit un test explicite (rappel indicé), soit un test implicite (identification). La tâche du sujet consiste à donner le premier mot qui lui vient à l’esprit et de le noter sur une feuille de papier. Les résultats montrent qu’il y a un effet principal des stimuli en fonction de leur format de présentation en phase d’étude, «nom et son», «nom» et «non étudié». Les seuls effets d’amorçage sont observés dans la condition «nom et son», les performances pour les items présentés uniquement en phase d’étude sous forme de mot ne diffèrent pas de celles des items qui n’ont pas été étudiés. Cela montre d’une part, qu’il n’y a pas d’effets d’amorçage répété inter-format à long terme pour les sons de l’environnement dans une tâche d’identification de fragment sonore. D’autre part, un effet d’amorçage répété important est observé quand le son est présenté en phase d’étude et ce, quelle que soit la nature de l’encodage effectué (sémantique ou non-sémantique). Les performances du test implicite ne se dissocient pas du test explicite, les auteurs suggèrent qu’il y ait eu une «contamination» du test implicite par des stratégies de récupération explicites. La profondeur de l’encodage semble également ne pas avoir d’effet (sémantique et non-sémantique). Les deux expériences suivantes simplifient la première en ne gardant qu’une condition de présentation en phase d’étude, «nom et son» (Expérience 2) et «nom» (Expérience 3). Ces manipulations permettront, selon les auteurs, 118 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature de dissocier plus efficacement l’impact de la profondeur de traitement (sémantique versus non-sémantique) et de la nature du test employé (implicite versus explicite). La procédure de l’Expérience 2 est similaire à celle de la première, exceptée pour l’encodage non-sémantique où il est demandé au sujet de prononcer «my name is XXX» et d’en comparer la hauteur (plus haute, identique, ou plus basse) avec celle du son de l’environnement présenté. Un effet d’amorçage répété à long terme similaire à celui de l’Expérience 1 est à nouveau observé. Les résultats montrent une interaction entre l’encodage et le type de test qui n’apparaissait pas précédemment. Le pourcentage de réponses correctes est plus important en test implicite pour un encodage non-sémantique plutôt que sémantique, l’inverse étant observé dans le cas du test explicite. L’amorçage pour les informations auditives non-verbales peut ainsi se dissocier de la mémoire explicite en fonction de l’encodage des stimuli. La dernière expérience (Expérience 3) consiste à déterminer si la dissociation observée dans l’Expérience 2 est due en partie au label linguistique proposé avec le son ou non lors de la phase d’étude. L’Expérience 3 est identique à l’Expérience 2 à la différence que seuls les labels linguistiques sont proposés en phase d’étude. Les résultats de cette expérience montrent que le label linguistique seul ne suffit pas à entraîner un amorçage répété inter-format à long terme (test implicite) pour des sons de l’environnement. Les observations pour le test explicite contrastent avec celles du test implicite, montrant qu’à la fois des facteurs conceptuels (influence de la tâche d’encodage, Expériences 2 & 3) et perceptifs (performances plus faibles lorsque le label linguistique est présenté en isolation comparé à celles obtenues quand le son est vu en étude, Expériences 1 & 3) affectent le rappel indicé de fragment de son. L’effet de la profondeur d’encodage se retrouve dans les Expériences 2 et 3, suggérant l’implication de traitements sémantiques lors de la récupération. L’ensemble de ces résultats permet de déterminer deux caractéristiques de l’amorçage répété à long terme pour les sons de l’environnement. L’encodage du nom du son en phase d’étude n’est pas suffisant pour générer 119 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature un effet d’amorçage de répétition à long terme (Expériences 1 & 3). En revanche, lorsque l’encodage se fait à la fois avec le nom et le son, les résultats indiquent des effets d’amorçage indépendamment de l’encodage effectué (sémantique ou non-sémantique). Ces données vont dans le sens d’une interprétation des effets d’amorçage pour les sons de l’environnement en termes de processus perceptifs, et les auteurs de conclure: «These experiments provide converging evidence that priming of environmental sound identification is mediated primarily by perceptual processes, generated within what we have called the perceptual representation system or PRS», (Chiu & Schacter, 1995, p. 452). Stuart et Jones (1995) utilisent une méthodologie différente pour étudier les effets d’amorçage à long terme pour les sons de l’environnement. Certains de leurs résultats diffèrent de ceux de Chiu et Schacter (1995). Leur étude se divise en trois expériences, dans la première ils proposent d’une part, de répliquer les effets d’amorçage répété à long terme observés pour les mots prononcés (Schacter & Church, 1992) et d’autre part, de tester si les processus impliqués pour dénommer les sons de l’environnement sont différents ou non de ceux impliqués dans l’identification des mots parlés. Ils présentent en phase d’étude un ensemble de sons de l’environnement et un ensemble de mots prononcés, dont les sujets doivent prononcer silencieusement le nom (ce qui sous-entend d’identifier la source du son). Le sujet doit, pendant cette phase, compter le nombre de syllabes correspondant au mot qu’il prononce silencieusement. Le délai entre les deux phases est de quelques minutes. La phase de test consiste à identifier des mots prononcés noyés dans du bruit (à un seuil d’identification de 50%), ces mots sont soit nouveaux, soit vus en phase d’étude sous forme de sons de l’environnement ou de mots prononcés. Les résultats de cette étude montrent que la présentation d’un mot prononcé en phase d’étude facilite son identification en phase de test comparé à un mot nouveau. Pour les sons de l’environnement, présenter le label linguistique qui leur correspond en phase de test ne permet pas d’observer d’effet d’amorçage répété inter120 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature format à long terme. Dans l’Expérience 2, ils utilisent des sons de l’environnement en phase de test plutôt que des mots prononcés, le reste de l’expérience est similaire à la première expérience sauf en ce qui concerne la tâche demandée en phase de test. La méthode d’atténuation des sons diffère. En phase de test, le son de l’environnement est atténué de 55dB, puis l’atténuation est diminuée par étape de 5 dB jusqu’à ce que le sujet soit en mesure d’identifier le son. Les sons de l’environnement sont identifiés à un niveau d’atténuation plus élevé lorsqu’ils ont déjà été vus en phase d’étude, comparé au mot lui correspondant ou à la ligne de base (son de l’environnement non étudié). Les performances en ligne de base ne diffèrent pas de celles d’amorçage répété inter-format à long terme (mot prononcé-son de l’environnement). Les données de ces deux expériences répliquent avec une méthodologie différente celles de Chiu et Schacter (1995). L’Expérience 3 se base sur un principe similaire à celui utilisé dans la deuxième expérience à la différence que seuls des sons de l’environnement sont présentés en phase d’étude. Les sons utilisés en phase de tests diffèrent selon qu’ils soient nouveaux, déjà entendus par les sujets en phase d’étude ou similaires à ceux entendus en étude (par exemple le son d’une machine à écrire mécanique en étude et d’une électrique en test). Le principal résultat indique que les performances d’identification sont meilleures en condition similaire comparé à celles de la ligne de base, et surtout qu’elles ne diffèrent pas de celles de la condition identique. Les auteurs proposent l’existence d’unités abstraites en mémoire, spécifiques aux sons de l’environnement appelés «audiogènes». Ces unités seraient activées par différents exemplaires d’un même son ou d’une même catégorie. Ce résultat n’est pas en accord avec les conclusions de Chiu et Schacter (1995). Si les traitements pour les sons de l’environnement dans les tests implicites reposent uniquement sur des traitements perceptifs (comme le propose le PRS développé par Schacter) alors, la présentation d’un son similaire au niveau du sens et non pas des caractéristiques acoustiques 121 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature ne devrait pas entraîner d’effets d’amorçage, du fait des différences acoustiques entre les deux. Chiu (2000) s’interroge sur les données rapportées par Stuart et Jones (Expérience 3). Les deux principales théories de l’amorçage à long terme proposent que le dit amorçage repose sur des traitements perceptifs. Schacter envisage l’existence d’un système qui se base sur des représentations perceptives (voir Tulving & Schacter, 1990) et Roediger et ses collègues proposent la théorie du transfert approprié (TAP, voir, Roediger & McDermott, 1993), où le transfert entre la phase d’étude et de test dépend entièrement de la similarité entre les traitements utilisés lors de ces deux phases. Les résultats de Stuart et Jones indiqueraient que les sons de l’environnement posséderaient une représentation en mémoire totalement différente des autres stimulations qu’elles soient verbales ou non. En se basant sur ces arguments Chiu (2000) examine en détail la procédure utilisée par Stuart et Jones (1995). Il propose quatre facteurs qui auraient pu influencer les résultats de Stuart et Jones (1995, Expérience 3): (1)La procédure des limites ascendantes n’est pas adéquate pour les tests de mémoire implicite car elle tend à encourager le devinement et/ou l’implication, volontaire ou non, correspondant dans ce cas à un test de mémoire explicite. (2)Nous sommes capables d’extraire des informations des sons sans toutefois pouvoir de les identifier lorsqu’ils sont noyés dans un bruit blanc (Schacter & Church, 1992, Expérience 1). (3)Ils font porter l’attention de leurs sujets sur le mot qui correspond au son en phase d’étude, les tests de mémoire implicite demandent plutôt de porter attention aux caractéristiques physiques des stimulations lors de la phase d’étude (intensité, hauteur...). (4)Stuart et Jones ne fournissent pas de données sur d’éventuelles similarités acoustiques de leurs sons similaires. 122 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature La première expérience de Chiu a deux objectifs, premièrement tester l’hypothèse selon laquelle l’amorçage pour les sons de l’environnement est spécifique à l’exemplaire utilisé (dépendant uniquement des caractéristiques perceptives des stimuli), deuxièmement, déterminer si cette spécificité dépend des facteurs d’encodage et de récupération. En phase d’étude, les sujets voient un mot à l’écran pendant 2s, puis entendent pendant 5s le son qui correspond à ce mot. Selon son groupe, le sujet effectue une tâche d’encodage sémantique ou non-sémantique, suivent quatre tâches de remplissage d’une durée de 15 à 20mn. Les sujets sont à nouveau divisés en phase de test, selon qu’ils passent le test explicite (rappel indicé du fragment sonore), ou le test implicite (identification du fragment sonore) lors de la présentation du fragment de son d’une seconde. Trois fragments cibles différents sont utilisés, identiques à l’étude, similaires (deux sons assez différents mais dénommés de la même manière), ou non étudiés. Les résultats montrent que l’amorçage est plus important dans le cas où l’exemplaire est identique, comparé à la ligne de base (fragment non étudié) et à la condition «similaire». L’amorçage est de moindre amplitude, mais s’observe également pour la condition similaire par rapport à la ligne de base. Un patron similaire est observé dans la tâche de mémoire explicite. L’encodage sémantique profite de manière générale à la tâche de rappel indicé. Ces résultats nuances ceux de Stuart et Jones (1995) où l’effet d’amorçage était équivalent pour les sons similaires et les sons étudiés. Chiu fait tout de même remarquer que les différences méthodologiques sont importantes, particulièrement le fait de présenter le nom du son en phase d’étude. L’Expérience 2 est similaire à la première si ce n’est que les labels linguistiques ne sont plus présentés durant la phase d’étude. Le niveau d’amorçage et de rappel indicé est moins important dans la deuxième expérience comparée à la première, particulièrement dans la condition identique. La nature de l’encodage affecte le rappel indicé mais pas l’amorçage. Le fait de ne pas présenter le nom accompagné du son semble avoir un effet qui n’était pas attendu aux vues des expériences précédentes (Chiu & Schacter, 1995, 123 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Stuart & Jones, 1995). La présentation du nom en isolation en phase d’étude n’influence pas les effets d’amorçage lorsque des sons de l’environnement sont utilisés en test. L’Expérience 3 est selon Chiu une réplication de celle de Stuart et Jones (1995, Expérience 3). Il noie les sons dans un bruit blanc et propose un test implicite d’identification (amorçage) et un test explicite de reconnaissance sur le même matériel. Le reste de la procédure est identique à celle de l’Expérience 2. Dans la tâche de reconnaissance, les sujets doivent indiquer si le son est nouveau, différent ou identique. Les résultats montrent, pour le test de mémoire implicite un effet d’amorçage pour les conditions identique et similaire mais seulement pour l’encodage non-sémantique. Les performances en reconnaissance sont meilleures pour les items identiques comparés aux similaires. Les effets sont plus importants dans le cas de l’encodage sémantique. Dans cette expérience, les résultats d’amorçage ne permettent pas de mettre en évidence de différence entre la condition identique et similaire. L’auteur propose que la tâche est moins facile que celles proposées dans les deux premières expériences. Dans l’expérience 4, le masquage du bruit blanc est diminué pour rendre les sons plus discriminables, la tâche de reconnaissance est abandonnée, le reste de la procédure est identique à l’Expérience 3. Un effet d’amorçage est observé en encodage non-sémantique pour les cibles identiques mais pas différentes en fonction de la ligne de base. L’amorçage est de même amplitude en condition similaire et identique par rapport à la ligne de base, quand l’encodage est de nature sémantique. Ce résultat montre bien que l’amorçage est spécifique à l’exemplaire, comme le montre les résultats en amorçage non-sémantique. L’ensemble des résultats rapportés par Chiu (2000) suggère que les résultats de Stuart et Jones (1995, Expérience 3) ont probablement été contaminés par une récupération explicite du matériel vu en phase d’étude. L’ensemble de ces études suggère l’existence d’un système de représentations perceptives opérant à un niveau pré-sémantique (PRS, Tulving & Schacter, 1990), spécifique aux sons de l’environnement (voir Chiu & Schacter, 1995). Le PRS en général a été 124 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature développé pour rendre compte des effets d’amorçage à long terme (mémoire implicite) de nature perceptive et lexicale. Le système a été fractionné en plusieurs sous-systèmes, ces systèmes sont distincts des autres systèmes mnésiques (épisodique, sémantique et procédural) tout en entrant en interaction avec eux (Tulving, 1991). Le principe suppose qu’une stimulation active ou crée une représentation structurale perceptive qui facilitera le traitement de cette même stimulation sur la base d’indices perceptifs. Chiu et Schacter (1995, Expérience 2) montrent que l’amorçage à long terme pour les sons de l’environnement peut se dissocier de la mémoire explicite (rappel indicé) en fonction de la manière dont sont encodés les stimuli en phase d’étude. Les résultats des tests explicites diffèrent de ceux des tests implicites (amorçage), montrant qu’à la fois des facteurs conceptuels (tâche d’encodage) et perceptifs (phase d’étude: label linguistique versus son) affectent le rappel indicé de fragment de son. Ces résultats sont en accord avec les résultats de Stuart et Jones (1995, Expériences 2 et 3) et Chiu (2000, Expériences 1, 2 et 4), et suggèrent l’existence d’un sous-système du PRS pour les sons de l’environnement similaires à ceux déjà détaillés pour les mots présentés visuellement (Burgund & Marsolek, 1997), les mots présentés auditivement (Schacter & Church, 1992) et les objets visuels (Schacter & Cooper, 1993). L’effet d’amorçage entre deux exemplaires différents d’un même son observé par Stuart et Jones (1995, Expérience 3) semble dû à une contamination de nature explicite comme le montre Chiu (2000, Expérience 4). L’ensemble de ces données est donc cohérent et propose l’existence d’un sous-système PRS pour les sons de l’environnement au même titre que ceux proposés pour les mots et les objets visuels. Théorie du double codage et sons de l’environnement Les recherches présentées dans cette partie comparent les performances de mémoire pour les sons de l’environnement, les mots et/ou les images dans des paradigmes de 125 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature reconnaissance de rappel libre et sériel. Les résultats de cet ensemble d’études montrent que selon le paradigme utilisé les performances varient ou non en fonction du matériel considéré. Les données sont interprétées dans le cadre de la théorie du double codage proposée par Paivio (1971, 1986) en intégrant les sons de l’environnement. L’étude de Barlett (1977) prend comme point de départ celle de Bower et Holyoak (1973) qui étudiaient le rôle de la verbalisation de sons de l’environnement en phase d’étude et de test. Après un délai d’une semaine suivant la phase d’étude, ils observent que lorsque le son de l’environnement est correctement étiqueté linguistiquement lors de la phase d’étude et de test il est mieux reconnu. Bower et Holyoak (1973) en concluent que la reconnaissance des sons de l’environnement se base principalement sur le stockage et la récupération «d’interprétations perceptives». Ces interprétations perceptives seraient dépendantes d’un étiquetage correct lors de la phase d’étude. Barlett (1977) change la méthodologie employée par Bower et Holyoak dont les études impliquaient une verbalisation explicite des sons de l’environnement, car il pense qu’une verbalisation obligatoire peut biaiser le sujet et l’amener à utiliser des «interprétations perceptives». L’Expérience 1 a pour objectif de répliquer les résultats de Bower et Holyoak (1973) en modifiant deux paramètres, le délai d’une semaine est remplacé par deux délais de 5 et 65mn. Barlett ajoute également une tâche de rappel libre en plus de celle de reconnaissance. Les sujets entendent les sons et doivent leur trouver une étiquette linguistique, suit un délai de 5 ou 65 minutes selon le groupe, une tâche de rappel libre et une tâche de reconnaissance. Les résultats montrent que les sons de l’environnement correctement étiquetés sont mieux reconnus, quel que soit le délai, comparé à ceux qui ne sont pas correctement étiquetés durant la phase d’étude, répliquant les résultats rapportés par Bower et Holyoak (1973). Ce résultat suggère un stockage et une récupération basés sur une interprétation verbalisable pour les sons de l’environnement. Les résultats indiquent une relation entre le rappel libre et la reconnaissance, les sons correctement étiquetés et rappelés 126 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature sont mieux reconnus que les cibles dont les étiquettes ne sont pas rappelées. La deuxième expérience étudie l’effet du type de matériel appris durant l’apprentissage (son, étiquette linguistique, son + étiquette linguistique) sur les performances de rappel et de reconnaissance. La reconnaissance des sons de l’environnement est dépendante d’un étiquetage correct qu’il soit fourni par l’expérimentateur (condition son + label) ou généré par le sujet (condition son). Les performances des groupes «étiquette linguistique» et «étiquette linguistique+ son» se différencient exclusivement dans la tâche de reconnaissance où le premier groupe a des performances plus faibles que le suivant. Les résultats de cette étude sont compatibles et interprétés par les auteurs dans le cadre de la théorie du double codage (Paivio, 1971). D’autres études (Philipchalk & Rowe, 1971; Warren, Obusek, Farmer, & Warren, 1969) comparent les performances en rappel sériel avec les performances dans des tâches de rappel libre entre du matériel verbal et non-verbal (son de l’environnement). Les résultats indiquent que les performances sont plus faibles pour les sons de l’environnement par rapport aux stimuli verbaux en mémoire séquentielle (rappel sériel) et identique quand on considère les performances dans les tâches de rappel libre. Par la suite, Paivio et al. (1975) utilisent une approche similaire pour tenter d’intégrer à la fois les données sur les sons et les images dans la théorie du double codage. Ils utilisent des images et des sons de l’environnement avec les labels linguistiques correspondant (écrit et oral) dans des tâches de rappel libre et sériel. Les résultats de la première expérience montrent que le matériel non-verbal est mieux rappelé que le verbal en rappel libre, le verbal montrant de meilleures performances en rappel sériel. Dans une deuxième expérience, ils décident d’augmenter leur échantillon d’items à retenir (de 12 à 20). À nouveau, les performances sont meilleures en rappel libre comparé au rappel sériel et le non-verbal est mieux rappelé que le verbal en rappel libre et inversement. La modalité interagit avec la nature non-verbale des stimuli, les images sont mieux rappelées que les mots avec l’inverse pour les stimuli auditifs où les sons de l’environnement sont moins bien 127 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature rappelés que les mots. L’analyse en fonction du canal auditif montre dans le cas de la modalité auditive le rappel libre est meilleur que le sériel. Les items verbaux sont mieux rappelés que les non-verbaux, le rappel sériel est meilleur pour les mots que pour les sons, mais ils ne diffèrent pas en rappel libre ce qui est en accord avec les résultats de Philipchalk et Rowe (1971). Pour le matériel visuel, les performances sont supérieures en rappel libre par rapport au rappel sériel, mais les images sont mieux rappelées que les mots. Les auteurs concluent que la distinction pour le stockage en mémoire se fait plutôt en termes de différence verbal/non-verbal plutôt que visuel/auditif. L’ensemble de leurs résultats accréditent l’hypothèse selon laquelle les stimulations non-verbales sont au moins stockées aussi efficacement que les informations verbales, mais que les informations de nature séquentielle sont mieux retenues dans le domaine verbal. Lawrence et Cobb (1978) étudient la mémoire pour les sons de l’environnement et les images. Leur objectif est d’étudier si les performances en reconnaissance inter-modalités (photos-sons) sont obligatoirement inférieures à celles en intra-modalités (sons-sons). Pour tester leur hypothèse, ils proposent une tâche de reconnaissance présentée selon un délai variable (immédiat, 2 jours, ou 7 jours) et selon trois conditions dépendant du matériel appris en phase d’étude et reconnu en phase de test (étude-test: photos-sons; sons-photos; sonssons). Les résultats montrent que seul le délai a un effet sur les performances, plus il est long plus les performances sont basses, suggérant que la reconnaissance de matériel non-verbal est indépendante de la modalité de présentation. Ces observations vont dans le même sens que les résultats rapportés par Paivio et al. (1975) pour les stimuli non-verbaux dans des tâches de rappel libre. Plus récemment, Thompson et Paivio (1994) ont proposé au travers de trois expériences de rappel libre, une indépendance des systèmes de mémoire pour les sons de l’environnement et les images. Cette étude poursuit les travaux proposés par Paivio et al. 128 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature (1975) et Lawrence et Cobb (1978), en s’intéressant plus spécifiquement aux différences au sein de la modalité non-verbale entre les sons de l’environnement et les images. Les auteurs posent l’hypothèse d’une séparation fonctionnelle entre les représentations auditive et visuelle dans le domaine non-verbal. Ils comparent dans la première expérience les performances dans une tâche de rappel libre lorsque les items sont répétés dans la même modalité (sons-sons, images-images) ou non (images-sons). Trois conditions d’apprentissage sont utilisées «intentionnel sans tâche de distraction», «intentionnel avec tâche de distraction», «incident avec tâche de distraction». Le rappel libre est meilleur dans le cas d’une présentation selon deux modalités différentes (images-sons) comparé à la même modalité de présentation (sonssons, images-images) et ce quelle que soit la condition d’apprentissage. Ces résultats suggèrent un codage différentiel pour les sons de l’environnement et les images résultant d’une addition entre le code visuel et auditif. Une autre interprétation serait d’imaginer que cette additivité n’est pas dû aux codes visuel et imagé mais simplement à l’apport d’informations différentes sur un même objet. Cette hypothèse est testée dans une seconde expérience où deux images différentes d’un même objet sont présentées. Cette expérience utilise aussi une ligne de base en présentant une image ou un son en isolation. Tous les participants font une tâche de rappel libre dans la condition d’apprentissage intentionnel avec tâche distractrice. Cinq conditions de présentations sont utilisées, son seul, image seule, image et son présentés simultanément, deux fois la même image, et deux images différentes d’un même objet. Ils observent un effet significatif de la condition de présentation, où les performances en rappel libre sont meilleures uniquement dans le cas d’une présentation simultanée sons-images. L’additivité semble donc bien due à l’association entre des informations visuelles et auditives. Dans leur dernière expérience, les auteurs contrôlent le facteur temps, en effet les sons étaient présentés plus longtemps car ils nécessitent plus de temps pour être identifiés que les images. Ils répliquent leur deuxième expérience en utilisant 129 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature exclusivement des images dont le temps de présentation est doublé selon deux conditions deux fois la même image et deux images d’un même objet. Les performances pour les deux conditions augmentent de manière similaire dans ces conditions, mais le patron de résultat reste proche de celui de l’Expérience 2. Les auteurs interprètent leur résultat comme une extension logique de la théorie du double codage. D’un côté, le stockage verbal et de l’autre le stockage non-verbal qui peut se différencier selon que l’on considère les sons de l’environnement et les images. Une autre interprétation reste possible, certains items seraient mieux rappelés sous forme sonore et d’autres sous forme visuelle. La combinaison des deux formats en phase d’étude pouvant générer une augmentation des performances en rappel libre du fait de la saillance de certains indices, visuels dans certains cas, auditifs dans d’autres et donc sans additivité. Cependant les résultats de Lawrence et Cobb (1978) laissent penser que cette interprétation n’est pas adéquate. Une photo vue en phase d’étude est tout aussi efficace qu’un son si la cible à reconnaître est un son. Ce résultat suggère que les traitements pour la reconnaissance, tout du moins entre ces deux types de stimulations, se basent sur les mêmes indices. Les résultats de cet ensemble d’études contribuent à la compréhension du fonctionnement de la MLT en dissociant les performances obtenues avec du matériel verbal et non-verbal. Barlett (1977) rapporte que les performances concernant les sons de l’environnement sont dépendantes des opérations effectuées en phase d’étude, uniquement en reconnaissance comparé au rappel libre. Les performances de reconnaissance seraient dépendantes d’une association correcte entre le nom de la source du son (fourni ou non par l’experimentateur) et le son. D’autres études (Paivio et al., 1975; Philipchalk & Rowe, 1971; Warren et al., 1969) indiquent des performances identiques dans des tâches de rappel libre entre du matériel verbal et des sons de l’environnement, performances qui diffèrent au profit 130 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature des mots quand la tâche utilisée est un rappel sériel. Ces résultats suggèrent des différences de fonctionnement de la MLT en fonction de la nature du matériel considéré (mot ou son de l’environnement). Les différences de performances entre les stimulations verbales et nonverbales ont conduit certains chercheurs à comparer le traitement des sons de l’environnement et des objets visuels pour améliorer la compréhension du fonctionnement de notre MLT, plus particulièrement dans le cadre de la théorie du double codage de Paivio (1971). Lawrence et Cobb (1978) montrent que les performances de reconnaissance sont identiques pour les sons de l’environnement et les images qu’ils soient associés ou non en phase d’étude. Les auteurs ne font pas de comparaisons avec les mots. Thompson et Paivio (1994) étudient plus spécifiquement les différences entre les sons de l’environnement et les objets visuels avec une tâche de rappel libre. Leurs résultats indiquent que la combinaison entre un son et une image améliore les performances comparées à un mot, une image ou un son en isolation. L’ensemble de ces données suggèrent que le fonctionnement de notre mémoire diffère en fonction de la nature des stimulations considérées verbales ou non-verbales. Le fonctionnement de la mémoire se différencie entre les objets visuels et les sons de l’environnement, proposant une extension au modèle de Paivio (1971, 1986) en ajoutant un sous-système cognitif spécialisé pour représenter les sons de l’environnement. Sons de l’environnement et amorçage inter-format à court terme Nous verrons trois expériences d’amorçage inter-format à court terme entre le langage et les sons de l’environnement qui documentent partiellement le phénomène (Ballas, 1993, Expériences 4 et 5 (mot-son, déterminer si le mot est oui ou non une source probable du son), Van Petten & Rheinfelder, 1995, Expérience 1 (son-mot, décision lexicale)). Les expériences menées par Ballas ont déjà été détaillées précedemment, nous décrirons donc uniquement l’Expérience 1 de Van Petten et Rheinfelder (1995). Il n’existe pas à notre connaissance 131 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature d’études abordant un même ensemble de sons de l’environnement avec un paradigme d’amorçage à court terme (son-mot, mot-son et son-son). Les méthodologies (décision lexicale versus confirmation de la source) et les ensembles de sons différents entre les deux expériences limitent les comparaisons et les interprétations que nous pouvons en tirer. L‘étude de Van Petten et Rheinfelder est principalement électrophysiologique, nous reviendrons sur leurs résultats dans le point consacré à ce type de mesures. Elles veulent étudier les effets de contexte avec les potentiels évoqués, pour comparer les effets langagiers et ceux propres aux sons de l’environnement. Sans entrer dans le détail, les effets de contexte dans le domaine du langage, étudiés avec la technique des potentiels évoqués produisent une onde négative (N400) qui varie en amplitude selon les liens sémantiques partagés entre l’amorce et la cible (Betin, Kutas, & Hillyard, 1995). L’objectif dans cette recherche est de comparer les résultats des effets de contexte entre les sons de l’environnement et le langage. Dans l’Expérience 1, les auteurs, avant d’utiliser les potentiels évoqués, veulent s’assurer que les effets de contexte peuvent s’observer à un niveau comportemental avec des sons de l’environnement. Un essai se déroule de la façon suivante, un son (amorce) est présenté pendant 2500ms, suivit d’un ISI de 500ms, puis un mot ou un non-mot prononcé (cible). Le sujet doit effectuer le plus rapidement et le plus correctement possible une tâche de décision lexicale sur la cible. La cible peut prendre trois formes différentes, un non-mot, le mot désignant la source du son ou un mot non lié au son. Les résultats montrent que les sujets mettent moins de temps pour dire que le mot relié au son est un mot (867ms) plutôt que pour le mot non relié (956ms). Les auteurs documentent le premier effet d’amorçage répété interformat avec des sons de l’environnement dans le sens son-mot. Ce résultat atteste de l’existence d’effets de contexte pour les sons et permet donc à Van Petten et Rheinfelder (1995) de réaliser leur étude comparative des potentiels évoqués apparaissant lors du traitement du langage et des sons de l’environnement. Dans les grandes lignes, les résultats 132 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature montrent que les effets de contexte produisent des N400 à la fois pour les sons et les mots avec une plus grande implication de l’hémisphère droit pour les sons et inversement pour les mots. Les deux expériences que Ballas (1993) mènent dans son étude documentent des effets d’amorçage répété inter-format dans le sens mot-son. Il montre qu’il est plus rapide de déterminer qu’un mot est la cause d’un son plutôt que l’inverse. Les résultats de ces deux études (Ballas, 1993; Van Petten & Rheinfelder, 1995) montrent des effets d’amorçage répété inter-format similaires à ceux observés dans le domaine des objets visuels (voir Chapitre 2, 3). Une étude (Dick, Bussière, & Saygin, 2002) dont l’objectif est de tester l’hypothèse de sous-vocalisation (nous reviendrons sur cette hypothèse dans le point de ce chapitre consacré aux études électrophysiologiques) utilise une tâche proche de l’interférence mot-OBJET. Figure 3.3: Exemple de stimulations utilisées dans l’expérience de Dick et al. 2002, où l’image de la vache constitue la cible, le violon et le mouton les distracteurs, et le son «moooooo» correspond au meuglement, voir le texte pour plus d’explications. Ils présentent deux images (Figure 3.3) pendant 1000ms avant de faire entendre un son qui correspondra à l’une des deux. Le sujet doit déterminer le plus rapidement possible si le son correspond à l’image de droite ou à l’image de gauche. Ils utilisent deux conditions 133 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature l’une où le distracteur est relié sémantiquement à la cible (partie gauche de la Figure 3.3) et l’autre où le distracteur n’a pas de liens avec la cible (partie droite de la Figure 3.3). Les sujets mettent plus de temps à répondre lorsque le distracteur est relié à l’image cible (1243ms) plutôt que non (1098 ms). Les auteurs manipulent une autre condition où ils demandent aux sujets de ne pas sous-vocaliser le nom du son («no naming condition») ou de le faire («naming»). Ils observent que les sujets de la condition nommer le son silencieusement mettent plus de temps (1257ms) que ceux qui sont enjoints de ne pas le faire (1084ms). Ceci montre d’après les auteurs que la sous-vocalisation du nom du son n’est qu’un traitement additionnel et non pas une condition sine qua none à l’identification d’un son de l’environnement. 2.1.5 Sur les traces de Snodgrass et Vandervart (1980) L’objectif de Fabiani et al. (1996) est de constituer des normes pour la dénomination des sons de l’environnement (la base de sons qui était exclusivement disponible par internet n’est plus accessible). L’approche adoptée est celle déjà utilisée par Snodgrass et Vandervart (1980) pour les objets visuels. Plusieurs différences distinguent cette étude de celle de Ballas (1993). Les sons duraient 625ms chez Ballas alors qu’ils durent 400ms dans cette étude. Les sons de Ballas restaient assez restreints en termes de catégories (machines ou signaux), alors que les sons de Fabiani et al. (1996) appartiennent à de nombreuses catégories (machines, animaux, jeux vidéo, dessins animés...). Ballas se focalise sur la cause du son alors que Fabiani et al. cherchent plutôt à déterminer si un son est facilement identifiable dans la tradition de l’étude de Snodgrass et Vandervart. Ils testent 96 sons de l’environnement au cours de quatre expériences identiques, seule la population étudiée change d’une expérience à l’autre, respectivement de la première à la dernière expérience, de jeunes adultes (19 à 34 ans), des personnes âgés (61 à 88 ans), des personnes âgés avec une maladie d’Alzheimer 134 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature probable (54 à 80 ans) et enfin des enfants (5 à 16 ans). Ils calculent pour chaque population le pourcentage de concordance des noms, le nom «modal» et le facteur H. Le nom «modal» correspond au nom donné le plus souvent pour un son spécifique, dont le pourcentage de concordance des noms est le reflet. Le facteur H est directement lié aux nombres de sources différentes données pour un son, plus il est élevé moins il y a de consensus pour le dénommer (la formule s’inspire directement de celle de Snodgrass et Vandervart, 1980). Les jeunes adultes identifient le plus facilement les sons humains (jusqu’à 70% d’identification), les sons d’animaux puis en dernier les sons artificiels (dont l’identification descend parfois à 20%), le facteur H est de 2,74 et le pourcentage de concordances des noms est égal à 48%. Les personnes âgées ont un patron de résultats similaires à celui des jeunes adultes avec un facteur H légèrement plus élevé (2,97). Les personnes âgées, avec une maladie d’Alzheimer probable, ont des résultats difficilement comparables à ceux des autres populations. Pour environ 20% des sons présentés, ces personnes âgés sont incapables de trouver un mot pour les dénommer. Les performances des enfants sont similaires à celles des adultes, cependant, les enfants ont des performances d’identification supérieures aux autres populations pour les sons artificiels. Les auteurs pensent que cette tranche d’âge (9 à 16 ans) est plus familière avec les jeux vidéo et les dessins animés. En général, les sons humains ou d’animaux sont mieux reconnus que les sons artificiels (on regrettera que les sons artificiels ne comprennent pas de bruits d’objets, comme par exemple, un marteau-piqueur ou encore une automobile, et se limite à des sons de synthèse ou des imitations). Les résultats de cette étude montrent un grand nombre de similarités avec les études utilisant des images. Cependant, les auteurs notent que les sons utilisés dans cette étude seraient plus proches de fragments d’image du fait de leur durée d’exposition très brève plutôt que des images complètes comme celles utilisées par Snodgrass et Vandervart (1980). Les auteurs signalent également que de nombreux sons en isolation ne 135 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature peuvent être identifiés de manière fiable sans contexte du fait de l’incertitude sur la source (rejoignant de fait, les travaux de Ballas sur l’incertitude causale, 1993) ce qui les distingue des images. 2.1.6 Synthèse sur les études comportementales Au niveau de la MLT Les études comportementales que nous venons détailler ébauchent le fonctionnement de notre mémoire sémantique en fonction de la nature des stimulations considérées (sons de l’environnement, mots et objets visuels). La mémoire sémantique semble s’organiser, à un niveau fonctionnel, principalement en fonction de la nature verbale ou non-verbale des stimulations (Paivio et al., 1975). Le fonctionnement de la mémoire se diviserait au sein du domaine non-verbal avec des sous-systèmes spécialisés pour les sons de l’environnement et pour les objets visuels (Thompson & Paivio, 1994). Au niveau de l’approche structurale et concernant plus particulièrement la dissociation entre mémoire implicite et explicite, le traitement des mots, des sons et des images serait sous la dépendance de sous-systèmes similaires à ceux décrits dans le PRS (Chiu, 2000; Chiu & Schacter, 1995). L’ensemble de ces données propose une organisation différente en fonction de la nature des stimulations (mots, images et sons) tout en suggérant des processus de traitement pré-sémantique similaires en mémoire implicite. Cependant cela ne nous renseigne pas sur l’organisation fonctionnelle qui peut exister au sein d’un même ensemble de stimulations. Nous avons vu dans le chapitre précédent que les images et les mots activeraient des systèmes conceptuels organisés de manière similaire (Bowers et al., 1999). L’état actuel des recherches ne permet pas d’avancer le même type de conclusions pour les sons de l’environnement. Les travaux en amorçage répété inter-format à court terme suggèrent l’existence d’activations conceptuelles 136 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature entre les mots et les sons, mais comme nous l’avons vu les méthodologies utilisés et les différences de matériel ne permettent pas de faire de comparaisons (Ballas, 1993, Van Petten & Rheinfelder, 1995). De plus ces activations ne renseignent pas sur les liens que pourraient entretenir les sons de l’environnement entre eux du fait de l’utilisation d’un paradigme d’amorçage répété. Au niveau du format des stimulations Les sons de l’environnement partagent des caractéristiques communes avec le langage et les images tout en s’en différenciant. Revenons sur quelques points principaux concernant les comparaisons faites entre sons de l’environnement et langage. Ces relations se traduisent par certaines similarités, comme le phénomène d’homonymie (Ballas & Howard, 1987), la «qualité» du stockage en mémoire (Paivio et al., 1975). On observe également des phénomènes similaires mais, dont les effets s’expriment différemment selon que l’on considère le langage ou les sons de l’environnement, par exemple, la présence de structure sémantique et syntaxique pour les sons de l’environnement (Howard & Ballas, 1980), qui diffèrent de celles existants pour le langage (Ballas, 1991), ou encore, l’existence d’effets inhibiteurs d’amorçage en long contexte pour les sons de l’environnement, contrairement au langage (Ballas, 1991). Les résultats des études comportementales mettent également en avant des différences, comme une meilleure rétention des informations séquentielles spécifique aux stimulations langagières (Paivio et al., 1975) et l’implication différentielle des hémisphères cérébraux (Knox & Kimura, 1970). Les études que nous avons vues suggèrent que des parallèles exacts n’existent pas entre le langage et les sons. De la même manière, les relations entre les images et les sons montrent certaines similitudes mais également de grandes différences. Pour les similitudes, les effets d’amorçage répété inter-format sont observés à la fois pour les sons de l’environnement (Ballas, 1993; Van Petten & Rheinfelder, 1995) et les 137 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature images (Wheeldon & Monsell, 1992). Il n’y a pas de différences au niveau des performances de reconnaissance entre les images et les sons (Lawrence & Cobb, 1978). Cependant, certaines différences existent entre les images et les sons, par exemple, le contexte est beaucoup plus important pour un son qu’une image (Fabiani et al., 1996). Les images entretiennent des relations différentes de celles des sons avec le langage, nous citerons l’effet de supériorité de l’image sur le mot (Paivio & Caspo, 1973) qui ne semble pas exister entre les sons et les mots (Paivio et al., 1975). Les relations qui existent entre ces trois types de stimulations pouvant véhiculer du sens sont complexes comme le montre l’ensemble des données que nous avons présentés. Les données ne nous renseignent pas sur les liens que peuvent entretenir les sons de l’environnement entre eux. Les sons restent plus difficiles à identifier que les images et les mots et leurs relations avec le contexte diffèrent sensiblement de celles observées pour le langage (Ballas, 1991). L’étude des associations entre les sons de l’environnement paraît primordiale pour nous permettre d’appréhender efficacement l’organisation globale de notre mémoire sémantique et plus spécifiquement les interactions qui peuvent exister entre les sons de l’environnement et le contexte dans lequel nous pouvons être amenés à les entendre. Nous avons vu, dans le chapitre précédent le rôle central pris par les atteintes cérébrales, et particulièrement l’aphasie optique, dans les recherches en MLT. Ces troubles constituent l’un des piliers sur lequel repose les hypothèses quant à l’organisation des connaissances en mémoire pour les objets visuels (voir Chapitre 1, 3.2). Existe-t-il des atteintes cérébrales qui pourraient par leurs conséquences ressembler à celles rapportées pour les images pour la perception des sons de l’environnement? Quelles sont les différentes atteintes qui perturbent la perception «normale» des sons de l’environnement? L’objet du point suivant est de présenter les troubles de l’audition rapportés en neuropsychologie, puis de 138 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature détailler quelques études en rapport avec les sons de l’environnement. L’objectif reste de faire des parallèles avec les études menées dans le domaine des objets visuels (voir Chapitre 2, 3.2). Nous intégrerons dans le point suivant certaines études d’imagerie cérébrale et d’électrophysiologie qui permettent d’obtenir de concert avec les données de neuropsychologie un tableau plus complet de la perception des sons de l’environnement. 2.2 Approches complémentaires pour l’étude de la perception des sons de l’environnement Dans ce point, nous verrons les différents apports de la neuropsychologie, des études d’imagerie cérébrale et d’électrophysiologie pour la perception des sons de l’environnement. Nous commencerons par la neuropsychologie, nous verrons que des atteintes sélectives au niveau cérébral peuvent altérer la perception des sons de l’environnement. La comparaison des troubles entre les stimulations auditives (musique, langage et sons de l’environnement) permet, particulièrement dans le cas de troubles sémantiques, d’explorer les liens qui existent entre le traitement du langage et celui des sons de l’environnement. Nous verrons que ces deux types de stimulations peuvent être perturbés à différents niveaux que nous illustrerons principalement par la distinction entre les agnosies auditive, aperceptive et sémantique. Ces comparaisons nous conduiront à parler de la dissociation des voies de traitement associées à la localisation et à l’identification des sons (voies «What», «Quoi» et «Where», «Où»), qui repose à la fois sur des études de neuropsychologie et d’imagerie cérébrale. La voie du «Quoi» nous intéresse plus particulièrement et concerne les traitements qui associent un ensemble de caractéristiques perceptives à du sens, des travaux récents permettent de faire des comparaisons entre les objets visuels et les sons de l’environnement. Pour finir ce point, nous parlerons des études électrophysiologiques qui abordent la distinction entre le traitement du 139 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature langage et des sons de l’environnement par l’étude de la composante N400, qui en langage varie en fonction de la relation sémantique qui lie la cible au contexte. Avant de détailler certaines des études neuropsychologiques concernant les sons de l’environnement, nous aborderons succinctement les troubles liés à la perception auditive. 2.2.1 Troubles liés à la perception auditive Le fonctionnement cognitif auditif peut être atteint de manière sélective, que ce soit au niveau du langage, de la musique, ou encore des sons de l’environnement. Ces troubles ont conduit à proposer différents termes en fonction de l’atteinte considérée (voir, Griffiths, Rees, & Green, 1999; Polster & Rose, 1998, pour une revue). Nous présenterons la surdité corticale, la surdité verbale pure et les agnosies auditives. La surdité corticale Une personne souffrant de surdité corticale perçoit, la musique, le langage et les sons de l’environnement comme des bruits désagréables. Ces troubles se caractérisent par une extinction des potentiels évoqués auditifs corticaux sans lésions au niveau du tronc cérébral (Rapin, 1985). Les cas sont peu nombreux pour plusieurs raisons, des lésions bilatérales localisées au niveau des aires auditives sont relativement rares (à noter que l’on parle d’hémiacousie pour une atteinte unilatérale, Michel, 1993). Ce syndrome est souvent transitoire dans sa forme globale évoluant vers une forme plus spécifique, comme la surdité verbale pure ou l’agnosie auditive (Mendez & Geehan, 1988). 140 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature La surdité verbale pure Kussmaul (1877, cité dans Polster & Rose, 1998) utilise la désignation de surdité verbale pure pour décrire une incapacité à comprendre le langage parlé malgré la préservation de l’audition, de la production de la parole et de capacités de lecture. Le terme «pure» ne signifie pas que le patient souffre uniquement de ce trouble, en effet les patients souffrent souvent d’autres troubles comme par exemple d’agnosie auditive (von Stockert, 1982) ou d’amusie (Tanaka, Yamadori, & Mori, 1987). On distingue deux cas différents de surdité verbale pure résultant soit d’une incapacité à discriminer les phonèmes, soit d’un traitement pré-phonémique déficient (voir Auerbach et al., 1982, pour plus de détails). L’agnosie auditive L’agnosie auditive se définit selon la nature des stimulations auditives considérées (avec ou sans les sons verbaux) et également en fonction du niveau de traitement perturbé (aperceptif ou sémantique). Deux conceptions existent pour définir ces agnosies. L’agnosie auditive se définit soit par analogie avec l’agnosie visuelle (voir Chapitre 2) comme étant l’incapacité à reconnaître des sons en l’absence de déficit de traitement du langage, soit comme un trouble pouvant toucher l’ensemble des stimulations auditives, incluant le langage, où l’agnosie verbale (surdité verbale) est une forme particulière d’agnosie auditive. Notons que l’agnosie musicale est appelée amusie (voir Peretz, 2001, 2003, pour une revue). Deux formes d’agnosie auditive se distinguent en fonction de la nature des traitements perturbés (voir Peretz, 1993, pour une revue; Vignolo, 1982). On distingue l’agnosie aperceptive et l’agnosie sémantique selon que les troubles touchent respectivement la perception (trouble de la discrimination des patrons acoustiques) ou la reconnaissance (incapacité à associer les patrons acoustiques à une signification) des stimulations auditives. 141 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Cette distinction renvoie à un modèle de reconnaissance auditive qui conçoit la perception en deux étapes (Figure 3.4). MODELE A DEUX ETAPES Entrée auditive ANALYSE ACOUSTIQUE REPRESENTATIONS PERCEPTION RECONNAISSANCE AGNOSIE APERCEPTIVE AGNOSIE ASSOCIATIVE Figure 3.4: Représentation du processus de reconnaissance à deux étapes et du classement des agnosies qui en résultent, reprise de Peretz (1993). 2.2.2 Atteintes sélectives de la perception des sons de l’environnement La distinction verbal/non-verbal se retrouve dans les études de neuropsychologie, la majorité des cas rapportés montrent une dissociation entre les capacités langagières (langage oral) et non langagières (incluant à la fois la musique et les sons de l’environnement). Les troubles des sons de l’environnement sont souvent observés conjointement à des troubles de la musique (Eustache, Lechevalier, Viader, & Lambert, 1990; Motoruma, Yamadori, Mori, & Tamaru, 1986). Nous diviserons ce point en deux parties, le premier traitera des observations permettant de distinguer l’agnosie aperceptive de l’agnosie sémantique pour la perception des sons de l’environnement. La seconde partie consistera à montrer que différents aspects du traitement des sons peuvent être sélectivement atteints comme la perception du mouvement, la reconnaissance ou encore la localisation. Ceci nous conduira à présenter les derniers 142 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature développements quant à l’existence de deux voies spécialisées, à l’image de celles qui sont envisagées pour les objets visuels, la voie du «Quoi» et la voie du «Où», nous consacrerons un dernier point sur la voie qui nous intéresse le plus celle du «Quoi». Agnosie aperceptive et agnosie sémantique pour les sons de l’environnement Les cas rapportés sont rarement spécifiques aux sons de l’environnement (Albert, Sparks, von Stockert, & Sax, 1972; Fujii et al., 1990) et sont généralement associés à des troubles perceptifs plutôt que sémantiques (Lambert et al., 1989). La plupart du temps les traitements des sons de l’environnement et de la musique sont perturbés (Eustache et al., 1990; Lambert et al., 1989; Motoruma et al., 1986; Spreen, Benton, & Fincham, 1965) avec une bonne préservation des capacité langagières. Parfois, la perception des sons de l’environnement et du langage est déficiente avec une préservation de la perception de la musique (Mendez, 2001). Les troubles de la modalité auditive peuvent, comme nous l’avons vu, détériorer plusieurs capacités à la fois. Les recherches qui s’intéressent plus particulièrement à des perturbations de la perception des sons de l’environnement étudient souvent des patients cérébrolésés présentant également des troubles de la musique et/ou du langage. Clarke et al. (1996) comparent les performances de 20 patients cérébrolésés dans différentes tâches de reconnaissance auditive, à celles de 60 sujets contrôles. Leur approche permet de différencier l’agnosie auditive aperceptive de l’agnosie sémantique chez des patients lésés au niveau de l’hémisphère gauche, droit, voir des deux, présentant ou non des troubles aphasiques. Nous détaillerons les différentes tâches qu’ils utilisent en présentant directement les résultats qui leur sont associés: *Identification sémantique: le sujet doit effectuer une correspondance son-image. On lui fait écouter un son de l’environnement qu’il doit associer à une image parmi cinq. 143 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature L’image représente soit l’objet correspondant au son (nous prendrons un tintement de verre comme exemple, Figure 3.5), soit un objet pouvant produire un son acoustiquement et sémantiquement similaire (bruit de vaisselle), sémantiquement similaire (déboucher une bouteille), acoustiquement similaire (une clochette), ou sans rapport (une mitraillette). Figure 3.5: Images que le sujet pouvait sélectionner lors d’un essai suite à l’écoute d’un son (la cible dans l’exemple étant «verres») lors d’un test d’identification sémantique en fonction des cinq conditions de présentation, repris de Clarke et al. (1996), voir le texte pour les explications. Cinq patients présentent des performances sévèrement perturbées dans ce test, trois d’entre eux n’ont pas de troubles langagiers, et un à une lésion de l’hémisphère droit. Sur les patients restant, cinq présentent des troubles de compréhension auditive et visuelle avec lésion de l’hémisphère gauche, associés à une aphasie globale (1 cas), de Wernicke (3 cas) ou transcorticale perceptive (1 cas). 144 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature *Reconnaissance asémantique: on demande au sujet de déterminer si deux extraits sonores différents sont produits ou non par un même objet. Par exemple, si le son à comparer est un son de voiture, on trouvera comme échantillon sonore, soit un son de voiture différent (la seule réponse oui), un son sémantiquement et acoustiquement lié (camion), un son sémantiquement lié (train), un son acoustiquement lié (tondeuse à gazon), ou un son sans rapport (vache). Deux patients présentent un déficit sévère et quatre un déficit modéré dans cette tâche. L’un d’entre eux souffre d’une aphasie globale avec lésion de l’hémisphère gauche. Les cinq autres n’ont pas de troubles langagiers, trois ont une lésion de l’hémisphère droit, et deux des lésions bilatérales. *Ségrégation des objets sonores: plusieurs sous-tests sont inclus dans cette catégorie. Les sujets doivent repérer un objet sonore dans un environnement bruité, en augmentant son intensité jusqu’à sa détection (étape d’intensité), ou encore déterminer s’ils entendent un ou deux objets lorsque le délai entre plusieurs sons est modulé (modulation temporelle cohérente, par exemple un son de galop). Le troisième test consiste à manipuler la synchronie de départ des sons en faisant varier le moment du départ de deux sons, le sujet doit dire s’il entend un ou deux sons. Ajouter à ces trois tests, les auteurs contrôlent les aptitudes discriminatives et perceptives de leurs sujets en mesurant le seuil de discrimination d’intensité, de fréquence, et la capacité à percevoir des sons de très courte durée (2 à 100 ms). Neuf patients présentent des troubles de ségrégation des objets sonores, trois en étape d’intensité, un seul en modulation temporelle cohérente, et sept en synchronie de départ des sons. Les auteurs dénombrent sept profils différents en fonction des performances obtenues dans leur trois tâches (Tableau 3.2). 145 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature Profil 1 2 3 4 5 6 7 IS TEST RA SOS LESION HD HG B + + + 3 4 - + + - - 4 1 + - + 1 - 1 + - - 1 - - - + - 2 - - - - + 1 1 - - - - - - 1 Tableau 3.2: Différents profils en fonction des performances (Clarke et al., 1996) aux différents tests (IS: Identification Sémantique, RA: Reconnaissance Asémantique, SOS: Ségrégation des Objets Sonores) et de la localisation des lésions (HG: Hémisphère Gauche, HD: Hémisphère Droit, B: Bilatérales). Les résultats de cette étude mettent en évidence trois doubles dissociations pour les sons de l’environnement. Une double dissociation s’observe entre l’identification sémantique et la reconnaissance asémantique (profils 3 & 4 versus 5), entre l’identification et la ségrégation d’objets sonores (profils 2 & 4 versus 6), et enfin entre la reconnaissance asémantique et la ségrégation d’objets sonores (profils 2 & 5 versus 3 & 6). Ces résultats vont dans le sens d’une séparation entre ces trois traitements pour les sons de l’environnement. Certains patients présentent donc des atteintes sélectives au niveau de leurs capacités discriminatives (agnosie auditive aperceptive) ou d’identification (agnosie auditive sémantique) pour les sons de l’environnement. De plus, il semble qu’il n’existe pas de relation forte entre l’aphasie (visuelle et/ou auditive) et les capacités de compréhension auditive nonverbale. Seulement un tiers des patients avec troubles langagiers présente également des troubles dans la reconnaissance des sons de l’environnement. Les auteurs font une revue de la littérature concernant les agnosies auditives, et rapportent que les déficits pour les sons de l’environnement sont souvent associés à des lésions bilatérales (Motoruma et al., 1986; Taniwaki, Tagawa, Sato, & Iino, 2000), avec quelques cas de lésions de l’hémisphère droit (Fujii et al., 1990) ou gauche (Pasquier et al., 1991). Les deux hémisphères sont censés jouer un rôle différent pour ce qui concerne le traitement des sons de l’environnement. Vignolo 146 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature (1982) montre que la plupart des patients souffrant d’agnosie auditive associée avec des lésions de l’hémisphère droit présentent également des troubles perceptifs et discriminatifs. En comparaison, les patients qui sont atteints à l’hémisphère gauche souffrent généralement de troubles sémantiques et/ou associatifs. Plus récemment, Schnider et al. (1994) parviennent à des conclusions similaires sur un ensemble de 52 patients (29 lésés à l’hémisphère gauche et 23 au droit). Les données de Clarke et al. (1996) contrastent avec la dichotomie hémisphère gauche-sémantique et hémisphère droit-discriminatif pour les sons. Dans leur étude, une lésion de l’hémisphère droit entraîne des déficits dans les tâches d’identification sémantique et de reconnaissance asémantique plus fréquents (37,5 % des cas) que des lésions de l’hémisphère gauche (11 % des cas). Dans le cas de la tâche de ségrégation des objets, les déficits sont plutôt attribuables à une lésion de l’hémisphère gauche (50 % des cas) que du droit (37,5 % des cas). Tanaka, Nakano et Obayashi (2002) utilisent, avec des sons de l’environnement, un test similaire à celui d’identification sémantique employé dans l’étude de Clarke et al. (1996), (à la différence qu’ils n’utilisent pas de condition «sémantiquement et acoustiquement» liée à la cible), chez 24 patients (12 lésés unilatéralement à droite et 12 à gauche, suite à une hémorragie putaminale). Leurs observations suggèrent que la latéralité de l’atteinte hémisphérique est indépendante des résultats des patients au test d’identification (voir cependant Saygin et al., 2003, pour une interprétation différente). En conclusion, cette étude suggère que différentes capacités relatives aux traitements des sons de l’environnement peuvent s’effectuer indépendamment les unes des autres et impliquent de manière différentielle nos hémisphères cérébraux. Ce dernier point laisse penser que la reconnaissance auditive non-verbale diffère de celle du langage tout du moins au niveau des circuits corticaux impliqués. En ce qui concerne la dissociation entre agnosie auditive aperceptive et sémantique, les résultats de ces études semblent en accord. L’agnosie aperceptive est représentée par un 147 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature échec aux tâches de ségrégation des objets sonores, et l’agnosie sémantique se retrouve chez des patients qui échouent aux tests d’identification sémantique et de reconnaissance aperceptive. Un parallèle peut même être fait entre les deux formes d’agnosie visuelle, l’agnosie associative (identification sémantique) et l’agnosie asémantique (reconnaissance asémantique). Localiser et identifier un son, vers une dissociation Récemment un certain nombre de chercheurs se sont intéressés aux dissociations qui semblent exister entre la localisation et l’identification des sons, chez l’humain «normal» et l’animal (Belin & Zatorre, 2000; Lewis et al. 2004; Maeder et al., 2001; Rauschecker & Tian, 2000). Des études chez des patients cérébrolésés permettent également de mettre en évidence de telles dissociations (Adriani et al., 2003; Clarke & Bellmann Thiran, 2004; Clarke et al., 2000, 2002). Cette distinction est particulièrement intéressante, car d’une part elle attribue des voies de traitement spécifiques à l’identification et à la localisation des sons de l’environnement et d’autre part l’existence de ces deux voies («Où» et «Quoi») pour le traitement des objets visuels ajoute un parallèle supplémentaire entre les objets visuels et auditifs. Clarke et al. (2000) comparent les performances de quatre patients présentant des lésions de l’hémisphère gauche. Trois tests différents sont utilisés, un test de reconnaissance sémantique (identique au test d’identification sémantique utilisé par Clarke et al. (1996)), un test de localisation auditive (deux tests sont utilisés, l’un des deux nécessitent des compétences verbales très faibles pour permettre à l’un des sujets de le passer) et un test de reconnaissance du mouvement. Les résultats de leur étude montrent une double dissociation entre les capacités de reconnaissance («Quoi») et les fonctions spatiales («Où») pour les sons de l’environnement. Les auteurs proposent deux voies anatomiquement différentes en 148 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature fonction des lésions de leur patient. Une voie pour la reconnaissance auditive qui comprendrait les aires auditives latérales et la convexité latérale. L’autre voie impliquée pour l’analyse spatiale auditive comprendrait les aires auditives postérieures, l’insula et la convexité pariétale. La même équipe (Maeder et al., 2001) conduit une expérience d’imagerie cérébrale pour explorer la distinction entre reconnaissance et spatialisation pour les sons de l’environnement chez les sujets normaux. Ils utilisent une tâche de reconnaissance (le sujet doit détecter des cris d’animaux dans un fond sonore) et une tâche de localisation (déterminer si deux sons proviennent ou non de la même localisation). Leurs résultats montrent que les réseaux «Où» et «Quoi» pour les stimulations auditives sont au moins partiellement indépendants. La reconnaissance d’un son de l’environnement implique bilatéralement, la partie antérieure du lobe temporal médian, la partie ventrale du precuneus, et le cortex préfrontal gauche. La localisation des sons, quant à elle, implique le lobule pariétal inférieur, des parties du cortex préfrontal et prémoteur et la partie dorsale du precuneus. Les activations bilatérales observées pour la reconnaissance des sons de l’environnement dans l’étude de Maeder et al. (2001) conduisent Clarke et al., (2002) à tester 15 patients souffrant de lésions de l’hémisphère droit. La double dissociation, entre la reconnaissance et la spatialisation des sons de l’environnement, déjà observée pour des patients lésés au niveau de l’hémisphère gauche (Clarke et al., 2000) se retrouve dans cette étude. La reconnaissance des sons semble nécessiter l’intégrité de la convexité temporale, pour la localisation les zones impliquées comprennent les convexités pariétale et frontale. Cet ensemble d’études suggèrent une dissociation entre les traitements de reconnaissance et de spatialisation pour les sons de l’environnement. Une double dissociation pour ces deux fonctions est observée suite à des lésions unilatérales gauches (Clarke et al., 2000) ou droites (Clarke et al., 2002). L’étude d’imagerie de Maeder et al. (2001) chez les sujets normaux suggère également une telle dissociation. Si l’existence de ces deux voies 149 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature semble confirmée par des sources convergentes, rien n’atteste une séparation complète de ces processus chez le sujet normal. De plus, les études de neuropsychologie ont été menées avec des patients dont les lésions existaient au moins depuis quelques mois. Ce délai permet des réorganisations fonctionnelles qui peuvent comprendre le cortex auditif, ce qui permettrait d’expliquer qu’on puisse indifféremment observer cette double dissociation suite à des lésions présentes dans l’hémisphère gauche ou droit. Pour l’ensemble de ces raisons, Adriani et al. (2003) ont testé 30 patients (15 ayant une lésion dans l’hémisphère gauche, et 15 ayant une lésion dans l’hémisphère droit) dont les lésions sont survenues en moyenne dans les 10,4 jours avant les tests. Les trois tests utilisés sont similaires à ceux déjà employés dans l’étude de Clarke et al. (2000), reconnaissance, localisation et perception du mouvement des sons de l’environnement. Les résultats de cette étude montrent: (1)Une double dissociation, entre d’une part la reconnaissance des sons et d’autre part la localisation et la perception du mouvement des sons, déjà rapportée pour des patients lésés depuis plusieurs mois (Clarke et al., 2000, 2002) se retrouve chez des patients lésés depuis moins de deux semaines. (2)Les déficits dans les performances de reconnaissance, de localisation et/ou de perception du mouvement sont toujours associés à des lésions de structures auditives partagées (par les deux voies comprenant, le thalamus auditif, la radiation acoustique, l’aire primaire auditive et de petites régions en périphérie des aires auditives) et la voie «Où» et/ou la voie «Quoi». Cette observation suggère que la lésion d’une région connue comme impliquée dans le traitement du «Où» ou du «Quoi» (Maeder et al., 2001) est nécessaire mais non suffisante pour générer un déficit. Les données sont partiellement similaires à celles obtenues précédemment (Clarke et al., 2000, 2002), ces deux voies seraient présentes et activées bilatéralement. Dans les études précédentes, les observations de déficits sont faites chez des patients souffrant de lésions 150 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature unilatérales à droite ou à gauche. Les données permettent donc deux interprétations, par exemple pour la reconnaissance, soit les deux hémisphères sont spécialisés, le droit pour les traitements perceptifs/discriminatifs et le gauche pour les traitements sémantiques (Vignolo, 1982), soit les traitements effectués par l’hémisphère intact sont perturbés par ceux de l’hémisphère lésé (Clarke et al., 2002). Cette étude suggère que ces deux voies de traitement des sons de l’environnement correspondent à des réseaux spécialisés qui sont interconnectés par les structures auditives partagées. De la voie du «Quoi» au sens des sons en images Deux études d’imagerie récentes (Adams & Janata, 2002, Lewis et al., 2004) permettent d’appréhender les régions cérébrales impliquées dans l’identification des sons de l’environnement. Nous détaillerons ces deux études, en commençant par celle d’Adams et Janata (2002). Ces auteurs ont deux objectifs, identifier le circuit neuronal responsable de l’identification et de la catégorisation d’objets auditifs, et déterminer si il est commun à celui impliqué dans le traitement des objets visuels. La première expérience sert de base à celle que les sujets passeront dans le scanner, et consiste à présenter au sujet 65 images et 65 sons, les sons représentants des objets différents des images. Ils présentent les sons et les images simultanément à un label verbal qui peut varier selon 4 conditions (prenons l’exemple de l’image d’un corbeau le mot affiché sera (i)Corbeau (correspondant, niveau exemplaire), (ii)Oiseau (correspondant, niveau de base), (iii)Moineau (différent, niveau exemplaire), (iv)Chat (différent, niveau de base). Le mot et l’objet sont présentés simultanément pendant 2s. La tâche du sujet consiste à faire une tâche de vérification de nom le plus rapidement possible en déterminant si les deux stimuli correspondent ou non. Une fois la réponse donnée, l’essai suivant débute 1s plus tard (les stimulations sont présentées en bloc de sons ou 151 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature d’images). Les temps de réaction des sujets sont plus courts pour les objets présentés visuellement, ils répondent également plus rapidement pour vérifier le niveau de base plutôt que l’exemplaire. Aucune indication n’est fournie pour comparer les résultats des réponses négatives et positives. L’Expérience 2 se déroule avec 12 sujets et reprend le principe de la première à quelques détails près. 30 sons et 30 images sont sélectionnés parmi ceux de l’Expérience 1, une tâche est ajoutée pour contrôler les activations propres à la lecture du label linguistique (tâche sémantique). Ils demandent aux sujets de déterminer si le mot qui leur est présenté désigne un objet qui peut se mouvoir par lui-même ou non. Les résultats comportementaux, en termes de temps de réaction, sont plus longs, mais restent similaires en termes d’effets, à ceux de la première expérience. Les données d’imagerie mettent en évidence le rôle central du gyrus frontal inférieur pour discriminer des objets auditifs aussi bien dans des tâches de détection que de jugement phonologique ou sémantique (voir, Wagner, 1999, pour une revue). Les résultats de cette étude semblent suggérer que l’activité de cette région permettrait l’association des représentations conceptuelles avec les caractéristiques spectro-temporelles des sons. Les activations dans le cas de sons de l’environnement sont bilatérales. Les activations de cette structure dans l’hémisphère gauche sont considérés comme dépendantes de traitements langagiers (Price, 2000). Les activations quand elles sont localisées à droite sont observées dans le cas de traitement de stimulations auditives non-verbales comme la musique (Zatorre, Evans, & Meyer, 1994) ou pour un accès à la mémoire sémantique pour les images (Wagner, 1999). Les auteurs proposent que les temps de réaction plus longs et les activations du gyrus frontal inférieur observés pour les objets auditifs mais pas pour les objets visuels reposent sur deux raisons principales. Les sons de l’environnement se définissent uniquement par un ensemble de caractéristiques spectrotemporelles, l’intégration perceptive de cet ensemble persiste jusqu’à l’identification du son ou sa fin. Le temps d’identification d’un son est donc extrêmement dépendant de ses 152 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature propriétés acoustique comme la périodicité (scier du bois versus un moteur). Quand un son est entendu, le déroulement du traitement de ses caractéristiques spectro-temporelles permet de rechercher des associations en mémoire sémantique en fonction du patron acoustique qui est en train d’être analysé. Les auteurs prennent l’exemple de l’activation d’un concept par une autre stimulation (image ou mot), la décision ne pourra être prise que lorsque les caractéristiques spectro-temporelles seront associées elle-mêmes à une signification. Cette étude met en évidence trois régions qui pourraient correspondre à des représentations communes sémantiques/conceptuelles pour les images et les sons de l’environnement. Le sillon frontal inférieur permettrait de différencier les items des niveaux de base et subordonnés pour les images et les sons. Une activation plus importante est observée, pour les deux modalités, dans l’opercule frontal pour la catégorisation du niveau subordonné. Finalement, la soustraction des conditions «niveau de l’exemplaire»-«niveau de base» active des petites régions similaires proches des gyri fusiforme médian et frontal inférieur. Les auteurs concluent qu’il semble exister une mémoire sémantique sous forme de réseau tout du moins pour les images et les sons dont les accès seraient polymodaux (selon que l’on considère les images ou les sons de l’environnement) et intimement lié au langage. Lewis et al. (2004) proposent une revue de littérature des études d’imagerie, en plus de leur propre expérience, pour identifier les régions cérébrales impliquées dans la reconnaissance des sons de l’environnement. Ils utilisent 105 sons de l’environnement joués à l’endroit (reconnaissables) et joués à l’envers (non identifiables) ajoutés à 140 silences. Le sujet doit indiquer, s’il peut reconnaître ou identifier le son, s’il est incertain ou s’il ne peut pas le reconnaître. Les résultats de leur étude d’imagerie montrent que la reconnaissance des sons de l’environnement génère une activation plus importante: 153 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature *bilatéralement, dans et à proximité de la portion postérieure du gyrus temporal médian. *dans le sillon temporal supérieur, avec un site isolé mais robuste dans l’hémisphère droit, et de manière plus étendue dans le gauche. D’autres régions sont activées dans l’hémisphère gauche comme le cortex frontal inférieur, le gyrus fusiforme inférieur, le gyrus angulaire, et le cortex cingulaire postérieur. Les auteurs comparent les résultats de leur expérience avec les données d’autres expériences d’imagerie cérébrale réalisées dans le même laboratoire (Binder, et al., 1997, 2000; Lewis, Beauchamp, & DeYoe, 2000), avec le même appareillage et en utilisant les mêmes techniques d’analyse. L’ensemble de ces données sont compilées et les auteurs proposent un modèle cortical pour le traitement des sons de l’environnement et du langage oral en trois étapes: * Étapes d’entrée: elles se rapportent aux traitements acoustiques détaillés dans l’étude de Binder et al. (2000). On compare les zones corticales plus activées par un son modulé plutôt que par un bruit blanc, et par des mots plutôt qu’un son modulé. Les données montrent une progression dorsoventrale des activations à mesure que la complexité de la structure acoustique du son augmente. Le patron d’activation rapporté par Binder et al. (2000) correspond à la superposition des zones corticales activées par les sons de l’environnement qu’ils soient ou non reconnaissables. Ces résultats sont également consistants avec d’autres études d’imagerie en rapport avec les sons de l’environnement (Engelien et al., 1995; Maeder et al. 2001). * Étapes intermédiaires: elles correspondent pour le langage aux associations lexicosémantiques. Les résultats de cette étude sont comparés à ceux de Binder et al. (1997). Les régions qui sont activées (à l’exception de l’activation bilatérale de la partie postérieure du gyrus temporal médian, et du gyrus supramarginal gauche) lors de la reconnaissance des sons 154 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature de l’environnement se superposent à celles impliquées dans le traitement de mot parlés. Dans les deux études, la tâche des sujets nécessitait de reconnaître les stimulations et d’accéder à leur sens. * Étapes de sortie: l’activation du cortex frontal inférieur gauche par les sons de l’environnement reconnaissable est consistant avec une étape de sortie. Cette étape correspond à l’accès phonologique et la préparation articulatoire. Cette partie du cortex est également activée lorsqu’un sujet arrive à reconnaître un objet visuel (Bar et al., 2001). Nous avons vu pour les étapes intermédiaires que deux structures étaient activées dans le cas spécifique de la reconnaissance et/ou de l’identification des sons de l’environnement. L’activation bilatérale de la partie postérieure du gyrus temporal médian est particulièrement intéressante. En ce qui concerne l’activation de cette structure dans l’hémisphère gauche, deux fonctions lui sont attachées, d’une part les connaissances catégorielles (objets manufacturés versus animaux, Martin & Chao, 2001), d’autre part lors de la récupération d’information sur les connaissances des actions (Phillips, Noppeney, Humphreys, & Price, 2002). On peut illustrer ce dernier point en comparant la reconnaissance d’un son de l’environnement avec celle du nom correspondant prononcé. Les traitements qui sont nécessaires pour la reconnaissance d’un son de l’environnement impliquent certainement la récupération d’actions visuelles ou motrices associées à la production du son. Les auteurs proposent également des parallèles entre la reconnaissance des objets visuels et auditifs. Contrastant avec les traitements sémantique et langagier, la reconnaissance des sons de l’environnement active également la partie postérieure du gyrus temporal médian dans l’hémisphère droit. Cette activation dans l’hémisphère droit permet de faire des parallèles entre les objets visuels et auditifs, d’autant plus que cette zone se situe entre le cortex visuel et auditif. La voie de traitement du «Quoi» montre des similitudes pour ces deux types d’objets rejoignant les observations d’Adams et Janata (2002). 155 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature 2.2.3 Les sons de l’environnement électrifiés Nous discuterons des résultats de quelques études d’électrophysiologie s’intéressant au traitement des sons de l’environnement. Les travaux de Van Petten et Rheinfelden (1995) et Plante et al. (2000) avec la méthode des potentiels évoqués font des comparaisons entre les traitements des sons de l’environnement, du langage et des images chez les sujets «normaux» ou souffrant de troubles d’apprentissage. Nous verrons ensuite deux études (Friedman, Cycowicz, & Dziobek, 2003; Mecklinger, Opitz, Friederici, 1997) qui utilisent le paradigme de nouveauté P3 en potentiels évoqués, pour aborder les sons de l’environnement. Nous terminerons en présentant les résultats de Lebrun et al. (1998, 2001), en ERD («EventRelated Desynchronisation») et potentiel évoqué qui permettent de faire des parallèles entre le traitement des sons et du langage. Van Petten et collaborateurs Nous avons déjà abordé la première expérience de Van Petten et Rheinfelder (1995) dans ce chapitre dans le point consacré aux études comportementales. Dans leur deuxième expérience, elles utilisent la méthode des potentiels évoqués. Deux groupes de sujets sont formés en fonction de la présentation des stimulations. On présente à un groupe de sujets un mot (amorce) suivit d’un son (cible) correspondant ou non à l’objet désigné par le mot, puis un fragment de son, qui peut ou non être une partie de celui qui vient d’être entendu. La tâche du sujet consiste à déterminer si oui ou non le fragment de son provient du son qu’il vient d’entendre. Le deuxième groupe suit une procédure similaire, si ce n’est que le format des stimulations change, ils entendent le son suivi d’un mot et enfin d’un fragment de mot. Les résultats montrent que quel que soit le mode de présentation des stimulations (son-mot ou mot-son) on observe des composantes N400. La différence entre les deux conditions résident dans l’implication différentielle des hémisphères cérébraux en fonction de la cible considérée. 156 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature L’hémisphère droit est plus impliqué pour le traitement des sons de l’environnement que le gauche et le patron inverse est observé pour les mots. Les auteurs concluent que l’engagement des hémisphères cérébraux est différent selon que l’on donne du sens à des mots ou des sons de l’environnement. Les résultats de l’étude que nous avons juste détaillés ont conduit l’une des auteurs à poursuivre l’étude comparative entre les mots et les sons de l’environnement. Plante et al. (2000) partent de l’hypothèse que l’accès au sens pour les mots et les sons de l’environnement se fait par des populations de neurones différentes (Van Petten & Rheinfelder, 1995). Elles utilisent la méthode des potentiels évoqué avec une procédure proche (même présentation, amorce-cible-fragment, tâche de correspondance (oui/non) du fragment avec la cible) à celle utilisée dans l’étude précédente (Van Petten & Rheinfelder, 1995). Les deux changements majeurs se situent au niveau de la population étudiée et du matériel utilisé. Deux groupes de sujets sont comparés des sujets contrôles et des sujets avec des troubles d’apprentissage. Les personnes avec des troubles de l’apprentissage semblent être perturbées au niveau de la stabilisation du vocabulaire, les déficits sont donc liés au langage. Dans cette étude, deux listes d’items sont constituées, une liste verbale (Mot écrit (amorce)-Mot prononcé (cible)) et une liste non-verbale (Dessin (amorce) – Son de l’environnement (cible)), l’amorce et la cible sont sémantiquement reliées (elles étaient répétées dans l’étude de 1995). Les résultats montrent que les sujets souffrant de problèmes d’apprentissage ont un patron de résultats différent de celui des sujets contrôles en ce qui concerne les composantes N400. Cependant, ils ne présentent pas de composante N400 pour les stimulations verbales contrairement aux sujets contrôles. Pourtant pour les stimulations non-verbales, les résultats sont identiques quel que soit le groupe de sujet considéré, la composante N400 est de plus faible amplitude dans le cas de paires d’items (image-son) reliés sémantiquement comparé aux items non liés. Les 157 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature auteurs concluent que l’implication des hémisphères cérébraux est différentielle selon que l’on donne du sens à des stimulations verbale ou non-verbale. Le paradigme de détection de la nouveauté P3 La capacité à détecter des événements inhabituels ou nouveaux est importante pour le stockage d’information en mémoire. La modulation de la composante P3 de nouveauté est souvent interprétée dans le domaine de l’orientation. Cette onde s’observe dans des situations où des stimulations inattendues ou nouvelles apparaissent (voir Friedman, Cycowicz, & Gaeta, 2001, pour une revue). Mecklinger et al. (1997) présentent des sons de l’environnement reconnaissables (10% des sons), intégrés dans un ensemble de son purs standards (son pur d’une fréquence de 600Hz, 80% de sons), ou déviants (son pur d’une fréquence de 660Hz, 10% des sons). Tous les sons durent 200ms, et sont séparés par un ISI de 600ms. Les résultats montrent que l’onde P3 s’observe à la fois pour les sons déviants et les sons de l’environnement, mais que seuls ces derniers génèrent une composante ressemblant à la N400 au niveau pariétal droit. Les auteurs concluent qu’il semble exister un processus d’identification automatique (en plus de la détection de la nouveauté) pour les sons de l’environnement. Friedman et al. (2003) utilisent la mesure de la nouveauté pour étudier les relations inter-format entre un son de l’environnement et le label linguistique qui lui correspond. Chaque sujet passe 10 blocs de 80 essais, composés de 64 sons purs de 700Hz, de stimulations «nouvelles» (8 par bloc, un son de l’environnement ou un mot) et de 8 cibles (son pur de 1000Hz). La tâche du sujet consiste à appuyer sur un bouton lorsqu’il détecte une cible, il n’est pas informé de la présence de sons «nouveaux». Les sons de l’environnement et les labels linguistiques peuvent être présenté selon deux conditions, soit le son (amorce) apparaît en premier suivi plus tard par le mot (cible) qui lui correspond, ou l’inverse le mot en 158 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature amorce et le son en cible. L’hypothèse des auteurs est que si les sons de l’environnement permettent d’accéder à une signification, l’habituation selon le format de présentation (sonmot versus mot-son) devrait être différent. Les résultats montrent que seule la présentation d’un son en amorce et d’un mot en cible conduit à une réduction de l’onde P3 de nouveauté. Les auteurs interprètent leurs résultats à la lumière des travaux de Paivio (1971, 1986). Les sons de l’environnement nécessiteraient comme les images un double traitement, perceptif et sémantique. Ainsi, quand le son est présenté en amorce le traitement perceptif s’effectue suivi du traitement sémantique, et lorsque le mot apparaît le concept verbal contacte la représentation sémantique activée précédemment par le son entraînant une diminution de l’amplitude de la P3 de nouveauté. Maintenant, quand un mot apparaît une représentation sémantique est activée, et lors de la présentation du son un traitement perceptif supplémentaire s’intercale entre les deux traitements sémantiques ce qui pourrait faire que l’amplitude de l’onde ne diminue pas. Les travaux de Lebrun L’auteur mène des travaux d’étude comparatifs entre la perception des sons de l’environnement et du langage. Lebrun conclut: «... notre travail a confirmé des données bien connues provenant de la neuropsychologie lésionnelle, concernant le rôle prédominant de l’hémisphère gauche dans le traitement sémantique des sons de l’environnement et de l’hémisphère droit dans leur traitement perceptif.» (Lebrun, 1997, p.234). Cette conclusion s’appuie sur les résultats d’études neurophysiologiques comparant le traitement de sons familiers (reconnaissables) ou non familiers (très difficilement reconnaissables) (Lebrun et al., 1998) et de ce même ensemble de son avec le langage (Lebrun et al., 2001). Lebrun et al. (1998) mettent en évidence l’implication des deux hémisphères dans le traitement de sons de l’environnement qu’ils soient ou non reconnaissables. L’hémisphère droit serait responsable 159 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature des traitements perceptifs que le son soit reconnaissable ou non. Pour l’hémisphère gauche, les activations (désynchronisations) sont similaires au début, mais diffèrent sur la fin particulièrement pour les sons non reconnaissables (synchronisations). Les auteurs suggèrent que le son qu’il soit reconnaissable ou non entre dans un cycle de traitement sémantique, aboutissant à l’identification pour les sons avec signification et à des phénomènes inhibiteurs pour ceux sans signification. Lebrun et al. (2001) comparent les activations pour le traitement de sons de l’environnement (reconnaissables ou non) et du langage. Au niveau des traitements présémantiques, les hémisphères cérébraux s’impliquent de manière différentielle en fonction de la nature des stimulations, l’hémisphère gauche pour le langage et l’hémisphère droit pour les sons de l’environnement. Le principal résultat de l’étude réside dans les activations de zones communes situées à gauche dans la zone temporale pour les sons et les mots. Les auteurs suggèrent qu’il existerait un réseau sémantique commun pour les sons et les mots, ou que les sons conduiraient à activer le mot qui leur correspond, mot qui à son tour activerait la représentation sémantique qui lui correspond. Cependant des activations dans les régions postérieures droites pourraient indiquer l’existence de structures de traitement sémantique propres aux sons, mais le décours temporel leur fait dire que cela paraît peu probable. L’ensemble de ces trois approches différentes nous renseigne sur la spécialisation hémisphérique, l’existence de voies de traitement spécialisées et de similitudes entre la perception des objets visuels et du langage avec celle des sons de l’environnement. Spécialisation hémisphérique et perception des sons de l’environnement Les résultats des études électrophysiologiques proposent une spécialisation des hémisphères cérébraux pour le traitement des sons de l’environnement, le gauche pour les 160 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature traitements sémantiques et le droit pour les traitements acoustiques (Lebrun et al., 1998, 2001; Plante et al., 2000; Van Petten & Rheinfelder, 1995, voir cependant Mecklinger et al., 1997). Les activation «sémantiques» observées dans l’hémisphère gauche lors de l’identification de sons de l’environnement les ont conduit à proposer l’hypothèse de sousvocalisation. Le son, dans cette conception, activerait le label linguistique qui à son tour irait activer les connaissances conceptuelles qui lui son liées (voir, Dick et al., 2002, pour des contre arguments). Les études d’imagerie cérébrale et de neuropsychologie proposent des conclusions un peu plus nuancées. Généralement, les activations sont plutôt de nature bilatérale, avec des traitements perceptifs localisés plutôt à droite et un peu à gauche et inversement pour les traitements sémantiques. Clarke et ses collaborateurs proposent en s’appuyant sur leurs travaux de neuropsychologie et d’imagerie cérébrale que les traitements impliqués préférentiellement dans un hémisphère soient intiment liés à ceux de l’autre hémisphère. Cette proposition expliquerait pourquoi, tout du moins en neuropsychologie, une détérioration de l’identification des sons de l’environnement ne soit pas toujours sous la dépendance de lésion à l’hémisphère gauche. L’hypothèse de Clarke s’appuie également sur l’existence de structures auditives partagées entre la voie du «Où» et la voie du «Quoi», que nous détaillerons dans le point suivant. La voie du «Où» et la voie du «Quoi» Deux voies spécialisées semblent exister («Où», localisation et «Quoi», identification) à la fois pour les sons de l’environnement et les objets visuels. Les deux voies dans le cas des sons utilisent des systèmes auditifs partagés (Adriani et al., 2003) en fonction de sites cérébraux qui la plupart du temps sont repartis bilatéralement. Ces deux voies sont mises en évidence à la fois par des études de neuropsychologie (Adriani et al., 2003) et d’imagerie cérébrale (Maeder et al., 2001). La voie du «Quoi» nous intéresse tout 161 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature particulièrement, puisqu’elle consiste à donner du sens à un patron acoustique. Les données dont nous disposons sont assez limitées, mais il semble que l’association entre le patron acoustique correspondant à un son et sa signification s’effectue de manière bilatérale (Adams & Janata, 2002; Lewis et al., 2004) dans des structures déjà connues pour les autres formes de stimulations (pour les mots, activations à gauche, pour les images activations bilatérales). Néanmoins les sons de l’environnement se différencient du langage selon Adams et Janata (2002) du fait d’une intégration perceptive plus importante. Les résultats d’électrophysiologie de Friedman et al. (2003) cadrent avec cette l’hypothèse. Adams et Janata concluent qu’il semble exister une mémoire sémantique sous forme de réseau tout du moins pour les images et les sons dont les accès seraient polymodaux et intimement liés au langage. Notre objectif de recherche est centré sur la mémoire sémantique que nous voulons étudier grâce aux sons de l’environnement. L’ensemble des études que nous venons de présenter indique comment un son de l’environnement véhicule du sens (Adams & Janata, 2002, par exemple) et quels liens ils entretiennent en MLT avec les autres stimulations signifiantes (Thompson & Paivio, 1994, par exemple). De nombreux résultats, qu’ils soient issus de psychologie cognitive ou des neurosciences, suggèrent que la mémoire sémantique serait organisée en fonction de la nature verbale ou non des stimulations, et que les stimulations non-verbales seraient intimement liées aux verbales. La nature des liens qui unissent les images, les mots et les sons de l’environnement sont encore mal connus. Ce constat n’a rien d’étonnant quand on sait que nous ignorons comment sont organisées les sons de l’environnement au sein du sous-sytème de mémoire sémantique qui semble leur être dévolu (Thompson & Paivio, 1994). Dans le cas des objets visuels les auteurs supposent générallement qu’ils sont organisés Grosso modo d’une manière similaire aux stimulations langagières (Bowers et al. 1999), pour lesquelles nous disposons de plusieurs modèles se 162 Chapitre 3: La perception des sons de l’environnement, une revue de la littérature basant sur de nombreuses données expérimentales (issues d’études des effets de contexte par exemple). Une compréhension globale du fonctionnement de notre mémoire sémantique nécessite que nous étudions chacun de ses modules pour ensuite comprendre quels sont les liens que ces sous-systèmes de mémoire sémantique (pour les objets visuels, les mots et les sons de l’environnement) entretiennent entre eux. L’étude de l’organisation du fonctionnement du sous-système de mémoire sémantique qui semble dévolu aux sons de l’environnement est donc un enjeu crucial pour comprendre la mémoire sémantique dans sa globalité. L’objectif de l’introduction était de présenter ce que nous voulons étudier, la mémoire sémantique (Chapitre 1), en utilisant le paradigme d’amorçage (Chapitre 2) en parallèle avec les études effectuées sur les images (Chapitres 2 & 3). L’étude des sons de l’environnement, comme unités capables d’activer des connaissances abstraites, pourrait contribuer à améliorer nos connaissances sur la nature et l’organisation de notre mémoire sémantique. Ces problématiques seront étudiées dans la partie expérimentale. 163