Les euh et les allongements dits « d’hésitation » : deux phénomènes soumis à certaines contraintes en français oral non lu Maria CANDEA Institut de Phonétique, Université de Paris III, 19, rue des Bernardins 75005 – Paris, France Mél: [email protected] ABSTRACT Cette étude s’intéresse au comportement de deux marques appelées abusivement d’« hésitation » en français oral non lu : le euh et les allongements vocaliques. Nous formulons l’hypothèse que ces deux marques auraient une distribution complémentaire (seraient des variantes combinatoires): l’allongement vocalique porterait presque exclusivement sur les syllabes (C)V des mots outils alors que le euh serait largement plus souvent distribué à la suite des mots pleins ou des syllabes (C)VC des mots outils. 1. INTRODUCTION A la différence des pauses silencieuses dans la parole qui ont fait l’objet de nombreuses études et qui bénéficient en outre d’une longue tradition issue des précis et manuels de déclamation théâtrale, les marques dites « d’hésitation » n’ont commencé à être étudiées que très tardivement, vers la fin des années 50 et uniquement en anglais, grâce à l’ampleur que commençait à prendre le recours à des corpus de parole naturelle. Goldman-Eisler [Gol58] et [Gol68], d’une part, et Maclay et Osgood [Mac59], d’autre part, ont reconnu à cette époque, dans ces phénomènes, des objets d’étude pour la linguistique et ont publié des travaux qui sont réellement, à en juger par toutes les bibliographies postérieures, à la base de tous les travaux ultérieurs portant sur ce sujet. La toute première étude sur le français prenant en compte ces phénomènes (Grosjean & Deschamps, [Gro72] paraît seulement en 1972 et sera suivie de deux autres études en 1973 et 1975, faisant systématiquement référence aux résultats et aux travaux de [Gol68]. Les marques dites « d’hésitation » qui avaient à l’origine intéressé les psycholinguistes anglo-saxons et qui ont ensuite intéressé d’autres chercheurs (voir à ce propos Duez dans [Due91] qui passe en revue les principales études anglophones entre 1958 et 1987) commencent actuellement être plus systématiquement prises en compte dans les systèmes de reconnaissance automatique de la parole (Bear, [Bea92]). Pour le français la seule démarche en ce sens, à notre connaissance, appartient à Guaïtella (ex : [Gua91]). En ce qui nous concerne, nos recherches depuis quatre ans portent sur les caractéristiques et la distribution de ces marques (euh — ex : il achetait euh des fusains ; allongements vocaliques — ex : c’était à : : : Villiers et répétitions de mots outils grammaticaux — ex : celui du bébé ours qui euh qui lui va à merveille). Nous étudions également les nombreuses possibilités de combinaison de ces marques entre elles et avec la pause silencieuse, que nous constatons régulièrement en français oral non lu (dans nos corpus tout comme dans ceux qui ont été étudiés par d’autres chercheurs, [Gro72], [Due91], [Gua91] etc.). Notre corpus actif est constitué de 70 minutes de parole (11 locuteurs, âgés de 13-14 ans enregistrés en classe de français) et nous avons entrepris actuellement de vérifier nos résultats les plus significatifs à partir d’une trentaine de minutes extraites de corpus très variés enregistrés par notre équipe de recherches de l’Univ. de Paris III. 2. DISCUSSION SUR LA TERMINOLOGIE Les études systématiques de ces phénomènes en français restent à l’heure actuelle très rares et la terminologie utilisée pour y référer est extrêmement hétérogène (phénomènes d’hésitation, pauses sonores, pauses non silencieuses, pauses remplies, pauses pleines...). En revanche, comme pour le domaine anglophone, le mot « hésitation » revient régulièrement pour désigner ces marques ou le processus cognitif qu’elles sont censées indiquer. Le choix de ce mot n’est pratiquement jamais justifié et provient à notre avis, plus ou moins directement de l’étude de Maclay et Osgood [Mac59] qui a été la première à trancher explicitement en faveur de l’emploi du terme générique « hesitation phenomena » au détriment des termes de type « disturbances » ou « disfluencies » qui étaient à l’époque en concurrence. L’originalité de [Mac59] et son énorme impact par la suite ont fait que le choix de ce terme n’a, à notre connaissance, jamais été contesté depuis, alors qu’aucune étude scientifique n’a pu mettre en évidence un quelconque rapport systématique entre ces marques et un processus cognitif d’« hésitation » dans le sens courant donné par le Petit Robert (1996) de « être dans un état d'incertitude, d'irrésolution qui suspend l'action, XXIIIèmes Journées d’Etude sur la Parole, Aussois, 19-23 juin 2000 XYZ la détermination », sens qui implique surtout la difficulté de choisir entre deux ou plusieurs possibilités. Or, les différentes approches cognitivistes de ce type de phénomènes ont surtout mis en évidence un rapport entre ces marques et l’effort d’encodage du locuteur. Ces marques signalent une difficulté due à un simple retard dans la « programmation des unités » ou bien à une difficulté passagère de « conceptualisation des unités » [Due91], autrement dit elles représentent une « activité métacognitive » dirigée vers l’auditeur qui accompagne l’activité cognitive de recherche/ production d’une unité linguistique par le locuteur et que l’auditeur serait capable de décoder en tant qu’indice métacognitif [Bre95]. Les chercheurs s’accordent pour dire que la durée est le paramètre le plus saillant de ces marques (même si elle ne suffit pas pour les définir et les reconnaître) ; cette durée n’est souvent pas due à un « embarras du choix » de la part du locuteur, n’est pas un indice « d’irrésolution » mais tout simplement un temps d’encodage plus long que prévu et qui nécessite un fort ralentissement ponctuel du rythme. La durée n’est toutefois pas caractéristique pour les répétitions de mots outils qui semblent avoir un fonctionnement différent des euh et des allongements vocaliques : en effet, dans tous les corpus que nous avons pu étudier, la durée moyenne qu’on relève entre le début de la répétition et le début du mot cible est significativement inférieure à la durée moyenne qu’on relève entre le début du euh ou de l’allongement vocalique et le début du mot cible (test t indépendant, p<0,01), cette différence étant surtout due à la durée de la pause silencieuse qui suit immédiatement chacune de ces marques et non pas à la durée intrinsèque de ces dernières. Ainsi, le processus d’« hésitation » au sens propre de ce terme supposant une difficulté de choisir une unité (irrésolution devant plusieurs choix en concurrence) ne peut pas être associé systématiquement à la production de ces marques par un locuteur donné. Le terme « hésitation » qui est en train de s’imposer dans la littérature francophone à partir de la littérature anglophone ne nous semble par conséquent pas adéquat, (ni pour le français ni pour l’anglais) même s’il est sans doute mieux choisi que les termes « disturbances » et « disfluencies » que Maclay et Osgood ont voulu éviter, car ces termes étaient trop cliniques et tendaient à ranger ce type de phénomènes du côté des pathologies du langage. En ce qui nous concerne nous avions, comme quelques autres chercheurs, adopté dans un premier temps la proposition plus neutre de Grosjean et Deschamps [Gro72] qui parlaient de « pauses sonores » (voir aussi [Due91], [Can97]), mais après avoir approfondi l’étude d’une grande quantité de corpus nous pensons que ce XYZ terme n’est à son tour pas suffisamment neutre car rien ne permet a priori de classer ces marques du côté des pauses, leur rôle n’étant pas uniquement de marquer un temps dans la production d’un énoncé mais également d’indiquer à l’auditeur que ce temps est clairement destiné à poursuivre l’encodage et non pas par exemple à céder la parole à l’auditeur. La proposition terminologique qui nous a semblé la plus précise est celle de Morel et Danon-Boileau [Mor98] qui regroupent ces phénomènes sous le nom de « marques du travail de formulation », dans une optique d’analyse énonciative. C’est le choix que nous faisons également par la suite (abr : marques du TdF). 3. EUH /VS / ALLONGEMENT VOCALIQUE ? Si les répétitions de mots outils peuvent être isolées des deux autres marques du TdF notamment en raison de leur durée, il n’en est rien en ce qui concerne les euh et les allongements vocaliques finals. Les rares chercheurs qui ont pris en compte ces phénomènes dans leurs études ont des avis divergeants en ce qui concerne le fonctionnement de ces deux marques. En effet, dans les premières études sur le français, principalement [Gro75], Grosjean et Deschamps classent les euh du côté du temps total d’élocution, de même que les allongements vocaliques. Les auteurs relèvent des pourcentages différents pour l’anglais et le français : l’anglais privilégierait nettement les « fillers » de type uh/um par rapport aux allongements alors que le français aurait seulement une légère préférence, moins marquée, pour les euh. Les auteurs attribuent cette différence principalement aux structures syllabiques prédominantes dans les deux langues (syllabes ouvertes en français, syllabes fermées en anglais), et non pas aux différences idiolectales entre les locuteurs. Ils considèrent que les deux marques auraient le même rôle et le même fonctionnement et que leurs pourcentages cumulés seraient stables (plus il y a d’allongements moins il y a de euh et vice versa). [Due91] conteste partiellement ce point de vue et propose de regrouper les euh du côté du temp s total de pause et de laisser uniquement les allongements vocaliques du côté du temps total d’élocution. Ce regroupement évite notamment de considérer chaque euh comme étant une syllabe et de fausser ainsi, en raison de la longueur exceptionnelle de nombreux euh, la durée moyenne des syllabes. Néanmoins, il ne ressort pas clairement de son ouvrage qu’elle attribuerait des rôles différents aux allongements vocaliques et aux euh : en effet, lorsqu’elle présente brièvement la distribution des « pauses sonores » Duez regroupe les deux types de marques et signale leur combinatoire très similaire avec la pause silencieuse ([Due91], pp.71-78). A la même époque, dans [Gua91] Guaïtella décide de confondre complètement les deux marques sous le nom de « hésitations vocales » (elle ne fait aucune XXIIIèmes Journées d’Etude sur la Parole, Aussois, 19-23 juin 2000 distinction dans ses comptages entre ce deux types de marques), sans pour autant donner une justification théorique à ce choix. Plus récemment, dans une approche (co)énonciative de la prosodie, Morel et Danon-Boileau [Mor98] pensent que les allongements vocaliques en finale de mots n’ont pas la même distribution syntaxique que les euh et avancent l’hypothèse que ces deux marques du TdF pourraient avoir des rôles différents (auraient une ‘portée’ différente, les allongements porteraient sur une séquence cible plus limitée que les séquences introduites par un euh). Cette hypothèse est encore à l’étude et n’est, pour le moment, pas validée statistiquement. Afin d’y voir plus clair devant ces points de vue aussi divergeants, nous avons tâché d’analyser plus en détail le contexte immédiat de ces deux marques et tenter de dégager d’éventuelles contraintes combinatoires. 3.1 Contrainte lexicale En étiquetant les catégories d’unités qui portaient dans notre corpus un allongement vocalique marque du TdF (allongement à contour mélodique bas et ayant une durée significative, c’est-à-dire supérieure à celle d’une syllabe accentuée après application des facteurs de pondération de la durée intrinsèque de la voyelle) nous nous sommes aperçue que le nombre de mots outils était bien supérieur à celui des mot pleins (258 mots outils portant un tel allongement contre 26 mots pleins, soit 90,85% mots outils contre 9,15% mots pleins). Nous avons ainsi constaté une très nette préférence pour l’allongement des mots outils et une forte tendance à éviter l’allongement des mots pleins. Ce résultat est en outre concordant avec celui obtenu par [Gro72] et [Gro73] (88,75% et 94,16% des allongements portant sur des mots outils, en fonction du corpus) ; nous ne connaissons malheureusement pas d’autre étude qui ait fait ce type de décompte sur d’autres corpus. Même s’il est encore prématuré de l’affirmer catégoriquement, ces résultats concordants obtenus à partir de corpus très différents nous permettent de formuler l’hypothèse selon laquelle le français oral non lu aurait largement tendance à faire porter les allongements vocaliques marques du TdF sur des mots outils et non sur des mots pleins. Cette remarque ne suffit cependant pas pour isoler la distribution du euh par rapport à celle des allongements, car rien ne permet de savoir pour l’instant si elle est significativement différente ou significativement identique. Nous n’avons pas trouvé de données en ce sens pour le français, ([Gro72] et [Gro73] ont appliqué le critère mot plein/mot outil uniquement aux allongements mais non aux euh.) En appliquant ce critère sur notre corpus actif, (après avoir éliminé les euh placés en tout début de prise de parole et les euh précédés par une pause silencieuse longue supérieure à 2 secondes et après avoir également éliminé provisoirement les euh précédés d’un connecteur, voir infra) nous avons obtenu, sur les 328 occurrences de euh restantes, un pourcentage de 17,07% de euh précédés d’un mot outil et un pourcentage de 82,93% de euh précédés d’un mot plein. Ce pourcentage de 17,07% est déjà très significativement différent de celui obtenu pour les allongements (moyenne 91,25%, écart-type 2,73). Il sera encore davantage significatif lorsque nous isolerons les mots outils à structure syllabique (C)VC. 3.2 Contrainte syllabique En effet, en nous inspirant de l’hypothèse formulée a priori dans [Gro75] mais non démontrée, selon laquelle la structure syllabique ouverte /vs/ fermée aurait une influence sur la fréquence des allongements vocaliques marques du TdF, nous avons voulu vérifier ce qu’il en était de cette éventuelle contrainte à partir des données de notre corpus. En observant la structure syllabique des 26 mots pleins qui portaient un tel allongement sur la syllabe finale, nous avons relevé un seul exemple (soit 3,8%) de mot finissant par une syllabe de type (C)VC (après avoir appliqué les facteurs de pondération de la durée, sachant qu’une voyelle appartenant à une syllabe fermée a une durée intrinsèque supérieure à celle appartenant à une syllabe ouverte, voir entre autres Rossi et alii, [Ros81]). Il est vrai que le nombre d’exemples issus de notre corpus n’est pas suffisant pour savoir si ce résultat est significatif ou non. D’autre part, en observant la structure syllabique des mots outils porteurs d’un allongement de ce type, nous avons relevé seulement 3 occurrences de mots outils à syllabe fermée (il s’agit de trois monosyllabiques, elle, donc, et une) soit 1,16% des 258 exemples, ce qui est en revanche très significatif. Ces résultats mettent en évidence une forte tendance en français oral non lu à éviter les allongements de syllabes fermées ; cependant ces résultats ne suffisent pas en eux-mêmes pour prévoir le comportement des locuteurs dans les cas où ils seraient amenés à marquer le TdF sur une syllabe fermée. Or, en revenant aux données obtenues pour les contextes de type « mot outil suivi de euh » (17,07% des contextes) et en observant la structure syllabique de ces mots outils, nous nous sommes aperçue que largement plus de la moitié, 34 occurrences, soit 10,37% du total des contextes avant euh étaient des mots outils de type (C)VC (principalement elle, sur, avec, une), et seulement 22 occurrences, soit 6,70% du total des XXIIIèmes Journées d’Etude sur la Parole, Aussois, 19-23 juin 2000 XYZ contextes avant euh étaient des mots outils de type (C)V. (voir récapitulatif des résultats, table 1). Table 1 : Distribution des allongements et des euh en fonction du contexte mot outil (MO) ou mot plein (MP) et en fonction de la structure syllabique des MO allongement euh MP allongé /vs/ suivi de euh 26 272 MO allongé /vs/ suivi de euh 258 56 MO (C)V allongé /vs/ suivi de euh 255 22 MO (C)VC allongé /vs/ suivi de 3 34 euh Ces résultats montrent que, dans notre corpus, les mots outils ont tendance à être largement plus souvent marqués par un allongement indiquant le TdF plutôt que d’être suivis d’un euh, avec néanmoins une restriction portant sur la structure de la syllabe allongée : en effet, lorsque la syllabe allongée est de type (C)VC il est beaucoup plus fréquent que ces mots outils soient suivis d’un euh. distribution complémentaire et seraient pour ainsi dire des variantes combinatoires d’une seule et même marque. Cette hypothèse n’est pas en contradiction avec la stabilité des pourcentages cumulés de ces deux marques évoquée dans [Gro75] et n’est pas non plus en contradiction avec l’hypothèse de la ‘portée’ différente de ces deux marques de [Mor98]. Si nos hypothèses sont validées sur un plus grand nombre d’enregistrements, nous pensons que cette portée différente s’expliquerait par la distribution syntaxique différente des MO et des MP en français et non pas par une spécialisation énonciative de chacune de ces deux marques (il s’agirait d’une simple corrélation contextuelle et non d’une relation de cause à effet). BIBLIOGRAPHIE [Bea92] Bear J. et alii (1992) « Detection and correction of repairs in human-computer dialog » Procee-dings of the Annual Meeting of the Association for Computational Linguistics, Delaware Cette contrainte syllabique ne semble pas jouer sur les mots pleins qui sont de toute manière très rarement porteurs de ce type d’allongement ; il n’en reste pas moins, que dans notre corpus, les rares mots pleins allongés finissent, à une exception près, par une syllabe de type CV. [Bre95] Brennan, S.E., Williams, M, (1995) « The feeling of another’s knowing: Prosody and filled pauses as cues to listeners about metacognitive states of speakers », Journal of Memory and Language, 34, pp. 383-398 3.3 Le cas des connecteurs [Can97] Candea M. (1997) « Peut-on définir la pause dans le discours comme un lieu d’absence de toute marque? », Travaux linguistiques du CERLICO, 10, pp. 231-244 Dans notre corpus (et cela semble être confirmé par les travaux de Morel et Danon-Boileau à partir d’une grande variété de corpus, [Mor98]) la classe des connecteurs (conjonctions et adverbes introducteurs, les exemples les plus fréquents étant et, alors, mais, donc, puis, et puis, et alors, ben, après, si) a un comportement combinatoire différent du reste du corpus par rapport aux deux marques du TdF qui nous intéressent, le euh et les allongements. Ces unités se combinent en effet très fréquemment avec le euh (169 exemples dans notre corpus) quelle que soit leur structure syllabique. Si la structure syllabique est ouverte, ils peuvent se combiner aussi avec l’allongement. Ce comportement est en fait identique à celui des mots pleins et nous pensons que l’explication est à chercher dans le rôle énonciatif de ces unités à l’oral spontané : en effet, ces connecteurs présentent le plus souvent un contour mélodique très haut ou modulé ce qui est très rare pour les autres types de mots outils (voir aussi [Mor98]). [Gol68] Goldman-Eisler F. (1968) Psycholinguistics : experiments in spontaneous speech, Academic. [Gro72] Grosjean F., Deschamps A. (1972-73) “Analyse des variables temporelles du français spontané”, [Gro73] Phonetica, 26, 130-156 et 28, pp.191-226 [Gro75] Grosjean F., Deschamps A. (1975) “Analyse contrastive des variables temporelles de l’anglais et du français”, Phonetica, 31, pp.143-183 [Gua91] Guaïtella, I. (1991) Hésitations vocales en parole spontanée : réalisations acoustiques et fonctions rythmiques, Travaux de l’Institut de Phonétique d’Aix, vol.14, pp. 113-130 [Mac59] Maclay H., Osgood Ch.E. (1959) « Hesitation Phenomena in Spontaneous English Speech », Word, 15 (4), pp. 19-44 [Mor98] Morel M., Danon-Boileau L. (1998) Grammaire de l’intonation. L’exemple du français, Ophrys 4. CONCLUSIONS Les données que nous avons assemblées à partir de notre corpus nous incitent à formuler l’hypothèse que les deux marques du TdF étudiées, le euh et les allongements, auraient en français oral non lu une XYZ [Due91] Duez D. (1991), La pause dans la parole de l’homme politique, CNRS [Ros81] Rossi M. et alii, (1981) L’intonation, de l’acoustique à la sémantique, Klincksieck XXIIIèmes Journées d’Etude sur la Parole, Aussois, 19-23 juin 2000