Système multimodal de communication alternative Nom du porteur : Laboratoire de rattachement : Thématique de recherche : Noms des partenaires et Laboratoires de rattachements des partenaires : Philippe Blache, Stéphane Rauzy, Nathalie Richardet LPL Informatique linguistique LPL, LPC, LIF, Semantia 1. Introduction La communication alternative désigne un ensemble d’outils d’aide à la communication pour des personnes handicapées atteintes dans leur motricité et leur capacité de production de parole. Il s'agit par exemple de patients atteints de pathologies neuro-dégénératives totalement paralysantes ou encore de personnes victimes d’accidents vasculaires cérébraux. Ces patients ne gardent le contrôle que de quelques muscles (comme la paupière) et ne peuvent plus parler. Dans nombre de cas, les capacités cognitives restent intactes. L’objectif de ce type de système est de permettre à l’utilisateur d’améliorer voire rétablir la possibilité de communication avec son entourage en offrant la possibilité de composer des messages, de piloter un système de synthèse de parole ou de encore désigner des objets ou des actions. Il s’agit donc de prendre en compte les besoins effectifs de ces utilisateurs dans une situation réelle de communication, et donc intégrer des modalités multiples d'interaction pour le support de la communication et le contrôle de l'environnement. L’utilisation de modalités multiples est fondamentale dans la communication naturelle qui peut utiliser de façon séparée ou conjointe des souces diverses : voix, gestes, écrits, symboles, etc. De plus ces différentes modalités doivent également tenir compte de l’intention de la communication et de son environnement. S’il n’est pas envisageable de rétablir une communication naturelle y compris dans ses modalités multiples, il est en revanche nécessaire de proposer à l’utilisateur une variété aussi grande que possible de types de communication, mais également de type d’interaction. Dans certains cas, il suffit de désigner du regard un objet ou une personne pour se faire comprendre. Dans d’autres cas, un symbole ou un ensemble de symboles pourront être utilisés, les informations les plus complexes pourront quant à elles être transmises via un texte écrit ou synthétisé. La multimodalité offre un certain nombre d’avantages : • Elle permet de maintenir plusieurs canaux de communication en multipliant les supports (texte, voix, symboles, etc.) • Elle permet de compenser la dépendance à une communication monomodale pouvant être gravement affectée par exemple par une évolution de l’état de l’utilisateur • Elle améliore l’efficacité et la rapidité de la communication • Elle permet une adaptation à la situation et l’environnement La multimodalité concerne par ailleurs le contrôle de l’environnement lui-même. Il est en effet indispensable de tirer parti des différentes capacités motrices et cognitives de l’utilisateur de façon à lui permettre d’interagir au mieux notamment avec l’environnement informatique. Ceci se fait par l’intermédiaire de capteurs qu’il convient d’associer de façon à enrichir l’input du système. 2. L’interaction multimodale pour la communication alternative Nous définissons un média comme étant un dispositif servant de support à l’information, et une modalité comme une technique d’interaction (cf. [Nigay96]). L'interaction multimodale se fonde sur l'utilisation simultanée de plusieurs modes de communication de l'usager et/ou du système. Par exemple, une réponse verbale accompagné de l’affichage d’un pictogramme est un message multimodal ayant nécessité en amont un travail d’interprétation intermodale généralement nommée fission ou génération multimodale en sortie (resp. de fusion ou de résolution intermodale en entrée). Il s’agit donc de prendre en compte les contraintes spécifiques à la multimodalité : mise en relation des médias d’entrée et les autres composants logiciels, fusion des médias en entrée, fission de l’information en sortie, etc. Dans notre cas, la multimodalité se restreint en entrée à une interaction de type alternée (il y a fusion mais les modalités doivent être utilisées en séquence) voire exclusive (absence de fusion et usage en séquence des modalités) plutôt qu’une interaction multimodale synergique (implique fusion et usage simultanés de plusieurs modalités). Dans un système multimodal, une phase de décision concernant la présentation du message rendu à l’utilisateur est nécessaire : dans le cas de notre plateforme une présentation sous forme orale, visuelle ou combinée. Il s’agit alors de définir les combinaisons selon que le contexte et/ou le profil de l’utilisateur nécessite une information complémentaire ou redondante. Par exemple, la complémentarité est satisfaite lorsque pour un acte d'interaction, chaque mode utilisé est strictement nécessaire à la constitution du message d’entrée. Il y a équivalence pour un acte lorsque l'utilisateur choisit indifféremment tel ou tel mode. Le système doit ainsi répondre à un certain nombre de contraintes : Adaptabilité du système à l’utilisateur : En fonction du profil de l’utilisateur ou du contexte d’utilisation, adaptabilité à plusieurs niveaux de granularité: - choix des modes et de leurs combinaisons durant une tâche, - paramétrage des périphériques utilisés en fonction du profil de l’utilisateur : vitesse de sélection du clic automatique, vitesse de défilement visualisé à l’écran, type de la voix de synthèse, taille des caractères, nombre de propositions affichées Cohérence entre les modes : La cohérence est un des éléments clef dans la conception d’une interface multimodale, pour lesquelles le pouvoir de confusion est accru. Comme le montrent [McNeill92] et [Oviatt97], le souci d’une interface multimodale est la cohérence et la consistance à travers les modes. Les messages exprimés doivent être cohérents d’un mode à l’autre. Par exemple, la génération redondante impose le choix d’une phraséologie identique (la même réalisation lexicale entre texte écrit et texte vocalisé). 3. Elaboration de la communication L'aide à la communication exploite les possibilités de contrôle décrites précédemment et s'appuie sur des techniques de prédiction permettant de minimiser le nombre d'interactions. Par ailleurs, les situations de communication peuvent varier en fonction de leur objectif et de leur contexte. Certaines situations sont en effet très stéréotypées et il n'est pas toujours nécessaire de composer des phrases complètes (repas, toilettes, visites médicales, etc.). Si la communication verbale écrite est indiquée voire préférable dans les situations où le temps de réaction n'est pas critique, il est cependant important qu'elle soit complétée voire remplacée par une communication iconique dans les autres cas ou pour les situations stéréotypées. 3.1. Communication verbale Le système propose un clavier virtuel pouvant être contrôlé par des capteurs divers. Le principe consiste à sélectionner des lettres. A chaque étape de cette opération, une liste de mots est proposée sur la base de critères de fréquence ainsi que d'informations morphosyntaxiques. Les informations de fréquences sont contenues dans notre dictionnaire qui comporte plus 400.000 formes. Elles ont été acquises par analyse d’un corpus de 230 millions de mots. Le filtrage syntaxique repose quant à lui sur des informations provenant de corpus annotés syntaxiquement. Des séquences de trigrammes de catégories en sont extraites, permettant de fournir des contraintes morpho-syntaxiques. Le traitement de l'accord s'appuie également sur ces informations. Le résultat de la proposition est une pondération de l'ensemble des critères évoqués. Sur la base des techniques évoquées, l'aide à la composition de textes écrits se présente de façon différente selon le type de modalité d'interaction. En cas d'impossibilité d'utilisation du clavier, l'interaction reposera soit sur la souris (ou un joystick) soit sur des capteurs. Un système de défilement permet d'accéder aux cases désirées correspondant soit à des lettres soit à des fonctions. Il est possible d'associer des modalités aux différentes modalités d'entrée. Une modalité principale pourra ainsi contrôler le défilement tandis qu'une modalité secondaire implantera par exemple la fonction d'annulation. En termes d’efficacité, deux caractères en moyenne, suffisent pour prédire le mot correct. De plus, les mots les plus fréquents, en particulier les catégories mineures, sont dans la plupart des cas proposés sans que la saisie de lettre ne soit nécessaire. Enfin, dans la mesure où le modèle utilisateur permet de s'adapter aux habitudes de l'utilisateur, l'état de stabilité du système, rapidement atteint, permet un comportement extrêmement performant de la prédiction en réduisant encore le nombre de caractères à saisir. 3.2. Communication non verbale Dans les cas de trouble du langage ou certains cas de communication stéréotypée, la communication non verbale sera mise en œuvre. Le principe général de composition de message est le même que dans le cas de la communication verbale. Différents espaces de travail sont proposés à l'utilisateur, ainsi qu'une fenêtre de prédiction et de contrôle ou d'édition du message constitué. Nous avons donc une homogénéité du système en fonction des modalités de sortie de la communication. Il est important de préciser que la base d'icônes utilisée dans cette modalité a été entièrement conçue dans le cadre de ce projet. En effet, les bases disponibles ne sont pas du tout satisfaisantes pour plusieurs raisons : mauvaise conception, mauvaise qualité graphique, iconographie infantilisante, incohérence dans le vocabulaire graphique, etc. Nous avons donc été amenés à spécifier totalement une nouvelle base d'icônes pour la communication en collaboration avec des graphistes, des psychologues et des rééducateurs. Le résultat obtenu fait de cette base une des plus efficaces aujourd'hui pour l'aide à la communication non verbale. 4. Conclusion Le développement de cette plateforme a reposé sur une collaboration entre informaticiens, linguistes et psychologues, mais a également bénéficié de l’expérience de rééducateurs et d’institutions d'accueil de personnes handicapées. Il a donc été possible de valider l'ensemble des développements au fur et à mesure de leur réalisation lors de campagnes d'évaluations conduites par des psychologues, des ergonomes et des orthophonistes. Le système, appelé PCA, est aujourd'hui distribué par la société Aegys qui en propose une version de démonstration sur son site (voir http://www.aegys.com/). Références [Asaiho94] Asaiho (1994) « Atelier Systèmes d'Analyse des Interactions Homme-Ordinateur ». Sixièmes Journées sur l'Ingénierie des Interfaces Homme-Machine, Décembre 1994, Lille, pp. 243-90. [Blache03] Blache P. & S. Rauzy (2003), "Linguistic resources and cognitive aspects in alternative communication", in proceedings of SICS-8. [Blache04] Blache P. & S. Rauzy (2004), "Une plateforme de communication alternative", in actes des Entretiens de l'Institut Garches [Nigay96] Nigay, L. & Coutaz, J. (1996). « Espaces conceptuels pour l’interaction multimédia et multimodale ». Technique et science informatiques (TSI), vol. 15, 9. pp 1195-1225 [Oviatt97] Oviatt, S., DeAngeli, A. & Kuhn, K. (1997). “Integration and synchronization of input modes during multimodal human-computer interaction”. Proceedings of the SIGCHI conference on Human factors in computing systems, ACM Press, pp. 415–422.