Système multimodal de communication alternative

publicité
Système multimodal de communication alternative
Nom du porteur :
Laboratoire de rattachement :
Thématique de recherche :
Noms des partenaires et Laboratoires de
rattachements des partenaires :
Philippe Blache, Stéphane Rauzy, Nathalie Richardet
LPL
Informatique linguistique
LPL, LPC, LIF, Semantia
1. Introduction
La communication alternative désigne un ensemble d’outils d’aide à la communication pour
des personnes handicapées atteintes dans leur motricité et leur capacité de production de
parole. Il s'agit par exemple de patients atteints de pathologies neuro-dégénératives totalement
paralysantes ou encore de personnes victimes d’accidents vasculaires cérébraux. Ces patients
ne gardent le contrôle que de quelques muscles (comme la paupière) et ne peuvent plus parler.
Dans nombre de cas, les capacités cognitives restent intactes. L’objectif de ce type de système
est de permettre à l’utilisateur d’améliorer voire rétablir la possibilité de communication avec
son entourage en offrant la possibilité de composer des messages, de piloter un système de
synthèse de parole ou de encore désigner des objets ou des actions. Il s’agit donc de prendre
en compte les besoins effectifs de ces utilisateurs dans une situation réelle de communication,
et donc intégrer des modalités multiples d'interaction pour le support de la communication et
le contrôle de l'environnement. L’utilisation de modalités multiples est fondamentale dans la
communication naturelle qui peut utiliser de façon séparée ou conjointe des souces diverses :
voix, gestes, écrits, symboles, etc. De plus ces différentes modalités doivent également tenir
compte de l’intention de la communication et de son environnement. S’il n’est pas
envisageable de rétablir une communication naturelle y compris dans ses modalités multiples,
il est en revanche nécessaire de proposer à l’utilisateur une variété aussi grande que possible
de types de communication, mais également de type d’interaction. Dans certains cas, il suffit
de désigner du regard un objet ou une personne pour se faire comprendre. Dans d’autres cas,
un symbole ou un ensemble de symboles pourront être utilisés, les informations les plus
complexes pourront quant à elles être transmises via un texte écrit ou synthétisé. La
multimodalité offre un certain nombre d’avantages :
•
Elle permet de maintenir plusieurs canaux de communication en multipliant les
supports (texte, voix, symboles, etc.)
•
Elle permet de compenser la dépendance à une communication monomodale pouvant
être gravement affectée par exemple par une évolution de l’état de l’utilisateur
•
Elle améliore l’efficacité et la rapidité de la communication
•
Elle permet une adaptation à la situation et l’environnement
La multimodalité concerne par ailleurs le contrôle de l’environnement lui-même. Il est en
effet indispensable de tirer parti des différentes capacités motrices et cognitives de
l’utilisateur de façon à lui permettre d’interagir au mieux notamment avec l’environnement
informatique. Ceci se fait par l’intermédiaire de capteurs qu’il convient d’associer de façon à
enrichir l’input du système.
2. L’interaction multimodale pour la communication alternative
Nous définissons un média comme étant un dispositif servant de support à l’information, et
une modalité comme une technique d’interaction (cf. [Nigay96]). L'interaction multimodale
se fonde sur l'utilisation simultanée de plusieurs modes de communication de l'usager et/ou du
système. Par exemple, une réponse verbale accompagné de l’affichage d’un pictogramme est
un message multimodal ayant nécessité en amont un travail d’interprétation intermodale
généralement nommée fission ou génération multimodale en sortie (resp. de fusion ou de
résolution intermodale en entrée). Il s’agit donc de prendre en compte les contraintes
spécifiques à la multimodalité : mise en relation des médias d’entrée et les autres composants
logiciels, fusion des médias en entrée, fission de l’information en sortie, etc. Dans notre cas,
la multimodalité se restreint en entrée à une interaction de type alternée (il y a fusion mais les
modalités doivent être utilisées en séquence) voire exclusive (absence de fusion et usage en
séquence des modalités) plutôt qu’une interaction multimodale synergique (implique fusion et
usage simultanés de plusieurs modalités).
Dans un système multimodal, une phase de décision concernant la présentation du message
rendu à l’utilisateur est nécessaire : dans le cas de notre plateforme une présentation sous
forme orale, visuelle ou combinée. Il s’agit alors de définir les combinaisons selon que le
contexte et/ou le profil de l’utilisateur nécessite une information complémentaire ou
redondante. Par exemple, la complémentarité est satisfaite lorsque pour un acte d'interaction,
chaque mode utilisé est strictement nécessaire à la constitution du message d’entrée. Il y a
équivalence pour un acte lorsque l'utilisateur choisit indifféremment tel ou tel mode. Le
système doit ainsi répondre à un certain nombre de contraintes :
ƒ
Adaptabilité du système à l’utilisateur : En fonction du profil de l’utilisateur ou du
contexte d’utilisation, adaptabilité à plusieurs niveaux de granularité:
- choix des modes et de leurs combinaisons durant une tâche,
- paramétrage des périphériques utilisés en fonction du profil de l’utilisateur :
vitesse de sélection du clic automatique, vitesse de défilement visualisé à
l’écran, type de la voix de synthèse, taille des caractères, nombre de
propositions affichées
ƒ
Cohérence entre les modes : La cohérence est un des éléments clef dans la conception
d’une interface multimodale, pour lesquelles le pouvoir de confusion est accru.
Comme le montrent [McNeill92] et [Oviatt97], le souci d’une interface multimodale
est la cohérence et la consistance à travers les modes. Les messages exprimés doivent
être cohérents d’un mode à l’autre. Par exemple, la génération redondante impose le
choix d’une phraséologie identique (la même réalisation lexicale entre texte écrit et
texte vocalisé).
3. Elaboration de la communication
L'aide à la communication exploite les possibilités de contrôle décrites précédemment et
s'appuie sur des techniques de prédiction permettant de minimiser le nombre d'interactions.
Par ailleurs, les situations de communication peuvent varier en fonction de leur objectif et de
leur contexte. Certaines situations sont en effet très stéréotypées et il n'est pas toujours
nécessaire de composer des phrases complètes (repas, toilettes, visites médicales, etc.). Si la
communication verbale écrite est indiquée voire préférable dans les situations où le temps de
réaction n'est pas critique, il est cependant important qu'elle soit complétée voire remplacée
par une communication iconique dans les autres cas ou pour les situations stéréotypées.
3.1. Communication verbale
Le système propose un clavier virtuel pouvant être contrôlé par des capteurs divers. Le
principe consiste à sélectionner des lettres. A chaque étape de cette opération, une liste de
mots est proposée sur la base de critères de fréquence ainsi que d'informations morphosyntaxiques. Les informations de fréquences sont contenues dans notre dictionnaire qui
comporte plus 400.000 formes. Elles ont été acquises par analyse d’un corpus de 230 millions
de mots. Le filtrage syntaxique repose quant à lui sur des informations provenant de corpus
annotés syntaxiquement. Des séquences de trigrammes de catégories en sont extraites,
permettant de fournir des contraintes morpho-syntaxiques. Le traitement de l'accord s'appuie
également sur ces informations. Le résultat de la proposition est une pondération de
l'ensemble des critères évoqués.
Sur la base des techniques évoquées, l'aide à la composition de textes écrits se présente de
façon différente selon le type de modalité d'interaction. En cas d'impossibilité d'utilisation du
clavier, l'interaction reposera soit sur la souris (ou un joystick) soit sur des capteurs. Un
système de défilement permet d'accéder aux cases désirées correspondant soit à des lettres soit
à des fonctions. Il est possible d'associer des modalités aux différentes modalités d'entrée. Une
modalité principale pourra ainsi contrôler le défilement tandis qu'une modalité secondaire
implantera par exemple la fonction d'annulation. En termes d’efficacité, deux caractères en
moyenne, suffisent pour prédire le mot correct. De plus, les mots les plus fréquents, en
particulier les catégories mineures, sont dans la plupart des cas proposés sans que la saisie de
lettre ne soit nécessaire. Enfin, dans la mesure où le modèle utilisateur permet de s'adapter
aux habitudes de l'utilisateur, l'état de stabilité du système, rapidement atteint, permet un
comportement extrêmement performant de la prédiction en réduisant encore le nombre de
caractères à saisir.
3.2. Communication non verbale
Dans les cas de trouble du langage ou certains cas de communication stéréotypée, la
communication non verbale sera mise en œuvre. Le principe général de composition de
message est le même que dans le cas de la communication verbale. Différents espaces de
travail sont proposés à l'utilisateur, ainsi qu'une fenêtre de prédiction et de contrôle ou
d'édition du message constitué. Nous avons donc une homogénéité du système en fonction des
modalités de sortie de la communication.
Il est important de préciser que la base d'icônes utilisée dans cette modalité a été entièrement
conçue dans le cadre de ce projet. En effet, les bases disponibles ne sont pas du tout
satisfaisantes pour plusieurs raisons : mauvaise conception, mauvaise qualité graphique,
iconographie infantilisante, incohérence dans le vocabulaire graphique, etc. Nous avons donc
été amenés à spécifier totalement une nouvelle base d'icônes pour la communication en
collaboration avec des graphistes, des psychologues et des rééducateurs. Le résultat obtenu
fait de cette base une des plus efficaces aujourd'hui pour l'aide à la communication non
verbale.
4. Conclusion
Le développement de cette plateforme a reposé sur une collaboration entre informaticiens,
linguistes et psychologues, mais a également bénéficié de l’expérience de rééducateurs et
d’institutions d'accueil de personnes handicapées. Il a donc été possible de valider l'ensemble
des développements au fur et à mesure de leur réalisation lors de campagnes d'évaluations
conduites par des psychologues, des ergonomes et des orthophonistes. Le système, appelé
PCA, est aujourd'hui distribué par la société Aegys qui en propose une version de
démonstration sur son site (voir http://www.aegys.com/).
Références
[Asaiho94] Asaiho (1994) « Atelier Systèmes d'Analyse des Interactions Homme-Ordinateur ». Sixièmes
Journées sur l'Ingénierie des Interfaces Homme-Machine, Décembre 1994, Lille, pp. 243-90.
[Blache03] Blache P. & S. Rauzy (2003), "Linguistic resources and cognitive aspects in alternative
communication", in proceedings of SICS-8.
[Blache04] Blache P. & S. Rauzy (2004), "Une plateforme de communication alternative", in actes des
Entretiens de l'Institut Garches
[Nigay96] Nigay, L. & Coutaz, J. (1996). « Espaces conceptuels pour l’interaction multimédia et
multimodale ». Technique et science informatiques (TSI), vol. 15, 9. pp 1195-1225
[Oviatt97] Oviatt, S., DeAngeli, A. & Kuhn, K. (1997). “Integration and synchronization of input modes
during multimodal human-computer interaction”. Proceedings of the SIGCHI conference on Human factors
in computing systems, ACM Press, pp. 415–422.
Téléchargement