langue première à des enfants d’école élémentaire (e.g. Lectramini (Lectramini, 2013) et Platon
(Beaufort et Roekhaut, 2011)). Pourtant, les technologies vocales, et plus particulièrement la
synthèse de parole peuvent s’avérer intéressantes dans une perspective d’apprentissage. Dans le
cadre du projet ANR Phorevox (http ://www.phorevox.fr), nous travaillons au développement
d’un logiciel d’aide à l’apprentissage de l’écrit auprès d’élèves de 6 à 9 ans, la synthèse de parole
jouant alors souvent un rôle de feedback audio. Le développement d’un tel outil nécessite d’adap-
ter la synthèse de manière à ce qu’elle soit hautement intelligible et adaptée à la prononciation
de textes de genres variés (lecture de contes, de dictées, de poèmes, mais aussi prononciation
de consignes, etc.). Ce travail d’adaptation de la synthèse passe par l’élaboration de différents
modules (algorithme de segmentation en vue de dictées, cf. (Le Maguer et al., 2014)), par la
création de voix parlant plus lentement, mais il est aussi important d’avoir l’avis d’utilisateurs
potentiels (élèves, enseignants, voire orthophonistes). L’objectif de cet article est de présenter
les résultats d’une étude pilote effectuée auprès d’enseignants et d’élèves et consistant en une
évaluation subjective de dictées produites de manières automatiques. Cette évaluation porte sur
trois points : la segmentation du textes en groupes de mots en vue de la dictée (emplacement
des frontières et taille des groupes) ; le débit de la voix synthétisée utilisée pour les dictées ; et
les patrons prosodiques associés aux groupes dictés. L’article est organisé de la manière suivante :
la section 2 présente l’algorithme utilisé afin de segmenter les textes pour la dictée. La section 3
décrit la méthodologie employée pour réaliser l’évaluation. Les résultats sont ensuite exposés et
discutés dans la section 4.
2 Algorithme de découpage en groupes
Au cours d’un exercice de dictée, l’enseignant a tendance à segmenter le texte en groupes de
mots, qu’il lit souvent de façon très lente. De plus, il répète fréquemment certains groupes, et
il laisse suffisamment de temps aux élèves pour les écrire. Dans le logiciel d’apprentissage que
nous développons, nous avons implanté une procédure automatique qui repose sur trois briques
technologiques distinctes : un algorithme de découpage du texte en groupes de mots, une voix
de synthèse construite spécifiquement pour la dictée, et un outil de suivi de frappe indiquant
quel groupe est actuellement en cours d’écriture par l’apprenant et pour lequel des répétitions
peuvent être nécessaires. Étant donné que l’un des objectifs du test est d’évaluer la pertinence du
découpage automatique du texte, l’algorithme associé est brièvement présenté.
La conception de l’algorithme a été précédée par l’analyse d’un ensemble de dictées énoncées par
des enseignants dans des conditions réelles. Cela a permis de distinguer les éléments linguistiques
déterminants dans la construction des groupes. Il a ainsi été observé que les coupures syntaxiques
importantes et les marques de ponctuation jouent un rôle crucial dans la segmentation du texte
en groupes prosodiques. De plus, des contraintes rythmiques sont prises en compte afin d’éviter
des groupes trop courts ou trop longs en termes de nombre de syllabes (ce type de contrainte est
également valable pour le français standard, cf. (Martin, 1987; Delais-Roussarie, 1996; Martin,
2009)). En conséquence, l’algorithme utilise ces critères, pouvant être paramétrés par l’utilisateur,
afin de fournir une segmentation en groupes appropriée.
L’algorithme se décompose en trois étapes. Tout d’abord, une analyse syntaxique du texte est
réalisée à l’aide de l’outil Synapse (Synapse, 2011). Les mots du texte correspondant à des feuilles
de l’arbre syntaxique sont regroupés selon leur proximité dans l’arbre, et en tenant compte des