Annexe 5/c DESCRIPTION DU PROJET Description complète (y compris définition de la problématique, justification de la recherche et objectifs à atteindre) I. Objectifs et Motivation Les applications utilisant les technologies vocales sont nombreuses et plus particulièremnt la synthèse de la parole. La reconnaissance du locuteur est aussi une des principales technologies de biométrie utilisée dans le control d’accès mais aussi dans l’indexation de documents audio. Les systèmes de synthèse de la parole à l’état de l’art produisent aujourd’hui une parole très proche de la parole naturelle. Ceci est atteint grâce à l’utilisation des unités à taille variable. De tels systèmes nécessitent néanmoins énormément de données parole qui doivent être segmentées minutieusement. Ceci pose une contrainte majeure lors de la construction d’une nouvelle voix de synthèse. Le développement d’une technique fiable de transformation de voix permettrait certainement de minimiser cette contrainte. La reconnaissance du locuteur permet de vérifier l’identité proclamée d’un locuteur se basant sur sa voix seulement. Les systèmes de reconnaissance de locuteurs à l’état de l’art, tel que BECARS (‘‘Balamand ENST Cedre Automatic Recognition of Speakers’’ logiciel développé dans le cadre d’un projet CEDRE précédent [][] et distribué en libre sur http://tsi.enst.fr/~blouet/becars) utilisent une modélisation de la parole du locuteur proclamé et de la parole des locuteurs imposteurs. Généralement, le modèle des imposteurs est construit comme un modèle du monde, ne tenant pas compte des locuteurs dont la voix est la plus proche du locuteur proclamé. Il est évident que la possession de locuteurs imposteurs dont la voix est proche du locuteur proclamé permet une meilleure modélisation/discrimination. Ceci permet aussi de tester le système dans les conditions les plus défavorable. Vu ce qui précède, nous proposons d’étudier dans ce projet des approches pour la tranbsformation de la voix humaines et d’intégrer une telle approche dans un système de synthèse de la parole et dans un système de reconnaissance du locuteur. II. Formulation théorique II.1 Transformation Spectrale Des travaux sur la transformation de voix existent dans la littérature. Généralement, le problème est vu comme un problème de transformation spectrale. Soient Sr(f) et Sc(f) les spectres du locuteur de référence et du locuteur cible respectivement. Il s’agit de trouver une fonction T(.) de vecteur de paramètres tel que T[Sr(f)] soit le plus proche possible de Sc(f) au sens d’un critère donné (par exemple moindres carrés ou maximum de vraisemblance). Ce genre d’approches ressemblent à ce qui se fait en adaptation des modèles stochastiques tels que les modèles de Markov cachés (HMM pour ‘‘Hidden Markov Models’’) []. Cette approche est plus appropriée pour la reconnaissance de locuteur. Dans ce cas, on essaye de transformer directement les vecteurs de paramètres, à savoir les vecteurs cepstraux au lieu de transformer les spectres. CEDRE - Appel d'offres 2004 Annexe 5/c Plusieurs familles de fonctions peuvent être expérimenter pour la transformation. Nous expérimenterons : - la régression linéaire multiple (RLM) V̂ c AV r B où A est la matrice de régression et B le vecteur de biais et où les vecteurs de référence et cible sont Vc et Vr respectivement. - une fonction non linéaire telle que les réseaux de neurones et plus particulièrement les perceptrons multicouches. Dans ce cas, le vecteur transformé est lu à la sortie du perceptron. Dans le cadre de ce projet, nous essayons de pousser plus dans cette direction afin de déterminer des fonctions de transformation plus riches et spécialisées dans chaque partie de l’espace acoustique ou en d’autres termes pour chaque triphone (phonème en contexte doite et gauche). Il s’agit d’utiliser des arbres de classification et de régression (CART ‘‘Classification And Regression Trees’’) afin de classifier les triphones en identifiant une fonction de transformation par classe. Ceci permet un apprentissage des fonctions de transformation à partir d’une quantité réduite de données du locuteur cible. II.2 Transformation du signal temporel La transformation spectrale décrite précédemment est plus appropriée pour la reconnaissance du locuteur ou l’on ne doit pas retrouver le signal temporel du signal transformé. En synthèse de la parole, le but est de transformer le signal temporel de manière à le rapprocher du locuteur cible sans dégrader sa qualité. Pour ce faire, nous nous proposons d’appliquer le filtrage de Kalman. III. Plan de travail Le projet s’étale sur deux années. Les deux années sont divisées en quatre parties de six mois chacune. - T0 à T0+6 : Définition du protocol expérimental et ce pour les deux technologies de synthèse et de reconnaissance du locuteur. Il s’agit du choix des locuteurs origine et cible, de la quantité de données nécessaires pour l’apprentissage de la fonction de transformation et de la mesure de performance à utiliser pour évaluer la qualité de la transformation apprise. - T0+6 à T0+12 : Implémentation des approches et validation. - T0+12 à T0+18 : Simulation est résultats expérimentaux. Rédaction de papiers pour présenter les approches développées et résultats obtenus. - T0+18 à T0+24 : Intégration dans les systèmes existants et réalisation de deux démonstrateurs un pour chaque technologie. IV. Conclusions Ce projet de recherche est une collaboration entre trois équipes qui ont une expertise reconnue dans le domaine de technologies vocales et plus particulièrement la synthèse de la parole et la reconnaissance du locuteur. Il s’agit de développer des techniques de transformation de voix qui facilitent la création de nouvelle voix pour un système de synthèse automatique de la parole à partir du texte et qui permettent d’améliorer (ou de moins évaluer) les performances d’un système de reconnaissance du locuteur. CEDRE - Appel d'offres 2004