DESCRIPTION DU PROJET

publicité
Annexe 5/c
DESCRIPTION DU PROJET
Description complète
(y compris définition de la problématique, justification de la recherche et objectifs à atteindre)
I. Objectifs et Motivation
Les applications utilisant les technologies vocales sont nombreuses et plus particulièremnt la
synthèse de la parole. La reconnaissance du locuteur est aussi une des principales
technologies de biométrie utilisée dans le control d’accès mais aussi dans l’indexation de
documents audio.
Les systèmes de synthèse de la parole à l’état de l’art produisent aujourd’hui une parole très
proche de la parole naturelle. Ceci est atteint grâce à l’utilisation des unités à taille variable.
De tels systèmes nécessitent néanmoins énormément de données parole qui doivent être
segmentées minutieusement. Ceci pose une contrainte majeure lors de la construction d’une
nouvelle voix de synthèse. Le développement d’une technique fiable de transformation de
voix permettrait certainement de minimiser cette contrainte.
La reconnaissance du locuteur permet de vérifier l’identité proclamée d’un locuteur se basant
sur sa voix seulement. Les systèmes de reconnaissance de locuteurs à l’état de l’art, tel que
BECARS (‘‘Balamand ENST Cedre Automatic Recognition of Speakers’’ logiciel développé
dans le cadre d’un projet CEDRE précédent [][] et distribué en libre sur
http://tsi.enst.fr/~blouet/becars) utilisent une modélisation de la parole du locuteur proclamé
et de la parole des locuteurs imposteurs. Généralement, le modèle des imposteurs est construit
comme un modèle du monde, ne tenant pas compte des locuteurs dont la voix est la plus
proche du locuteur proclamé. Il est évident que la possession de locuteurs imposteurs dont la
voix est proche du locuteur proclamé permet une meilleure modélisation/discrimination. Ceci
permet aussi de tester le système dans les conditions les plus défavorable.
Vu ce qui précède, nous proposons d’étudier dans ce projet des approches pour la
tranbsformation de la voix humaines et d’intégrer une telle approche dans un système de
synthèse de la parole et dans un système de reconnaissance du locuteur.
II. Formulation théorique
II.1 Transformation Spectrale
Des travaux sur la transformation de voix existent dans la littérature. Généralement, le
problème est vu comme un problème de transformation spectrale. Soient Sr(f) et Sc(f) les
spectres du locuteur de référence et du locuteur cible respectivement. Il s’agit de trouver une
fonction T(.) de vecteur de paramètres  tel que T[Sr(f)] soit le plus proche possible de Sc(f)
au sens d’un critère donné (par exemple moindres carrés ou maximum de vraisemblance). Ce
genre d’approches ressemblent à ce qui se fait en adaptation des modèles stochastiques tels
que les modèles de Markov cachés (HMM pour ‘‘Hidden Markov Models’’) []. Cette
approche est plus appropriée pour la reconnaissance de locuteur. Dans ce cas, on essaye de
transformer directement les vecteurs de paramètres, à savoir les vecteurs cepstraux au lieu de
transformer les spectres.
CEDRE - Appel d'offres 2004
Annexe 5/c
Plusieurs familles de fonctions peuvent être expérimenter pour la transformation. Nous
expérimenterons :
- la régression linéaire multiple (RLM)
V̂ c  AV r  B
où A est la matrice de régression et B le vecteur de biais et où les vecteurs de
référence et cible sont Vc et Vr respectivement.
- une fonction non linéaire telle que les réseaux de neurones et plus particulièrement les
perceptrons multicouches. Dans ce cas, le vecteur transformé est lu à la sortie du
perceptron.
Dans le cadre de ce projet, nous essayons de pousser plus dans cette direction afin de
déterminer des fonctions de transformation plus riches et spécialisées dans chaque partie de
l’espace acoustique ou en d’autres termes pour chaque triphone (phonème en contexte doite et
gauche). Il s’agit d’utiliser des arbres de classification et de régression (CART ‘‘Classification
And Regression Trees’’) afin de classifier les triphones en identifiant une fonction de
transformation par classe. Ceci permet un apprentissage des fonctions de transformation à
partir d’une quantité réduite de données du locuteur cible.
II.2 Transformation du signal temporel
La transformation spectrale décrite précédemment est plus appropriée pour la reconnaissance
du locuteur ou l’on ne doit pas retrouver le signal temporel du signal transformé. En synthèse
de la parole, le but est de transformer le signal temporel de manière à le rapprocher du
locuteur cible sans dégrader sa qualité. Pour ce faire, nous nous proposons d’appliquer le
filtrage de Kalman.
III. Plan de travail
Le projet s’étale sur deux années. Les deux années sont divisées en quatre parties de six mois
chacune.
- T0 à T0+6 : Définition du protocol expérimental et ce pour les deux technologies de
synthèse et de reconnaissance du locuteur. Il s’agit du choix des locuteurs origine et
cible, de la quantité de données nécessaires pour l’apprentissage de la fonction de
transformation et de la mesure de performance à utiliser pour évaluer la qualité de la
transformation apprise.
- T0+6 à T0+12 : Implémentation des approches et validation.
- T0+12 à T0+18 : Simulation est résultats expérimentaux. Rédaction de papiers pour
présenter les approches développées et résultats obtenus.
- T0+18 à T0+24 : Intégration dans les systèmes existants et réalisation de deux
démonstrateurs un pour chaque technologie.
IV. Conclusions
Ce projet de recherche est une collaboration entre trois équipes qui ont une expertise reconnue
dans le domaine de technologies vocales et plus particulièrement la synthèse de la parole et la
reconnaissance du locuteur. Il s’agit de développer des techniques de transformation de voix
qui facilitent la création de nouvelle voix pour un système de synthèse automatique de la
parole à partir du texte et qui permettent d’améliorer (ou de moins évaluer) les performances
d’un système de reconnaissance du locuteur.
CEDRE - Appel d'offres 2004
Téléchargement