I. Objectifs et Motivation
Les applications utilisant les technologies vocales sont nombreuses et plus particulièremnt la
synthèse de la parole. La reconnaissance du locuteur est aussi une des principales
technologies de biométrie utilisée dans le control d’accès mais aussi dans l’indexation de
documents audio.
Les systèmes de synthèse de la parole à l’état de l’art produisent aujourd’hui une parole très
proche de la parole naturelle. Ceci est atteint grâce à l’utilisation des unités à taille variable.
De tels systèmes nécessitent néanmoins énormément de données parole qui doivent être
segmentées minutieusement. Ceci pose une contrainte majeure lors de la construction d’une
nouvelle voix de synthèse. Le développement d’une technique fiable de transformation de
voix permettrait certainement de minimiser cette contrainte.
La reconnaissance du locuteur permet de vérifier l’identité proclamée d’un locuteur se basant
sur sa voix seulement. Les systèmes de reconnaissance de locuteurs à l’état de l’art, tel que
BECARS (‘‘Balamand ENST Cedre Automatic Recognition of Speakers’’ logiciel développé
dans le cadre d’un projet CEDRE précédent [][] et distribué en libre sur
http://tsi.enst.fr/~blouet/becars) utilisent une modélisation de la parole du locuteur proclamé
et de la parole des locuteurs imposteurs. Généralement, le modèle des imposteurs est construit
comme un modèle du monde, ne tenant pas compte des locuteurs dont la voix est la plus
proche du locuteur proclamé. Il est évident que la possession de locuteurs imposteurs dont la
voix est proche du locuteur proclamé permet une meilleure modélisation/discrimination. Ceci
permet aussi de tester le système dans les conditions les plus défavorable.
Vu ce qui précède, nous proposons d’étudier dans ce projet des approches pour la
tranbsformation de la voix humaines et d’intégrer une telle approche dans un système de
synthèse de la parole et dans un système de reconnaissance du locuteur.
II. Formulation théorique
II.1 Transformation Spectrale
Des travaux sur la transformation de voix existent dans la littérature. Généralement, le
problème est vu comme un problème de transformation spectrale. Soient Sr(f) et Sc(f) les
spectres du locuteur de référence et du locuteur cible respectivement. Il s’agit de trouver une
fonction T(.) de vecteur de paramètres tel que T[Sr(f)] soit le plus proche possible de Sc(f)
au sens d’un critère donné (par exemple moindres carrés ou maximum de vraisemblance). Ce
genre d’approches ressemblent à ce qui se fait en adaptation des modèles stochastiques tels
que les modèles de Markov cachés (HMM pour ‘‘Hidden Markov Models’’) []. Cette
approche est plus appropriée pour la reconnaissance de locuteur. Dans ce cas, on essaye de
transformer directement les vecteurs de paramètres, à savoir les vecteurs cepstraux au lieu de
transformer les spectres.