DESCRIPTION DU PROJET

Téléchargement

Annexe 5/c

CEDRE - Appel d'offres 2004

Description complète

(y compris définition de la problématique, justification de la recherche et objectifs à atteindre)

I. Objectifs et Motivation

Les applications utilisant les technologies vocales sont nombreuses et plus particulièremnt la

synthèse de la parole. La reconnaissance du locuteur est aussi une des principales

technologies de biométrie utilisée dans le control d’accès mais aussi dans l’indexation de

documents audio.

Les systèmes de synthèse de la parole à l’état de l’art produisent aujourd’hui une parole très

proche de la parole naturelle. Ceci est atteint grâce à l’utilisation des unités à taille variable.

De tels systèmes nécessitent néanmoins énormément de données parole qui doivent être

segmentées minutieusement. Ceci pose une contrainte majeure lors de la construction d’une

nouvelle voix de synthèse. Le développement d’une technique fiable de transformation de

voix permettrait certainement de minimiser cette contrainte.

La reconnaissance du locuteur permet de vérifier l’identité proclamée d’un locuteur se basant

sur sa voix seulement. Les systèmes de reconnaissance de locuteurs à l’état de l’art, tel que

BECARS (‘‘Balamand ENST Cedre Automatic Recognition of Speakers’’ logiciel développé

dans le cadre d’un projet CEDRE précédent [][] et distribué en libre sur

http://tsi.enst.fr/~blouet/becars) utilisent une modélisation de la parole du locuteur proclamé

et de la parole des locuteurs imposteurs. Généralement, le modèle des imposteurs est construit

comme un modèle du monde, ne tenant pas compte des locuteurs dont la voix est la plus

proche du locuteur proclamé. Il est évident que la possession de locuteurs imposteurs dont la

voix est proche du locuteur proclamé permet une meilleure modélisation/discrimination. Ceci

permet aussi de tester le système dans les conditions les plus défavorable.

Vu ce qui précède, nous proposons d’étudier dans ce projet des approches pour la

tranbsformation de la voix humaines et d’intégrer une telle approche dans un système de

synthèse de la parole et dans un système de reconnaissance du locuteur.

II. Formulation théorique

II.1 Transformation Spectrale

Des travaux sur la transformation de voix existent dans la littérature. Généralement, le

problème est vu comme un problème de transformation spectrale. Soient Sr(f) et Sc(f) les

spectres du locuteur de référence et du locuteur cible respectivement. Il s’agit de trouver une

fonction T(.) de vecteur de paramètres  tel que T[Sr(f)] soit le plus proche possible de Sc(f)

au sens d’un critère donné (par exemple moindres carrés ou maximum de vraisemblance). Ce

genre d’approches ressemblent à ce qui se fait en adaptation des modèles stochastiques tels

que les modèles de Markov cachés (HMM pour ‘‘Hidden Markov Models’’) []. Cette

approche est plus appropriée pour la reconnaissance de locuteur. Dans ce cas, on essaye de

transformer directement les vecteurs de paramètres, à savoir les vecteurs cepstraux au lieu de

transformer les spectres.

Annexe 5/c

CEDRE - Appel d'offres 2004

Plusieurs familles de fonctions peuvent être expérimenter pour la transformation. Nous

expérimenterons :

- la régression linéaire multiple (RLM)

BVAV

ˆrc 

où A est la matrice de régression et B le vecteur de biais et où les vecteurs de

référence et cible sont Vc et Vr respectivement.

- une fonction non linéaire telle que les réseaux de neurones et plus particulièrement les

perceptrons multicouches. Dans ce cas, le vecteur transformé est lu à la sortie du

perceptron.

Dans le cadre de ce projet, nous essayons de pousser plus dans cette direction afin de

déterminer des fonctions de transformation plus riches et spécialisées dans chaque partie de

l’espace acoustique ou en d’autres termes pour chaque triphone (phonème en contexte doite et

gauche). Il s’agit d’utiliser des arbres de classification et de régression (CART ‘‘Classification

And Regression Trees’’) afin de classifier les triphones en identifiant une fonction de

transformation par classe. Ceci permet un apprentissage des fonctions de transformation à

partir d’une quantité réduite de données du locuteur cible.

II.2 Transformation du signal temporel

La transformation spectrale décrite précédemment est plus appropriée pour la reconnaissance

du locuteur ou l’on ne doit pas retrouver le signal temporel du signal transformé. En synthèse

de la parole, le but est de transformer le signal temporel de manière à le rapprocher du

locuteur cible sans dégrader sa qualité. Pour ce faire, nous nous proposons d’appliquer le

filtrage de Kalman.

III. Plan de travail

Le projet s’étale sur deux années. Les deux années sont divisées en quatre parties de six mois

chacune.

- T0 à T0+6 : Définition du protocol expérimental et ce pour les deux technologies de

synthèse et de reconnaissance du locuteur. Il s’agit du choix des locuteurs origine et

cible, de la quantité de données nécessaires pour l’apprentissage de la fonction de

transformation et de la mesure de performance à utiliser pour évaluer la qualité de la

transformation apprise.

- T0+6 à T0+12 : Implémentation des approches et validation.

- T0+12 à T0+18 : Simulation est résultats expérimentaux. Rédaction de papiers pour

présenter les approches développées et résultats obtenus.

- T0+18 à T0+24 : Intégration dans les systèmes existants et réalisation de deux

démonstrateurs un pour chaque technologie.

IV. Conclusions

Ce projet de recherche est une collaboration entre trois équipes qui ont une expertise reconnue

dans le domaine de technologies vocales et plus particulièrement la synthèse de la parole et la

reconnaissance du locuteur. Il s’agit de développer des techniques de transformation de voix

qui facilitent la création de nouvelle voix pour un système de synthèse automatique de la

parole à partir du texte et qui permettent d’améliorer (ou de moins évaluer) les performances

d’un système de reconnaissance du locuteur.

1 / 2 100%

Documents connexes

Le traitement automatique de la parole Comment reproduire les

Formules pour le compte-rendu de compréhension orale au bac

La modalisation

tours de parole

formulescom

Lycée de la Côtière Understand an oral document

Résumé

Types de phrases

Séance 6.Les modalisateurs

Analyser une stratégie argumentative

L`Age d`Homme de Michel Leiris

ARGUMENTS

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

DESCRIPTION DU PROJET

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

DESCRIPTION DU PROJET

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib