indexation de données massives de parole - Expression

Téléchargement

Sujet de stage de Master 2 recherche

Big deep voice : indexation de données massives de

parole grâce à des réseaux de neurones profonds

Encadrants

Gwénolé Lecorvé (principal) Damien Lolive

E-mail : [email protected] E-mail : [email protected]

Structure d'accueil

Ville : Lannion

Désignation de l'établissement : Laboratoire

Nom de l'établissement : IRISA

Équipe : EXPRESSION

Collaboration : Équipe LinkMedia (Laurent Amsaleg, IRISA/Rennes)

Mots-clés

•Traitement automatique de la parole

•Synthèse de la parole

•Réseaux de neurones profonds

•Indexation

Parcours concernés

•III : Interaction intelligente sur l'information

•P4 : Des données aux connaissances : apprentissage, modélisation et indexation

des contenus multimédias et des données symboliques

Description

Le principe des moteurs de synthèse de la parole par sélection d'unités est de concaténer

des segments de vraie parole de sorte à coïncider au mieux avec un énoncé en entrée

donné par un utilisateur [1, 2]. Pour ce faire, le système s'appuie sur une base de

données de segments indexés à partir de descripteurs phonémiques (phonèmes

prononcés, traits phonétiques), positionnels (position du segment dans la syllabe, le

mot...), acoustico-prosodiques (fréquence fondamentale, rythme d'élocution...), voire

également afférents des niveaux d'abstraction plus élevés du langage (morpho-syntaxe,

sémantique, émotion...). Un aspect essentiel pour le moteur de synthèse consiste donc à

savoir trouver avec précision et rapidité les meilleurs segments de parole étant donnée

la requête de l'utilisateur.

Un problème majeur cependant dans l'utilisation de cette base est qu'il n'existe

aujourd'hui pas de distance naturelle entre descripteurs des segments et donc pas de

mesure fiable permettant de savoir durant la recherche quels segments sont

perceptuellement proches et quels autres ne le sont pas. Pour contrôler ce problème, les

systèmes actuels se limitent, d'une part, à de petites bases (moins de 10 h de parole) au

jeu de descripteurs relativement restreint (une dizaine) et s'appuient, d'autre part, sur

différentes expertises linguistiques et astuces d'ingénierie lors de la recherche en base.

Cependant, par effet de bord, ces systèmes ne sont alors pas capables d'intégrer des

expressivités variées et freinent donc les avancées dans le domaine de la synthèse.

Pour répondre à cette problématique, l'objectif du stage est de proposer une méthode de

transformation des descripteurs classiques vers une nouvelle représentation continue de

grande dimension adaptée à l'utilisation de distances classiques sur des espaces

vectoriels. Il sera notamment demandé de s'inspirer des récentes avancées dans les

domaines du multimédia et du traitement automatique du langage naturel dans les

domaines des réseaux de neurones profonds [3, 4, 5, 6] et de l'indexation de très

grandes bases de données multi-dimensionnelles. Les méthodes développées au cours du

stage seront intégrées au sein du moteur de synthèse de la parole de l'équipe [2] et

testées sur des corpus massifs de parole afin notamment de produire des énoncés

expressifs et de haute qualité.

En rendant possible une plus grande variabilité dans les signaux de parole synthétique,

les solutions développées ouvriront de nouvelles applications de la synthèse de la parole

dans des domaines tels que le divertissement, la réalité virtuelle et la robotique.

Bibliographie

[1] Hunt, A. J., & Black, A. W. Unit selection in a concatenative speech synthesis

system using a large speech database. In Proceedings of the IEEE International

Conference on Acoustics, Speech, and Signal Processing, 1996.

[2] Pierre Alain, Jonathan Chevelu, David Guennec, Gwénolé Lecorvé, Damien

Lolive. The IRISA Text-To-Speech System for the Blizzard Challenge 2015. In

Proceedings of the Blizzard Challenge 2015 Workshop, 2015.

[3] Krizhevsky, A., Sutskever, I., & Hinton, G. E. Imagenet classification with deep

convolutional neural networks. In Proceedings of the Neural Information

Processing Systems Conference, 2012.

[4] Le, Q. V., Zou, W. Y., Yeung, S. Y., & Ng, A. Y. Learning hierarchical invariant

spatio-temporal features for action recognition with independent subspace

analysis. In IEEE Conference on Computer Vision and Pattern Recognition,

2011.

[5] Lecorvé, G., & Motlicek, P. Conversion of recurrent neural network language

models to weighted finite state transducers for automatic speech recognition. In

Proceedings of Interspeech, 2012.

[6] Badino L. Phonetic Context Embeddings for DNN-HMM Phone Recognition. In

Proceedings of Interspeech, 2016.

1 / 2 100%

Documents connexes

Analyse de marchés

Objectifs fondamentaux et base marketing

ANS460 - Université de Sherbrooke

Découverte de proportions analogiques dans les bases de données

Chapitre 2 : Les stratégies marketing. Elaboration : 1) Déterminer la

D`UN POINT A L`AUTRE Par deux points distincts

correspondances Vers un laboratoire artificiel pour le traitement de

1 - Acces

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

indexation de données massives de parole - Expression

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

indexation de données massives de parole - Expression

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib