indexation de données massives de parole - Expression

publicité
Sujet de stage de Master 2 recherche
Big deep voice : indexation de données massives de
parole grâce à des réseaux de neurones profonds
Encadrants
Gwénolé Lecorvé (principal) E­mail : [email protected] Damien Lolive
E­mail : [email protected] Structure d'accueil
Ville : Lannion
Désignation de l'établissement : Laboratoire
Nom de l'établissement : IRISA
Équipe : EXPRESSION
Collaboration : Équipe LinkMedia (Laurent Amsaleg, IRISA/Rennes)
Mots-clés
•
•
•
•
Traitement automatique de la parole
Synthèse de la parole
Réseaux de neurones profonds
Indexation
Parcours concernés
•
•
III : Interaction intelligente sur l'information
P4 : Des données aux connaissances : apprentissage, modélisation et indexation des contenus multimédias et des données symboliques
Description
Le principe des moteurs de synthèse de la parole par sélection d'unités est de concaténer
des segments de vraie parole de sorte à coïncider au mieux avec un énoncé en entrée
donné par un utilisateur [1, 2]. Pour ce faire, le système s'appuie sur une base de
données de segments indexés à partir de descripteurs phonémiques (phonèmes
prononcés, traits phonétiques), positionnels (position du segment dans la syllabe, le
mot...), acoustico­prosodiques (fréquence fondamentale, rythme d'élocution...), voire
également afférents des niveaux d'abstraction plus élevés du langage (morpho­syntaxe,
sémantique, émotion...). Un aspect essentiel pour le moteur de synthèse consiste donc à
savoir trouver avec précision et rapidité les meilleurs segments de parole étant donnée
la requête de l'utilisateur.
Un problème majeur cependant dans l'utilisation de cette base est qu'il n'existe
aujourd'hui pas de distance naturelle entre descripteurs des segments et donc pas de
mesure fiable permettant de savoir durant la recherche quels segments sont
perceptuellement proches et quels autres ne le sont pas. Pour contrôler ce problème, les
systèmes actuels se limitent, d'une part, à de petites bases (moins de 10 h de parole) au
jeu de descripteurs relativement restreint (une dizaine) et s'appuient, d'autre part, sur
différentes expertises linguistiques et astuces d'ingénierie lors de la recherche en base.
Cependant, par effet de bord, ces systèmes ne sont alors pas capables d'intégrer des
expressivités variées et freinent donc les avancées dans le domaine de la synthèse.
Pour répondre à cette problématique, l'objectif du stage est de proposer une méthode de
transformation des descripteurs classiques vers une nouvelle représentation continue de
grande dimension adaptée à l'utilisation de distances classiques sur des espaces
vectoriels. Il sera notamment demandé de s'inspirer des récentes avancées dans les
domaines du multimédia et du traitement automatique du langage naturel dans les
domaines des réseaux de neurones profonds [3, 4, 5, 6] et de l'indexation de très
grandes bases de données multi­dimensionnelles. Les méthodes développées au cours du
stage seront intégrées au sein du moteur de synthèse de la parole de l'équipe [2] et
testées sur des corpus massifs de parole afin notamment de produire des énoncés
expressifs et de haute qualité.
En rendant possible une plus grande variabilité dans les signaux de parole synthétique,
les solutions développées ouvriront de nouvelles applications de la synthèse de la parole
dans des domaines tels que le divertissement, la réalité virtuelle et la robotique.
Bibliographie
[1] Hunt, A. J., & Black, A. W. Unit selection in a concatenative speech synthesis
system using a large speech database. In Proceedings of the IEEE International
Conference on Acoustics, Speech, and Signal Processing, 1996.
[2] Pierre Alain, Jonathan Chevelu, David Guennec, Gwénolé Lecorvé, Damien
Lolive. The IRISA Text­To­Speech System for the Blizzard Challenge 2015. In
Proceedings of the Blizzard Challenge 2015 Workshop, 2015.
[3] Krizhevsky, A., Sutskever, I., & Hinton, G. E. Imagenet classification with deep
convolutional neural networks. In Proceedings of the Neural Information
Processing Systems Conference, 2012.
[4] Le, Q. V., Zou, W. Y., Yeung, S. Y., & Ng, A. Y. Learning hierarchical invariant
spatio­temporal features for action recognition with independent subspace
analysis. In IEEE Conference on Computer Vision and Pattern Recognition,
2011.
[5] Lecorvé, G., & Motlicek, P. Conversion of recurrent neural network language
models to weighted finite state transducers for automatic speech recognition. In
Proceedings of Interspeech, 2012.
[6] Badino L. Phonetic Context Embeddings for DNN­HMM Phone Recognition. In
Proceedings of Interspeech, 2016.
Téléchargement