mesure fiable permettant de savoir durant la recherche quels segments sont
perceptuellement proches et quels autres ne le sont pas. Pour contrôler ce problème, les
systèmes actuels se limitent, d'une part, à de petites bases (moins de 10 h de parole) au
jeu de descripteurs relativement restreint (une dizaine) et s'appuient, d'autre part, sur
différentes expertises linguistiques et astuces d'ingénierie lors de la recherche en base.
Cependant, par effet de bord, ces systèmes ne sont alors pas capables d'intégrer des
expressivités variées et freinent donc les avancées dans le domaine de la synthèse.
Pour répondre à cette problématique, l'objectif du stage est de proposer une méthode de
transformation des descripteurs classiques vers une nouvelle représentation continue de
grande dimension adaptée à l'utilisation de distances classiques sur des espaces
vectoriels. Il sera notamment demandé de s'inspirer des récentes avancées dans les
domaines du multimédia et du traitement automatique du langage naturel dans les
domaines des réseaux de neurones profonds [3, 4, 5, 6] et de l'indexation de très
grandes bases de données multi-dimensionnelles. Les méthodes développées au cours du
stage seront intégrées au sein du moteur de synthèse de la parole de l'équipe [2] et
testées sur des corpus massifs de parole afin notamment de produire des énoncés
expressifs et de haute qualité.
En rendant possible une plus grande variabilité dans les signaux de parole synthétique,
les solutions développées ouvriront de nouvelles applications de la synthèse de la parole
dans des domaines tels que le divertissement, la réalité virtuelle et la robotique.
Bibliographie
[1] Hunt, A. J., & Black, A. W. Unit selection in a concatenative speech synthesis
system using a large speech database. In Proceedings of the IEEE International
Conference on Acoustics, Speech, and Signal Processing, 1996.
[2] Pierre Alain, Jonathan Chevelu, David Guennec, Gwénolé Lecorvé, Damien
Lolive. The IRISA Text-To-Speech System for the Blizzard Challenge 2015. In
Proceedings of the Blizzard Challenge 2015 Workshop, 2015.
[3] Krizhevsky, A., Sutskever, I., & Hinton, G. E. Imagenet classification with deep
convolutional neural networks. In Proceedings of the Neural Information
Processing Systems Conference, 2012.
[4] Le, Q. V., Zou, W. Y., Yeung, S. Y., & Ng, A. Y. Learning hierarchical invariant
spatio-temporal features for action recognition with independent subspace
analysis. In IEEE Conference on Computer Vision and Pattern Recognition,
2011.
[5] Lecorvé, G., & Motlicek, P. Conversion of recurrent neural network language
models to weighted finite state transducers for automatic speech recognition. In
Proceedings of Interspeech, 2012.
[6] Badino L. Phonetic Context Embeddings for DNN-HMM Phone Recognition. In
Proceedings of Interspeech, 2016.