Sujet de stage de Master 2 recherche Big deep voice : indexation de données massives de parole grâce à des réseaux de neurones profonds Encadrants Gwénolé Lecorvé (principal) E­mail : [email protected] Damien Lolive E­mail : [email protected] Structure d'accueil Ville : Lannion Désignation de l'établissement : Laboratoire Nom de l'établissement : IRISA Équipe : EXPRESSION Collaboration : Équipe LinkMedia (Laurent Amsaleg, IRISA/Rennes) Mots-clés • • • • Traitement automatique de la parole Synthèse de la parole Réseaux de neurones profonds Indexation Parcours concernés • • III : Interaction intelligente sur l'information P4 : Des données aux connaissances : apprentissage, modélisation et indexation des contenus multimédias et des données symboliques Description Le principe des moteurs de synthèse de la parole par sélection d'unités est de concaténer des segments de vraie parole de sorte à coïncider au mieux avec un énoncé en entrée donné par un utilisateur [1, 2]. Pour ce faire, le système s'appuie sur une base de données de segments indexés à partir de descripteurs phonémiques (phonèmes prononcés, traits phonétiques), positionnels (position du segment dans la syllabe, le mot...), acoustico­prosodiques (fréquence fondamentale, rythme d'élocution...), voire également afférents des niveaux d'abstraction plus élevés du langage (morpho­syntaxe, sémantique, émotion...). Un aspect essentiel pour le moteur de synthèse consiste donc à savoir trouver avec précision et rapidité les meilleurs segments de parole étant donnée la requête de l'utilisateur. Un problème majeur cependant dans l'utilisation de cette base est qu'il n'existe aujourd'hui pas de distance naturelle entre descripteurs des segments et donc pas de mesure fiable permettant de savoir durant la recherche quels segments sont perceptuellement proches et quels autres ne le sont pas. Pour contrôler ce problème, les systèmes actuels se limitent, d'une part, à de petites bases (moins de 10 h de parole) au jeu de descripteurs relativement restreint (une dizaine) et s'appuient, d'autre part, sur différentes expertises linguistiques et astuces d'ingénierie lors de la recherche en base. Cependant, par effet de bord, ces systèmes ne sont alors pas capables d'intégrer des expressivités variées et freinent donc les avancées dans le domaine de la synthèse. Pour répondre à cette problématique, l'objectif du stage est de proposer une méthode de transformation des descripteurs classiques vers une nouvelle représentation continue de grande dimension adaptée à l'utilisation de distances classiques sur des espaces vectoriels. Il sera notamment demandé de s'inspirer des récentes avancées dans les domaines du multimédia et du traitement automatique du langage naturel dans les domaines des réseaux de neurones profonds [3, 4, 5, 6] et de l'indexation de très grandes bases de données multi­dimensionnelles. Les méthodes développées au cours du stage seront intégrées au sein du moteur de synthèse de la parole de l'équipe [2] et testées sur des corpus massifs de parole afin notamment de produire des énoncés expressifs et de haute qualité. En rendant possible une plus grande variabilité dans les signaux de parole synthétique, les solutions développées ouvriront de nouvelles applications de la synthèse de la parole dans des domaines tels que le divertissement, la réalité virtuelle et la robotique. Bibliographie [1] Hunt, A. J., & Black, A. W. Unit selection in a concatenative speech synthesis system using a large speech database. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, 1996. [2] Pierre Alain, Jonathan Chevelu, David Guennec, Gwénolé Lecorvé, Damien Lolive. The IRISA Text­To­Speech System for the Blizzard Challenge 2015. In Proceedings of the Blizzard Challenge 2015 Workshop, 2015. [3] Krizhevsky, A., Sutskever, I., & Hinton, G. E. Imagenet classification with deep convolutional neural networks. In Proceedings of the Neural Information Processing Systems Conference, 2012. [4] Le, Q. V., Zou, W. Y., Yeung, S. Y., & Ng, A. Y. Learning hierarchical invariant spatio­temporal features for action recognition with independent subspace analysis. In IEEE Conference on Computer Vision and Pattern Recognition, 2011. [5] Lecorvé, G., & Motlicek, P. Conversion of recurrent neural network language models to weighted finite state transducers for automatic speech recognition. In Proceedings of Interspeech, 2012. [6] Badino L. Phonetic Context Embeddings for DNN­HMM Phone Recognition. In Proceedings of Interspeech, 2016.