
EP 2 202 723 A1
2
5
10
15
20
25
30
35
40
45
50
55
Description
[0001] L’objet de la présente invention concerne un procédé et un système permettant d’authentifier un utilisateur, et
éventuellement générer une donnée cryptographique, telle qu’une clé cryptographique, associée à un locuteur. Elle
trouve son application dans l’authentification avec précision d’un locuteur sans stockage de données caractérisant ce
locuteur.
[0002] L’invention trouve son application pour la génération de clés de chiffrement ou cryptographiques. Elle s’applique
dans tout système de reconnaissance dans lequel les données biométriques utilisées pour la reconnaissance peuvent
se mettre sous la forme de vecteurs qui seront transformés en données binaires.
[0003] Dans la description les définitions et paramètres suivants seront utilisés.
[0004] Le terme cepstre est un type de vecteur représentatif du contenu spectral extrait d’un signal de parole ou d’un
signal audio, basé sur une hypothèse de production du signal de type source-filtre. Les centroïdes sont des vecteurs
représentatifs d’une classe de vecteurs cepstraux. L’ensemble de ces centroïdes constituent un dictionnaire obtenu par
exemple en mettant en oeuvre un algorithme d’apprentissage connu de l’Homme du métier, des exemples d’algorithme
seront donnés dans la suite de la description.
[0005] Les phonèmes correspondent à des unités linguistiques qui permettent de décrire les sons (transcription pho-
nétique des mots dans un dictionnaire). Une réalisation acoustique d’un phonème est un phone, et correspond donc à
un son physique (un même phonème sera donc prononcé différemment au cours du temps par un même locuteur,
variabilité intra-locuteur, il est donc possible d’associer un ensemble de réalisations phones à un même phonème). D’un
point de vue pratique, ceci se traduit par un extraction d’une séquence de cepstre du signal acoustique et donc à un
phone correspond une séquence de cepstres. Entre deux locuteurs, les différences entre les réalisations d’un même
phonème seront plus importantes (variabilité inter-locuteur). Les phonèmes sont aussi prononcés différemment en
fonction du contexte (i.e en fonction du phonème qui précède et du phonème qui suit). Le mot « allophone » est géné-
ralement utilisé pour décrire une classe de phones correspondant à une même variante d’un phonème (même contexte).
Ces connaissances sont en général utilisées pour construire des modèles statistiques associés à chaque phonème, si
possible en tenant compte des contextes, dans les systèmes de reconnaissance vocale.
[0006] Le document de Paola Garcia-Perrera L, et al, intitulé « Parameter Optimization in a Text-Dependent Crypto-
graphic-speech-Key-Generation Task », 1 janvier 2006, Nonlinear Analyses and algorithms for Speech Processing
Lecture Notes in computer Science ; Lecture Notes in Artificial Intelligence, LNCS, Springer, Berlin, de pages 92-99,
XP019027589 ISBN :978-3-540-31257-4, utilise des modèles du type décrit ci-dessus.
[0007] De nos jours, les systèmes de reconnaissance ou d’authentification utilisant des paramètres biométriques sont
très utilisés. De tous les types de biométrie, la technique de reconnaissance du locuteur est la mieux acceptée par
l’utilisateur, car elle n’est pas intrusive et n’exige aucun contact avec le lecteur du système. Il en est de même pour les
systèmes d’authentification basés sur la reconnaissance de l’iris. D’autre part, la reconnaissance du locuteur est parti-
culièrement adaptée aux applications mises en oeuvre sur des réseaux de communications phonie, permettant un
traitement distant et centralisé sur un serveur. La variabilité de la voix entre différents individus vient de trois facteurs
distincts ; des différences morphologiques, des différences physiologiques, ou encore des différences socioculturelles.
Le premier de ces facteurs se modifie au cours de l’adolescence mais se stabilise. Les autres facteurs ne sont pas
stables et peuvent varier dans le temps. Ces facteurs ajoutés aux distorsions de bruit environnant et à la qualité du
dispositif de reconnaissance vocale, ou d’enregistrement de la voix justifient de grandes variations intra-locuteurs. Ceci
augmente la difficulté de reconnaître un individu lors de son authentification.
[0008] Malgré ces facteurs limitant la bonne utilisation, il existe un grand nombre d’applications pour lesquelles une
authentification par le biais de la voix est la plus indiquée. Par exemple, il est possible de mentionner l’utilisation de la
reconnaissance vocale dans les téléphones portables, les services associés, comme par exemple, la consultation de
données bancaires, etc., ceci en toute sécurité, sans avoir peur qu’un individu malintentionné parvienne à récupérer
des données caractérisant cet individu. (L’utilisation de données biométriques imposant une forte contrainte sur la
présence physique de l’utilisateur est plus robuste que la seule utilisation d’un mot de passe).
[0009] Il existe actuellement un besoin de système permettant une authentification précise du locuteur sans stockage
de données susceptibles de trahir son identité ou d’informations relevant de sa vie privée.
[0010] L’article de Monrose et al intitulé « Cryptographic Key Generation from Voice », paru dans les Proceedings of
the 2001 IEEE Symposum on Security and Privacy Mai 2001, décrit un système permettant de générer une clef cryp-
tographique à partir de la voix d’un individu. S’il s’avère efficace, ce système présente néanmoins comme inconvénient
de nécessiter l’utilisation d’une base de données dans laquelle des informations caractérisant le locuteur peuvent être
stockées.
[0011] En résumé, au cours de sa mise en oeuvre, le procédé va utiliser les étapes suivantes :
•Une première étape va permettre la configuration du système de reconnaissance. Elle est indépendante des utili-
sateurs et comportera le choix de locuteurs de référence, le choix des paramètres du système (configuration) et la