Introduction Communication parlée Communication parlée: Transfert d’informations d’une personne à une autre par le biais de la parole Moyen de communication privilégié Mohamed CHETOUANI [email protected] Institut des Systèmes Intelligents et de Robotique (ISIR) UMR 7222 2 Introduction: Processus de production Introduction: Grandes étapes du processus de communication: Intention: Transformation de l’idée en une structure linguistique Articulation: Transformation de la structure linguistique en une suite de commandes motrices pour les organes articulateurs Emission: Production d’une onde vocale et propagation dan l’air Perception: Transformation de l’onde vocale en impulsions nerveuses transmises au cerveau de façon à être comprise par l’auditeur 3 4 1 Production de la parole Production de la parole La parole est produite par les mouvements de l’appareil phonatoire. La parole est produite par les mouvements de l’appareil phonatoire. Modélisation source-filtre: Le flux d’air sous pression se déplace… Air contenu dans les poumons: Source d’énergie utilisée pour produire les sons http://www.youtube.com/watch?v=C2lRhe_Fc04&hl=fr 5 Sons élémentaires Sons élémentaires Les sons élémentaires de la parole peuvent être classés en fonction de trois variables essentielles: 6 Le voisement: activité des cordes vocales Le mode d’articulation: type de mécanisme de production Le lieu d’articulation: endroit de resserrement maximal du conduit vocal Les systèmes de reconnaissance utilisent cette unité comme entité de base à identifier: Phones, diphones, triphones… L’unité minimale d’une langue est le phonème Peut être défini à l’aide de la notion de paire minimale Deux mots qui ne diffèrent que par un seul phonème ([p]are - [t]are) Un phonème est une entité abstraite et sa réalisation acoustique est appelée allophone multiples (ou phones) 7 8 2 Sons élémentaires: Les voyelles Sons élémentaires La syllabe est une unité phonétique intermédiaire entre le phonème et le mot. Elle est composée d’un noyau vocalique qui peut être éventuellement entouré par des consonnes: CV, CVC, VC…. Unité de production et de perception Les voyelles sont des voisés (ou sonores) mettant en jeu la vibration des cordes vocales Elles correspondent à une configuration « stable » du conduit vocal 9 Sons élémentaires: Les voyelles Elles se caractérisent d’articulation essentiellement 10 Sons élémentaires: Les voyelles par leur lieu La langue française comprend 11 12 voyelles orales émises seulement émises par la bouche 4 voyelles nasales correspondant à la mise en parallèle des cavités nasales sur la cavité buccale 12 3 Sons élémentaires: Les voyelles Sons élémentaires: Les voyelles La langue française comprend 12 voyelles orales émises seulement émises par la bouche 4 voyelles nasales correspondant à la mise en parallèle des cavités nasales sur la cavité buccale L’onde glottale résultant de la vibration des cordes vocales passe à travers le conduit vocal, ses harmoniques proches des fréquences de résonance du conduit vocal sont amplifiés tandis que les autres fréquences sont atténuées… 13 Sons élémentaires: Les voyelles 14 Sons élémentaires: Les voyelles Le spectre d’une voyelle présente un ensemble de pics (les formants) caractéristiques de cette voyelle 15 Les voyelles sont caractérisées acoustiquement par la fréquence de leurs deux premiers formants F1 et F2 Plan F 1 - F2 16 4 Sons élémentaires: Les voyelles Sons élémentaires: Les voyelles Les voyelles cardinales [a], [i] et [u] sont disposées aux sommets d’un triangle analogue au triangle articulatoire représentant la position de la langue selon les axes: L’ouverture du conduit nasal provoque une modification du spectre. Le premier formant perd de sont intensité au profit du second «antérieur-postérieur » « ouvert-fermé » 17 Sons élémentaires: Les voyelles Sons élémentaires: Les consonnes Variabilité acoustique: Variabilité physiologique liée au conduit vocal (différence homme-femme) Variabilité de coarticulation: influence d’un son sur son voisin Variabilité liée à la latitude de réalisation dont dispose le locuteur sur le plan linguistique Importante dispersion du plan F1 - F2 Difficulté à l’utiliser en reconnaissance de voyelles. 18 19 Les consonnes se prononcent avec un rétrécissement local ou une fermeture du conduit vocal. Consonnes sonores et sourdes: voisées vs non voisées Mode d’articulation Lieu d’articulation 20 5 Sons élémentaires: Les consonnes Sons élémentaires: Les consonnes Catégorisation des consonnes Les fricatives sont produites par un rétrécissement local du conduit vocal Les occlusives sont des sons transitoires résultant de l’ouverture brusque du conduit vocal après son obstruction. Une consonne occlusive est constituée acoustiquement de 3 parties: Un silence correspondant à l’occlusion complète du conduit vocal Une explosion (burst) résultant du relâchement de l’air comprimé par l’occlusion Un ensemble de transitions formantiques vers le son vocalique voisin 21 Sons élémentaires: Les consonnes 22 Sons élémentaires: Les consonnes Les consonnes nasales (e.g. [m],[n]) sont produites par une excitation du conduit nasal, le conduit vocal étant totalement fermé. Les sons liquides ([l],[r]) sont des sons sonores produits avec une légère constriction du conduit vocal. 23 Semi-voyelles ou semi-consonnes qui se trouvent, par leur aperture, à la frontière entre les voyelles et les consonnes. Par exemple: [i] ou [u] suivis d’une voyelle deviennent une semi-voyelle Oui, ouate, douane… 24 6 Alphabet phonétique international Audition Les sons de la parole sont transmis au cerveau via le nerf auditif. Tâches du système auditif: Reconnaître un son et de lui attacher une signification Localiser ce son dans l’espace… 25 Anatomie et physiologie de l’oreille Anatomie et physiologie de l’oreille L’oreille se compose de 3 parties: 26 Oreille externe formée du pavillon et du conduit auditif. Oreille moyenne contenant la chaîne des osselets, chargée de la transmission mécanique du signal jusqu’à la fenêtre ovale et assurant une adaptation d’impédance entre l’air et le milieu liquide de l’oreille interne (également un protection) 27 L’oreille se compose de 3 parties: Oreille interne contenant la cochlée qui transforme les vibrations mécaniques en influx nerveux. 28 7 Anatomie et physiologie de l’oreille Psycho-acoustique La cochlée effectue une analyse spectrale à large bande des signaux acoustiques captés par l’oreille… Psycho-acoustique: Relation entre les stimulus acoustiques et les sensations perceptives auditives Le champ auditif humain est délimité par des courbes du seuil d’audition et du seuil de douleur: Tonotopie: organisation de la perception des sons Implication de la fréquence et de l’amplitude d’un signal 29 30 Psycho-acoustique Psycho-acoustique Caractéristiques d’un son: Hauteur: La sensation de hauteur d’un son est directement liée à la fréquence. Où fi est la fréquence. Plus fi est élevée plus le son est aigu et inversement plus fi est basse plus le son est grave. Le timbre est caractérisé d’une part par le type d’harmoniques présents dans le son et d’autre part par les amplitudes de ces harmoniques: • Ensemble des harmoniques ou seulement les impairs. • Amplitude de chacun des harmoniques. Hauteur d’un son complexe: De manière subjective, nous classons les sons complexes dans des catégories graves ou aigus selon la hauteur de la fréquence fondamentale f0. Un son simple a un timbre sans caractère: vibration à une seule fréquence. 31 Le timbre est la qualité physiologiques qui nous permet de de distinguer deux sons de même hauteur et de même niveau sonore 32 8 Psycho-acoustique Psycho-acoustique Le timbre est une caractéristique subjective qui nous permet de différencier à l’oreille deux sons (même note) générés par deux instruments de musique différents. « Coloration » d’un son: Violon LA 440 d’un violon LA 440 d’une flûte Le LA d’un violon est différent de celui d’un piano Flûte Le timbre dépend de la décomposition spectrale: répartition en énergie des différents harmoniques. => « Coloration » d’un son 33 34 Psycho-acoustique Psycho-acoustique « Coloration » d’un son: « Coloration » d’un son: Bruits Bruits 35 36 9 Psycho-acoustique Psycho-acoustique Intensité d’un son Durée: L’intensité permet de distinguer les sons forts ou faibles. La densité spectrale d’un son n’explique pas totalement cette grandeur physiologique: L’évolution temporelle des différents harmoniques joue un rôle important. L’intensité d’un son dépend de plusieurs critères: • L’amplitude des variations de pression de l’air au voisinage du tympan. • La distance à la source. • La sensibilité: nous n’avons pas tous la même oreille Plus la durée d’un son est grande, plus l’analyse des caractéristiques (timbre, hauteur) sera aisée. 37 Psycho-acoustique 38 Psycho-acoustique Intensité d’un son Le son est une vibration de l’air qui se propage. Vibration de l’air: variation pa de la pression P de l’air que l’on appelle pression acoustique. Quelques rappels sur la pression: Définition La pression P qui s’exerce sur la surface S est définie comme le rapport entre le force F et la valeur de la surface: Les divers organes de l’oreille externe, moyenne et interne captent ces vibrations périodiques de pression et les transforment en signaux bioélectriques qui sont ensuite transmis au cortex pour y être traités et perçus en tant que son (musique, parole, …) P=F/S La pression est mesurée en pascals (Pa). Une pression de 1 Pa correspond à une force F de 1 N (newton) appliquée sur une surface de 1m2. 39 40 10 Psycho-acoustique Psycho-acoustique Quelques rappels sur la pression: Pression acoustique: En présence d’une onde sonore, la surface S située sur le trajet de l’onde se met à vibrer: • Elle est soumise à une force variable qui s’ajoute à celle exercée par l’atmosphère. • Il s’ensuit une pression qui s’ajoute à la pression atmosphérique. Pression atmosphérique: L’air autour de nous exercent une pression appelée pression atmosphérique. Elle existe en permanence (avec ou sans son). Elle est notée P0 P0=1.013 105 Pa ≈ 105 Pa La variation de pression par rapport à la pression atmosphérique P0 est appelée pression acoustique. 41 42 Psycho-acoustique Psycho-acoustique Seuil d’audition et de douleur: La pression au seuil est 1010 fois plus petite que la pression atmosphérique (P0≈ 105 Pa). Le seuil d’audition correspond au son le plus faible que l’oreille humaine est capable de percevoir. Au seuil d’audition, l’amplitude des vibrations du tympan est très petite ≈ 0.3 à 0.4 10-10m. La pression acoustique correspondante, appelée pression au seuil ou pression de référence vaut: pref=2 10-5 Pa pour une fréquence de 1000Hz. 43 On appelle seuil de douleur la pression maximum que l’oreille humaine puisse supporter sans dommage. ≈ 20 Pa 44 11 Psycho-acoustique Psycho-acoustique Définition du niveau de pression Pour un son de pression acoustique p avec une pression de référence (au seuil d’audition) pref=2 10-5 Pa. Le niveau de pression au seuil d’audition au seuil d’audition est obtenu en remplaçant p par la pression de référence: # 2.10"5 & L p = 20 log% = 20 log(1) = 0dB "5 ( $ 2.10 ' Le niveau de pression est défini par: # p & L p = 20 log% ( $ 2.10"5 ' Au seuil de douleur, la pression acoustique est d’environ 20 Pa; le niveau de pression est donc: Lp se mesure en décibels (que l’on note dB ou dB SPL pour Sound Pressure Level). ! ! # 20 & 6 L p = 20 log% ( = 20 log(2.10 ) = 120dB $ 2.10"5 ' 45 46 ! Echelles des niveaux acoustiques Seuil différentiel On ne peut entendre des sons inférieurs à 0dB. ATTENTION: Il existe des sons inférieurs à 0dB. Définition: On appelle seuil différentiel de niveau la plus petite variation de niveau que l’oreille humaine puisse percevoir. Sa valeur est d’environ 1 dB. Une variation de 1dB peut-être perçue dans des conditions de laboratoire. De la même manière, les sons supérieurs à 120 dB détériorent le système auditif mais ils existent néanmoins. 47 Il n’est donc pas utile de chercher une grande précision dans l’estimation de la valeur (au mieux une décimale). 48 12 Sensibilité auditive en fonction de la fréquence Sensibilité auditive en fonction de la fréquence Phone Isosonie Considérons un son S1 de 60dB à 1000Hz. Si on se reporte sur la courbe, on définit une sensation en phone. => 60 phones. 49 Sensibilité auditive en fonction de la fréquence Isosonie 50 Sensibilité auditive en fonction de la fréquence Gardons le même niveau sonore de 60dB, et diminuons la fréquence à 100Hz. Pour garder la même sensation que le son S1 , il faut augmenter le niveau de 6dB. 51 Isosonie Courbes d’isosonie de Fletcher et Munson: Elles correspondent à une sensation d’égale intensité 52 13 Courbes d’isosonie Résolution fréquentielle Courbes d’isosonie de Fletcher et Munson: Elles traduisent comment les sons graves demandent à être entendus à un niveau sonore plus élevé que les sons aigus pour être perçus avec la même intensité. Les courbes d’isosonie montrent que l’oreille perçoit à un même niveau sonore un son de fréquence 20Hz émis à 80dB et un son de fréquence 500 Hz émis à 35dB. Phénomène de masquage: La perception d’un son est perturbée par la présence d’un autre son. Le seuil d’audibilité d’un son est accru en présence d’un autre son de fréquence adjacente lorsque les deux sons sont perçus simultanément ou avec un léger décalage temporel. Si la différence des fréquences devient supérieure à un certain seuil, ce phénomène disparaît. On parle de bande critique… Une bande critique peut être considérée comme un filtre passe-bande 53 Résolution fréquentielle 54 Résolution fréquentielle Masquage fréquentiel Exploitation des bandes critiques en traitement automatique de la parole: Unité perceptive pour assurer le lien entre la fréquence d’un son exprimée en Hertz et la résolution de l’oreille Bark: Un bark correspond à la largeur d’un bande critique. La largeur de la bande critique croît avec sa fréquence centrale: Masquage temporel 55 L’oreille possède une bonne résolution spectrale en basses fréquences mais médiocre en hautes fréquences.. 56 14 Modèle de production des informations segmentales et supra-segmentales Résolution fréquentielle Mel: Très utilisée en reconnaissance de la parole Transformation linéaire jusqu’à 1000Hz et logarithmique ensuite. La majeure partie de l’information de parole est convoyée par des phonèmes, unités segmentales. Cependant, une information supplémentaire est fournie au niveau segmental par la prosodie. Prosodie matérialise 3 niveaux de construction: Le rythme L’accent L’intonation Et sont portés par 3 paramètres physiques: Durée Fréquence fondamentale Intensité 57 Modèle de production des informations segmentales et supra-segmentales 58 Prosodie Utilité de la Prosodie Les informations ne sont pas si simplement séparables…. Adult-directed speech Infant-directed speech Infant-directed speech (Anne Fernald) Modèle de Fujisaki 59 60 15 Prosodie Analyse du signal de parole Reconnaissance de l’intention du locuteur Le signal de parole contient plusieurs informations: Entraînant une grande variabilité du signal. Information locuteur Environnement sonore Contenu linguistique: phonème, langue 61 62 Analyse du signal de parole Analyse du signal de parole Le signal de parole est non stationnaire… Etapes d’un système de reconnaissance: On utilise des fenêtres d’analyse (de 10 à 30ms) sur lesquelles le signal peut être considéré comme quasi stationnaire. Pour améliorer l’analyse et limiter les effets de bord, les trames sont pondérés par une fenêtre temporelle aplatie aux bords: • Fenêtres d’analyse: Hamming, hanning,… 63 64 16 Analyse du signal de parole Analyse du signal de parole • Codage LPC (Linear Predictive Coding): • L’extraction de caractéristiques consiste principalement en une phase de codage: Processus de production de la parole: Modèle Source-Filtre –Le codage LPC (Linear Predictive Coding). –Le codage MFCC (Mel Frequency Cepstral Coding). –Le codage LPCC (Linear Predictive Cepstral Coding). –Le codage PLP (Predictive Linear Prediction). –… • Cependant, d’autres paramètres sont également extraits pour améliorer la représentation: –Énergie. –Pitch : fréquence fondamentale. –Taux de passage par zéros. –Paramètres Δ et ΔΔ : dérivées premières et secondes des vecteurs. –… Approximation linéaire du processus de production 65 Analyse du signal de parole 66 Analyse du signal de parole Modélisation de la perception humaine: Modèle de production non-linéaire: – Turbulences – Dépendance entre la source et le filtre. –… • Signal complexe: • Codage MFCC (Mel Frequency Ceptral Coding) • Codage PLP (Predictive Linear Prediction) • Modèles de l’audition: –Gain de prédiction des prédicteurs non-linéaires –Distribution non-gaussienne. • Différence importante selon la catégorie phonétique (voyelles, fricatives, …) –Seneff, Ghitza, Lyon, Rouat,… 67 Plusieurs axes pour le développement de méthodes alternatives: Traitement non-linéaire de la parole 68 17 Analyse du signal de parole Analyse du signal de parole Grande diversité des méthodes: Fréquentielles: Transformée en Ondelettes [Farooq’03]: analyse temps-fréquence. Modulations [Maragos’93, Dimitriadis’03]: modélisation AM-FM des résonances du conduit vocal. Exploitation de la complémentarité des approches Méthodes statistiques d’ordre supérieur Dynamique du signal: Modélisation chaotique [Johnson’04, Pitsikalis’03]: espace des phases, … Analyse en Composantes Indépendantes [Kwon’04]: statistiques d’ordre supérieur. … Chetouani et al, Non-linear Speech feature extraction for phoneme classification and speaker recognition, Springer 2005 69 Analyse du signal de parole Exploitation de la complémentarité des approches Méthodes fréquentielles + statistiques d’ordre 2 Chetouani et al, Investigation on LP-residual representations for speaker identification Pattern Recognition 2009 70 Résumé Il est de plus en plus nécessaire d’exploiter des connaissances sur le signal de parole pour améliorer les systèmes de reconnaissance: Chetouani et al, Investigation on LP-residual representations for speaker identification 71 Pattern Recognition 2009 Phonétique Modélisation des processus de production et de perception… Stationarité, Distribution statistique … 72 18