Communication parlée - Institut des Systèmes Intelligents et de

publicité
Introduction

Communication parlée
Communication parlée:


Transfert d’informations d’une personne à une autre par le biais de la
parole
Moyen de communication privilégié
Mohamed CHETOUANI
[email protected]
Institut des Systèmes Intelligents et de
Robotique (ISIR)
UMR 7222
2
Introduction: Processus de
production
Introduction:

Grandes étapes du processus de communication:




Intention: Transformation de l’idée en une structure linguistique
Articulation: Transformation de la structure linguistique en une suite de
commandes motrices pour les organes articulateurs
Emission: Production d’une onde vocale et propagation dan l’air
Perception: Transformation de l’onde vocale en impulsions nerveuses
transmises au cerveau de façon à être comprise par l’auditeur
3
4
1
Production de la parole

Production de la parole
La parole est produite par les mouvements de l’appareil phonatoire.

La parole est produite par les mouvements de l’appareil phonatoire.

Modélisation source-filtre:

Le flux d’air sous pression se déplace…

Air contenu dans les poumons: Source d’énergie utilisée pour produire les sons
http://www.youtube.com/watch?v=C2lRhe_Fc04&hl=fr
5
Sons élémentaires




Sons élémentaires
Les sons élémentaires de la parole peuvent être classés en
fonction de trois variables essentielles:

6
Le voisement: activité des cordes vocales
Le mode d’articulation: type de mécanisme de production
Le lieu d’articulation: endroit de resserrement maximal du conduit vocal

Les systèmes de reconnaissance utilisent cette unité comme
entité de base à identifier:

Phones, diphones, triphones…
L’unité minimale d’une langue est le phonème



Peut être défini à l’aide de la notion de paire minimale
Deux mots qui ne diffèrent que par un seul phonème ([p]are - [t]are)
Un phonème est une entité abstraite et sa réalisation acoustique est
appelée allophone multiples (ou phones)
7
8
2
Sons élémentaires:
Les voyelles
Sons élémentaires
La syllabe est une unité phonétique intermédiaire entre le
phonème et le mot.

Elle est composée d’un noyau vocalique qui peut être éventuellement
entouré par des consonnes: CV, CVC, VC….
Unité de production et de perception



Les voyelles sont des voisés (ou sonores) mettant en jeu la
vibration des cordes vocales
Elles correspondent à une configuration « stable » du conduit
vocal
9
Sons élémentaires:
Les voyelles

Elles se caractérisent
d’articulation
essentiellement
10
Sons élémentaires:
Les voyelles
par
leur
lieu

La langue française comprend


11
12 voyelles orales émises seulement émises par la bouche
4 voyelles nasales correspondant à la mise en parallèle des cavités
nasales sur la cavité buccale
12
3
Sons élémentaires:
Les voyelles

Sons élémentaires:
Les voyelles
La langue française comprend



12 voyelles orales émises seulement émises par la bouche
4 voyelles nasales correspondant à la mise en parallèle des cavités
nasales sur la cavité buccale
L’onde glottale résultant de la vibration des cordes vocales passe à travers
le conduit vocal, ses harmoniques proches des fréquences de résonance du
conduit vocal sont amplifiés tandis que les autres fréquences sont
atténuées…
13
Sons élémentaires:
Les voyelles

14
Sons élémentaires:
Les voyelles
Le spectre d’une voyelle présente un ensemble de pics (les formants)
caractéristiques de cette voyelle
15

Les voyelles sont caractérisées acoustiquement par la fréquence de leurs
deux premiers formants F1 et F2

Plan F 1 - F2
16
4
Sons élémentaires:
Les voyelles

Sons élémentaires:
Les voyelles
Les voyelles cardinales [a], [i] et [u] sont disposées aux sommets d’un
triangle analogue au triangle articulatoire représentant la position de la
langue selon les axes:



L’ouverture du conduit nasal provoque une modification du spectre.

Le premier formant perd de sont intensité au profit du second
«antérieur-postérieur »
« ouvert-fermé »
17
Sons élémentaires:
Les voyelles

Sons élémentaires:
Les consonnes
Variabilité acoustique:




Variabilité physiologique liée au conduit vocal (différence homme-femme)
Variabilité de coarticulation: influence d’un son sur son voisin
Variabilité liée à la latitude de réalisation dont dispose le locuteur sur le plan
linguistique

Importante dispersion du plan F1 - F2

Difficulté à l’utiliser en reconnaissance de voyelles.
18
19
Les consonnes se prononcent avec un rétrécissement local ou une fermeture
du conduit vocal.



Consonnes sonores et sourdes: voisées vs non voisées
Mode d’articulation
Lieu d’articulation
20
5
Sons élémentaires:
Les consonnes

Sons élémentaires:
Les consonnes
Catégorisation des consonnes

Les fricatives sont produites par un rétrécissement local du
conduit vocal

Les occlusives sont des sons transitoires résultant de
l’ouverture brusque du conduit vocal après son obstruction.

Une consonne occlusive est constituée acoustiquement de 3 parties:



Un silence correspondant à l’occlusion complète du conduit vocal
Une explosion (burst) résultant du relâchement de l’air comprimé par
l’occlusion
Un ensemble de transitions formantiques vers le son vocalique voisin
21
Sons élémentaires:
Les consonnes
22
Sons élémentaires:
Les consonnes

Les consonnes nasales (e.g. [m],[n]) sont produites par une
excitation du conduit nasal, le conduit vocal étant totalement
fermé.

Les sons liquides ([l],[r]) sont des sons sonores produits avec
une légère constriction du conduit vocal.
23

Semi-voyelles ou semi-consonnes qui se trouvent, par leur
aperture, à la frontière entre les voyelles et les consonnes.

Par exemple:

[i] ou [u] suivis d’une voyelle deviennent une semi-voyelle

Oui, ouate, douane…
24
6
Alphabet phonétique
international
Audition


Les sons de la parole sont transmis au cerveau via le nerf
auditif.
Tâches du système auditif:


Reconnaître un son et de lui attacher une signification
Localiser ce son dans l’espace…
25
Anatomie et physiologie de
l’oreille

Anatomie et physiologie de
l’oreille
L’oreille se compose de 3 parties:


26

Oreille externe formée du pavillon et du conduit auditif.
Oreille moyenne contenant la chaîne des osselets, chargée de la
transmission mécanique du signal jusqu’à la fenêtre ovale et assurant
une adaptation d’impédance entre l’air et le milieu liquide de l’oreille
interne (également un protection)
27
L’oreille se compose de 3 parties:

Oreille interne contenant la cochlée qui transforme les vibrations
mécaniques en influx nerveux.
28
7
Anatomie et physiologie de
l’oreille

Psycho-acoustique
La cochlée effectue une analyse spectrale à large bande des
signaux acoustiques captés par l’oreille…

Psycho-acoustique:
 Relation entre les stimulus acoustiques et les sensations
perceptives auditives

Le champ auditif humain est délimité par des courbes du
seuil d’audition et du seuil de douleur:

Tonotopie:
organisation de la perception
des sons
Implication de la fréquence et de l’amplitude d’un signal
29
30
Psycho-acoustique
Psycho-acoustique
Caractéristiques d’un son:
 Hauteur: La sensation de hauteur d’un son est directement liée à la
fréquence.
Où fi est la fréquence.
Plus fi est élevée plus le son est aigu et inversement plus fi est basse plus le son
est grave.
Le timbre est caractérisé d’une part par le type d’harmoniques présents dans le
son et d’autre part par les amplitudes de ces harmoniques:
• Ensemble des harmoniques ou seulement les impairs.
• Amplitude de chacun des harmoniques.
Hauteur d’un son complexe:
De manière subjective, nous classons les sons complexes dans des
catégories graves ou aigus selon la hauteur de la fréquence fondamentale
f0.
Un son simple a un timbre sans caractère: vibration à une seule fréquence.

31
Le timbre est la qualité physiologiques qui nous permet de de distinguer deux
sons de même hauteur et de même niveau sonore
32
8
Psycho-acoustique
Psycho-acoustique
Le timbre est une caractéristique subjective qui nous permet de
différencier à l’oreille deux sons (même note) générés par
deux instruments de musique différents.
« Coloration » d’un son:
Violon
LA 440 d’un violon
LA 440 d’une flûte
Le LA d’un violon est différent de celui d’un piano
Flûte
Le timbre dépend de la décomposition spectrale: répartition en
énergie des différents harmoniques.
=> « Coloration » d’un son
33
34
Psycho-acoustique
Psycho-acoustique
« Coloration » d’un son:
« Coloration » d’un son:
Bruits
Bruits
35
36
9
Psycho-acoustique
Psycho-acoustique
Intensité d’un son
Durée:
L’intensité permet de distinguer les sons forts ou faibles.
La densité spectrale d’un son n’explique pas totalement cette
grandeur physiologique:
L’évolution temporelle des différents harmoniques joue un
rôle important.
L’intensité d’un son dépend de plusieurs critères:
• L’amplitude des variations de pression de l’air au
voisinage du tympan.
• La distance à la source.
• La sensibilité: nous n’avons pas tous la même oreille
Plus la durée d’un son est grande, plus l’analyse des
caractéristiques (timbre, hauteur) sera aisée.
37
Psycho-acoustique
38
Psycho-acoustique
Intensité d’un son
Le son est une vibration de l’air qui se propage.
Vibration de l’air: variation pa de la pression P de l’air que l’on appelle
pression acoustique.
Quelques rappels sur la pression:
Définition
La pression P qui s’exerce sur la surface S est définie comme le rapport entre
le force F et la valeur de la surface:
Les divers organes de l’oreille externe, moyenne et interne captent ces
vibrations périodiques de pression et les transforment en signaux bioélectriques qui sont ensuite transmis au cortex pour y être traités et perçus
en tant que son (musique, parole, …)
P=F/S
La pression est mesurée en pascals (Pa).
Une pression de 1 Pa correspond à une force F de 1 N (newton) appliquée sur
une surface de 1m2.
39
40
10
Psycho-acoustique
Psycho-acoustique
Quelques rappels sur la pression:
Pression acoustique:
En présence d’une onde sonore, la surface S située sur le trajet de
l’onde se met à vibrer:
• Elle est soumise à une force variable qui s’ajoute à celle
exercée par l’atmosphère.
• Il s’ensuit une pression qui s’ajoute à la pression
atmosphérique.
Pression atmosphérique:
L’air autour de nous exercent une pression appelée pression atmosphérique.
Elle existe en permanence (avec ou sans son).
Elle est notée P0
P0=1.013 105 Pa ≈ 105 Pa
La variation de pression par rapport à la pression atmosphérique
P0 est appelée pression acoustique.
41
42
Psycho-acoustique
Psycho-acoustique
Seuil d’audition et de douleur:
La pression au seuil est 1010 fois plus petite que la pression
atmosphérique (P0≈ 105 Pa).
Le seuil d’audition correspond au son le plus faible que l’oreille
humaine est capable de percevoir.
Au seuil d’audition, l’amplitude des vibrations du tympan est très
petite ≈ 0.3 à 0.4 10-10m.
La pression acoustique correspondante, appelée pression au seuil
ou pression de référence vaut:
pref=2 10-5 Pa pour une fréquence de 1000Hz.
43
On appelle seuil de douleur la pression maximum que l’oreille
humaine puisse supporter sans dommage.
≈ 20 Pa
44
11
Psycho-acoustique
Psycho-acoustique
Définition du niveau de pression
Pour un son de pression acoustique p avec une pression de référence (au seuil
d’audition) pref=2 10-5 Pa.
Le niveau de pression au seuil d’audition au seuil d’audition est
obtenu en remplaçant p par la pression de référence:
# 2.10"5 &
L p = 20 log%
= 20 log(1) = 0dB
"5 (
$ 2.10 '
Le niveau de pression est défini par:
#
p &
L p = 20 log%
(
$ 2.10"5 '
Au seuil de douleur, la pression acoustique est d’environ 20 Pa;
le niveau de pression est donc:
Lp se mesure en décibels (que l’on note dB ou dB SPL pour Sound Pressure
Level).
!
!
# 20 &
6
L p = 20 log%
( = 20 log(2.10 ) = 120dB
$ 2.10"5 '
45
46
!
Echelles des niveaux acoustiques
Seuil différentiel
On ne peut entendre des sons
inférieurs à 0dB.
ATTENTION: Il existe des sons
inférieurs à 0dB.
Définition:
On appelle seuil différentiel de niveau la plus petite variation de niveau que
l’oreille humaine puisse percevoir.
Sa valeur est d’environ 1 dB.
Une variation de 1dB peut-être perçue dans des conditions de laboratoire.
De la même manière, les sons
supérieurs à 120 dB détériorent le
système auditif mais ils existent
néanmoins.
47
Il n’est donc pas utile de chercher une grande précision dans l’estimation de la
valeur (au mieux une décimale).
48
12
Sensibilité auditive
en fonction de la fréquence
Sensibilité auditive
en fonction de la fréquence
Phone
Isosonie
Considérons un
son S1 de 60dB
à 1000Hz.
Si on se reporte
sur la courbe,
on définit une
sensation en
phone.
=> 60 phones.
49
Sensibilité auditive
en fonction de la fréquence
Isosonie
50
Sensibilité auditive
en fonction de la fréquence
Gardons le même
niveau sonore de
60dB, et
diminuons la
fréquence à
100Hz.
Pour garder la
même sensation
que le son S1 , il
faut augmenter le
niveau de 6dB.
51
Isosonie
Courbes
d’isosonie de
Fletcher et
Munson:
Elles
correspondent à
une sensation
d’égale
intensité
52
13
Courbes d’isosonie
Résolution fréquentielle
Courbes d’isosonie de Fletcher et Munson:

Elles traduisent comment les sons graves demandent à être
entendus à un niveau sonore plus élevé que les sons aigus pour
être perçus avec la même intensité.
Les courbes d’isosonie montrent que l’oreille perçoit à un même
niveau sonore un son de fréquence 20Hz émis à 80dB et un
son de fréquence 500 Hz émis à 35dB.
Phénomène de masquage:
 La perception d’un son est perturbée par la présence d’un autre son.

Le seuil d’audibilité d’un son est accru en présence d’un autre son de
fréquence adjacente lorsque les deux sons sont perçus simultanément
ou avec un léger décalage temporel.

Si la différence des fréquences devient supérieure à un certain seuil, ce
phénomène disparaît. On parle de bande critique…

Une bande critique peut être considérée comme un filtre passe-bande
53
Résolution fréquentielle


54
Résolution fréquentielle
Masquage fréquentiel

Exploitation des bandes critiques en traitement automatique de la parole:

Unité perceptive pour assurer le lien entre la fréquence d’un son exprimée
en Hertz et la résolution de l’oreille

Bark: Un bark correspond à la largeur d’un bande critique. La largeur de la
bande critique croît avec sa fréquence centrale:

Masquage temporel
55
L’oreille possède une bonne résolution spectrale en basses fréquences mais
médiocre en hautes fréquences..
56
14
Modèle de production des
informations segmentales et
supra-segmentales
Résolution fréquentielle

Mel: Très utilisée en reconnaissance de la parole

Transformation linéaire jusqu’à 1000Hz et logarithmique ensuite.

La majeure partie de l’information de parole est convoyée par des phonèmes, unités
segmentales.

Cependant, une information supplémentaire est fournie au niveau segmental par la
prosodie.

Prosodie matérialise 3 niveaux de construction:
 Le rythme
 L’accent
 L’intonation
Et sont portés par 3 paramètres physiques:
 Durée
 Fréquence fondamentale
 Intensité

57
Modèle de production des
informations segmentales et
supra-segmentales

58
Prosodie
Utilité de la Prosodie
Les informations ne sont pas si simplement séparables….
Adult-directed speech
Infant-directed speech
Infant-directed speech
(Anne Fernald)
Modèle de Fujisaki
59
60
15
Prosodie
Analyse du signal de parole
Reconnaissance de l’intention du locuteur
Le signal de parole contient plusieurs
informations:
Entraînant une grande variabilité
du signal.
Information
locuteur
Environnement
sonore
Contenu linguistique:
phonème, langue
61
62
Analyse du signal de parole
Analyse du signal de parole
Le signal de parole est non stationnaire…
Etapes d’un système de reconnaissance:
On utilise des fenêtres d’analyse (de 10 à 30ms) sur lesquelles le
signal peut être considéré comme quasi stationnaire.
Pour améliorer l’analyse et limiter les effets de bord, les trames
sont pondérés par une fenêtre temporelle aplatie aux bords:
• Fenêtres d’analyse: Hamming, hanning,…
63
64
16
Analyse du signal de parole
Analyse du signal de parole
• Codage LPC (Linear Predictive Coding):
• L’extraction de caractéristiques consiste
principalement en une phase de codage:
Processus de production de la parole: Modèle Source-Filtre
–Le codage LPC (Linear Predictive Coding).
–Le codage MFCC (Mel Frequency Cepstral
Coding).
–Le codage LPCC (Linear Predictive Cepstral
Coding).
–Le codage PLP (Predictive Linear Prediction).
–…
• Cependant, d’autres paramètres sont également
extraits pour améliorer la représentation:
–Énergie.
–Pitch : fréquence fondamentale.
–Taux de passage par zéros.
–Paramètres Δ et ΔΔ : dérivées premières et
secondes des vecteurs.
–…
Approximation linéaire
du processus de production
65
Analyse du signal de parole

66
Analyse du signal de parole
Modélisation de la perception
humaine:

Modèle de production non-linéaire:
– Turbulences
– Dépendance entre la source et
le filtre.
–…
• Signal complexe:
• Codage MFCC (Mel Frequency
Ceptral Coding)
• Codage PLP (Predictive Linear
Prediction)
• Modèles de l’audition:
–Gain de prédiction des
prédicteurs non-linéaires
–Distribution non-gaussienne.
• Différence importante selon la
catégorie phonétique (voyelles,
fricatives, …)
–Seneff, Ghitza, Lyon, Rouat,…
67
 Plusieurs axes pour le développement
de méthodes alternatives:
Traitement non-linéaire
de la parole
68
17
Analyse du signal de parole

Analyse du signal de parole
Grande diversité des méthodes:
 Fréquentielles:



Transformée en Ondelettes [Farooq’03]: analyse temps-fréquence.
Modulations [Maragos’93, Dimitriadis’03]: modélisation AM-FM
des résonances du conduit vocal.

Exploitation de la complémentarité des approches
Méthodes statistiques d’ordre supérieur
Dynamique du signal:



Modélisation chaotique [Johnson’04, Pitsikalis’03]: espace des
phases, …
Analyse en Composantes Indépendantes [Kwon’04]: statistiques
d’ordre supérieur.

…
Chetouani et al, Non-linear Speech feature extraction for phoneme
classification and speaker recognition, Springer 2005
69
Analyse du signal de parole

Exploitation de la complémentarité des approches

Méthodes fréquentielles + statistiques d’ordre 2
Chetouani et al, Investigation on LP-residual representations for speaker identification
Pattern Recognition 2009
70
Résumé

Il est de plus en plus nécessaire d’exploiter des connaissances sur
le signal de parole pour améliorer les systèmes de reconnaissance:




Chetouani et al, Investigation on LP-residual representations for speaker identification
71
Pattern Recognition 2009
Phonétique
Modélisation des processus de production et de perception…
Stationarité, Distribution statistique
…
72
18
Téléchargement