Analyse et perception de scènes multimodales - GIPSA-Lab

publicité
IC2A - AST
Analyse et perception
de scènes multimodales
Un flux d'information qui circule sur le réseau
n'est pas simplement un ensemble de bits
ou de pixels à traiter, coder, compresser ;
c'est en général une scène complexe
constituée d'objets qui ont une identité physique
et donc une cohérence multisensorielle.
Anne Guérin / Jean-Luc Schwartz
Séance 2!: Objets sonores
Séance 1 - Les objets de la perception humaine
* Formes et représentations
Données expérimentales, illusions, etc
Le traitement des sons dans le système auditif
Mécanismes d’analyse computationnelle de scènes auditives
Séance 3!: Traitements centraux et multistabilité
* La notion d’objet dans la perception chez les bébés et
les adultes
* Objets multimodaux, objets physiques, objets et agents
Neuroanatomie, neurophysiologie
Les ondes corticales
Décision et multistabilité
Séance 4!: Traitement de la parole audiovisuelle
Perception audiovisuelle
Visages parlants
Débruitage et compression de la parole audiovisuelle
Reconnaissance de la parole audiovisuelle
Signal
Spectre
Représentation temps-fréquence
(sonagramme)
Fréquence (Hz)
Son
I. Les objets temps-fréquence
H1
50
100
Temps (ms)
Fréquence (Hz)
Temps (ms)
sonie
H1234
intensité
timbre
H2
fréquence
hauteur
onsets / offsets
temps
modulations
H3
(attaque, noyau, coda)
H1234-dec
Le trièdre fertile
H4
La production des voyelles
Transformation de
la source
©Sophie Jacopin
Signal de parole
Source
laryngienne
Fo
Vibration des
cordes vocales
Air issu des
poumons
Conduit vocal d’homme
Fonction de transfert
Résonateur
Fréquence
Fondamentale
Enveloppe
spectrale
Hauteur
Timbre
F1 F2
F3
0
F4
-5
-10
[a]
©Sophie Jacopin
5
Excitateur
-15
-20
0
0.5
1
fréquence (kHz)
1.5
2
Battements
Relations temps fréquence et analyse de Fourier
Son 1
Fréquence (Hz)
50
Fréquence (Hz)
100
Temps (ms)
Son 2
5
Son 1 +
Son 2
0
Son périodique :
« série de Fourier »
-5
-10
-15
-20
0
Son 1 +
Son 2
0.5
1
1.5
2
1
1.5
2
fréquence (kHz)
5
0
Avec fréq. 1 et
2 très proches
Son non périodique :
« transformée de Fourier »
-5
-10
-15
-20
0
0.5
fréquence (kHz)
Les objets temps-fréquence
sonie
intensité
Bruit de friction
timbre
Explosion (burst)
fréquence
hauteur
onsets / offsets
temps
modulations
(attaque, noyau, coda)
Formants (F1, F2)
Le trièdre fertile
Le système auditif périphérique
Impulsions glottiques (F0)
L’oreille externe :
une protection,
un filtre passe-tout
L’oreille moyenne :
un sas,
un filtre passe-bande
La cochlée (oreille interne)
apex
base
La cochlée (suite)
BF
HF
La membrane basilaire
Pour un point, une fréquence
Pour une fréquence, un point
Tonotopie (bijection fréquence<—>abscisse)
Tonotopies multiples ...
Conséquence : un premier
«!spectrogramme cochléaire!»
Le mouvement de la membrane basilaire
est capté par les cellules ciliées (organe de Corti)
Conversion mécanique —> électrique
dans les cellules ciliées
Spikes (potentiels d’action, influx
nerveux)
I1
I2
I3
Période réfractaire 1
ms
dendrites
soma
axone
O
O = f( ! wij Ii )
f(x) = 1 si x > seuil
0 sinon
Codage en spikes dans les neurones :
Un codage binaire stochastique
I4
Le neurone, atome de traitement de l’intégration
Une information de piètre qualité ?
Nombre de spikes / s
Saturation
Activité spontanée
Intensité de stimulation
Le neurone primaire, un «!guetteur spectral!»
Codage en activité moyenne
apex
base
Courbes d’accord :
les champs récepteurs de l’audition
Tonotopie (suite) : les fréquences
caractéristiques de neurones primaires
Entrée
(stimulus)
HF
Filtre
cochléaire
Cellule
ciliée
E(t)
Neurone
primaire
temps
Réponse
(spikes)
Signal
acoustique
Oreille
externe /
moyenne
Filtre
cochléaire
Cellule
ciliée
Neurone
primaire
dE/dt
E(t)
temps
BF
Filtre
cochléaire
Cellule
ciliée
Neurone
primaire
L’adaptation nerveuse dans les neurones primaires :
Un processus en d/dt
1. Un son excitateur t à
la fréquence
caractéristique
2. On ajoute un second
ton à une autre
fréquence
La réponse (nombre de
spikes) diminue !
La suppression dans les neurones primaires :
Un processus en d/df
HF
Filtre
cochléaire
Cellule
ciliée
Neurone
primaire
d/df
Signal
acoustique
Oreille
externe /
moyenne
Filtre
cochléaire
Cellule
ciliée
Neurone
primaire
d/df
BF
Filtre
cochléaire
Cellule
ciliée
Neurone
primaire
Représentation temps-fréquence
dans les neurones primaires
d/dt
d/dt
Stimulation
temps
Réponse (spike dans un neurone)
temps
La synchronisation des décharges nerveuses
Neurogramme
Spectrogramm
e
Son de fréquence F
Fibre de FC = F
2. Traitements auditifs et
représentations perceptives
II. Eléments de psychoacoustique
Les deux codages de la fréquence :
codage géographique
et codage temporel
Psychoacoustique
Principe : par une méthode de type stimulus - réponse,
caractériser la perception des sons,
et tenter de découvrir
les mécanismes de traitement
«!cachés!» dans le cerveau
Audition des sons purs (audiogramme)
d ’où la touche «!loudness!» des amplis
0 dB SPL
- seuil d!’audition -
10-12 W/m2 / 20µPa
20 dB SPL
- voix chuchotée à 1 m -
10-10 W/m2 / 200µPa
60 dB SPL
- rue calme -
10-6 W/m2 / 20mPa
70 dB SPL
- conversation à 1 m -
120 dB SPL
- seuil douleur /discothèque - 1 W/m2 / 20 Pa
140 dB SPL
- avion à réaction -
100 W/m2 / 200 Pa
220 dB SPL
- canon à 4 m -
1010 W/m2 / 2MPa
Intensité des sons purs (sonie)
I
T
test
Son
Seuil d’audibilité S1 (audiogramme)
F
Son
masq
uant
M
Seuil d’audibilité S2 > S1
I
T
test
Son
F
La perte des aigus avec l’âge
Le son vert est un son «!masquant!»
masquage simultané (T et M synchros)
masquage avant (M avant T)
masquage arrière (M après T)
Masquage
Application MPEG3
3. Analyse de Scènes Auditives
(Auditory Scene Analysis, ASA - Bregman)
Des objets temps-fréquence aux objets-flux
Formes et objets multisensoriels
Quels principes de regroupement ?
Formes auditives
Le mouvement, déterminant pour faire
émerger les formes auditives
Le mouvement, déterminant pour faire
émerger les formes auditives :
Le «!destin commun!»
a
i
Demo 19
ou
fréquence
temps
Structuration des flux
Structuration des flux (suite)
Continuités
Wessell illusion
A-B :
dem16 A
X-A-B-X :
dem16 B
(C-X)-A-B-(X-C) :
dem16 C
Emergence d!’un flux par rapport à un autre
dem22A
dem34
dem22B
Emergence d’un flux par rapport à un autre (suite)
Fond et forme
!Fo between two sentences
(Bird & Darwin 1998; after Brokx & Nooteboom, 1982)
Masking sentence = 140 Hz ± 0,1,2,5,10 semitones
Target sentence Fo = 140 Hz
Task: write down target sentence
100
Normal
80
% words recognised
Demo 29
Two sentences (same talker)
• only voiced consonants
• (with very few stops)
Thus maximising Fo effect
60
40
Perfect Fourth ~4:3
20
Replicates & extends Brokx & Nooteboom
40 Subjects
40 Sentence Pairs
0
0
2
4
6
8
Fo difference (semitones)
Conclusion
Un monde audible fait d’objets sonores
Dont la nature peut être révélée
par des critères de cohérence spectro-temporelle
(ASA : F0, attaques, DI, etc)
Ou par des techniques de séparation de sources
(BSS, ACI/ICA : autant de capteurs que de sources,
indépendance statistique)
10
Téléchargement