IC2A - AST Analyse et perception de scènes multimodales Un flux d'information qui circule sur le réseau n'est pas simplement un ensemble de bits ou de pixels à traiter, coder, compresser ; c'est en général une scène complexe constituée d'objets qui ont une identité physique et donc une cohérence multisensorielle. Anne Guérin / Jean-Luc Schwartz Séance 2!: Objets sonores Séance 1 - Les objets de la perception humaine * Formes et représentations Données expérimentales, illusions, etc Le traitement des sons dans le système auditif Mécanismes d’analyse computationnelle de scènes auditives Séance 3!: Traitements centraux et multistabilité * La notion d’objet dans la perception chez les bébés et les adultes * Objets multimodaux, objets physiques, objets et agents Neuroanatomie, neurophysiologie Les ondes corticales Décision et multistabilité Séance 4!: Traitement de la parole audiovisuelle Perception audiovisuelle Visages parlants Débruitage et compression de la parole audiovisuelle Reconnaissance de la parole audiovisuelle Signal Spectre Représentation temps-fréquence (sonagramme) Fréquence (Hz) Son I. Les objets temps-fréquence H1 50 100 Temps (ms) Fréquence (Hz) Temps (ms) sonie H1234 intensité timbre H2 fréquence hauteur onsets / offsets temps modulations H3 (attaque, noyau, coda) H1234-dec Le trièdre fertile H4 La production des voyelles Transformation de la source ©Sophie Jacopin Signal de parole Source laryngienne Fo Vibration des cordes vocales Air issu des poumons Conduit vocal d’homme Fonction de transfert Résonateur Fréquence Fondamentale Enveloppe spectrale Hauteur Timbre F1 F2 F3 0 F4 -5 -10 [a] ©Sophie Jacopin 5 Excitateur -15 -20 0 0.5 1 fréquence (kHz) 1.5 2 Battements Relations temps fréquence et analyse de Fourier Son 1 Fréquence (Hz) 50 Fréquence (Hz) 100 Temps (ms) Son 2 5 Son 1 + Son 2 0 Son périodique : « série de Fourier » -5 -10 -15 -20 0 Son 1 + Son 2 0.5 1 1.5 2 1 1.5 2 fréquence (kHz) 5 0 Avec fréq. 1 et 2 très proches Son non périodique : « transformée de Fourier » -5 -10 -15 -20 0 0.5 fréquence (kHz) Les objets temps-fréquence sonie intensité Bruit de friction timbre Explosion (burst) fréquence hauteur onsets / offsets temps modulations (attaque, noyau, coda) Formants (F1, F2) Le trièdre fertile Le système auditif périphérique Impulsions glottiques (F0) L’oreille externe : une protection, un filtre passe-tout L’oreille moyenne : un sas, un filtre passe-bande La cochlée (oreille interne) apex base La cochlée (suite) BF HF La membrane basilaire Pour un point, une fréquence Pour une fréquence, un point Tonotopie (bijection fréquence<—>abscisse) Tonotopies multiples ... Conséquence : un premier «!spectrogramme cochléaire!» Le mouvement de la membrane basilaire est capté par les cellules ciliées (organe de Corti) Conversion mécanique —> électrique dans les cellules ciliées Spikes (potentiels d’action, influx nerveux) I1 I2 I3 Période réfractaire 1 ms dendrites soma axone O O = f( ! wij Ii ) f(x) = 1 si x > seuil 0 sinon Codage en spikes dans les neurones : Un codage binaire stochastique I4 Le neurone, atome de traitement de l’intégration Une information de piètre qualité ? Nombre de spikes / s Saturation Activité spontanée Intensité de stimulation Le neurone primaire, un «!guetteur spectral!» Codage en activité moyenne apex base Courbes d’accord : les champs récepteurs de l’audition Tonotopie (suite) : les fréquences caractéristiques de neurones primaires Entrée (stimulus) HF Filtre cochléaire Cellule ciliée E(t) Neurone primaire temps Réponse (spikes) Signal acoustique Oreille externe / moyenne Filtre cochléaire Cellule ciliée Neurone primaire dE/dt E(t) temps BF Filtre cochléaire Cellule ciliée Neurone primaire L’adaptation nerveuse dans les neurones primaires : Un processus en d/dt 1. Un son excitateur t à la fréquence caractéristique 2. On ajoute un second ton à une autre fréquence La réponse (nombre de spikes) diminue ! La suppression dans les neurones primaires : Un processus en d/df HF Filtre cochléaire Cellule ciliée Neurone primaire d/df Signal acoustique Oreille externe / moyenne Filtre cochléaire Cellule ciliée Neurone primaire d/df BF Filtre cochléaire Cellule ciliée Neurone primaire Représentation temps-fréquence dans les neurones primaires d/dt d/dt Stimulation temps Réponse (spike dans un neurone) temps La synchronisation des décharges nerveuses Neurogramme Spectrogramm e Son de fréquence F Fibre de FC = F 2. Traitements auditifs et représentations perceptives II. Eléments de psychoacoustique Les deux codages de la fréquence : codage géographique et codage temporel Psychoacoustique Principe : par une méthode de type stimulus - réponse, caractériser la perception des sons, et tenter de découvrir les mécanismes de traitement «!cachés!» dans le cerveau Audition des sons purs (audiogramme) d ’où la touche «!loudness!» des amplis 0 dB SPL - seuil d!’audition - 10-12 W/m2 / 20µPa 20 dB SPL - voix chuchotée à 1 m - 10-10 W/m2 / 200µPa 60 dB SPL - rue calme - 10-6 W/m2 / 20mPa 70 dB SPL - conversation à 1 m - 120 dB SPL - seuil douleur /discothèque - 1 W/m2 / 20 Pa 140 dB SPL - avion à réaction - 100 W/m2 / 200 Pa 220 dB SPL - canon à 4 m - 1010 W/m2 / 2MPa Intensité des sons purs (sonie) I T test Son Seuil d’audibilité S1 (audiogramme) F Son masq uant M Seuil d’audibilité S2 > S1 I T test Son F La perte des aigus avec l’âge Le son vert est un son «!masquant!» masquage simultané (T et M synchros) masquage avant (M avant T) masquage arrière (M après T) Masquage Application MPEG3 3. Analyse de Scènes Auditives (Auditory Scene Analysis, ASA - Bregman) Des objets temps-fréquence aux objets-flux Formes et objets multisensoriels Quels principes de regroupement ? Formes auditives Le mouvement, déterminant pour faire émerger les formes auditives Le mouvement, déterminant pour faire émerger les formes auditives : Le «!destin commun!» a i Demo 19 ou fréquence temps Structuration des flux Structuration des flux (suite) Continuités Wessell illusion A-B : dem16 A X-A-B-X : dem16 B (C-X)-A-B-(X-C) : dem16 C Emergence d!’un flux par rapport à un autre dem22A dem34 dem22B Emergence d’un flux par rapport à un autre (suite) Fond et forme !Fo between two sentences (Bird & Darwin 1998; after Brokx & Nooteboom, 1982) Masking sentence = 140 Hz ± 0,1,2,5,10 semitones Target sentence Fo = 140 Hz Task: write down target sentence 100 Normal 80 % words recognised Demo 29 Two sentences (same talker) • only voiced consonants • (with very few stops) Thus maximising Fo effect 60 40 Perfect Fourth ~4:3 20 Replicates & extends Brokx & Nooteboom 40 Subjects 40 Sentence Pairs 0 0 2 4 6 8 Fo difference (semitones) Conclusion Un monde audible fait d’objets sonores Dont la nature peut être révélée par des critères de cohérence spectro-temporelle (ASA : F0, attaques, DI, etc) Ou par des techniques de séparation de sources (BSS, ACI/ICA : autant de capteurs que de sources, indépendance statistique) 10