codage psychoacoustique

publicité
Le codage psycho-acoustique
Problématique
●
Encodage physique vs psychoacoustique
●
Identifier le contenu imperceptible du signal
●
Réduire le # de bits
●
●
●
Cacher le bruit de quantification sous le seuil
d'écoute
Q : combien peut-on ajouter de bruit sans que
cela s'entende ?
PCM : gaspillage de bits...
Psycho-acoustique
●
Distinguer les détails d'un son musical
●
“5ème vs 7ème harmonique”
●
“1000 vs 1002 Hz”
●
●
Hauteur subjective d'un son grave (sinus pur
vs son complexe)
=> réponse subjective aux sons entendus
Psycho-acoustique
●
Perception fréquentielle logarithmique
●
Importance des octaves et quintes
●
cf. notation musicale, gammes
●
Fréquence vs hauteur tonale (pitch)
●
Relation pitch – intensité sonore
●
Battements, sum tones
●
Ex : sin (65 Hz) + sin (98 Hz) ~ sin 82 Hz
Psycho-acoustique
●
Perception de l'intensité : logarithmique (dB)
●
Sensibilité max @ 1-5kHz
●
Equal-loudness curves (Robison-Dadson)
●
Localisation : différence de phase G/D
●
Stéréo : illusion !
●
Exemple : 2 mélodies asc./descendante
jouées sur canaux G & D → illusion sonore
Courbes iso-soniques
de Robinson-Dadson
Codeur psycho-acoustique
●
L'oreille ne perçoit qu'une fraction de
l'information audiophonique → entropie !
●
Signaux à entropie variable
●
VBR !
●
●
Supprimer les fractions non-pertinentes du
signal = à faible entropie
Compression utilisant la subjectivité de
l'auditeur...
Anatomie simplifiée de l'oreille
Anatomie simplifiée de l'oreille
Anatomie simplifiée de l'oreille
●
Pavillon : localisation verticale de la source
●
Canal externe : résonance à 3 kHz (parole)
●
Tympan : excursion maxi @ 120 dB SPL
●
●
●
3 os : marteau – enclume – étrier →
adaptation d'impédance
Canal vestibulaire → sens de l'équilibre
Cochlée = membrane basilaire enroulée en
colimaçon → mesure amplitude/fréquence.
Cochlée
●
Vibrations internes (fluide basilaire) transmises
au nerf auditif (paquet de nerfs/neurones)
●
30000 cils le long de la membrane basilaire
●
Chaque point de la membrane = une fréq.
●
●
Position du maximum des ondes stationnaires
dans la cochlée → fréquence (méthode 1)
Stimulation de groupes de neurones →
fréquence (méthode 2)
Bandes critiques
●
●
●
Basse fréquence : signaux séparables si
f2 – f1 ~ qques Hz
Haute fréquence : quelques centaines de Hz
Les cellules cilées répondent au plus fort
signal de leur région : bande critique.
●
100Hz de largeur entre 20-400 Hz
●
1/5 octave pour 1-7kHz
●
Modèle de Zwicker ci-dessous (Barks)
Bandes critiques
Seuillage & masquage
●
●
●
Deux phénomènes fondamentaux dans
l'écoute :
1) seuil d'écoute (0 sone) → dépend de la
bande de fréquence
2) masquage par amplitude → modification
dynamique & temporaire du seuil par un son
masquant
Effet de masquage
Effet de masquage
Masquage vs SPL
Masquage temporel
Masquage combiné t/f
Principe du codage psychoacoustique
Bits/sample Taux de compression 48 kHz 44.1 kHz
16
1:1
768 kbps
705.6
8
2:1
384
352.8
4
4:1
192
176
2.67
6:1
128
117.7
2
8:1
96
88.2
1.45
11:1
69.6
64
Stratégies d'allocation de
ressources
●
Allocation de bits “forward” : à l'encodage.
●
→ allocation très fine & précise.
●
→ modèle psycho dans l'encodeur
●
→ décodeur lightweight
●
●
→ mais une partie du stream utilisée pour les
informations d'allocation
Allocation de bits “backward” : au décodage à
partir du flux ; décodeur complexe !
Tolérance aux erreurs
●
●
●
●
●
PCM : erreur = click audible (bruit large
bande)
Codage psycho-acoustique : error limitée à la
bande critique encodée
→ erreur = impulsion de bruit de faible niveau
→ correction d'erreur ciblée (ex : pianissimo
vs. forte)
→ attention toutefois à la mise en cascade !
Encodage/décodage fréquentiel
Codage/décodage par bande
Codage/décodage par bande
Allocation de bits
Allocation de bits/bande
Codage par transformée
Banc de filtres
ISO/MPEG-1 audio Layer I & II
Algorithme Layer I: architecture
Layer I : exemple d'encodeur Philips
Layer I : exemple de décodeur
Téléchargement