Le codage psycho-acoustique Problématique ● Encodage physique vs psychoacoustique ● Identifier le contenu imperceptible du signal ● Réduire le # de bits ● ● ● Cacher le bruit de quantification sous le seuil d'écoute Q : combien peut-on ajouter de bruit sans que cela s'entende ? PCM : gaspillage de bits... Psycho-acoustique ● Distinguer les détails d'un son musical ● “5ème vs 7ème harmonique” ● “1000 vs 1002 Hz” ● ● Hauteur subjective d'un son grave (sinus pur vs son complexe) => réponse subjective aux sons entendus Psycho-acoustique ● Perception fréquentielle logarithmique ● Importance des octaves et quintes ● cf. notation musicale, gammes ● Fréquence vs hauteur tonale (pitch) ● Relation pitch – intensité sonore ● Battements, sum tones ● Ex : sin (65 Hz) + sin (98 Hz) ~ sin 82 Hz Psycho-acoustique ● Perception de l'intensité : logarithmique (dB) ● Sensibilité max @ 1-5kHz ● Equal-loudness curves (Robison-Dadson) ● Localisation : différence de phase G/D ● Stéréo : illusion ! ● Exemple : 2 mélodies asc./descendante jouées sur canaux G & D → illusion sonore Courbes iso-soniques de Robinson-Dadson Codeur psycho-acoustique ● L'oreille ne perçoit qu'une fraction de l'information audiophonique → entropie ! ● Signaux à entropie variable ● VBR ! ● ● Supprimer les fractions non-pertinentes du signal = à faible entropie Compression utilisant la subjectivité de l'auditeur... Anatomie simplifiée de l'oreille Anatomie simplifiée de l'oreille Anatomie simplifiée de l'oreille ● Pavillon : localisation verticale de la source ● Canal externe : résonance à 3 kHz (parole) ● Tympan : excursion maxi @ 120 dB SPL ● ● ● 3 os : marteau – enclume – étrier → adaptation d'impédance Canal vestibulaire → sens de l'équilibre Cochlée = membrane basilaire enroulée en colimaçon → mesure amplitude/fréquence. Cochlée ● Vibrations internes (fluide basilaire) transmises au nerf auditif (paquet de nerfs/neurones) ● 30000 cils le long de la membrane basilaire ● Chaque point de la membrane = une fréq. ● ● Position du maximum des ondes stationnaires dans la cochlée → fréquence (méthode 1) Stimulation de groupes de neurones → fréquence (méthode 2) Bandes critiques ● ● ● Basse fréquence : signaux séparables si f2 – f1 ~ qques Hz Haute fréquence : quelques centaines de Hz Les cellules cilées répondent au plus fort signal de leur région : bande critique. ● 100Hz de largeur entre 20-400 Hz ● 1/5 octave pour 1-7kHz ● Modèle de Zwicker ci-dessous (Barks) Bandes critiques Seuillage & masquage ● ● ● Deux phénomènes fondamentaux dans l'écoute : 1) seuil d'écoute (0 sone) → dépend de la bande de fréquence 2) masquage par amplitude → modification dynamique & temporaire du seuil par un son masquant Effet de masquage Effet de masquage Masquage vs SPL Masquage temporel Masquage combiné t/f Principe du codage psychoacoustique Bits/sample Taux de compression 48 kHz 44.1 kHz 16 1:1 768 kbps 705.6 8 2:1 384 352.8 4 4:1 192 176 2.67 6:1 128 117.7 2 8:1 96 88.2 1.45 11:1 69.6 64 Stratégies d'allocation de ressources ● Allocation de bits “forward” : à l'encodage. ● → allocation très fine & précise. ● → modèle psycho dans l'encodeur ● → décodeur lightweight ● ● → mais une partie du stream utilisée pour les informations d'allocation Allocation de bits “backward” : au décodage à partir du flux ; décodeur complexe ! Tolérance aux erreurs ● ● ● ● ● PCM : erreur = click audible (bruit large bande) Codage psycho-acoustique : error limitée à la bande critique encodée → erreur = impulsion de bruit de faible niveau → correction d'erreur ciblée (ex : pianissimo vs. forte) → attention toutefois à la mise en cascade ! Encodage/décodage fréquentiel Codage/décodage par bande Codage/décodage par bande Allocation de bits Allocation de bits/bande Codage par transformée Banc de filtres ISO/MPEG-1 audio Layer I & II Algorithme Layer I: architecture Layer I : exemple d'encodeur Philips Layer I : exemple de décodeur