Introduction Audition Psychovision Modèles de perception Audition, psychovision, couleur Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 29 Septembre 2010 M. Cagnazzo Perception 1/34 Introduction Audition Psychovision Plan 1 Introduction 2 Audition L’oreille Seuil d’audition Le masquage 3 Psychovision L’oeil La couleur Perception des images M. Cagnazzo Perception 2/34 Introduction Audition Psychovision Plan 1 Introduction 2 Audition L’oreille Seuil d’audition Le masquage 3 Psychovision L’oeil La couleur Perception des images M. Cagnazzo Perception 3/34 Introduction Audition Psychovision Introduction Pourquoi des modèles de perception ? Codage sans perte : faible rapport de compression Information représentée : trop ? On est pas capable de percevoir toute l’information présente dans un signal audio ou visuel Idée : ne pas représenter l’information inutile Codage perceptually lossless Qualité équivalente à l’originale Rapports de compression beaucoup plus élevés que dans le cas lossless M. Cagnazzo Perception 4/34 Introduction Audition Psychovision Introduction Modèles de perception Les modèles de perception permettent d’évaluer la qualité d’un signal audio-visuel L’évaluation est mathématique (mise en ouvre par ordinateur) Courbes débit-qualité : comparaison des codeurs M. Cagnazzo Perception 5/34 Introduction Audition Psychovision Mesures de qualité : l’EQM Erreur Quadratique Moyenne ou Mean Square Error MSE = N−1 2 1 X x (n) − xb(n) N n=0 Norme quadratique, facile à traiter (dérivée, minimisation, ...) Mesure équivalente : le PSNR, pour un signal sur b bits : PSNR = 10 log10 2 2b − 1 MSE Corrélation avec la qualité perçue pas toujours satisfaisante Avec des modèles de perception, on peut définir des mesures plus proche à la qualité expérimentée par un observateur M. Cagnazzo Perception 6/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Plan 1 Introduction 2 Audition L’oreille Seuil d’audition Le masquage 3 Psychovision L’oeil La couleur Perception des images M. Cagnazzo Perception 7/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Audition L’oreille Oreille externe (pavillon, conduit auditif) Oreille moyenne (chaîne ossiculaire, tympan) Oreille interne (cochlée: 3,5cm; membrane basilaire) Oreille externe et oreille moyenne : filtre passe-bande (20Hz ÷ 20kHz) La membrane basilaire est dense ment innervée M. Cagnazzo Perception 8/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Perception d’un son pur Son pur : x (t) = a sin(2πf1 t) sinusoïde de puissance σ 2 = a2 2 Ce son excite plusieurs fibres nerveuses (étalement de la puissance) Modèle : banc de M filtres Le k filtre correspond à la k -ème fibre nerveuse La réponse en fréquence du k -ième filtre est Hk (f ) = Ak (f ) expjφk (f ) La réponse a la sinusoïde à fréquence f1 est : yk (t) = aAk (f1 ) sin [2πf1 t + φk (f1 )] Le rapport entre les puissances est la fonction d’étalement : SE (k ) = A2k (f1 ) M. Cagnazzo Perception 9/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Seuil d’audition Power − dB 120 Sa (f ) 80 40 0 20 50 100 200 500 1000 2000 5000 10000 Frequency − Hz La gamme de fréquence audible est comprise entre 20Hz et 20kHz La puissance minimale nécessaire pour que le son soit audible est Sa (f ) Sa (f ) varie avec la fréquence et a un minimum entre 1 et 4kHz (parole) M. Cagnazzo Perception 10/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Bande critique (BC) Une sinusoïde de fréquence f1 doit avoir puissance σ12 > Sa (f1 ) pour être audible P Pour N sinusoïdes de fréquence proche à f1 il suffit que i σi2 > Sa (f1 ) Les sinusoïdes sont proches si sont dans la bande critique L’amplitude de la BC varie avec f1 Critical bands 2 10 3 10 Frequency − Hz M. Cagnazzo Perception 4 10 11/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Courbes de masquage Masquage fréquentiel Power − dB 120 80 40 0 20 50 100 200 500 1000 2000 5000 10000 Frequency − Hz Le son masquante (rouge) réduit la sensibilité à un deuxième son On définit Sm (f0 , σ 2 , f ) la puissance minimale pour un son pur a fréquence f pour ne pas être masque par un son pur à f0 et de puissance σ 2 , avec σ 2 > Sa (f0 ) La même courbe est valable pour du bruit à bande étroite M. Cagnazzo Perception 12/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Fonction de masquage fréquentiel Sm (f0 , σ 2 , f ) Power − dB Sm (f1 , σ12 , f ) Pour f0 et σ 2 donnés, Sm (f ) a une allure triangulaire Sm (f2 , σ22 , f ) Le maximum est pour f = f0 Indice de masquage: Sm (f , σ 2 , f ) − σ 2 Frequency − Hz On observe que Sm (f , σ 2 , f ) < σ 2 (le deuxième son ne doit pas forcement être plus puissant du premier) Le décroissance est moins rapide quand f1 augmente La pente de décroissance est proportionnelle à la BC La pente vers le fréquence supérieures est fonction (décroissante) de σ 2 M. Cagnazzo Perception 13/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Courbes de masquage Masquage temporel Power − dB Time Pré-masquage : 2÷5 ms Post-masquage : 100÷200 ms M. Cagnazzo Perception 14/34 Introduction Audition Psychovision L’oreille Seuil d’audition Le masquage Applicabilité du modèle Le modèle psychoacustique permet de déterminer certains parties du signal non-audibles On permet au bruit de quantification de monter en puissance à condition de rester non-audible Tout de même, le modèle est loin d’être parfait : Sol les sons pur ou à bande étroite sont considérés On est capable de évaluer l’influence réciproque de pas plus que 3 sons à la fois Les signaux réels sont composés de très nombreuses contributions : comment interagissent-elles ? En pratique, les paramètres des algorithmes de compression de son sont déterminés de façon expérimentale, après un grand nombre de tests M. Cagnazzo Perception 15/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Plan 1 Introduction 2 Audition L’oreille Seuil d’audition Le masquage 3 Psychovision L’oeil La couleur Perception des images M. Cagnazzo Perception 16/34 Introduction Audition Psychovision L’oeil La couleur Perception des images L’oeil Lumière transformée en impulsion nerveuse par les récepteurs (rétine) Cônes (6÷7 millions, au centre de la rétine) : très sensibles aux couleurs, une bonne résolution, demandent beaucoup de lumière Bâtonnets (75÷150 millions) : sensibles à l’intensité lumineuse, faible résolution, très sensibles à faible luminosité Nombre de récepteurs par mm2 180000 Blind spot Cônes Bâtonnets 135000 90000 45000 80 60 40 20 M. Cagnazzo 0 Degrees 20 Perception 40 60 80 17/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception de la lumière Luminosité perçue : fonction logarithmique de l’intensité Dynamique des valeurs d’intensité : ≈ 1010 (100dB) Le système visuel ne peut pas opérer sur cette échelle simultanément Changements de la sensibilité globale, dynamique beaucoup plus limitée Luminosité perçue : ce n’est pas une simple fonction de l’intensité M. Cagnazzo Perception Intensité lumineuse Intensité perçue 18/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Sensibilité aux fréquences spatiales 0 % Constrast 2 La sensibilité au contrast est l’habilité à discerner différents niveaux de luminosité 6 Maximum à environ 2-5 cycles par degré 25 100 240 120 60 Pixels per cycle M. Cagnazzo 30 Perception 15 19/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception de la couleur 445 nm Cônes sensibles à différents intervalles 65% sensible au rouge 33% sensible au vert 2% sensible au bleu (mais très sensibles) Sensation de la couleur : correspond au tristimulus 400 Couleur obtenue comme combinaison des couleurs primaires 535 nm 575 nm Absorption Spectre visible : 400÷700 nm 450 500 550 600 650 700 Wavelenght [nm] M. Cagnazzo Perception 20/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Espaces de couleurs Espace RGB M. Cagnazzo Espace HSV Perception 21/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Représentation des images numériques Images en niveaux de gris Grille discrète, image N × M pixels A chaque pixel (m, n), on associe un ordre de traitement k Généralement, balayage ligne par ligne unilatéral : k = (n − 1)M + m On notera indifféremment fn,m ou fk m M n fn,m = fk N M. Cagnazzo Perception 22/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Représentation des images numériques Images couleurs : Format RVB Images en couleurs : trois composantes, chacune représentée comme une image en niveaux de gris. M. Cagnazzo Perception 23/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Représentation des images numériques Images couleurs : Format YUV Images en couleurs : une composante de luminance et deux de chrominance (sous-échantillonnées). M. Cagnazzo Perception 24/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Critères de qualité et distorsion La qualité d’une image numérique est établie en utilisant des critères Les Critères objectifs sont fonctions mathématiques de fn,m : image d’origine ; et efn,m : image reconstruite après compression Critères objectifs non perceptuels Erreur quadratique moyenne (MSE) : PN PM D = N1M n=1 m=1 (fn,m − efn,m )2 Rapport signal sur bruit crête : PSNR = 10 log10 2552 D Critères objectifs perceptuels On utilise des modèles de perception Le plus commune est le SSIM (Structural SIMilarity) index M. Cagnazzo Perception 25/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Critères de qualité et distorsion Les Critères subjectifs sont basés sur l’évaluation de la qualité des image faite par des humaines Difficulté de créer un bon modèle du SVH Analyse statistique des résultats Évaluations longues, difficiles et coûteuses En conclusion, souvent on se limite à utiliser les critères objectifs non perceptuels : Simplicité Interprétation géométrique (norme euclidienne) Optimisation analytique Relation avec la qualité perçue ? M. Cagnazzo Perception 26/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception des erreurs Erreur distribuée, bruit blanc σ = 4 MSE: 16 M. Cagnazzo SSIM: 0.906 Perception 27/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception des erreurs Bruit concentré sur 100 × 100 pixels MSE: 16 M. Cagnazzo SSIM: 0.972 Perception 28/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception des erreurs Bruit concentré sur les contours (estimation par filtre de Sobel) MSE: 16 M. Cagnazzo SSIM: 0.987 Perception 29/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception des erreurs Bruit sur les hautes fréquences spatiales MSE: 16 M. Cagnazzo SSIM: 0.882 Perception 30/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception des erreurs Sous-échantillonnement dans l’espace des couleurs MSE: 21.27 M. Cagnazzo SSIM: — Perception 31/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Effets spatiaux Intensité lumineuse Intensité perçue M. Cagnazzo Perception 32/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Perception de la vidéo Sensibilité aux fréquences spatio-temporelles (ralenti) Masquage spatiale (comme dans les images) Sensitiviy Masquage temporel Scene Change M. Cagnazzo Perception 33/34 Introduction Audition Psychovision L’oeil La couleur Perception des images Conclusion Modèles perceptuels nécessaires pour des bons performances de compression Système d’audition relativement bien compris, et exploité dans les codeurs audio Système de perception visuel encore loin d’être parfaitement compris Manque de mesures perceptuelles de qualité complètement fiables Tout de même, les meilleures performances de compression ne peuvent pas être atteintes si on tient pas en compte l’aspect psychovisuel M. Cagnazzo Perception 34/34