Modèles de perception - Audition, psychovision, couleur

publicité
Introduction
Audition
Psychovision
Modèles de perception
Audition, psychovision, couleur
Marco Cagnazzo
Département Traitement du Signal et des Images
TELECOM ParisTech
29 Septembre 2010
M. Cagnazzo
Perception
1/34
Introduction
Audition
Psychovision
Plan
1
Introduction
2
Audition
L’oreille
Seuil d’audition
Le masquage
3
Psychovision
L’oeil
La couleur
Perception des images
M. Cagnazzo
Perception
2/34
Introduction
Audition
Psychovision
Plan
1
Introduction
2
Audition
L’oreille
Seuil d’audition
Le masquage
3
Psychovision
L’oeil
La couleur
Perception des images
M. Cagnazzo
Perception
3/34
Introduction
Audition
Psychovision
Introduction
Pourquoi des modèles de perception ?
Codage sans perte : faible rapport de compression
Information représentée : trop ?
On est pas capable de percevoir toute l’information
présente dans un signal audio ou visuel
Idée : ne pas représenter l’information inutile
Codage perceptually lossless
Qualité équivalente à l’originale
Rapports de compression beaucoup plus élevés que dans
le cas lossless
M. Cagnazzo
Perception
4/34
Introduction
Audition
Psychovision
Introduction
Modèles de perception
Les modèles de perception permettent d’évaluer la
qualité d’un signal audio-visuel
L’évaluation est mathématique (mise en ouvre par
ordinateur)
Courbes débit-qualité : comparaison des codeurs
M. Cagnazzo
Perception
5/34
Introduction
Audition
Psychovision
Mesures de qualité : l’EQM
Erreur Quadratique Moyenne ou Mean Square Error
MSE =
N−1
2
1 X
x (n) − xb(n)
N
n=0
Norme quadratique, facile à traiter (dérivée, minimisation, ...)
Mesure équivalente : le PSNR, pour un signal sur b bits :
PSNR = 10 log10
2
2b − 1
MSE
Corrélation avec la qualité perçue pas toujours satisfaisante
Avec des modèles de perception, on peut définir des mesures plus
proche à la qualité expérimentée par un observateur
M. Cagnazzo
Perception
6/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Plan
1
Introduction
2
Audition
L’oreille
Seuil d’audition
Le masquage
3
Psychovision
L’oeil
La couleur
Perception des images
M. Cagnazzo
Perception
7/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Audition
L’oreille
Oreille externe (pavillon, conduit auditif)
Oreille moyenne (chaîne ossiculaire, tympan)
Oreille interne (cochlée: 3,5cm; membrane basilaire)
Oreille externe et oreille moyenne : filtre passe-bande
(20Hz ÷ 20kHz)
La membrane basilaire est dense ment innervée
M. Cagnazzo
Perception
8/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Perception d’un son pur
Son pur : x (t) = a sin(2πf1 t) sinusoïde de puissance σ 2 =
a2
2
Ce son excite plusieurs fibres nerveuses (étalement de la
puissance)
Modèle : banc de M filtres
Le k filtre correspond à la k -ème fibre nerveuse
La réponse en fréquence du k -ième filtre est
Hk (f ) = Ak (f ) expjφk (f )
La réponse a la sinusoïde à fréquence f1 est :
yk (t) = aAk (f1 ) sin [2πf1 t + φk (f1 )]
Le rapport entre les puissances est la fonction d’étalement :
SE (k ) = A2k (f1 )
M. Cagnazzo
Perception
9/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Seuil d’audition
Power − dB
120
Sa (f )
80
40
0
20
50
100
200
500
1000
2000
5000
10000
Frequency − Hz
La gamme de fréquence audible est comprise entre 20Hz et 20kHz
La puissance minimale nécessaire pour que le son soit audible est
Sa (f )
Sa (f ) varie avec la fréquence et a un minimum entre 1 et 4kHz (parole)
M. Cagnazzo
Perception
10/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Bande critique (BC)
Une sinusoïde de fréquence f1 doit avoir puissance σ12 > Sa (f1 ) pour
être audible
P
Pour N sinusoïdes de fréquence proche à f1 il suffit que i σi2 > Sa (f1 )
Les sinusoïdes sont proches si sont dans la bande critique
L’amplitude de la BC varie avec f1
Critical bands
2
10
3
10
Frequency − Hz
M. Cagnazzo
Perception
4
10
11/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Courbes de masquage
Masquage fréquentiel
Power − dB
120
80
40
0
20
50
100
200
500
1000
2000
5000
10000
Frequency − Hz
Le son masquante (rouge) réduit la sensibilité à un deuxième son
On définit Sm (f0 , σ 2 , f ) la puissance minimale pour un son pur a
fréquence f pour ne pas être masque par un son pur à f0 et de
puissance σ 2 , avec σ 2 > Sa (f0 )
La même courbe est valable pour du bruit à bande étroite
M. Cagnazzo
Perception
12/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Fonction de masquage fréquentiel Sm (f0 , σ 2 , f )
Power − dB
Sm (f1 , σ12 , f )
Pour f0 et σ 2 donnés, Sm (f ) a
une allure triangulaire
Sm (f2 , σ22 , f )
Le maximum est pour f = f0
Indice de masquage:
Sm (f , σ 2 , f ) − σ 2
Frequency − Hz
On observe que Sm (f , σ 2 , f ) < σ 2 (le deuxième son ne doit pas
forcement être plus puissant du premier)
Le décroissance est moins rapide quand f1 augmente
La pente de décroissance est proportionnelle à la BC
La pente vers le fréquence supérieures est fonction (décroissante)
de σ 2
M. Cagnazzo
Perception
13/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Courbes de masquage
Masquage temporel
Power − dB
Time
Pré-masquage : 2÷5 ms
Post-masquage : 100÷200 ms
M. Cagnazzo
Perception
14/34
Introduction
Audition
Psychovision
L’oreille
Seuil d’audition
Le masquage
Applicabilité du modèle
Le modèle psychoacustique permet de déterminer certains
parties du signal non-audibles
On permet au bruit de quantification de monter en
puissance à condition de rester non-audible
Tout de même, le modèle est loin d’être parfait :
Sol les sons pur ou à bande étroite sont considérés
On est capable de évaluer l’influence réciproque de pas
plus que 3 sons à la fois
Les signaux réels sont composés de très nombreuses
contributions : comment interagissent-elles ?
En pratique, les paramètres des algorithmes de
compression de son sont déterminés de façon
expérimentale, après un grand nombre de tests
M. Cagnazzo
Perception
15/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Plan
1
Introduction
2
Audition
L’oreille
Seuil d’audition
Le masquage
3
Psychovision
L’oeil
La couleur
Perception des images
M. Cagnazzo
Perception
16/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
L’oeil
Lumière transformée en impulsion nerveuse par les récepteurs (rétine)
Cônes (6÷7 millions, au centre de la rétine) : très sensibles aux
couleurs, une bonne résolution, demandent beaucoup de lumière
Bâtonnets (75÷150 millions) : sensibles à l’intensité lumineuse,
faible résolution, très sensibles à faible luminosité
Nombre de récepteurs par mm2
180000
Blind spot
Cônes
Bâtonnets
135000
90000
45000
80
60
40
20
M. Cagnazzo
0
Degrees
20
Perception
40
60
80
17/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception de la lumière
Luminosité perçue : fonction logarithmique de
l’intensité
Dynamique des valeurs d’intensité : ≈ 1010
(100dB)
Le système visuel ne peut pas opérer sur cette
échelle simultanément
Changements de la sensibilité globale,
dynamique beaucoup plus limitée
Luminosité perçue : ce n’est pas une simple
fonction de l’intensité
M. Cagnazzo
Perception
Intensité lumineuse
Intensité perçue
18/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Sensibilité aux fréquences spatiales
0
% Constrast
2
La sensibilité au
contrast est
l’habilité à discerner
différents niveaux
de luminosité
6
Maximum à environ
2-5 cycles par
degré
25
100
240
120
60
Pixels per cycle
M. Cagnazzo
30
Perception
15
19/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception de la couleur
445 nm
Cônes sensibles à différents
intervalles
65% sensible au rouge
33% sensible au vert
2% sensible au bleu (mais très sensibles)
Sensation de la couleur :
correspond au tristimulus
400
Couleur obtenue comme
combinaison des couleurs
primaires
535 nm 575 nm
Absorption
Spectre visible : 400÷700 nm
450
500
550
600
650
700
Wavelenght [nm]
M. Cagnazzo
Perception
20/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Espaces de couleurs
Espace RGB
M. Cagnazzo
Espace HSV
Perception
21/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Représentation des images numériques
Images en niveaux de gris
Grille discrète, image N × M pixels
A chaque pixel (m, n), on associe un ordre de traitement k
Généralement, balayage ligne par ligne unilatéral :
k = (n − 1)M + m
On notera indifféremment fn,m ou fk
m
M
n
fn,m = fk
N
M. Cagnazzo
Perception
22/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Représentation des images numériques
Images couleurs : Format RVB
Images en couleurs : trois composantes, chacune représentée
comme une image en niveaux de gris.
M. Cagnazzo
Perception
23/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Représentation des images numériques
Images couleurs : Format YUV
Images en couleurs : une composante de luminance et deux
de chrominance (sous-échantillonnées).
M. Cagnazzo
Perception
24/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Critères de qualité et distorsion
La qualité d’une image numérique est établie en utilisant des critères
Les Critères objectifs sont fonctions mathématiques de
fn,m : image d’origine ; et
efn,m : image reconstruite après compression
Critères objectifs non perceptuels
Erreur quadratique moyenne (MSE) :
PN PM
D = N1M n=1 m=1 (fn,m − efn,m )2
Rapport signal sur bruit crête : PSNR = 10 log10
2552
D
Critères objectifs perceptuels
On utilise des modèles de perception
Le plus commune est le SSIM (Structural SIMilarity) index
M. Cagnazzo
Perception
25/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Critères de qualité et distorsion
Les Critères subjectifs sont basés sur l’évaluation de la
qualité des image faite par des humaines
Difficulté de créer un bon modèle du SVH
Analyse statistique des résultats
Évaluations longues, difficiles et coûteuses
En conclusion, souvent on se limite à utiliser les critères
objectifs non perceptuels :
Simplicité
Interprétation géométrique (norme euclidienne)
Optimisation analytique
Relation avec la qualité perçue ?
M. Cagnazzo
Perception
26/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception des erreurs
Erreur distribuée, bruit blanc σ = 4
MSE: 16
M. Cagnazzo
SSIM: 0.906
Perception
27/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception des erreurs
Bruit concentré sur 100 × 100 pixels
MSE: 16
M. Cagnazzo
SSIM: 0.972
Perception
28/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception des erreurs
Bruit concentré sur les contours (estimation par filtre de Sobel)
MSE: 16
M. Cagnazzo
SSIM: 0.987
Perception
29/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception des erreurs
Bruit sur les hautes fréquences spatiales
MSE: 16
M. Cagnazzo
SSIM: 0.882
Perception
30/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception des erreurs
Sous-échantillonnement dans l’espace des couleurs
MSE: 21.27
M. Cagnazzo
SSIM: —
Perception
31/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Effets spatiaux
Intensité lumineuse
Intensité perçue
M. Cagnazzo
Perception
32/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Perception de la vidéo
Sensibilité aux fréquences spatio-temporelles (ralenti)
Masquage spatiale (comme dans les images)
Sensitiviy
Masquage temporel
Scene
Change
M. Cagnazzo
Perception
33/34
Introduction
Audition
Psychovision
L’oeil
La couleur
Perception des images
Conclusion
Modèles perceptuels nécessaires pour des bons
performances de compression
Système d’audition relativement bien compris, et exploité
dans les codeurs audio
Système de perception visuel encore loin d’être
parfaitement compris
Manque de mesures perceptuelles de qualité
complètement fiables
Tout de même, les meilleures performances de
compression ne peuvent pas être atteintes si on tient pas
en compte l’aspect psychovisuel
M. Cagnazzo
Perception
34/34
Téléchargement