Multimédia – Rappels

publicité
Multimédia – Rappels
François Cayre
[email protected]
Grenoble-INP
2012–2013
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
1 / 43
Rappels de probabilités
Définitions
Plan
1
Rappels de probabilités
Définitions
Variables jointes et indépendance
Variables conditionnelles
2
Rappels de statistiques
3
Eléments de théorie de l’information
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
2 / 43
Rappels de probabilités
Définitions
Evénements et mesure de probabilité
Définition (Ensemble des possibles)
Soit A un ensemble de taille |A|.
A est appelé l’ensemble des événements possibles.
Soit ai un singleton de A.
Soit Ai ⊂ A un sous-ensemble de A.
Définition (Mesure de probabilité)
P est une mesure de probabilité sur A ssi :
∀ai ∈ A , 0 ≤ P(ai ) ≤ 1 ;
P(A) = 1 ;
Si (An ) est une suite d’événements
t.q. P
S
∞
A
i 6= j, Ai ∩ Aj = ∅ , alors P ( ∞
n=1 n ) =
n=1 P (An ).
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
3 / 43
Rappels de probabilités
Définitions
Variables aléatoires
Définition (Variable aléatoire)
Une variable aléatoire (v.a.) X est définie par un triplet X = (x , AX , pX ),
avec :
x : le résultat de l’expérience aléatoire (un tirage) ;
AX : les valeurs possibles pour x ;
pX = p1 , . . . , p|AX | la loi de probabilité de AX .
On a alors :
Pr[x = ai ] = pi = P(x ),
(1)
et :
P(Ai ) =
X
(2)
pj .
aj ∈Ai
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
4 / 43
Rappels de probabilités
Définitions
Probabilités (illustration)
Probabilité d’occurence des caractères
Source : Biographical Essays de Thomas de Quincey.
0.16
Fréquence d'apparition des lettres
0.14
0.12
Fréquence
0.10
0.08
0.06
0.04
0.02
0.00 a
b c d e f
F. Cayre (G-INP)
g h
i
j
k
l m n o p q r s t
Multimédia – Rappels
u v w x y z
2012–2013
5 / 43
Rappels de probabilités
Définitions
Probabilités (illustration)
Probabilité d’occurence des caractères
Source : Candide de Voltaire.
0.16
Fréquence d'apparition des lettres
0.14
0.12
Fréquence
0.10
0.08
0.06
0.04
0.02
0.00 a
b c d e f
F. Cayre (G-INP)
g h
i
j
k
l m n o p q r s t
Multimédia – Rappels
u v w x y z
2012–2013
6 / 43
Rappels de probabilités
Définitions
Espérance et variance
Définition (Espérance)
Soit X = (x , AX , pX ) une v.a. à valeurs réelles (v.a.r.), i.e. AX ⊂ R.
L’espérance d’une telle v.a. est :
X
a i pi .
(3)
E [X ] =
ai ∈AX
Définition (Variance)
La variance d’une v.a.r. est :
Var [X ] = E (X − E [X ])2 = E X 2 − E [X ]2 = σX2 .
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
(4)
7 / 43
Rappels de probabilités
Variables jointes et indépendance
Plan
1
Rappels de probabilités
Définitions
Variables jointes et indépendance
Variables conditionnelles
2
Rappels de statistiques
3
Eléments de théorie de l’information
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
8 / 43
Rappels de probabilités
Variables jointes et indépendance
Variables jointes et indépendance
Définition (Variables jointes et indépendance)
Soient X = (x , AX , pX ) et Y = (y , BY , pY ) deux v.a.
La variable jointe X , Y a pour loi de probabilité jointe :
P(x , y ) = Pr[x = ai et y = bj ].
(5)
De plus, X et Y sont indépendantes ssi P(x , y ) = P(x )P(y ).
Définition (Marginalisation)
Connaissant P(x , y ), on peut obtenir la loi marginale P(y ) comme suit :
X
P(y ) =
P(x , y ).
(6)
x∈AX
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
9 / 43
Rappels de probabilités
Variables conditionnelles
Plan
1
Rappels de probabilités
Définitions
Variables jointes et indépendance
Variables conditionnelles
2
Rappels de statistiques
3
Eléments de théorie de l’information
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
10 / 43
Rappels de probabilités
Variables conditionnelles
Variables conditionnelles
Définition (Probabilité conditionnelle)
Si P(y = bi ) 6= 0, alors la probabilité que x = ai sachant que y = bj
s’écrit :
P(x = ai , y = bj )
.
(7)
P(x = ai |y = bi ) =
P(y = bj )
Corollaire (Règle de chaînage ou règle du produit)
P(x , y ) = P(x |y )P(y ) = P(y |x )P(x ).
(8)
Corollaire (Règle de Bayes)
P(y |x ) =
F. Cayre (G-INP)
P(x |y )P(y )
.
P(x )
Multimédia – Rappels
(9)
2012–2013
11 / 43
Rappels de probabilités
Variables conditionnelles
Probabilités conditionnelles (illustration)
Probabilités conditionnelles d’occurence des caractères
Source : Biographical Essays de Thomas de Quincey.
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
F. Cayre (G-INP)
Fréquence d'apparition des digrammes
0.036
0.032
0.028
0.024
0.020
0.016
0.012
0.008
0.004
a b c d e f g h i j k l m n o p q r s t u v w x y z
Multimédia – Rappels
0.000
2012–2013
12 / 43
Rappels de probabilités
Variables conditionnelles
Probabilités conditionnelles (illustration)
Probabilités conditionnelles d’occurence des caractères
Source : Candide de Voltaire.
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
u
v
w
x
y
z
F. Cayre (G-INP)
Fréquence d'apparition des digrammes
0.027
0.024
0.021
0.018
0.015
0.012
0.009
0.006
0.003
a b c d e f g h i j k l m n o p q r s t u v w x y z
Multimédia – Rappels
0.000
2012–2013
13 / 43
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
Plan
1
Rappels de probabilités
2
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
Estimation paramétrique (ML, MAP)
3
Eléments de théorie de l’information
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
14 / 43
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
Hypothèses nulle et alternative
Hypothèse nulle H0
Hypothèse par défaut sur une expérience.
Ne peut jamais être prouvée.
Ne peut être qu’éventuellement rejetée.
Ex : un contenu multimédia n’est pas tatoué.
Hypothèse alternative H1
Hypothèse rivale de l’hypothèse nulle, souvent sa négation.
Ex : un contenu multimédia est tatoué.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
15 / 43
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
Probabilités d’erreur et de fausse alarme
Définition (Erreur)
Accepter H0 alors que H1 est vraie.
La probabilité d’erreur est notée Pe .
Définition (Fausse alarme)
Accepter H1 alors que H0 est vraie.
La probabilité de fausse alarme est notée Pfa .
Définition (Courbe ROC – Receiver Operating Characteristic)
La courbe ROC est : 1 − Pe = f (Pfa ).
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
16 / 43
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
En pratique
Nécessité de modéliser H0 et H1
On cherche à savoir si une valeur de test t provient du modèle de
H0 ou de celui de H1 .
Choix d’un seuil τ
Pe = Pr[t < τ|H1 ] ;
Pfa = Pr[t > τ|H0 ].
Application en tatouage : minimiser Pfa
On préfère laisser passer quelques pirates plutôt qu’accuser un
innocent à tort.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
17 / 43
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
Modélisation gaussienne de H0 et H1
Résultats
Soit P(x |H0 ) ∼ N (µ0 , σ02 ) et P(x |H1 ) ∼ N (µ1 , σ12 ).
τ
Pe (τ) =
Z
+∞
Pfa (τ) =
Z
−∞
τ
1
q
e
−
(x−µ1 )2
2σ 2
1
(10)
dx
2πσ12
1
q
e
−
(x−µ0 )2
2σ 2
0
(11)
dx
2πσ02
(12)
$ man 3 erfc
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
18 / 43
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
Modélisation gaussienne de H0 et H1
Test d'hypothèse de Neyman-Pearson
0.25
0.20
0.15
H0
0.10
H1
0.05
0.00
−10
F. Cayre (G-INP)
−5
0
Pe Pfa
τ
5
Multimédia – Rappels
10
15
2012–2013
19 / 43
Rappels de statistiques
Estimation paramétrique (ML, MAP)
Plan
1
Rappels de probabilités
2
Rappels de statistiques
Test d’hypothèse binaire de Neyman-Pearson
Estimation paramétrique (ML, MAP)
3
Eléments de théorie de l’information
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
20 / 43
Rappels de statistiques
Estimation paramétrique (ML, MAP)
Probabilité vs. vraisemblance
Sachant...
On peut aussi lire P(x |y ) comme : P(x , y ) avec le paramètre y fixé.
Définition (Vraisemblance des données)
Soit P(x0 , . . . , xN−1 |θ), avec des xi i.i.d. observés en fonction de θ. Si
l’on laisse libre θ mais qu’on fixe les xi , alors
Q on note :
L(θ|x0 , . . . , xN−1 ) = P(x0 , . . . , xN−1 |θ) = i P(xi |θ) la vraisemblance des
données par rapport au paramètre θ.
Log-vraisemblance (on préfère les sommes...)
X
log L(θ|x0 , . . . , xN−1 ) =
log P(xi |θ).
(13)
i
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
21 / 43
Rappels de statistiques
Estimation paramétrique (ML, MAP)
Maximum de vraisemblance (ML)
Hypothèse
Les données observées sont issues d’un modèle paramétré par θ.
Définition (Estimateur du maximum de vraisemblance)
Le paramètre θ̂ qui explique le mieux les données est t.q. :
θ̂ML = argmaxθ log L(θ|x0 , . . . , xN−1 ).
(14)
Lorsque c’est possible, on procède par annulation de la dérivée :
∂ log L(θ|x0 , . . . , xN−1 )
= 0.
∂θ
(15)
Sinon, on doit procéder par optimisation numérique.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
22 / 43
Rappels de statistiques
Estimation paramétrique (ML, MAP)
Maximum a posteriori (MAP)
Observation sur le maximum de vraisemblance
On ne sait rien, ou on ne veut rien savoir sur θ...
Définition (Estimateur du Maximum a posteriori (MAP))
Si l’on suppose que θ ∼ g, alors on peut intégrer cette information pour
obtenir l’estimateur du maximum a posteriori :
θ̂MAP = argmaxθ log L(θ|x0 , . . . , xN−1 )g(θ).
(16)
MAP = régularisation du ML (qui est un MAP avec un g uniforme).
Calcul
De manière analytique si P et g sont de la même famille ;
Sinon, par optimisation numérique.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
23 / 43
Eléments de théorie de l’information
Quantité d’information
Plan
1
Rappels de probabilités
2
Rappels de statistiques
3
Eléments de théorie de l’information
Quantité d’information
Entropie
Redondance
Entropie jointe
Divergence de Kullback-Leibler
Entropie conditionnelle et information mutuelle
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
24 / 43
Eléments de théorie de l’information
Quantité d’information
Quantité d’information
Définition (Quantité d’information)
Soit X = (x , AX , pX ) une v.a. La quantité d’information (de Hartley)
associée à la réalisation x = ai est :
hi (x ) = − log2 pi .
(17)
Notes
La quantité d’information se mesure en bits (logarithme à base 2).
nats
logarithme naturel
Autres unités (moins usitées) :
digits logarithme à base dix
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
25 / 43
Eléments de théorie de l’information
Quantité d’information
Quantité d’information (illustration)
Quantité d’information des caractères
Source : Biographical Essays de Thomas de Quincey.
14
Quantité d'information des lettres
12
Quantité d'information
10
8
6
4
2
0a b c d e f g h i j k l m n o p q r s t u v w x y z
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
26 / 43
Eléments de théorie de l’information
Quantité d’information
Quantité d’information (illustration)
Quantité d’information des caractères
Source : Candide de Voltaire.
14
Quantité d'information des lettres
12
Quantité d'information
10
8
6
4
2
0a b c d e f g h i j k l m n o p q r s t u v w x y z
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
27 / 43
Eléments de théorie de l’information
Quantité d’information
Quantité d’information vs. probabilités
Quantités d’information vs. probabilités d’occurence des caractères
Source : Biographical Essays de Thomas de Quincey.
Quantité d'information des lettres
11
10
Quantité d'information [bits]
9
8
7
6
5
4
3
0.00
F. Cayre (G-INP)
0.02
0.04
0.06
0.08
Probabilité
Multimédia – Rappels
0.10
0.12
0.14
2012–2013
28 / 43
Eléments de théorie de l’information
Entropie
Plan
1
Rappels de probabilités
2
Rappels de statistiques
3
Eléments de théorie de l’information
Quantité d’information
Entropie
Redondance
Entropie jointe
Divergence de Kullback-Leibler
Entropie conditionnelle et information mutuelle
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
29 / 43
Eléments de théorie de l’information
Entropie
Entropie (définition)
Définition (Entropie)
L’entropie H d’une v.a. X est l’espérance de la quantité d’information :
X
pi log2 pi .
(18)
H(X ) = E [h(X )] = −
pi ∈pX
H(X ) est le nombre moyen de bits à dépenser pour coder une réalisation
de x .
Notes
limx→0+ x log x = 0 ;
H(X ) est aussi une mesure du degré de désordre ou d’incertitude de
la v.a.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
30 / 43
Eléments de théorie de l’information
Entropie
Entropie (propriétés)
L’entropie est positive
H(X ) ≥ 0 ;
L’entropie est nulle ssi un seul événement est certain.
L’entropie est bornée
H(X ) ≤ log2 |AX | ;
Si ∀i , pi = |A1X | , alors H(X ) = log2 |AX |. C’est la loi uniforme qui
maximise l’entropie.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
31 / 43
Eléments de théorie de l’information
Redondance
Plan
1
Rappels de probabilités
2
Rappels de statistiques
3
Eléments de théorie de l’information
Quantité d’information
Entropie
Redondance
Entropie jointe
Divergence de Kullback-Leibler
Entropie conditionnelle et information mutuelle
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
32 / 43
Eléments de théorie de l’information
Redondance
Redondance
Définition (Redondance)
La redondance R d’une v.a. X exprime le rapport entre l’entropie et sa
borne supérieure :
H(X )
.
(19)
R(X ) = 1 −
log2 |AX |
Notes
Un algorithme de compression veut éliminer la redondance.
Un code correcteur d’erreurs va artificiellement rajouter de la
redondance.
D’abord on compresse, ensuite on s’occupe des erreurs...
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
33 / 43
Eléments de théorie de l’information
Redondance
Entropie et redondance
Mesures
Source : Biographical essays de Thomas de Quincey.
Entropie
Redondance
F. Cayre (G-INP)
4.159 bits
0.115 bits
Multimédia – Rappels
2012–2013
34 / 43
Eléments de théorie de l’information
Entropie jointe
Plan
1
Rappels de probabilités
2
Rappels de statistiques
3
Eléments de théorie de l’information
Quantité d’information
Entropie
Redondance
Entropie jointe
Divergence de Kullback-Leibler
Entropie conditionnelle et information mutuelle
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
35 / 43
Eléments de théorie de l’information
Entropie jointe
Entropie jointe et indépendance
Définition (Entropie jointe)
L’entropie jointe de deux v.a. X = (x , AX , pX ) et Y = (y , BY , pY ) est :
X
H(X , Y ) = −
P(x , y ) log P(x , y ).
(20)
(x,y )∈AX ×BY
Corollaire (Cas de deux v.a. indépendantes)
Si X et Y sont deux v.a. indépendantes, alors :
H(X , Y ) = H(X ) + H(Y ).
(21)
0 ≤ H(X ) ≤ H(X , Y ) ≤ H(X ) + H(Y ).
(22)
Propriété
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
36 / 43
Eléments de théorie de l’information
Divergence de Kullback-Leibler
Plan
1
Rappels de probabilités
2
Rappels de statistiques
3
Eléments de théorie de l’information
Quantité d’information
Entropie
Redondance
Entropie jointe
Divergence de Kullback-Leibler
Entropie conditionnelle et information mutuelle
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
37 / 43
Eléments de théorie de l’information
Divergence de Kullback-Leibler
Divergence de Kullback-Leibler (définition)
Définition (Divergence de Kullback-Leibler)
Soient P et Q deux lois de probabilités définies sur le même ensemble A.
La divergence de Kullback-Leibler s’écrit :
DKL (PkQ) =
X
P(x ) log2
x
P(x )
.
Q(x )
(23)
On peut, par exemple, utiliser la divergence de Kullback-Leibler
comme une mesure de la perte induite, en espérance et en bits par
symbole, lorsque l’on emploie un modèle sous-optimal (Q) pour
coder une v.a. connue (P).
La divergence de Kullback-Leibler est aussi appelée entropie relative.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
38 / 43
Eléments de théorie de l’information
Divergence de Kullback-Leibler
Divergence de Kullback-Leibler (propriétés)
Corollaire (Inégalité de Gibbs)
DKL (PkQ) ≥ 0.
(24)
Notes
P = Q ⇒ DKL (PkQ) = 0 ;
En général, DKL (PkQ) 6= DKL (QkP). La divergence de
Kullback-Leibler n’est donc pas une distance.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
39 / 43
Eléments de théorie de l’information
Entropie conditionnelle et information mutuelle
Plan
1
Rappels de probabilités
2
Rappels de statistiques
3
Eléments de théorie de l’information
Quantité d’information
Entropie
Redondance
Entropie jointe
Divergence de Kullback-Leibler
Entropie conditionnelle et information mutuelle
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
40 / 43
Eléments de théorie de l’information
Entropie conditionnelle et information mutuelle
Entropie conditionnelle
Définition (Entropie conditionnelle)
H(Y |X ) = H(X , Y ) − H(X ).
(25)
Interprétation
Si l’on connait X , alors on n’a besoin que de H(Y |X ) bits pour coder
H(X , Y ).
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
41 / 43
Eléments de théorie de l’information
Entropie conditionnelle et information mutuelle
Information mutuelle
Définition (Information mutuelle)
L’information mutuelle I (X ; Y ) entre deux v.a. X et Y vaut :
I (X ; Y ) = H(X )+H(Y )−H(X , Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ).
(26)
Interprétation
I (X ; Y ) capture l’information que Y apporte au sujet de X .
Propriétés
0 ≤ I (X ; Y ) = I (Y ; X ).
(27)
De plus : I (X ; Y ) = 0 ⇔ X et Y sont indépendantes.
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
(28)
42 / 43
Eléments de théorie de l’information
Entropie conditionnelle et information mutuelle
Théorème du traitement de données
Théorème (Traitement de données)
Soit une chaîne X → Y → Z de traitement de l’information. Alors :
I (X ; Z ) ≤ I (X ; Y ).
(29)
Interprétation
Aucun traitement de données seul ne peut faire surgir de l’information.
Vous pouvez arrêter de regarder Les Experts.
Par contre, injecter de la connaissance a priori peut aider...
F. Cayre (G-INP)
Multimédia – Rappels
2012–2013
43 / 43
Téléchargement