Multimédia – Rappels François Cayre [email protected] Grenoble-INP 2012–2013 F. Cayre (G-INP) Multimédia – Rappels 2012–2013 1 / 43 Rappels de probabilités Définitions Plan 1 Rappels de probabilités Définitions Variables jointes et indépendance Variables conditionnelles 2 Rappels de statistiques 3 Eléments de théorie de l’information F. Cayre (G-INP) Multimédia – Rappels 2012–2013 2 / 43 Rappels de probabilités Définitions Evénements et mesure de probabilité Définition (Ensemble des possibles) Soit A un ensemble de taille |A|. A est appelé l’ensemble des événements possibles. Soit ai un singleton de A. Soit Ai ⊂ A un sous-ensemble de A. Définition (Mesure de probabilité) P est une mesure de probabilité sur A ssi : ∀ai ∈ A , 0 ≤ P(ai ) ≤ 1 ; P(A) = 1 ; Si (An ) est une suite d’événements t.q. P S ∞ A i 6= j, Ai ∩ Aj = ∅ , alors P ( ∞ n=1 n ) = n=1 P (An ). F. Cayre (G-INP) Multimédia – Rappels 2012–2013 3 / 43 Rappels de probabilités Définitions Variables aléatoires Définition (Variable aléatoire) Une variable aléatoire (v.a.) X est définie par un triplet X = (x , AX , pX ), avec : x : le résultat de l’expérience aléatoire (un tirage) ; AX : les valeurs possibles pour x ; pX = p1 , . . . , p|AX | la loi de probabilité de AX . On a alors : Pr[x = ai ] = pi = P(x ), (1) et : P(Ai ) = X (2) pj . aj ∈Ai F. Cayre (G-INP) Multimédia – Rappels 2012–2013 4 / 43 Rappels de probabilités Définitions Probabilités (illustration) Probabilité d’occurence des caractères Source : Biographical Essays de Thomas de Quincey. 0.16 Fréquence d'apparition des lettres 0.14 0.12 Fréquence 0.10 0.08 0.06 0.04 0.02 0.00 a b c d e f F. Cayre (G-INP) g h i j k l m n o p q r s t Multimédia – Rappels u v w x y z 2012–2013 5 / 43 Rappels de probabilités Définitions Probabilités (illustration) Probabilité d’occurence des caractères Source : Candide de Voltaire. 0.16 Fréquence d'apparition des lettres 0.14 0.12 Fréquence 0.10 0.08 0.06 0.04 0.02 0.00 a b c d e f F. Cayre (G-INP) g h i j k l m n o p q r s t Multimédia – Rappels u v w x y z 2012–2013 6 / 43 Rappels de probabilités Définitions Espérance et variance Définition (Espérance) Soit X = (x , AX , pX ) une v.a. à valeurs réelles (v.a.r.), i.e. AX ⊂ R. L’espérance d’une telle v.a. est : X a i pi . (3) E [X ] = ai ∈AX Définition (Variance) La variance d’une v.a.r. est : Var [X ] = E (X − E [X ])2 = E X 2 − E [X ]2 = σX2 . F. Cayre (G-INP) Multimédia – Rappels 2012–2013 (4) 7 / 43 Rappels de probabilités Variables jointes et indépendance Plan 1 Rappels de probabilités Définitions Variables jointes et indépendance Variables conditionnelles 2 Rappels de statistiques 3 Eléments de théorie de l’information F. Cayre (G-INP) Multimédia – Rappels 2012–2013 8 / 43 Rappels de probabilités Variables jointes et indépendance Variables jointes et indépendance Définition (Variables jointes et indépendance) Soient X = (x , AX , pX ) et Y = (y , BY , pY ) deux v.a. La variable jointe X , Y a pour loi de probabilité jointe : P(x , y ) = Pr[x = ai et y = bj ]. (5) De plus, X et Y sont indépendantes ssi P(x , y ) = P(x )P(y ). Définition (Marginalisation) Connaissant P(x , y ), on peut obtenir la loi marginale P(y ) comme suit : X P(y ) = P(x , y ). (6) x∈AX F. Cayre (G-INP) Multimédia – Rappels 2012–2013 9 / 43 Rappels de probabilités Variables conditionnelles Plan 1 Rappels de probabilités Définitions Variables jointes et indépendance Variables conditionnelles 2 Rappels de statistiques 3 Eléments de théorie de l’information F. Cayre (G-INP) Multimédia – Rappels 2012–2013 10 / 43 Rappels de probabilités Variables conditionnelles Variables conditionnelles Définition (Probabilité conditionnelle) Si P(y = bi ) 6= 0, alors la probabilité que x = ai sachant que y = bj s’écrit : P(x = ai , y = bj ) . (7) P(x = ai |y = bi ) = P(y = bj ) Corollaire (Règle de chaînage ou règle du produit) P(x , y ) = P(x |y )P(y ) = P(y |x )P(x ). (8) Corollaire (Règle de Bayes) P(y |x ) = F. Cayre (G-INP) P(x |y )P(y ) . P(x ) Multimédia – Rappels (9) 2012–2013 11 / 43 Rappels de probabilités Variables conditionnelles Probabilités conditionnelles (illustration) Probabilités conditionnelles d’occurence des caractères Source : Biographical Essays de Thomas de Quincey. a b c d e f g h i j k l m n o p q r s t u v w x y z F. Cayre (G-INP) Fréquence d'apparition des digrammes 0.036 0.032 0.028 0.024 0.020 0.016 0.012 0.008 0.004 a b c d e f g h i j k l m n o p q r s t u v w x y z Multimédia – Rappels 0.000 2012–2013 12 / 43 Rappels de probabilités Variables conditionnelles Probabilités conditionnelles (illustration) Probabilités conditionnelles d’occurence des caractères Source : Candide de Voltaire. a b c d e f g h i j k l m n o p q r s t u v w x y z F. Cayre (G-INP) Fréquence d'apparition des digrammes 0.027 0.024 0.021 0.018 0.015 0.012 0.009 0.006 0.003 a b c d e f g h i j k l m n o p q r s t u v w x y z Multimédia – Rappels 0.000 2012–2013 13 / 43 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson Plan 1 Rappels de probabilités 2 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson Estimation paramétrique (ML, MAP) 3 Eléments de théorie de l’information F. Cayre (G-INP) Multimédia – Rappels 2012–2013 14 / 43 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson Hypothèses nulle et alternative Hypothèse nulle H0 Hypothèse par défaut sur une expérience. Ne peut jamais être prouvée. Ne peut être qu’éventuellement rejetée. Ex : un contenu multimédia n’est pas tatoué. Hypothèse alternative H1 Hypothèse rivale de l’hypothèse nulle, souvent sa négation. Ex : un contenu multimédia est tatoué. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 15 / 43 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson Probabilités d’erreur et de fausse alarme Définition (Erreur) Accepter H0 alors que H1 est vraie. La probabilité d’erreur est notée Pe . Définition (Fausse alarme) Accepter H1 alors que H0 est vraie. La probabilité de fausse alarme est notée Pfa . Définition (Courbe ROC – Receiver Operating Characteristic) La courbe ROC est : 1 − Pe = f (Pfa ). F. Cayre (G-INP) Multimédia – Rappels 2012–2013 16 / 43 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson En pratique Nécessité de modéliser H0 et H1 On cherche à savoir si une valeur de test t provient du modèle de H0 ou de celui de H1 . Choix d’un seuil τ Pe = Pr[t < τ|H1 ] ; Pfa = Pr[t > τ|H0 ]. Application en tatouage : minimiser Pfa On préfère laisser passer quelques pirates plutôt qu’accuser un innocent à tort. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 17 / 43 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson Modélisation gaussienne de H0 et H1 Résultats Soit P(x |H0 ) ∼ N (µ0 , σ02 ) et P(x |H1 ) ∼ N (µ1 , σ12 ). τ Pe (τ) = Z +∞ Pfa (τ) = Z −∞ τ 1 q e − (x−µ1 )2 2σ 2 1 (10) dx 2πσ12 1 q e − (x−µ0 )2 2σ 2 0 (11) dx 2πσ02 (12) $ man 3 erfc F. Cayre (G-INP) Multimédia – Rappels 2012–2013 18 / 43 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson Modélisation gaussienne de H0 et H1 Test d'hypothèse de Neyman-Pearson 0.25 0.20 0.15 H0 0.10 H1 0.05 0.00 −10 F. Cayre (G-INP) −5 0 Pe Pfa τ 5 Multimédia – Rappels 10 15 2012–2013 19 / 43 Rappels de statistiques Estimation paramétrique (ML, MAP) Plan 1 Rappels de probabilités 2 Rappels de statistiques Test d’hypothèse binaire de Neyman-Pearson Estimation paramétrique (ML, MAP) 3 Eléments de théorie de l’information F. Cayre (G-INP) Multimédia – Rappels 2012–2013 20 / 43 Rappels de statistiques Estimation paramétrique (ML, MAP) Probabilité vs. vraisemblance Sachant... On peut aussi lire P(x |y ) comme : P(x , y ) avec le paramètre y fixé. Définition (Vraisemblance des données) Soit P(x0 , . . . , xN−1 |θ), avec des xi i.i.d. observés en fonction de θ. Si l’on laisse libre θ mais qu’on fixe les xi , alors Q on note : L(θ|x0 , . . . , xN−1 ) = P(x0 , . . . , xN−1 |θ) = i P(xi |θ) la vraisemblance des données par rapport au paramètre θ. Log-vraisemblance (on préfère les sommes...) X log L(θ|x0 , . . . , xN−1 ) = log P(xi |θ). (13) i F. Cayre (G-INP) Multimédia – Rappels 2012–2013 21 / 43 Rappels de statistiques Estimation paramétrique (ML, MAP) Maximum de vraisemblance (ML) Hypothèse Les données observées sont issues d’un modèle paramétré par θ. Définition (Estimateur du maximum de vraisemblance) Le paramètre θ̂ qui explique le mieux les données est t.q. : θ̂ML = argmaxθ log L(θ|x0 , . . . , xN−1 ). (14) Lorsque c’est possible, on procède par annulation de la dérivée : ∂ log L(θ|x0 , . . . , xN−1 ) = 0. ∂θ (15) Sinon, on doit procéder par optimisation numérique. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 22 / 43 Rappels de statistiques Estimation paramétrique (ML, MAP) Maximum a posteriori (MAP) Observation sur le maximum de vraisemblance On ne sait rien, ou on ne veut rien savoir sur θ... Définition (Estimateur du Maximum a posteriori (MAP)) Si l’on suppose que θ ∼ g, alors on peut intégrer cette information pour obtenir l’estimateur du maximum a posteriori : θ̂MAP = argmaxθ log L(θ|x0 , . . . , xN−1 )g(θ). (16) MAP = régularisation du ML (qui est un MAP avec un g uniforme). Calcul De manière analytique si P et g sont de la même famille ; Sinon, par optimisation numérique. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 23 / 43 Eléments de théorie de l’information Quantité d’information Plan 1 Rappels de probabilités 2 Rappels de statistiques 3 Eléments de théorie de l’information Quantité d’information Entropie Redondance Entropie jointe Divergence de Kullback-Leibler Entropie conditionnelle et information mutuelle F. Cayre (G-INP) Multimédia – Rappels 2012–2013 24 / 43 Eléments de théorie de l’information Quantité d’information Quantité d’information Définition (Quantité d’information) Soit X = (x , AX , pX ) une v.a. La quantité d’information (de Hartley) associée à la réalisation x = ai est : hi (x ) = − log2 pi . (17) Notes La quantité d’information se mesure en bits (logarithme à base 2). nats logarithme naturel Autres unités (moins usitées) : digits logarithme à base dix F. Cayre (G-INP) Multimédia – Rappels 2012–2013 25 / 43 Eléments de théorie de l’information Quantité d’information Quantité d’information (illustration) Quantité d’information des caractères Source : Biographical Essays de Thomas de Quincey. 14 Quantité d'information des lettres 12 Quantité d'information 10 8 6 4 2 0a b c d e f g h i j k l m n o p q r s t u v w x y z F. Cayre (G-INP) Multimédia – Rappels 2012–2013 26 / 43 Eléments de théorie de l’information Quantité d’information Quantité d’information (illustration) Quantité d’information des caractères Source : Candide de Voltaire. 14 Quantité d'information des lettres 12 Quantité d'information 10 8 6 4 2 0a b c d e f g h i j k l m n o p q r s t u v w x y z F. Cayre (G-INP) Multimédia – Rappels 2012–2013 27 / 43 Eléments de théorie de l’information Quantité d’information Quantité d’information vs. probabilités Quantités d’information vs. probabilités d’occurence des caractères Source : Biographical Essays de Thomas de Quincey. Quantité d'information des lettres 11 10 Quantité d'information [bits] 9 8 7 6 5 4 3 0.00 F. Cayre (G-INP) 0.02 0.04 0.06 0.08 Probabilité Multimédia – Rappels 0.10 0.12 0.14 2012–2013 28 / 43 Eléments de théorie de l’information Entropie Plan 1 Rappels de probabilités 2 Rappels de statistiques 3 Eléments de théorie de l’information Quantité d’information Entropie Redondance Entropie jointe Divergence de Kullback-Leibler Entropie conditionnelle et information mutuelle F. Cayre (G-INP) Multimédia – Rappels 2012–2013 29 / 43 Eléments de théorie de l’information Entropie Entropie (définition) Définition (Entropie) L’entropie H d’une v.a. X est l’espérance de la quantité d’information : X pi log2 pi . (18) H(X ) = E [h(X )] = − pi ∈pX H(X ) est le nombre moyen de bits à dépenser pour coder une réalisation de x . Notes limx→0+ x log x = 0 ; H(X ) est aussi une mesure du degré de désordre ou d’incertitude de la v.a. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 30 / 43 Eléments de théorie de l’information Entropie Entropie (propriétés) L’entropie est positive H(X ) ≥ 0 ; L’entropie est nulle ssi un seul événement est certain. L’entropie est bornée H(X ) ≤ log2 |AX | ; Si ∀i , pi = |A1X | , alors H(X ) = log2 |AX |. C’est la loi uniforme qui maximise l’entropie. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 31 / 43 Eléments de théorie de l’information Redondance Plan 1 Rappels de probabilités 2 Rappels de statistiques 3 Eléments de théorie de l’information Quantité d’information Entropie Redondance Entropie jointe Divergence de Kullback-Leibler Entropie conditionnelle et information mutuelle F. Cayre (G-INP) Multimédia – Rappels 2012–2013 32 / 43 Eléments de théorie de l’information Redondance Redondance Définition (Redondance) La redondance R d’une v.a. X exprime le rapport entre l’entropie et sa borne supérieure : H(X ) . (19) R(X ) = 1 − log2 |AX | Notes Un algorithme de compression veut éliminer la redondance. Un code correcteur d’erreurs va artificiellement rajouter de la redondance. D’abord on compresse, ensuite on s’occupe des erreurs... F. Cayre (G-INP) Multimédia – Rappels 2012–2013 33 / 43 Eléments de théorie de l’information Redondance Entropie et redondance Mesures Source : Biographical essays de Thomas de Quincey. Entropie Redondance F. Cayre (G-INP) 4.159 bits 0.115 bits Multimédia – Rappels 2012–2013 34 / 43 Eléments de théorie de l’information Entropie jointe Plan 1 Rappels de probabilités 2 Rappels de statistiques 3 Eléments de théorie de l’information Quantité d’information Entropie Redondance Entropie jointe Divergence de Kullback-Leibler Entropie conditionnelle et information mutuelle F. Cayre (G-INP) Multimédia – Rappels 2012–2013 35 / 43 Eléments de théorie de l’information Entropie jointe Entropie jointe et indépendance Définition (Entropie jointe) L’entropie jointe de deux v.a. X = (x , AX , pX ) et Y = (y , BY , pY ) est : X H(X , Y ) = − P(x , y ) log P(x , y ). (20) (x,y )∈AX ×BY Corollaire (Cas de deux v.a. indépendantes) Si X et Y sont deux v.a. indépendantes, alors : H(X , Y ) = H(X ) + H(Y ). (21) 0 ≤ H(X ) ≤ H(X , Y ) ≤ H(X ) + H(Y ). (22) Propriété F. Cayre (G-INP) Multimédia – Rappels 2012–2013 36 / 43 Eléments de théorie de l’information Divergence de Kullback-Leibler Plan 1 Rappels de probabilités 2 Rappels de statistiques 3 Eléments de théorie de l’information Quantité d’information Entropie Redondance Entropie jointe Divergence de Kullback-Leibler Entropie conditionnelle et information mutuelle F. Cayre (G-INP) Multimédia – Rappels 2012–2013 37 / 43 Eléments de théorie de l’information Divergence de Kullback-Leibler Divergence de Kullback-Leibler (définition) Définition (Divergence de Kullback-Leibler) Soient P et Q deux lois de probabilités définies sur le même ensemble A. La divergence de Kullback-Leibler s’écrit : DKL (PkQ) = X P(x ) log2 x P(x ) . Q(x ) (23) On peut, par exemple, utiliser la divergence de Kullback-Leibler comme une mesure de la perte induite, en espérance et en bits par symbole, lorsque l’on emploie un modèle sous-optimal (Q) pour coder une v.a. connue (P). La divergence de Kullback-Leibler est aussi appelée entropie relative. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 38 / 43 Eléments de théorie de l’information Divergence de Kullback-Leibler Divergence de Kullback-Leibler (propriétés) Corollaire (Inégalité de Gibbs) DKL (PkQ) ≥ 0. (24) Notes P = Q ⇒ DKL (PkQ) = 0 ; En général, DKL (PkQ) 6= DKL (QkP). La divergence de Kullback-Leibler n’est donc pas une distance. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 39 / 43 Eléments de théorie de l’information Entropie conditionnelle et information mutuelle Plan 1 Rappels de probabilités 2 Rappels de statistiques 3 Eléments de théorie de l’information Quantité d’information Entropie Redondance Entropie jointe Divergence de Kullback-Leibler Entropie conditionnelle et information mutuelle F. Cayre (G-INP) Multimédia – Rappels 2012–2013 40 / 43 Eléments de théorie de l’information Entropie conditionnelle et information mutuelle Entropie conditionnelle Définition (Entropie conditionnelle) H(Y |X ) = H(X , Y ) − H(X ). (25) Interprétation Si l’on connait X , alors on n’a besoin que de H(Y |X ) bits pour coder H(X , Y ). F. Cayre (G-INP) Multimédia – Rappels 2012–2013 41 / 43 Eléments de théorie de l’information Entropie conditionnelle et information mutuelle Information mutuelle Définition (Information mutuelle) L’information mutuelle I (X ; Y ) entre deux v.a. X et Y vaut : I (X ; Y ) = H(X )+H(Y )−H(X , Y ) = H(X )−H(X |Y ) = H(Y )−H(Y |X ). (26) Interprétation I (X ; Y ) capture l’information que Y apporte au sujet de X . Propriétés 0 ≤ I (X ; Y ) = I (Y ; X ). (27) De plus : I (X ; Y ) = 0 ⇔ X et Y sont indépendantes. F. Cayre (G-INP) Multimédia – Rappels 2012–2013 (28) 42 / 43 Eléments de théorie de l’information Entropie conditionnelle et information mutuelle Théorème du traitement de données Théorème (Traitement de données) Soit une chaîne X → Y → Z de traitement de l’information. Alors : I (X ; Z ) ≤ I (X ; Y ). (29) Interprétation Aucun traitement de données seul ne peut faire surgir de l’information. Vous pouvez arrêter de regarder Les Experts. Par contre, injecter de la connaissance a priori peut aider... F. Cayre (G-INP) Multimédia – Rappels 2012–2013 43 / 43