Théorie Bayesienne de la décision Alain Rakotomamonjy - Gilles Gasso . INSA Rouen -Département ASI Laboratoire LITIS Théorie Bayesienne de la décision – p. 1/17 Introduction par l’exemple On cherche à savoir si un pixel vient de la zone 1 (sombre) ou de la zone 2 (clair) avec le moins d’erreur possible. • Que faire sans information ? • Que faire si on a l’information de luminance d’un point ? Si on a aucune information a priori, affecter un pixel à la zone 1 permet de minimiser l’erreur. 50 100 150 200 250 50 100 150 200 250 Théorie Bayesienne de la décision – p. 2/17 Introduction par l’exemple • On a l’information de luminance x. v.a de loi pX (x) • Probabilité conditionnelle de x : p(x/C1 ) et p(x/C2 ) • Probabilité a priori de la classe Ck : Pr(Ck ) • On affecte x à la classe de plus forte probabilité a posteriori Pr(Ck /x). Densité de probabilité conditionnelle de la luminance en fonction de la source Densité de probabilité a posteriori de la source en fonction de la luminance 0.03 1 p(x|C ) 1 p(x|C ) p(C |x) 1 p(C2|x) 0.9 2 0.025 0.8 p(x) 0.7 0.02 0.6 0.015 0.5 0.4 0.01 0.3 0.2 0.005 0.1 0 0 50 100 150 200 250 0 0 50 100 150 200 250 pX (x) = p(x/C1 )Pr(C1 ) + p(x/C2 )Pr(C2 ) Théorie Bayesienne de la décision – p. 3/17 Objectifs • On observe un ensemble de caractéristiques décrivant une entité • On suppose qu’une entité provient d’une source (ou classe) donnée • On réalise une action en fonction de l’observation des caractéristiques • Sachant que chaque action a un certain coût en fonction de la source émettant la caractéristique observée, l’objectif est de : Trouver une règle qui minimise un coût moyen, définissant quelle action effectuer en fonction de l’entité observée Théorie Bayesienne de la décision – p. 4/17 Définitions et Notations • Ensemble des classes {C1 , · · · , CK } de loi a priori pour chaque classe Pr(Ck ) • Espace des caractéristiques X , typiquement X = Rd • Loi a posteriori Pr(C = Ck /X = x) • Probabilité conditionnelle de x en fonction d’une classe Ck : p(x/CK ) • Probabilité inconditionnelle de x : pX (x) = PK k=1 p(x/Ck )Pr(Ck ) • Ensemble des actions A = {a1 , · · · , am } Typiquement, les actions consistent à affecter une classe à une observation donnée et donc le nombre d’actions est égal au nombre de classes. • Coût ℓjk = ℓ(aj , Ck ) associé à l’action aj sachant que l’observation est issue de Ck . Théorie Bayesienne de la décision – p. 5/17 Formalisation du problème On cherche une règle de décision D D: X x −→ 7−→ A aj optimale au sens d’un risque moyen défini comme suit. • Risque conditionnel associé à l’action aj après l’observation de x R(aj |x) = K X ℓjk Pr(Ck /x) k=1 • Risque moyen Rmoy = Z R(D(x)|x)pX (x)dx Théorie Bayesienne de la décision – p. 6/17 Formalisation du problème (2) La règle de Bayes est la règle de décision qui minimise le risque moyen : DBayes (x) = argminD Rmoy En fait, la règle de Bayes est celle qui minimise les risques conditionnels : DBayes (x) = argminj=1···m R(aj |x) Ainsi, cette règle consiste à choisir l’action ar si K X k=1 ℓrk Pr(Ck /x) < K X ℓjk Pr(Ck /x) ∀j (∀ action aj ) k=1 Le risque minimum R∗ associé à la règle de Bayes est appelé risque de Bayes et est la meilleure performance possible. Théorie Bayesienne de la décision – p. 7/17 Cas de la discrimination 2 classes Les observations sont émises par 2 classes C1 et C2 et les actions consistent à affecter une observation x à C1 ou C2 (respectivement action a1 et a2 ). La règle de Bayes consiste à choisir l’action a1 si ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x) < ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x) (ℓ11 − ℓ21 )p(x/C1 )Pr(C1 ) < (ℓ22 − ℓ12 )p(x/C2 )Pr(C2 ) soit : D(x) = avec L(x) = p(x/C1 ) p(x/C2 ) et η = ( a1 a2 si si (ℓ12 −ℓ22 )Pr(C2 ) (ℓ21 −ℓ11 )Pr(C1 ) L(x) ≥ η L(x) < η et ℓ21 > ℓ11 • Remarque : il est normal que le coût ℓjk (j 6= k) lié à une erreur soit supérieur au coût lié à une bonne décision ℓjj • L est appelé rapport de vraisemblance Théorie Bayesienne de la décision – p. 8/17 Classifieur binaire à minimum d’erreur Dans ce cadre, on fixe les coûts à : ℓjk : ( 0 1 si si j=k j 6= k (bonne décision) (mauvaise décision) Ainsi, le risque conditionnel lié à aj est : R(aj |x) = K X ℓjk Pr(Ck /x) k=1 = X ℓjk Pr(Ck /x) j6=k = 1 − Pr(Ck /x) car K X Pr(Ck /x) = 1 k=1 Le risque minimal est donc obtenu par maximisation de la probabilité a posteriori Théorie Bayesienne de la décision – p. 9/17 Classifieur binaire à minimum d’erreur En supposant que les classes sont codées en {0, 1} et que les lois a priori suivent une loi de Bernouilli, la probabilité a posteriori d’une classe est r(x) = Pr(C1 /x), alors la règle de Bayes devient : DBayes (x) : ( 1 p(x|C1) p(x|C ) 2 p(C1|x) p(C2|x) 0.9 0.8 0 1 si si r(x) > sinon 1 2 La figure décrit les probabilités conditionnelles et les lois a posteriori pour un coût 0-1. 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 50 100 150 200 250 Théorie Bayesienne de la décision – p. 10/17 Rejet d’ambiguité(1) Si l’observation est ambigue, au lieu d’affecter cette observation à une classe ou une autre, on réalise une action appelée rejet qui consiste donc à ne pas décider entre les classes. Dans le cas binaire, on a les risques conditionnels suivants : R(a1 |x) = ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x) R(a2 |x) = ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x) R(a3 |x) = ℓ31 Pr(C1 /x) + ℓ32 Pr(C2 /x) (a3 est l’action de rejet) Dans un cas à coût 0-1 et coût de rejet α, les risques et la règle de decision deviennent : R(a1 |x) = Pr(C2 /x) R(a2 |x) = Pr(C1 /x) R(a3 |x) = α Théorie Bayesienne de la décision – p. 11/17 Rejet d’ambiguité(2) La règle de Bayes devient : a1 DBayes (x) : a2 a 3 si si sinon Pr(C1 /x) > Pr(C2 /x) et Pr(C1 /x) > 1 − α Pr(C2 /x) > Pr(C1 /x) et Pr(C2 /x) > 1 − α Densité de probabilité et seuil de decision dans le cas de rejet 1 p(x|C1) p(x|C ) 2 p(C1|x) p(C2|x) 0.9 0.8 0.7 0.6 0.5 La figure décrit les probabilités conditionnelles et les lois a posteriori pour un coût 0-1. Les droites vertes verticales indiquent le seuil de luminance pour les classes et les zones de rejet Comportement du rejet : 0.4 α = 0 −→ 100% rejet 0.3 α = 1/2 −→ 0% rejet 0.2 0.1 0 0 50 100 150 200 250 Théorie Bayesienne de la décision – p. 12/17 Etude du cas de classes gaussiennes Pour un coût 0 − 1, la fonction de discrimination affecte x à la classe Cj si Pr(Cj /x) ≥ Pr(Ck /x) ∀k 6= j Dans le cas gaussien, étudier gj (x) = ln Pr(Cj /x)pX (x) = ln p(x/Cj )Pr(Cj ) permet de simplifier les calculs. gj (x) = ln p(x/Cj ) + ln Pr(Cj ) = 1 d 1 − (x − µj )t Σ−1 (x − µ ) − ln 2π − ln|Σj |) + ln Pr(Cj ) j j 2 2 2 Analyse linéaire discriminante (LDA) Si on suppose que les matrices de covariance Σj sont identiques et valent Σ, on peut simplifier gj (x) grâce aux termes constants en fonction de j gj (x) = wj⊤ x + wjo + Cte −1 µj + ln Pr(Cj ) avec w = Σ−1 µj et wjo = 12 µ⊤ j Σ Théorie Bayesienne de la décision – p. 13/17 Etude du cas de classes gaussiennes Analyse linéaire discriminante (LDA) La règle de décision devient donc : x est affecté à la classe Cj si gj (x) = wj⊤ x + wjo ≥ gk (x) = wk⊤ x + wko ∀k 6= j Ainsi, la frontière de décision dans un problème à deux classes est un hyperplan d’équation : w⊤ (x − x0 ) = 0 avec w = Σ−1 (µj − µk ) et x0 = 21 (µj + µk ) − ln[Pr(Cj )/Pr(Ck )] (µ (µj −µk )⊤ Σ−1 (µj −µk ) j Exemple de 2 classes gaussiennes et la frontière de Décision Exemple de 2 classes gaussiennes et la frontière de Décision 8 8 6 6 4 4 2 2 0 0 −2 −2 −4 −4 −6 −6 −8 −4 −3 −2 −1 0 1 2 3 4 − µk ) 5 6 −8 −8 −6 −4 −2 0 2 4 6 8 Théorie Bayesienne de la décision – p. 14/17 Etude du cas de classes gaussiennes Analyse discriminante quadratique (QDA) Dans le cas général où Σ est différent pour chaque classe, on a : gj (x) = x⊤ Wj x + wj⊤ x + wjo −1 1 ⊤ −1 µ et w = , w = Σ avec Wj = 21 Σ−1 j jo j j j 2 µj Σj µj − 1 2 ln |Σj | + ln Pr(Cj ) Pour un problème à 2 classes, la fonction de décision est une hyperquadrique et elle peut prendre différentes formes : hyperplan, hyperspheres, hyperellipsoide... Exemple de 2 classes gaussiennes et la frontière de Décision Exemple de 2 classes gaussiennes et la frontière de Décision 6 6 4 4 2 2 0 0 −2 −2 −4 −4 −6 −6 −4 −2 0 2 4 6 −6 −6 −4 −2 0 2 4 6 Théorie Bayesienne de la décision – p. 15/17 Stratégies d’estimation La théorie bayesienne de la décision propose un cadre formel pour la discrimination et propose un classifieur minimisant un risque. Mise en oeuvre pratique • Estimer les probabilités conditionnelles p(x/Ck ) et les probabilités a priori Pr(Ck ) pour k = 1, · · · , K • Estimer directement les probabilités a posteriori Pr(Ck /x) • Estimer la règle de décision souvent comme étant le signe d’une fonction de discrimination g Théorie Bayesienne de la décision – p. 16/17 Stratégies d’estimation Cas de classes gaussiennes • Cas LDA : les paramètres de chaque classe Ck et la matrice Σ sont estimés de la façon suivante µk = Pr(Ck ) = Σ = PN i∈Ck xi Nk Nk N PK k=1 avec Nk = card(Ck ) PN ⊤ (x − µ )(x − µ ) i i k k i∈Ck N −K • Cas QDA : on estime la matrice de variance-covariance pour chaque Ck par Σk = PN i∈Ck (xi − µk )(xi − µk )⊤ N −1 L’estimation de la probabilité a priori et de µk est similaire au cas précédent Théorie Bayesienne de la décision – p. 17/17