Théorie Bayesienne de la décision

publicité
Théorie Bayesienne de la décision
Alain Rakotomamonjy - Gilles Gasso
.
INSA Rouen -Département ASI
Laboratoire LITIS
Théorie Bayesienne de la décision – p. 1/17
Introduction par l’exemple
On cherche à savoir si un pixel vient de la zone 1 (sombre) ou de la zone 2 (clair)
avec le moins d’erreur possible.
• Que faire sans information ?
• Que faire si on a l’information de luminance d’un point ?
Si on a aucune information a priori,
affecter un pixel à la zone 1 permet de
minimiser l’erreur.
50
100
150
200
250
50
100
150
200
250
Théorie Bayesienne de la décision – p. 2/17
Introduction par l’exemple
• On a l’information de luminance x. v.a de loi pX (x)
• Probabilité conditionnelle de x : p(x/C1 ) et p(x/C2 )
• Probabilité a priori de la classe Ck : Pr(Ck )
• On affecte x à la classe de plus forte probabilité a posteriori Pr(Ck /x).
Densité de probabilité conditionnelle de la luminance en fonction de la source
Densité de probabilité a posteriori de la source en fonction de la luminance
0.03
1
p(x|C )
1
p(x|C )
p(C |x)
1
p(C2|x)
0.9
2
0.025
0.8
p(x)
0.7
0.02
0.6
0.015
0.5
0.4
0.01
0.3
0.2
0.005
0.1
0
0
50
100
150
200
250
0
0
50
100
150
200
250
pX (x) = p(x/C1 )Pr(C1 ) + p(x/C2 )Pr(C2 )
Théorie Bayesienne de la décision – p. 3/17
Objectifs
• On observe un ensemble de caractéristiques décrivant une entité
• On suppose qu’une entité provient d’une source (ou classe) donnée
• On réalise une action en fonction de l’observation des caractéristiques
• Sachant que chaque action a un certain coût en fonction de la source émettant la
caractéristique observée, l’objectif est de :
Trouver une règle qui minimise un coût moyen, définissant quelle action effectuer
en fonction de l’entité observée
Théorie Bayesienne de la décision – p. 4/17
Définitions et Notations
• Ensemble des classes {C1 , · · · , CK } de loi a priori pour chaque classe Pr(Ck )
• Espace des caractéristiques X , typiquement X = Rd
• Loi a posteriori Pr(C = Ck /X = x)
• Probabilité conditionnelle de x en fonction d’une classe Ck : p(x/CK )
• Probabilité inconditionnelle de x : pX (x) = PK
k=1 p(x/Ck )Pr(Ck )
• Ensemble des actions A = {a1 , · · · , am }
Typiquement, les actions consistent à affecter une classe à une observation
donnée et donc le nombre d’actions est égal au nombre de classes.
• Coût ℓjk = ℓ(aj , Ck ) associé à l’action aj sachant que l’observation est issue de
Ck .
Théorie Bayesienne de la décision – p. 5/17
Formalisation du problème
On cherche une règle de décision D
D:
X
x
−→
7−→
A
aj
optimale au sens d’un risque moyen défini comme suit.
• Risque conditionnel associé à l’action aj après l’observation de x
R(aj |x) =
K
X
ℓjk Pr(Ck /x)
k=1
• Risque moyen
Rmoy =
Z
R(D(x)|x)pX (x)dx
Théorie Bayesienne de la décision – p. 6/17
Formalisation du problème (2)
La règle de Bayes est la règle de décision qui minimise le risque moyen :
DBayes (x) = argminD Rmoy
En fait, la règle de Bayes est celle qui minimise les risques conditionnels :
DBayes (x) = argminj=1···m R(aj |x)
Ainsi, cette règle consiste à choisir l’action ar si
K
X
k=1
ℓrk Pr(Ck /x) <
K
X
ℓjk Pr(Ck /x)
∀j
(∀ action aj )
k=1
Le risque minimum R∗ associé à la règle de Bayes est appelé risque de Bayes et
est la meilleure performance possible.
Théorie Bayesienne de la décision – p. 7/17
Cas de la discrimination 2 classes
Les observations sont émises par 2 classes C1 et C2 et les actions consistent à
affecter une observation x à C1 ou C2 (respectivement action a1 et a2 ).
La règle de Bayes consiste à choisir l’action a1 si
ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)
<
ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
(ℓ11 − ℓ21 )p(x/C1 )Pr(C1 )
<
(ℓ22 − ℓ12 )p(x/C2 )Pr(C2 )
soit :
D(x) =
avec L(x) =
p(x/C1 )
p(x/C2 )
et η =
(
a1
a2
si
si
(ℓ12 −ℓ22 )Pr(C2 )
(ℓ21 −ℓ11 )Pr(C1 )
L(x) ≥ η
L(x) < η
et ℓ21 > ℓ11
• Remarque : il est normal que le coût ℓjk (j 6= k) lié à une erreur soit supérieur
au coût lié à une bonne décision ℓjj
• L est appelé rapport de vraisemblance
Théorie Bayesienne de la décision – p. 8/17
Classifieur binaire à minimum d’erreur
Dans ce cadre, on fixe les coûts à :
ℓjk :
(
0
1
si
si
j=k
j 6= k
(bonne décision)
(mauvaise décision)
Ainsi, le risque conditionnel lié à aj est :
R(aj |x)
=
K
X
ℓjk Pr(Ck /x)
k=1
=
X
ℓjk Pr(Ck /x)
j6=k
=
1 − Pr(Ck /x)
car
K
X
Pr(Ck /x) = 1
k=1
Le risque minimal est donc obtenu par maximisation de la probabilité a posteriori
Théorie Bayesienne de la décision – p. 9/17
Classifieur binaire à minimum d’erreur
En supposant que les classes sont codées en {0, 1} et que les lois a priori suivent
une loi de Bernouilli, la probabilité a posteriori d’une classe est r(x) = Pr(C1 /x),
alors la règle de Bayes devient :
DBayes (x) :
(
1
p(x|C1)
p(x|C )
2
p(C1|x)
p(C2|x)
0.9
0.8
0
1
si
si
r(x) >
sinon
1
2
La figure décrit les probabilités conditionnelles et les lois a posteriori pour
un coût 0-1.
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0
50
100
150
200
250
Théorie Bayesienne de la décision – p. 10/17
Rejet d’ambiguité(1)
Si l’observation est ambigue, au lieu d’affecter cette observation à une classe ou
une autre, on réalise une action appelée rejet qui consiste donc à ne pas décider
entre les classes. Dans le cas binaire, on a les risques conditionnels suivants :
R(a1 |x)
=
ℓ11 Pr(C1 /x) + ℓ12 Pr(C2 /x)
R(a2 |x)
=
ℓ21 Pr(C1 /x) + ℓ22 Pr(C2 /x)
R(a3 |x)
=
ℓ31 Pr(C1 /x) + ℓ32 Pr(C2 /x)
(a3 est l’action de rejet)
Dans un cas à coût 0-1 et coût de rejet α, les risques et la règle de decision
deviennent :
R(a1 |x)
=
Pr(C2 /x)
R(a2 |x)
=
Pr(C1 /x)
R(a3 |x)
=
α
Théorie Bayesienne de la décision – p. 11/17
Rejet d’ambiguité(2)
La règle de Bayes devient :


 a1
DBayes (x) :
a2

 a
3
si
si
sinon
Pr(C1 /x) > Pr(C2 /x) et Pr(C1 /x) > 1 − α
Pr(C2 /x) > Pr(C1 /x) et Pr(C2 /x) > 1 − α
Densité de probabilité et seuil de decision dans le cas de rejet
1
p(x|C1)
p(x|C )
2
p(C1|x)
p(C2|x)
0.9
0.8
0.7
0.6
0.5
La figure décrit les probabilités conditionnelles et les lois a posteriori pour
un coût 0-1. Les droites vertes verticales indiquent le seuil de luminance
pour les classes et les zones de rejet
Comportement du rejet :
0.4
α = 0 −→ 100% rejet
0.3
α = 1/2 −→ 0% rejet
0.2
0.1
0
0
50
100
150
200
250
Théorie Bayesienne de la décision – p. 12/17
Etude du cas de classes gaussiennes
Pour un coût 0 − 1, la fonction de discrimination affecte x à la classe Cj si
Pr(Cj /x) ≥ Pr(Ck /x) ∀k 6= j
Dans le cas gaussien, étudier gj (x) = ln Pr(Cj /x)pX (x) = ln p(x/Cj )Pr(Cj )
permet de simplifier les calculs.
gj (x)
=
ln p(x/Cj ) + ln Pr(Cj )
=
1
d
1
− (x − µj )t Σ−1
(x
−
µ
)
−
ln
2π
−
ln|Σj |) + ln Pr(Cj )
j
j
2
2
2
Analyse linéaire discriminante (LDA)
Si on suppose que les matrices de covariance Σj sont identiques et valent Σ, on
peut simplifier gj (x) grâce aux termes constants en fonction de j
gj (x) = wj⊤ x + wjo + Cte
−1
µj + ln Pr(Cj )
avec w = Σ−1 µj et wjo = 12 µ⊤
j Σ
Théorie Bayesienne de la décision – p. 13/17
Etude du cas de classes gaussiennes
Analyse linéaire discriminante (LDA)
La règle de décision devient donc : x est affecté à la classe Cj si
gj (x) = wj⊤ x + wjo ≥ gk (x) = wk⊤ x + wko
∀k 6= j
Ainsi, la frontière de décision dans un problème à deux classes est un hyperplan
d’équation :
w⊤ (x − x0 ) = 0
avec w = Σ−1 (µj − µk ) et x0 = 21 (µj + µk ) −
ln[Pr(Cj )/Pr(Ck )]
(µ
(µj −µk )⊤ Σ−1 (µj −µk ) j
Exemple de 2 classes gaussiennes et la frontière de Décision
Exemple de 2 classes gaussiennes et la frontière de Décision
8
8
6
6
4
4
2
2
0
0
−2
−2
−4
−4
−6
−6
−8
−4
−3
−2
−1
0
1
2
3
4
− µk )
5
6
−8
−8
−6
−4
−2
0
2
4
6
8
Théorie Bayesienne de la décision – p. 14/17
Etude du cas de classes gaussiennes
Analyse discriminante quadratique (QDA)
Dans le cas général où Σ est différent pour chaque classe, on a :
gj (x) = x⊤ Wj x + wj⊤ x + wjo
−1
1 ⊤ −1
µ
et
w
=
,
w
=
Σ
avec Wj = 21 Σ−1
j
jo
j
j
j
2 µj Σj µj −
1
2
ln |Σj | + ln Pr(Cj )
Pour un problème à 2 classes, la fonction de décision est une hyperquadrique et
elle peut prendre différentes formes : hyperplan, hyperspheres, hyperellipsoide...
Exemple de 2 classes gaussiennes et la frontière de Décision
Exemple de 2 classes gaussiennes et la frontière de Décision
6
6
4
4
2
2
0
0
−2
−2
−4
−4
−6
−6
−4
−2
0
2
4
6
−6
−6
−4
−2
0
2
4
6
Théorie Bayesienne de la décision – p. 15/17
Stratégies d’estimation
La théorie bayesienne de la décision propose un cadre formel pour la
discrimination et propose un classifieur minimisant un risque.
Mise en oeuvre pratique
• Estimer les probabilités conditionnelles p(x/Ck ) et les probabilités a priori
Pr(Ck ) pour k = 1, · · · , K
• Estimer directement les probabilités a posteriori Pr(Ck /x)
• Estimer la règle de décision souvent comme étant le signe d’une fonction de
discrimination g
Théorie Bayesienne de la décision – p. 16/17
Stratégies d’estimation
Cas de classes gaussiennes
• Cas LDA : les paramètres de chaque classe Ck et la matrice Σ sont estimés de la
façon suivante
µk
=
Pr(Ck )
=
Σ
=
PN
i∈Ck
xi
Nk
Nk
N
PK
k=1
avec Nk = card(Ck )
PN
⊤
(x
−
µ
)(x
−
µ
)
i
i
k
k
i∈Ck
N −K
• Cas QDA : on estime la matrice de variance-covariance pour chaque Ck par
Σk
=
PN
i∈Ck (xi
− µk )(xi − µk )⊤
N −1
L’estimation de la probabilité a priori et de µk est similaire au cas précédent
Théorie Bayesienne de la décision – p. 17/17
Téléchargement