TD Théorie Bayesienne de la décision 1 El classico 2 Bayes en log

TD Théorie Bayesienne
de la décision
1
4ème année
G. Gasso
El classico
Soit un problème de classification à K = 2 classes. Chaque classe Ck est caractérisée par une
probabilité a priori P (Ck ) et une densité conditionnelle
kx−µ k2
k
−
1
2σ 2
k
p(x|Ck ) =
exp
, x, µk ∈ Rd , σk ∈ R
(1)
(2π)d/2 σkd
n
onk
(k) (k)
les données (supposées i.i.d.) de la classe Ck . On cherche à esti1. Soit (xi , yi = k)
i=1
mer les paramètres σk et µk par maximum de vraisemblance.
(a) Donner l’expression de la log-vraisemblance.
(b) En déduire leur estimation au sens du maximum de vraisemblance.
On veut réaliser une classification des données. Le coût d’une bonne décision est 0 et une
mauvaise décision coûte λs . On décide d’utiliser l’approche bayésienne. On note ak , l’action
de décider la classe Ck .
2. Donner l’expression des risques conditionnels R(ak /x).
3. En déduire que le risque minimum est obtenu en décidant ak si P (Ck |x) > P (C` |x) ∀` 6= k.
4. Expliciter les fonctions de décision dans le cas suivant : K = 2,
donnée par l’équation (1).
P (Ck ) = 1/K et p(x|Ck )
5. On considère maintenant le rejet avec un coût λr .
Montrer qu’on affectera une observation x à la classe Ck si
P (Ck |x) > P (C` |x) ∀k 6= ` et
P (Ck |x) > 1 −
λr
λs
Que se passe-t-il si λr = 0 ? Même question si λr > λs .
2
Bayes en log-normal majeur
Soit un problème de classification à C classes. Chaque classe ωk est caractérisée par une probabilité a priori P (ωk ) et une densité conditionnelle p(x|ωk ). On suppose que les données de
chaque classe ωk suivent une loi log-normale avec x ∈ R+ − {0}
1
(ln(x) − µk )2
√
p(x|ωk ) =
exp −
(2)
2σk2
xσk 2π
Répondre aux mêmes questions qu’à l’exercice 1 avec cette loi conditionnelle.
p.1/2
ASI4
3
DM
La loi des réseaux
Soit K = 3 réseaux (informatiques) Ck , k = 1, · · · , K qu’on souhaite classifier automatiquement à partir de leurs caractéristiques. Chaque classe Ck est caractérisée par une probabilité a
priori P (Ck ) et une densité conditionnelle p(x|Ck ). Les données (représentant ici les dates d’apparition d’évènements) de chaque classe Ck suivent une loi d’Erlang
p(x|Ck ) = θk2 x e−x θk Γ(x)
(3)
où Γ(x) est la fonction qui vaut 1 si x > 0 et 0 autrement.
1. On dispose de données d’apprentissage {(xi , yi )}N
i=1 . Pour une classe donnée, on cherche à
estimer le paramètre θk par maximum de vraisemblance.
(a) Donner l’expression de la log-vraisemblance.
(b) En déduire l’estimation de θk au sens du maximum de vraisemblance.
2. On veut réaliser une classification des données par la règle de Bayes. Le coût d’une bonne
décision est 0 et une mauvaise décision coûte α.
Expliciter les fonctions de décision si les classes Ck sont équiprobables.
4
Petit galop de Bayes
Considérons le problème de classification binaire avec les probabilités conditionnelles suivantes :
1 −|x|
e
2
p(x|C2 ) = e−2|x|
p(x|C1 ) =
avec les coûts suivants : `11 = 0, `22 = 0, `12 = 2 et `21 = 1
1. Déterminer la règle de décision de Bayes et le risque associé si la probabilité a priori de
C1 est P (C1 ) = 32 .
2. Refaire le calcul pour P (C1 ) = 12 .
p.2/2