TD Théorie Bayesienne de la décision 1 4ème année G. Gasso El classico Soit un problème de classification à K = 2 classes. Chaque classe Ck est caractérisée par une probabilité a priori P (Ck ) et une densité conditionnelle kx−µ k2 k − 1 2σ 2 k p(x|Ck ) = exp , x, µk ∈ Rd , σk ∈ R (1) (2π)d/2 σkd n onk (k) (k) les données (supposées i.i.d.) de la classe Ck . On cherche à esti1. Soit (xi , yi = k) i=1 mer les paramètres σk et µk par maximum de vraisemblance. (a) Donner l’expression de la log-vraisemblance. (b) En déduire leur estimation au sens du maximum de vraisemblance. On veut réaliser une classification des données. Le coût d’une bonne décision est 0 et une mauvaise décision coûte λs . On décide d’utiliser l’approche bayésienne. On note ak , l’action de décider la classe Ck . 2. Donner l’expression des risques conditionnels R(ak /x). 3. En déduire que le risque minimum est obtenu en décidant ak si P (Ck |x) > P (C` |x) ∀` 6= k. 4. Expliciter les fonctions de décision dans le cas suivant : K = 2, donnée par l’équation (1). P (Ck ) = 1/K et p(x|Ck ) 5. On considère maintenant le rejet avec un coût λr . Montrer qu’on affectera une observation x à la classe Ck si P (Ck |x) > P (C` |x) ∀k 6= ` et P (Ck |x) > 1 − λr λs Que se passe-t-il si λr = 0 ? Même question si λr > λs . 2 Bayes en log-normal majeur Soit un problème de classification à C classes. Chaque classe ωk est caractérisée par une probabilité a priori P (ωk ) et une densité conditionnelle p(x|ωk ). On suppose que les données de chaque classe ωk suivent une loi log-normale avec x ∈ R+ − {0} 1 (ln(x) − µk )2 √ p(x|ωk ) = exp − (2) 2σk2 xσk 2π Répondre aux mêmes questions qu’à l’exercice 1 avec cette loi conditionnelle. p.1/2 ASI4 3 DM La loi des réseaux Soit K = 3 réseaux (informatiques) Ck , k = 1, · · · , K qu’on souhaite classifier automatiquement à partir de leurs caractéristiques. Chaque classe Ck est caractérisée par une probabilité a priori P (Ck ) et une densité conditionnelle p(x|Ck ). Les données (représentant ici les dates d’apparition d’évènements) de chaque classe Ck suivent une loi d’Erlang p(x|Ck ) = θk2 x e−x θk Γ(x) (3) où Γ(x) est la fonction qui vaut 1 si x > 0 et 0 autrement. 1. On dispose de données d’apprentissage {(xi , yi )}N i=1 . Pour une classe donnée, on cherche à estimer le paramètre θk par maximum de vraisemblance. (a) Donner l’expression de la log-vraisemblance. (b) En déduire l’estimation de θk au sens du maximum de vraisemblance. 2. On veut réaliser une classification des données par la règle de Bayes. Le coût d’une bonne décision est 0 et une mauvaise décision coûte α. Expliciter les fonctions de décision si les classes Ck sont équiprobables. 4 Petit galop de Bayes Considérons le problème de classification binaire avec les probabilités conditionnelles suivantes : 1 −|x| e 2 p(x|C2 ) = e−2|x| p(x|C1 ) = avec les coûts suivants : `11 = 0, `22 = 0, `12 = 2 et `21 = 1 1. Déterminer la règle de décision de Bayes et le risque associé si la probabilité a priori de C1 est P (C1 ) = 32 . 2. Refaire le calcul pour P (C1 ) = 12 . p.2/2