Estimation des paramètres IFT6085-H2014: Modèles Graphiques Probabilistes Prof: Aaron Courville Email: [email protected] Office: 3253 Pav. Andre Aisenstadt IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 1 Estimation des paramètres - L'idée • Le but de la théorie de l'estimation est d'arriver à un estimateur. - Approche statistique standard prend les données mesurées comme aléatoire avec une distribution de probabilité dépend d'un ensemble de paramètres. - L'estimateur prend les données mesurées comme entrée et produit une estimation des paramètres avec une certaine précision. IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 2 Le fonction de vraisemblance • Considère que nous avons 1. Un modèle paramétré par θ: PΘ = {p(x; θ) | θ ∈ Θ} 2. Un ensemble de données {x1,x2,...,xn} • Probabilité (densité) de l'ensemble de données: - Spécification de la distribution conjointe des données: p(x1 , x2 , . . . , xn ; θ) données indépendantes et identiquement distribuées: p(x1 , x2 , . . . , xn ; θ) = • n ! p(xi ; θ) i=1 Vraisemblance: L : Θ → R+ - (associe l'espace des paramètres à + ve réels) Examine la fonction p(x1, x2,..., xn; θ) à partir d'un point de vue différent en considérant les valeurs observées x1, x2,..., xn comme des paramètres fixes, alors que θ est la variable de la fonction. L(θ | x1 , x2 , . . . , xn ) = - n ! p(xi ; θ) i=1 Souvent pratique d'utiliser le log vraisemblance: ln L(θ | x1 , . . . , xn ) = IFT6085-H2014: Modèles Graphiques Probabilistes n ! ln p(xi ; θ) i=1 03 - Estimation des paramètres 3 Principe du maximum de vraisemblance • Estimateur du maximum de vraisemblance: θ̂ML = argmax p(x1 , . . . , xn ; θ) θ∈Θ - Pour le cas de donné i.i.d.: θ̂ML = argmax θ∈Θ - n ! p(xi ; θ) = argmax i=1 θ∈Θ n " ln p(xi ; θ) Sir Ronald Fisher (1890-1962) i=1 Comment pouvons-nous trouver le maximum de vraisemblance ‣ nous pouvons suivre le gradient (monter la pente) ‣ nous pouvons trouver θ qui résout l'équation: ∂ ln L(θ | x1 , . . . , xn ) = 0 ∂θ IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 4 Maximum de vraisemblance exemple: loi de Bernoulli • Bernoulli distribution: - ∂ ln L(θ | x1 , . . . , xn ) ∂θ n ∂ � ln f (xi ; p) ∂p i=1 X ∼ Bernoulli(p) X est un v.a. binaire: = 0 = 0 n - x ∈ {0, 1} The model parameter: n θ = p ∈ Θ = [0, 1] The Bernoulli p.m.f(x): x f (x; p) = p (1 − p) ∂ � ln pxi (1 − p)1−xi ∂p i=1 ∂ � xi ln p − (1 − xi ) ln(1 − p) ∂p i=1 n � xi i=1 1−x 1 − xi − p 1−p n � = 0 = = 0 xi (1 − p) = xi − pxi = i=1 n � i=1 n � xi = i=1 p IFT6085-H2014: Modèles Graphiques Probabilistes 0 = 03 - Estimation des paramètres n � i=1 n � p(1 − xi ) p − pxi i=1 n � p 1 n 1 i=1 n � x1 i=1 5 Bayesienne contre Frequentist inférence • Estimation du maximum de vraisemblance est un exemple d'une approche fréquentiste pour l'estimation des paramètres. • Frequentist - • Suppose qu'il existe un paramètre inconnu mais fixe. Estime θ avec une certaine confiance. Estimateur est évaluée par ses propriétés (biais, variance, cohérence) Prédiction à l'aide de la valeur de paramètre estimée. Bayesienne - Représente l'incertitude sur le paramètre inconnu. Utilise probabilité de quantifier cette incertitude. Paramètres inconnus sont modélisés comme des variables aléatoires. Prédiction suit les règles de probabilité. IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 6 Estimation bayesienne A priori • Paramètres θ sont modélisés avec un distribution de probabilité a priori p(θ) -- θ est un variable aléatoire. • Les données contribuent par la vraisemblance: p(x1,...,xn | θ). A posteriori • La probabilité a posteriori des paramètres est alors, p(x1 , . . . , xn | θ)p(θ) p(θ | x1 , . . . , xn ) = ∝ p(x1 , . . . , xn | θ)p(θ) p(x) • L'estimateur bayesien est donc une distibution de probabilité sur les paramètres. IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 7 Estimation bayesienne: un exemple • Compte tenu de la silhouette d'un objet, nous devons inférer l'objet. • La distribution a priori des objets p(Objet) = p(θ): • Objet Probabilité cube 0.3 cylindre 0.2 sphère 0.1 prism 0.4 La probabilité d'une silhouette compte tenu un objet, p(Silhouette | Object) = p(données | θ): • LaFigure distribution a posteriori objet compte 1: Objects andd'un Silhouette [9] tenu une silhouette p(Object | Silhouette) • par ex. si on voit un carré: The likelihood sphère prism of a silhouette given an object, P (Silhouette|O is: p(cube | carré) = k ∗ 0.2 ∗ 1.0 = 0.37 0.0 0.4 cube cylindre carré 1.0 0.6 cercle 0.0 0.4 1.0 trapèze 0.0 0.0 0.0 0.0 Cube Cylinder Sphere p(cylindre | carré) = k ∗ 0.3 ∗ 0.6 = 0.333 1.0 0.6 0.0 0.6 Square p(sphère | carré) = k ∗ 0.1 ∗ 0.0 = 0.0 Circle 0.0 0.4 1.0 ∗ 0.4 ∗ 0.4 = 0.0 0.296 Trapezoid p(prism 0.0| carré) = k0.0 The normalization constant k is given as 1.85. IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 8 Prédiction bayesien: distribution complète • On a vu que l'estimateur bayesien est une distibution a posteriori sur les paramètres: p(θ | x1,...,xn). - • Cela pose la question, que faisons-nous ce cette distribution? Faire des prédictions en utilisant la distribution postérieure complète: p(xn+1 | x1 , . . . , xn ) = = = - � � � p(xn+1 , θ | x1 , . . . , xn ) dθ p(xn+1 , | θ, x1 , . . . , xn )p(theta | x1 , . . . , xn ) dθ p(xn+1 , | θ)p(θ | x1 , . . . , xn ) dθ Interprétation: espérance des prévisions p(xn+1 | θ) pondérée par p(θ | x1,...,xn) IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 9 Estimations ponctuelles bayesiens • Estimation bayésienne donne une alternative à l'estimation ponctuelle du maximum de vraisemblance des paramètres. • Estimation maximum a posteriori: θMAP = argmax p(θ | x1 , . . . , xn ) θ • Si la distribution a posteriori est concentrée autour de la valeur la plus probable (MAP): p(xn+1 | x1 , . . . , xn ) ! p(xn+1 | θMAP ) • Dans la limite n → ∞, θMAP converge vers θML - l'estimation du maximum de vraisemblance (tant que p(θML)≠0) • Approche bayesienne plus efficace lorsque les données sont limitées (n est petit) IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 10 Estimation Bayésienne des paramètres: loi de Bernoulli • a. Distribution a priori f(p): le beta Bernoulli distribution: - f (p) = f (p; α, β) ∝ pα−1 (1 − p)β−1 X ∼ Bernoulli(p) X est un v.a. binaire: b. Distribution a posteriori: x ∈ {0, 1} f (p | x1 , . . . , xn ) The model parameter: ∝ f (p)f (x1 , . . . , xn | p) n � ∝ pα−1 (1 − p)β−1 pxi (1 − p)1−xi θ = p ∈ Θ = [0, 1] The Bernoulli p.m.f(x): f (x; p) = px (1 − p)1−x • =p α−1+ (1 − p) β−1 �n i=1 xi p i=1 xi (1 − p) Distribution a posteriori f(p | x1,...,xn) est aussi Beta! ! p | x1 , . . . , xn ∼ Beta α + • =p α−1 i=1 �n n " i=1 xi , β + N − n " i=1 xi (1 − p) β+n−1− n− �n i=1 �n i=1 xi xi # La distribution Beta est conjugué au vraisemblance binomiale IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 11 Estimation bayésienne des paramètres: loi Binomiale • Les détails du traitement de la bayésien binomial est pratiquement identique à celle de Bernoulli. IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 12 Estimation bayésienne des paramètres: loi Gaussienne • µ soit inconnu et σ2 soit connu. • X ∼ N (µ, σ ) - x∈R - θ = (µ, σ2 ) ∈ Θ = R × R+ - p.d.f.(x): ! " 2 1 (x − µ)2 p(x; µ, σ ) = √ exp − 2 2 σ2 2πσ 2 • 1 Distribution a priori p(µ) (gaussienne): ! " 2 1 (µ − λ) p(µ; λ, ν 2 ) = √ exp − 2 2 ν2 2πν 1 • Distribution a posteriori (gaussienne): p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 ) � � �−1 � n 1 1 λ 1 � λ† = + 2 + 2 xi ν2 σ ν2 σ i=1 � �−1 1 1 ν† = + 2 ν2 σ • Distribution a posteriori p(µ | x1,...,xn): p(µ | x1 , . . . , xn ) ∝ p(µ)p(x1 , . . . , xn | µ) = p(µ) p(xi | µ) i=1 n � � � � 2 2 1 (µ − λ) 1 (xi − µ) ∝ exp − exp − 2 ν2 2 i=1 σ2 � � n n � � 1 1 2 1 1 2 = exp − 2 (µ − 2µλ + λ ) − ( x2i − 2µ xi + nµ2 ) 2 2ν 2 σ i=1 i=1 � �� � � �� � n n 2 1 1 n λ 1 � λ 1 � 2 2 = exp − + 2 µ −2 + 2 xi µ + 2 + 2 x 2 ν2 σ ν2 σ i=1 ν σ i=1 i � � �� � �� � �−1 � n � 1 1 n 1 1 λ 1 2 ∝ exp − + µ − 2 + + xi µ 2 ν2 σ2 ν2 σ2 ν2 σ 2 i=1 � � �� � �� � �−1 � n � 1 1 n 1 n λ 1 2 ∝ exp − + µ − 2 + + xi µ 2 ν2 σ2 ν2 σ2 ν2 σ 2 i=1 �� 2 � �� � �−1 � n � 1 1 n 1 n λ 1 ∝ exp − + 2 µ− + 2 + 2 xi 2 2 2 2 ν σ ν σ ν σ i=1 � �� 2 � �� n 2 2 � 1 1 n σ ν ∝ exp − + 2 µ− λ+ xi 2 2 2 2 2 2 ν σ nν + σ nν + σ i=1 IFT6085-H2014: Modèles Graphiques Probabilistes � n � 03 - Estimation des paramètres 13 Estimation bayésienne des paramètres: loi Gaussienne • Distribution a posteriori (gaussienne): p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 ) � � �−1 � n 1 1 λ 1 � λ† = + 2 + 2 xi 2 2 ν σ ν σ i=1 � �−1 1 1 2 ν† = + 2 2 ν σ IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 14 Conjugaison bayésienne • il y a plusieur paires de distributions conjugués. INGREDIENTS FOR BAYESIAN INFERENCE 9 Likelihood Prior X|θ ∼ N (θ, σ 2 ) θ ∼ N (µ, τ 2 ) X|θ ∼ B(n, θ) θ ∼ Be(α, β) X|θ ∼ P(θ) θ ∼ Gamma(α, β) X|θ ∼ N B(m, θ) θ ∼ Be(α, β) X ∼ Gamma(n/2, 1/(2θ)) θ ∼ IG(α, β) θ|X ∼ IG(n/2 + α, x/2 + β) X|θ ∼ U(0, θ) θ ∼ Pa(θ0 , α) θ|X ∼ Pa(max{θ0 , X1 , . . . , Xn }, α + n) X|θ ∼ N (µ, θ) θ ∼ IG(α, β) θ|X ∼ IG(α + 1/2, β + (µ − X)2 /2) X|θ ∼ Gamma(ν, θ) θ ∼ Ga(α, β) θ|X ∼ Gamma(α + ν, β + x) Table 1.1 1.2.4 Posterior 2 θ|X ∼ N ( σ2τ+τ 2 X + σ2 σ2 τ 2 µ, ) σ 2 +τ 2 σ 2 +τ 2 Credible sets Bayesian statistics estimation θ|X ∼ Be(α + x, n − x + β) θ|X ∼ Gamma( P i Xi + α, n + β). θ|X ∼ Be(α + mn, β + Pn i=1 xi ) Some conjugate pairs. Here X stands for a sample of size n, X1 , . . . , Xn . Interval Estimation: Credible Sets IFT6085-H2014: Modèles Graphiques Probabilistes 03 - Estimation des paramètres 15