Estimation des paramètres

publicité
Estimation des paramètres
IFT6085-H2014: Modèles Graphiques Probabilistes
Prof:
Aaron Courville
Email: [email protected]
Office: 3253 Pav. Andre Aisenstadt
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
1
Estimation des paramètres - L'idée
•
Le but de la théorie de l'estimation est d'arriver à un estimateur.
-
Approche statistique standard prend les données mesurées comme aléatoire
avec une distribution de probabilité dépend d'un ensemble de paramètres.
-
L'estimateur prend les données mesurées comme entrée et produit une
estimation des paramètres avec une certaine précision.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
2
Le fonction de vraisemblance
•
Considère que nous avons
1. Un modèle paramétré par θ:
PΘ = {p(x; θ) | θ ∈ Θ}
2. Un ensemble de données {x1,x2,...,xn}
•
Probabilité (densité) de l'ensemble de données:
-
Spécification de la distribution conjointe des données: p(x1 , x2 , . . . , xn ; θ)
données indépendantes et identiquement distribuées:
p(x1 , x2 , . . . , xn ; θ) =
•
n
!
p(xi ; θ)
i=1
Vraisemblance: L : Θ → R+
-
(associe l'espace des paramètres à + ve réels)
Examine la fonction p(x1, x2,..., xn; θ) à partir d'un point de vue différent en
considérant les valeurs observées x1, x2,..., xn comme des paramètres fixes, alors
que θ est la variable de la fonction.
L(θ | x1 , x2 , . . . , xn ) =
-
n
!
p(xi ; θ)
i=1
Souvent pratique d'utiliser le log vraisemblance: ln L(θ | x1 , . . . , xn ) =
IFT6085-H2014: Modèles Graphiques Probabilistes
n
!
ln p(xi ; θ)
i=1
03 - Estimation des paramètres
3
Principe du maximum de vraisemblance
•
Estimateur du maximum de vraisemblance:
θ̂ML = argmax p(x1 , . . . , xn ; θ)
θ∈Θ
-
Pour le cas de donné i.i.d.:
θ̂ML = argmax
θ∈Θ
-
n
!
p(xi ; θ) = argmax
i=1
θ∈Θ
n
"
ln p(xi ; θ)
Sir Ronald Fisher
(1890-1962)
i=1
Comment pouvons-nous trouver le maximum
de vraisemblance
‣
nous pouvons suivre le gradient (monter la pente)
‣
nous pouvons trouver θ qui résout l'équation:
∂
ln L(θ | x1 , . . . , xn ) = 0
∂θ
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
4
Maximum de vraisemblance exemple: loi de Bernoulli
•
Bernoulli distribution:
-
∂
ln L(θ | x1 , . . . , xn )
∂θ
n
∂ �
ln f (xi ; p)
∂p i=1
X ∼ Bernoulli(p)
X est un v.a. binaire:
=
0
=
0
n
-
x ∈ {0, 1}
The model parameter:
n
θ = p ∈ Θ = [0, 1]
The Bernoulli p.m.f(x):
x
f (x; p) = p (1 − p)
∂ �
ln pxi (1 − p)1−xi
∂p i=1
∂ �
xi ln p − (1 − xi ) ln(1 − p)
∂p i=1
n
�
xi
i=1
1−x
1 − xi
−
p
1−p
n
�
= 0
=
= 0
xi (1 − p)
=
xi − pxi
=
i=1
n
�
i=1
n
�
xi
=
i=1
p
IFT6085-H2014: Modèles Graphiques Probabilistes
0
=
03 - Estimation des paramètres
n
�
i=1
n
�
p(1 − xi )
p − pxi
i=1
n
�
p
1
n
1
i=1
n
�
x1
i=1
5
Bayesienne contre Frequentist inférence
•
Estimation du maximum de vraisemblance est un exemple
d'une approche fréquentiste pour l'estimation des paramètres.
•
Frequentist
-
•
Suppose qu'il existe un paramètre inconnu mais fixe.
Estime θ avec une certaine confiance.
Estimateur est évaluée par ses propriétés (biais, variance, cohérence)
Prédiction à l'aide de la valeur de paramètre estimée.
Bayesienne
-
Représente l'incertitude sur le paramètre inconnu.
Utilise probabilité de quantifier cette incertitude.
Paramètres inconnus sont modélisés comme des variables aléatoires.
Prédiction suit les règles de probabilité.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
6
Estimation bayesienne
A priori
•
Paramètres θ sont modélisés avec un distribution de probabilité
a priori p(θ) -- θ est un variable aléatoire.
•
Les données contribuent par la vraisemblance: p(x1,...,xn | θ).
A posteriori
•
La probabilité a posteriori des paramètres est alors,
p(x1 , . . . , xn | θ)p(θ)
p(θ | x1 , . . . , xn ) =
∝ p(x1 , . . . , xn | θ)p(θ)
p(x)
•
L'estimateur bayesien est donc une distibution de probabilité
sur les paramètres.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
7
Estimation bayesienne: un exemple
•
Compte tenu de la silhouette d'un objet, nous devons inférer l'objet.
•
La distribution a priori des objets p(Objet) = p(θ):
•
Objet
Probabilité
cube
0.3
cylindre
0.2
sphère
0.1
prism
0.4
La probabilité d'une silhouette compte tenu un
objet, p(Silhouette | Object) = p(données | θ):
•
LaFigure
distribution
a posteriori
objet compte
1: Objects
andd'un
Silhouette
[9]
tenu une silhouette p(Object | Silhouette)
• par ex. si on voit un carré:
The likelihood
sphère
prism of a silhouette given an object, P (Silhouette|O
is:
p(cube | carré) = k ∗ 0.2 ∗ 1.0 = 0.37
0.0
0.4
cube
cylindre
carré
1.0
0.6
cercle
0.0
0.4
1.0
trapèze
0.0
0.0
0.0
0.0
Cube
Cylinder
Sphere
p(cylindre
| carré) =
k ∗ 0.3 ∗ 0.6 =
0.333
1.0
0.6
0.0
0.6 Square p(sphère
| carré) = k ∗ 0.1 ∗ 0.0 = 0.0
Circle
0.0
0.4
1.0
∗ 0.4 ∗ 0.4 = 0.0
0.296
Trapezoid p(prism
0.0| carré) = k0.0
The normalization constant k is given as 1.85.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
8
Prédiction bayesien: distribution complète
•
On a vu que l'estimateur bayesien est une distibution a
posteriori sur les paramètres: p(θ | x1,...,xn).
-
•
Cela pose la question, que faisons-nous ce cette distribution?
Faire des prédictions en utilisant la distribution postérieure
complète:
p(xn+1 | x1 , . . . , xn ) =
=
=
-
�
�
�
p(xn+1 , θ | x1 , . . . , xn ) dθ
p(xn+1 , | θ, x1 , . . . , xn )p(theta | x1 , . . . , xn ) dθ
p(xn+1 , | θ)p(θ | x1 , . . . , xn ) dθ
Interprétation: espérance des prévisions p(xn+1 | θ) pondérée par p(θ | x1,...,xn)
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
9
Estimations ponctuelles bayesiens
•
Estimation bayésienne donne une alternative à l'estimation
ponctuelle du maximum de vraisemblance des paramètres.
•
Estimation maximum a posteriori:
θMAP = argmax p(θ | x1 , . . . , xn )
θ
•
Si la distribution a posteriori est concentrée autour de la valeur
la plus probable (MAP):
p(xn+1 | x1 , . . . , xn ) ! p(xn+1 | θMAP )
•
Dans la limite n → ∞, θMAP converge vers θML - l'estimation du
maximum de vraisemblance (tant que p(θML)≠0)
•
Approche bayesienne plus efficace lorsque les données sont
limitées (n est petit)
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
10
Estimation Bayésienne des paramètres: loi de Bernoulli
•
a. Distribution a priori f(p): le beta
Bernoulli distribution:
-
f (p) = f (p; α, β) ∝ pα−1 (1 − p)β−1
X ∼ Bernoulli(p)
X est un v.a. binaire:
b. Distribution a posteriori:
x ∈ {0, 1}
f (p | x1 , . . . , xn )
The model parameter:
∝ f (p)f (x1 , . . . , xn | p)
n
�
∝ pα−1 (1 − p)β−1
pxi (1 − p)1−xi
θ = p ∈ Θ = [0, 1]
The Bernoulli p.m.f(x):
f (x; p) = px (1 − p)1−x
•
=p
α−1+
(1 − p)
β−1
�n
i=1 xi
p
i=1 xi
(1 − p)
Distribution a posteriori f(p | x1,...,xn) est aussi Beta!
!
p | x1 , . . . , xn ∼ Beta α +
•
=p
α−1
i=1
�n
n
"
i=1
xi , β + N −
n
"
i=1
xi
(1 − p)
β+n−1−
n−
�n
i=1
�n
i=1
xi
xi
#
La distribution Beta est conjugué au vraisemblance binomiale
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
11
Estimation bayésienne des paramètres: loi Binomiale
•
Les détails du traitement de la bayésien binomial est pratiquement
identique à celle de Bernoulli.
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
12
Estimation bayésienne des paramètres: loi Gaussienne
•
µ soit inconnu et σ2 soit connu.
• X ∼ N (µ, σ )
- x∈R
- θ = (µ, σ2 ) ∈ Θ = R × R+
- p.d.f.(x):
!
"
2
1 (x − µ)2
p(x; µ, σ ) = √
exp −
2
2
σ2
2πσ
2
•
1
Distribution a priori p(µ)
(gaussienne):
!
"
2
1
(µ
−
λ)
p(µ; λ, ν 2 ) = √
exp −
2
2
ν2
2πν
1
•
Distribution a posteriori
(gaussienne):
p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 )
�
�
�−1 �
n
1
1
λ
1 �
λ† =
+ 2
+ 2
xi
ν2
σ
ν2
σ i=1
�
�−1
1
1
ν† =
+ 2
ν2
σ
•
Distribution a posteriori p(µ | x1,...,xn):
p(µ | x1 , . . . , xn )
∝ p(µ)p(x1 , . . . , xn | µ) = p(µ)
p(xi | µ)
i=1
n
�
�
�
�
2
2
1 (µ − λ)
1
(xi − µ)
∝ exp −
exp
−
2
ν2
2 i=1
σ2
�
�
n
n
�
�
1 1 2
1 1
2
= exp − 2 (µ − 2µλ + λ ) −
(
x2i − 2µ
xi + nµ2 )
2
2ν
2 σ i=1
i=1
�
��
�
�
��
�
n
n
2
1
1
n
λ
1 �
λ
1 � 2
2
= exp −
+ 2 µ −2
+ 2
xi µ + 2 + 2
x
2
ν2
σ
ν2
σ i=1
ν
σ i=1 i
�
� ��
�
��
�
�−1 �
n
�
1 1
n
1
1
λ
1
2
∝ exp −
+
µ
−
2
+
+
xi µ
2 ν2
σ2
ν2
σ2
ν2
σ 2 i=1
�
� ��
�
��
�
�−1 �
n
�
1 1
n
1
n
λ
1
2
∝ exp −
+
µ
−
2
+
+
xi µ
2 ν2
σ2
ν2
σ2
ν2
σ 2 i=1


��
2
�
��
�
�−1 �
n
�
1
1
n
1
n
λ
1

∝ exp −
+ 2
µ−
+ 2
+ 2
xi
2
2
2
2 ν
σ
ν
σ
ν
σ i=1


�
��
2
�
��
n
2
2
�
1
1
n
σ
ν

∝ exp −
+ 2
µ−
λ+
xi
2
2
2
2
2
2 ν
σ
nν + σ
nν + σ i=1
IFT6085-H2014: Modèles Graphiques Probabilistes
�
n
�
03 - Estimation des paramètres
13
Estimation bayésienne des paramètres: loi Gaussienne
•
Distribution a posteriori
(gaussienne):
p(µ | x1 , . . . , xn ) = p(µ; λ† , ν†2 )
�
�
�−1 �
n
1
1
λ
1 �
λ† =
+ 2
+ 2
xi
2
2
ν
σ
ν
σ i=1
�
�−1
1
1
2
ν† =
+ 2
2
ν
σ
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
14
Conjugaison bayésienne
•
il y a plusieur paires de distributions conjugués.
INGREDIENTS FOR BAYESIAN INFERENCE
9
Likelihood
Prior
X|θ ∼ N (θ, σ 2 )
θ ∼ N (µ, τ 2 )
X|θ ∼ B(n, θ)
θ ∼ Be(α, β)
X|θ ∼ P(θ)
θ ∼ Gamma(α, β)
X|θ ∼ N B(m, θ)
θ ∼ Be(α, β)
X ∼ Gamma(n/2, 1/(2θ))
θ ∼ IG(α, β)
θ|X ∼ IG(n/2 + α, x/2 + β)
X|θ ∼ U(0, θ)
θ ∼ Pa(θ0 , α)
θ|X ∼ Pa(max{θ0 , X1 , . . . , Xn }, α + n)
X|θ ∼ N (µ, θ)
θ ∼ IG(α, β)
θ|X ∼ IG(α + 1/2, β + (µ − X)2 /2)
X|θ ∼ Gamma(ν, θ)
θ ∼ Ga(α, β)
θ|X ∼ Gamma(α + ν, β + x)
Table 1.1
1.2.4
Posterior
2
θ|X ∼ N ( σ2τ+τ 2 X +
σ2
σ2 τ 2
µ,
)
σ 2 +τ 2
σ 2 +τ 2
Credible
sets
Bayesian
statistics
estimation
θ|X ∼ Be(α + x, n − x + β)
θ|X ∼ Gamma(
P
i
Xi + α, n + β).
θ|X ∼ Be(α + mn, β +
Pn
i=1
xi )
Some conjugate pairs. Here X stands for a sample of size n, X1 , . . . , Xn .
Interval Estimation: Credible Sets
IFT6085-H2014: Modèles Graphiques Probabilistes
03 - Estimation des paramètres
15
Téléchargement