Réseaux de neurones : rappels de probabilités et

publicité
Réseaux de neurones : rappels de
probabilités et statistiques
Fabrice Rossi
http://apiacoa.org/contact.html.
Université Paris-IX Dauphine
Réseaux de neurones – Rappels de probabilités et statistiques – p.1/49
Plan des rappels
1. Probabilités
2. Conditionnement et indépendance
3. Variable aléatoire
4. Moments
5. Retour sur le conditionnement
6. Notion d’estimateur
7. Théorèmes limites
8. Vraisemblance
9. Estimation bayesienne
Réseaux de neurones – Rappels de probabilités et statistiques – p.2/49
Modélisation stochastique
Phénomènes intrinsèquement aléatoires : mécanique
quantique
Phénomènes chaotiques :
rupture d’équilibre (stylo en équilibre sur sa pointe !)
phénomènes très complexes (météo par exemple)
Connaissance incomplète, exemple :
lien entre z et x
x=1 2 2 1 4 5 3 1 2 2 5 4 2 1 5 3 5 2 5 2 5 4 3 5 5 2 3 2 3 2
z=0 3 1 0 4 5 3 1 1 3 4 5 1 1 6 2 6 2 5 2 6 4 2 5 5 2 4 2 2 2
P (z = 3|x = 2) = 51 , P (z = 2|x = 2) =
3
P (z = 1|x = 2) = 10
en fait z = x + y avec et
1
2
et
y = -1 1 -1 -1 0 0 0 0 -1 1 -1 1 -1 0 1 -1 1 0 0 0 1 0 -1 0 0 0 1 0 -1 0
Réseaux de neurones – Rappels de probabilités et statistiques – p.3/49
Probabilités
Deux visions :
1. “objective” :
vision “fréquentiste”
calcul de fréquence par comptage
probabilité : limite des fréquences
exemple : probabilité qu’un accident soit une
conséquence de la consommation d’alcool
2. “subjective” :
vision bayesienne
connaissance/croyance a priori
prise en compte de l’expérience pour modifier la
croyance
exemple : probabilité qu’une pièce tombe sur pile
Réseaux de neurones – Rappels de probabilités et statistiques – p.4/49
Probabilités (2)
Modèle probabiliste, (Ω, M, P ) :
Ω : l’univers, l’ensemble des possibles :
lancé d’un dé : Ω = {1, 2, 3, 4, 5, 6}
lancé d’une pièce deux fois de suite :
Ω = {(P, P ), (P, F ), (F, P ), (F, F )}
M : les évènements étudiables (M ⊂ P(Ω)) :
conditions techniques : une σ-algèbre, i.e. :
contient Ω (évènement sûr) et ∅ (évènement
impossible)
stable par passage au complémentaire (pour pouvoir
dire que A n’a pas eu lieu)
stable par union dénombrable (pour pouvoir dire que
A ou B ont eu lieu)
exemple : M = P(Ω)
Réseaux de neurones – Rappels de probabilités et statistiques – p.5/49
Probabilités (3)
Modèle probabiliste, (Ω, M, P ) :
P : une probabilité :
une fonction de M dans [0, 1]
donne la probabilité d’un évènement
P (Ω) = 1
si les (Ai )i∈ sont des évènements deux à deux disjoints
!
∞
∞
X
[
P (Ai )
Ai =
P
i=0
i=0
exemple pour dé non pipé, P ({i}) =
P définit une intégrale, et on a
Z
P (B) = 1B dP
1
6
pour tout i
Réseaux de neurones – Rappels de probabilités et statistiques – p.6/49
Conditionnement
Un des concepts les plus importants en probabilité : qu’est-ce
qu’apporte une information ?
P (A|B) : la probabilité de l’évènement A sachant que
l’évènement B a eu lieu (P (B) > 0)
P (AB)
P (A ∩ B)
=
P (A|B) =
P (B)
P (B)
exemple :
A = {le dé donne une valeur > 4} et
B = {le dé donne une valeur > à 2}
P (AB) = P (A) (car A ⊂ B) et donc P (AB) =
P (B) = 32
P (A|B) = 21
1
3
Réseaux de neurones – Rappels de probabilités et statistiques – p.7/49
Indépendance
Deux évènements sont indépendants si la connaissance de
l’un n’apporte rien sur l’autre :
A et B indépendants ⇔ P (AB) = P (A)P (B)
si P (B) > 0, A et B indépendants ⇔ P (A|B) = P (A)
Hypothèse très utile en pratique. Par exemple :
on lance n fois une pièce (P (P ) = P (F ) = 21 )
univers Ω = {P, F }n
lancés indépendants, implique P ({l1 , . . . , ln }) = 21n
par indépendance, connaître P pour les évènements
réduits à un lancé permet d’obtenir P sur M toute entière
Réseaux de neurones – Rappels de probabilités et statistiques – p.8/49
Une application subtile
Le jeu des portes :
le joueur est placé devant trois portes
un cadeau est caché derrière une porte (il n’y a rien
derrière les autres)
le joueur choisit la porte i
l’animateur lui indique que le cadeau n’est pas derrière la
porte j (j 6= i !)
Question : le joueur a-t-il intérêt à changer de porte ?
Réseaux de neurones – Rappels de probabilités et statistiques – p.9/49
Une application subtile
Le jeu des portes :
le joueur est placé devant trois portes
un cadeau est caché derrière une porte (il n’y a rien
derrière les autres)
le joueur choisit la porte i
l’animateur lui indique que le cadeau n’est pas derrière la
porte j (j 6= i !)
Question : le joueur a-t-il intérêt à changer de porte ?
Modélisation :
Ω : position du trésor, choix du joueur, choix de l’animateur
position du trésor et choix du joueur indépendants (et
uniformes)
choix de l’animateur uniforme (sachant la position du
trésor et le choix du joueur)
Réseaux de neurones – Rappels de probabilités et statistiques – p.9/49
Une application subtile (2)
Calculs :
problème totalement symétrique
P (T = 1|J = 1, A = 2) ?
Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49
Une application subtile (2)
Calculs :
problème totalement symétrique
P (A = 2|T = 1, J = 1) = 21
P (T = 1, J = 1) = 31 31
1
P (T = 1, J = 1, A = 2) = 18
Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49
Une application subtile (2)
Calculs :
problème totalement symétrique
P (A = 2|T = 1, J = 1) = 21
P (T = 1, J = 1) = 31 31
1
P (T = 1, J = 1, A = 2) = 18
P (J = 1, A = 2) = P (J = 1, A = 2, T = 1) + P (J = 1, A =
2, T = 3)
P (A = 2|T = 3, J = 1) = 1 donc
P (J = 1, A = 2, T = 3) = 91
3
P (J = 1, A = 2) = 18
Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49
Une application subtile (2)
Calculs :
problème totalement symétrique
P (A = 2|T = 1, J = 1) = 21
P (T = 1, J = 1) = 31 31
1
P (T = 1, J = 1, A = 2) = 18
P (J = 1, A = 2) = P (J = 1, A = 2, T = 1) + P (J = 1, A =
2, T = 3)
P (A = 2|T = 3, J = 1) = 1 donc
P (J = 1, A = 2, T = 3) = 91
3
P (J = 1, A = 2) = 18
donc P (T = 1|J = 1, A = 2) = 31
Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49
Une application subtile (2)
Calculs :
problème totalement symétrique
P (A = 2|T = 1, J = 1) = 21
P (T = 1, J = 1) = 31 31
1
P (T = 1, J = 1, A = 2) = 18
P (J = 1, A = 2) = P (J = 1, A = 2, T = 1) + P (J = 1, A =
2, T = 3)
P (A = 2|T = 3, J = 1) = 1 donc
P (J = 1, A = 2, T = 3) = 91
3
P (J = 1, A = 2) = 18
donc P (T = 1|J = 1, A = 2) = 31
Moralité : il faut changer de porte !
Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49
Variables aléatoires
On se donne D et A une σ-algèbre de D. Une variable
aléatoire sur (Ω, M) est
une fonction X de Ω dans D
mesurable : pour tout A ∈ A, X −1 (A) ∈ M
Intuitivement, on veut pouvoir calculer la probabilité d’un
évènement de la forme X ∈ A. Exemples de variables
aléatoires pour Ω défini par le résultat du lancé de deux dés :
S : la somme des deux dés
M : la plus grande de deux valeurs obtenues
Si D est au plus dénombrable, on parle de variable aléatoire
discrète.
Réseaux de neurones – Rappels de probabilités et statistiques – p.11/49
Loi et fonction de répartition
X définit une probabilité sur D, notée PX grâce à :
PX (A) = P (X −1 (A)) = P (X ∈ A)
PX est la loi de X.
Si X est à valeurs dans R, on définit la fonction de
répartion de X, FX par
FX (y) = P (X ≤ y)
une variable aléatoire X admet une densité quand il
existe une fonction fX de R dans R telle que pour tout
A∈A
Z
P (X ∈ A) =
fX (x)dx
A
Réseaux de neurones – Rappels de probabilités et statistiques – p.12/49
Exemples
S = somme de deux dés :
PS
FS
2
3
4
5
6
7
8
9
10 11 12
1
36
1
36
2
36
3
36
3
36
6
36
4
36
10
36
5
36
15
36
6
36
21
36
5
36
26
36
4
36
30
36
3
36
33
36
2
36
35
36
1
36
1
M = max de deux dés :
PM
FM
1
2
3
4
5
6
1
36
1
36
3
36
4
36
5
36
9
36
7
36
16
36
9
36
25
36
11
36
loi exponentielle : fXλ (x) = 1
−λy
FXλ (y) = 1 + (y) 1 − e
+
1
(x)λe−λx ,
Réseaux de neurones – Rappels de probabilités et statistiques – p.13/49
Espérance
Version mathématique de la notion de moyenne :
l’espérance.
Basée sur l’intégrale associée à une probabilité :
Z
E(X) = XdP
si X est une variable aléatoire positive, E(X) est bien
définie (mais on peut avoir E(X) = ∞)
Propriété intéressante
Z
Z
E(f (X)) = f (X)dP = f dPX
cas discret : E(X) =
∞
P
αk PX (αk )
k=0
Réseaux de neurones – Rappels de probabilités et statistiques – p.14/49
Exemples
Valeur d’un dé : E(V ) = 27
Somme de deux dés : E(S) = 7 (par linéarité de
l’espérance !)
Max de deux dés : E(M ) = 161
' 4.47
36
Variable avec une densité
Z
E(X) = xfX (x)dx
v.a. exponentielle : E(Xλ ) = λ1
v.a. gaussienne (ou normale), notée N (µ, σ) :
fX (x) =
√1 e
σ 2π
(x−µ)2
−
2σ 2
et E(X) = µ
Réseaux de neurones – Rappels de probabilités et statistiques – p.15/49
Variance
Idée : mesurer la dispersion d’une variable aléatoire autour
de sa moyenne.
Variance : σ 2 (X) = E ((X − E(X))2 )
p
Ecart-type : σ(X) = σ 2 (X) ( !)
σ 2 (X)
2
P (|X − E(X)| > ) ≤
(Bienaymé-Tchebychev)
Exemples :
Variable avec une densité :
Z
σ 2 (X) = (x − E(X))2 fX (x)dx
v.a. exponentielle : σ 2 (Xλ ) = λ12
v.a. gaussienne : σ 2 (Xλ ) = σ 2 . Remarque :
P (|X − E(X)| ≤ 1.96σ) ' 0.95 (BT donne 0.74)
Réseaux de neurones – Rappels de probabilités et statistiques – p.16/49
Corrélation
Idée : mesurer le “lien” entre deux variables aléatoires.
Covariance : Γ(X, Y ) = E [(X − E(X))(Y − E(Y ))]
si X et Y sont à valeurs dans Rn , on définit une matrice
de covariance :


Γ(X, Y ) = 
Γ(X1 , Y1 )
.
.
.
Γ(Xn , Y1 )
···
Γ(Xi , Yj )
···
Γ(X1 , Yn )
.
.
.
Γ(Xn , Yn )

Γ(X,Y )
Coefficient de corrélation : ρ(X, Y ) = σ(X)σ(Y
)
ρ(X, Y ) = 0 : variables dites non corrélées
X et Y indépendantes ⇒ X et Y non corrélées (le
contraire est faux !)
σ 2 (X + Y ) = σ 2 (X) + σ 2 (Y ) + Γ(X, Y )
Réseaux de neurones – Rappels de probabilités et statistiques – p.17/49
Conditionnement
Idée : approcher Y par une fonction de X (i.e. “expliquer” Y
grâce à X).
Pour tout couple de v.a. X et Y , il existe une v.a.,
mesurable au sens de σ(X), notée E(Y |X) telle que pour
tout B
E(Y 1X∈B ) = E [E(Y |X)1X∈B ]
ou encore
Z
Y dP =
X∈B
Z
X∈B
E(Y |X)dP
en fait, E(Y |X) = f (X) pour une certaine fonction f
si Y possède une variance, f (X) est la meilleure
approximation de Y par une fonction de X au sens des
moindres carrés
Réseaux de neurones – Rappels de probabilités et statistiques – p.18/49
Conditionnement (2)
On note E(Y |X = x) = f (x)
point de vue intuitif : E(Y |X = x) associe à x la valeur
moyenne des Y qu’on peut obtenir quand X = x
si X est discrète, le point de vue intuitif est exact, i.e.
E(Y 1X=x )
E(Y |X = x) =
P (X = x)
exemple : S, somme de deux dés, X1 , valeur du premier
dé.
x
1 2 3 4 5 6
13
15
17
19
E(S|X1 = x) 92 11
2
2
2
2
2
S’obtient par indépendance : E(S|X1 = x) =
E(X1 + X2 |X1 = x) = E(x + X2 |X1 = x) = x + E(X2 )
Réseaux de neurones – Rappels de probabilités et statistiques – p.19/49
Conditionnement (3)
si X et Y ont une densité jointe, i.e., il existe une fonction
fXY telle que
Z Z
P ((X, Y ) ∈ V ) =
fXY (x, y)dxdy
V
alors E(Y |X) admet pour densité
fXY (x, y)
fY |X (y|x) =
fX (x)
avec
fX (x) =
Z
fXY (x, y)dy
Réseaux de neurones – Rappels de probabilités et statistiques – p.20/49
Conditionnement (4)
conditionnement par un évènement
Z
1
E(Y |B) =
Y dP
P (B) B
exemple : M , max des lancés de deux dés, X1 , valeur du
59
premier dé : E(M |X1 ≥ 3) = 12
' 4.92
si Y = f (X), E(Y |X) = f (X)
si Y = f (X) + E et que E et X sont indépendants :
E(Y |X) = f (X) + E(E)
Réseaux de neurones – Rappels de probabilités et statistiques – p.21/49
Statistiques
Principe général :
on observe des variables aléatoires X1 , . . . , Xn de même
loi P
on cherche obtenir des informations sur la loi P à partir
des observations
par exemple, on fixe une famille de lois P ∈ {Pθ |θ ∈ Θ}, et
on cherche à trouver la valeur de θ telle que P = Pθ
plus généralement, on cherche à estimer α(θ)
Exemples :
Xi ∼ N (µ, 1) et on cherche µ
Modèle linéaire : Yi = αxi + β + Ei avec Ei ∼ N (0, σ) et on
cherche α et β
Réseaux de neurones – Rappels de probabilités et statistiques – p.22/49
Estimateur
On suppose les Xi à valeur dans A
Un estimateur de α(θ) ∈ B est une fonction mesurable α
b
de An dans l’image de B
Exemples avec Pµ,σ une loi de moyenne µ et d’écart-type
σ:
Estimateur de µ : la
moyenne empirique
P
µ
b(X1 , . . . , Xn ) = n1 ni=1 Xi
Pn
1
2
b
2
(Xi − µ
b)2
Estimateur de σ : σ =
n
i=1
Biais d’un estimateur : E(b
α(X1 , . . . , Xn )) − α(θ)
Exemples :
E(b
µ : estimateur sans biais
µ(X1 , . . . , Xn )) =
2
σ
: estimateur biaisé (on lui
E σb2 (X1 , . . . , Xn ) = n−1
n
Pn
1
b
2
préfère donc σ = n−1 i=1 (Xi − µ
b)2 )
Réseaux de neurones – Rappels de probabilités et statistiques – p.23/49
Exemple
Procédure :
on prend Xi ∼ λe−λx , avec λ = 2, soit :
E(Xi ) = 21
σ 2 (Xi ) = 14
on considère n = 20 réalisations
on calcule µ
b et σb2
on recommence 2000 fois
pour chaque estimateur, on trace l’histogramme des
valeurs obtenues
on calcule la moyenne des valeurs (approximation de
l’espérance d’après la loi des grands nombres) :
E(b
µ) ' 0.503
E(σb2 ) ' 0.256
Réseaux de neurones – Rappels de probabilités et statistiques – p.24/49
Exemple (2)
200
100
0
Effectif
300
Estimateur de l’espérance
0.2
0.4
0.6
0.8
1.0
µ
Réseaux de neurones – Rappels de probabilités et statistiques – p.25/49
Exemple (3)
0
50
100
150
Effectif
200
250
300
350
Estimateur de la variance
0.0
0.2
0.4
0.6
0.8
1.0
1.2
σ2
Réseaux de neurones – Rappels de probabilités et statistiques – p.26/49
Estimateur (2)
2
Risque d’un estimateur : E (b
α(X1 , . . . , Xn ) − α(θ))
Variance
d’un estimateur :
2
E (b
α(X1 , . . . , Xn ) − E(b
α(X1 , . . . , Xn )))
Décomposition biais+variance du risque (on note
α
b=α
b(X1 , . . . , Xn )) :
2
2
2
E (b
α − α(θ)) = (E(b
α) − α(θ)) + E (b
α − E(b
α))
σ2
n
Exemple, risque de la moyenne empirique :
Empiriquement (sur l’exemple précédent) :
risque de la moyenne : 0.0126 (théorique 0.0125)
risque de la variance : 0.0262
Réseaux de neurones – Rappels de probabilités et statistiques – p.27/49
Loi forte des grands nombres
(Xi )i∈ indépendantes et identiquement distribuées
E(Xi ) = µ < ∞
Alors
n
X
1
Xi = µ p.s.
lim
n→∞ n
i=1
Version intuitive : la moyenne empirique converge
(presque sûrement) vers la moyenne mathématique (i.e.,
l’espérance)
Base de l’approche fréquentiste
Dans le cas de variables indépendantes, l’estimateur de la
moyenne est donc fortement consistant
Réseaux de neurones – Rappels de probabilités et statistiques – p.28/49
Exemple
Procédure :
on prend Xi ∼ λe−λx , avec λ = 2, soit :
E(Xi ) = 21
σ 2 (Xi ) = 14
on considère n réalisations
Pn
1
on calcule µ
bn = n i=1 Xi
on trace l’évolution de µ
bn
Réseaux de neurones – Rappels de probabilités et statistiques – p.29/49
Exemple (2)
0.5
0.4
0.3
µn
0.6
0.7
Estimateur de l’espérance
0
20
40
60
80
100
n
Réseaux de neurones – Rappels de probabilités et statistiques – p.30/49
Exemple (3)
0.48
0.46
0.44
µn
0.50
0.52
Estimateur de l’espérance
0
500
1000
1500
2000
n
Réseaux de neurones – Rappels de probabilités et statistiques – p.31/49
Théorème de la limite centrale
(Xi )i∈ indépendantes et identiquement distribuées
E(Xi ) = µ < ∞ et σ 2 (Xi ) = σ 2 < ∞
√ 1 Pn
Alors la suite Yn = n( n i=1 Xi − µ) converge en loi vers
N (0, σ)
Signification mathématique : l’intégrale au sens de la loi
PYn de toute fonction continue bornée converge vers
l’intégrale de cette fonction au sens d’une loi normale
N (0, σ)
Signification intuitive : quand n est grand, Yn se comporte
presque comme une variable aléatoire gaussienne
Donne une idée de la dispersion de la moyenne empirique
autour de la moyenne mathématique
Réseaux de neurones – Rappels de probabilités et statistiques – p.32/49
Suite de l’exemple (4)
0.5
0.4
0.3
µn
0.6
0.7
Estimateur de l’espérance
0
20
40
60
80
100
n
Réseaux de neurones – Rappels de probabilités et statistiques – p.33/49
Suite de l’exemple (5)
0.48
0.46
0.44
µn
0.50
0.52
Estimateur de l’espérance
0
500
1000
1500
2000
n
Réseaux de neurones – Rappels de probabilités et statistiques – p.34/49
Une autre vérification expérimentale
Procédure :
on prend Xi ∼ λe−λx , avec λ = 2, soit :
E(Xi ) = 21
σ 2 (Xi ) = 14
pour différentes valeurs de n :
on considère
√ n réalisations
on calcule n(b
µn − µ)
on recommence k fois
on trace l’histogramme des valeurs obtenues
on étudie l’évolution de l’histogramme quand n augmente
Réseaux de neurones – Rappels de probabilités et statistiques – p.35/49
Résultat
Evolution de la dispersion de µ
2
5
−0.5
0.0
0.5
1.0
1.5
2.0
2.5
0.0
0.0
0.0
0.2
0.2
0.5
0.4
0.4
0.6
1.0
0.6
0.8
1.5
0.8
1.0
1
3.0
0
1
3
−1
0
1
10
2
20
−1.0
−0.5
0.0
0.5
1.0
1.5
2.0
0.6
0.4
0.2
0.0
0.0
0.0
0.2
0.2
0.4
0.4
0.6
0.6
0.8
0.8
0.8
7
2
−1
0
1
2
−1
0
1
2
Réseaux de neurones – Rappels de probabilités et statistiques – p.36/49
Vraisemblance
Modèle paramétrique, P ∈ {Pθ |θ ∈ Θ} dominé : chaque Pθ
possède une densité
Vraisemblance : L(θ, .), une densité pour Pθ
Vraisemblance d’un
Qn échantillon i.i.d. :
L(θ, x1 , . . . , xn ) = i=1 L(θ, xi )
Estimateur du maximum de vraisemblance : estimateur
θb qui maximise L(θ, x1 , . . . , xn ), i.e.
b 1 , . . . , xn ), x1 , . . . , xn = sup L(θ, x1 , . . . , xn )
L θ(x
θ∈Θ
Idée intuitive : la vraisemblance L(θ, x1 , . . . , xn ) donne une
idée de la probabilité d’obtenir les observations si celles-ci
sont engendrées par Pθ
Cas discret : mise en œuvre de l’idée intuitive
Réseaux de neurones – Rappels de probabilités et statistiques – p.37/49
Vraisemblance (2)
En général, on maximise la log-vraisemblance, i.e.
n
X
i=1
log L(θ, xi )
Exemple, pile ou face truqué :
paramètre p (probabilité d’avoir pile, soit xi = 1)
observations i.i.d. (k fois pile)
Y Y
1
n
L(p, x , . . . , x ) =
p
(1 − p) = pk (1 − p)n−k
xi =1
xi =0
estimateur du maximum de vraisemblance : pb = nk
La moyenne empirique est en général l’estimateur du
maximum de vraisemblance pour l’espérance
Réseaux de neurones – Rappels de probabilités et statistiques – p.38/49
Exemple de mise en œuvre
Procédure :
Xi : pile ou face (probabilité p d’avoir pile)
kn : nombre de piles obtenus pour n lancés
on trace l’évolution de pbn = knn
d’après la loi des grands nombres, pbn converge vers p
Réseaux de neurones – Rappels de probabilités et statistiques – p.39/49
Exemple (2)
0.4
0.5
0.6
pn
0.7
0.8
0.9
1.0
Estimateur de p
0
20
40
60
80
100
n
Réseaux de neurones – Rappels de probabilités et statistiques – p.40/49
Exemple (3)
0.52
0.54
0.56
pn
0.58
0.60
Estimateur de p
0
500
1000
1500
2000
n
Réseaux de neurones – Rappels de probabilités et statistiques – p.41/49
Vraisemblance (3)
Problèmes possibles :
n’existe pas toujours
n’est pas toujours sans biais. Exemple :
Xi ∼ N (0, σ)
1
−
1
n
L(σ, x , . . . , x ) =
e
n
2
(2σ π) 2
n
2
i=1 xi
2σ 2
onPmontre que l’estimateur du MV de σ 2 est alors
n
1
2
x
i=1 i qui est biaisé !
n
Néanmoins très pratique, en particulier car un estimateur du
MV est en général consistant.
Réseaux de neurones – Rappels de probabilités et statistiques – p.42/49
Estimation bayesienne
Idée : mettre une distribution sur Θ, un a priori.
Règle de Bayes
P (B|A)P (A)
P (A|B) =
P (B)
Permet d’estimer P (θ|x1 , . . . , xn ) grâce à :
P (x1 , . . . , xn |θ) : modèle paramétrique
P (θ) : a priori sur Θ
P (x1 , . . . , xn ) : par intégration
Permet de tenir compte de connaissances expertes
Réseaux de neurones – Rappels de probabilités et statistiques – p.43/49
Exemple : pile ou face truqué
probabilité d’obtenir pile : p
on observe Pn le nombre de piles obtenues dans n lancés
P (Pn = k|p) = nk pk (1 − p)n−k
probabilité a priori sur p : uniforme sur [0, 1]
on utilise la règle de Bayes avec densité :
P (Pn = k|p)p(p)
p(p|Pn = k) =
P (Pn = k)
on obtient p(p|Pn = k) =
pk (1−p)n−k
1 k
n−k dp
0 p (1−p)
on reconnaît une loi Beta de paramètres k + 1 et n − k + 1,
k+1
d’espérance n+2
et de variance (k+1)(n−k+1)
(n+2)2 (n+3)
Réseaux de neurones – Rappels de probabilités et statistiques – p.44/49
Exemple : pile ou face truqué (2)
k
n→∞ n
loi des grands nombres lim
asymptotiquement
k+1
∼p
n+2
(k+1)(n−k+1)
(n+2)2 (n+3)
=p
p(1−p)
n
σ2
n
asymptotiquement
∼
=
intuitivement : la distribution a posteriori de p se resserre
autour de son espérance
Réseaux de neurones – Rappels de probabilités et statistiques – p.45/49
Exemple (3)
Evolution de p(p|Pn)
n=50
n=100
4
p(p|Pn)
0.0
0.2
0.4
0.6
0.8
1.0
0
0
0
1
2
1
2
3
p(p|Pn)
2
p(p|Pn)
4
6
3
5
8
n=20
0.0
0.2
0.6
0.8
1.0
0.0
0.2
n=1000
0.4
0.6
0.8
1.0
0.8
1.0
n=2000
20
p(p|Pn)
15
10
10
p(p|Pn)
10
0.0
0.2
0.4
0.6
0.8
1.0
0
0
5
5
0
p(p|Pn)
20
30
15
25
n=500
0.4
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
Réseaux de neurones – Rappels de probabilités et statistiques – p.46/49
A priori non uniforme
On sait que la pièce est truquée et on a des informations sur
la nature du trucage :
probabilité d’obtenir pile : p distribué selon une loi Beta de
paramètres a et b
on montre alors que p(p|Pn = k) est une Beta de
paramètres k + a et n − k + b
k+a
espérance de p sachant Pn = k : n+a+b
variance de p sachant Pn = k :
(k+a)(n−k+b)
(n+a+b)2 (a+b+n+1)
Réseaux de neurones – Rappels de probabilités et statistiques – p.47/49
Exemple (4)
A priori : loi Beta(60, 50)
0
2
4
6
8
Densité de la loi Beta(60,50)
0.0
0.2
0.4
0.6
0.8
1.0
Réseaux de neurones – Rappels de probabilités et statistiques – p.48/49
Exemple (5)
Evolution de p(p|Pn)
n=50
n=100
0.0
0.2
0.4
0.6
0.8
1.0
6
0
0
0
2
2
2
4
4
p(p|Pn)
p(p|Pn)
4
p(p|Pn)
6
6
8
8
10
8
10
12
n=20
0.0
0.2
0.6
0.8
1.0
0.0
0.2
n=1000
0.4
0.6
0.8
1.0
0.8
1.0
n=2000
p(p|Pn)
10
10
20
20
15
p(p|Pn)
10
0.0
0.2
0.4
0.6
0.8
1.0
0
0
5
5
0
p(p|Pn)
15
30
25
20
n=500
0.4
0.0
0.2
0.4
0.6
0.8
1.0
0.0
0.2
0.4
0.6
Réseaux de neurones – Rappels de probabilités et statistiques – p.49/49
Téléchargement