Réseaux de neurones : rappels de probabilités et statistiques Fabrice Rossi http://apiacoa.org/contact.html. Université Paris-IX Dauphine Réseaux de neurones – Rappels de probabilités et statistiques – p.1/49 Plan des rappels 1. Probabilités 2. Conditionnement et indépendance 3. Variable aléatoire 4. Moments 5. Retour sur le conditionnement 6. Notion d’estimateur 7. Théorèmes limites 8. Vraisemblance 9. Estimation bayesienne Réseaux de neurones – Rappels de probabilités et statistiques – p.2/49 Modélisation stochastique Phénomènes intrinsèquement aléatoires : mécanique quantique Phénomènes chaotiques : rupture d’équilibre (stylo en équilibre sur sa pointe !) phénomènes très complexes (météo par exemple) Connaissance incomplète, exemple : lien entre z et x x=1 2 2 1 4 5 3 1 2 2 5 4 2 1 5 3 5 2 5 2 5 4 3 5 5 2 3 2 3 2 z=0 3 1 0 4 5 3 1 1 3 4 5 1 1 6 2 6 2 5 2 6 4 2 5 5 2 4 2 2 2 P (z = 3|x = 2) = 51 , P (z = 2|x = 2) = 3 P (z = 1|x = 2) = 10 en fait z = x + y avec et 1 2 et y = -1 1 -1 -1 0 0 0 0 -1 1 -1 1 -1 0 1 -1 1 0 0 0 1 0 -1 0 0 0 1 0 -1 0 Réseaux de neurones – Rappels de probabilités et statistiques – p.3/49 Probabilités Deux visions : 1. “objective” : vision “fréquentiste” calcul de fréquence par comptage probabilité : limite des fréquences exemple : probabilité qu’un accident soit une conséquence de la consommation d’alcool 2. “subjective” : vision bayesienne connaissance/croyance a priori prise en compte de l’expérience pour modifier la croyance exemple : probabilité qu’une pièce tombe sur pile Réseaux de neurones – Rappels de probabilités et statistiques – p.4/49 Probabilités (2) Modèle probabiliste, (Ω, M, P ) : Ω : l’univers, l’ensemble des possibles : lancé d’un dé : Ω = {1, 2, 3, 4, 5, 6} lancé d’une pièce deux fois de suite : Ω = {(P, P ), (P, F ), (F, P ), (F, F )} M : les évènements étudiables (M ⊂ P(Ω)) : conditions techniques : une σ-algèbre, i.e. : contient Ω (évènement sûr) et ∅ (évènement impossible) stable par passage au complémentaire (pour pouvoir dire que A n’a pas eu lieu) stable par union dénombrable (pour pouvoir dire que A ou B ont eu lieu) exemple : M = P(Ω) Réseaux de neurones – Rappels de probabilités et statistiques – p.5/49 Probabilités (3) Modèle probabiliste, (Ω, M, P ) : P : une probabilité : une fonction de M dans [0, 1] donne la probabilité d’un évènement P (Ω) = 1 si les (Ai )i∈ sont des évènements deux à deux disjoints ! ∞ ∞ X [ P (Ai ) Ai = P i=0 i=0 exemple pour dé non pipé, P ({i}) = P définit une intégrale, et on a Z P (B) = 1B dP 1 6 pour tout i Réseaux de neurones – Rappels de probabilités et statistiques – p.6/49 Conditionnement Un des concepts les plus importants en probabilité : qu’est-ce qu’apporte une information ? P (A|B) : la probabilité de l’évènement A sachant que l’évènement B a eu lieu (P (B) > 0) P (AB) P (A ∩ B) = P (A|B) = P (B) P (B) exemple : A = {le dé donne une valeur > 4} et B = {le dé donne une valeur > à 2} P (AB) = P (A) (car A ⊂ B) et donc P (AB) = P (B) = 32 P (A|B) = 21 1 3 Réseaux de neurones – Rappels de probabilités et statistiques – p.7/49 Indépendance Deux évènements sont indépendants si la connaissance de l’un n’apporte rien sur l’autre : A et B indépendants ⇔ P (AB) = P (A)P (B) si P (B) > 0, A et B indépendants ⇔ P (A|B) = P (A) Hypothèse très utile en pratique. Par exemple : on lance n fois une pièce (P (P ) = P (F ) = 21 ) univers Ω = {P, F }n lancés indépendants, implique P ({l1 , . . . , ln }) = 21n par indépendance, connaître P pour les évènements réduits à un lancé permet d’obtenir P sur M toute entière Réseaux de neurones – Rappels de probabilités et statistiques – p.8/49 Une application subtile Le jeu des portes : le joueur est placé devant trois portes un cadeau est caché derrière une porte (il n’y a rien derrière les autres) le joueur choisit la porte i l’animateur lui indique que le cadeau n’est pas derrière la porte j (j 6= i !) Question : le joueur a-t-il intérêt à changer de porte ? Réseaux de neurones – Rappels de probabilités et statistiques – p.9/49 Une application subtile Le jeu des portes : le joueur est placé devant trois portes un cadeau est caché derrière une porte (il n’y a rien derrière les autres) le joueur choisit la porte i l’animateur lui indique que le cadeau n’est pas derrière la porte j (j 6= i !) Question : le joueur a-t-il intérêt à changer de porte ? Modélisation : Ω : position du trésor, choix du joueur, choix de l’animateur position du trésor et choix du joueur indépendants (et uniformes) choix de l’animateur uniforme (sachant la position du trésor et le choix du joueur) Réseaux de neurones – Rappels de probabilités et statistiques – p.9/49 Une application subtile (2) Calculs : problème totalement symétrique P (T = 1|J = 1, A = 2) ? Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49 Une application subtile (2) Calculs : problème totalement symétrique P (A = 2|T = 1, J = 1) = 21 P (T = 1, J = 1) = 31 31 1 P (T = 1, J = 1, A = 2) = 18 Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49 Une application subtile (2) Calculs : problème totalement symétrique P (A = 2|T = 1, J = 1) = 21 P (T = 1, J = 1) = 31 31 1 P (T = 1, J = 1, A = 2) = 18 P (J = 1, A = 2) = P (J = 1, A = 2, T = 1) + P (J = 1, A = 2, T = 3) P (A = 2|T = 3, J = 1) = 1 donc P (J = 1, A = 2, T = 3) = 91 3 P (J = 1, A = 2) = 18 Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49 Une application subtile (2) Calculs : problème totalement symétrique P (A = 2|T = 1, J = 1) = 21 P (T = 1, J = 1) = 31 31 1 P (T = 1, J = 1, A = 2) = 18 P (J = 1, A = 2) = P (J = 1, A = 2, T = 1) + P (J = 1, A = 2, T = 3) P (A = 2|T = 3, J = 1) = 1 donc P (J = 1, A = 2, T = 3) = 91 3 P (J = 1, A = 2) = 18 donc P (T = 1|J = 1, A = 2) = 31 Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49 Une application subtile (2) Calculs : problème totalement symétrique P (A = 2|T = 1, J = 1) = 21 P (T = 1, J = 1) = 31 31 1 P (T = 1, J = 1, A = 2) = 18 P (J = 1, A = 2) = P (J = 1, A = 2, T = 1) + P (J = 1, A = 2, T = 3) P (A = 2|T = 3, J = 1) = 1 donc P (J = 1, A = 2, T = 3) = 91 3 P (J = 1, A = 2) = 18 donc P (T = 1|J = 1, A = 2) = 31 Moralité : il faut changer de porte ! Réseaux de neurones – Rappels de probabilités et statistiques – p.10/49 Variables aléatoires On se donne D et A une σ-algèbre de D. Une variable aléatoire sur (Ω, M) est une fonction X de Ω dans D mesurable : pour tout A ∈ A, X −1 (A) ∈ M Intuitivement, on veut pouvoir calculer la probabilité d’un évènement de la forme X ∈ A. Exemples de variables aléatoires pour Ω défini par le résultat du lancé de deux dés : S : la somme des deux dés M : la plus grande de deux valeurs obtenues Si D est au plus dénombrable, on parle de variable aléatoire discrète. Réseaux de neurones – Rappels de probabilités et statistiques – p.11/49 Loi et fonction de répartition X définit une probabilité sur D, notée PX grâce à : PX (A) = P (X −1 (A)) = P (X ∈ A) PX est la loi de X. Si X est à valeurs dans R, on définit la fonction de répartion de X, FX par FX (y) = P (X ≤ y) une variable aléatoire X admet une densité quand il existe une fonction fX de R dans R telle que pour tout A∈A Z P (X ∈ A) = fX (x)dx A Réseaux de neurones – Rappels de probabilités et statistiques – p.12/49 Exemples S = somme de deux dés : PS FS 2 3 4 5 6 7 8 9 10 11 12 1 36 1 36 2 36 3 36 3 36 6 36 4 36 10 36 5 36 15 36 6 36 21 36 5 36 26 36 4 36 30 36 3 36 33 36 2 36 35 36 1 36 1 M = max de deux dés : PM FM 1 2 3 4 5 6 1 36 1 36 3 36 4 36 5 36 9 36 7 36 16 36 9 36 25 36 11 36 loi exponentielle : fXλ (x) = 1 −λy FXλ (y) = 1 + (y) 1 − e + 1 (x)λe−λx , Réseaux de neurones – Rappels de probabilités et statistiques – p.13/49 Espérance Version mathématique de la notion de moyenne : l’espérance. Basée sur l’intégrale associée à une probabilité : Z E(X) = XdP si X est une variable aléatoire positive, E(X) est bien définie (mais on peut avoir E(X) = ∞) Propriété intéressante Z Z E(f (X)) = f (X)dP = f dPX cas discret : E(X) = ∞ P αk PX (αk ) k=0 Réseaux de neurones – Rappels de probabilités et statistiques – p.14/49 Exemples Valeur d’un dé : E(V ) = 27 Somme de deux dés : E(S) = 7 (par linéarité de l’espérance !) Max de deux dés : E(M ) = 161 ' 4.47 36 Variable avec une densité Z E(X) = xfX (x)dx v.a. exponentielle : E(Xλ ) = λ1 v.a. gaussienne (ou normale), notée N (µ, σ) : fX (x) = √1 e σ 2π (x−µ)2 − 2σ 2 et E(X) = µ Réseaux de neurones – Rappels de probabilités et statistiques – p.15/49 Variance Idée : mesurer la dispersion d’une variable aléatoire autour de sa moyenne. Variance : σ 2 (X) = E ((X − E(X))2 ) p Ecart-type : σ(X) = σ 2 (X) ( !) σ 2 (X) 2 P (|X − E(X)| > ) ≤ (Bienaymé-Tchebychev) Exemples : Variable avec une densité : Z σ 2 (X) = (x − E(X))2 fX (x)dx v.a. exponentielle : σ 2 (Xλ ) = λ12 v.a. gaussienne : σ 2 (Xλ ) = σ 2 . Remarque : P (|X − E(X)| ≤ 1.96σ) ' 0.95 (BT donne 0.74) Réseaux de neurones – Rappels de probabilités et statistiques – p.16/49 Corrélation Idée : mesurer le “lien” entre deux variables aléatoires. Covariance : Γ(X, Y ) = E [(X − E(X))(Y − E(Y ))] si X et Y sont à valeurs dans Rn , on définit une matrice de covariance : Γ(X, Y ) = Γ(X1 , Y1 ) . . . Γ(Xn , Y1 ) ··· Γ(Xi , Yj ) ··· Γ(X1 , Yn ) . . . Γ(Xn , Yn ) Γ(X,Y ) Coefficient de corrélation : ρ(X, Y ) = σ(X)σ(Y ) ρ(X, Y ) = 0 : variables dites non corrélées X et Y indépendantes ⇒ X et Y non corrélées (le contraire est faux !) σ 2 (X + Y ) = σ 2 (X) + σ 2 (Y ) + Γ(X, Y ) Réseaux de neurones – Rappels de probabilités et statistiques – p.17/49 Conditionnement Idée : approcher Y par une fonction de X (i.e. “expliquer” Y grâce à X). Pour tout couple de v.a. X et Y , il existe une v.a., mesurable au sens de σ(X), notée E(Y |X) telle que pour tout B E(Y 1X∈B ) = E [E(Y |X)1X∈B ] ou encore Z Y dP = X∈B Z X∈B E(Y |X)dP en fait, E(Y |X) = f (X) pour une certaine fonction f si Y possède une variance, f (X) est la meilleure approximation de Y par une fonction de X au sens des moindres carrés Réseaux de neurones – Rappels de probabilités et statistiques – p.18/49 Conditionnement (2) On note E(Y |X = x) = f (x) point de vue intuitif : E(Y |X = x) associe à x la valeur moyenne des Y qu’on peut obtenir quand X = x si X est discrète, le point de vue intuitif est exact, i.e. E(Y 1X=x ) E(Y |X = x) = P (X = x) exemple : S, somme de deux dés, X1 , valeur du premier dé. x 1 2 3 4 5 6 13 15 17 19 E(S|X1 = x) 92 11 2 2 2 2 2 S’obtient par indépendance : E(S|X1 = x) = E(X1 + X2 |X1 = x) = E(x + X2 |X1 = x) = x + E(X2 ) Réseaux de neurones – Rappels de probabilités et statistiques – p.19/49 Conditionnement (3) si X et Y ont une densité jointe, i.e., il existe une fonction fXY telle que Z Z P ((X, Y ) ∈ V ) = fXY (x, y)dxdy V alors E(Y |X) admet pour densité fXY (x, y) fY |X (y|x) = fX (x) avec fX (x) = Z fXY (x, y)dy Réseaux de neurones – Rappels de probabilités et statistiques – p.20/49 Conditionnement (4) conditionnement par un évènement Z 1 E(Y |B) = Y dP P (B) B exemple : M , max des lancés de deux dés, X1 , valeur du 59 premier dé : E(M |X1 ≥ 3) = 12 ' 4.92 si Y = f (X), E(Y |X) = f (X) si Y = f (X) + E et que E et X sont indépendants : E(Y |X) = f (X) + E(E) Réseaux de neurones – Rappels de probabilités et statistiques – p.21/49 Statistiques Principe général : on observe des variables aléatoires X1 , . . . , Xn de même loi P on cherche obtenir des informations sur la loi P à partir des observations par exemple, on fixe une famille de lois P ∈ {Pθ |θ ∈ Θ}, et on cherche à trouver la valeur de θ telle que P = Pθ plus généralement, on cherche à estimer α(θ) Exemples : Xi ∼ N (µ, 1) et on cherche µ Modèle linéaire : Yi = αxi + β + Ei avec Ei ∼ N (0, σ) et on cherche α et β Réseaux de neurones – Rappels de probabilités et statistiques – p.22/49 Estimateur On suppose les Xi à valeur dans A Un estimateur de α(θ) ∈ B est une fonction mesurable α b de An dans l’image de B Exemples avec Pµ,σ une loi de moyenne µ et d’écart-type σ: Estimateur de µ : la moyenne empirique P µ b(X1 , . . . , Xn ) = n1 ni=1 Xi Pn 1 2 b 2 (Xi − µ b)2 Estimateur de σ : σ = n i=1 Biais d’un estimateur : E(b α(X1 , . . . , Xn )) − α(θ) Exemples : E(b µ : estimateur sans biais µ(X1 , . . . , Xn )) = 2 σ : estimateur biaisé (on lui E σb2 (X1 , . . . , Xn ) = n−1 n Pn 1 b 2 préfère donc σ = n−1 i=1 (Xi − µ b)2 ) Réseaux de neurones – Rappels de probabilités et statistiques – p.23/49 Exemple Procédure : on prend Xi ∼ λe−λx , avec λ = 2, soit : E(Xi ) = 21 σ 2 (Xi ) = 14 on considère n = 20 réalisations on calcule µ b et σb2 on recommence 2000 fois pour chaque estimateur, on trace l’histogramme des valeurs obtenues on calcule la moyenne des valeurs (approximation de l’espérance d’après la loi des grands nombres) : E(b µ) ' 0.503 E(σb2 ) ' 0.256 Réseaux de neurones – Rappels de probabilités et statistiques – p.24/49 Exemple (2) 200 100 0 Effectif 300 Estimateur de l’espérance 0.2 0.4 0.6 0.8 1.0 µ Réseaux de neurones – Rappels de probabilités et statistiques – p.25/49 Exemple (3) 0 50 100 150 Effectif 200 250 300 350 Estimateur de la variance 0.0 0.2 0.4 0.6 0.8 1.0 1.2 σ2 Réseaux de neurones – Rappels de probabilités et statistiques – p.26/49 Estimateur (2) 2 Risque d’un estimateur : E (b α(X1 , . . . , Xn ) − α(θ)) Variance d’un estimateur : 2 E (b α(X1 , . . . , Xn ) − E(b α(X1 , . . . , Xn ))) Décomposition biais+variance du risque (on note α b=α b(X1 , . . . , Xn )) : 2 2 2 E (b α − α(θ)) = (E(b α) − α(θ)) + E (b α − E(b α)) σ2 n Exemple, risque de la moyenne empirique : Empiriquement (sur l’exemple précédent) : risque de la moyenne : 0.0126 (théorique 0.0125) risque de la variance : 0.0262 Réseaux de neurones – Rappels de probabilités et statistiques – p.27/49 Loi forte des grands nombres (Xi )i∈ indépendantes et identiquement distribuées E(Xi ) = µ < ∞ Alors n X 1 Xi = µ p.s. lim n→∞ n i=1 Version intuitive : la moyenne empirique converge (presque sûrement) vers la moyenne mathématique (i.e., l’espérance) Base de l’approche fréquentiste Dans le cas de variables indépendantes, l’estimateur de la moyenne est donc fortement consistant Réseaux de neurones – Rappels de probabilités et statistiques – p.28/49 Exemple Procédure : on prend Xi ∼ λe−λx , avec λ = 2, soit : E(Xi ) = 21 σ 2 (Xi ) = 14 on considère n réalisations Pn 1 on calcule µ bn = n i=1 Xi on trace l’évolution de µ bn Réseaux de neurones – Rappels de probabilités et statistiques – p.29/49 Exemple (2) 0.5 0.4 0.3 µn 0.6 0.7 Estimateur de l’espérance 0 20 40 60 80 100 n Réseaux de neurones – Rappels de probabilités et statistiques – p.30/49 Exemple (3) 0.48 0.46 0.44 µn 0.50 0.52 Estimateur de l’espérance 0 500 1000 1500 2000 n Réseaux de neurones – Rappels de probabilités et statistiques – p.31/49 Théorème de la limite centrale (Xi )i∈ indépendantes et identiquement distribuées E(Xi ) = µ < ∞ et σ 2 (Xi ) = σ 2 < ∞ √ 1 Pn Alors la suite Yn = n( n i=1 Xi − µ) converge en loi vers N (0, σ) Signification mathématique : l’intégrale au sens de la loi PYn de toute fonction continue bornée converge vers l’intégrale de cette fonction au sens d’une loi normale N (0, σ) Signification intuitive : quand n est grand, Yn se comporte presque comme une variable aléatoire gaussienne Donne une idée de la dispersion de la moyenne empirique autour de la moyenne mathématique Réseaux de neurones – Rappels de probabilités et statistiques – p.32/49 Suite de l’exemple (4) 0.5 0.4 0.3 µn 0.6 0.7 Estimateur de l’espérance 0 20 40 60 80 100 n Réseaux de neurones – Rappels de probabilités et statistiques – p.33/49 Suite de l’exemple (5) 0.48 0.46 0.44 µn 0.50 0.52 Estimateur de l’espérance 0 500 1000 1500 2000 n Réseaux de neurones – Rappels de probabilités et statistiques – p.34/49 Une autre vérification expérimentale Procédure : on prend Xi ∼ λe−λx , avec λ = 2, soit : E(Xi ) = 21 σ 2 (Xi ) = 14 pour différentes valeurs de n : on considère √ n réalisations on calcule n(b µn − µ) on recommence k fois on trace l’histogramme des valeurs obtenues on étudie l’évolution de l’histogramme quand n augmente Réseaux de neurones – Rappels de probabilités et statistiques – p.35/49 Résultat Evolution de la dispersion de µ 2 5 −0.5 0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.0 0.0 0.2 0.2 0.5 0.4 0.4 0.6 1.0 0.6 0.8 1.5 0.8 1.0 1 3.0 0 1 3 −1 0 1 10 2 20 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 0.6 0.4 0.2 0.0 0.0 0.0 0.2 0.2 0.4 0.4 0.6 0.6 0.8 0.8 0.8 7 2 −1 0 1 2 −1 0 1 2 Réseaux de neurones – Rappels de probabilités et statistiques – p.36/49 Vraisemblance Modèle paramétrique, P ∈ {Pθ |θ ∈ Θ} dominé : chaque Pθ possède une densité Vraisemblance : L(θ, .), une densité pour Pθ Vraisemblance d’un Qn échantillon i.i.d. : L(θ, x1 , . . . , xn ) = i=1 L(θ, xi ) Estimateur du maximum de vraisemblance : estimateur θb qui maximise L(θ, x1 , . . . , xn ), i.e. b 1 , . . . , xn ), x1 , . . . , xn = sup L(θ, x1 , . . . , xn ) L θ(x θ∈Θ Idée intuitive : la vraisemblance L(θ, x1 , . . . , xn ) donne une idée de la probabilité d’obtenir les observations si celles-ci sont engendrées par Pθ Cas discret : mise en œuvre de l’idée intuitive Réseaux de neurones – Rappels de probabilités et statistiques – p.37/49 Vraisemblance (2) En général, on maximise la log-vraisemblance, i.e. n X i=1 log L(θ, xi ) Exemple, pile ou face truqué : paramètre p (probabilité d’avoir pile, soit xi = 1) observations i.i.d. (k fois pile) Y Y 1 n L(p, x , . . . , x ) = p (1 − p) = pk (1 − p)n−k xi =1 xi =0 estimateur du maximum de vraisemblance : pb = nk La moyenne empirique est en général l’estimateur du maximum de vraisemblance pour l’espérance Réseaux de neurones – Rappels de probabilités et statistiques – p.38/49 Exemple de mise en œuvre Procédure : Xi : pile ou face (probabilité p d’avoir pile) kn : nombre de piles obtenus pour n lancés on trace l’évolution de pbn = knn d’après la loi des grands nombres, pbn converge vers p Réseaux de neurones – Rappels de probabilités et statistiques – p.39/49 Exemple (2) 0.4 0.5 0.6 pn 0.7 0.8 0.9 1.0 Estimateur de p 0 20 40 60 80 100 n Réseaux de neurones – Rappels de probabilités et statistiques – p.40/49 Exemple (3) 0.52 0.54 0.56 pn 0.58 0.60 Estimateur de p 0 500 1000 1500 2000 n Réseaux de neurones – Rappels de probabilités et statistiques – p.41/49 Vraisemblance (3) Problèmes possibles : n’existe pas toujours n’est pas toujours sans biais. Exemple : Xi ∼ N (0, σ) 1 − 1 n L(σ, x , . . . , x ) = e n 2 (2σ π) 2 n 2 i=1 xi 2σ 2 onPmontre que l’estimateur du MV de σ 2 est alors n 1 2 x i=1 i qui est biaisé ! n Néanmoins très pratique, en particulier car un estimateur du MV est en général consistant. Réseaux de neurones – Rappels de probabilités et statistiques – p.42/49 Estimation bayesienne Idée : mettre une distribution sur Θ, un a priori. Règle de Bayes P (B|A)P (A) P (A|B) = P (B) Permet d’estimer P (θ|x1 , . . . , xn ) grâce à : P (x1 , . . . , xn |θ) : modèle paramétrique P (θ) : a priori sur Θ P (x1 , . . . , xn ) : par intégration Permet de tenir compte de connaissances expertes Réseaux de neurones – Rappels de probabilités et statistiques – p.43/49 Exemple : pile ou face truqué probabilité d’obtenir pile : p on observe Pn le nombre de piles obtenues dans n lancés P (Pn = k|p) = nk pk (1 − p)n−k probabilité a priori sur p : uniforme sur [0, 1] on utilise la règle de Bayes avec densité : P (Pn = k|p)p(p) p(p|Pn = k) = P (Pn = k) on obtient p(p|Pn = k) = pk (1−p)n−k 1 k n−k dp 0 p (1−p) on reconnaît une loi Beta de paramètres k + 1 et n − k + 1, k+1 d’espérance n+2 et de variance (k+1)(n−k+1) (n+2)2 (n+3) Réseaux de neurones – Rappels de probabilités et statistiques – p.44/49 Exemple : pile ou face truqué (2) k n→∞ n loi des grands nombres lim asymptotiquement k+1 ∼p n+2 (k+1)(n−k+1) (n+2)2 (n+3) =p p(1−p) n σ2 n asymptotiquement ∼ = intuitivement : la distribution a posteriori de p se resserre autour de son espérance Réseaux de neurones – Rappels de probabilités et statistiques – p.45/49 Exemple (3) Evolution de p(p|Pn) n=50 n=100 4 p(p|Pn) 0.0 0.2 0.4 0.6 0.8 1.0 0 0 0 1 2 1 2 3 p(p|Pn) 2 p(p|Pn) 4 6 3 5 8 n=20 0.0 0.2 0.6 0.8 1.0 0.0 0.2 n=1000 0.4 0.6 0.8 1.0 0.8 1.0 n=2000 20 p(p|Pn) 15 10 10 p(p|Pn) 10 0.0 0.2 0.4 0.6 0.8 1.0 0 0 5 5 0 p(p|Pn) 20 30 15 25 n=500 0.4 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 Réseaux de neurones – Rappels de probabilités et statistiques – p.46/49 A priori non uniforme On sait que la pièce est truquée et on a des informations sur la nature du trucage : probabilité d’obtenir pile : p distribué selon une loi Beta de paramètres a et b on montre alors que p(p|Pn = k) est une Beta de paramètres k + a et n − k + b k+a espérance de p sachant Pn = k : n+a+b variance de p sachant Pn = k : (k+a)(n−k+b) (n+a+b)2 (a+b+n+1) Réseaux de neurones – Rappels de probabilités et statistiques – p.47/49 Exemple (4) A priori : loi Beta(60, 50) 0 2 4 6 8 Densité de la loi Beta(60,50) 0.0 0.2 0.4 0.6 0.8 1.0 Réseaux de neurones – Rappels de probabilités et statistiques – p.48/49 Exemple (5) Evolution de p(p|Pn) n=50 n=100 0.0 0.2 0.4 0.6 0.8 1.0 6 0 0 0 2 2 2 4 4 p(p|Pn) p(p|Pn) 4 p(p|Pn) 6 6 8 8 10 8 10 12 n=20 0.0 0.2 0.6 0.8 1.0 0.0 0.2 n=1000 0.4 0.6 0.8 1.0 0.8 1.0 n=2000 p(p|Pn) 10 10 20 20 15 p(p|Pn) 10 0.0 0.2 0.4 0.6 0.8 1.0 0 0 5 5 0 p(p|Pn) 15 30 25 20 n=500 0.4 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 Réseaux de neurones – Rappels de probabilités et statistiques – p.49/49