Fiche de Statistiques Contents I Rappels et formules utiles 2 1 Rappels généraux 2 2 Espérance mathématique 2 3 Variance 2 II 3 Estimateurs 1 Définition 3 2 Qualité d’un estimateur 3 3 Stratégie bayésienne 4 1 Statistiques Pougne Pandore Part I Rappels et formules utiles Ceci est plus une liste des choses à réviser qu’un rappel en soit, tout le reste se trouve dans la pougne de proba. Il faut aussi savoir faire des calculs d’espérance. Toutes les formules ici sont à connaître, elles sont toutes utiles et utilisées. 1 Rappels généraux Définition d’un espace probabilisé (Ω, A, P ) est un espace probabilisé où Ω un ensemble, A ∈ P(Ω) est une tribu et P probabilité Tribu borélienne B(R) = {] − ∞, a[, a ∈ R} Probabilités conditionnelles Soit Cn famille de A où aucun des termes n’a une probabilité nulle, Formule des probabilités totales ∀A ∈ A, P (A) = +∞ X P (A|Cn )P (Cn ) n=1 Formule de Bayes Si P (A) 6= 0, P (Ci |A) = P (A|Ci )P (Ci ) +∞ X P (A|Cn )P (Cn ) n=1 2 Espérance mathématique Calcul v.a discrète E[X] = X ω∈Ω Z v.a continue E[X] = X X(ω)P (ω) = an P (X = an ) k∈(1,...n) Z X(ω)dP (ω) = ω∈Ω xdPX (x) R Propriétés • E[X + Y ] = E[X] + E[Y ] • Linéarité : E[aX + b] = aE[X] + b, a, b ∈ R (⇒ E[XE[X]] = E[X]2 car E[X] est un scalaire) • Formule à retenir : E[1C ] = P (C) • En pratique si les Xi sont n v.a.i.i.d., E[ 3 P Xi ] = nE[X1 ] Variance Calcul − E[X])2 ] = E[(X R V ar(X) = R (x − E[X])2 fX (x)dx 2 2 = E[X ] − E[X] Covariance (Définition) (Théorème de transfert) (Pour les calculs. ATTENTION à vérifier que X 2 est intégrable) Définition : Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X]E[Y ] page 2 Statistiques Pougne Pandore Propriétés • V ar(aX + b) = a2 V ar(X) • V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) • Si X et Y sont indépendants alors E[XY ] = E[X]E[Y ] et Cov(X, Y ) = 0 donc V ar(X + Y ) = V ar(X) + V ar(Y ) Ecart type σX = p V ar(X) Lα Xn −−→ X ⇓ p.s. P L Xn −−→ X ⇒ Xn − → X ⇒ Xn − →X Relations entre les convergences Les principales lois à connaître (minimum) Nom Formule 1 Uniforme [a, b] fX (x) = b−a 1[a,b] Binomiale B(n, p) n P (X = k) = ( k )pk (1 − p)n−k Normale N (µ, σ) f (x) = √ 1 2πσ 2 exp h −(x−µ)2 2σ 2 Espérance Variance a+b 2 (b−a)2 12 np np(1 − p) µ σ2 i Graph Part II Estimateurs 1 Définition Introduction Lorsque l’on a un problème complexe avec beaucoup de données, cela devient vite intraitable. On décide donc de prendre un échantillon, ce qui implique ne plus avoir des valeures excates mais des échantillons. Une estimation est une valeur calculée sur un échantillon, que l’on espère proche de la valeur d’un paramètre et qui permet de caractériser la population totale. En général, la problématique ici est de trouver le "meilleur" estimateur. Contexte Soient (X1 , ...Xn ) v.a. indépendantes de loi commune appartenant à la famille (Pθ )θ∈Θ , la famille de modèle probabiliste (A ⊂ R, An ⊗ Pθ )θ∈Θ est dite modèle statistique 2 Qualité d’un estimateur Minimisation de l’erreur Si T̂ n estimateur de t, on minimise les critères suivants : • biais(T̂ n ) = |E[t−T̂ n ]| = |t − E[T̂ n ]| • Var(T̂ n ) = E[(T̂ n − E[T̂ n ])2 ] (stabilité autour de la valeur) • Erreur quadratique : EQM(T̂ n ) =E[(t−T̂ n )2 ] = V ar(T̂ n )+biais(T̂ n )2 Remarque : l’erreur quadratique est UNE façon de mesurer l’erreur, mais il y en a d’autre.. page 3 Statistiques Pougne Pandore Convergence n→+∞ en probabilité si ∀ > 0, lim −−−−−→ P (|t−T̂ n | > 0) = 0 Estimateur sans biais si E[T̂ n ] = t Construction des estimateurs • Sans biais (on s’arrange pour qu’après calcul, le biais soit nul) b 1 , ..., xn ) = arg max log f n (x1 , ...., xn )) • Maximum de vraissemblance ( θ(x θ θ • Méthode des moments (exemple E[X] = kθ ⇒ θ = kE[X] ⇒ θbn = k n P Xi • Moindre carrés (p37) En pratique : Il faut savoir faire des calculs d’espérance... 3 Stratégie bayésienne Notation poly p59 • θ paramètre • ŝ estimateur • ξ v.a. de densité f • Q Q =( 1 , ..., Q k) loi de ξ, probabilité "a priori" Q Qx f (x) i i P Q • i = probabilité "a posteriori" fj (x) j j Fonction de perte Risque 0 si θi = θj L ={ λ où λi,j modélise la gravité de l’erreur "on a choisi θi au lieu de θj i,j si θi 6= θj R(ŝ, θ) = E[L(ŝ(X), θ)] = R R L(ŝ(x), θ)dPθ (x) Stratégie bayésienne ou estimateur bayésien ŝB permet de prendre des décisions et vérifie E[L(ŝB (X), ξ)] = minŝ E[L(ŝ(X, ξ)] P Q P Q mais surtout (2.10) [ŝB = θm ] ↔ [∀1 ≤ i ≤ k, j λmj xj ≤ j λij xj Probabilité d’erreur se calcule souvent grâce aux probabilités conditionnelles Coût d’une erreur (perte moyenne) formule 2.8 E[L(ŝ(X), ξ)] PS : Le poly est sympa, y’a plein plein d’annales à la fin... page 4