SONDAGE (ECHANTILLONNAGE) POPULATION STATISTIQUE ECHANTILLON N individus possédant une modalité yi de la (ou des) variable(s) y n individus possédant une modalité yi de la (ou des) variables(s) y (1 ≤ (1 ≤ i ≤ N) valeur centrale ² n) ESTIMATEURS PARAMETRES valeur centrale dispersion µ σ moyenne variance i≤ corrélation ρ coef. corr. ! moyenne dispersion σ e² variance corrélation r coef. corr. STAT. PROBABILISTES ESTIMATION STAT. DESCRIPTIVES (INDUCTION STAT.) LOIS DE DISTRIBUTIONS DE PROBABILITES CARACTERISTIQUES D'UNE SERIE STATISTIQUE Echantillon : Collection d'individus prélevés dans la population statistique. Sondage (tirage aléatoire) : Procédure de sélection des éléments d'une population pour constituer un échantillon représentatif de cette population. Estimation (inférence) : calcul d'un paramètre de la population à partir de sa valeur prise dans l'échantillon (estimateur). Dimension : c’est le couplage entre le nombre de paramètre (poids, taille …) et le nombre de méthode (ou technique) utilisé Loi de probabilités : modèle mathématique permettant de rendre compte de phénomènes aléatoires. 1 THEORIE DE L’ECHANTILLONNAGE Introduction : ‘Loi des grands nombres’ Quand on répète N fois une expérience aléatoire et que l'on note par f le nombre de fois que l'événement A s'est produit (f= fréquence de A) la probabilité p(A) est la limite, quand N tend vers l'infini, de f/N (fréquence relative de A). De même que l'on parle de distribution de fréquences on peut parler de distribution de probabilités. POPULATION INFINIE ECHANTILLON n FREQUENCE RELATIVE f=F/n PROBABILITE p EX. 1 : Variable qualitative : jeu de dé DISTRIBUTION DE PROBABILITES P DISTRIBUTION DE FREQUENCES ABSOLUES POUR n = 1000 TIRAGES F 1/6 167 150 1 2 3 4 5 6 1 190 2 145 175 160 3 4 5 180 6 EX. 2 : Variable quantitative P F 0.20 200 0.18 180 0.16 160 0.14 140 0.12 120 0.10 100 0.08 80 0.06 60 0.04 40 0.02 20 n = 1000 0 0 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 2 De même pour un échantillon extrait d'une population supposée infinie : la fréquence relative d'une classe est une réalisation de sa fréquence relative dans la population, c'est-à-dire de la probabilité associée à cette classe. Généralités - Objectifs Considérons une population P composée de N individus. Supposons qu’il existe une variable X associée à chaque individu (exp. SAU pour une exploitation). Nous ne connaissons pas la répartition de X dans la population considérée. La moyenne µ et la variance σ2 (ou la proportion p) dans la population P sont respectivement : 1 N µ = ∑ xi N i=1 1 N σ ² = ∑ (x i − µ )² N i=1 Par sondage, on prélève un échantillon aléatoire de n individus dans la population P. Soit x1, x1, x2, …, xn les valeurs de X dans l’échantillon. La moyenne x et la variance σ (ou la proportion f) de X dans l’échantillon sont 2 e respectivement : 1 n x = ∑ xi n i=1 • 1 n σ = ∑ (x i − x )² n i=1 2 e 2 x et σ e constituent-elles des estimations de µ et de σ2 ? Si oui, quelle est leur précision ? • Connaissant x et σ e , que peut-on dire de la moyenne µ et la variance σ2 2 de la population totale P ? 3 Les distributions d'échantillonnage On prélève un échantillon de n éléments dans une population de moyenne µ et de variance σ². On obtient une moyenne x et une variance σ e . 2 Si l'on répétait cette opération un grand nombre de fois, on constaterait que les moyennes obtenues à partir de ce grand nombre d'échantillons de n unités se distribueraient suivant une loi normale de moyenne " = µ et de variance σ²M = σ²/n. Cela se vérifie : • quelque soit la distribution de la variable étudiée si n est suffisamment grand (n>30 en pratique) • quelque soit la taille n de l'échantillon si celui-ci est tiré d'une population normale D'après le Théorème Central Limite, l'ensemble de toutes les moyennes qu'on pourrait obtenir par des échantillons de n unités est lui-même une variable aléatoire M de distribution normale N(µ,σ σ/√ √n). La distribution de M s'appelle distribution d'échantillonnage de la moyenne. On constate que la dispersion (σ²/n) de cette variable est beaucoup plus faible que celle de la variable étudiée (σ²). 4 Distribution d'échantillonnage d'un paramètre f(x) N ELEMENTS (POPULATION D'ORIGINE) DISTRIBUTION (QUELCONQUE) DE LA VARIABLE σ µ ON EXTRAIT INDEPENDAMMENT K ECHANTILLONS DE MEME TAILLE K ECHANTILLONS n éléments n éléments σe 1 ................ σe 2 x1 n éléments σe k x2 xk K ESTIMATIONS DU PARAMETRE µ K ESTIMATIONS f(x) Paramètre de la distribution : DISTRIBUTION D' ECHANTILLONNAGE DE LA MOYENNE "=µ σ = σ/√n M σM M " 5 Estimation ponctuelle de la moyenne et de la variance ! Théorème Soit X une variable aléatoire définie sur la population avec E(X) = µ et V(X) = σ². d’après le théorème central limite : E(M) = µ ; V(M) = σ²/n ; E(σe2 ) = n-1 σ² n ! Utilisation En pratique, on dispose d'un seul échantillon de taille n. Alors, la meilleure estimation ponctuelle (par un seul nombre) : • de la moyenne µ de la population est la moyenne x de l'échantillon ( x est un estimateur sans biais de µ). • de la variance σ² de la population est le nombre s² (dit variance estimée) s² = n 2 σe n-1 2 ( σ e est un estimateur biaisé de σ²). (s² est un estimateur non biaisé de σ²). 6 Estimation ponctuelle d’un pourcentage La population est formée d'individus ayant ou non un caractère donné A. Soit p la probabilité pour qu'un individu pris au hasard dans la population présente le caractère A. ! Théorème F est une variable aléatoire appelée la distribution d’échantillonnage des proportions. Elle suit une loi normale de moyenne $ et de variance σ²F d’après le théorème central limite : E(F) = p ; V(F) = p(1- p) n ! Utilisation Quand on dispose d'un seul échantillon de taille n, la meilleure estimation ponctuelle de p est la fréquence f observée sur l'échantillon. f est un estimateur sans biais de p. 7 Erreur-type de la moyenne et estimation d’une moyenne par un intervalle de confiance ! Théorème Quelle que soit la loi suivie par X de moyenne µ et de variance σ², la distribution d'échantillonnage de la moyenne suit une loi normale de moyenne µ et de variance σ²/n . La variable Z= M−µ σ suit une loi normale centrée réduite. n ! Utilisation avec un seul échantillon • Variance de la population connue Nous voulons construire un intervalle de confiance autour de la moyenne de l’échantillon de manière à ce qu’il contienne µ dans 95% des cas. D'après la table de la loi normale réduite on peut écrire, pour un risque α=0.05 P (- 1.96 < x-µ σ < + 1.96) = 0.95 n Plus généralement : P x - z α/2 σ σ < µ <x + zα/2 = 1-α n n 8 • Variance de la population inconnue Si l'on remplace le paramètre σ² par son estimateur dans notre échantillon s², on peut calculer une estimation de la variance de la distribution de la moyenne : var(M)=s²/n dont la racine carrée est appelée erreur-type (de la moyenne). x-µ x-µ σ Lorsque σ est inconnu l'expression est remplacée par s qui n n n'est pas distribuée normalement, mais comme un t de Student. L'expression devient alors : s s P x- t <µ<x+t = 1- α α ν α ν [ ] [ ] n n µ !1 !2 !i α = risque d’erreur tα[ν] : variable de student au seuil α pour ν ddl (ν = n - 1) Ex. : t0.05[29]=2.045 tα[ν]→ zα/2 quand ν → ∞ Si l’on répète indéfiniment l’échantillonnage de taille n dans la population de moyenne µ, on sait que (1 - α) intervalles de confiance construits de cette manière contiendront µ. 9 Estimation d’un pourcentage par un intervalle de confiance nf nombre d'individu ayant le caractère A dans un échantillon de taille n, suit la loi binomiale B(n, p). Si n est grand et p, ni voisin de 0 ni voisin de 1, on peut approximer la loi binomiale B(n, p) par la loi normale N (np, npq ) . ! Théorème La distribution d'échantillonnage des proportions suit une loi normale de moyenne p et de variance p(1-p)/n . La variable Z = F−p p(1 − p) n suit une loi normale centrée réduite. ! Utilisation avec un seul échantillon Nous voulons construire un intervalle de confiance autour de la proportion ‘‘f’’ de l’échantillon de manière à ce qu’il contienne p dans 95% des cas. D'après la table de la loi normale réduite on peut écrire, pour un risque α=0.05 P (- 1.96 < f - p f (1 - f ) n < + 1.96) = 0.95 Plus généralement : f (1 - f ) f (1 - f ) < p < f + zα / 2 P f - z α / 2 = 1 - α n n 10