Fluctuation et estimation I. Variable aléatoire fréquence 1) Propriété La variable aléatoire X, qui à tout échantillon de taille n associe le nombre d’individus qui possèdent le caractère étudié, suit la loi binomiale de paramètres n et p. 2) Définition La variable aléatoire F qui à tout échantillon de taille n associe la fréquence f du caractère étudié dans cet échantillon est appelé variable aléatoire fréquence et elle est définie par X F . n Ex 3-4-5 … p.278 II. Intervalle de fluctuation 1) Exemple Une urne contient des boules blanches dont la proportion est p. On suppose p connu, par exemple, p = 0,6. Les fréquences de boules blanches obtenues, par simulation, à partir de 20 échantillons, chacun de taille 100 sont : 0,51 – 0,62 – 0,68 – 0,55 – 0,47 – 0,6 – 0,69 – 0,58 – 0,61 – 0,67 – 0,55 – 0,63 – 0,53 – 0,54 – 0,52 – 0,68 – 0,69 – 0,54 – 0,55 – 0,59. On constate que sur cet exemple les fréquences observées fluctuent. Ce phénomène est appelé fluctuation d’échantillonnage. Plus précisément, on peut constater que, pour la plupart des échantillons, la fréquence de sortie d’une boule blanche se trouve dans l’intervalle [0,5 ; 0,7]. On dispose ainsi d’un ordre de grandeur du nombre d’échantillons dont la fréquence appartient à l’intervalle [0,5 ; 0,7]. Dans l’exemple, on peut vérifier qu’il y en a 19 sur 20, c’est-à-dire 95%. 2) Intervalle proposé en seconde 1 1 On a vu en seconde que pour un échantillon de taille n l’intervalle p ;p est un n n intervalle de fluctuation de la fréquence au seuil de 95%. Il faut pour cela que n ≥ 25 et 0,2 ≤ p ≤ 0,8. 3)Intervalle proposé en première Un échantillon de taille n correspond au tirage de n éléments dans les mêmes conditions de manière indépendantes lorsque la population est très grande. Nous sommes donc en présence d’une loi binomiale. On construit le tableau P(X≤ k). a b L’intervalle de fluctuation au seuil de 95% est l’intervalle ; n n si a est le plus petit entier tel que P(X ≤ a) > 2,5% et b est le plus petit entier tel que P(X ≤ b) ≥ 97,5% 4) Intervalle de fluctuation asymptotique Théorème On considère que la taille de l’échantillon n et la proportion du caractère étudié dans la population p, vérifient les 3 conditions suivantes : n ≥ 30 ; np ≥ 5 et n(1-p) ≥ 5. Soit Fn la variable aléatoire qui à tout échantillon de taille n associe la fréquence du caractère. p(1 p) p(1 p) On pose In p 1,96 où p est la proportion de ce caractère dans ; p 1,96 n n la population. Alors Fn prend ses valeurs dans In avec une probabilité qui s’’approche de 0,95 quand n devient grand. Définition p(1 p) p(1 p) est appelé intervalle de fluctuation L’intervalle In p 1,96 ; p 1,96 n n asymptotique au seuil 95%. Dans l’exemple précédent, n=100 ; p=0,6, I100 0,503 9 ; 0,696 1 . On peut constater que pour 95% des échantillons, la fréquence observée appartient à I100. Ce résultat est donc en accord avec le théorème. Ce théorème donne un résultat plus précis que l’intervalle donné en seconde. 5) Prise de décision Dans ce paragraphe, la proportion du caractère étudié dans la population est supposée être égale à p. La prise de décision consiste, à partir d’un échantillon de taille n, à valider ou nonl’hypothèse faite sur la proportion p. Il faut : Calculer la fréquence observée du caractère dans l’échantillon. Vérifier si les conditions sur les paramètres n et p sont vérifiées n ≥ 30 ; np ≥ 5 et n(1-p) ≥ 5. Alors on peut déterminer l’intervalle de fluctuation asymptotique au seuil de 0,95, sinon, on prend les intervalles proposés en seconde ou première. On applique la règle de décision : Règles de décision : Si la fréquence observée f appartient à l’intervalle de fluctuation asymptotique au seuil de 0,95, on accepte l’hypothèse faite sur la proportion p. Si la fréquence observée f n’ appartient pas à l’intervalle de fluctuation asymptotique au seuil de 0,95, on rejette l’hypothèse faite sur la proportion p avec un risque d’erreur de 5%. Ex 11-12-13 p.279 Ex 17-18-19 p.280 III. Estimation Dans ce paragraphe, la proportion p du caractère étudié dans la population est inconnue. On variable aléatoire voir comment il est possible d’obtenir une estimation de la valeur p à partir de la fréquence observée dans cet échantillon. Propriété : Soit f la fréquence observée dans un échantillon de taille n et p le pourcentage que l’on veut estimer. 1 1 Alors l’intervalle f ;f contient p avec une probabilité d’au moins 0,95. n n Les conditions d’applications sont toujours : n ≥ 30 ; np ≥ 5 et n(1-p) ≥ 5. Définition : 1 1 On dit que l’intervalle f ;f est l’intervalle de confiance de p au niveau de n n confiance 0,95 (On dit aussi avec un risque de 95%). Rque : La proportion p étant inconnue, on ne peut pas vérifier si les paramètres n et p satisfont les conditions exigées en ce début de chapitre afin d’utiliser l’intervalle de confiance au niveau de confiance 0,95. Pour remédier à ce problème, on approche la proportion inconnue p par la fréquence observée f sur l’échantillon considéré, puis on vérifie si les conditions suivantes sont satisfaites : n ≥ 30 ; np ≥ 5 et n(1-p) ≥ 5. Exemple : Sondage On interroge un échantillon de 10 000 électeurs avant le second tour d’une élection présidentielle. 54% déclarent vouloir voter pour le candidat A. On peut alors estimer que ce candidat devrait obtenir un résultat compris entre 1 1 et 0,54 lors de cette élection. C’est-à-dire entre 53% et 55%. 0,54 10000 10000 Avec un échantillon de 100 électeurs, l’incertitude serait totale ; l’intervalle serait [0,44 ;0,64]. Ex 20-21-22-23 p.281-282 Pb 45-46 p.287