STATISTIQUE INFERENTIELLE STAGE ACADEMIQUE LA REUNION Isabelle ABOU Professeure Formatrice 1 PLAN DE L’EXPOSE • • • • • • • • • • • • • • • 1ière PARTIE: GÉNÉRALITÉS I. INTRODUCTION II. SITUATIONS PROBLEMES III. LA STATISTIQUE INFERENTIELLE IV. LE PROGRAMME DE SECONDE 2ième PARTIE: LA THÉORIE DE L’ECHANTILLONNAGE I. LOI NORMALE II. THEORIE DE L’ECHANTILLONNAGE III. PRISE DE DECISION IV. THEORIE DE L’ESTIMATION V. ESTIMATION D’UNE PROPORTION VI. EVALUATION DE TRAVAUX AVEC TIC 3ième PARTIE: APPROFONDISSEMENT I. TESTS STATISTIQUES II. COMPLEMENTS Isabelle ABOU 2 2ième PARTIE: LATHÉORIE Isabelle ABOU 3 I. LA LOI NORMALE PLAGES DE NORMALITE Isabelle ABOU 4 POURQUOI ABORDER LA LOI NORMALE? • Elle tient son importance, en mathématiques, d’un des théorèmes fondamentaux de la Théorie des Probabilités: le théorème Central Limite. • Ce théorème établit une propriété qui va justifier l'importance considérable de la loi normale, à la fois comme modèle pour décrire des situations pratiques, mais aussi comme outil théorique. Isabelle ABOU 5 THEOREME FONDAMENTAL THEOREME CENTRAL LIMITE • • • • • • Soit n variables aléatoires X1,X2,…,Xn - indépendantes, - de même loi, - de même espérance mathématique m, - de même variance 2 , Alors, lorsque n est « suffisamment » grand, la loi de probabilité de la variable aléatoire Moyenne Mn= (X1+X2+…+Xn)/n tend en loi vers la loi normale N (m; ) . n Isabelle ABOU 6 INTERPRETATION • Ce théorème établit la convergence en loi d'une suite de variables aléatoires vers la loi normale. Intuitivement, ce résultat affirme que toute somme de variables aléatoires indépendantes et identiquement distribuées tend vers une variable aléatoire gaussienne. • En s'éloignant de la théorie, on peut dire que bon nombre de phénomènes naturels sont dûs à la superposition de causes nombreuses, plus ou moins indépendantes. • Il en résulte que la loi normale les représente de manière raisonnablement efficace, mais il s’agit plutôt d’une modélisation. Isabelle ABOU 7 DANS LA VIE COURANTE • Des variables concernant des phénomènes naturels ou démographiques, comme les débits annuels moyens d’un fleuve sur au moins 5O ans, l’espérance de vie d’une population, peuvent être approchés par la loi normale. • Les variables biologiques, comme le taux de triglycérides dans le sang, le taux de cholestérol, la glycémie, sont modélisées par des gaussiennes. • Cependant, on peut dire qu'aucun phénomène concret n'est vraiment gaussien car il ne peut dépasser certaines limites. Isabelle ABOU 8 INTERET DE LA LOI NORMALE DANS LES CALCULS • La loi Normale a de « bonnes » propriétés mathématiques. • C’est une loi de probabilité symétrique, • La somme de v.a gaussiennes est une v.a gaussienne, • La moyenne de v.a gaussiennes est une v.a gaussienne, • On possède la table de sa fonction de répartition. • Nous allons aborder rapidement ses propriétés. Isabelle ABOU 9 LA LOI NORMALE ou LOI DE LAPLACE-GAUSS • X v.a continue, suit la loi normale de paramètres m et σ, notée N(m; σ), si sa densité de probabilit é est : 1xm f(x) exp( ) 2 σ σ 2π • Espérance E(X) m. Ecart typ e σ(X) σ 1 2 x • Fonction de répartitio n F(x) f(t)dt . • La représenta tion graphique de sa densité est une courbe en cloche (ou courbe de Gauss). Isabelle ABOU 10 LOI NORMALE CENTREE REDUITE • Théorème : changement de variable Si X est une v.a qui suit une loi normale de paramètre m et σ , on note : X N(m, σ). X-m Alors la v.a T suit la loi N(0;1) , appelée Loi Normale centrée réduite, on note T N(0;1). σ Sa fonction de répartitio n notée Π est définie par : t Π(t) P(T t) 1 u2 2 e du. 2π - La table de la loi N(0;1) donne les valeurs de Π(t) pour t [0;3]. Ce théorème est justifié par l' égalité suivante résultant d' un changement de variable Pour a, b IR : P(a X b) P( a-m bm b-m a m T ) Π Π . σ σ σ σ Isabelle ABOU 11 TABLE DE LA LOI NORMALE CENTREE REDUITE • Intérêt de ce théorème: ramener toute loi normale à la loi normale centrée réduite. • Pour calculer les valeurs de la table de la loi N(0;1) on utilise le fait que c’est une loi de probabilité, et ses propriétés de symétrie. • La table de la loi N(0;1) permettra donc de calculer les valeurs de toutes les fonctions de répartition de toutes les lois normales. Isabelle ABOU 12 BOÎTES EN CARTON • Une entreprise fabrique en série des boîtes en carton. • On note X la variable aléatoire qui prend pour valeur la hauteur d’une boîte en carton. • On admet que X suit la loi normale de moyenne 2,5 cm et d’écart type 0,2 cm. • 1. Calculer la probabilité qu’une boîte, choisie au hasard dans la production, ait une hauteur inférieure à 2,25cm. • 2. Déterminer le réel α tel que la probabilité que X soit inférieure à α, ait pour valeur 0,67. Isabelle ABOU 13 RESOLUTION • 1. X suit une loi normale avec m=2,5 et σ=0,2 soit N(2,5;0,2). • La probabilité cherchée est P(X<2,25). • On effectue le changement de variable T=(X-m)/σ soit T=(X-2,5)/0,2 d’où: • P(X<2,25)= P(T<(2,25-2,5)/0,2) • = P(T<-1,25) • = 1-P(T<1,25) par symétrie de la loi de T • ~ 1-0,8944 • ~ 0,1056 Isabelle ABOU 14 RESOLUTION suite • 2. le problème revient à résoudre l’équation P(X < α) = 0,67. • A l’aide du changement de variable, ceci équivaut à : • P(T < (α – 2,5)/0,2) = 0,67 • Or, d’après la table, on a P(T < t) = 0,67 pour • t = 0,44. • On résout donc (α – 2,5)/0,2 = 0,44 • α = 0,44*0,2 + 2,5 • Ce qui donne α = 2,588. Isabelle ABOU 15 PLAGES DE NORMALITE • X v.a suivant N(m, σ ) et T v.a suivant N(0;1) • Les intervalles suivants ou plages de normalité se calculent grâce aux égalités ci-dessous, obtenues grâce à la table de la loi N(0;1) : • P(m-σ <X<m+ σ)= P(-1<T<+1)= 0,68. • P(m-1,6 σ <X<m+1,6 σ)= P(-1,6<T<+1,6)= 0,90. • P(m-1,96 σ <X<m+1,96 σ)= P(-1,96<T<+1,96)= 0,95. • P(m-3,09 σ <X<m+3,09 σ)= P(-3,09<T<+3,09)= 0,99. Isabelle ABOU 16 PLAGE DE NORMALITE LOI NORMALE CENTREE REDUITE • On considère la v.a X suivant N(m, σ ), et la v.a T suivant N(0;1). • L’égalité: • P(m-1,96 σ < X < m+1,96 σ)= P(-1,96 < T < +1,96)= 0,95, • signifie que T se trouve dans l’intervalle [-1,96; +1,96], avec une probabilité égale à 0,95. 95% –1,96 0 1,96 Si T suit la loi normale de moyenne 0 et d’écart type 1, on a : P(– 1,96 T 1,96) 0,95. 1 2 Isabelle ABOU 1, 96 1, 96 e x2 2 dx ~ 0,95. 17 SIGNIFICATION • On appelle intervalle de normalité au niveau de confiance de 95%, l’intervalle de centre m dans lequel on peut s’attendre à trouver 95% des observations. • Pour toutes les v.a gaussiennes, l’intervalle de normalité au niveau de confiance de 95% est: • I = [ m - 1,96 σ ; m + 1,96 σ ]. • On lui préfère souvent [ m - 2 σ ; m + 2 σ ] qui contient au moins 95% des observations. Isabelle ABOU 18 II. THEORIE DE L’ÉCHANTILLONNAGE Isabelle ABOU 19 INTRODUCTION • Avant d’aborder la théorie de l’échantillonnage, il nous faut rappeler quelques définitions et propriétés concernant les opérations sur les variables aléatoires. • On considère par exemple le problème suivant: • Pour améliorer le stockage d’un produit, un supermarché fait une étude sur la vente de packs de 6 bouteilles d’eau de marques A et B. • X la v.a mesure le nb de packs d’eau de marque A achetés • Y la v.a mesure le nb de packs d’eau de marque B achetés. • La probabilité P(X=xi et Y=yi) est donnée par le tableau: • X 1 2 3 Y 1 0,1 0,2 0,2 2 0,1 0,3 0,1 Isabelle ABOU 20 SOMME DE VARIABLES ALEATOIRES • Soit X et Y deux v.a. • La somme X+Y est une v.a S: S=X+Y. • La loi de probabilité de S est obtenue en associant, à chaque valeur s de S, la somme des probabilités correspondantes à tous les couples dont la somme des termes est égale à s. • Dans le cas de l’exemple précédent, la v.a S mesure le nombre de packs des marques A et B achetés. Isabelle ABOU 21 • Si on considère en rouge la somme: X 1 2 3 Y 1 0,1 0,2 0,2 s=2 s=3 s=4 2 0,1 0,3 0,1 s=3 s=4 s=5 • La loi de probabilité de S est donnée par le tableau: S 2 3 4 P(S=si) 0,1 Isabelle ABOU 5 0,3 0,5 0,1 22 THEOREMES • S=X+Y • E(S)=E(X)+E(Y) • Si X et Y sont indépendantes: V(S)=V(X)+V(Y). • De même: D=X-Y est une v.a. • E(D)=E(X)-E(Y), et • Si X et Y sont indépendantes: V(D)=V(X)+V(Y). Isabelle ABOU 23 COROLLAIRE • Soit X une variable aléatoire et n variables aléatoires X1,X2,…,Xn indépendantes et de même loi que X. • Alors, la v.a « Moyenne des Xn » Yn, définie par: Yn= (X1+X2+…+Xn)/n. • Vérifie: • E(Yn)=E(Σ(Xi)/n)=(ΣE(Xi))/n=nE(X)/n=E(X). • V(Yn)=V(Σ(Xi)/n)=(ΣV(Xi))/n²=(nV(X))/n²=V(X)/n. • σ(Yn)=σ(X)/√n. Isabelle ABOU 24 THEOREME FONDAMENTAL LOI FAIBLE DES GRANDS NOMBRES • ou THEOREME DE BERNOULLI • Soit X une variable aléatoire et n variables aléatoires X1,X2,…,Xn de même loi que X. • Alors, la v.a Yn, définie par • Yn= (X1+X2+…+Xn)/n tend en probabilité vers l’espérance mathématique de X, c.a.d E(X). Rem: Yn est la v.a Moyenne des Xn=E(Xn). Isabelle ABOU 25 COMMENTAIRE • La loi des grands nombre donne une justification de l’approche fréquentiste des probabilités. • Si on prend une expérience aléatoire à deux issues, succès et échec, c’est-àdire une épreuve de Bernoulli. On obtient une v.a X tq E(X)=p, où p est un nombre fixé en théorie. Par exemple pour le lancer d’un dé équilibré avec comme succès obtenir un 6, la théorie nous apprend que E(X)=1/6. • • • • • • • • • En répétant n fois cette expérience aléatoire, on obtient n v.a X1, X2, …, Xn, v.a de même loi de probabilité, avec E(X1)=E(X2)=…=E(Xn)=p. Pour connaître le nombre de succès, on étudie la v.a Yn: «fréquence des succès »=(Nombre de succès)/(Nombre d’exp aléatoire)=(X1+X2+…+Xn)/n. Yn=E(Xn), et E(Yn)=p. La loi des grands nombres dit que, quand n tend vers l’infini, la limite de P(l Yn – p l< ε)= 1, pour un ε arbitrairement petit. Dans l’exemple choisi, Yn=(Nombre de 6)/(Nombre de lancers). Le théorème dit que, plus n est grand, plus E(Yn) se rapproche de la valeur théorique p=1/6. Ce qui est assez intuitif. Isabelle ABOU 26 ILLUSTRATION • Pour illustrer la loi faible des grands nombre, nous proposons ci-après un programme sur Algobox qui simule le lancer d’une pièce de monnaie équilibrée, pour des échantillons de taille croissante, de 1 à 1000. • Après avoir fait tourner le programme, on voit bien la fréquence moyenne converger vers la probabilité de « face » (ce pourrait être symétriquement de « pile ») qui est de 0,5. • Pour aider à la compréhension du programme, nous avons introduit des commentaires explicatifs écrits en rouge. Isabelle ABOU 27 • • • • • • • • • • • • • • • • • PROGRAMME ALGOBOX 1 VARIABLES • 2 x EST_DU_TYPE LISTE 3 y EST_DU_TYPE LISTE • 4 i EST_DU_TYPE NOMBRE • 5 nbalea EST_DU_TYPE NOMBRE • 6 n EST_DU_TYPE LISTE 7 DEBUT_ALGORITHME • 8 //abscisse du 1ier point vaut 0 • 9 x[0] PREND_LA_VALEUR 0 • 10 //i est la taille de l'échantillon 11 i PREND_LA_VALEUR 0 • 12 //nbalea est la valeur du tirage • aléatoire 0 (pile) ou 1 (face) 13 nbalea PREND_LA_VALEUR floor(2*random()) • 16 //n[0] valeur du 1ier tirage aléatoire • 17 n[0] PREND_LA_VALEUR nbalea • 18 //ordonnée du 1ier point vaut n[0] • 19 y[0] PREND_LA_VALEUR n[0] 20 //simulations: fréquences en fonction de la taille de l'échantillon, boucle allant d’une taille 2 jusqu'à 1000 21 POUR i ALLANT_DE 1 A 999 22 DEBUT_POUR 23 nbalea PREND_LA_VALEUR floor(2*random()) 26 //x[i] abscisse du i+1 ième point 27 x[i] PREND_LA_VALEUR i 28 //n[i] est la valeur i+1 ième tirage plus ceux des précédents 29 n[i] PREND_LA_VALEUR nbalea+n[i-1] 30 //y[i] ordonnée du point qui a pour valeur la fréquence moyenne de "face" sur les i+1 tirages 31 y[i] PREND_LA_VALEUR n[i]/(i+1) 32 TRACER_POINT (x[i],y[i]) 33 FIN_POUR 34 FIN_ALGORITHME 28 THEOREME DE DE MOIVRE-LAPLACE • Convergence en loi de la loi Binomiale vers la loi de Laplace-Gauss • Xn étant une suite de v.a binomiales B(n;p), alors la suite de v.a • (Xn-np)/( √(npq)) tend en loi vers N(0;1). • Rappel: Si X~B(n;p) • Alors E(X)=np et V(X)=np(1-p)=npq. Isabelle ABOU 29 COMMENTAIRE • Lorsque n est «assez grand», on prend en pratique n≥30, p «voisin de 0», p<0.1, et np≥5 et nq≥5, on peut approximer la loi Binomiale B(n,p) par la loi normale N(m; σ) avec m=np et σ=√(npq). • L’étude de somme de v.a indépendantes et de même loi joue un rôle capital en statistique, c’est le théorème Central Limite qui établit la convergence vers la loi de Gauss sous des hypothèses peu contraignantes. • Nous le rappelons une nouvelle fois, pour en donner ensuite ses applications aux lois d’échantillonnage. Isabelle ABOU 30 THEOREME FONDAMENTAL THEOREME CENTRAL LIMITE • • • • • • Soit n variables aléatoires X1,X2,…,Xn - indépendantes, - de même loi, - de même espérance mathématique m, - de même variance 2 , Alors, lorsque n est ‘suffisamment’ grand, la loi de probabilité de la variable aléatoire Moyenne Mn= (X1+X2+…+Xn)/n tend en loi vers la loi normale N (m; ) . n Isabelle ABOU 31 THEORIE DE L’ECHANTILLONNAGE • Comme on l’a vu, en statistique, il est en général impossible d’étudier un caractère sur toute une population de taille élevée, c’est-à-dire de faire un recensement. • Avant d’aborder le problème de l’estimation de paramètres inconnus de la population, il est indispensable de commencer par l’étude de l’échantillonnage. • Dans ce cas, les paramètres du caractère étudié dans la population sont connus, et on en déduit les propriétés sur l’ensemble des échantillons prélevés dans la population. • Nous n’envisagerons que des échantillons aléatoires, c’est-àdire que tout élément de l’échantillon est choisi au hasard, et de plus, les choix sont indépendants car supposés avec remise. Isabelle ABOU 32 LOI D’ECHANTILLONNAGE DE LA MOYENNE • On considère une population de taille N élevée, une variable aléatoire X définissant le caractère étudié, avec E(X)=m, et σ(X)= σ . • On prélève un échantillon de taille n, n<<N, c.a.d on procède à n épreuves indépendantes auxquelles correspondent n v.a X1,X2,…,Xn, de même loi que X. • Soit la v.a Yn=(X1+X2+…Xn)/n, elle associe à tout échantillon de taille n, la v.a Moyenne de l’échantillon. • D’après le théorème central Limite, la v.a Yn suit « approximativement » une loi Normale. Isabelle ABOU 33 EN PRATIQUE • Valeurs caractéristiques de cette loi: • E(Yn)=m et V(Yn)=σ²/n ou bien σ(Yn)=σ/√n. • • En pratique, quand n devient ’’grand’’, n>=30, la loi de Yn peut être approchée par la loi normale N(m,σ/√n). Isabelle ABOU 34 LOI D’ECHANTILLONNAGE DE LA FREQUENCE • On étudie, dans une population de taille N élevée, un caractère à deux éventualités, c’est-à-dire une épreuve de Bernoulli. • On obtient une v.a X tq E(X)=p, et V(X)=p(1-p). • On prélève un échantillon de taille n, n<<N, (épreuve répétée n fois de façon identique et indépendante). • On obtient n v.a X1,X2,…,Xn de même moi que X. • La v.a Fn=(X1+X2+…Xn)/n associe à tout échantillon de taille n la fréquence de succès sur cet échantillon. • Alors E(Fn)=p et V(Fn)=(p(1-p))/n. • Quand n devient ’’grand’’ (n>=50), la loi de Fn peut être approchée par la loi normale . p(1 p) N(p; Isabelle ABOU n ) 35 EN PRATIQUE • On prélève indépendamment et avec remise n individus d’une population séparée en deux souspopulations A et son complémentaire , de proportions respectives p et 1-p. A • Soit K le nombre d’individus de la sous-population A obtenus dans l’échantillon. On sait que K suit une loi binomiale B(n , p). • Notons F = K/n, la fréquence empirique de A. • F est la moyenne arithmétique de n v.a de Bernoulli de paramètre p, indépendantes. • Donc E(F)=p et V(F)=(p(1-p))/n. • Et si n est grand, F suit N(p;√(p(1-p)/n)) en raison de la loi d’échantillonnage de la fréquence (conséquence du théorème central limite). Isabelle ABOU 36 LIEN AVEC L’INTERVALLE DE FLUCTUATION • Or on sait que, pour la loi normale N(m,σ), • l’intervalle de fluctuation au seuil 95% est: • [m-1,96σ; m+1,96σ]. • Donc, l’intervalle de fluctuation à 95% de p est: • p(1 p) p(1 p) ; p 1,96 p 1,96 n n • Environ 95% des échantillons aléatoires de taille n fournissent une fréquence comprise dans cet intervalle. • Ce résultat est très important car il mesure la variabilité « naturelle » des phénomènes aléatoires. • Isabelle ABOU 37 APPROXIMATION DU PROGRAMME DE SECONDE • Dans le programme de seconde, il est donné une version simplifiée de cet intervalle en le majorant p 1 ; p 1 . n n • En effet, la fonction pp(1-p) atteint son maximum pour p=1/2, on a donc, pour tout p, p(1-p) ≤ 1/4 et on en déduit que 1,96 p(1 p) n • Aussi l’intervalle I1= p 1,96 1 n p (1 p ) p (1 p ) ; p 1,96 n n 1 1 • est inclus dans l’intervalle I2= p ; p . n n Isabelle ABOU 38 VALEURS DE p • Dans le programme de Seconde, il est mentionné, de plus, que p doit être compris entre 0,2 et 0,8. • La raison en est que l’approximation est trop grossière pour les valeurs de p inférieures à 0,2 (ou supérieures à 0,8, puisqu’il y a symétrie de la formule p(1-p) ). • Le tableau suivant compare les nombres 1,96/√(p(1-p)/n) et 1/√(n), pour n=25 et n=100, et pour des valeurs de p entre 0,1 et 0,5. • Rappelons que ces nombres ne sont toutefois pas supposés être égaux puisque I2 contient I1. • Plus de 95% des échantillons aléatoires de taille n fournissent une fréquence appartenant à I2. Isabelle ABOU 39 n p COMPARAISON DE CES DEUX NOMBRES P=0,1 P=0,2 P=0,25 P=0,3 P=0,35 P=0,4 P=0,45 P=0,5 n = 25 1,96√( p(1-p)/n) n =25 n = 100 n = 100 1/√(n) 1,96√(p(1-p)/n) 1/√(n) 0,118 0,157 0,170 0,180 0,187 0,192 0,195 0,196 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,2 0,059 0,078 0,085 0,090 0,093 0,096 0,097 0,098 Isabelle ABOU 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 40 FLUCTUATION DE LA FREQUENCE SELON LES ECHANTILLONS • On peut expérimenter, par simulation à l’aide des T.I.C, qu’environ plus de 95% des échantillons de taille n fournissent une fréquence comprise dans l’intervalle 1 1 p ; p • . n n • Pour p donné, on peut faire calculer les bornes de cet intervalle pour quelques valeurs de n, et faire remarquer qu’il faut multiplier la taille de l’échantillon par k² pour diviser par k l’amplitude de l’intervalle. • On pourra calculer l’amplitude correspondant aux échantillons de taille 1000, souvent retenue dans les sondages. Isabelle ABOU 41 EXEMPLE D’APPLICATION • On considère un échantillon de 400 pièces issues d’une fabrication où 10% sont défectueuses. • Soit K la v.a qui mesure le nombre de pièces défectueuses, K est une v.a de Bernoulli B(400;0,1). • Notons F = K/n, la fréquence empirique de l’événement « la pièce est défectueuse », sur un échantillon de taille n. • F est la moyenne arithmétique de n v.a de Bernoulli de paramètre p, indépendantes. • Donc E(F)=p=0,1 et V(F)=(p(1-p))/n=(0,1*0,9)/400. • Quand n est grand, F suit N(p;√(p(1-p)/n)), donc ici F suit • N(0,1 ; √((0,1*0,9)/400)). • Donc on peut s’attendre à trouver dans 95% des cas, un pourcentage de défectueux dans l’échantillon, compris entre • 0,10 0,90 0,10 0,90 et 0,1 1,96 400 0,1 1,96 • C.a.d F est comprise entre 0,0706 et 0,1294. • Ou encore, entre 7,1% et 12,9%, dans 95% des cas. Isabelle ABOU 400 42 III. PRISE DE DÉCISION SITUATIONS PROBLEMES Isabelle ABOU 43 INTRODUCTION • Dans les exercices qui suivent, on a besoin de générer des nombres pseudo-aléatoires, on rappelle ci-après quelques méthodes utilisées sur calculatrice et tableur. • Le schéma de base pour simuler une v.a de Bernoulli est de simuler une urne bicolore, qui servira aussi à simuler le lancer d’un dé. • La plupart des calculatrices, même les modèles « collège », et les tableurs sont pourvues d’un générateur de nombres pseudo-aléatoires qui simule le tirage d’un nombre décimal au hasard dans l’intervalle [0, 1[ (c’est-à-dire une réalisation d’une variable aléatoire de loi uniforme sur l’intervalle [0, 1[ ). • Sur une calculatrice, ce générateur de nombres aléatoires correspond à la fonction « random » souvent notée rand ou Ran#. Sur un tableur, il correspond à la fonction ALEA(), introduite avec des parenthèses vides. Isabelle ABOU 44 SIMULATION D’UN URNE BICOLORE • À partir de ce générateur de nombres aléatoires, on peut facilement simuler un tirage au hasard dans une urne bicolore. • Supposons que la proportion des boules dont la couleur nous intéresse soit, dans l’urne de 30 %. • Sur un tableur, l’instruction =ALEA()+0,30 correspond au tirage au hasard d’un nombre de l’intervalle [0,30 ; 1,30[. • En prenant la partie entière, le résultat vaut 0 si le nombre appartient à [0,30 ; 1[ et 1 si le nombre appartient à [1 ; 1,30[. • Compte-tenu des longueurs respectives de ces intervalles, on a 70% de chances d’avoir 0 et 30 % de chances d’avoir 1 (voir le graphique). 0 1 Isabelle ABOU 45 SIMULATION (suite) • Sur une calculatrice, il suffit d’entrer l’instruction rand + 0.3 ou Ran# + 0.3 et de faire plusieurs fois ENTER ou EXE pour simuler des tirages avec remise dans cette urne, en ne tenant compte que de la partie avant la virgule (0 ou 1). • Sur un tableur, il suffit d’entrer dans une cellule la formule =ENT(ALEA()+0,3) puis d’approcher le pointeur de la souris du coin inférieur droit de la cellule. • Lorsque le pointeur de la souris prend la forme d’une croix noire, on enfonce le bouton gauche puis on « glisse » vers le bas pour constituer un échantillon (on nomme « recopie » cette manipulation). • On peut ensuite sélectionner l’échantillon (avec le pointeur en forme de croix blanche) puis le recopier vers la droite (avec le pointeur en forme de croix noire) pour constituer plusieurs échantillons. Isabelle ABOU 46 CONTRÔLE DE QUALITE • Dans le contrôle de qualité industrielle, on s’interroge sur le réglage d’une machine lorsque dans un lot de pièces produites, la fréquence des défauts observés est peu probable au regard du modèle indiquant une probabilité p de défauts. • C’est-à-dire qu’on veut prendre une décision à partir de l’étude d’un échantillon. • Rappelons que dans ce cas on connaît les paramètres de la v.a mère, c.a.d ici la probabilité théorique de défauts dans la chaîne de fabrication. Isabelle ABOU 47 DEFAUTS DE PEINTURE • Dans une usine automobile, on contrôle les défauts de peinture de type • « grains ponctuels sur le capot ». • Lorsque le processus est sous contrôle, • on a 20 % de ce type de défauts. • Lors du contrôle aléatoire de 50 véhicules, on observe 26 % de défauts • (13 sur 50). • Faut-il s’inquiéter ? Isabelle ABOU 48 RESOLUTION • En supposant que la situation est sous contrôle, c.a.d que la proportion présentant ce défaut est de 0,20, un échantillon aléatoire de 50 véhicules présentera une proportion de défauts comprise, dans plus de 95% des cas, entre • 0,20-1/√50 et 0,20+1/√50 • soit entre environ 6% et 34%. • Il n’y a donc pas lieu de considérer une observation de 26% comme « anormale ». Isabelle ABOU 49 RESPECT DE LA PARITE • Deux entreprises A et B recrutent dans un bassin d’emploi où il y a autant de femmes que d’hommes, avec la contrainte du respect de la parité. • Dans l’entreprise A, il y a 100 employés dont 43 femmes. • Dans l’entreprise B, il y a 2500 employés dont 1150 femmes. • Quelle est l’entreprise qui respecte le mieux la parité ? Isabelle ABOU 50 • RESOLUTION Dans l’entreprise A, il y a 100 employés dont 43 femmes (soit 43%); dans l’entreprise B, il y a 2500 employés dont 1150 femmes (soit 46%). • Or 46% est plus proche de 50% que 43%, les chiffres parlent d’eux-mêmes, pourrait-on dire, et B respecte mieux la parité que A. • Si on admet que la parité, c’est exactement 50% de femmes, il est vrai que B en est plus proche que A. Mais une telle définition a-t-elle ici un sens? • La parité signifie que l’identité sexuelle n’intervient pas au niveau du recrutement, c.a.d qu’au niveau du caractère étudié homme ou femme, les résultats observés pourraient être obtenus par choix, au hasard, des individus dans la population. Isabelle ABOU 51 RESOLUTION (suite) • Dans ce cadre, l’entreprise A est assimilable à un échantillon de taille 100 du modèle de Bernoulli, avec p=0,5, et l’entreprise B à un échantillon de taille 2500. • L’intervalle de fluctuation de p pour l’entreprise A est [0,4;0,6], et pour l’entreprise B de [0,48;0,52]. • La valeur 0,43 pour l’entreprise A est dans l’intervalle de fluctuation, alors que la valeur 0,46 ne l’est pas pour B. • Autrement dit, pour B, la proportion de 46% s’observe dans moins de 5% des échantillons obtenus selon le modèle accordant une probabilité égale d’obtenir un homme et une femme. • On peut alors rejeter l’hypothèse selon laquelle cette entreprise respecte la parité. Isabelle ABOU 52 ECHANTILLON CONFORME OU REPRESENTATIF • Un échantillon est représentatif ou conforme si f , la fréquence de l’échantillon, appartient à l’intervalle de fluctuation de la fréquence théorique p à un niveau de confiance donné. • Les problèmes qui précèdent reviennent donc à se demander si un échantillon est conforme. • Ce type de problème se prête bien à l’écriture d’un algorithme qui permettra de savoir si l’échantillon est conforme. • Dans l’algorithme suivant, on entre la fréquence de l’échantillon, et en réponse on a la prise de décision: l’échantillon est conforme ou pas, au risque de 5%. • Cet algorithme comporte un contrôle de saisie. • On peut également écrire un algorithme où on entrerait le nombre de personnes qui ont le caractère étudié, et qui calculerait également f . Isabelle ABOU 53 ALLERGIE • Dans une population de grand effectif, on a observé que 40% des individus sont allergiques à un médicament A. • Dans un échantillon de 100 individus, 31 révèlent une allergie à A. • Au seuil de 5%, peut-on déduire que l’échantillon est représentatif de la population pour l’allergie A? Isabelle ABOU 54 RESOLUTION • On détermine l’intervalle: p(1 p) p(1 p) 0,4 0,6 0,4 0,6 p 1 , 96 ; p 1 , 96 0 , 4 1 , 96 ; 0 , 4 1 , 96 n n 100 100 • Ce qui donne: 0,304;0,4960 • Comme f = 0,31 appartient à cet intervalle, on accepte H0 au seuil de 5%. • Conclusion: l’échantillon est représentatif de la population allergique à A. Isabelle ABOU 55 ALGORITHME ECHANTILLON CONFORME • • • • • • • • • • • • • • • • • • • Déclaration Variable p, f en Numérique Variable n en Entier Entrée Afficher ‘’Entrer la valeur de la proportion du caractère dans la population totale’’ Lire p Afficher ‘’Entrer la taille de l’échantillon’’ Lire n TantQue n<25 Afficher ‘’L’échantillon est trop petit. Recommencer’’ Afficher ‘’Entrer la taille de l’échantillon’’ Lire n FinTantQue Afficher ‘’Entrer la valeur de la fréquence dans l’échantillon’’ Lire f Traitement et Sortie Si [((p-1/racine(n))<=f) et (f<=(p+1/racine(n)))] Alors Ecrire ‘’Au risque de 5%, l’échantillon est représentatif’’ Sinon Ecrire ‘’Au risque de 5%, l’échantillon n’est pas représentatif’’ Isabelle ABOU 56 • • • • • • • • • • • • • • • PROGRAMME ALGOBOX ECHANTILLON CONFORME 1 VARIABLES 2 p EST_DU_TYPE NOMBRE 3 f EST_DU_TYPE NOMBRE 4 n EST_DU_TYPE NOMBRE 5 DEBUT_ALGORITHME 6 AFFICHER "Entrer la proportion du caractère, en valeur décimale, dans la population totale" 7 LIRE p 8 AFFICHER "Entrer la taille de l'échantillon" 9 LIRE n 10 TANT_QUE (n<25) FAIRE 11 DEBUT_TANT_QUE 12 AFFICHER "La taille de l'échantillon est trop petite. Recommencer." 13 AFFICHER "Entrer la taille de l'échantillon" 14 LIRE n 15 FIN_TANT_QUE • • • • • • • • • • • • 16 AFFICHER "Entrer la fréquence du caractère, en valeur décimale, dans l'échantillon" 17 LIRE f 18 SI (((p-1/sqrt(n))<=f) ET (f<=(p+1/sqrt(n))) ALORS 19 DEBUT_SI 20 AFFICHER "Au risque de 5%, cet échantillon est représentatif de la population" 21 FIN_SI 22 SINON 23 DEBUT_SINON 24 AFFICHER "Au risque de 5%, cet échantillon n'est pas représentatif de la population" 25 FIN_SINON 26 FIN_ALGORITHME Isabelle ABOU 57 MALADIE DES REINS • A l’hôpital, on peut lire une affiche où il est écrit: « 1 français sur 20 est malade des reins et ne le sait pas. Pensez à vous faire dépister… ». • On considère deux échantillons, le premier de taille 1000, constitué de personnes entre 0 et 35 ans et le second de taille 2000, constitué de personnes entre 36 et 80 ans. • Pour, le premier 18 personnes ont des problèmes de reins, pour le second, il sont 120. • Dire, pour chaque échantillon s’il est représentatif de la population française. Isabelle ABOU 58 EXECUTIONS • • 1ier échantillon: n=1000, p=0.05, et f=18/1000 • • ***Algorithme lancé*** Entrer la proportion du caractère, en valeur décimale, dans la population totale Entrer la taille de l'échantillon Entrer la fréquence du caractère, en valeur décimale, dans l'échantillon Au risque de 5%, cet échantillon n'est pas représentatif de la population ***Algorithme terminé*** • • • • . • • • • • • 2ième échantillon: n=2000, p=0.05, f= 120/2000 ***Algorithme lancé*** Entrer la proportion du caractère, en valeur décimale, dans la population totale Entrer la taille de l'échantillon Entrer la fréquence du caractère, en valeur décimale, dans l'échantillon Au risque de 5%, cet échantillon est représentatif de la population ***Algorithme terminé*** Isabelle ABOU 59 EN RESUME • Le raisonnement pour apprécier si une fréquence observée f sur un échantillon de taille n est compatible ou non avec un modèle de Bernoulli de probabilité p, est le suivant: • on regarde si cette fréquence est dans l’intervalle de fluctuation à 0,95 relatif aux échantillons de taille n du modèle. • C’est-à-dire si l’écart entre f et p est probable, au sens où le hasard produirait un tel écart dans 95% des échantillons envisageables. • Si f est en dehors de l’intervalle de fluctuation, on considère que l’observation n’est pas compatible avec le modèle, en ce sens avec un tel modèle elle ne s’observerait que dans 5% des échantillons de taille n (avec un risque de prendre la mauvaise décision dans 5% des cas). • Ce type de raisonnement est à la base de ce qu’on appelle parfois la « preuve statistique ». Isabelle ABOU 60 • • • • • • • • TAUX ANORMAL DE LEUCEMIES Une petite ville des États-Unis a connu 9 cas de leucémie chez de jeunes garçons en l’espace de 10 années. Doit-on, comme l’ont alors affirmé les autorités, en accuser le hasard ? Woburn est une petite ville industrielle du Massachusetts, au Nord-Est des États-Unis. Du milieu à la fin des années 1970, la communauté locale s’émeut d’un grand nombre de leucémies infantiles survenant en particulier chez les garçons dans certains quartiers de la ville. Les familles se lancent alors dans l’exploration des causes et constatent la présence de décharges et de friches industrielles ainsi que l’existence de polluants. Dans un premier temps, les experts gouvernementaux concluent qu’il n’y a rien d’étrange. Mais les familles s’obstinent et saisissent leurs propres experts. Une étude statistique montre qu’il se passe sans doute quelque chose « d’étrange ». Isabelle ABOU 61 TABLEAU DE DONNEES • Le tableau suivant résume les données statistiques concernant les garçons de moins de 15 ans, pour la période 1969-1979 (Source : Massachusetts Department of Public Health). Population des Nombre de cas Fréquence des garçons de de leucémie leucémies aux moins de 15 infantile Etats-Unis ans à Woburn observés chez (garçons) : p selon le les garçons à recensement Woburn entre 1969 et 1979 de 1970 : n 5 969 9 0,000 52 Isabelle ABOU 62 RESOLUTION • La question statistique qui se pose est de savoir si le hasard seul peut raisonnablement expliquer le nombre de leucémies observées chez les jeunes garçons de Woburn, considérés comme résultant d’un échantillon prélevé dans la population américaine. • Les conditions requises pour appliquer le résultat du cours ne sont pas toutes respectées ici (p n’est pas comprise entre 0,2 et 0,8). Il faut donc observer de plus près la fluctuation d’échantillonnage. • La population des États-Unis étant très grande par rapport à celle de Woburn, on peut considérer que l’échantillon résulte d’un tirage avec remise et simuler des tirages de taille n avec le tableur. Isabelle ABOU 63 • • • • • • GENERATION DE NOMBRE ALEATOIRE On simule sur le tableur 100 échantillons de taille n = 5 969 prélevés au hasard dans une population de garçons où la probabilité de leucémie est p = 0,000 52 (cas « normal ») en utilisant l’instruction : =ENT(ALEA()+0,000 52) . L’instruction =ALEA() génère un nombre aléatoire dans l’intervalle [0, 1[. Or, choisir un réel au hasard entre 0 et 1, c’est le choisir suivant la loi uniforme sur [0;1]. L’instruction =ALEA()+0,000 52 génère donc un nombre aléatoire dans l’intervalle [0,000 52 ; 1,000 52[. L’instruction =ENT(ALEA()+0,000 52), où ENT désigne la partie entière, vaut donc la plupart du temps 0 « non malade » (en fait avec une probabilité égale à 1-0,00052=0,99948),et vaut 1 « malade » avec la probabilité égale à 0,000 52. Sur chaque échantillon, en faisant la somme, on obtient le nombre de cas observés, sous l’hypothèse d’une probabilité « normale ». Isabelle ABOU 64 SIMULATION SUR TABLEUR • • • • On représente ensuite sur un graphique les 100 résultats observés sur les échantillons ainsi simulés. Les simulations montrent que le nombre de cas observés à Woburn (9 cas) est extrêmement rare (de l’ordre de 1 % des simulations sur un grand nombre d’essais), sous l’hypothèse d’une probabilité « normale ». On peut donc rejeter l’hypothèse que l’échantillon soit compatible avec le modèle. Il est donc raisonnable de penser que le niveau très « significativement » élevé des leucémies infantiles observées chez les garçons de Woburn n’est pas dû au hasard. Ce taux anormalement élevé de leucémies est officiellement confirmé par le Département de Santé Publique du Massachusetts en avril 1980. Les soupçons se portent alors sur la qualité de l’eau de la nappe phréatique qui, par des forages, alimente la ville. On découvre ainsi le syndrome du trichloréthylène. Isabelle ABOU 65 METHODE DETAILLEE • On construit 100 échantillons de taille 5969 où chaque colonne contient un échantillon, et chaque cellule contient l’instruction =ENT(ALEA()+0,000 52). • On crée une ligne où on fait la somme de chaque colonne, cette ligne contient le cas de leucémies dans chaque échantillon. • On crée ensuite un graphique où on aura en abscisse chaque échantillon et en ordonnée le nombre de cas de leucémies. nb cas leucemieses effectif du nb cas leucemies sur 100 echantillons de taille 5969 10 8 6 Série1 4 2 0 0 20 40 60 80 Isabelle ABOU echantillons 100 120 66 IV. THEORIE DE L’ÉSTIMATION Isabelle ABOU 67 PROBLEMATIQUE • La problématique est ici tout autre. • On ne connaît pas un ou des paramètres d’une v.a liée à une population mère. • On veut estimer les valeurs caractéristiques inconnues de cette v.a, à l’aide de l’étude d’un échantillon d’effectif n (n>=30) issu de cette population. Isabelle ABOU 68 ESTIMATION • On suppose vérifiée l’hypothèse d’échantillonnage aléatoire simple. • Deux types d’estimation: - L’estimation ponctuelle - L’estimation par intervalle de confiance. • Ceci en vue d’une prise de décision à partir d’un échantillon. Isabelle ABOU 69 ESTIMATION PONCTUELLE • Les lois de grands nombres justifient l’usage de x comme estimation de m, et l’usage de s² comme estimation de σ²car X tend p.s vers m et S² tend p.s vers σ². • De même la fréquence empirique f d’un événement est une estimation de sa probabilité. • Les v.a X , S², et F sont appelées estimateurs de m, σ², et p respectivement. Isabelle ABOU 70 ESTIMATEUR Soit t un paramètre à estimer, et T un estimateur. • • Qualités d’un estimateur: • - Il doit être convergent: quand n tend vers l’infini, T doit tendre vers t. • - Il doit être précis: converger ‘’assez vite’’. • - Il doit être sans biais c’est-à-dire E(T) doit être égal à t. • Le biais: • L’erreur d’estimation entre T et t est la v.a T - t. • On décompose la différence T - t =(T - E(T))+(E(T) - t) • * T-E(T) représente les fluctuations aléatoires de T autour de sa valeur moyenne. • * E(T)-t est assimilable à une erreur systématique due au fait que T varie autour de sa valeur centrale E(T), et non autour de t. • La quantité E(T)-t s’appelle le biais. • Il est donc souhaitable d’utiliser des estimateurs sans biais tq E(T)=t. Isabelle ABOU 71 THEOREMES SUR L’ESTIMATION • 1) Si (X1, . . . ,Xn) est un échantillon d'une loi quelconque de moyenne m, alors X= (X1 + . . . + Xn)/n est un estimateur sans biais de m. • 2) En particulier, si (X1, . . . ,Xn) est un échantillon de Bernoulli B(p), p є [0, 1], alorsF := (X1 + . . . + Xn)/n est un estimateur sans biais de p. • 3) Si (X1, . . . ,Xn) est un échantillon d'une loi quelconque de variance σ² finie, alors S² =(1/n) Σ(Xi − ¯X )² est un estimateur biaisé de σ². • En effet: E[S²] = ((n − 1)/n)σ². • Par contre l'estimateur corrigé • S²corr := (n/n − 1)S²=(1/(n − 1)) Σ(Xi − ¯X )² est sans biais. • Pour une démonstration de l’estimation de la variance et du biais, voir un cours de statistique de l’université de Brest à l’adresse: • http://www.math.univ-brest.fr/perso/catherine.rainer/polystat.pdf Isabelle ABOU 72 APPLICATION A L’ECHANTILLONNAGE • On considère une v.a X définissant le caractère étudié, avec E(X)=m et ( X ) . • L’échantillon a pour moyenne xe et pour écart type s. • - La meilleure estimation de m est xe . n • - La meilleure estimation de est s , n 1 n • où le coefficient est une correction du biais. n 1 • On considère une population où chaque élément peut, ou non, posséder une propriété. • Soit p la proportion d’éléments de la population mère et f la proportion d’éléments de l’échantillon possédant cette propriété. • - La meilleure estimation de p est f. Isabelle ABOU 73 ENGRENAGES • Une usine fabrique des engrenages. • On mesure en mm le diamètre de 100 engrenages: Diamètre [23,59; Effectif 23,61[ [23,61; 23,63[ [23,63; [23,65; [23,67; 23,65[ 23,67[ 23,68] 6 8 51 30 5 • La moyenne de l’échantillon est 23,644 mm, son écart type est 0,018. • Une estimation de la moyenne de la production totale est donc 23,644 mm, et une estimation de l’écart type de la production totale est • 0,018*√(100/99)=0,0181. Isabelle ABOU 74 ENGRENAGES (suite) • Dans un échantillon de 150 pièces, on a relevé 3 pièces défectueuses. • Une estimation du nombre de pièces défectueuses dans la production est: 3/150=0,02 soit 2%. • On peut donc estimer que 2% des pièces produites sont défectueuses. Isabelle ABOU 75 ESTIMATION PAR INTERVALLE DE CONFIANCE • L’estimation ponctuelle est souvent peu réaliste, il est donc plus intéressant de fournir une fourchette d’estimation, et de plus l’estimation ponctuelle n’indique pas le risque que l’on a de se tromper. • Il s’agit de déterminer un intervalle contenant la valeur de la moyenne ou de la fréquence avec un risque d’erreur décidé à l’avance. • Puis de prendre des décisions sur la population mère à partir de l’étude d’un ou de plusieurs échantillons. Isabelle ABOU 76 INTERVALLE DE CONFIANCE DE LA MOYENNE • La loi d’échantillonnage de la moyenne est la loi normale N ( m; ) . n • La moyenne m est supposée inconnue et on a calculé la moyenne xe d’un échantillon de taille n. • L’intervalle de confiance de m au risque de 5% est l’intervalle centré en xe : • xe 1,96 ; xe 1,96 . n n Isabelle ABOU 77 DEMONSTRATION • La loi d’échantillonnage de la moyenne X est la loi normale N(m,σ/√n). • Soit Y la v.a Y= X m suit la loi N(0;1). σ n • Soit α le risque d’erreur ou seuil de risque, α est une probabilité fixée à l’avance (par exemple α =0,05). • La probabilité pour que Y n’appartienne pas à [-t;t] est P(lYl>t)=α ou encore P(lYl<= t)=1-α. • Ceci donne P(-t<= Y<= t)=1-α • Soit P( t X m t) 1 - σ • C’est à dire P( X t • n σ n m Xt Isabelle ABOU σ n ) 1- 78 INTERPRETATION σ σ • On a obtenu P(X t n m X t n ) 1 - α ce qui signifie que pour 100*(1-α)% des échantillons, σ σ m appartient à l’intervalle [ xe t ; x e t ] . n n • Cet intervalle est l’intervalle de confiance de la moyenne au seuil de risque α. • On dit que 1-α est le coefficient de confiance. α • t est le nombre tel que Π(t) 1 - , et se lit dans 2 la table de la loi N(0,1). • On a α 0,01 0,05 0,10 t 2,58 1,96 Isabelle ABOU 1,645 79 AMPOULES ELECTRIQUES • On suppose que la durée de vie d’une ampoule électrique, exprimée en heures, suit la loi normale de moyenne M inconnue et d’écart type σ =20. • Une étude sur un échantillon de 16 ampoules donne une moyenne de vie égale à 3000. • Déterminer l’intervalle de confiance de m au seuil de 10%. • Résolution: • α=0,1 d’où t=1,645. • Un intervalle de confiance de M est: • [3000-1,645*(20/√16) ; 3000+1,645*(20/√16)] • = [2991 ; 3009]. Isabelle ABOU 80 INTERVALLE DE CONFIANCE DE LA FREQUENCE • La loi d’échantillonnage de la fréquence est la loi normale N ( p; p(1 p) ) . n • p étant inconnu, l’écart type p(1n p) est remplacé par son estimation ponctuelle f (1 f ) n n n 1 f (1 f ) n 1 • Par analogie avec la méthode précédente, l’intervalle de confiance de la fréquence au risque 5% est l’intervalle centré en f: f (1 f ) f (1 f ) • ; f 1,96 f 1,96 n 1 Isabelle ABOU n 1 81 SONDAGE DANS LES TRANSPORTS • Un sondage dans une commune révèle que sur les 500 personnes interrogées, 42% des personnes sont mécontentes de l’organisation des transports. • Déterminer au seuil de risque de 5%, un intervalle de confiance du pourcentage de personnes mécontentes dans la commune. Isabelle ABOU 82 RESOLUTION • Dans l’échantillon, la fréquence de personnes mécontentes est f=0,42. • La taille de l’échantillon est n=500,l’intervalle de confiance de la fréquence est donc: 0,42 * 0,58 0,42 * 0,58 ;0,42 1,96 0,42 1,96 0,3767;0,4421 • 499 499 • Le pourcentage de personnes mécontentes dans la commune a une probabilité égale à 95% de se trouver dans l’intervalle [37,67;44,21]. Isabelle ABOU 83 V. ÉSTIMATION D’UNE PROPORTION SITUATIONS PROBLEMES Isabelle ABOU 84 PROGRAMME DE SECONDE • On peut modéliser de nombreuses situations aléatoires à l’aide de l’urne de Bernoulli, c.a.d comprenant deux sortes de boules. • La situation de référence est une urne contenant plusieurs centaines de boules rouges et blanches, dans une proportion inconnue p de boules rouges. • On cherche à estimer p à partir d’un échantillon de taille n. • On note X la v.a correspondant au nombre de boules rouges dans l’échantillon. X est une v.a binomiale et on note F la v.a X/n. • On considère un échantillon de taille n, parmi tous ceux qu’on aurait pu obtenir. f est une réalisation de F. • On sait qu’environ 95% des fréquences observées sont dans l’intervalle [p-1/√n; p+1/√n]. Isabelle ABOU 85 INTERVALLE DE CONFIANCE • • • • • Comme P(p-1/√n ≤ F ≤ p+1/√n) ≥ 0,95 équivaut à P(F-1/√n ≤ p ≤ F+1/√n) ≥ 0,95 L’appartenance f à [p-1/√n; p+1/√n] équivaut à celle de p à [f-1/√n; f+1/√n], appelée fourchette de sondage. Ceci permet de dire que, parmi tous les échantillons de taille n possibles, 95% des intervalles associés [f-1/√n; f+1/√n] contiennent le nombre p. • Pour exprimer l’idée qu’avant tirage de l’échantillon on avait 95% de chances d’obtenir une fourchette [f-1/√n; f+1/√n] qui contienne p, on dira que le fourchette obtenue, une fois l’échantillon tiré, est un intervalle de confiance au niveau 95% de p. Il ne dépend que de la taille n de l’échantillon et non de la taille de la population. Isabelle ABOU 86 ESTIMATION DE p INCONNUE • A la problématique: « combien faut-il tirer de boules dans une urne de Bernoulli pour pouvoir faire une estimation de sa composition avec une précision donnée à priori? », on peut répondre: en tirant n boules avec remise, on obtient une estimation de par un intervalle d’amplitude 2/√n, avec une confiance de plus de 95%. • Si on tire 1000 boules (avec remise), on a une estimation de p, à plus de 95%, par un intervalle d’amplitude 6%. • Si par exemple le tirage de 1000 boules fournit une fréquence de boules rouges égale à 0,47, on peut estimer avec plus de 95% de confiance, que la proportion p de boules rouges dans l’urne est comprise entre 0,44 et 0,50. • Les sondages, par exemple, sont souvent pratiqués sur un échantillon de 1000 personnes. Isabelle ABOU 87 SOMME DE DEUX DÉS • L’approche fréquentiste des probabilités est une application de la loi faible des grands nombres. • En voici un grand classique: • On lance deux dés équilibrés dont les faces sont numérotées 1, 2, 3, 4, 5 et 6. On additionne les nombres lus sur les faces supérieures. On gagne si on obtient 9. Quelle est la probabilité de gagner ? Isabelle ABOU 88 RESOLUTION • A ce stade, les élèves ne connaissant pas la probabilité d’apparition du 9. • Ils peuvent simuler des échantillons de taille de plus en plus grande et estimer la probabilité d’apparition du 9. • On peut ensuite comparer les résultats avec la probabilité effective, trouvée à l’aide d’un arbre. • La probabilité théorique est de 1/9 soit environ 0,11111. Isabelle ABOU 89 SUR TABLEUR • La simulation du lancer d’un dé se fait par l’instruction =ENT(6*ALEA()+1). • Ceci car ALEA() fournit un nombre aléatoire entre 0 et1 (1 non compris). • 6*ALEA() fournit un nombre aléatoire entre 0 et 6 (6 non compris). • Donc en opérant la translation de 1, on a =ENT(6*ALEA()+1) fournit un nombre entier de 1 à 6. • Manipulation sur tableur: • Dans la colonne A on numérote les échantillons, par exemple à partir de la ligne 4. • En colonnes B et C , on simule des lancers. • En colonne D, on écrit le test du type =SI(SOMME(B4:C4=9);1;0)). • Si le test est vérifié, la valeur correspondante est 1, sinon elle vaut 0. Isabelle ABOU 90 SUR TABLEUR (suite) • En colonne E, on calcule les fréquences: • - la fréquence du premier échantillon sur la 1ière ligne, • - la fréquence du 1ier et du 2ième échantillon sur la 2ième ligne, • - la fréquence du 1ier, du 2ième et du 3ième échantillon sur la 3ième ligne. • Le premier échantillon considéré est donc de taille 1, le 2ième de taille 2, le 3ième de taille 3, et ainsi de suite jusqu’à 100. • Dans la colonne E, on a écrit, en 3ième ligne =SOMME(D$4:D6)/A6. • On voit qu’à partir d’une certaine valeur de n, la fréquence tend vers la probabilité théorique. Isabelle ABOU 91 FLUCTUATIONS D’ECHANTILLONNAGE • Si on fait plusieurs simulations, on peut observer des fluctuations d’échantillonnage relativement importantes en augmentant la taille des échantillons jusqu’à 100. fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de l'échantillon" 0,3 0,25 0,2 0,15 Série1 0,1 0,05 fréquence observée fréquence observée fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de l'échantillon" 0 0,3 0,25 0,2 0,15 Série1 0,1 0,05 0 0 20 40 60 80 100 120 0 20 40 taille de l'échantillon 80 100 0,3 0,25 0,2 0,15 Série1 0,1 0,05 0 0,3 0,25 0,2 0,15 Série1 0,1 0,05 0 0 20 40 60 taille de l'échantillon 120 fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de l'échantillon" fréquence observée fréquence de "la somme de 2 dés vaut 9 en fontion de la taille de l'échantillon" fréquence observée 60 taille de l'échantillon 80 100 120 0 Isabelle ABOU 20 40 60 taille de l'échantillon 80 100 120 92 Fluctuations d’échantillonnage en augmentant la taille des échantillons jusqu’à 5000 convergence de la fréquence de 5000 échantillons vers la probabilité théorique fréquence observée fréquence observée convergence de la fréquence de 5000 échantillons vers la probabilité théorique 0,25 0,2 0,15 Série1 0,1 0,05 0,3 0,25 0,2 0,15 Série1 0,1 0,05 0 0 0 1000 2000 3000 4000 5000 0 6000 1000 2000 4000 5000 convergence de la fréquence de 5000 échantillons vers la probabilité théorique 0,3 0,25 0,2 0,15 Série1 0,1 0,05 0 fréquence observée convergence de la fréquence de 5000 échantillons vers la probabilité théorique 0,3 0,25 0,2 0,15 Série1 0,1 0,05 0 0 1000 2000 3000 nb d'échantillons 6000 nb d'échantillons nb d'échantillons fréquence observée 3000 4000 5000 6000 Isabelle 0ABOU1000 2000 3000 nb d'échantillons 4000 5000 6000 93 SONDAGE • Un candidat à une élection effectue un sondage dans sa circonscription comportant 85842 électeurs : sur 1068 personnes interrogées, 550 déclarent vouloir voter pour ce candidat. • Pour gagner les élections au premier tour, un candidat doit obtenir 50% des voix. • Le candidat affirme : « si les élections avaient eu lieu le jour du sondage et si les réponses au sondage étaient sincères, alors j’aurai été élu au premier tour ». • Qu’en pensez-vous ? Isabelle ABOU 94 RESOLUTION • Nous sommes dans les conditions requises par le cours, n vaut 1068. • Ici, f = 0,51498 et n = 1068 donc la fourchette de sondage est [0,4843 ; 0,5456] au niveau 0,95. • D’après la fourchette de sondage, p a 95% de chance d’être dans cet intervalle. • Donc on ne peut pas certifier que p sera supérieur ou égal à 0,5. • L’affirmation du candidat est très hâtive, on ne peut pas l’accepter. Isabelle ABOU 95 PREMIER TOUR DES PRESIDENTIELLES 2002 • Voici un extrait d’article, publié dans le journal « Le Monde » par le statisticien Michel Lejeune, après le premier tour de l’élection présidentielle de 2002. • « Pour les rares scientifiques qui savent comment sont produites les estimations, il était clair que l'écart des intentions de vote entre les candidats Le Pen et Jospin rendait tout à fait plausible le scénario qui s'est réalisé. En effet, certains des derniers sondages indiquaient 18 % pour Jospin et 14 % pour Le Pen. Si l'on se réfère à un sondage qui serait effectué dans des conditions idéales [...], on obtient sur de tels pourcentages une incertitude de plus ou moins 3 % étant donné la taille de l'échantillon [...]. » Isabelle ABOU 96 PRESIDENTIELLES 2002 ÉNONCÉ • 1. Si l’on tient compte de l’incertitude liée au sondage, entre quels pourcentages pourraient se situer réellement (à 95 % de confiance) les deux candidats lorsque le sondage donne 18 % pour l’un et 14 % pour l’autre ? • 2. Représenter sur un même graphique les deux « fourchettes » calculées à la question précédente. Peut-on prévoir l’ordre des candidats ? • Au premier tour de l’élection présidentielle de 2002, L. Jospin a obtenu 16,18 % des voix et J.-M. Le Pen 16,86 %. • 3. Expliquer la phrase « l'écart des intentions de vote entre les candidats Le Pen et Jospin rendait tout à fait plausible le scénario qui s'est réalisé ». Isabelle ABOU 97 RESOLUTION • • 1. Pour L. Jospin, entre 15 % et 21 %. Pour J.-M. Le Pen, entre 11 % et 17 %. 2. Un dessin possible. 10 % • • 15 % 20 % Si on utilise ces fourchettes, on ne peut pas prévoir l’ordre des candidats car elles ont une partie commune. 3. La phrase correspond au fait que les pourcentages obtenus à l’élection sont situés dans les fourchettes du sondage. Isabelle ABOU 98 VI. ÉVALUATION DE TRAVAUX AVEC TIC Isabelle ABOU 99 • • • • • • • • • • • INTRODUCTION Les problèmes qui suivent sont des évaluations de travaux faits avec des TIC, du type « Epreuve pratique ». On trouve de très bons documents de ce type à l’adresse: http://mslp.ac-dijon.fr/spip.php?article202 Dans le premier problème, on détaille, à la fin, les compétences mises en jeu dans la résolution de cette activité. On rappelle les 4 compétences de base: o C1 : savoir utiliser et compléter ses connaissances o C2 : s’informer, rechercher, extraire et organiser de l’information utile (écrite, orale, observable, numérique) o C3 : raisonner, argumenter, pratiquer une démarche scientifique, démontrer o C4 : communiquer à l’aide de langages et d’outils adaptés. On peut décliner ces 4 compétences dans le domaine du travail avec les TIC. On essaiera, dans tous les cas, de développer l’autonomie et l’initiative chez l’élève. Isabelle ABOU 100 SURRESERVATION • Une compagnie aérienne dispose d’un avion de 100 places et vend 107 réservations. • L’objectif est d’évaluer la probabilité de surréservation de cette compagnie, autrement dit le risque que plus de 100 passagers se présentent à l’embarquement. Isabelle ABOU 101 • • • • • • • • • • • • • – – 1. On suppose que toute personne réservant une place d’avion a une chance sur 10 de ne pas se présenter à l’embarquement. Réaliser une simulation du nombre de personnes se présentant à l’embarquement d’un vol de 100 places pour 107 réservations, sur un échantillon aléatoire obtenu à l’aide d’un tableur. Pour cela, dans une feuille de calcul du tableur : saisir « =ENT(ALEA()+0,9) » dans la cellule A1 et recopier cette formule vers la droite jusqu’en DC1 pour obtenir 107 réalisations , saisir « =SOMME(A1:DC1) » dans la cellule DD1. Appel n° 1 : Appeler le professeur pour valider cette simulation. 2. Réaliser une simulation du nombre de personnes se présentant à l’embarquement de 1 000 vols de 100 places pour 107 réservations à chaque vol. Appel n° 2 : Appeler le professeur pour valider cette simulation. 3. Déterminer, pour cette simulation de 1 000 vols, la proportion des cas où l’effectif des passagers se présentant à l’embarquement est supérieur à 100. Pour cela : - dans une cellule de votre choix, utiliser la formule « =NB.SI(DD1:DD1000;">100") », - dans une cellule de votre choix, en déduire la fréquence demandée. Appel n° 3 : Appeler le professeur pour valider ces calculs. 4. a) En utilisant la touche F9, réaliser plusieurs simulations, puis évaluer la probabilité que plus de 100 personnes se présentent à l’embarquement. b) Évaluer, en pourcentage, le risque de surréservation pour la compagnie aérienne. Appel n° 4 : Appeler le professeur pour lui donner les réponses. Isabelle ABOU 102 • • • • • • • • RESOLUTION Tout type de tableur convient, par exemple Excel ou OpenOffice Calc. Il suffit d’inscrire la formule « =ENT(ALEA()+0,9) » dans la cellule A1, de la recopier horizontalement pour qu’elle soit calculée 107 fois, puis d’effectuer la somme. L’élève doit comprendre que lorsque la formule affiche 1, le passager se présente à l’embarquement et lorsqu’elle affiche 0, le passager ne se présente pas. Il s’agit de sélectionner les cellules de la simulation de la question 1. puis de recopier vers le bas. L’instruction NB.SI fournit un effectif. On s’attache à la différence qui est faite entre effectif et fréquence. L’élève doit comprendre que la probabilité de surréservation est la valeur autour de laquelle fluctuent les fréquences lorsqu’on appuie sur la touche F9. On accepte toute évaluation comprise entre 0,06 et 0,10. Signalons pour le professeur que le calcul de cette probabilité peut s’effectuer par la formule « =1-LOI.BINOMIALE(100;107;0,9;VRAI) » qui donne comme réponse environ 0,08 (ou 8 %). Isabelle ABOU 103 SIMULATION SUR TABLEUR Isabelle ABOU 104 Question COMPETENCES EVALUEES 1 L’élève est capable de réaliser la simulation L’élève comprend le sens de l’affichage 1 ou 0 de l’instruction « =ENT(ALEA()+0,9) » 2 L’élève est capable de réaliser la simulation de taille 1 000. 3 L’élève connaît la différence de sens entre effectif et fréquence et est capable de calculer la fréquence. 4 L’élève identifie la probabilité comme l’invariant autour duquel fluctuent les fréquences observées. L’élève donne une évaluation convenable de la probabilité. L’élève sait exprimer, en pourcentages, le risque de surréservation. Sur tout le TP L’élève tire profit des indications éventuellement données à l’oral. Ces indications Isabellelogicielles ABOU peuvent être des aides nécessaires pour réaliser ce qu’il a prévu. 105 CRAPS • Le Craps est un jeu d'argent venant des ÉtatsUnis qui se joue avec deux dés à six faces. • Les paris portent sur les combinaisons successives obtenues avec la somme des faces des deux dés.Il faut jeter deux dés à six faces sur une table avec des parois verticales de 40 cm de hauteur pour que les dés ne sortent pas de l'aire de jeu. • Le total des 2 faces opposées de chacun des deux dés doit toujours être égale à 7 : 1+6, 2+5, 3+4. • Au premier lancer, le lanceur perd sa mise s'il 2 (1+1) ou 3 (2+1) ou 12 (6+6). On dit qu'il a fait un Craps. • Source : wikipedia.org Isabelle ABOU 106 • Est-il plus facile d'obtenir un total de 6 ou de 7 avec deux dés ? • 1. Simulation de lancés de deux dés et calcul des fréquences d'apparition des sommes des faces obtenues. • 1.1. Lancer le tableur (Excel ou Open Office Calc) et : • écrire, dans la cellule A1, l'expression : Simulation de 10 lancés d'une paire de dés ; • ajuster la largeur de la colonne ; • entrer, dans la cellule A2, la formule : = ENT(ALEA()*6+1)+ENT(ALEA()*6+1). • incrémenter la cellule A2, jusqu'à la cellule A11 (soit 10 cases correspondant aux 10 premiers lancés) ; • écrire, dans la cellule C6, l'expression : Nombre de 6 : ; • entrer, dans la cellule D6, la formule : = NB.SI(A2:A11;6) ; • écrire, dans la cellule C7, l'expression : Nombre de 7 : ; • entrer, dans la cellule D7, la formule : = NB.SI(A2:A11;7) ; • appuyer plusieurs fois sur la touche F9 afin de faire afficher d'autres lancés. • Cette simulation permet-elle répondre au problème posé ? • Appel n° 1 : appeler le professeur pour faire vérifier feuille de calculs. Isabelle ABOU 107 • 1.2. Reprendre la précédente feuille de calcul (Excel ou Open Office Calc) et : • écrire, dans la cellule A1, l'expression : Simulation de 10 000 lancés d'une paire de dés ; • ajuster la largeur de la colonne ; • incrémenter la cellule A2 jusqu'à la cellule A10001 (soit 10 000 cellules correspondant aux 10 000 premiers lancés) ; • modifier, dans la cellule D6, la formule entrée par : = NB.SI(A2:A10001;6) ; • entrer, dans la cellule E6, la formule : =D6/10000*100 ; • modifier, dans la cellule D7, la formule entrée par : =NB.SI(A2:A10001;7) ; • entrer, dans la cellule E7, la formule : =D7/10000*100 ; • appuyer plusieurs fois sur la touche F9 afin de faire afficher d'autres lancés. Isabelle ABOU 108 • 1.3. Est-il plus facile d'obtenir un total de 6 ou de 7 ? • 1.4. A quoi correspondent les valeurs obtenues dans les cellules E6 et E7 ? • 2. Étude des fréquences d'apparition des sommes de deux dés. • Compléter le tableau ci-dessous à l'aide des résultats obtenus précédemment. Pour chaque somme, calculez les fréquences en effectuant la division du nombre d'apparitions, ni, par le nombre total de lancer, N = 10 000. Somme des faces des deux dés 6 7 Nombre d'apparition (ni) Fréquence (f i = ) Isabelle ABOU 109 • 2.1. Ces fréquences ont été calculées à partir d'une simulation de 10 000 lancés. • 2.1.1. Compléter le tableau suivant en inscrivant dans chaque case la somme des points obtenus avec chaque dé. • 2.1.2. Combien y a t-il d'éventualités d'obtenir un total de 6 ? • 2.1.3. Déterminer sa probabilité d'apparition : 2.1.4. Combien y a t-il d'éventualités d'obtenir un total de 7 ? • 2.1.5. Déterminer sa probabilité d'apparition : • 2.1.6. Parmi toutes ces éventualités l'une d'entre elle a plus de chance d'apparaître, laquelle ? 1ier dé 1 2 3 4 5 6 2ième dé 1 2 3 4 5 6 Isabelle ABOU 110 A SUIVRE… 3ième PARTIE APPROFONDISSEMENT Isabelle ABOU 111