Seconde 2016/17 - v.dujardin Partie 4 Cours de statistiques, probabilités et fluctuations Table des matières Chapitre 1 : Statistique descriptive................................................................2 Chapitre 2 : Probabilités .............................................................................6 Chapitre 3 : Fluctuations sur les échantillons.............................................11 Nombre de pages : 13 v.dujardin v2.1 Chapitre 1 : Statistique descriptive Une série statistique est une liste indiquant, pour chaque individu d'une population, la valeur d'une propriété que l'on étudie, que l'on appelle le caractère (x). La statistique descriptive vise à donner des informations globales sur la population. Il n'y a pas d'aléatoire dans cette analyse : elle décrit une population connue, contrairement aux probabilités. 1 Vocabulaire, notations et représentations usuelles 1.1 Effectif total L'effectif total d'une population est le nombre d'individus dans la population. On le note souvent N. 1.2 Effectif les valeurs prises par le caractère et le nombre d'individus ayant chacune de ces valeurs. Il est fréquent de présenter une série en donnant On numérote par un indice les couples de valeurs obtenues, et on note souvent : • xi les valeurs prises par le caractère. • ni l'effectif (le nombre d'individu) ayant chacune de ces valeurs. 1.3 Fréquence Définition 1 : fréquence La fréquence d'une valeur du caractère x i d'effectif n i est le rapport de n i sur l'effectif total. On la note souvent f i , avec f i = nN i Remarque : • La fréquence est positive et inférieure à 1 : 0⩽ f i ⩽1 • On donne souvent aux fréquences le format d'un pourcentage • La somme des f i d'une série fait 1=100% Exemple : on étudie les âges dans un groupe d'enfants. La série brute (liste des x i ) : Alain (8ans), Betty (7ans), Carl (6), Dom(10), Eric(6), Fred(7), Gina(7), Heidi(10) La même série, regroupée en ( x i ,n i ) avec calcul des fréquences f i Ages ( x i ) 6 7 8 10 Total Effectifs ( n i ) 2 3 1 2 8 0,25 0,38 0,12 0,25 1 25 38 12 25 10 Fréquences ( f i ) Fréquences ( f i %) v.dujardin v2.1 1 2 Caractéristiques numériques sur les séries 2.1 Mesures de positions Définition 2 : La moyenne d'une série est la somme des x i divisée par l'effectif total. Notation : on note souvent x̄ la moyenne d'une série dont le caractère est noté x. Propriété 1 : on peut calculer la moyenne comme ci-dessous : Avec des ( x i ,n i ) : Avec des ( x i , f i ) : x̄ x̄ = x 1×n 1+…+x p ×n p N = x1 × f 1+ …+x p × f p Preuve : La première formule consiste à regrouper les mêmes valeurs de x i . L'égalité avec la seconde se prouve comme ceci : x 1×n 1+…+x p ×n p n n =x 1× 1 + …+x p × p x= ̄ N N N =x 1× f 1 +…+x p × f p Autres mesures de position (rappels) : • La médiane med est une valeur telle que pour la moitié de la population, x i⩽med , et pour l'autre moitié, x i⩾med . • Le premier • Le troisième Q 1 est la plus petite valeur de la série telle que pour un quart de la population, x i ⩽Q1 . trois quartile quartile Q 3 est la plus petite valeur de la série telle que pour quarts de la population, x i ⩽Q3 . Ces trois caractéristiques sont des caractéristiques de position. 2.2 Mesures de dispersion Autour d'une position, une série est plus ou moins dispersée. Pour décrire ce phénomène, on peut utiliser : • L'étendue : la différence entre la plus grande et la plus petite valeurs de • L'écart interquartile : xi Q 3−Q 1 . Exemple : voir activité 2 (les quatre classes 1A, 1B, 1C et 1D) 2.3 Différences d'un pays à l'autre Selon les définitions (française, US, UK, etc.), les outils (calculatrice/tableur) peuvent donner des valeurs différentes selon qu'ils prennent des valeurs de la série ou non. L'idée générale reste la même : diviser la population en deux moitiés d'égal effectif pour la médiane, puis en quatre quarts d'égal effectif pour les quartiles. Les différences de définition entre les pays sont très minimes sur des grandes populations : on conservera toujours les résultats donnés par les outils à disposition. v.dujardin v2.1 2 3 Cumul des effectifs ou des fréquences On cumule classiquement les fréquences et effectifs, en croissant ou en décroissant. Le principe est d'ajouter pour chaque valeur de x i le cumul précédent. Les cumuls permettent de répondre aux questions du type « combien ou plus de ... », « quelle proportion a moins de... » Exemple avec le cumul croissant : Ages : x i 6 7 8 10 Total Effectifs : n i 2 3 1 2 8 Cumul croissant (ECC) 2 2+3= 5 5+1= 6 6+2= 8 0,25 0,38 0,12 0,25 Fréquences f i Cumul croissant (FCC) 0.25+0.38 0.63+0.12 0,25 = 0,63 = 0,75 1 0.75+0.25 =1 Interprétation des cumuls croissants : • Il y a 6 élèves qui ont 8 ans et moins. • Il y a 0,63=63% des élèves qui ont 7 ans et moins. Méthode 1 : retrouver les quartiles et la médiane avec les FCC • Pour retrouver le Q1, on recherche la valeur qui correspond à la fréquence cumulée de 0,25=25% : ici, Q1=6 ans. • Q3 correspond à la FCC égale à 0,75=75% : ici, Q3=8 ans. • Pour retrouver la médiane, on peut rechercher la valeur correspondant à la fréquence cumulée 0,5 (ou 50%). Ici, la médiane est 7 ans car les enfants de 7 ans font passer la fréquence cumulée croissante de 25% à 63% : c'est bien l'un d'eux qui correspond à la moitié de l'effectif. 4 Séries regroupées par classes Lorsque les données sont continues (nombres réels et pas entiers par exemple), ou lorsqu'il y a beaucoup de données, on regroupe souvent les valeurs de x i dans des intervalles que l'on appelle des classes. Exemple : lors d'une épreuve de saut en hauteur, le professeur d'EPS analyse les performances de sa classe. Les hauteurs de sauts sont regroupées dans des intervalles de 5cm « de large ». v.dujardin v2.1 3 4.1 Polygone des FCC On peut représenter les fréquences cumulées croissantes par un polygone (ou ligne brisée). Ce n'est pas exactement une courbe, car les points sont reliés par des segments (à la règle). Méthode 2 : tracer un polygone des FCC • Le premier point a pour abscisse la borne de gauche de la première classe et pour ordonnée 0. • Le second a pour abscisse la borne de droite de la première classe et pour ordonnée la première FCC. • On continue ainsi. • Il y a au final un point de plus que le nombre de classes. Avec l'exemple : bien repérer la correspondance du précédent tableau avec ce graphique. Remarque : on peut aussi tracer un polygone des effectifs cumulés croissants, des fréquences cumulées décroissantes... Le principe se transpose. 4.2 Médiane et quartiles sur le polygone des FCC Méthode 3 : on peut lire des valeurs approchées des médianes et quartiles sur le polygone des FCC. • Q 1 est l'antécédent de 25% • Med est l'antécédent de 50% • Q3 est l'antécédent de 75% Avec l'exemple : La lecture d'antécédent donne Q1 ≈ 97cm Mediane ≈ 102cm Q3 ≈ 110cm 4.3 Moyenne d'une série regoupée par classe Ne connaissant pas les valeurs de la série, il est impossible de calculer exactement la moyenne. On peut : • l'estimer en utilisant pour valeur de x i les centres des classes. • l'encadrer en utilisant pour valeur de x i les bornes des classes. Avec l'exemple : Le centre de la classe [90;95[ est La moyenne est environ : moy ≈ 90+95 2 =92,5 (et ainsi de suite...). 7×92,5+15×97,5+8×102,5+7×107,5 +13×112,5 50 = 102,9 cm Encadrement : 7×90+15×95+8×100+7×105+13×110 50 v.dujardin v2.1 ≈ 100,4 ⩽ moy ⩽ 7×95+15×100+8×105+7×110+13×115 50 ≈ 105,4 4 Chapitre 2 : Probabilités 1 Expérience aléatoire Définition 3 : expérience aléatoire Une expérience est aléatoire lorsqu'elle a plusieurs issues et que l'on ne peut pas prévoir de façon certaine le résultat. Vocabulaire : l'univers d'une expérience aléatoire est l'ensemble des issues possibles. On le note souvent E ou Ω . Exemples : Pour un dé six faces, l'univers est E={1;2;3;4;5;6}. Pour un tirage pile ou face, l'univers est {Pile;Face} Pour la suite du cours, on notera E l'univers, qui comportera N issues. 2 Simuler une expérience aléatoire Les outils numériques disposent tous d'un générateur de nombres aléatoires qui donne un nombre « au hasard ». Au lieu de réaliser physiquement une expérience aléatoire, on peut la simuler numériquement (calculatrice, ordinateur) grâce à ce générateur. Deux types de générateurs aléatoires sur les machines : nombre aléatoire dans [0;1[ nombre aléatoire entier entre a et b inclus Excel ALEA() ALEA.ENTRE.BORNE(a;b) TI : menu MATH, sous-menu PRB Rand() RandInt(a,b) (voir remarque) Casio : menu OPTN, sous-menu PROB Ran# RanInt#(a,b) (voir remarque) Remarque : si les fonctions randint() et ranint# n'existent pas sur les calculatrices, on peut se contenter des fonctions Rand et Ran# et utiliser la fonction partie entière. Exemple : pour simuler un dé six faces • TI : int(6 × rand)+1 fait la même chose que • Casio: Int(6 × Ran#)+1 fait la même chose que randInt(1,6) RandInt#(1,6) 3 Modéliser une expérience par une loi de probabilité 3.1 Loi des grands nombres Lorsque l'on répète une expérience aléatoire un très grand nombre de fois, les fréquences observées de chaque issue tendent vers des nombres fixes que l'on peut appeller probabilités. v.dujardin v2.1 5 3.2 Loi de probabilité d'une expérience Définition 4 : loi de probabilités Une loi de probabilité sur E est l'association de chaque issue à sa probabilité. Modéliser une expérience, c'est donner sa loi, c'est à dire donner la probabilité de chaque issue. Méthode 4 : pour modéliser une expérience, on peut : ou assimiler les fréquences observées aux probabilités prendre en compte l'aspect physique ou géométrique de l'expérience : dés équilibrés, boules indiscernables au toucher, etc. Exemple 1 : un dé 4 faces visiblement truqué a été lancé 10000 fois. Résultats : 10000 fois étant un grand nombre, on peut modéliser l'expérience du lancer en assimilant les fréquences observées aux probabilités, ce qui donne : Une loi de probabilité possible du jet : (en arrondissant) Exemple 2 : L'expérience est de tirer une fléchette au hasard (sans viser) sur la cible faite de 16 carrés identiques, puis de regarder où elle s'est plantée. En faisant les rapports d'aires (géométrie), on peut déterminer la loi du jet de fléchette : 3.3 Une loi bien pratique : la loi équirépartie Propriété 2: (admise) Lorsque chaque issue d'une expérience a la même probabilité, on dit que l'expérience est équiprobable. Sa loi est appellée la loi équirépartie. La probabilité de chaque issue est alors 1 N , où N est le nombre d'issues de l'univers. Preuve : On note p la probabilité de chaque issue. S'il y a N issues dans E, alors p+...+ p =1 d'après la définition de la loi. ⏟ N fois 1 On en déduit que N ×p =1 , c'est à dire p= N car N ≠0 . Méthode 4 : pour donner loi d'une expérience équiprobable, plutôt que de lister N fois la même probabilité, on peut dire qu'elle obéit à la loi equirépartie en donnant le nombre 1 d'issues. Cela suffit car le lecteur peut retrouver la probabilité de chaque issue ( N ) Exemple avec le Loto : Il y a 49 boules identiques numérotées. Le tirage de la première boule est donc une expérience équiprobable. On en déduit que la probabilité que la première boule soit un 13 est v.dujardin v2.1 1 49 . 6 4 Notion d'événement 4.1 Définition et probabilité d'un événement Définition 5: événement Un événement est une partie de l'univers : c'est un ensemble d'issues de l'expérience. Univers du jet de dé six faces Evénement « faire un nombre pair » Exemple avec un dé six faces : L'événement {2;4 ;6} comporte 3 issues. On peut le décrire en français : » faire un nombre pair ». Méthode 5 : on donne souvent un nom à un événement pour faciliter la rédaction. Définition 6: probabilité d'un événement La probabilité d'un événement A est la somme des probabilités des issues qui le réalisent. On la note p ( A ) . Exemple avec le dé six faces : on cherche la probabilité d'avoir un multiple de trois. Raisonnement possible : 1 Sur le dé, les multiples de trois sont 3 et 6. La probabilité de chaque face est 6 car le 1 1 2 1 dé est équilibré. La probabilité d'avoir un mutliple de trois est donc 6 + 6 = 6 = 3 Rédaction : On nomme M3 l'événement « le dé donne un multiple de 3 ». M3={3;6} 1 1 1 L'expérience obéit à la loi équirépartie, donc p ( M3 )= 6 + 6 = 3 4.2 Dénombrement en situation d'équiprobabilité Propriété 3 Pour un événement A défini sur un univers E, si l'expérience est p ( A)= équiprobable alors Nombre d ' issues qui réalisent A Nombre d ' issues dans E 1 1 1 Preuve : d'après la définition 3 et P2 on a bien p ( A )= N + N + …+ N autant de fois qu'il y a d'issues réalisant A. Méthode 6 : le calcul des probabilités en situation d'équiprobabilité consiste donc en un dénombrement;il s'agit de compter les issues possibles, puis celles réalisant A. Exemple avec le loto : On nomme I l'événement « la première boule est impaire ». Il y a 24 boules paires et 25 impaires, donc 49 au total. 25 L'expérience étant équiprobable, on a p ( I )= 49 v.dujardin v2.1 7 5 Union et intersection d'événements • X ∈ A ∪B se dit « X appartient à A union B » et signifie X ∈A OU X ∈B (à l'un, à l'autre, ou aux deux) • X ∈ A ∩B se dit « X appartient à A inter B » et signifie X ∈A ET X ∈B (les deux à la fois) Propriété 4 : une formule capitale sur probabilité de la réunion et de l'intersection Pour tout événements A et B sur un univers E : p A ∪B = p A p B − p A ∩B Preuve : En faisant p ( A )+p ( B ) , on compterait deux fois la probabilité des issues de A ∩ B. Il faut donc retrancher cette probabilité pour compter une seule fois toutes les issues de l'union de A et de B. Exemple : Dans un groupe de 12 personnes, 5 aiment le riz, 9 aiment les nouilles et 3 personnes aiment les deux. En choisissant au hasard une personne du groupe, quelle est la probabilité qu'elle aime au moins un des deux aliments ? Rédaction : On nomme R l'événement « aime le riz » et N l'événement « aime les nouilles ». Illustration en diagramme L'expérience étant équiprobable, d'après l'énoncé, on a : p ( R )= 125 , p ( N )= 129 et p ( R∩N )= 123 L'événement « aime au moins l'un des deux aliments» est N∪R . 3 p ( N∪R )=p (N )+ p ( R )− p ( R∩N )= 125 + 129 − 12 = 11 12 La réponse est donc 11 12 . 6 Calculs de probabilités avec la notion d'ensemble 6.1 Définition de quelques événements particuliers • Les événements élémentaires sont les issues de l'expérience. • L'événement certain est l'univers lui même. On a p (E )=1 • L'événement impossible est l'ensemble v.dujardin v2.1 vide ∅ . On a P (∅ )=0 8 6.2 Evénement contraire Définition 7: événement contraire L'événement contraire d'un événement A est l'ensemble des issues qui ne sont pas dans A. On le note A . Conséquence : A∪A=E et A∩A=∅ Propriété 5: probabilité de l'événement contraire Pour tout événement A sur un univers E : p A =1 − p A Preuve : On applique P4 avec p ( A∪ A )= p ( E)=1 et p ( A∩ A )= p ( ∅ )=0 . On obtient : 1=P ( A )+P ( A )−0 ce qui donne la formule de la propriété. Propriété 6: Pour tous événements A et B sur un univers E, p ( A∩B ) + p ( A∩B )=p ( A ) Preuve : On applique P4 en remarquant que ( A∩B )∪( A∩B )=A . 6.3 Evénements incompatibles Définition 8: incompatibilité Deux événements A et B sont incompatibles lorsque A∩B =∅ Autrement dit : aucune issue de l'expérience ne réalise à la fois A et B. Remarque : A et A sont incompatibles par définition. 6.4 Partition de l'univers Définition 9 : partition Lorsque la réunion d'événements incompatibles forme l'univers entier, on dit qu'ils forment une partition (ici A, B, C, D et E) Méthode 7 : dans une partition, la propriété 4 permet de calculer facilement des probabilités d'unions car la probabilité des intersections est nulle (intersections vides). Il suffit donc d'ajouter les probabilités des éléments concernés de la réunion. Exemple typique : le tableau double entrées avec des fréquences ou des probabilités. Dans une population de 150 élèves, certains on choisi une option (une seule), d'autres non selon la répartition dans le tableau ci-contre. En choisissant au hasard un élève, quelle est la probabilité qu'il ait une option ? Rédaction : Pour les événements du tableau, on assimile les fréquences aux probabilités. O est l'événement «a une option». O est donc l'union de T∩G , T∩F , A∩G et A∩F . Ces quatre événements forment une partition des élèves, donc : 30 21 24 25 p (O )=p ( T∩G )+ p ( T∩F )+ p ( A∩G )+ p ( A∩F )= 150 + 150 + 150 + 150 = 100 = 23 150 v.dujardin v2.1 9 Chapitre 3 : Fluctuations sur les échantillons 1 Notion de répétition d'expériences indépendantes Définition intuivite On dit de la répétition d'une expérience aléatoire qu'elle est indépendante si le résultat de chaque expérience ne dépend pas des précédentes. Exemples de répétitions indépendantes : Exemples de répétition pas indépendantes : 10 lancers d'un même dé n jets d'une pièce (pile ou face) Tirage des 6 boules du loto. Tirage de n cartes d'un même jeu. Remarque : lorsque l'on tire au sort peu d'individus dans une grande population, on peut considérer que chaque tirage est indépendant des autres. Exemple : tirer au sort 1000 personnes différentes dans la population française peut être considéré comme indépendant. 2 Algorithmes de simulation 2.1 L'essentiel pour simuler une expérience à la calculatrice Préparation à la main : saisir les issues x i dans L1 . Algorithme typique (Sortie : effectifs dans L2 et fréquences dans L3 ) • Demander la taille de l'échantillon → N (saisie par l'utilisateur) • Effacer et dimensionner la liste L2 (pour les effectifs) • Pour i allant de 1 à N (boucle qui répète l'expérience) • Résultat de l'expérience ( x i ) → D (avec Ran#, EntAléa()...) • L2 ( D )+1 →L2 ( D ) (effectif nD augmenté de 1) • Fin Pour (fin de la boucle) • L2 ÷N →L3 (calcul des fréquences) 2.2 Trois fonctions essentielles pour simuler sur tableur • ALEA.ENTRE.BORNE(min;max) Donne un nombre aléatoire entier entre min et max • NB.SI(plage;critère) Compte les cellules de la plage qui répondent au critère (typiquement pour calculer un effectif). exemple : NB.SI(A2 :A52;3) compte le nombre de 3 dans la zone A2:A52. • NBVAL() Compte les cellules non vides de la plage, typiquement pour calculer un effectif total et l'utiliser dans le calcul des fréquences. v.dujardin v2.1 10 3 Notion de fluctuation 3.1 Un principe intuitif Le terme fluctuation désigne une évidence : les résultats obtenus en répétant une même expérience aléatoire se ressemblent, mais varient à chaque fois. En termes mathématiques, à chaque répétition n fois d'une même expérience : • la fréquence (fi) de chaque issue fluctue autour de la probabilité théorique (pi), • plus n est grand, plus l'écart entre les fi et les pi sera « normalement» faible. 3.2 Fluctuation « normale » Avec un niveau post-bac de mathématique, on peut estimer avec un très bon degrés de certitude (95%) les fluctuations « normales » dans certaines conditions sur p et n. L'étude est complexe, mais le résultat est une propriété très simple : Si... alors... • La probabilité p est entre 0,2 et 0,8 • n est plus grand que 25 • La fluctuation est normale on peut être sûr à 95% que fi sera entre 1 1 p i− et p i+ √n √n 4 Applications du modèle « normal » de fluctuation Dans cette partie, on considère avoir répété n fois une même expérience aléatoire de manière indépendante, avec n⩾25 . On connaît donc la fréquence f de chaque issue sur l'échantillon de taille n obtenu. 4.1 Intervalle de fluctuation pour valider une loi de probabilité Méthode 8 : Lorsque l'on pense connaître la probabilité d'une issue p (avec p entre 0,2 et 0,8), en considérant que la fluctuation a été normale, on peut avec 95% de certitude dire que f doit être dans l'intervalle de fluctuation : [ If = p− 1 1 ; p+ √n √n ] Exemple 1 : une pièce a été lancée 50 fois. Elle a donné 30 piles (P) et 20 faces (F). Bob vous dit que ces résultats montrent que la pièce est truquée. Qu'en pensez-vous ? Rédaction : La probabilité de faire pile est p=0,5 . Sur n=50 lancers, on peut estimer l'intervalle de fluctuation : 1 1 If=[ 0,5− √50 ; 0,5+ √ 50 ] ≈ [0,36;0,64]. 30 La fréquence des « piles » est f = 50 =0,6= 60%, donc dans l'intervalle de fluctuation If. L'argument de Bob n'est pas valable : l'écart peut être considéré comme « normal ». v.dujardin v2.1 11 Important : les 95% de certitude et l'aspect aléatoire de l'expérience interdisent d'affirmer que Bob a tort. Son argument n'est pas solide, mais il a peut-être malgré tout raison... Exemple 2 : une pièce a été lancée 500 fois. Elle a donné 180 piles et 120 faces. Charly vous dit que ces résultats montrent que la pièce est truquée. Qu'en pensez-vous ? 180 300 (...même rédaction que l'exemple 1...) : La fréquence de piles est f = 1 = 0,6 1 L'intervalle de fluctuation est : If=[ 0,5− √ 500 ; 0,5+ √ 500 ] ≈ [0,45;0,55] f ∉If , donc Charly a très probablement raison : il y a quelques chose d'anormal à trouver (mais on ne peut pas non plus en être certain). Remarque : la seule différence entre les deux exemples est le nombre n de tirages dans l'échantillon. Le déséquilibre entre 60% de pile et 40% de face peut être « normal » sur 50 lancers, mais probablement « anormal » sur 500 lancers. 4.2 Estimation d'une proportion à partir de l'échantillon Méthode 9 : lorsque l'on connaît la fréquence f d'un événement sur un échantillon, on peut donner un intervalle dans lequel la proportion dans la population totale se situe avec 95% de certitude. [ On parle d'intervalle de confiance de l'estimation : Ic= f − 1 1 ; f+ √n √n ] Exemple : un sondage d'opinion sur 100 personnes donne 35 personnes satisfaites. Dom affirme donc que 35% de la population totale est satisfaite. Qu'en pensez-vous ? Rédaction : 1 1 L'intervalle de confiance est Ic=[ 0,35− √ 100 ; 0,35+ √100 ] = [0,25;0,45]. On peut donc corriger Dom : on peut être sûr à 95% qu'entre 25% et 45% de la population est satisfaite. On ne peut pas être aussi affirmatif et précis que lui. Justification de la méthode : Dans une grande population si l'on tire au hasard n individus ( n⩾25 ), on peut considérer qu'il s'agit d'une répétition de la même expérience indépendante. La probabilité d'un événement est égale à la proportion d'individus qui correspond, que l'on peut noter p. Avec une fluctuation « normale », on peut dire que : p− √1n ⩽ f , et donc p⩽ f + √1n , puis que f ⩽ p+ √1n et donc f − √1n ⩽ p , avec 95% de certitude. Il faudrait ensuite vérifier que p est bien compris entre 0,2 et 0,8 avant de conclure. Important : l'intervalle de confiance ne dépend pas de la taille de la population, mais de la taille de l'échantillon. v.dujardin v2.1 12