Statistique et probabilités En classe de seconde échantillon : liste de résultats de n expériences identiques et indépendantes. distribution des fréquences associée à un échantillon : liste des fréquences des différentes issues de cette expérience. fluctuation d’échantillonnage : les distributions des fréquences varient d’un échantillon à l’autre d’une même expérience. L’ampleur des fluctuations des distributions de fréquences calculées sur des échantillons de taille n diminue lorsque n augmente. Simulation Simuler une expérience, c’est choisir un modèle de cette expérience puis simuler ce modèle, pour produire une liste de résultats assimilable à un échantillon de cette expérience. La simulation permet de disposer d’échantillons de grande taille et d’observer des phénomènes appelant une explication dans le champ des mathématiques. En 1ère L : enseignement obligatoire au choix Expérience aléatoire Eventualités Evénements Loi de probabilité Probabilité d’un événement, de l’événement contraire. P(AB) + P(AB) = P(A) + P(B) Equiprobabilité La simulation de l’expérience et le phénomène de stabilisation des fréquences observées lorsque le nombre d’épreuves augmente, permet de postuler l’existence d’un modèle probabiliste, caractérisé par une loi de probabilité. Enoncé vulgarisé de la loi des grands nombres Pour une expérience aléatoire donnée, dans le modèle défini par une loi de probabilité P, les distributions de fréquences obtenues sur des séries de taille n sont très proches de P quand n est grand. En Terminale L : enseignement de spécialité Probabilités Arbres pondérés Conditionnement par un événement de probabilité non nulle Indépendance de deux événements Formule des probabilités totales Epreuve de Bernoulli et loi binomiale Tableaux et arbres Différentes représentations pour un même ensemble Une enquête de marketing portant sur le choix entre deux abonnements A et B lors de l’achat d’un téléphone portable et le statut de l’acheteur (salarié ou non salarié) a conduit au recueil des données de 9321 nouveaux acheteurs, consignées dans le tableau suivant: Effectifs A B Salarié 4 956 1 835 Non salarié 1 862 668 Effectifs A B Total Salarié 4 956 1 835 6 791 Non salarié 1 862 668 2 530 Total 6 818 2 503 9 321 4 956 6 818 2 503 S A 1 862 B 1 835 668 NS S NS 4 956 A S 6 791 2 530 1 835 NS 1 862 668 B A B Chaque représentation (tableau ou arbre) contient toute l’information et permet de reconstituer n’importe laquelle des autres Fréquences des événements Fréquences A B Total Salarié 0,531 0,197 0,728 Non salarié 0,20 0,072 0,272 Total 0,731 0,269 1 Notations : f (A)= 0,728 f (S) = 0,272 f (A et S) = 0,531 etc…… Fréquences conditionnelles A B Total Salarié 0,727 0,733 0,728 Non salarié 0,273 0,267 0,272 Total 1 1 1 Notations : f A (S) = 0,727 f A (NS) = 0,273 etc…… Fréquences conditionnelles A B Total Salarié 0,729 0,281 1 Non salarié 0,736 0,264 1 Total 0,731 0,269 1 Notations : f S (A ) = 0,729 f NS (A ) = 0,736 etc…… Comment reconstituer un tableau de fréquences à partir d’un autre ? f A et S f A S f A f A et S f A f A S f S f A et S f B et S f (A ) fA(S ) =f (AS ) fA(S) S f (A) fA(NS) NS f (B) fB(S) S A B fB(NS) NS S f (S ) f (NS) fS(A) fS(B) NS fNS(A) fNS(B) A B A B f (S) fS (A) =f (AS) Définition : PA S Lorsque P A 0 , PA S P A P A S PA S P A Arbre pondéré PA(S) S P (A ) PA (S ) =P (AS ) A P(A) P(B) PA(NS) NS PB(S) S B PB(NS) NS Indépendance de deux événements Dans l’exemple étudié, fA (S) = 0,726 f (S) = 0,728 f A (S) f (S) Existence d’un lien de causalité ? Dans une urne il y a des pièces indiscernables au toucher, de 1 ou 2 euros (E1 ou E2), 30 sont françaises, 70 non françaises (F ou NF). Il y a 60 pièces de 1 euro, dont k sont françaises, et 40 pièces de 2 euros, dont 30 – k sont françaises. On choisit une pièce au hasard. Est-il possible que le fait de savoir que la pièce extraite est une pièce de 1 euro, ne modifie pas la probabilité que la pièce extraite soit française ? E1 E2 Total F k 30 − k 30 NF 60 − k 10 + k 70 Total 60 40 100 E1 0,6 0,4 E2 k 60 F k 160 NF 30 k 40 10 k 40 F NF Est - il possible que soit vérifiée la relation PE1 F P F ? k 30 PE1 F P F si et seulement si 60 100 k 30 et si et seulement si k 18 60 100 Lorsque k = 18, savoir qu’il s’agit d’une pièce de 1 euro ne modifie pas la probabilité qu’elle soit française. Evénements indépendants PE1 F P F ou P F E 1 P F P E 1 La notion d’indépendance entre deux événements est une propriété numérique à l’intérieur du modèle probabiliste. Dans l’exemple précédent, supposons que le nombre total de pièces soit K. n1 : nombre de pièces de 1 euro, nF : nombre de pièces françaises nF,1 : nombre de pièces françaises de 1 euro nF ,1 nF PE1 F P F n1 K c' est - à - dire : K nF ,1 nF n1 Lorsque K est un nombre premier, (par exemple K = 101 au lieu de K = 100) si K nF,1 =nF n1, alors soit nF = K (toutes les pièces sont françaises) soit n1 = K (toutes les pièces sont de 1 euro) Si nF = K E1 F nF,1 NF 0 Total nF,1 E2 K nF,1 0 K nF,1 PE1 F P F Total K 0 K Si n1 = K E1 E2 Total F n F,1 0 n F,1 NF K n F,1 0 Total K 0 PE1 F P F K n F,1 K Statistique Adéquation d’une série de données à une loi équirépartie En 1ère L L’équiprobabilité : une hypothèse parmi d’autres pour proposer un modèle Modèles issus d’une observation expérimentale Objectif: sensibiliser les élèves au problème de la validation d’un modèle Exemple : lancé d’un dé à 6 faces. Les résultats obtenus dans des conditions normales d’utilisation de ce dé sont-ils compatibles avec le modèle d’équiprobabilité sur l’ensemble {1, 2, 3, 4, 5, 6} ? On lance n fois de suite ce dé. On dispose d’un échantillon de taille n de cette épreuve aléatoire. Cet échantillon peut-il être considéré comme un échantillon de taille n de la loi équirépartie sur l’ensemble {1, 2, 3, 4, 5, 6} ? Critère de compatibilité entre une distribution de fréquences et la loi équirépartie. Distance entre une distribution de fréquences {f1, f2, .., f6} et la loi équirépartie sur {1, 2, .., 6} 2 2 1 1 1 d f1 f2 .... f6 6 6 6 2 2 Les données seront considérées comme incompatibles avec la loi équirépartie si d obs2 est supérieur à une valeur seuil à définir. d 2 est soumise à la fluctuation d’échantillonnage On simule N échantillons de n tirages équiprobables dans {1, 2, 3, 4, 5, 6}. Série de N valeurs de d 2 dans le modèle équiréparti. Le 9ème décile de cette série, noté D9 : la plus petite valeur de la série telle que au moins 90% des valeurs soient dans l’intervalle [0; D9] Prendre D9 comme seuil de compatibilité c’est adopter la règle de décision : si dobs2 > D9 : refuser l’hypothèse d’équiprobabilité si dobs2 D9 : ne pas refuser l’hypothèse d’équiprobabilité En fait, la seule décision qu’on puisse prendre c’est de refuser l’hypothèse d’équiprobabilité. Ne pas la refuser ne revient pas à la valider. Le risque d’erreur vient de ce que dobs2 peut être supérieur à D9 même si le dé est équilibré. (fluctuation d’échantillonnage) Les données simulées qui aboutissent à ce seuil de décision indiquent que cette situation se produit dans 10% des échantillons d’une loi équirépartie. la marge d’erreur est 10%. Prendre le 19ème vingtile, noté V19 (la plus petite valeur de la série telle que au moins 95% des valeurs soient dans l’intervalle [0; V19]) comme seuil décisionnel conduit au risque d’erreur de 5%. Prendre le 99ème centile comme seuil décisionnel conduit au risque d’erreur de 1%. Abaisser le seuil de risque revient à relever le seuil entre petites et grandes valeurs de d² . On peut être amené à refuser l’hypothèse d’équiprobabilité au seuil de 10% et à ne pas la refuser au seuil de 5% ou de 1%. Expérience 1 2 3 4 5 6 0,215 0,155 0,207 0,115 0,17 0,13 dobs 0,0081 2 0 0,002 0,004 0,006 0,008 0,01 0,012 0,014 0,016 0,018 D9 dobs 0,0081 2 V19 0,02 D9 dobs V19 2 Dans ce cas, au vu des résultats expérimentaux, et en appliquant la règle décisionnelle choisie : au seuil de risque de 10% , l’hypothèse d’équiprobabilité doit être refusée; au seuil de risque de 5%, on peut la maintenir. Elle n’est pas, pour autant, validée. Formule des probabilités totales P A P A S P A S Lorsque PS 0 et PS 0 , P A PS A PS PS A PS Fréquences conditionnelles A B Total Salarié 0,727 0,733 0,728 Non salarié 0,273 0,267 0,272 Total 1 1 1 f (A) = x f (A et S) = y f (B) = 1- x f (B et S) = 0,728 - y y=x0,727 et 0,728 – y = (1-x)0,733