Département de Mathématiques et Histoire des Sciences UFR MITSIC Université Paris 8 Licence de Mathématiques et Licence Informatique Semestre 3 INTRODUCTION AUX PROBABILITÉS Benoît MARIOU — Automne 2015 séances adresse page Livres vendredi de 12h (ou 11h30) à 14h30 (ou 14h) du 25 septembre au 18 décembre : : [email protected] http://ufr6.univ-paris8.fr/Math/sitemaths2/spip/spip.php?rubrique73 — A First Course in Probability de S. Ross (très complet) — Une introduction aux probabilités de R. Isaac & R. Mansuy (intuitif) Beaucoup d’autres ouvrages convenables se trouvent à la bibliothèque. Sommaire 1 2 3 4 Introduction Premières notions Combiner les événements - Dénombrer Probabilités conditionnelles - Indépendance Formule des probabilités totales - Formule de Bayes 2 4 8 16 22 5 6 7 8 Variables aléatoires Variables aléatoires indépendantes Espérance et variance Inégalités de Markov et de Chebishev - Loi faible des grands nombres 26 32 35 43 version du 19 décembre 2015 2 Introduction INTRODUCTION Les origines de la mathématisation du probable remontent au 17ème siècle lorsque se fait sentir le besoin d’une aide à la prise de décision en situation d’incertitude, dans deux domaines distincts : - les jeux de hasards, qui donnent lieu à des discussions théoriques entre mathématiciens ; - les assurances, avec des questions pratiques sur les risques d’événements rares (accidents, catastrophes, . . .). L’objet de la théorie des probabilités est donc d’étudier des phénomènes incertains, indéterminés, aléatoires, i.e. , selon le dictionnaire « qui ne sont pas connaissables avec précision, pas prévisibles, dont le résultat n’est pas acquis d’avance ». Voyons deux exemples. Exemple 1 – Les anniversaires. Dans un échantillon de n personnes, quelle est la probabilité que deux personnes, au moins, aient leur anniversaire le même jour ? ? Que signifie la question, que recherchons-nous, qu’est-ce qu’une probabilité ? On s’attend généralement à une réponse du type « 2 chances sur 5 » ou à un pourcentage. Donc à un nombre entre 0 et 1. Et plus ce nombre est grand, plus l’événement considéré (ici, deux anniversaires le même jour) est probable. ? Pour un échantilon fixé de n personnes dont on connaît les dates de naissance, il n’y a plus d’incertitude : ou bien il y a deux anniversaires identiques (oui à 100%), ou bien il n’y a pas deux anniversaires identiques (non à 100% et oui à 0%) ? La question peut être interprétée en termes mathématiques si on la précise. 1. Parmi tous les échantillons de n personnes, quelle proportion comporte des anniversaires identiques ? On confond alors la probabilité de l’événement avec la fréquence, statistique, de sa réalisation. 2. Parmi toutes les listes de n dates de l’année, quelle proportion comporte au moins une répétition ? Il s’agit d’une approche plus abstraite, qui permet des calculs, mais qui suppose implicitement que les humains naissent uniformément tout au long de l’année. L’important, pour l’instant, est que la question de la probabilité a son sens lorsque la situation est quelconque, i.e. générale. Tandis que dans le cas d’un échantillon fixé, il s’agit d’une situation particulière. Exemple 2 – Lancer d’un dé. On suppose que le dé est équilibré ou non truqué, i.e. toutes les faces ont la même probabilité, la même "chance", de sortir. 1. Question posée avant le lancer : Quelle est la probabilité d’obtenir 2 ? 2. On lance le dé mais on cache le résultat, par exemple avec un gobelet. Question :Quelle est la probabilité d’obtenir 2 ? 3. On lance le dé et on regarde le résultat. Question :Quelle est la probabilité d’obtenir 2 ? Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 3 ? Dans le dernier cas, il n’y a pas d’incertitude. Imaginons que nous faisons des paris. Si les paris se font après avoir vu le résultat, on est sûr de gagner car on ne pariera que lorsqu’on constatera que le résultat est favorable. ? Dans les deux premiers cas, il y a incertitude. Et s’il s’agit de parier, ce qui déterminera qu’on mise ou pas, sera le montant de la mise, le montant du gain et la chance estimée de gagner. Conclusions → Penser la probabilité : penser à toutes les situations analogues, à tous les résultats possibles. → Démarche probabiliste : chaque situation est envisagée comme un cas particulier dans un ensemble de situations du même type. → Calcul des probabilités : analyse rigoureuse, structurée, quantitative, de ces situations d’incertitude. version du 19 décembre 2015 4 Premières notions 1 1 PREMIÈRES NOTIONS Expérience aléatoire. 1.1 Exemples basiques. – Jeux dits de hasard. ? Lancer un dé à 6 faces. Il y a 6 scores possibles : 1, 2, 3, 4, 5 et 6. Dire que le dé est équilibré, c’est exactement dire que tous les résultats ont la même probabilité de sortir. Cette probabilité est de 16 . ? Lancer une pièce. Il y a deux résultats possibles : Pile et Face. Comme pour le dé, la pièce est dite équilibrée lorsque les deux résultats ont la même probabilité de sortie. Cette probabilité est alors 21 . ? Tirer une carte parmi 52 : 52 cartes possibles, chacune a une probabilité d’être choisie de à la condition que les cartes ne soient pas truquées. 1 , 52 toujours 1.2 Définition. – Une expérience aléatoire est un phénomène pour lequel on ne connaît pas de façon sûre le résultat qu’on va observer, mais pour lequel on connaît l’ensemble de tous les résultats possibles. Exemples. Le lancer d’un dé, d’une pièce - équilibrés ou pas -, ou le tirage d’une carte, sont des expériences aléatoires. Ainsi que le lancer de deux dés, le tirage de 5 cartes, etc. 1.3 Définition. – À chacun des résultats possibles d’une expérience aléatoire est associé un nombre, réel, compris entre 0 et 1, sa probabilité. Exemple. La probabilité d’obtenir pile en lançant une pièce équilibrée est p(pile) = 21 . 1.4 Remarque. – La somme des probabilités de tous les résultats possibles est toujours 1. Exemple. p(pile) + p(f ace) = 1. 1.5 Remarque. – Dans les exemples ci-dessus, tous les résultats possibles ont la même probabilité. Mais ce n’est pas toujours le cas. Exemple. Consdérons une pièce truquée de telle sorte qu’on a deux fois plus de chances d’obternir pile que face. On a p(pile) = 2 3 et p(f ace) = 31 . 1.6 Définitions. – L’ensemble des résultats possibles d’une expérience aléatoire est appelé l’en- semble fondamental de l’expérience, souvent noté Ω. P L’application p : Ω → [0; 1] telle que p(ω) = 1 est une loi de probabilité sur Ω. ω∈Ω Autrement dit, si Ω = {ω1 ; . . . ; ωn }, on a p(ω1 ) + · · · + p(ωn ) = 1. Exemple. Dans le cas du lancer de la pièce, on a Ω = {pile; f ace}. Et si la pièce est truquée comme dans l’exemple ci-dessus, on a p : pile 7→ 23 , f ace 7→ 31 . Mais on peut aussi avoir, si la pièce est équilibrée p= : pile 7→ 21 , f ace 7→ De manière générale, sur cet ensemble fondamental à deux éléments, la loi de probabilité est du type : pile f ace 7→ 7 → a 1−a 1 2 . où 0 6 a 6 1 1.7 Remarques. – Interprétation de la loi de probabilité. Plus la probabilité d’un résultat, i.e. la valeur réelle entre 0 et 1 qui lui est associée par la fonction p, est élevée, plus on a de chances que ce résultat se produise. – Associer un ensemble fondamental et une loi de probabilité à une expérience aléatoire, c’est modéliser l’expérience. Cela signifie qu’on représente les principales caractéristiques de l’expérience grâce à des objets mathématiques et qu’on espère que cette représentation permettra, grâce aux Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 5 manipulations sur ces objets, de mieux connaître les divers aspects de l’expérience. – Dans la première remarque ci-dessus “probabilité d’un résultat” désigne la probabilité modélisée, i.e. la valeur de l’application p pour ce résultat. Tandis que “plus on a de chances que” fait référence à la probabilité intuitive, expérimentale, celle qu’on essaie de modéliser. 1.8 Définition. – Le cas où tous les résultats possibles ont la même probabilité s’appelle situtation d’équiprobabilité. Cela signifie qu’aucun résultat n’est favorisé par rapport aux autres. La loi de probabilité, dans ce cas, est appelée loi uniforme. C’est le cas lorsqu’on choisit au hasard : choisir au hasard c’est sélectionner mais sans favoriser aucun des choix possibles par rapport aux autres. 1.9 Équiprobabilité avec n résultats possibles. – Supposons que Ω a n éléments ω1 , . . . , ωn et que tous ces éléments ont la même probabilité, qu’on nomme a. On a donc : n n P P P 1= p(ω) = p(ωi ) = a = na. Et donc la probabilité de chaque résultat est a = ω∈Ω i=1 i=1 1 n. Exemple. Lancer d’un dé à 6 faces non truqué. L’ensemble fondamental a 6 éléments, et on est en situation d’équiprobabilité puisque le dé est équilibré. Donc la probabilité de chacun des résultats possibles est 1 . 6 1.10 Remarque. – En situation d’équiprobabilité, les calculs sont simplifiés puisque les probabilités individuelles des différents résultats possibles sont les mêmes. Il est cependant nécessaire de bien préciser les raisons pour lesquelles on est sûr d’être en situtation d’équiprobabilité (voir exemple ci-dessus). 2 Événements. 1.11 Exemple. – On lance un dé non truqué. Quelle est la probabilité d’obtenir au moins 5 ? “Obtenir au moins 5” est un événement qui se réalise lorsque le résultat est 5 ou 6. L’événement peut donc être décrit par une propriété démandée pour le résultat (ici, être supérieur à 5) ou encore par la liste des résultats possibles qui le réalisent, i.e. qui ont cette propriété (ici, 5 et 6). 1.12 Définition. – Autrement dit, un événement est sous-ensemble de Ω. On peut le décrire avec une propriété qui sélectionne ses éléments parmi tous ceux de Ω (compréhension) ou par la liste explicite de ses éléments (extension). 1.13 Exemples. – ? Lancer d’un dé. Événement E : “obtenir un score impair” = {ω ∈ Ω|ω impair}. Résultats le réalisant : 1, 3 et 5. Donc E = {1; 3; 5}. ? Choix d’une carte parmi 52. E =“obtenir un as ou un ♠” = {ω ∈ Ω|ω est un as ou un ♠}. Résultats qui réalisent E : tous les ♠ (13 cartes dont l’as) et tous les as (4 cartes dont celui de ♠). ? Singleton. Si ω ∈ Ω est un résultat possible, alors {ω} est un événement ; c’est l’événement qui est réalisé ssi le résultat est ω. 1.14 Probabilité d’un événement. – C’est la somme des probabilités de ses éléments. Autrement dit : pour E ⊂ Ω, p(E) = P p(ω). ω∈E 1.15 Exemples. – ? Lancer d’un dé (suite). O l na p(“obtenir au moins 5”) = p({5; 6}) = p(5) + p(6) p(“obtenir un score impair”) = p({1; 3; 5}) = p(1) + p(3) + p(5). Si le dé est équilibrée (équiprobabilité), on peut évaluer ces deux probabilités. Elles valent, respectivement, 1/6 + 1/6 = 1/3 et 1/6 × 3 = 1/2. version du 19 décembre 2015 6 Premières notions ? Tirage d’une carte (suite). p(“obtenir un as ou un ♠”) = p({A♠; R♠; . . . ; 2♠; A♣; A♦; A♥}) = p(A♠) + p(R♠) + · · · + p(2♠) + p(A♣) + p(A♦) + p(A♥). Si les cartes ne sont pas truquées (équiprobabilité), cette probabilité vaut 1/52 × 16 = 4/13. ? Singleton. Pour ω ∈ Ω, la probabilité p({ω}) de l’événement {ω} est simplement p(ω). Ceci explique que l’on assimile fréquemment le singleton/événement {ω} et l’élément/résultat ω. 1.16 Événement impossible et événement certain. – L’ensemble vide et l’ensemble Ω sont des sous- ensembles de Ω, donc ce sont des événements. ∅ est l’événement impossible : il est impossible que le résultat de l’expérience soit dans ∅. Ω est l’événement certain : il est certain que les résultat de l’expérience est dans Ω. D’après la définition 1.14, leurs probabilités respectives sont : P P p(∅) = p(ω) = 0 (somme de 0 élément) et p(Ω) = p(ω) = 1 (car p est une loi de probabilité, voir 1.6) ω∈Ω ω∈∅ Attention. D’autres événements peuvent avoir une probabilité égale à 0 ou à 1. Considérons par exemple un ensemble Ω = {ω0 ; ω1 } et l’application p : Ω → [0; 1] définie par p(ω0 ) = 0 et p(ω1 ) = 1. Cette application est une loi de probabilité sur Ω. Et p({ω0 }) = 0 et p({ω1 }) = 1 et pourtant ces deux événements ne sont ni ∅, ni Ω tout entier. 1.17 Probabilité d’un événement en situation d’équiprobabilité. – Tout ω ∈ Ω a la même probabilité a ∈ [0; 1] que tous les autres. On a vu, en 1.9, que a = n1 où n = |Ω|. Soit E ⊂ Ω un événement. D’après 1.14, on a P P |E| p(E) = p(ω) = a = a + · · · + a = a × |E| = n1 × |E| = {z } | |Ω| ω∈E ω∈E |E| fois où |E| = nombre de résultats favorables et |Ω| = nombre de résultats possibles. 1.18 Théorème – Formule de Laplace. p(E) = En situation d’équiprobabilité (finie) nombre de cas favorables à E nombre total de cas . 1.19 Remarques. – La formule de Laplace correspond à une conception dite classique des probabili- tés, à la fois conforme à l’intuition et répandue, du moins dans le domaine des jeux. La probabilité est ici une estimation calculée du favorable par rapport au général. – Selon une autre approche, dite orthodoxe, la probabilité est la fréquence de réussite lorsqu’on répète l’expérience un grand nombre de fois. Exemple. On regarde un registre d’état civil et on constate la fréquence de naissance des garçons. On interprète ensuite cette statistique comme la probabilité que la prochaine naissance soit un garçon. – Une autre approche, dite subjectiviste, la probabilité est assimilée au degré de croyance d’un observateur. Exemple. La cote des chevaux avant une course. 1.20 Exemple. – Lancer de deux équilibrés. Ensemble fondamental ? On peut considérer que les deux dés sont de couleurs différentes. L’ordre n’est donc pas à négliger : obtenir 1 sur le premier dé et 3 sur le second est un résultat différent d’obtenir 3 et 1. Il est donc naturel de considérer Ω = {(a, b)|a, b entiers entre 1 et 6}. Loi de probabilité ? Les dés sont équilibrés : pour chaque dé, les 6 résultats ont la même probabilité (quel que soit le résultat de l’autre dé) et donc tous les couples de résultats ont la même probabilité. La loi est donc l’équiprobabilité. Soit l’événement E =“obtenir un double”= {(1, 1); (2, 2); . . . (6, 6)} = {(a, a)|a entier entre 1 et 6}. Grâce à l’équiprobabilité, on a p(E) = |E| |Ω| Quelles sont les sommes possibles ? = 6 36 = 16 . Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 (1, 6) (2, 5) (3, 4) (4, 3) (5, 2) (6, 1) (2, 6) (3, 5) (4, 4) (5, 3) (6, 2) (3, 6) (4, 5) (5, 4) (6, 3) (4, 6) (5, 5) (6, 4) (5, 6) (6, 5) (6, 6) 6 36 5 36 4 36 3 36 2 36 1 36 On aurait pu choisir Ω0 = {2; 3; 4; . . . ; 11; 12}, l’ensemble des sommes possibles et comme loi p0 : 2, 12 3, 11 4, 10 7 → 7→ 7 → .. . somme 2 3 4 5 6 tirages favorables (1, 1) (1, 2) (2, 1) (1, 3) (2, 2) (3, 1) (1, 4) (2, 3) (3, 2) (4, 1) (1, 5) (2, 4) (3, 3) (4, 2) (5, 1) probas 1 36 2 36 3 36 4 36 5 36 7 8 9 10 11 12 7 Mais : - la loi n’est plus l’équiprobabilité (calculs moins simples), - pour connaître p0 on a utilisé p, - on perd des informations sur le résultat si on choisit Ω0 . Malgré tout, le choix de Ω0 , p0 peut être efficace, selon les questions qu’on se pose. On est donc en présence de deux façons de modéliser la même expérience aléatoire, chacune des deux est légitime, on choisira d’utiliser l’une ou l’autre selon les informations dont on a besoin. 1 36 2 36 3 36 . version du 19 décembre 2015 8 Combiner les événements - Dénombrer COMBINER LES ÉVÉNEMENTS DÉNOMBRER 2 1 Combiner les événements. • Propriétés de base. 2.1 Contexte. – On considère une expérience aléatoire d’ensemble fondamental Ω. Un événement E est un sous-ensemble de Ω. Il peut être décrit par : - une condition C (point de vue probabiliste) ; - la liste de ses éléments : parmi les résultats possibles, ceux qui réalisent cet événement i.e. qui satisfont la condition C (point de vue ensembliste). Ainsi E = {ω ∈ Ω | ω satisfait C}. Et pour n’importe quel résultat possible ω (élément de Ω) : ω ∈ E ssi C(ω) est vérifiée. Et dans ce cas, on dit que ω réalise l’événement E. nom et notation ensemblistes appartenance interprétation probabiliste et condition de vérité ω∈E ω réalise E ω satisfait C Exemple. – Trois lancers successifs d’une pièce équilibrée. ? Un résultat possible est une suite de trois résultats de lancer, chacun égal à Pile ou à Face. On appelle x, y, z les résultats obtenus, dans l’ordre. Ainsi l’ensemble fondamental est Ω = {(x, y, z) | x, y, z sont dans {P ile; F ace}}. ? Événement E défini par la condition C : “obtenir au moins deux fois Pile”. En extension E = { ppp ; ppf ; pf p ; f pp }. Le résultat ppf (Pile, puis Pile, puis Face) réalise l’événement E. 2.2 Événements particuliers. – Rappel du point 1.16 page 6. nom et notation ensemblistes aucun élément tous les éléments interprétation probabiliste et condition de réalisation t ∅ Ω év impossible évt certain jamais réalisé toujours réalisé Exemple. – Trois lancers consécutifs d’une pièce équilibrée (suite). Ω = { ppp ; ppf ; pf p ; pf f ; f pp ; f pf ; f f p ; f f f }. 2.3 Opérations booléennes sur les événements. – Elles sont liées aux opérations ensemblistes/booléennes/logiques. Dans cette partie E et F sont deux événements. Une opération sur des événements donne naissance à un nouvel événement. La condition de sa réalisation est indiquée (4e colonne). nom et notation ensemblistes intersection union complémentation différence ensembliste interprétation probabiliste et condition de réalisation E∩F E∪F {Ω E ou E E\F E et F E ou F évt contraire de E E et pas F les deux sont réalisés au moins un des deux est réalisé E n’est pas réalisé E et F réalisés Exemple. – Trois lancers consécutifs d’une pièce équilibrée (suite). F = “obtenir Pile au premier lancer” = {pyz|y, z ∈ {P ile; F ace}2 } = { ppp ; ppf ; pf p ; pf f }. E ∩ F = “obtenir Pile au 1er lancer et au moins 2 Pile en tout” = { ppp ; ppf ; pf p }. E∪F = “ ou ” = { ppp ; ppf ; pf p ; pf f ; f pp }. Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 9 E = évt contraire de E, défini par la négation de la condition C = “obtenir au plus une fois Pile” = { pf f ; f pf ; f f p ; f f f }. E \ F = E ∩ F = “obtenir au moins deux fois Pile et pas Pile au 1er lancer” = { f pp }. 2.4 Relations (booléennes) entre les événements. – Ensemblistes et logiques. Une relation est une propriété concernant un ou plusieurs ensembles. Elle peut donc être vraie ou pas. La condition de vérité est indiquée (4e colonne). nom et notation ensemblistes disjoints inclusion E∩F =∅ E⊂F interprétation probabiliste et condition de vérité évts incompatibles E entraîne F E et F jamais réalisés ensemble dès que E est réalisé, F aussi Exemple. – Trois lancers consécutifs d’une pièce équilibrée (suite). Soit G = “obtenir exactement deux fois Face” = { pf f ; f pf ; f f p }. Cet événement est incompatible avec l’événement E : on a bien E ∩ G = ∅, ou encore, les conditions “au moins deux Pile” et “exactement deux Face” ne peuvent pas être réalisées ensemble. L’événement G entraîne l’événement E : on a bien G ⊂ E ou encore, si la condition “exactement deux Face” est réalisée alors aussi la condition “au plus un Pile” l’est aussi. • Autres propriétés ensemblistes à connaître. 2.5 Réunion disjointe. – Lorsque E ∩ F = ∅, on dit que la réunion est disjointe, et on la note . E∪ F ou E t F . Il s’agit toujours de l’opération de réunion mais on ajoute l’information que E et F n’ont pas d’élément commun, ce qui entraîne que dans la réunion, chaque élément provient uniquement de E ou uniquement de F . Exemple. – Dans l’exemple ci-dessus, la réunion de G et E est disjointe et pourra être notée G ∪ E ou G t E. En revanche, E et F ont des éléments communs. Leur réunion est une opération toujours autorisée mais on ne doit pas utiliser les notations ∪ , t pour la désigner car E et F n’ont pas la propriété requise. 2.6 Décomposition d’un ensemble sur un autre. – Deux sous-ensembles quelconques E et F d’un ensemble Ω déterminent, de façon générale, une partition de Ω en quatre sous-ensembles : G1 = E ∩ F = E \ F , G2 = E ∩ F , G3 = E ∩ F = F \ E, G4 = E ∩ F . On a alors : - E = G2 t G1 = (E ∩ F ) t (E ∩ F ) = {e ∈ E|e ∈ F } t {e ∈ E|e ∈ / F }, décomposition de E sur F ; - F = G2 t G3 = (F ∩ E) t (F ∩ E), décomposition de F sur E ; - et E ∪ F = G2 t G1 t G3 (le symbole t signale que les ensembles sont disjoints deux-à-deux). 2.7 Propriétés booléennes des opérations intersection, réunion, complémentation. – Distributivité : E ∩ (F ∪ G) = (E ∩ F ) ∪ (E ∩ G) . . . Lois de De Morgan : E ∩ F = E ∪ F . . . 2.8 Principe d’inclusion/exclusion (pour les ensembles finis). – Ce sont des formules établissant une relation entre le cardinal d’une réunion et les cardinaux des ensembles et de leurs intersections. Les ensembles sont finis, |X| désigne le cardinal de X. Dimension 2 : |E ∪ F | = |E| + |F | − |E ∩ F | Idée : on compte les éléments de E + ceux de F , mais alors ceux de E ∩ F ont été comptés deux fois. Dans le cas où E ∩ F = ∅, on retrouve la formule la plus simple possible. Dimension 3 : |E ∪ F ∪ G| = |E| + |F | + |G| − |E ∩ F | − |F ∩ G| − |G ∩ E| + |E ∩ F ∩ G| Dimension 4 . . . • Applications au calcul des probabilités. Dans toute cette partie, les événements E et F sont des sous-ensembles finis de l’ensemble fonda- version du 19 décembre 2015 10 Combiner les événements - Dénombrer mental Ω, qui est muni d’une loi de probabilité p. Toutes les propriétés de cette partie sont aussi vraies pour des événements infinis. Mais les démonstrations fournies ici ne sont valables que pour le cas fini. 2.9 Union disjointe. – Si E et F sont incompatibles (E ∩ F = ∅) : P p(E ∪ F ) = p(ω) = ω∈E∪F P p(ω) + ω∈E P p(ω) ω∈F car E ∩ F = ∅ et aucun élément de E ∪ F n’est donc compté deux fois : si ω ∈ E ∩ F alors p(ω) contribue seulement à p(E) ou seulement à p(F ). = p(E) + p(F ). Propriété 1 Si E et F sont des événements incompatibles alors p(E ∪ F ) = p(E) + p(F ). • Par récurrence, si E1 , . . . , Ek sont deux-à-deux incompatibles alors p(E1 ∪ · · · ∪ Ek ) = p(E1 ) + · · · + p(Ek ). • Pas vrai, en général, lorsque E ∩ F 6= ∅. Par exemple pour E = F = Ω fini, on a p(E ∪ F ) = p(Ω) = 1 et p(E) + p(F ) = 1 + 1 = 2. 2.10 Décomposition. – On a E = (E \ F ) t (E ∩ F ) donc, d’après la propriété précédente, p(E) = p(E \ F ) + p(E ∩ F ). Propriété 2 Pour tous événements E et F , p(E) = p(E \ F ) + p(E ∩ F ). 2.11 Inclusion. – Supposons que E ⊂ F . Alors d’après ce qu’on vient de voir : p(F ) = = > p(F \ E) + p(F ∩ E) p(F \ E) + p(E) p(E) car F ∩ E = E car p(F \ E) > 0. Propriété 3 Si E ⊂ F alors p(E) 6 p(F ). 2.12 Union. – Remarquons que E ∩ (F \ E) = ∅ et E ∪ (F \ E) = E ∪ F . On a donc p(E ∪ F ) = p(E t F \ E) = p(E) + p(F \ E) Or p(F ) = p(F \ E) + p(F ∩ E) propriété 1. propriété 2. Donc p(E) + p(F ) = p(E) + p(F \ E) + p(F ∩ E) = p(E ∪ F ) + p(F ∩ E). Propriété 4 Formule de Poincaré p(E ∪ F ) + p(E ∩ F ) = p(E) + p(F ). 2.13 Conséquences. – On applique à l’égalité précédente les remarques suivantes : p(E ∩ F ) > 0 d’où on déduit p(E) + p(F ) > p(E ∪ F ) p(E ∪ F ) 6 1 d’où on déduit p(E) + p(F ) 6 p(E ∩ F ) + 1. Propriétés 5 & 6 p(E ∪ F ) 6 p(E) + p(F ) p(E ∩ F ) > p(E) + p(F ) − 1 Inégalité de Benferroni. Ces deux inégalités sont toujours vraies. Mais la première est particulièrement intéressante lorsque p(E) et p(F ) sont petites (somme inférieure à 1, sinon la majoration est évidente). La seconde est particulièrement intéressante lorsque p(E) et p(F ) sont grandes (somme supérieure à 1, sinon la minoration est évidente). 2.14 Événements contraires. – On a E ∩ E = ∅ et E ∪ E = Ω (E et E forment une partition de Ω). Donc p(E ∪ E) = = p(E) + p(E) p(Ω) = 1 Propriété 7 p(E) = 1 − p(E). car incompatibles, propriété 1 Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 11 2.15 Exemple. – Répartition dans une population. Dans une assemblée, 28% des gens fument et 89% boivent de l’alcool. a) Quel est le pourcentage minimum de fumeurs-buveurs ? b) On découvre que 22% des gens sont fumeurs-buveurs. Quel est le pourcentage de gens qui fument ou qui boivent ? c) Quel est le pourcentage de gens qui ne fument pas et ne boivent pas ? d) Quel pourcentage boit mais ne fume pas ? – Quelle est l’expérience aléatoire ? en quoi est-ce un exercice de probabilités ? • Expérience aléatoire : choix au hasard d’une personne dans l’assemblée (personne n’est favorisé) Ω = {personnes présentes} est fini, et la loi de probabilité est l’équiprobabilité (loi uniforme). Pour tout événement E, on a donc, par la formule de Laplace : |E| (∗) p(E) = = proportion/pourcentage de gens dans l’assemblée qui sont dans E/qui réalisent E. |Ω| • On pose donc F =“choisir un fumeur” et B =“choisir un buveur d’alcool”. D’après les données et la remarque (∗), on a p(F ) = proportion de fumeurs = 0,28 et p(B) = proportion de buveurs = 0,89. ? De même, pourcentage (ou proportion) de fumeurs-buveurs = p(choisir un fumeur-buveur) = p(F ∩B). On doit donc, à la question a) , minorer p(F ∩ B). Pour cela, on applique l’inégalité de Benferroni : p(F ∩ B) > p(F ) + p(B) − 1 = 0, 17. Il y a donc au moins 17% de personnes qui fument et boivent. ? À la question b) , on dispose d’une information supplémentaire puisqu’on connaît la valeur de p(F ∩ B) qui est 0,22. On doit trouver la proportion de gens qui fument ou boivent i.e. d’éléments de Ω qui réalisent F ∪ B. On cherche donc p(F ∪ B) et on peut l’obtenir par la formule de Poincaré puisqu’on connaît les trois autres valeurs : p(F ∪ B) = p(F ) + p(B) − p(F ∩ B) = 0, 95. Donc 95% des personnes fument ou boivent. ? c) Les gens qui ne fument pas et ne boivent pas sont les éléments de Ω qui réalisent B et F i.e. B ∩ F . On cherche donc p(F ∩ B). On utilise une loi de De Morgan : F ∩ B = F ∪ B ; et la propriété 7 : p(F ∪ B) = 1 − p(F ∪ B) = 0, 05. Ainsi 5% des gens ne fument pas et ne boivent pas. ? d) On cherche la proportion de buveurs non fumeurs, i.e. p(B ∩ F ). Or, on connaît p(B) et p(B ∩ F ). Donc, on peut utiliser la propriété 2 : p(B) = p(B ∩ F ) + p(B ∩ F ). D’où p(B ∩ F ) = 0, 89 − 0, 22 = 0, 67. La réponse est donc 67%. ? On peut calculer p(F ∩ B) de la même façon : p(F ∩ B) = p(F ) − p(F ∩ B) = 0, 28 − 0, 22 = 0, 06. Donc 6% des personnes présentes fument mais ne boivent pas d’alcool. 2 Dénombrer. 2.16 Principe des choix successifs. – Soient p, n1 , . . . , np des entiers naturels. Imaginons que l’on doive choisir un objet parmi n1 , puis un objet parmi n2 , . . ., et enfin un objet parmi np . Il y a n1 × n2 × · · · × np façons d’effectuer ces p choix successifs. Théorème Si on doit choisir dans un ensemble à n1 éléments, puis dans un ensemble à n2 éléments, puis . . .puis dans un ensemble à np éléments, le nombre de choix possibles est n1 n2 . . . np . 2.17 Exemple. – Anniversaires communs. Quelle est la probabilité que parmi p personnes, deux au moins aient le même jour anniversaire ? • Comment calculer une probabilité ? Comment modéliser ? ? Quelle est l’expérience aléatoire ? C’est la liste de p dates d’anniversaire i.e. le tirage d’une liste ordonnée de p dates dans l’année (parmi 365, avec des répétitions éventuelles). ? Quel ensemble fondamental ? la loi de probabilité ? l’événement E à étudier ? Ω = {listes ordonnées (avec répétitions éventuelles) de p dates dans l’année} La loi est uniforme i.e. l’équiprobabilité (c’est justifié statisquement). Événement E : “choisir une liste avec au moins une répétition.” version du 19 décembre 2015 12 Combiner les événements - Dénombrer ? Question : que vaut p(E) ? Puisque Ω est fini et la loi est uniforme, p(E) = |E| |Ω| (Laplace). Reste donc à évaluer |E| et |Ω|. • Cardinal de Ω. On applique le principe des choix successifs puisqu’on doit faire p choix, à chaque fois parmi 365 possibilités. On a donc 365 × 365 × · · · × 365 (p fois) façons de faire ces choix. Donc |Ω| = 365p . (Il s’agit du nombre d’applications d’un ensemble à p éléments dans un ensemble à 365 éléments, voir point suivant.) 2.18 Listes ordonnées. – Choisir p fois dans l’ensemble S de cardinal n, en tenant compte de l’ordre et en répétant événtuellement les choix, c’est exactement définir une application {1; 2; . . . ; p} → S (ou encore : un mot de longueur p sur l’alphabet S). Il y a donc |S|p = np façons de faire ces choix. Théorème Le nombre de listes ordonnées, avec répétition autorisée, de longueur p, fabriquées à partir de n éléments, est np . 2.19 Exemple. – Anniversaires communs (suite). • Le cardinal de E est plus compliqué à évaluer, car il peut y avoir une seule ou plusieurs répétitions dans les listes qui sont dans E. L’astuce consiste à dénombrer E qui est l’ensemble des listes dans Ω qui n’ont pas de répétition. Pour fabriquer une liste de longueur p sans répétition, on a des choix successifs à effectuer : 1 parmi 1 parmi 1 parmi ... 1 parmi 365 pour la première date 364 pour la deuxième date 363 pour la troisième date la première date est exclue 365 − (p − 1) pour la pe date les p − 1 dates choisies avant sont exclues. la première et la deuxième dates sont exclues Selon le principe des choix successifs : |E| = 365 × 364 × 363 × · · · × (365 − (p − 1)) = • Finalement p(E) = 1 − p(E) = 365 × 364 × · · · × 365 − (p − 1) 1− . 365 × 365 × · · · × 365 365! (365−p)! = Ap365 (voir point suivant) Ce qui donne p= p(E) ' 22 0, 476 23 0, 507 30 0, 706 50 0, 970 2.20 Listes ordonnées sans répétition. – Choisir p fois dans l’ensemble S, de cardinal n, en tenant compte de l’ordre, mais sans répéter, c’est exactement définir une injection {1; 2; . . . ; p} → S. Une telle liste est appelée un arrangement de p éléments de S. n! Il y en a n × (n − 1) × · · · × (n − (p − 1)) = (n−p)! noté Apn . Théorème Le nombre d’arrangements de p éléments choisis parmi n est Apn = n! (n−p)! 2.21 Exemple. – Euromillions. Jouer consiste à cocher 5 numéros différents choisis parmi 50. Une machine choisit au hasard la combinaison gagnante. Quelle est la probabilité que la combinaison que j’ai jouée soit la combinaison gagnante ? • Modélisation ? On peut considérer qu’il s’agit du tirage d’une liste (ordonnée) de 5 numéros ou du tirage d’un ensemble de 5 numéros (non ordonné) ; sans répétition. Les deux modèles conduisent aux mêmes résultats mais les calculs et raisonnements sont légèrement différents. • On choisit les ensembles de 5 numéros. Ainsi Ω est l’ensemble des ensembles de 5 nombres, distincts deux-à-deux, pris entre 1 et 50. La loi de probabilité est uniforme puisque la machine choisit les boules au hasard, aucun ensemble de 5 boules n’est favorisé. L’événement étudié est la sortie de ω0 (∈ Ω) qui correspond à ma combinaison i.e. ω0 = {mes 5 numéros}. 1 . La loi est uniforme et Ω est fini donc p(ω0 ) = |Ω| Il s’agit donc de compter les éléments de Ω. • Dénombrement de Ω. Remarquons d’abord que les listes sans répétition de 5 numéros entre 1 et 50 sont au nombre de A550 selon le point 2.20. Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 13 Un élément ω de Ω est un ensemble de 5 numéros, qui peuvent être listés dans des ordres différents. Combien exactement ? Appliquons le principe des choix successifs : 5 choix pour le premier de la liste puis 4 choix pour le deuxième de la liste puis 3 choix pour le troisième de la liste puis 2 choix pour le quatrième de la liste puis 1 choix pour le cinquième de la liste Il y a donc 5! façons de lister ces 5 éléments. C’est en fait le nombre d’arrangements de 5 éléments choisis parmi 5, qui vaut bien A55 = 5! . (5−5)! Mais ce sont aussi, plus simplement, toutes les permutations de ces 5 éléments. 2.22 Bijections, permutations. – Choisir n éléments dans S, de cardinal n, en tenant compte de l’ordre et sans répétition, c’est choisir une bijection {1; 2; . . . ; n} → S. C’est aussi un arrangement des n éléments de S, i.e. une façon de les ordonner, de les lister, ou encore de les permuter. Il y a n! = n! telles bijections, donc n! façons d’ordonner n éléments dans une liste de longueur Ann = (n−n)! n. Théorème Il y a n! bijections d’un ensemble à n éléments sur un ensemble à n éléments. Le nombre de permutations d’un ensemble à n éléments est n!. 2.23 Exemple. – Euromillions (suite). En considérant les listes ordonnées sans répétition, on compte donc 5! fois chaque élément de Ω. Or il y a A550 listes ordonnées sans répétition de cinq numéros entre 1 et 50. 50! 1 A5 5 × = C50 (voir point suivant) = 50×49×48×47×46 = 2 118 760 ' 221 . Donc |Ω| = 50 = 5×4×3×2×1 5! 45! 5! 2.24 Combinaisons. – Choisir p éléments de S, de cardinal n, sans répétition et sans tenir compte de l’ordre, c’est exactement définir un sous-ensemble de S, à p éléments. Ce choix peut être fait de Ap n! p n p! = (n−p)!.p! = Cn façons différentes. Théorème Le nombre de combinaisons de p éléments pris parmi n est Cnp . 3 Compléments. 2.25 Remarque. – Dénombrement et modélisation. Pour une même expérience aléatoire, plusieurs modélisations, i.e. choix de l’ensemble fondamental et de la loi de probabilité, sont possibles (ex : pour l’étude d’euromillions, listes ordonnées ou listes non ordonnées). Elles conduisent à des calculs de dénombrement différents. Tous les choix sont légitimes pourvu que le raisonnement soit correct. Mais certains choix amènent à des calculs plus simples. 2.26 Exemple. – Anniversaires communs. n 2 3 4 5 7 10 15 20 22 23 25 30 40 50 proba pas d’ anniversaires identiques 0,9973 0,9918 0,9836 0,9728 0,9438 0,8831 0,7471 0,5886 0,5243 0,4927 0,4313 0,2937 0,1088 0,0296 proba existence anniversaires identiques 0,0027 0,0082 0,0164 0,0272 0,0562 0,1169 0,2529 0,4114 0,4757 0,5073 0,5687 0,7063 0,8912 0,9704 proba aucun anniversaire comme le mien 0,9973 0,9945 0,9918 0,9891 0,9810 0,9729 0,9597 0,9466 0,9414 0,9388 0,9337 0,9210 0,8961 0,8718 proba existence anniversaire comme le mien 0,0027 0,0055 0,0082 0,0109 0,0190 0,0271 0,0403 0,0534 0,0586 0,0612 0,0663 0,0790 0,1039 0,1282 n nbre de paires n(n−1) 2 2 3 4 5 7 10 15 20 22 23 25 30 40 50 1 3 6 10 21 45 105 190 231 243 300 435 780 1225 nbre de paires auxquelles j’appartiens 1 2 3 4 6 9 14 19 21 22 24 29 39 49 version du 19 décembre 2015 14 Combiner les événements - Dénombrer Soit n > 2 le nombre de personnes dans la pièce où je me trouve. Lorsque ce nombre augmente, le nombre de paires possibles (de l’ordre de le nombre de paires auxquelles j’appartiens (de l’ordre de n). n2 ) 2 augmente bien plus vite que → Même s’il devient rapidement probable de trouver une paire avec mêmes anniversaires, il reste peu probable que j’en fasse partie. 2.27 Exemple. – Euromillions et lancers successifs d’une pièce. • On a vu que la probabilité de trouver la bonne combinaison de 5 nombres à euromillions est 1 . 221 1 5 C50 soit environ • Considérons n lancers successifs d’une pièce équilibrée. Ω = ensemble des listes de n éléments de pris dans {P ile, F ace}. Et la loi est uniforme car aucune liste n’est favorisée par rapport aux autres. On a donc |Ω| = 2n et donc p(ω) = 21n pour n’importe quel ω ∈ Ω. En particulier, pour 21 lancers, la probabilité, pour n’importe quelle série, est 1 . 221 Trouver la bonne combinaison de 5 nombres à euromillions a donc une probabilité comparable à, par exemple, obtenir 21 fois Face (de suite) en lançant une pièce. 2.28 Exemples. – Autres exemples classiques de dénombrement. ? Quelle est la probabilité d’obtenir exactement 3 fois Face en lançant 10 fois une pièce ? Événement E =“obtenir 3 fois Face et 7 fois Pile”= {ω ∈ Ω | ω constitué de 3 Face et de 7 Pile}. p(E) = |E| = 2|E| 10 . |Ω| Que vaut |E| ? C’est le nombre de façons de placer 3 Face dans la série de 10 lancers (les 7 autres étant 3 des Pile). C’est donc C10 , le nombre de façons de choisir 3 éléments parmi 10. ? Quel est le nombre de mots de 3 lettres qu’on peut écrire avec deux consonnes et une voyelle ? Il y a 3 places possibles pour la voyelle, 6 choix possibles pour la voyelle, 20 choix possibles pour la première consonne et 20 choix possibles pour la deuxième consonne. La réponse est simplement 3 × 6 × 20 × 20 = 7200, selon le principe des choix successifs. ? Même question mais sans répéter les consonnes. Même argument mais avec seulement 19 choix pour la deuxième consonne. Soit 3 × 6 × 20 × 19 = 6840 ? Combien d’équipes différentes peut-on constituer en choisissant 1 gardien parmi 3, 4 défenseurs parmi 8, 4 milieux parmi 8 et 2 attaquants parmi 4 ? Il y a C31 choix pour le gardien, C84 pour la défense, C84 pour le milieu et C42 pour l’attaque. Réponse : C31 × C84 × C84 × C42 = 3 × 70 × 70 × 6 ? Combien y a-t-il d’anagrammes différentes des mots sos, assas, toulouse ? # permutations possibles = . sos : 3 (oss, sos, sso) = nbre de choix pour la place du o = 3! 2! # permutations des s assas : 10 = nbre de choix pour la place des deux a = toulouse : 8! 2!×2! = # 5! 2!×3! = # # permutations possibles . permutations des a×# permutations des s # permutations possibles . permutations des o×# permutations des u 2.29 Le cas des listes sans ordre mais avec répétitions. – Exemple typique : collecte sans ordre des résultats de lancers de dé (ex : 3 fois 6, 1 fois 5, 0 fois 4, ou décompte des voix lors d’un vote (ex : répartition de 25 votes pour 6 candidats – c’est analogue à la répartition des scores de 25 lancers de dé). . . .) On présente les résultats sous forme de graphiques des scores cumulés. Par exemple pour 4 candidats, A, B, C et D, et 10 votants : A AB ABC ABCD Les bâtons sont nécessairement de taille croissante, et le dernier est de taille 10. Les scores de chacun se retrouvent par différence des bâtons successifs. Finalement, à chaque graphique possible (i.e. chaque répartition possible des votes) correspond un unique chemin sur le quadrillage où les déplacements se font vers le haut ou vers la droite. Introduction aux probabilités – B. Mariou – Automne 2015 arrivée départ 4 colonnes 3 intervalles version du 19 décembre 2015 15 Dans notre exemple, il y a au total 3 déplacements vers la droite et 10 vers le haut, soit 13 déplacements en tout. Les seuls choix sont les 3 moments où on effectue les déplacements vers la droite. 3 10 Il y a donc C13 = C13 tels chemins. De façon générale, pour n votants et p candidats, p−1 n = Cn+p−1 répartitions possibles. il y a Cn+p−1 2.30 Problème des portes, des chèvres et de la voiture. • Dans un jeu télévisé, on vous place devant trois portes closes. Derrière une de ces portes se trouve une voiture, derrière les deux autres, une chèvre. Vous devez d’abord choisir une porte, sans aucun indice ; mais vous ne l’ouvrez pas. Alors le présentateur, ouvre parmi les deux portes restantes, une porte perdante (cachant une chèvre). Vous avez alors le choix de garder la porte choisie initialement, ou de changer pour la porte fermée qui reste. Avez-vous intérêt à modifier votre choix initial ? • Résolution. Le problème est posé de façon peu explicite. Notre tâche consiste à étudier deux situations, celle où on changerait de porte et celle où on ne changerait pas de porte ; et à évaluer la probabilité de gagner la voiture dans les deux cas. On peut numéroter les portes de 1 à 3, et même donner le numéro 1 à la porte gagnante (cela ne signifie pas forcément qu’elle se trouve à gauche). On peut également supposer que vous effectuez votre premier choix totalement au hasard puisque vous n’avez aucun élément pour vous décider. ? Si vous changez votre choix initial. Si vous aviez choisi la porte 1, le présentateur éliminera la 2 ou la 3, et vous changerez pour celle qui reste, la 3 ou la 2, qui est perdante. Si vous aviez choisi la porte 2, le présentateur éliminera la 3, et vous changerez pour celle qui reste, la 1, qui est gagnante. Si vous aviez choisi la porte 3, le présentateur éliminera la 2, et vous changerez pour celle qui reste, la 1, qui est gagnante. Les résultats de cette expérience sont donc au nombre de quatre, et peuvent schématisés ainsi a = 1 → 3, b = 1 → 2, c = 2 → 1 et d = 3 → 1 (choix initial→ choix final). Le résultat c est gagnant, et sa probabilité est 1/3 puisque c’est la probabilité de choisir initialement la porte 2. De même, le résultat d est gagnant et de probabilité 1/3. Enfin, les résultats a et b sont perdants, on ne connaît pas leurs probabilités respectives mais on sait que p(a ou b) = 1/3 puisque c’est la probabilité de choisir initialement la porte 1. Finalement, la probabilité de gagner la voiture, dans ce cas, est de 2/3. Elle correspond aux deux choix initiaux d’un porte perdante. ? Si vous ne changez pas votre choix initial. La situation est plus simple. Vous choisissez les portes au hasard et, quoi que dise le présentateur, vous conservez ce choix ; donc vous gagnez si et seulement si vous aviez choisi la porte 1. La probabilité que vous fassiez ce choix est simplement de 1/3. ? En conséquence, il est plus avantageux de modifier votre choix initial. Cela peut sembler paradoxal car on pourrait penser que le changement se fait sans information supplémentaire, mais cela est faux. Le fait que le présentateur élimine une porte perdante modifie votre connaissance de la situation : la porte qui n’est pas éliminée est plus probablement gagnante que les autres ! • Simplification du raisonnement. Après votre choix initial et le renseignement fourni par le présentateur en éliminant une porte perdante, il reste une porte perdante et une porte gagnante. Donc, changer de porte, c’est passer de la gagnante à la perdante ou de la perdante à la gagnante, i.e. c’est inverser le résultat par rapport au cas où on garde son choix initial. Or sans changer, p(gagner) = 1/3 et p(perdre) = 2/3, donc, en changeant de porte, on inverse et p(gagner) = 2/3 et p(perdre) = 1/3. version du 19 décembre 2015 3 1 16 Probabilités conditionnelles - Indépendance PROBABILITÉS CONDITIONNELLES INDÉPENDANCE Probabilités conditionnelles. 3.1 Exemple. — Lancer de deux dés équilibrés. ? Soit l’événement E :“la somme des scores est 10”. Il y a trois résultats favorables 64, 55 et 46. On a p(E) = 3 36 = 1 . 12 ? Information supplémentaire : le lanceur cache le résultat mais indique F :“on a obtenu un double”. Que devient la probabilité d’avoir obtenu le total de 10 ? Avec l’information F , les résultats possibles sont maintenant 11, 22, 33, 44, 55 et 66. L’ensemble F = {11; 22; 33; 44; 55; 66} est le nouvel ensemble fondamental, qu’on nomme Ω0 . Et ces résultats sont toujours équiprobables, donc la loi p0 sur Ω0 est la loi uniforme. Donc p0 (“obtenir total 10”) = p0 (55) = 61 . ? Si l’information supplémentaire est F :“on n’a pas obtenu un double”. L’ensemble des résultats possibles est Ω00 = Ω \ F = F avec la loi uniforme p00 . Les résultats favorables sont 46 et 64 et p00 (“obtenir total 10”) = 2/|Ω00 | = 2/30 = 1/15. 3.2 Commentaires. – L’information supplémentaire (réalisation de l’événement F ) modifie, ou conditionne, l’ensemble des résultats possibles. Elle le restreint : le nouvel ensemble fondamental, conditionné, actualisé ou réduit, est F . – Les probabilités changent également (ici, la loi reste uniforme mais sur F ). Pour un événement donné, elle peut augmenter ou diminuer. Exemple précédent. p00 (E) < p(E) < p0 (E). – Pour évaluer la probabilité de E sachant que F est réalisé, on considère, parmi les résultats possibles, i.e. les éléments de F , ceux qui réalisent E, i.e. les éléments de E ∩ F . 3.3 Définition. — Soient E, F ⊂ Ω deux événements tels que p(F ) 6= 0. La probabilité conditionnelle de E sachant F , notée pF (E), vaut p(E ∩ F ) p(F ) . 3.4 Remarques. – La définition vaut en particulier pour les singletons. Si ω ∈ Ω, on a pF (ω) = pF ({ω}) = p({ω} ∩ F ) p(ω) = . p(F ) p(F ) p(∅) . =0 p(F ) Exemple initial. p(F ) = 16 , p(ω) = 1 36 et pF (ω) = si ω ∈ F ; et alors pF (ω) > p(ω) car 0 6 p(F ) 6 1 ; si ω ∈ / F. 1/36 1/6 = 1 6 si ω ∈ F et pF (ω) = 0 si ω ∈ / F. – L’application pF ainsi définie est une loi de probabilité sur F . p(ω) 6 1. p(F ) 1 = p(F ) ω∈F Démonstration. En effet, si ω ∈ F , alors 0 6 p(ω) 6 p(F ) et donc 0 6 Et la somme des probabilités est 1 puisque P pF (ω) = ω∈F P ω∈F p(ω) p(F ) P p(ω) = 1 p(F ) × p(F ) = 1. Exemple initial. L’ensemble F a 6 éléments, qui ont chacun une probabilité conditionnée par F de 16 . – L’équiprobabilité est nécessairement préservée : si p est uniforme sur Ω alors pF est uniforme sur F (d’après la première remarque). – L’application pF est aussi une loi de probabilité sur Ω. Démonstration En effet, pF (ω) = 0 si ω ∈ / F et pF (ω) ∈ [0; 1] si ω ∈ F . X X X X p(ω) 1 X 1 De plus pF (ω) = pF (ω) + pF (ω) = +0= p(ω) = × p(F ) = 1. p(F ) p(F ) p(F ) ω∈Ω ω∈F ω∈F ω∈F ω∈F Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 17 C’est un autre point de vue : on peut considérer que l’information supplémentaire n’a pas modifié l’ensemble fondamental mais la loi de probabilité change et vaut 0 sur F . – Dans le cas fini équiprobable, on peut retrouver la formule grâce au calcul suivant : |E∩F | |E∩F |/|Ω| p(E∩F ) f avorables pF (E) = #cas #cas possibles = |F | = |F |/|Ω| = p(F ) . 3.5 Exemple. — Application de la formule dans le cas de l’exemple 3.1. Rappel E =“obtenir un score total de 10”, F =“obtenir un double”, p(E) = 1/12 et p(F ) = 1/6. p(E ∩ F ) p(55) 1/36 Conditionnement par F . pF (E) = = = = 1/6 p(F ) p(F ) 1/6 et pour ω ∈ F , pF (ω) = 1/6 par le même calcul. p(E ∩ F ) p(46, 64) 2/36 Conditionnement par F . pF (E) = = = = 1/15 30/36 p(F ) p(F ) p(ω) 1/36 et pour ω ∈ F , pF (ω) = p(F ) = 30/36 = 1/30. p(F ) = p(F ) = 1. Si F entraîne E et on sait que F est réalisé alors E est aussi réalisé et donc de probabilité 1. ) p(E) — Si E ⊂ F alors pF (E) = p(E∩F p(F ) = p(F ) . Comme 0 6 p(F ) 6 1, on a pF (E) > p(E). La probabilité de E augmente lorsque F est réalisé puisqu’on élimine les éléments de F qui sont tous défavorables pour la réalisation de E. — Si E et F sont incompatibles alors pF (E) = 0 = pE (F ) (car E ∩ F = ∅). Autre calcul : puisque F ⊂ E, on a pF (E) = 1, et donc pF (E) = 1 − pF (E) = 0. 3.6 Remarques. — Si F ⊂ E alors pF (E) = p(E∩F ) p(F ) 3.7 Exemple. — On tire deux cartes, sans remise, dans un jeu de 52, non truqué. Quelle est la probabilité que la deuxième carte tirée soit un as si la première est un as ? Considérons les événements E :“1ère carte est un as” et F :“2e carte est un as”. Si la première carte tirée est un as, il reste 51 cartes et 3 as dans le jeu. Le jeu n’est pas truqué et on a donc 3 cas favorables et 51 cas au total. Autrement dit pE (F ) = 3 . 51 → Il s’agit d’un cas où la probabilité conditionnée est facile à calculer. Elle permet même de calculer d’autres probabilités, comme p(E ∩ F ). Puisque pE (F ) = p(E∩F ) p(E) on a p(E ∩ F ) tirer as puis as = p(E) × tirer as en 1er pE (F ) . tirer as en 2e sachant qu’un as a été tiré en 1er 2 Principe multiplicatif. 3.8 Théorème Pour E, F événements. p(E ∩ F ) = p(F ) × pF (E) = p(E) × pE (F ). 3.9 Remarque. — Dans de nombreuses situations pF (E) est facile à trouver et permet de calculer d’autres probabilités (cf exemple 3.7). 3.10 Exemple 1. — Dans une urne : 2 boules vertes et 3 rouges. On en pioche une au hasard. On la remet dans l’urne si et seulement si elle est verte. Et alors on pioche une deuxième fois. 1) Quelle est la probabilité que la deuxième boule piochée soit rouge ? 2) On sait que la deuxième est rouge, quelle est la probabilité que la première ait été aussi une rouge ? On note 1V l’événement “la première boule piochée est verte”. Alors 1V est 1R :“la première boule est rouge”. De même, 2V :“la deuxième boule piochée est verte” et 2V = 2R. La probabilité de piocher vert-vert, noté vv, est p(vv) = p(1V ∩ 2V ). Avec le principe multiplicatif p(vv) = p(1V ) × p1V (2V ). Et on peut calculer cette valeur exactement car p(1V ) et p1V (2V ) sont faciles à calculer. On peut calculer facilement, de la même façon, p(vr), p(rv) et p(rr). version du 19 décembre 2015 18 Probabilités conditionnelles - Indépendance On peut donc calculer les probabilités des quatre résultats possibles, grâce au probabilités conditionnelles, en appliquant le principe multiplicatif. 3.11 Exemple 2. — Urne de Polya. Dans une urne : 2 boules vertes et 3 rouges. On en pioche une au hasard. On la remet dans l’urne et on ajoute une nouvelle boule de la même couleur. Mêmes questions. La modélisation et le raisonnement sont les mêmes que précédemment. Les probabilités conditionnées par le résultat de la première pioche sont différentes puisqu’on ne suit pas la même procédure après la première pioche. 3.12 Arbre pondéré des possibilités. Exemple 1. p1V / V p(vv) = 2 2 5 × 5 Exemple 2. 2 5 5 / V /\ / \p (2V )= 2 5 \ \p(1R= 3 ) / / p(1V )= 2 5 3 1V (2R)= 5 \ R p(vr) = 2 3 5 × 5 \ p1R R /\ / \p (2V )= 1 2 / V p(rv) = 3 1 5 × 2 1 1R (2R)= 2 \ R p(rr) = 3 1 5 × 2 \ \3 / / 5 \ / V /\ 3 / \3 R /\ 2 / \4 6 6 6 \ R p(vr) 6 = 30 / V p(vv) 6 = 30 / V p(vv) 6 = 30 6 \ R p(vr) = 12 30 3.13 Remarques. — L’arbre pondéré des possibilités synthétise les informations : les possibilités (structure de l’arbre), les probabilités conditionnelles (poids sur les segments, le long des branches) et la loi de probabilité (probabilité de chacune des feuilles). — Pour construire cet arbre, il est nécessaire de connaître les probabilités conditionnées. 3.14 Exemple. — Blanche Neige et les pommes. Blanche Neige dispose de 5 pommes. Elle ignore qu’une est empoisonnée et deux sont véreuses. Elle les mange une par une. Si elle croque la pomme empoisonnée, elle meurt immédiatement. Mais si elle mange une pomme véreuse, elle donne toutes les pommes qui restent au cochon, qui les mange. Quelle est la probabilité que le cochon meure ? 3.15 Principe multiplicatif généralisé. Soient E1 , E2 , . . . , En des événements. p(E1 ∩ E2 ∩ · · · ∩ En ) = p(E1 ) × pE1 (E2 ) × pE1 ∩E2 (E3 ) × · · · × pE1 ∩E2 ∩···∩En−1 (En ). Justification. p(E1 ) × pE1 (E2 ) × pE1 ∩E2 (E3 ) × · · · × pE1 ∩E2 ∩···∩En−1 (En ) p(E1 ∩ E2 ) p(E1 ∩ E2 ∩ E3 ) p(E1 ∩ E2 ∩ · · · ∩ En−1 ∩ En ) = p(E1 ) × × × ··· × p(E1 ) p(E1 ∩ E2 ) p(E1 ∩ E2 ∩ · · · ∩ En−1 ) = p(E1 ∩ E2 ∩ · · · ∩ En−1 ∩ En ) 3.16 Exemples. — ? Urne de Polya, exemple 2 précédent (3.11). On effectue 4 pioches successives. p(vvvv) = p(1V ) × p1V (2V ) × p1V ∩2V (3V ) × p1V ∩2V ∩3V (4V ) = 25 × 36 × 74 × 3 De même p(rrrr) = 14 5 8 = 1 . 14 ? Dans l’exemple 1. 8 p(vvv) = p(1V ) × p1V (1V ∩ 2V ) × p1V ∩2V (1V ∩ 2V ∩ 3V ) = 52 × 52 × 25 = 125 2 1 1 3 p(rrr) = p(1R) × p1R (1R ∩ 2R) × p1R∩2R (1R ∩ 2R ∩ 3R) = 5 × 4 × 3 = 10 . ? Anniversaires. On considère p personnes (numérotées de 1 à p). On pose Ei :“la ie personne n’a pas le même anniversaire qu’une des personnes 1, 2, . . ., i-1”. Alors E1 ∩ E2 ∩ · · · ∩ Ei :“les personnes 1, 2, . . ., i ont des dates anniversaires distinctes deux-à-deux”. 364 On a p(E1 ) = 1 et p(E2 ) = 365 = pE1 (E2 ). Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 19 Puis p(E3 ) dépend des anniversaires des personnes 1 et 2 (qui peuvent être identiques ou différents) ; tandis 363 que pE1 ∩E2 (E3 ) est facile à calculer (car on sait qu’il y a deux dates à éviter) et vaut 365 . 365−i Généralement pE1 ∩E2 ∩···∩Ei (Ei+1 ) = 365 . 364 × · · · × 365−(p−1) . Et finalement p(E1 ∩ · · · ∩ Ep ) = p(E1 ) × pE1 (E2 ) × · · · × pE1 ∩···∩Ep−1 (Ep ) = 1 × 365 365 3.17 Remarques. — Le principe multiplicatif généralisé permet des arbres pondérés des possibilités avec des branches de longueur arbitraire. — Pour n = 3, p(E1 ∩ E2 ∩ E3 ) = (p(E1 ) × pE1 (E2 )) × pE1 ∩E2 (E3 ) = p(E1 ∩ E2 ) × pE1 ∩E2 (E3 ) ∩E2 ∩E3 ) = p(E1 ) × p(E1p(E = p(E1 ) × pE1 (E2 ∩ E3 ) 1) 3 Indépendance. 3.18 Définition. — Les événements E, F sont dits indépendants lorsque p(E ∩F ) = p(E)×p(F ). 3.19 Remarques. — Dans le cas où p(F ) 6= 0, cela équivaut à pF (E) = p(E). Autrement dit, la réalisation de F ne renseigne pas sur/ne modifie pas la probabilité de E. — Cette propriété est symétrique en E et F . Notamment, elle équivaut aussi à pE (F ) = p(F ) lorsque p(E) 6= 0. — En particulier, pE (F ) = p(F ) ssi pF (E) = p(E) (ssi E et F sont indépendants). Autrement dit, l’information de la réalisation de E ne modifie pas la probabilité de F ssi l’information de la réalisation de F ne modifie pas la probabilité de E. 3.20 Exemple. — Deux lancers successifs d’une pièce. ? Lorsqu’on lance la pièce la seconde fois, le résultat du premier lancer n’a pas d’influence. Autrement dit si on appelle 1P = “on obtient Pile au 1er lancer” et 2P = “on obtient Pile au 2e lancer”, on a p1P (2P ) = p(2P ). Ce qui signifie que 1P et 2P sont indépendants, que p2P (1P ) = p(1P ) et que p(pp) = p(1P ∩ 2P ) = p(1P ) × p(2P ). Dans le cas où la pièce est équilibrée, on retrouve p(ω) = 12 × 12 = 41 pour ω ∈ { pp ; pf ; f p ; f f }. ? Dans le cas où la pièce est équilibrée, les événements E = “obtenir une fois Pile et une fois Face” et F = “au premier lancer, on obtient Face” sont indépendants. En effet, E = { pf , f p }, F = { f p , f f } et E ∩ F = { f p }. On a donc p(E ∩ F ) = 14 et p(E) = p(F ) = 12 . ) On retrouve aussi que pE (F ) = p(E∩F = 1/4 = 21 = p(F ) : même si on sait qu’on a obtenu un Pile et p(E) 1/2 un Face, la probabilité que le premier lancer ait donné Face est toujours 1 sur 2. ? Considérons le cas d’une pièce truquée donnant Face 2 fois sur 3. Les événements 1P et 2P sont encore indépendants car il est toujours vrai que, savoir qu’on a obtenu Pile au 1er lancer ne modifie pas la probabilité d’obtenir Pile au second : p1P (2P ) = p(2P ). On en déduit la loi de probabilité : p(pp) = 13 × 31 = 19 , p(pf ) = 31 × 23 = 92 , p(f p) = 23 × 13 = 29 et p(f f ) = 23 × 23 = 49 . En revanche, les événements E et F ne sont plus indépendants. Puisque p(E) = p(pf ) + p(f p) = 94 , p(F ) = p(1P ) = 23 et p(E ∩ F ) = p(f p) = 29 6= 49 × 23 . Ou encore pF (E) = p(2P ) = 13 < p(E). 3.21 Remarque. — L’indépendance dépend de la loi de probabilités. Exemple. Dans l’exemple précédent, deux lancers successifs d’une pièce, les événements E et F sont indépendants lorsque la pièce est équilibrée i.e. lorsque la loi est uniforme, et pas indépendants dans le cas où la pièce donne Face dans deux tiers des cas i.e. pour une autre loi de probabilité. 3.22 Remarque. — Indépendance et événements contraires. Si E et F sont des événements indépendants, alors aussi E et F . Et donc aussi E et F . version du 19 décembre 2015 20 Probabilités conditionnelles - Indépendance Démonstration. On veut montrer que p(E ∩ F ) = p(E) × p(F ). On utilise la décomposition de E sur F, F : E = (E ∩ F ) t (E ∩ F ). Donc p(E) = p(E ∩ F ) + p(E ∩ F ). Par hypothèse p(E ∩ F ) = p(E) × p(F ). Donc p(E ∩ F ) = p(E) − p(E)p(F ) = p(E)(1 − p(F )) = p(E)p(F ). 3.23 Définition. — Les événements E1 , E2 , . . . , En sont totalement indépendants lorsque, pour toute sous famille Ei1 , . . . , Eik , (2 6 k 6 n et 1 6 i1 < · · · < ik 6 n), on a p(Ei1 ∩ · · · ∩ Eik ) = p(Ei1 ) × · · · × p(Eik ). 3.24 Remarque. — Dans la définition précédente, il est important de constater que la propriété porte sur toutes les sous familles de taille au moins 2. On peut très bien avoir trois événements E, F, G tels que p(E ∩ F ∩ G) = p(E) × p(F ) × p(G) mais E et F ne sont pas indépendants. Réciproquement, les trois événements peuvent être deux-à-deux indépendants mais p(E ∩ F ∩ G) 6= p(E) × p(F ) × p(G). 3.25 Exemples classiques. — Lancers successifs d’une pièce ou d’un dé. Le résultat du ne lancer n’est pas influncé par les résultats précédents : les lancers sont totalement indépendants. 4 Tirages de Bernoulli. 3.26 Définition. — Une suite de tirages de Bernoulli est la répétition de tirages à deux issues (succès ou échec), tous identiques et totalement indépendants. 3.27 Cas de trois tirages de Bernoulli. — Pour chaque tirage, on doit avoir deux issues possibles qu’on peut interpréter comme succès/echec. Par exemple Pile est un succès et Face un échec. Autre exemple : obtenir 1, 2, 3 ou 4 au dé est un succès et obtenir 5, 6 un échec. On note p la probabilité de succès à chaque tirage (ils sont tous identiques) ; et q = 1 − p la probabilité d’échec. Arbre des possibilités : succès p3 L’indépendance des tirages fait que tous les p/ / succès p nœuds sont les mêmes. L’arbre “se répète”. q / \ échec p2 q / / / / succès p \ \ q\ \ \ q \ p/ p/ succès p2 q q échec pq 2 p/ succès p2 q q échec pq 2 p/ succès pq 2 q échec q3 échec \ succès / \ On a p(sss) = p3 , p(sse) = p(ses) = p(ess) = p2 q, p(see) = p(ese) = p(ees) = pq 2 et p(eee) = q 3 . échec \ q \ échec \ 3.28 Cas de n tirages de Bernoulli. — Soit 0 6 k 6 n. Alors p(“obtenir k succès en n tirages”) = Cnk pk q n−k Démonstration. Une séquence donnée de n tirages contenant k succès (et donc n − k échecs) a pour probabilité pk q n−k (voir l’arbre des possibilités). Le nombre de ces séquences est le nombre de façons de placer k succès parmi n tirages i.e. Cnk . 3.29 Exemple. — Pour n = 3 et k = 2. On a p(sse) = p2 q et la séquence sse est une des séquences à 2 succès et 1 échec. Il y a en tout 3 = C32 telles séquences (sse, ses, ess). Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 21 3.30 Remarques. — Pour n tirages de Bernoulli, on vérifie : n P k=0 p(“obtenir k succès”) = n P Cnk pk q n−k = (p + q)n formule du binôme = 1 car q = 1 − p . k=0 — Probabilité d’obtenir au moins un succès. p(“obtenir au moins 1 succès”) = 1 − p(“obtenir 0 succès”) = 1 − Cn0 p0 q n = 1 − q n . Autre calcul. p(“obtenir le 1er succès au 1er tirage”) = p p(“obtenir le 1er succès au 2e tirage”) = qp p(“obtenir le 1er succès au ie tirage”) = q i−1 p (pour 1 6 i 6 n). n P p(“obtenir le 1er succès au ie tirage”) Et p(“obtenir au moins un succès”) = i=1 n = p + pq + pq 2 + · · · + pq n−1 = p(1 + q + q 2 + · · · + q n−1 ) = p 1−q 1−q = 1 − qn . 3.31 Exemples. — Chercher une autre personne ayant le même anniversaire que soi. Il y a n autres personnes que moi dans la pièce. La date de naissance, de chacune d’elle, constitue un tirage à deux issues : succès si même anniver364 1 et échec si anniversaire différent du mien, probabilité q = 365 . saire que moi, probabilité p = 365 Tous les tirages sont identiques et ils sont totalement indépendants (sous certaines hypothèses, par exemple : pas de jumeaux parmi ces n personnes). Il s’agit donc d’une suite de n tirages de Bernoulli. D’après ce qui précède, p(“au moins une personne a le même anniversaire que moi”) n = p(“obtenir au moins un succès”) = 1 − q n = 1 − ( 364 365 ) . 1 Cette probabilité dépasse 2 lorsque n > 253 (voir chapitre précédent). — Plusiers lancers d’un dé équilibré en attendant un 6. Tirages à deux issues (succès si on obtient 6, p = 16 ), tous identiques et totalement indépendants. Il s’agit donc de n tirages de Bernoulli avec p = 16 et q = 56 . Donc p(“obtenir au moins un 6 en n lancers”) = 1 − ( 56 )n > 12 ssi ( 65 )n 6 12 ssi n > 4 > 0, 9 > 0, 99 ssi ( 56 )n 6 0, 1 ssi ( 56 )n 6 0, 01 ssi n > 13 ssi n > 26. version du 19 décembre 2015 4 22 Formule des probabilités totales - Formule de Bayes FORMULE DES PROBABILITÉS TOTALES FORMULE DE BAYES On va voir deux formules qui exploitent les propriétés des probabilités conditionnelles et permettent de calculer des probabilités, parfois difficiles à évaluer autrement. La formule des probabilités totales utilise la décomposition d’un ensemble/evénement E sur un autre F et sur son complémentaire F . La formule de Bayes exploite la symétrie du principe multiplicatif vu au chapitre précédent. 1 Formule des probabilités totales. 4.1 Utilisation de la décomposition de E sur F et F . — Soient E et F deux événements. On sait que p(E) = p(E ∩ F ) + p(E ∩ F ) propriété 2 page 10. Mais aussi, selon le principe multiplicatif : p(E ∩ F ) = p(F ) · pF (E) et p(E ∩ F ) = p(F ) · pF (E). Et donc : p(E) = p(F ) × pF (E) + p(F ) × pF (E). 4.2 Théorème — Formule des probabilités totales. Soient deux événements E et F , avec p(F ) 6= 0 et 6= 1. Alors p(E) = p(F ) × pF (E) + p(F ) × pF (E). 4.3 Remarque. — Cette formule donne donc un moyen de calculer la probabilité de E lorsqu’on connaît les probabilités de E conditionnées par F et par son contraire F . La valeur de p(E) est la moyenne des probabilités conditionnées par F et F , mais pondérée par les probabilités respectives de F et F . 4.4 Généralisation. — Le raisonnement précédent peut être reproduit en décomposant E sur plus de deux ensembles. En effet, supposons que F1 , F2 , . . . , Fk sont deux-à-deux incompatibles et leur union est Ω tout entier ; ce qui s’écrit F1 t F2 t · · · t Fk = Ω (la réunion est disjointe et elle vaut Ω tout entier, autrement dit F1 , F2 , . . . , Fk est une partition de Ω). Alors E = (F1 t· · ·tFk )∩E = (F1 ∩E)t· · ·t(Fk ∩E), et donc p(E) = p(F1 ∩E)+· · ·+p(Fk ∩E). Or chaque p(Fi ∩ E) vaut p(Fi ) · pFi (E). D’où le résultat qui suit. 4.5 Théorème — Version généralisée. Soient des événements E et F1 , F2 , . . . , Fk tels que F1 , F2 , . . . , Fk sont tous de probabilité non nulle, et constituent une partition de Ω. Alors p(E) = p(F1 ) × pF1 (E) + . . . + p(Fk ) × pFk (E). 4.6 Exemple. — ? Il y a 5 % d’hommes qui sont daltoniens et 0,25 % de femmes qui sont daltoniennes. Dans une ville, il y a 55 % d’hommes. Quelle est la probabilité qu’une personne de cette ville, choisie au hasard, soit daltonienne ? ? Dans les données de l’énoncé, l’événement qui conditionne est F =“la personne choisie est une femme”. Et l’événement conditionné est D =“la personne choisie est daltonienne”. L’énoncé nous donne pF (D) = 0, 05, pF (D) = 0, 0025 i.e. les probabilités de D conditionnées par F et F ; et aussi p(F ) = 0, 45, et donc p(F ) = 0, 55. On peut donc appliquer la formule des probabilités totales : p(D) = p(F ) · pF (D) + p(F ) · pF (D) = 0, 45 × 0, 0025 + 0, 55 × 0, 05 = 9 20 25 · 10000 + 11 · 5 = 2, 8625%. 20 100 4.7 On a déjà utilisé une version simple de cette formule pour les exemples 3.10 et 3.11. On avait : p(2R) = p(vr) + p(rr) = p(1V ) × p1V (2R) + p(1V ) × p1V (2R). Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 23 4.8 Exemple. — On dispose de deux pièces truquées A et B. La première donne Face avec une probabilité de 3/4 et la seconde donne Face avec une probabilité de 1/4. On choisit une des deux pièces au hasard et on la lance. a) Quelle est la probabilité d’obtenir Face ? ? Événement qui conditionne : A =“la pièce choisie est la pièce A”. Événement conditionné : F =“on obtient Face”. L’énoncé indique que pA (F ) = 3/4 et pA (F ) = 1/4. Et p(A) = 1/2 car la pièce est choisie au hasard. On applique la formule : p(F ) = p(A) · pA (F ) + p(A) · pA (F ) = 1/2 × 3/4 + 1/2 × 1/4 = 1/2. Ce résultat correspond à la moyenne entre 3/4 et 1/4. b) On lance une deuxième fois la même pièce. Quelle est la probabilité d’obtenir Face-Face ? ? Le nouvel événement conditionné est F F =“on obtient Face-Face”. On connaît, pour chacune des deux pièces, la probabilité d’obtenir deux fois Face, car les deux lancers sont indépendants : pA (F F ) = 3/4 × 3/4 = 9/16 et pA (F F ) = 1/4 × 1/4 = 1/16. On en déduit : p(F F ) = p(A) · pA (F F ) + p(A) · pA (F F ) = 1/2 × 9/16 + 1/2 × 1/16 = 5/16. Ce résultat est la moyenne entre 9/16 et 1/16. Mais ce n’est pas du tout le produit p(F ) × p(F ) qui correspond, lui, à la probabilité d’obtenir deux fois en Face lorsqu’on reproduit deux fois, de façon indépendante, la première expérience i.e. on choisit au hasard une pièce qu’on lance, puis on choisit au hasard à nouveau avant d’effectuer le deuxième lancer (ce n’est pas le procédé indiqué par l’énoncé qui précise bien qu’on relance la même pièce). ? On peut ajouter une pièce équilibrée C. On suit le même processus : choix au hasard d’une des trois pièces, puis on la lance deux fois. Les trois événements A, B, C correspondant au tirage de chacune des trois pièces permettent d’appliquer la version généralisée : p(F F ) = p(A)pA (F F )+p(B)pB (F F )+p(C)pc (F F ) = 1/3 × 9/16 + 1/3 × 1/16 + 1/3 × 1/4 = 14/48. 2 Formule de Bayes. 4.9 Utilisation de la symétrie du principe multiplicatif. — Soient E et F deux événements, tous les deux de probabilité non nulle. L’égalité p(E ∩ F ) = p(F ) · pF (E) a permis d’obtenir la formule des probabilités totales concernant p(E). L’égalité p(E∩F ) = p(E)·pE (F ) est également vraie, elle correspond à la définition de la probabilité p(E ∩ F ) conditionnée par E : pE (F ) = . p(E) Dans cette dernière égalité, on injecte les expressions précédentes de p(E ∩F ) et p(E) pour obtenir : 4.10 Théorème — Formule de Bayes. Soient E et F des événements de probabilités non nulles. p(F ) · pF (E) On a pE (F ) = . p(F ) · pF (E) + p(F ) · pF (E) 4.11 Remarques. — Le premier terme du dénominateur est exactement le numérateur. La raison p(E ∩ F ) p(E ∩ F ) = . p(E) p(E ∩ F ) + p(E ∩ F ) Ensuite, la probabilité de chaque intersection est exprimée à l’aide du principe multiplicatif. — L’intérêt de cette formule est d’”inverser” le conditionnement. Si on peut calculer aisément les probabilités de E conditionnées par F et F alors on pourra calculer, grâce à cette formule, la probabilité de F conditionnée par E. est qu’on a effectué le calcul suivant : pE (F ) = 4.12 Exemple. — Suite de l’exemple précédent (point 4.6). ? Quelle est la probabilité qu’un daltonien pris au hasard soit une femme ? version du 19 décembre 2015 24 Formule des probabilités totales - Formule de Bayes Autrement dit, on demande pD (F ). Or on connaît pF (D) et pF (D), ainsi que p(F ). Appliquons la formule de 9/20 × 25/10000 p(F ) · pF (D) 9 × 25 = Bayes : pD (F ) = = 9/20 × 25/10000 + 11/20 × 5/100 9 × 25 + 11 × 500 p(F ) · pF (D) + p(F ) · pF (D) 9 9 = = ' 0, 00393 = 3, 93%. 9 + 11 × 20 229 Commentaire. La proportion de femmes et d’hommes dans la population est comparable (45-55) mais les femmes sont beaucoup moins atteintes de daltonisme, et donc, parmi les daltoniens, la proportion femmes/hommes n’est plus du tout la même que dans la population globale (4-96). 4.13 Exemple. — ? On dispose de deux boîtes, A contient 1 bille rouge et 1 bille verte, B contient 2 billes rouges et 1 bille verte. On choisit au hasard une boîte puis une bille dans cette boîte. a) Quelle est la probabilité que la bille piochée soit rouge ? b) Sachant que la bille piochée est rouge, quelle est la probabilité que la boîte choisie soit la boîte A ? ? Appelons A l’événement “la boîte choisie est la boîte A” et R l’événement “la bille choisie est rouge”. L’énoncé fournit quelques propabilités, notamment conditionnées par A : p(A) = 1/2 car le choix de la boîte est effectué au hasard, pA (R) = 1/2 et pA (R) = 2/3 car le choix de la bille est effectué au hasard. On dispose des informations suffisantes pour appliquer la formule des propabilités totales et calculer p(R) : p(R) = p(A) · pA (R) + p(A) · pA (R) = 1/2 × 1/2 + 1/2 × 2/3 = 7/12. On peut aussi appliquer la formule de Bayes pour obtenir pR (A) : p(A) · pA (R) 1/2 × 1/2 pR (A) = = = 3/7 7/12 p(A) · pA (R) + p(A) · pA (R) 4.14 Théorème — Version généralisée. Soient E et F1 , F2 , . . . , Fk des événements tous de propabilités non nulles, et tels que F1 , F2 , . . . , Fk partitionnent Ω. p(F1 ) · pF1 (E) Alors pE (F1 ) = p(F1 ) · pF1 (E) + p(F2 ) · pF2 (E) + · · · + p(Fk ) · pFk (E) p(F1 ) × pF1 (E) p(E ∩ F1 ) = . Et pour le dénominateur, on applique p(E) p(E) la version généralisée de la formule des probabilités totales puisque les Fi partitionnent Ω. Démonstration. On a pE (F1 ) = 4.15 Exemple. — Suite de l’exemple 4.8 Supposons qu’on a obtenu Face-Face, quelle est la probabilité que la pièce choisie soit la pièce A ? p(A)pA (F F ) 1/2 × 9/16 9 Avec deux pièces pF F (A) = = . = p(A)pA (F F ) + p(B)pB (F F ) 1/2 × 9/16 + 1/2 × 1/16 10 p(A)pA (F F ) 1/3 × 9/16 Avec trois pièces pF F (A) = = = p(A)pA (F F ) + p(B)pB (F F ) + p(C)pC (F F ) 1/3 × 9/16 + 1/3 × 1/16 + 1/3 × 1/4 9 . 14 Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 25 Intermède — CHANGER DE POINT DE VUE PEUT AIDER • Premier exemple. — Urne composée de 5 boules vertes et 3 rouges. On en pioche 2 successivement, sans remise. Quelle est la probabilité que la deuxième soit rouge ? Par le calcul (dénombrement des listes ou arbre pondéré grâce aux probabilités conditionnelles), on trouve 83 . On remarque que c’est la proportion initiale de boules rouges, et c’est aussi la probabilité que la première boule piochée soit rouge. Pensez que la pioche peut se faire simultanément avec les deux mains, en décidant que la première est dans la main gauche et la seconde dans la droite. Mais cette décision est arbitraire ; et elle peut, de toutes façons, être prise après les pioches. Autrement dit, dans le cas d’un tirage sans remise, l’ordre des pioches est une donnée qui vient s’ajouter à l’information sur la constitution de l’ensemble des boules piochées. • Deuxième exemple. — Urne A : 2 vertes, 2 rouges — Urne B : 1 verte, 2 rouges. On pioche une boule dans chaque urne. Quelle est la probabilité qu’elles soient de la même couleur ? Si vous pensez qu’il y a une chronologie et que la boule piochée dans A est la référence, un calcul vous conduira à la réponse 21 . Mais si vous inversez ce point de vue : la boule piochée dans B est la boule de référence. Alors, étant donné la composition de A, il est évident qu’il y a une chance sur deux de piocher dans A une boule de cette couleur. • Troisième exemple. — Urne avec 1 boule verte et 2 boules rouges. On en pioche deux sans remise. Quelle est la probabilité de piocher les deux rouges ? Par la calcul, on arrive facilement à 31 . Mais si vous pensez, non pas aux deux boules piochées, mais à celle qui reste non piochée, le résultat est immédiat. • Quatrième exemple. — Portes, voiture et chèvres. Voir les documents des séances précédentes. Il est aisé d’évaluer la probabilité de gagner si on ne change pas de décision, c’est la probabilité de choisir la bonne porte parmi trois : 31 . Sans calcul supplémentaire, on peut évaluer la probabilité de gain dans le cas où on modifie la décision initiale : il suffit de remarquer qu’au moment de changer de décision, il reste deux portes, une gagnante et une perdante ; et donc en modifiant son choix, le joueur échange sa situation par rapport à ce qu’elle serait sans changer (gagné → perdu, perdu → gagné). Donc la probabilité de gagner est dans ce cas 23 . • Cinquième exemple. — Blanche Neige et les pommes. Voir énoncé dans le cours (point 3.14). Encore une fois, on peut résoudre cette question quasiment sans calculer. Le fait que ce soit Blanche Neige qui meure ou bien le cochon dépend du fait que la pomme empoisonnée est piochée avant les deux véreuses, ou pas. Les deux pommes saines ne jouent aucun rôle. Si Blanche Neige pioche d’abord la pomme empoisonnée, elle meurt. Si elle pioche d’abord une véreuse, c’est le cochon. La probabilité que le cochon meure est donc la probabilité qu’une des deux pommes véreuses soit piochée avant la pomme empoisonnée, soit 23 . version du 19 décembre 2015 26 Variables aléatoires 5 1 VARIABLES ALÉATOIRES Variable aléatoire associée à une expérience aléatoire. 5.1 Exemple. — Trois lancers successifs d’une pièce (pas nécessairement équilibrée). On compte le nombre de Pile obtenus, et on l’appelle X (= 0, 1, 2 ou 3). À chaque résultat possible ω ∈ Ω correspond une valeur de X. par ex. pour ω = ppf ou pf p, X On a donc défini une application X : Ω −→ {0; 1; 2; 3} ppp 7→ 3 ppf, pf p, f pp 7→ 2 fff 7→ 0 pf f, f pf, f f p 7→ = 2, . . . 1 L’application X est une variable aléatoire, associée à l’expérience aléatoire. 5.2 Définition. — Une variable aléatoire (associée à l’expérience) est une application de Ω, l’ensemble fondamental, vers un ensemble de nombres (IR pour la plus grande généralité). 5.3 Remarque. — Le rôle de la variable aléatoire est de retenir, du résultat de l’expérience, une information particulière mais numérique (par ex. le nombre de Pile obtenus n’est qu’une des informations permettant de connaître le résultat des trois lancers). 5.4 Exemples. — Pour la même expérience de l’exemple 5.1, on peut définir diverses variables aléatoires. Par exemple : Y = longueur maximum d’une série de Pile consécutifs (= 0, 1, 2 ou 3). Z = rang de sortie du premier Pile (= 1, 2, 3 ou 4 si Pile ne sort pas). — Lancer de deux dés. On a déjà considéré la somme des deux scores obtenus, qui est une valeur numérique associée à chacun des résultats possibles du lancer. C’est donc une variable aléatoire. Ses valeurs possibles sont les entiers entre 2 et 12. On peut aussi considérer le produit de ces deux scores. Les valeurs possibles sont aussi entières, situées entre 1 et 36 ; mais pas tous les entiers situés entre ces deux bornes. On peut aussi considérer la différence entre le dé rouge et le dé vert. On a alors une variable aléatoire dont les valeurs sont entières mais pas toutes positives. 5.5 Définition. – Une variable aléatoire est finie lorsqu’elle peut prendre un nombre fini de valeurs (l’ensemble d’arrivée de l’application est fini). Elle est discrète lorsqu’elle peut prendre une quantité dénombrable de valeurs. 2 Variable aléatoire et événements. 5.6 Remarque. — Si A est une affirmation sur la valeur de X, on peut considérer E = {ω ∈ Ω | X(ω) satisfait A}. C’est un sous-ensemble de Ω, et donc un événement. Une condition pour le définir est : “X(ω) satisfait A”. Chaque affirmation concernant les valeurs de la variable aléatoire sélectionne certains éléments de Ω et définit donc un événement. 5.7 Exemples. — Pour le cas de trois lancers d’une pièce, et de variables X, Y et Z (5.1 et 5.4) : “X > 0” = = = = = “on obtient au moins une fois Pile” = “on obtient 1, 2 ou 3 Pile” “X = 1 ou 2 ou 3” = “X = 1 ou bien 2 ou bien 3” “X = 1” t “X = 2” t “X = 3” union disjointe de ces événements, deux-à-deux incompatibles image réciproque de {1; 2; 3} par l’application X im. récip. de {1} t im. récip. de {2} t im. récip. de {3} (par l’application X). — “Y = 1” = “la plus grande série de Pile consécutifs est de longueur 1” = {pf f ; pf p ; f pf ; f f p} — “Z > 2” = ensemble des ω ∈ Ω tq Z(ω) 6> 2 (i.e. Z(ω) < 2) = “Z < 2” = “Z = 1” = {Ω “Z > 2” = {Ω (“Z = 2” t “Z = 3” t “Z = 4”). Introduction aux probabilités – B. Mariou – Automne 2015 3 version du 19 décembre 2015 27 Loi d’une variable aléatoire. 5.8 Remarque. — D’après les derniers exemples ci-dessus, si X est une variable aléatoire et i une de ses valeurs possibles, il est naturel que l’événement “X = i” ait une probabilité. On l’interprète bien sûr comme la probabilité que X vale i. 5.9 Définition. — La loi d’une variable aléatoire est la liste de ses valeurs possibles et de leurs probabilités respectives. 5.10 Exemples. — Cas de trois lancers d’une pièce pour laquelle p(P ile) = p et p(F ace) = q = 1 − p. La loi de la variable X, qui compte le nombre de Pile obtenus, est décrite par : Valeurs possibles 0, 1, 2, 3 i résultats concernés p(X = i) si équilibrée p(X = 0) = q 3 p(X = 1) = 3pq 2 0 fff q3 1/8 2 3 ou p(X = 2) = 3p q p(X = 3) = p . 1 f f p, f pf , pf f 3pq 2 3/8 (Dans le cas d’une pièce équilibrée, ces 2 3 3p2 q p3 f pp, pf p, ppf ppp 3/8 1/8 probabilités sont 1/8, 3/8, 3/8 et 1/8.) Pour la variable Y (cf 5.4) : i 0 1 2 3 résultats concernés fff f f p, f pf , pf f , pf p f pp, ppf ppp p(Y = i) q3 3pq 2 + p2 q 2p2 q p3 si équilibrée 1/8 1/2 1/4 1/8 5.11 Exemples. — Calculs avec les variables aléatoires. ? Expressions algébriques avec des variables. Dans l’exemple 5.1, on pose W = nombre de Face obtenus, qui vaut 0, 1, 2 ou 3. Et on définit aussi la variable aléatoire D = nombre de Pile − nombre de Face = X − W . On constate que D ne peut prendre que les valeurs 3, 1, -1 et -3, et que la valeur de D est connue dès qu’on connaît la valeur de X : résultats ppp ppf , pf p, f pp pf f , f pf , f f p fff X W D 3 0 3 2 1 1 1 2 -1 0 3 -3 On a une autre relation sur ces variables : on effectue 3 lancers donc X + W = 3, quel que soit le résultat. On en déduit que W = 3 − X et donc D = X − (3 − X) = 2X − 3. Ce qui confirme qu’il suffit de connaître X pour connaître D. important Ces relations algébriques sur les variables aléatoires sont des relations entre fonctions, elles sont valables quel que soit le résultat ω de l’expérience. Par exemple D = 2X − 3 signifie que, pour tout ω ∈ Ω, D(ω) = 2X(ω) − 3. ? Calculs de probabilités. Avec la même expérience, on décide que le joueur A gagne si au moins 2 Pile sont obtenus. Quelle est la probabilité que A gagne ? p(“X > 2”) = p(“X = 2” t “X = 3”) = p(X = 2) + p(X = 3) = 3p2 q + p3 = p2 (3q + p) = p2 (2q + 1) = p2 (3 − 2p) car p + q = 1 ? Conditionnement. Quelle est la probabilité que A gagne sachant que Pile sort au moins une fois ? p(“Pile sort au moins une fois”) = p(X > 1) = p(X = 0) = 1 − p(X = 0) = 1 − q 3 p(“A gagne”) = p(X > 2), calculée ci-dessus. p(“X > 2” ∩ “X > 1”) p“Pile sort au moins une fois” (“A gagne”) = p“X > 1” (“X > 2”) = . p(“X > 1”) Or X > 2 entraîne que X > 1, donc l’événement “X > 2” est inclus dans l’événement “X > 1”. Leur intersection est donc simplement “X > 2”. p(X > 2) p(X = 2) + p(X = 3) p2 (3 − 2p) Donc la probabilité cherchée est = = . p(X > 1) p(X = 1) + p(X = 2) + p(X = 3) 1 − q3 Dans le cas équilibré, ce calcul donne 4/7. Ce qu’on savait puisque 4 résultats sur les 7 possibles (f f f est exclu) permettent à A de gagner (équiprobabilité dans l’ensemble fondamental conditionné). version du 19 décembre 2015 28 Variables aléatoires 5.12 Exemple. — Utilisation des variables aléatoires pour résoudre un problème. • Une enveloppe contient 10 jetons numérotés de 1 à 10. On en pioche deux au hasard. Quelle est la probabilité de piocher au moins un jeton avec un numéro supérieur ou égal à 8 ? ? Modélisation. L’ensemble fondamental est l’ensemble Ω des paires (non ordonnées) de jetons i.e. l’ensemble des paires 2 de deux numéros distincts entre 1 et 10. Le nombre de ces paires est C10 = 45. La loi de probabilité est l’équiprobabilité car la pioche est effectuée au hasard et, par conséquent, la probabilité d’un événement E se calcule comme |E|/|Ω|. ? Introduction d’une variable aléatoire pertinente. On cherche p(“au moins un des jetons a un no > 8”). On définit la variable aléatoire X = le plus grand des deux numéros piochés. Il s’agit bien d’une valeur numérique associée à chacun des résultats possibles de l’expérience. L’intérêt de X est que : au moins un des deux numéros piochés est plus grand que 8 ssi X > 8. On cherche donc p(X > 8). ? Étudions la loi de X. Les valeurs que peut prendre X sont les entiers entre 2 et 10. Pour 2 6 i 6 10, les paires pour lesquelles = i”| = (i−1) . X = i sont (1, i); (2, i); . . . ; (i − 1, i). Il y a donc i − 1 telles paires. Donc p(X = i) = |“X|Ω| 45 La loi de X est donc : i p(X = i) 2 1/45 3 2/45 ... ... 9 8/45 10 . 9/45 ? Réponse à la question. p(X > 8) = p(X = 8) + p(X = 9) + p(X = 10) = 24/45 = 8/15. • Remarques. 1 - Dans cet exemple, on pourrait se passer de définir X et résoudre la question en dénombrant directement les paires “favorables”, parce que le calcul direct est assez simple. Lorsque le dénombrement direct est complexe, l’introduction d’une variable aléatoire bien choisie peut simplifier le travail en fractionnant les calculs. 2 - Mais l’intérêt est aussi d’obtenir des informations intermédiaires, par exemple ici, les probabilités que le plus grand numéro pioché soit i. Ces informations permettent de résoudre des questions du même type sans recommencer tous les calculs. Par exemple, on peut calculer facilement, grâce à X, que la probabilité de piocher au moins un numéro plus grand que 6, est 35/45 (voir aussi la nouvelle question ci-dessous). 3 - Dans ce genre d’exercice, la petite difficulté consiste bien sûr à trouver la variable aléatoire qui est adaptée à la question posée. N’importe quelle application Ω → IR est une variable aléatoire, mais, par exemple, la somme, la moyenne ou le plus petit des deux numéros piochés ne sont pas des informations exploitables pour la question qui nous est posée ici. • Nouvelles questions. ? Quelle est la probabilité de piocher deux jetons avec des numéros inférieurs ou égaux à 6 ? On peut penser à définir une variable aléatoire adaptée à la situation. On observe que : les deux numéros sont inférieurs à 6 ssi le plus grand des deux est inférieurs à 6. C’est donc encore la variable X qui est pertinente. p(X 6 6) = . . . . ? Quelle est la probabilité de piocher deux jetons avec des numéros supérieurs à 8 ? Cette fois X ne nous aide pas car X ne renseigne pas sur le plus petit des deux numéros piochés. (Si X 6 8 alors le plus petit numéro pioché est 6 7, mais pour X > 9 ?) L’information décisive est la valeur de Y = plus petit des deux numéros piochés. Car les deux numéros sont supérieurs à 8 ssi Y > 8. Le calcul de la loi de Y est similaire à celui de la loi de X. Et on obtient p(Y > 8) = 3/45 (exercice). Bien sûr, X et Y sont liés par certaines relations, par exemple : X > Y i.e. X > Y + 1. 4 Loi binomiale. 5.13 Définition. — Dans le cas de n tirages de Bernoulli (avec probabilité de succès p à chaque tirage), la variale aléatoire X = nombre de succès obtenus au cours des n tirages suit la loi Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 29 binomiale de paramètres n, p. Cela signifie que, pour tout 0 6 k 6 n, p(“X = k”) = Cnk pk q n−k où q = 1 − p. On écrit X = B(n, p). On dit que la variable aléatoire X est binomiale. 5.14 Remarque. — Puisqu’on compte des succès, la valeur de X est bien un entier naturel ; et puisqu’on effectue n tirages, la valeur de X est entre 0 et n. Voir le paragraphe 4 page 20 5.15 Exemple. — Trois lancers d’un pièce avec probabilité d’obtenir Pile = p. Le variable aléatoire X = nombre de Pile obtenus suit la loi binomiale de paramètres 3, p. 0 1 2 3 i Loi B(3, p) p(X = i) (1 − p)3 3(1 − p)2 p 3(1 − p)p2 p3 5.16 Exemple. — Problème des points ou des partis. Deux joueurs, A et B, disputent un nombre impair, 2n + 1, de manches. À chaque manche, la probabilité de victoire de A est p, indépendamment des autres manches, et elle est de q = 1 − p pour B. Les joueurs misent la même somme, par exemple 10. Et le vainqueur de la partie, celui qui gagnera le plus de manches, gagnera la somme mise en jeu. Mais la partie est interrompue avant la fin, alors que A a gagné k manches et B en a gagné l, avec l 6 k 6 n. Quelle somme chacun des deux joueurs doit-il prendre ? Il est admis que les joueurs doivent reprendre les mises en proportion de leur probabilité de victoire finale. La question est donc : quelle est la probabilité de gagner la partie de chacun des joueurs, lorsqu’on connaît le score à moment donné ? Par exemple, on joue en 13 manches et A mène 5 manches gagnées à 4. Il reste donc 4 manches à jouer, et A gagnera la partie ssi il/elle gagne au moins 2 des manches restantes. Tandis B gagnera dans les autres cas i.e. ssi A gagne au plus 1 des 4 manches restantes. Soit X = nombre de manches gagnées par A parmi les 4 restantes. Les manches restantes constituent une série de tirages de Bernoulli (deux issues : A gagne ou B gagne, identiques, indépendantes). On décide que, parmi les deux issues possibles de chaque tirage, succès signifie victoire de A. Alors X compte le nombre de succès au cours des 4 tirages de Bernoulli, et donc sa loi est B(4, p). On en déduit que : p(“A gagne la partie”) = p(X > 2) = p(X = 2) + p(X = 3) + p(X = 4) = 6p2 q 2 + 4p3 q + p4 = 1 − p(X < 2) = p(X = 0) + p(X = 1) = 1 − (q 4 + 4pq 3 ). Dans le cas où p = q = 1/2, on a p(X > 2) = 11/16. 5.17 Exemple. — ? Une usine fabrique des vis, et 1% d’entre elles sont défectueuses. Le fabriquant rembourse les sachets de 10 vis lorsqu’ils contiennent au moins deux vis défectueuses. Quelle est la proportion de sachets à rembourser ? # sachets à rembourser . On reconnaît aussi la formule de Laplace : ? Par définition, cette proportion est # total de sachets dans le cas où on choisit un sachet au hasard parmi tous les sachets produits, la probabilité de choisir un sachet à rembourser est aussi donnée par cette fraction. ? Il s’agit donc de déterminer, pour un sachet, la probabilité qu’il soit à rembourser. Un sachet est constitué de 10 vis, chacune pouvant être défectueuse avec une probabilité p = 0, 01 ou en bon état avec une probabilité q = 0, 99, et l’état d’une vis ne dépend en rien de l’état des autres vis du sachet. La constitution d’un sachet est donc une série de 10 tirages de Bernoulli. Donc, si X = nombre de vis défectueuses dans le sachet alors la loi de X est la loi binomiale de n = 10, p = 0, 01. De plus, un sachet est remboursable ssi au moins deux vis sont défectueuses, i.e. X > 2. ? Donc p(“le sachet à rembourser”) = p(X > 2) = p(X = 2) + p(X = 3) + · · · + p(X = 10) calcul trop long, penser à l’événement contraire 0 10 1 = 1 − p(X < 2) = 1 − (p(X = 0) + p(X = 1)) = 1 − (C10 q + C10 pq 9 ) 9 9 = 1 − q (q + 10p) = 1 − 0, 99 × 1, 09 ' 0, 00427 (< 1/200). version du 19 décembre 2015 30 Variables aléatoires ? Question supplémentaire : quelle est la proportion de sachet avec exactement une vis défectueuse ? 1 On cherche p(X = 1), qui vaut C10 pq 9 = 10 × 0, 01 × 0, 999 ' 0, 091 (9, 1%). Récapitulatif vis défectueuse(s) prop. de sachets 0 90,4% 1 9,1% >2 0,43% 5.18 Définition. — Lorsque n = 1 (un seul tirage), on parle de variable aléatoire de Bernoulli. Il s’agit donc de la variable qui vaut 1 avec une probabilité p et 0 avec une probabilité q = 1 − p. Le nombre p est le paramètre de cette variable aléatoire. On compte les succès, mais sur un seul tirage. 5.19 Remarques. — Lorsqu’on effectue, par exemple, 4 tirages de Bernoulli, on peut définir, pour chacun d’eux, sa propre variable aléatoire, qui vaut 0 si échec et 1 si succès. On a ainsi 4 variables aléatoires de Bernoulli X1 , X2 , X3 , X4 , qui sont toutes de même loi. Mais elles ne sont pas égales. (On peut avoir X1 = 1 et X2 = 0.) En revanche, elles sont totalement indépendantes. De plus, X = nombre total de succès au cours des 4 tirages vaut X1 + X2 + X3 + X4 . — C’est un résultat général : la somme de n variables aléatoires de Bernoulli de même loi i.e. de même paramètre p, et totalement indépendantes, est une variable aléatoire de loi binomiale de paramètres n et p. 5 Fonction de répartition associée à une variable aléatoire. 5.20 Remarque. — Soit X une variable aléatoire finie. Nommons et ordonnons ses valeurs possibles, ce sont a1 < a2 < · · · < ak . Alors pour un réel t, si t < a1 , p(X 6 t) = 0 si ai 6 t < ai+1 , p(X 6 t) = p(X = a1 ) + · · · + p(X = ai ) si ak 6 t, p(X 6 t) = 1 5.21 Définition. – La fonction de répartition (cumulative) de la variable aléatoire X est définie par F (t) = p(X 6 t) pour t ∈ IR (éventuellement t ∈ I où I est un intervalle contenant toutes les valeurs possibles de X). 5.22 Exemple. — Trois lancers d’une pièce, X = nombre de Pile obtenus. Les valeurs possibles sont 0, 1, 2, 3. Les valeurs de F , associée à X, sont t −∞ 0 1 2 F (t) = p(X 6 t) = 0 p(X = 0) p(X = 0) + p(X = 1) cas équilibré 0 1/8 1/2 3 p(X = 0) + p(X = 1) + p(X = 2) 7/8 +∞ 1 1 [graphe] 5.23 Remarques. — La fonction de répartition est à valeurs dans [0; 1]. Et elle est croissante. — La fonction de répartition est associée à la variable aléatoire, elle lui est étroitement liée. Et même, dans le cas où X est finie, connaître F équivaut à connaître X puisque - p(X = a1 ) = F (a1 ), - p(X = ai+1 ) = F (ai+1 ) − F (ai ). — Remarquons aussi la propriété suivante : pour tout a ∈ IR, p(X = a) = F (a) − lim F (t) t→a,t<a Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 31 En effet, si a n’est pas une des valeurs possibles de X, alors p(X = a) = 0. Comme X est finie, on peut trouver ε > 0 tel qu’aucune des valeurs possibles de X n’est dans ]a − ε; a]. Donc F est constante sur cet intervalle et donc lim F (t) = F (a). t→a,t<a Si a = a1 , F vaut 0 sur ] − ∞; a1 [ donc lim t→a,t<a F (t) = 0 et F (a1 ) = p(X = a1 ). Si a = ai+1 , F vaut F (ai ) sur [ai ; ai+1 [ et c’est donc la valeur de la limite à gauche de F en ai+1 . Et F (ai+1 ) = F (ai ) + p(X = ai+1 ). version du 19 décembre 2015 6 1 32 variables aléatoires indépendantes VARIABLES ALÉATOIRES INDÉPENDANTES Variables aléatoires conjointes. 6.1 Exemple. – Urne contenant 3 boules rouges, 4 bleues, 5 vertes. On en choisit deux au hasard (sans remise). On définit deux variables aléatoires associées à cette expérience : R = nombre de boules rouges piochées et B = nombre de boules bleues piochées. Chacune de ces deux variables aléatoires a sa propre loi. Mais on peut définir des événements qui tiennent compte à la fois de la valeur de R et la valeur de B. Par exemple E = “piocher au moins une rouge et au plus une bleue” est l’événement “R > 1”∩“B 6 1”. On sait comment calculer la probabilités d’événement comme E, car il ne s’agit que d’une intersection. Mais les variables R et B sont liées dans le sens où la valeur l’une a, ou peut avoir, des conséquences sur les différentes probabilités de l’autre. Par exemple si R = 2, la probabilité que B 6 1 est égale à 1. Voir aussi la fin de l’exemple 5.12. Ou encore la section suivante pour des exemples où les deux variables sont indépendantes. 6.2 Définition. — Deux variables aléatoires X et Y associées à la même expérience aléatoire sont dites conjointes. La loi conjointe de X et Y est donnée par p(“X = a; Y = b”) = p(“X = a” ∩ “Y = b”), pour tous a, b valeurs possibles de X, Y (resp.). 6.3 Exemple. — (suite) On peut modéliser l’expérience de plusieurs façons. ? Par exemple, si on choisit de ne retenir que les couleurs des boules piochées, et l’ordre de pioche, l’ensemble fondamental est {(couleur1 , couleur2 )|couleuri = rouge, bleu ou vert} et la loi de probabilité se calcule sans difficulté grâce au conditionnement (comme pour les exemples 3.10 et 3.11). ? Nous choisissons plutôt de considérer les boules, sans ordre. L’ensemble fondamental Ω est donc l’ensemble 2 des paires qu’on peut constituer avec les 12 boules de l’urne ; il y en a C12 = 66. Cette approche permet d’avoir pour loi l’équiprobabilité ; et le calcul des différentes probabilités consiste à dénombrer les paires favorables pour appliquer la formule de Laplace. On a ainsi C2 10 # paires de vertes = 25 = p(R = 0; B = 0) = p(“R = 0” ∩ “B = 0”) = p(“piocher 2 vertes”) = # total de paires 66 C12 C41 × C51 20 # paires avec 1b 1v p(R = 0; B = 1) = p(“R = 0” ∩ “B = 1”) = p(“piocher 1 b 1 v”) = = = 2 # total de paires 66 C12 6 C42 p(R = 0; B = 2) = p(“R = 0” ∩ “B = 2”) = p(“piocher 2 bleues”) = 2 = . 66 C12 1 1 C ×C 15 C1 × C1 12 Puis p(R = 1; B = 0) = p(“piocher 1 r 1 v”) = 3 2 5 = et p(R = 1; B = 1) = 3 2 4 = 66 66 C12 C12 et p(R = 1; B = 2) = 0 car “R = 1” et “B = 2” sont des événements incompatibles. Enfin p(R = 2; B = 0) = C32 3 = 2 66 C12 et p(R = 2; B = 1) = p(R = 2; B = 2) = 0. 6.4 Remarques. — Les résultats sont récapitulés dans le tableau, qui décrit la loi conjointe de R et B : R = \B = 0 1 2 0 1 2 total colonne 10/66 15/66 3/66 28/66 = p(B = 0) 20/66 12/66 0 32/66 = p(B = 1) 6/66 0 0 6/66 = p(B = 2) total ligne 36/66 27/66 3/66 1 = p(R = 0) = p(R = 1) = p(R = 2) — Dans la marge à droite, à la fin de chaque ligne est indiquée la somme des probabilités du tableau. Cette somme est la probabilité pour R de prendre la valeur correspondant à cette ligne (démonstration ci-dessous). Ainsi la marge à droite rappelle la loi de R ; on dit aussi la probabilité Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 33 marginale de R. De même dans la marge en bas, se trouve la probabilité marginale de B, i.e. le rappel de la loi de B ; et qui correspond à la somme des colonnes du tableau. Démonstration. Les événements “B = 0”, “B = 1” et “B = 2” constituent une partition de Ω et donc p(R = 0; B = 0) + p(R = 0; B = 1) + p(R = 0; B = 2) = p(“R = 0” ∩ “B = 0”) + p(“R = 0” ∩ “B = 1”) + p(“R = 0” ∩ “B = 2”) = p((“R = 0” ∩ “B = 0”) ∪ (“R = 0” ∩ “B = 1”) ∪ (“R = 0” ∩ “B = 2”)) = p(“R = 0” ∩ (“B = 0” ∪ “B = 1” ∪ “B = 2”)) = p(“R = 0” ∩ Ω) = p(“R = 0”). car l’union est disjointe 6.5 Indépendance, conditionnement, pour des événements du type “X = a”. — Dans l’exemple précédent “R = i” et “B = j” ne sont pas des événements indépendants (pour i = 0, 1, 2 et j = 0, 1, 2) puisque p(R = i; B = j) = p(R = i ∩ B = j) 6= p(R = i) × p(B = j). Cela signifie que dans le tableau de la loi conjointe, la probabilité dans la case (i, j) n’est pas le produit des probabilités marginales. — Conditionnement avec deux variables aléatoires. p(X = a; Y = b) p(X = a ∩ Y = b) = . Dans le cas général p“Y = b” (X = a) = p(Y = b) p(Y = b) Exemples. Probabilité de piocher deux bleues si on pioche 0 rouge 6/66 p(R = 0; B = 2) 1 = = p“R = 0” (B = 2) = R=0 36/66 6 Probabilité de piocher 1 bleue si on pioche 1 rouge p(R = 1; B = 1) 12/66 4 p“R = 1” (B = 1) = = = . R=1 27/66 9 2 Variables aléatoires indépendantes. 6.6 Définition. — Deux variables aléatoires X, Y , associées à la même expérience aléatoire, sont indépendantes si (1) pour tous A, B, ensembles de valeurs possibles pour X et Y , respectivement, on a p(X ∈ A; Y ∈ B) = p(X ∈ A) · p(Y ∈ B) i.e. “X ∈ A” et “Y ∈ B” sont des événements indépendants. ou encore, de façon équivalente (2) idem mais seulement pour les ensembles du type A =] − ∞; a] et B =] − ∞; b], i.e. pour tous réels a, b, p(X 6 a; Y 6 b) = p(X 6 a) · p(Y 6 b). ou encore, dans le cas où X et Y sont discrètes (3) pour toutes valeurs possibles a de X et b de Y , p(X = a; Y = b) = p(X = a) · p(Y = b), i.e. “X = a” et “Y = b” sont des événements indépendants. 6.7 Remarques. — Dire que X et Y sont indépendantes signifie que, quelle que soit la valeur de l’une des variables aléatoires (ou seulement une information partielle sur cette valeur), cela ne modifie pas la probabilités de l’autre variable. — Pour deux variables discrètes X et Y . Elles sont indéX = \Y = . . . bj . . . loi de X .. pendantes ssi leur loi conjointe est simplement le produit . des lois de X et de Y . a pq ← p i .. . loi de Y 6.8 Exemples. — Cas de m + n tirages de Bernoulli. ? À chaque tirage la probabilité de succès est p, d’échec q = 1 − p. i j ↑ qj i version du 19 décembre 2015 34 variables aléatoires indépendantes Soient les variables aléatoires X = nombre de succès au cours des m premiers tirages, Y = nombre de succès au cours des n derniers tirages, Z = nombre total de succès au cours des m + n tirages = X + Y . ? Les tirages sont totalement indépendants et il n’y a donc aucune raison pour que X et Y aient une influence l’une sur l’autre. Ces deux variables sont donc indépendantes et la loi conjointe est la suivante : i i m−i pour 0 6 i 6 m et 0 6 j 6 n, p(X = i; Y = j) = p(X = i) · p(Y = j) = Cm pq · Cnj pj q n−j . N.B. On peut ajouter que la probabilité pour Z de valoir i + j provient du cas où (X, Y ) = (i, j), mais aussi des i+j cas (X, Y ) = (0, i + j); (1, i + j − 1); . . . (i + j, 0). Et donc p(Z = i + j), qui vaut Cm+n pi+j q m+n−(i+j) est aussi la somme des p(X = 0; Y = i + j), p(X = 1; Y = i + j − 1), . . ., p(X = i + j; Y = 0). ? Par ailleurs, Z = X + Y et Z et X ne sont pas indépendantes. On le constate par exemple pour p(X 6= 0; Z = 0) qui vaut 0 car l’événement “Z = 0” entraîne l’événement “X = 0” et donc “Z = 0” et “X 6= 0” sont incompatibles (“Z = 0”⊂“X = 0” donc “Z = 0”∩“X 6= 0”= ∅.) Ou encore p(Z = 0) = q m+n mais p“X = 0” (Z = 0) = p(Y = 0) = q n donc l’ information “X = 0” modifie la probabilité de “Z = 0”. Introduction aux probabilités – B. Mariou – Automne 2015 7 1 version du 19 décembre 2015 35 ESPÉRANCE ET VARIANCE Espérance d’une variable aléatoire. 7.1 Définition. – Pour une v.a. discrète X, à valeurs dans A, l’espérance est la moyenne des valeurs possibles, pondérées par leurs probabilités : E[X] = P a · p(X = a). a∈A 7.2 Remarques. – L’espérance, ou valeur attendue, ou moyenne, de X, apporte une information sur la répartition des probabilités parmi les valeurs possibles. Par exemple, pour X1 , X2 ∈ {0; 100}, de lois : i p(X1 = i) p(X2 = i) 0 0,99 0,01 100 0,01 0,99 E[X1 ] = 0 × 0, 99 + 100 × 0, 01 = 1 E[X2 ] = 0 × 0, 01 + 100 × 0, 99 = 99. – L’idée vient des jeux. On parle alors d’espérance de gain. Supposons qu’à chaque partie jouée, on gagne G avec probabilité p et on gagne 0 avec probabilité 1 − p, alors l’espérance de gain est 0 × (1 − p) + G × p = Gp. L’idée sous-jacente est que la probabilité correspond à la fréquence de réalisation de l’événement lorsqu’on répète l’expérience un grand nombre de fois. Et donc ici p serait la proportion de parties gagnées lorsqu’on joue un grand nombre de parties. Après un grand nombre de parties, le gain total vaut G × #parties gagnees. Et le gain moyen par gain total G×#parties gagnees gagnees partie est #parties = G × #parties jouees = #parties jouees #parties jouees = Gp. 7.3 Exemples. – version du 19 décembre 2015 36 Espérance et variance 7.4 Remarque. – si X positive alors son espérance est positive, et si X strictement positive alors son espérance aussi • Espérance de deux (ou plusieurs) variables aléatoires. Soient deux v.a. X, Y , associées à la même expérience aléatoire, et deux réels α, β, on a E[αX + βY ] = αE[X] + βE[Y ]. 7.5 Théorème Version généralisée — Soient des v.a. X1 , . . . , Xn , associées à la même expérience aléatoire, et des réels α1 , . . . , αn , β on a E[α1 X1 + · · · + αn Xn + β] = α1 E[X1 ] + · · · + αn [Xn ] + β. Démonstration. Soient A l’ensemble des valeurs possibles de X et B l’ensemble des valeurs possibles de Y . Considérons Z = αX + βY . C’est une v.a., et C = {αa + βb|a ∈ A, b ∈ B} est l’ensemble des valeurs possibles pour Z. La loi de Z est liée à la loi conjointe de X et Y . P Pöur c ∈ C, p(Z = c) = p(X = a; Y = b). a ∈ A, b ∈ B, tq αa + βb = c P Et alors E[Z] = c · p(Z = c) = c∈C = P P c∈C X P αa p(X = a; Y = b) {z T = P = αa a∈A P p(X = a; Y = b) = b∈B P αa p(X = a) a∈A Mais, pour tout a ∈ A, le terme P a∈A = P a∈A a∈A,b∈B P βb p(X = a; Y = b) a∈A,b∈B a∈A,b∈B T = X αa p(X = a; Y = b) + | Et p(X = a; Y = b) ) a ∈ A, b ∈ B, tq αa + βb = c (αa + βb) p(X = a; Y = b) = a∈A,b∈B P c( } | {z } U P αa p(X = a; Y = b) b∈B αa P p(X = a) p(X=a) (Y = b) b∈B p(X=a) (Y = b) . b∈B P p(X=a) (Y = b) vaut 1 car p(X=a) est une loi de probabilité et B b∈B est l’ensemble de toutes les valeurs possibles de Y . Donc T = P αa p(X = a) = αE[X]. a∈A De la même façon, on prouve que U = βE[Y ]. La version généralisée s’obtient par récurrence, à partir de la formule pour deux v.a., et avec l’aide de la remarque qui suit pour le terme constant. 7.6 Remarque. – Dans le cas où Y est la variable triviale valant 1 avec une probabilité 1, on obtient αX + βY = αX + β car Y ne peut prendre que la valeur 1 et E[αX + β] = E[αX + βY ] = αE[X] + βE[Y ] = αE[X] + β On retrouve la formule démontrée en 7.9. car E[Y ] = 1. 7.7 Exemples. – ? On lance n fois une pièce qui donne Pile avec probabilité p. On appelle X le nombre de Pile et Y le nombre de Face obtenus. Alors la loi de X est B(n, p) et celle de Y est B(n, 1 − p), mais les deux v.a. ne sont pas indépendantes car X + Y = n. Si chaque Pile fait gagner 3 points et chaque Face fait perdre un point, le score est donné par la v.a. Z = 3X − Y . Alors E[Z] = E[3X − Y ] = 3E[X] − E[Y ] = 3np − n(1 − p) = 4np − n. Si p < 1/4 alors E[Z] < 0. Si p = 1/4 alors E[Z = 0]. Si la pièce est équilibrée, alors E[Z] = n. ? Lancer de n dés. On appelle X1 le score du premier dé, . . ., Xn le score du n-ième dé (X1 , . . . , Xn sont totalement indépendantes). Le score total est Z = X1 + · · · + Xn et E[Z] = E[X1 ] + · · · + E[Xn ] = 27 × n Introduction aux probabilités – B. Mariou – Automne 2015 2 version du 19 décembre 2015 37 Variable aléatoire transformée par une fonction. 7.8 Exemple. – 7.9 Exemple. – 7.10 Notation. – Soit X une v.a. associée à une expérience aléatoire d’ensemble fondamental Ω, i.e. une application Ω → IR. Si g est une application IR → IR, on peut les composer. La composée g ◦ X est une application Ω → IR i.e. une v.a. associée à la même expérience. On la note plus simplement g(X), ce qui rappelle qu’elle est obtenue par transformation de X par g. 7.11 Exemples. – 7.12 Théorème. – P Si g : IR → IR alors E[g(X)] = g(a) · p(X = a). a∈A Démonstration. 3 Variance d’une variable aléatoire. 7.13 Exemples. – Trois variables aléatoires de même espérance : i= p(X = i) p(Y = i) p(Z = i) -100 -1 0 1 1/2 1 100 1/2 1/2 1/2 7.14 Remarque. – L’espérance est la valeur autour de laquelle sont réparties équitablement les probabilités (voir 7.2) mais elle ne renseigne pas sur l’éloignement des probabilités par rapport à cette valeur centrale. La variance est une nouvelle mesure caractéristique de la loi de la v.a.. Elle fournit des informations sur les valeurs non centrales. 7.15 Définition. – Soit X est une v.a. d’espérance finie µ. Sa variance est définie par var(X) = E[(X − µ)2 ]. La variance est la moyenne, pondérée par les probabilités, du carré de la ”distance” entre X et µ. 7.16 Remarque. – On a toujours var(X) > 0 puisque c’est l’espérance de la v.a. (X − µ)2 , qui est positive (remarque 7.4). 7.17 Théorème. Soit X une v.a. d’espérance et variance finies. Alors var(X) = E[X 2 ] − E[X]2 . Démonstration. Posons µ = E[X] et appelons A l’ensemble des valeurs possibles pour X. La variance est définie comme l’espérance de la v.a. (X − µ)2 . Donc : P var(X) = (a − µ)2 p(X = a) d’après 7.12 a∈A = P (a2 − 2aµ + µ2 ) · p(X = a) a∈A = P a2 · p(X = a) + a∈A = E[X 2 ] P (−2aµ) · p(X = a) + a∈A − 2µ P a · p(X = a) a∈A = E[X 2 ] − 2µE[X] µ2 · p(X = a) P a∈A 2 +µ P p(X = a) d’après 7.12 a∈A + µ2 × 1 = E[X 2 ] − 2µ2 + µ2 . Ou encore, on peut utiliser le théorème 7.5 : var(X) = E[(X − µ)2 ] = E[X 2 − 2µX + µ2 ] = E[X 2 ] − 2µE[X] + µ2 = E[X 2 ] − µ2 . 7.18 Exemples. – Pour les v.a. de l’exemple 7.13, à chaque fois µ = 0 et donc : var(X) = E[(X − 0)2 ] = E[X 2 ] − 02 = E[X 2 ] = 02 · p(X = 0) = 0 version du 19 décembre 2015 38 Espérance et variance var(Y ) = E[Y 2 ] = (−1)2 · p(Y = −1) + 12 · p(Y = 1) = 1 × 2 2 1 2 +1× 1 2 =1 2 var(Z) = E[Z ] = (−100) · p(Z = −100) + 100 · p(Z = 100) = 10000 × 1 2 + 10000 × 1 2 = 10000. 7.19 Exemple. – Lancer d’un dé. Soit X le score obtenu. 7 On a vu que µ = E[X] = . 2 91 Donc var(X) = − 6 2 Et on a E[X ] = a=1 2 7 2 6 X 1 = 6 7 1− 2 2 7 + ··· + 6 − 2 a=1 182 − 49 × 3 35 = = . 12 12 Calcul avec la définition : var(X) = E[(X − µ)2 ] = 6 1X 2 91 . a p(X = a) = a = 6 6 2 2 1 = 6 −5 2 2 + 6 P (a − µ)2 · p(X = a) a=1 −3 2 2 + −1 2 2 + 2 1 2 + 2 3 2 + 2 5 2 = ... 7.20 Exemple : cas d’une v.a. de Bernoulli de paramètre p – Appelons X cette v.a. qui prend la valeur 1 avec une probabilité p et prend la valeur 0 avec probabilité (1 − p). On a donc E[X 2 ] = 1.p + 0.(1 − p) = p. Puis var(X) = E[X 2 ] − E[X]2 = p − p2 = p(1 − p). 7.21 Théorème. Soient α, β ∈ IR et X une v.a. var(αX + β) = α2 var(X). Démonstration.Posons µ = E[X]. Avec la formule qui définit la variance, et en utilisant le théorème 7.5 : var(αX + β) = E[(αX + β − E[αX + β])2 ] = E[(αX + β − (αE[X] + β))2 ] = E[(αX − αµ)2 ] = E[α2 (X − µ)2 ] = α2 E[(X − µ)2 ] Avec la deuxième formule, toujours à l’aide du théorème 7.5 : var(αX + β) = E[(αX + β)2 ] − E[αX + β]2 = E[α2 X 2 + 2αβX + β 2 ] − (αE[X] + β)2 = α2 E[X 2 ]+2αβE[X]+β 2 −(α2 µ2 +2αβµ+β 2 ) = α2 E[X 2 ]−α2 µ2 = α2 (E[X 2 ]−µ2 ). 7.22 Définition. – L’écart-type de la v.a. X est défini par ET (X) = p var(X). 7.23 Remarques. – L’écart-type, en anglais standard deviation, est donc souvent noté SD. – L’écart-type, dans le cas de données statistiques, est dans la même unité que les données et que l’espérance. (Par exemple, pour des âges exprimés en années, l’écart-type sera en années tandis que la variance sera en années2 .) – Ces nombres associés à une v.a. X décrivent des caractéristiques importantes de la loi de X. L’espérance est la valeur centrale de X, et la variance précise la dispersion plus ou moins grande des probabilités autour de la valeur centrale. Ces nombres caractéristiques permettent de connaître certains aspects de la loi de X mais pas toute la loi de X. 4 Remarques complémentaires. • Une autre valeur centrale : la médiane. 7.24 Définition. – La médiane (empirique) de la v.a. est, parmi les valeurs possibles de X, la plus petite valeur a telle que p(X 6 a) > 21 . 7.25 Exemples. – ? Avec la fonction de répartition cumulative, pour le cas de 3 lancers d’une pièce équilibrée. [schéma] ? Lancer d’un dé non truqué. Soit X le score obtenu. On a i p(X 6 i) La médiane de X est donc 3, tandis que l’espérance de X est 3,5. 1 2 3 4 5 1 6 2 6 3 6 4 6 5 6 ? Lancer de deux dés équilibrés. Soit Y la somme des deux scores. L’espérance de Y est 7. 1 2 3 4 5 Par ailleurs, p(Y < 7) = p(Y > 7) = 36 + 36 + 36 + 36 + 36 = 15 < 12 . 36 Donc p(Y 6 7) = 1 − p(Y > 7) > 21 . Et la médiane de Y est aussi 7. 6 . 1 Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 39 7.26 Remarque. – Propriété fondamentale de la médiane. Le nombre m est la médiane de X ssi p(X 6 m) > 21 et p(X < m) < 12 , autrement dit ssi p(X 6 m) > 12 et p(X > m) = 1 − p(X < m) > 21 . [schéma] 7.27 Les avantages de la médiane par rapport à l’espérance : - elle est insensible aux valeurs extrêmes, - c’est une des valeurs que peut prendre X, - pour la trouver, il n’est pas nécessaire de connaître entièrement la loi de X. On a rencontré un inconvénient dans le deuxième exemple ci-dessus. La médiane du score d’un dé est 3, selon la définition, alors que la valeur 3, pour le lancer d’un dé, n’est pas plus centrale que la valeur 4. • Variance et dispersion. 7.28 Interprétation de la variance. – Faible variance : les valeurs à forte probabilité sont concentrées autour de l’espérance. Forte variance : les valeurs à forte probabilité sont dispersées loin de l’espérance. 7.29 Cas limite. – Que signifie var(X) = 0 ? Posons µ = E[X]. Alors var(X) = E[(X − µ)2 ] = (a − µ)2 p(X = a). C’est une somme P a∈A de termes positifs et elle est donc nulle ssi tous les termes sont nuls ; autrement dit ssi, pour tout a ∈ A, a = µ ou p(X = a) = 0. Cela signifie que, parmi les valeurs possibles de X, la seule qui ne soit pas de probablité nulle, est la valeur µ (et alors p(X = µ) = 1). Donc var(X) = 0 ssi X est la v.a. triviale pour laquelle toute la probabilité est concentrée en une seule valeur (qui est donc l’espérance). • Espérance et produit de v.a. indépendantes. Soient X et Y deux v.a. indépendantes Alors E[X · Y ] = E[X] · E[Y ] et var(X + Y ) = var(X) + var(Y ). 7.30 Théorème Version généralisée – Soient X1 , . . . , Xn des v.a. totalement indépendantes. Alors E[X1 X2 . . . Xn ] = E[X1 ]E[X2 ] . . . E[Xn ] et var(X1 + · · · + Xn ) = var(X1 ) + · · · + var(Xn ). Démonstration. Soient A l’ensemble des valeurs possibles de X et B l’ensemble des valeurs possibles de Y . Posons Z = X · Y . Les valeurs possibles de Z sont les ab où a ∈ A et b ∈ B. On a donc, pour c P valeurs possibles de Z : p(Z = c) = p(X = a; Y = b). a∈A,b∈B,ab=c E[X · Y ] On a alors P = c · p(Z = c) = ab p(X = a; Y = b) = c valeur de Z = P a∈A = P P p(X = a; Y = b) a∈A,b∈B,ab=c ab p(X = a) · p(Y = b) car indépendantes a∈A,b∈B P P P c c valeur de Z a∈A,b∈B = P ab p(X = a) · p(Y = b) = b∈B a p(X = a) · a∈A (a p(X = a) E[Y ]) a∈A Puis var(X + Y ) P = E[Y ] P b p(Y = b) b∈B P a p(X = a) = E[Y ] · E[X]. a∈A = = = = = E[(X + Y )2 ] − E[X + Y ]2 E[X 2 + 2XY + Y 2 ] − (E[X] + E[Y ])2 ] d’après 7.5 E[X 2 ] + 2E[XY ] + E[Y 2 ] − E[X]2 − 2E[X]E[Y ] − E[Y ]2 d’après 7.5 (E[X 2 ] − E[X]2 ) + (E[Y 2 ] − E[Y ]2 ) + 2(E[XY ] − E[X]E[Y ]) var(X) + var(Y ) + 0 car X, Y indépendantes. 7.31 Exemple de deux v.a. non indépendantes. – Soit X v.a. de Bernoulli de paramètre p. Et soit version du 19 décembre 2015 40 Espérance et variance Y = 1 − X, qui est aussi une v.a. de Bernoulli, mais de paramètre 1 − p. Les espérances respectives de X et Y sont p et 1 − p. Mais X est Y ne sont pas indépendantes puisque X + Y = 1 (donc, par ex. pX=0 (Y = 0) = 0 6= p(Y = 0)). La v.a. produit X.Y vaut 0 avec une probabilité 1 et donc E[XY ] = 0. Tandis que E[X]E[Y ] = p(1−p) 6= 0. 7.32 Remarque. – Que signifie X est indépendante de X ? Dans ce cas, d’après le théorème ci-dessus, E[X 2 ] = E[X · X] = E[X] · E[X] = E[X]2 et donc var(X) = 0. Donc, X est la variable triviale : une seule valeur a une probabilité 1 (remarque 7.29). Autre raisonnement. Si X prend deux valeurs distinctes a1 , a2 , on doit avoir, puisque X est indépendante de X, p(X = a1 ; X = a2 ) = p(X = a1 ) · p(X = a2 ) mais X = a1 ∩ X = a2 = ∅ donc p(X = a1 ; X = a2 ) = p(X = a1 ∩ X = a2 ) = 0. Donc, pour toutes valeurs distinctes de X, p(X = a1 ) · p(X = a2 ) = 0 donc au moins une de ces deux probabilités est 0. Il y a donc une seule valeur pour laquelle la probabilité est non nulle. • Variable aléatoire centrée. 7.33 Définition. On dit qu’une variable aléatoire est centrée lorsque son espérance est nulle. 7.34 Variable centrée obtenue à partir de X. – Soit X une v.a. d’espérance (finie) µ. Alors la v.a. Y = X − µ est - centrée car E[X − µ] = E[X] − µ = 0, (d’après 7.5), - de même variance que X car var(X − µ) = var(X) selon le théorème 7.21, - de loi analogue à celle de X, à une translation de −µ près : pour tout a, p(Y = a) = p(X = a+µ). [schéma] 5 Cas de la loi binomiale. 7.35 Cas d’une v.a. de Bernoulli. – Soit X une v.a. de Bernoulli de paramètre p. On pose q = 1 − p. On a E[X] = p et var(X) = pq. Théorème Démonstration. La v.a. X vaut 1 avec probabilité p et 0 avec probabilité 1 − p. Donc E[X] = 0 · (1 − p) + 1 · p = p. Et E[X 2 ] = 02 · (1 − p) + 12 · p = p et donc var(X) = E[X 2 ] − E[X]2 = p − p2 = p(1 − p). Ou encore : var(X) = E[(X − E[X])2 ] = E[(X − p)2 ] = (0 − p)2 p(X = 0) + (1 − p)2 p(X = 1) = p2 q + q 2 p = . . . . 7.36 Cas d’une v.a. binomiale. – Soit X une v.a. binomiale de paramètres n, p. On pose q = 1 − p. On a E[X] = np et var(X) = npq. Théorème Première démonstration. Par définition, on a donc, pour tout 0 6 i 6 n, p(X = i) = Cni pi (1 − p)n−i . On va calculer E[X k ] pour k ∈ IN ∗ , ce qui permettra de connaître l’espérance de X et celle X 2 , utile pour le calcul de var(X). • E[X k ] = n P ik p(X = i) théorème 7.12, ici g : x 7→ xk i=0 n = P ik Cni pi (1 − p)n−i i=0 n = P ik Cni pi (1 − p)n−i car le terme pour i = 0 est nul i=1 Or Donc i Cni = i E[X k ] n × (n − 1)! n! n! i−1 = = = n Cn−1 . (n − i)! i! (n − i)! (i − 1)! ((n − 1) − (i − 1))! (i − 1)! = n P i=1 ik−1 (i Cni ) pi (1 − p)n−i k, l’exposant de i, vaut au moins 1 Introduction aux probabilités – B. Mariou – Automne 2015 = n P i=1 n = P i=1 = np np 41 i−1 ik−1 (n Cn−1 ) pi (1 − p)n−i i−1 ik−1 n Cn−1 p pi−1 (1 − p)(n−1)−(i−1) on utilise le fait que i > 1 n P i−1 ik−1 Cn−1 pi−1 (1 − p)(n−1)−(i−1) n et p sont constants j (j + 1)k−1 Cn−1 pj (1 − p)(n−1)−j changement d’indice j = i − 1 i=1 n−1 = version du 19 décembre 2015 P j=0 j Les termes Cn−1 pj (1 − p)(n−1)−j sont précisément les p(Y = j) où Y est une variable binomiale de paramètres n − 1, p ; i.e. dans le cas où Y compte le nombre de succès lorsqu’on effectue n − 1 tirages avec probabilité de succès p. n−1 Donc E[X k ] = np P (j + 1)k−1 p(Y = j) j=0 Dans cette dernière expression, la somme correspond à la formule de l’espérance de la v.a. Y transformée par l’application x 7→ (x + 1)k−1 (théorème 7.12). Donc E[X k ] = np E[(Y + 1)k−1 ]. • On obtient pour k = 1, pour k = 2, d’où donc, E[X] = np E[1] = np car E[β] = β pour β ∈ IR (selon 7.5) E[X 2 ] = np E[Y + 1] = np (E[Y ] + 1) = np((n − 1)p + 1) car Y = B(n − 1, p) 2 2 2 2 var(X) = E[X ] − E[X] = np((n − 1)p + 1) − n p = np ((n − 1)p + 1 − np) = np (−p + 1). Deuxième démonstration. Pour chaque i entre 0 et n, appelons Xi la v.a. qui indique si le i-ème tirage est un succès ou pas : Xi = 1 en cas de succès et Xi = 0 en cas d’échec. Chacune des Xi est un v.a. de Bernoulli, d’espérance p et de variance . De plus X = X1 + X2 + · · · + Xn puisque chaque Xi vaut le nombre de succès au tirage numéro i. Pour l’espérance, on a donc, d’après 7.5, E[X] = E[X1 ] + · · · + E[Xn ]. Mais E[Xi ] = p, donc E[X] = np. Pour la variance, on remarque que les Xi sont un ensemble de v.a. totalement indépendants, donc var(X) = var(X1 ) + · · · + var(Xn ) = p(1 − p) + · · · + p(1 − p) = np(1 − p). 7.37 Exemples. - Considérons n lancers d’une pièce équilibrée (p = q = 1/2) et appelons X le nombre de Pile obtenus. Cette v.a. suit la loi binomiale de paramètres n ,1/2 et donc son espérance est n/2, sa √ variance est n/4 et son écart-type est n/2. - Considérons n lancers d’un dé équilibré et appelons Y le nombre de 6 obtenus. La loi de cette v.a. √ est la loi binomiale de paramètres n, 1/6. Donc E[Y ] = n/6 et var(Y ) = 5n/36, ET (Y ) = 5n/6. 7.38 Remarque. – La valeur de p(1 − p) pour 0 6 p 6 1 est maximale pour p = 1/2. Donc la variance de la v.a. binomiale de loi B(n, p) est maximale lorsque p = 1/2, et elle vaut alors n/4. 6 Cas de la loi hypergéométrique. 7.39 Contexte. – Soit une population de N individus (billes colorées dans une urne, chevreuils dans une forêt, enfants dans une classe, etc), et une partie ciblée de cette population (les billes vertes dans l’urne, les chevreuils mâles dans la forêt, les enfants bilingues dans la classe, etc) constituée de m 6 N individus. On sélectionne n individus de cette population de façon aléatoire (pioche pour les billes, capture pour les chevreuils, tirage au sort pour les enfants). On appelle X le nombre d’individus, parmi ceux qu’on a sélectionnés, qui sont issus de la population ciblée. Exemple. Des biologistes peuvent être amenés à capturer des renards dans une zone délimitée, à les soigner et les munir de bagues, avant de les relâcher. Ils peuvent ensuite, par exemple, vouloir étudier l’évolution version du 19 décembre 2015 42 Espérance et variance de la santé des renards soignés et de ceux qui ne l’ont pas été ; et pour cela, ils en capturent quelques uns de temps en temps et les examinent. Peut-on prévoir le nombre de renards bagués que l’on va capturer alors ? Peut-on imaginer une méthode permettant d’évaluer la population totale des renards grâce à ces captures ? 7.40 Calculs. – Notons d’abord que X prend par définition des valeurs entières entre 0 et n. Pour 0 6 i 6 n, que vaut la probabilité que X soit égal à i ? On voudrait donc obtenir i individus de la population ciblée et n − i individus qui ne proviennent pas de la population ciblée. S’il n’y a pas assez d’individus ciblés i.e. i > m ou pas assez d’individus non ciblés i.e. n − i > N − m, alors cette probabilité est 0. 7.41 Définition. Loi hypergéométrique de paramètres N , m, n. Soit X représentant le nombre d’individus ciblés qu’on pioche lorsqu’on pioche n individus au hasard dans une population de N où se trouvent m individus ciblés. La loi de X est donnée par : Si on pose p = m - si i > m, alors p(X = i) = 0, N (= prop. d’individus ciblés), Alors - si n − i > N − m, alors p(X = 1) n−i i N −n Cm · CN E[X] = n m −m N = np et var(X) = N −1 · np(1 − p). . - sinon, p(X = i) = n CN 7.42 Exemple. – Piocher 3 cartes dans un jeu de 52, et en s’intéressant aux nombre de Piques piochés. 7.43 Remarque. – Lorsque N, m sont grands (N, m >> n), on a var(X) ' np(1 − p). Dans cette situation, chaque boule piochée modifie très peu la composition de l’urne et donc la répartition entre boules ciblées/non ciblées, i.e. la probabilité de piocher ensuite une boule ciblée. Autrement dit, on est quasiment dans la situation de n pioches identiques, indépendantes et à 2 issues, i.e. dans la situation de n tirages de Bernoulli (où p = m N est bien la probabilité de succès à chaque tirage). Et on retrouve alors presque la variance de la loi binomiale. Introduction aux probabilités – B. Mariou – Automne 2015 43 INÉGALITÉS DE MARKOV ET DE CHEBISHEV LOI FAIBLE DES GRANDS NOMBRES 8 1 version du 19 décembre 2015 Inégalité de Markov. 8.1 Inégalité de Markov. – Théorème Soit X une variable aléatoire, à valeurs toutes positives. E[X] Pour tout réel a > 0, on a p(X > a) 6 . a 8.2 Remarques. – La majoration fournit des informations même si on connaît peu de choses sur la loi de X. Elle est intéressante lorsque - on ne connaît pas p(X 6 a) ou E[X], - a > E[X] (car alors le majorant est < 1). – Plus a est grand, plus la majoration est porteuse d’informations. ? Par exemple pour a = 4E[X], on a p(X > a) 6 1 4. ? De même, pour toute variable aléatoire positive X, on a p(X > 2E[X]) 6 p(X < 2E[X]) > 12 . Donc la médiane de X est au plus 2E[X]. 1 2, donc – Ne pas oublier l’hypothèse : le théorème vaut pour X positive. 8.3 Démonstration. – • Cas où X est finie. Soit A l’ensemble (fini) des valeurs (positives) possibles pour X. L’espérance de X est une somme finie de termes positifs. Et on peut vérifier que P P P P E[X] = b · p(X = b) > b · p(X = b) > a · p(X = b) = a p(X = b) = a · p(X > a). b∈A b∈A,a6b b∈A,a6b • Cas général. On définit la variable aléatoire Y de la facon suivante On a donc X a > Y . Donc −Y]= Or E[ X a 1 E[X] a X a b∈A,a6b Y = 1 si X > a (alors 0 si X < a (alors X a X a > 1), > 0). − Y > 0 et donc E[ X − Y ] > 0 (espérance d’une v.a. positive, cf 7.4). a − E[Y ]. Donc E[X] a > E[Y ]. Mais E[Y ] = 0 · p(Y = 0) + 1 · p(Y = 1) = p(Y = 1) = p(X > a). 8.4 Exemple. – ? Soit X le nombre de personnes différentes que je salue durant une semaine. On suppose que E[X] = 50. Que dire de la probabilité que, la semaine prochaine, je salue au moins 75 personnes différentes ? n.b. On ne sait presque rien sur la loi de X. ? D’abord observons que X ne peut prendre que des valeurs positives. On peut donc appliquer l’inégalité de Markov à X pour a = 75. On a ainsi p(X > 75) 6 E[X] = 2/3. 75 2 Inégalité de Chebyshev. 8.5 Inégalité de Chebyshev. – Théorème Soit X une variable aléatoire, d’espérance finie µ. Pour tout réel λ > 0, on a p(|X − µ| > λ) 6 var(X) . λ2 8.6 Remarques. – Cette inégalité est intéressante lorsque le majorant est plus petit que 1 i.e. p lorsque λ > var(X) = ET (X). – Plus λ est grand plus la majoration est porteuse d’information. – Le nombre |X − µ| mesure l’écart de X par rapport à l’espérance, i.e. la dispersion. Le majorant, lui, dépend de var(X) qui est aussi une mesure de la dispersion. version du 19 décembre 2015 44 Inégalités de Markov et de Chebishev - Loi faible des grands nombres – La condition “X est d’espérance finie” est toujours vérifiée lorsque X est une variable aléatoire finie. 8.7 Démonstration. – Posons Y = (X − µ)2 . C’est une variable aléatoire positive. On peut lui appliquer l’inégalité de Markov E[Y ] pour a = λ2 > 0. On obtient p(Y > λ2 ) 6 . λ2 Or E[Y ] = E[(X − µ)2 ] = var(X). Et Y > λ2 signifie (X − µ)2 > λ2 , qui équivaut à |X − µ| > λ. 8.8 Exemple. – Suite de l’exemple 8.4. ? On suppose que la variance de X est 25. Que peut-on dire de la probabilité que, la semaine prochaine, je serre entre 41 et 59 mains ? ? On s’intéresse au cas où 41 6 X 6 59 i.e. 40 < X < 60 puisque X prend des valeurs entières. Et cela équivaut à |X − 50| < 10, autrement dit |X − µ| < 10. Comme l’espérance de X est finie, on peut appliquer l’inégalité de Chebyshev à X pour λ = 10. On obtient p(|X − µ| > λ) 6 var(X) donc p(|X − 50| > 10) 6 25/100 donc p(|X − 50| < 10) > 3/4. λ2 8.9 Remarque. – Plus la variance est grande, plus les valeurs sont dispersées et la majoration est donc plus large (il est plus probable que X prenne des valeurs loin de l’espérance). 8.10 Applications. – Cas où var(X) = 0. Pour tout λ > 0, p(|X − µ| > λ) 6 var(X)/λ2 = 0. Donc p(X 6= µ) = 0 et p(X = µ) = 1. On retrouve encore la variable aléatoire triviale égale à µ. – Loi faible des grand nombres. Voir ci-dessous. 3 Loi faible des grands nombres. 8.11 Loi faible des grands nombres. – Théorème Soit X1 , X2 , . . . suite infinie de variables aléatoires - totalement indépendantes, - toutes de même loi et - d’espérance finie µ. On pose, pour tout n ∈ IN ∗ , Sn = X1 + X2 + · · · + Xn . Sn − µ > ε −→ 0 quand n → ∞. Pour tout réel ε > 0, p n Sn X1 + · · · + Xn est égale à , c’est donc la moyenne des n n n Sn + Xn+1 Sn+2 Sn+1 + Xn+2 Sn+1 = , puis = , etc. premières variables. Aux rangs suivants, n+1 n+1 n+2 n+2 8.12 Commentaires. – La variable – Pour n’importe quels n et ε, p(| Snn − µ| > ε) = 1 − p(| Snn − µ| < ε). La conclusion, s’écrit donc, de façon équivalente : Sn − µ < ε −→ 1 quand n → ∞.” “Pour tout réel ε > 0, p n 8.13 Démonstration dans le cas où la variance des Xn est finie. – Les Xi ont toutes la même loi, donc toutes la même espérance µ et toutes la même variance V . On fixe ε > 0. h i Sn 1 1 1 ? Fixons n ∈ IN ∗ . On a E = E[X1 + · · · + Xn ] = (E[X1 ] + · · · + E[Xn ]) = · nµ = µ. n n n n Sn = n12 · var(X1 + · · · + Xn ) De plus var n = n12 · (var(X1 ) + · · · + var(Xn )) car totalement indépendantes V = n12 · nV = car var(Xi ) = V , pour tout i n ? La variable aléatoire Snn est donc d’espérance µ et de variance V /n. Appliquons l’inégalité de Chebyshev à cette variable aléatoire pour λ = ε. Introduction aux probabilités – B. Mariou – Automne 2015 version du 19 décembre 2015 45 i var Snn Sn V Sn − µ > ε 6 i.e. p . >ε 6 2 n n ε n nε2 ? Donc, vers l’infini, puisque V /nε2 tend vers 0, il en est de même fixé, lorsque n tend ε étant toujours S Sn − µ > ε . Donc lim p nn − µ > ε = 0. pour p n→∞ n On obtient Sn p −E h 8.14 Exemples. – 1. Lancers successifs de deux dés équilibrés. ? On appelle Yi le score total des deux dés obtenu au i-ème lancer. Ces variables aléatoires sont totalement indépendantes, de même loi (vue au chapitre 1), et d’espérance finie µ = 7. C’est exactement le cadre n > ε = 0. d’application de la loi faible des grands nombres : pour ε > 0 fixé, lim p Y1 +···+Y − µ n n→∞ ? Par exemple , il existe un rang N , tel que, pour tout n > N , n dit, si n > N , p 7 − ε < Y1 +···+Y < 7 + ε > 99%. n n − 7 > ε < 0, 01 autrement p Y1 +···+Y n ? Exemple de calculs de ces rangs (grâce à l’inégalité de Chebyshev, cf fin de la démonstration). n Chacune des Yi est d’espérance µ = 7 et de variance V = 35/6. Alors les variables Y1 +···+Y sont de n V n même espérance et de variance 35/6n. Puis, inégalité de Chebyshev : p(| Y1 +···+Y . − µ| > ε) 6 n nε2 Y1 +···+Yn Ainsi, si on se donne α > 0 avec l’objectif d’avoir p(| − µ| > ε) < α, une condition suffisante n est que V /nε2 < α. Ce qui équivaut à V /αε2 < n. 35 Y1 + · · · + Yn Dans notre exemple, on a donc, si n > − 7 > ε < α, ou encore , alors p 2 6αε n Y1 + · · · + Yn < 7 + ε > 1 − α. p 7−ε< n Applications. ε α 35/6αε2 1 1 0, 1 0, 1 0, 1 0, 01 0, 1 0, 01 35/0, 6 ' 58, 3 35/0, 06 ' 583, 3 35/0, 6 · (0, 1)2 ' 58333, 3 : : : : si si si si n > 59 n > 584 n > 5834 n > 58334 alors alors alors alors n < 8) > 0, 9 p(6 < Y1 +···+Y n Y1 +···+Yn p(6 < < 8) > 0, 99 n n p(6, 9 < Y1 +···+Y < 7, 1) > 0, 9 n n p(6, 9 < Y1 +···+Y < 7, 1) > 0, 99 n – 2. Lancers successifs d’un dé équilibré. Même raisonnement avec une suite de variables aléatoires Xi d’espérance µ = 3, 5 et de variance 35/12. Avec des calculs analogues, on vérifie que : ε=1 ε = 0, 5 ε = 0, 1 ε = 0, 1 α = 0, 1 α = 0, 1 α = 0, 1 α = 0, 01 : : : : si si si si n > 30 n > 117 n > 2917 n > 29167 alors alors alors alors p(2, 5 < p(3 < p(3, 4 < p(3, 4 < X1 +···+Xn n X1 +···+Xn n X1 +···+Xn n X1 +···+Xn n < 4, 5) > 0, 9 < 4) > 0, 9 < 3, 6) > 0, 9 < 3, 6) > 0, 99 8.15 Remarques. – On a vu, dans la démonstration, que la moyenne de variables identiques et tota- lement indépendantes est une variable aléatoire de même espérance et de variance amortie/ecrasée : i) var Snn = var(X . Lorsque n grandit, les valeurs de Snn sont de moins en moins éparpillées/de n plus en plus concentrées autour de la valeur centrale µ. – Ce théorème justifie/confirme l’intuition selon laquelle, la probabilité d’un événement A au cours d’une expérience reproductible peut être estimée comme la fréquence relative de réalisation de A lorsqu’on reproduit un grand nombre de fois, de façon identique et indépendante, cette expérience. ? Explication. Appelons p la probabilité de A et supposons que l’expérience est reproduite un grand nombre de fois, indépendantes les unes des autres. On pose Xi = 1 si A est réalisé lors de la i-ème expérience, 0 si A n’est pas réalisé lors de la i-ème exp. Les Xi sont des v.a. (de Bernoulli) totalement indépendantes, de même loi et d’espérance µ = p. De plus Sn = X1 + · · · + Xn est le nombre de fois où A est réalisé au cours des n premières expériences. Donc Sn n est bien la fréquence relative de réalisation de A au cours des n premières expériences. La loi faible des grands nombres nous dit que, quel que soit l’écart autorisé ε, on a lim p(| Snn − µ| < ε) = 1. Il suffit donc de considérer n assez grand pour avoir p(| Snn − µ| < ε) aussi proche de 1 qu’on le souhaite, i.e. Sn n a une très grande probabilité d’être très proche de µ = p pour n assez grand.