E411XS4 Statistique 3 - Introduction aux probabilités C. Trottier Université Paul Valéry - Montpellier 3 Année universitaire 2012-2013 (UPV) E411XS4 2012/2013 1 / 95 Documents, Infos http ://www.univ-montp3.fr/miap/ens/ lien : MisashsAES Evaluation 2 évaluations au cours du semestre : - contrôle continu (CC) - contrôle terminal (CT) Evaluation 1 = 0,4*CC + 0,6*CT Evaluation 2 = DS (UPV) E411XS4 2012/2013 2 / 95 Briques de base en probabilité pour la statistique inférencielle. Hasard / Aléa ? ? ? • résumer • modéliser et tester (UPV) E411XS4 2012/2013 3 / 95 Chapitre 1 : Introduction La statistique est une discipline qui, à partir de la répétition d’observations, permet de mettre en évidence des phénomènes tout en ne fournissant en aucun cas d’explication. L’explication, l’interprétation ... sont l’affaire du praticien, du psychologue, du médecin, du sociologue. Elle est un outil précieux d’aide à l’analyse, qu’il est nécessaire de connaître suffisamment pour s’en servir, i.e. comprendre ses principales notions, la logique qui les sous-tend pour mettre en œuvre des techniques sans pour autant en connaître les détails des fondements mathématiques. En particulier se familiariser avec : • les méthodes de synthèse et de résumé • la recherche des liens entre variables • la question du hasard • la modélisation (UPV) E411XS4 2012/2013 4 / 95 Les statistiques se prêtent bien à l’étude de phénomènes de masse tels que : • la réussite sociale • les choix électoraux • la consommation toute situation où l’on peut considérer, en première approximation, que les individus sont confrontés indépendamment les uns des autres à des conditions semblables. La statistique peut schématiquement se diviser en 2 catégories : • la statistique descriptive • la statistique inférencielle ou décisionnelle (UPV) E411XS4 2012/2013 5 / 95 ⊲ La statistique descriptive : Démarche : à partir d’une question posée et de la sélection de la (ou des) variable(s) pertinente(s), et après avoir réalisé l’observation, on dispose d’un tableau de données plus ou moins complexe qu’il est nécessaire de décrire. La statistique descriptive consiste alors à synthétiser, à résumer (en la structurant) l’information contenue dans les données : • par des indices simples ou graphiques pour une variable : la moyenne, le mode, la médiane, les quantiles l’étendue, l’écart inter-quartiles, l’écart-type, la variance, le skewness, le kurtosis le diagramme en barres, en bâtons, l’histogramme, le box-plot la fonction de répartition • par des outils adaptés à la statistique multidimentionnelle le coefficient de corrélation linéaire les méthodes factorielles les méthodes de classification. (UPV) E411XS4 2012/2013 6 / 95 Définition des indices numériques classiques : RAPPEL Sur un échantillon de n individus extrait de la population d’intérêt et sur lequel on mesure une variable X , on note x1 , x2 , . . . , xi , . . . , xn les observations : • la moyenne n x̄ = 1 1X (x1 + x2 + · · · + xi + · · · + xn ) = xi n n i =1 • la variance (empirique) σx2 = n n 1X 1 X 2 xi ) − x̄ 2 (xi − x̄)2 = ( n n i =1 i =1 • l’écart-type (empirique) v u n u1 X (xi − x̄)2 σx = t n i =1 (UPV) E411XS4 2012/2013 7 / 95 • les observations centrées (de moyenne nulle) et réduites (de variance 1) de la variable X sont : xi − x̄ zi = σx • le skewness (empirique) n n i =1 i =1 1 X 3 1 X xi − x̄ 3 zi = ( ) skx = n n σx le skewness empirique d’une distribution symétrique est proche de 0. • le kurtosis (empirique) n n i =1 i =1 1X 4 1 X xi − x̄ 4 kx = zi = ( ) n n σx le kurtosis empirique d’une distribution symétrique "classique" est proche de 3. (UPV) E411XS4 2012/2013 8 / 95 • l’histogramme Exemple 1 : 2 variables continues (1000 observations) taille d’une population masculine précipitations pluvieuses X1 X2 250 400 200 300 150 200 100 100 50 0 0 0.0195151 37.5558702 75.0922254 112.6285805 150.1649356 187.7012908 18.7876927 56.3240478 93.8604029 131.3967581 168.9331132 152.41522 162.12319 171.83116 181.53913 191.24710 200.95507 157.26921 166.97717 176.68514 186.39311 196.10108 Y moyenne : variance : écart-type : skewness : kurtosis : (UPV) 174.9 51.2 7.16 0.047 2.95 30.3 856.6 29.3 1.85 7.88 E411XS4 2012/2013 9 / 95 Exemple 2 : 2 variables continues symétriques (1000 observations et 20 classes) X1 X3 120 300 80 200 40 100 0 0 152.41522 162.12319 171.83116 181.53913 191.24710 200.95507 157.26921 166.97717 176.68514 186.39311 196.10108 Y moyenne : variance : écart-type : skewness : kurtosis : (UPV) 109.7920 130.7054 151.6188 172.5322 193.4455 214.3589 120.2487 141.1621 162.0755 182.9888 203.9022 Yta 174.9 51.2 7.16 0.047 2.95 174.7 47.5 6.89 -0.94 13.5 E411XS4 2012/2013 10 / 95 • le box-plot (empirique) X1 X2 X3 220 200 190 200 150 170 Yta 180 Ye Y 180 100 160 140 160 50 120 150 0 100 140 Min : 1st Qu. : Median : 3rd Qu. : Max : 147.46 169.82 174.85 179.85 195.54 (UPV) 0.091 9.109 21.97 42.74 211.71 E411XS4 109.79 171.20 174.98 178.56 214.36 2012/2013 11 / 95 • la fonction de répartition empirique 150 160 170 sort(Y) (UPV) 180 190 0.8 0.0 0.2 0.4 Prob 0.6 0.8 0.6 Prob 0.4 0.2 0.0 0.0 0.2 0.4 Prob 0.6 0.8 1.0 X3 1.0 X2 1.0 X1 0 50 100 sort(Ye) E411XS4 150 200 120 140 160 180 200 sort(Yta) 2012/2013 12 / 95 • la covariance n 1X cov (X , Y ) = (xi − x̄)(yi − ȳ ) n i =1 • la corrélation linéaire cov (X , Y ) σx × σy ρ(X , Y ) = ρ = 0.0988 ρ = −0.6181 y y 3 4 5 x (UPV) 6 7 3 −14 10 −12 4 −10 y 5 15 −8 6 −6 20 −4 Exemples ρ = 0.9276 3 4 5 x E411XS4 6 7 3 4 5 6 7 x 2012/2013 13 / 95 ⊲ la statistique inférencielle ou décisionnelle Démarche : à partir de l’information relevée sur un échantillon et représentée par un jeu de données plus ou moins complexe, il s’agit de chercher à prendre une décision au sujet de la population toute entière. Une décision c’est par exemple : - proposer une estimation (ex : le sondage) - donner une prédiction (ex : la météo) - répondre à une question : y-a-t-il une différence entre 2 situations ? telle sous-population est-elle “meilleure” que telle autre ? - vérifier (confirmer ou infirmer) une hypothèse Modélisation : pour prendre cette décision, il est nécessaire de tenir compte des fluctuations liées à l’observation (aléa d’échantillonnage), i.e. de séparer la part systématique inhérente au phénomène observé de l’aléa propre à chaque individu. On construit ainsi, à l’aide des observations faites sur l’échantillon, un modèle du phénomène observé. (UPV) E411XS4 2012/2013 14 / 95 Ce modèle est ajusté aux données de l’échantillon mais doit toutefois garder des propriétés de généralisation. Ainsi il n’est jamais en parfaite adéquation et la décision prise sera donc toujours entachée d’incertitude. Pour contrôler et quantifier cette incertitude, on fait appel aux probabilités. Toute inférence (passage de propriétés observées sur un échantillon à des conclusions portant sur la population toute entière) devra donc faire appel à des outils de calcul de probabilité. Nous en verrons les briques de base nécessaires à l’inférence dans ce cours. (UPV) E411XS4 2012/2013 15 / 95 Chapitre 2 : Notions élémentaires en probabilité I - Vocabulaire • Expérience aléatoire une expérience est dite aléatoire lorsqu’elle est susceptible d’avoir plusieurs résultats (ou issues) différent(e)s sans que l’on puisse être capable de prédire avec certitude lequel (laquelle) se réalisera. • Univers des possibles l’ensemble de toutes les issues possibles à une expérience aléatoire constitue un ensemble que l’on désigne par Ω et que l’on appelle univers des possibles. • Événement un événement est une propriété énoncée sur le résultat de l’expérience. On dit que l’événement est réalisé ou non selon que la propriété est vérifiée ou non à l’issue de l’expérience. (UPV) E411XS4 2012/2013 16 / 95 Exemple 1 : Candidater à un job Ω = {obtenir le job, ne pas obtenir le job} Remarque : situation particulière d’une expérience aléatoire à seulement 2 résultats possibles, on l’appelle expérience de Bernoulli Exemple 2 : Lancer d’un dé Ω = {1, 2, .., 6} Événement A : “obtenir un nombre pair” A = {2, 4, 6} Événement B : “obtenir un nombre strictement supérieur à 5” B = {6} Remarque : situation particulière d’un événement qui ne correspond qu’à une seule issue possible, on l’appelle événement élémentaire (UPV) E411XS4 2012/2013 17 / 95 Exemple 3 : Compter le nombre de fautes de français dans une copie d’examen Ω=N Événement A : “il y a strictement moins de 6 fautes” A = {0, 1, 2, 3, 4, 5} Exemple 4 : Mesurer la taille d’un individu Ω = R+ Événement A : “mesurer plus d’1,50 m” A = [1, 50; +∞[ Remarque : À chaque événement, on a fait correspondre le sous-ensemble des issues de Ω pour lesquelles l’événement est réalisé, i.e. pour lesquelles la propriété est vraie. C’est une autre façon de définir un événement comme une partie de Ω. (UPV) E411XS4 2012/2013 18 / 95 • Probabilité C’est une évaluation des chances qu’a un événement d’être réalisé à l’issue de l’expérience. On calcule toujours la probabilité d’un événement. Une probabilité est un réel compris entre 0 et 1. De façon générale, dans la vie courante, l’évaluation de ces probabilités n’a rien d’immédiat et reste très subjective. → Quelle est la probabilité qu’il fasse beau demain ? ⊲ Cependant, il existe un type de situation pour lequel ce calcul peut être réalisé de manière exacte et justifié de façon précise. C’est le cas où l’expérience aléatoire n’a qu’un nombre fini d’issues possibles, sans qu’aucune de ces issues n’ait plus de chances qu’une autre de se réaliser : elles sont toutes équiprobables. Exemple : Lancer d’un dé - Ω = {1, 2, 3, 4, 5, 6} Événement élémentaire A : “obtenir un 6” Événement B : “obtenir un nombre pair” 3 1 1 et P(B) = = P(A) = P({6}) = 6 6 2 (UPV) E411XS4 2012/2013 19 / 95 Dans une telle situation d’équiprobabilité, le calcul de la probabilité d’un événement quelconque A consiste toujours à compter le nombre d’issues favorables à A (pour lesquelles A est réalisé) ramené au nombre total d’issues possibles. Ainsi : P(A) = card(A) Nb cas favorables = Nb cas possibles card(Ω) Remarque : intérêt historique (jeu de dénombrement) et théorique ⊲ En pratique, beaucoup plus fréquemment, on approche ce calcul le plus finement possible en construisant un modèle à partir d’observations déjà réalisées de l’expérience aléatoire. Exemple : Guérison d’une maladie grave → Quelle est la probabilité de guérison ? Cette probabilité existe de manière intrinsèque mais, contrairement au cas précédent, n’est pas connue a priori, i.e. avant toute observation de réalisations de l’expérience. (UPV) E411XS4 2012/2013 20 / 95 Si les médecins évaluent à 0.2 la probabilité de guérison c’est que sur les 250 cas observés jusqu’à présent de cette maladie, 50 ont guéri complètement. (UPV) E411XS4 2012/2013 21 / 95 II - Propriétés des événements et probabilités • Événement certain et événement impossible On appelle événement certain, un événement qui se réalise quelle que soit l’issue de l’expérience aléatoire. On le désigne par Ω. On appelle événement impossible, un événement qui ne se réalise jamais quelle que soit l’issue de l’expérience. On le désigne par ∅. P(Ω) = 1 et P(∅) = 0 Exemple : Lancer d’un dé Événement certain : “obtenir un nombre entre 1 et 6” Événement impossible : “obtenir 0” • Événement contraire L’événement contraire d’un événement A est l’événement qui se réalise si et seulement si A ne se réalise pas. On le désigne par A. P(A) = 1 − P(A) (UPV) E411XS4 2012/2013 22 / 95 Exemple : Lancer d’un dé A : “obtenir un nombre pair” - A = {2, 4, 6} A : “obtenir un nombre impair” - A = {1, 3, 5} ⊲ En termes d’ensemble, l’événement contraire de A est donc représenté par le complémentaire dans Ω de A. • Événement “A ou B” “A et B” L’événement “A et B” se réalise lorsque les deux événements A et B se réalisent simultanément. On le désigne par A ∩ B. L’événement “A ou B” se réalise lorsque l’un au moins des deux événements A et B se réalise. On le désigne par A ∪ B. Exemple : Tirer une carte dans un jeu de 32 cartes Événement A : “obtenir un roi” - A = {R♦, R♥, R♣, R♠} Événement B : “obtenir un cœur”B = {7♥, 8♥, 9♥, 10♥, V ♥, D♥, R♥, A♥} Événement A et B : “obtenir le roi de cœur” - A ∩ B = {R♥} Événement A ou B : “obtenir un roi ou un cœur” A ∪ B = {7♥, 8♥, 9♥, 10♥, V ♥, D♥, R♥, A♥, R♦, R♣, R♠} (UPV) E411XS4 2012/2013 23 / 95 ⊲ A ∪ B est réalisé lorsque : - A est réalisé et B ne l’est pas : A ∩ B - B est réalisé et A ne l’est pas : A ∩ B - A et B sont réalisés tous les deux : A ∩ B Ainsi A ∩ B ⊂ A ∪ B et P(A ∩ B) ≤ P(A ∪ B) ⊲ Lois sur les ensembles : A∪B A∩B = A∩B = A∪B A ∪ (B ∩ C ) = (A ∪ B) ∩ (A ∪ C ) A ∩ (B ∪ C ) = (A ∩ B) ∪ (A ∩ C ) ⊲ Quels que soient les événements A et B : P(A ∪ B) = P(A) + P(B) − P(A ∩ B) (UPV) E411XS4 2012/2013 24 / 95 Exemple : Tirer une carte dans un jeu de 32 cartes 1 8 1 4 = P(B) = = P(A) = 32 8 32 4 11 1 P(A ∪ B) = P(A ∩ B) = 32 32 4 8 1 11 = + − 32 32 32 32 • Événements incompatibles et partition de Ω A et B sont dits incompatibles s’ils ne peuvent pas se réaliser en même temps A∩B = ∅ Remarque : Cela implique que P(A ∩ B) = 0 et P(A ∪ B) = P(A) + P(B) (UPV) E411XS4 2012/2013 25 / 95 Un ensemble de s événements B1 , B2 , ..., Bs incompatibles 2 à 2 et tels que leur réunion est l’événement certain forment une partition de Ω. Exemple : Se faire vacciner pour l’hiver contre la grippe On dispose de 3 vaccins différents. Chaque personne ne peut être vaccinée qu’une seule fois (par l’utilisation d’un seul vaccin) et on définit les événements : A : “ ne pas attraper la grippe pendant l’hiver ” B1 : “ être vacciné par le vaccin 1 ” B2 : “ être vacciné par le vaccin 2 ” B3 : “ être vacciné par le vaccin 3 ” Ω = B1 ∪ B2 ∪ B3 et A = (A ∩ B1 ) ∪ (A ∩ B2 ) ∪ (A ∩ B3 ) (UPV) E411XS4 2012/2013 26 / 95 Un événement quelconque C et son contraire C forment la partition la plus simple de Ω et on a : A = (A ∩ C ) ∪ (A ∩ C ) P(A) = P(A ∩ C ) + P(A ∩ C ) De même, pour une partition B1 , B2 , ..., Bs de Ω, on a : P(A) = P(A ∩ B1 ) + P(A ∩ B2 ) + ... + P(A ∩ Bs ) = s X i =1 P(A ∩ Bi ) =⇒ théorème des probabilités totales (UPV) E411XS4 2012/2013 27 / 95 Chapitre 3 : Probabilités conditionnelles et indépendance I - Définition de la probabilité conditionnelle Vous vous réveillez le matin et les yeux encore clos, vous évaluez la probabilité qu’il pleuve dans la matinée. Supposez maintenant que vous avez eu le courage de vous lever, d’ouvrir vos volets et de vous apercevoir que le ciel est très gris avec de gros nuages, votre évaluation de cette probabilité reste-t-elle identique ? Lorsque l’on dispose d’une information supplémentaire sur l’expérience aléatoire, le calcul de probabilité peut s’en trouver modifié. Souvent l’univers des possibles est même restreint par cette information : imaginez que vous devez deviner le résultat d’un dé, si vous savez qu’il est pair alors il n’y a plus que 3 possibilités ! Cette information constitue une condition dans laquelle l’expérience va se dérouler. Cette condition est traduite par un événement de Ω, qui ne doit évidemment pas être impossible. (UPV) E411XS4 2012/2013 28 / 95 • Probabilité conditionnelle Soit B un événement de probabilité 6= 0, on appelle probabilité conditionnelle de A sachant B la quantité : PB (A) = P(A ∩ B) P(B) Exemple : Sexe des enfants d’une famille de 2 enfants Ω = {(F , F ); (F , G ); (G , F ); (G , G )} (issues toutes équiprobables) Événement C : “avoir deux filles” = {(F , F )} Événement D : “avoir au moins une fille” = {(F , F ); (F , G ); (G , F )} C ∩D = C 3 1 P(D) = 4 4 P(C ∩ D) P(C ) 1/4 1 PD (C ) = = = = P(D) P(D) 3/4 3 P(C ) = (UPV) E411XS4 2012/2013 29 / 95 Remarque 1 : et PC (D) = 1 ... c’est une propriété : Soient 2 événements A et B avec B de probabilité non nulle et B ⊂ A alors PB (A) = 1 Remarque 2 : attention ! ! ! On rencontre très souvent (voire beaucoup plus fréquemment) la notation P(A|B) pour désigner PB (A). Danger : A|B n’est pas un événement ... inutile de chercher à envisager son complémentaire ou son intersection ou réunion avec un autre événement. C’est bien l’événement A dont on cherche à évaluer la probabilité mais cette probabilité est modifiée par l’information contenue dans l’événement B. Remarque 3 : si l’on conditionne par rapport à l’événement certain ... (UPV) E411XS4 2012/2013 30 / 95 II - Propriétés • La probabilité conditionnelle conserve toutes les propriétés énoncées précédemment : PB (Ω) = 1 PB (∅) = 0 PB (A) = 1 − PB (A) PB (A ∪ C ) = PB (A) + PB (C ) − PB (A ∩ C ) ou encore P(A|B) = 1 − P(A|B) P(A ∪ C |B) = P(A|B) + P(C |B) − P(A ∩ C |B) • Si A et B sont incompatibles alors ... (UPV) E411XS4 2012/2013 31 / 95 III - Formules de Bayes Formule 1 ... ou comment “renverser” le conditionnement ! Soient A et B deux événements de probabilités non nulles : PA (B) = PB (A) P(B) P(A) Formule 2 ... la vraie ! On considère un événement A et un ensemble d’événements B1 , B2 , ...Bs qui forment une partition de Ω. On suppose connaître les probabilités P(Bi ) (toutes non nulles) ainsi que les probabilités conditionnelles PBi (A). Pour un événement quelconque Bj de la partition, on a : PA (Bj ) = PB (A) P(Bj ) PBj (A) P(Bj ) = s j X P(A) PBi (A) P(Bi ) i =1 (UPV) E411XS4 2012/2013 32 / 95 Exemple 1 : État d’un produit à la sortie d’une usine de fabrication Deux machines M1 et M2 produisent respectivement 100 et 200 objets. M1 produit 5% de pièces défectueuses, et M2 en produit 6%. Quelle est la probabilité pour qu’un objet défectueux ait été fabriqué par la machine M1 ? Soit A l’événement “l’objet est défectueux” et M1 (resp. M2 ) l’événement “l’objet est fabriqué par la machine M1 (resp M2 )”. −→ calcul de PA (M1 ) Compte tenu des productions de ces machines, on a 1 2 100 = P(M2 ) = P(M1 ) = 300 3 3 5 6 De plus, on sait que PM1 (A) = et PM2 (A) = . 100 100 Remarque : M2 = M1 , donc M1 et M2 forment une partition de Ω On obtient alors grâce à la formule de Bayes : 1 5 × 100 3 ≃ 0.29 PA (M1 ) = 1 6 2 5 × )+( × ) ( 100 3 100 3 (UPV) E411XS4 2012/2013 33 / 95 Exemple 2 : Vaccination contre une maladie Le vaccin B1 est administré à 10 % des patients, B2 à 55 % et B3 à 35 %. La probabilité de ne pas attraper la maladie quand on a été vacciné par B1 (resp. B2 et B3 ) est de 0.8 (resp. 0.6 et 0.7). Un patient qui a été vacciné attrappe malgré tout la maladie, avec quelle probabilité a-t-il reçu le vaccin B2 ? Définissons les 3 événements : A : “attraper la maladie” Bi : “être vacciné par le vaccin Bi ” (i = 1, 2, 3) On sait que : P(B1 ) = 0.1 P(B2 ) = 0.55 P(B3 ) = 0.35 PB1 (A) = 0.8 PB2 (A) = 0.6 PB3 (A) = 0.7 donc PB1 (A) = 0.2 PB2 (A) = 0.4 PB3 (A) = 0.3 (UPV) E411XS4 2012/2013 34 / 95 −→ calcul de PA (B2 ) PA (B2 ) = PB2 (A) P(B2 ) PB (A) P(B2 ) = 3 2 P(A) X PBi (A) P(Bi ) i =1 = 0.4 × 0.55 (0.2 × 0.1) + (0.4 × 0.55) + (0.3 × 0.35) = 0.64 (UPV) E411XS4 2012/2013 35 / 95 IV - Probabilités conditionnelles dans la démarche diagnostique médicale On suppose qu’un test a été mis en place comme signe diagnostic d’une maladie. On note les 4 événements suivants : M+ : M− : T+ : T− : “être malade” “ne pas être malade” “le résultat du test est positif” “le résultat du test est négatif” M− = M+ T− = T+ La qualité du signe diagnostic dépend de sa capacité à révéler la réalité de l’état du patient. (UPV) E411XS4 2012/2013 36 / 95 On définit alors les 2 notions suivantes : • Sensibilité du test : Se Se = PM+ (T+ ) = P(T+ |M+ ) • Spécificité du test : Sp Sp = PM− (T− ) = P(T− |M− ) Le test idéal est alors bien sûr celui où : Se = . . . et Sp = . . . Malheureusement un tel signe diagnostic n’exite pas ! ! (UPV) E411XS4 2012/2013 37 / 95 • Indice de Youden : Y Y = Se + Sp − 1 L’indice de Youden varie entre ... et ... Un indice de Youden négatif révèle une mauvaise qualité du test : il n’a aucune valeur informationnelle. La valeur diagnostique d’un test est d’autant plus grande que l’indice de Youden est proche de ... (UPV) E411XS4 2012/2013 38 / 95 Après avoir recueilli une information sur la présence de la maladie dans la population concernée : • Prévalence : Prev Prev = P(M+ ) ... d’autres notions sont alors définies : • Valeur prédictive positive : VPP VPP = PT+ (M+ ) = P(M+ |T+ ) • Valeur prédictive négative : VPN VPN = PT− (M− ) = P(M− |T− ) VPP et VPN s’exprime en fonction de Se, Sp et Prev ... (UPV) E411XS4 2012/2013 39 / 95 V - Indépendance Deux événements A et B sont indépendants, si l’information apportée par l’un n’influence pas le calcul de probabilité de l’autre PB (A) = P(A) ou PA (B) = P(B) Mais pour cela, on doit supposer que A ou B sont de probabilités non nulles. Une définition plus générale est donc : deux événements quelconques A et B sont indépendants ssi P(A ∩ B) = P(A) × P(B) Attention : ne pas confondre indépendance et incompatibilité ! ! ! Deux événements incompatibles sont-ils en général indépendants ? La propriété d’indépendance est une propriété sur le calcul de probabilité à ne pas confondre avec la propriété d’incompatibilité qui est une propriété sur les ensembles et n’a rien à voir avec les probabilités ! (UPV) E411XS4 2012/2013 40 / 95 Exemple : Tirer une carte dans un jeu de 32 cartes Situation d’équiprobabilité (toutes les cartes ont la même chance d’être choisie). Événement A : “obtenir un roi” - A = {R♦, R♥, R♣, R♠} 1 4 = P(A) = 32 8 Événement B : “obtenir un cœur” B = {7♥, 8♥, 9♥, 10♥, V ♥, D♥, R♥, A♥} 1 8 = P(B) = 32 4 Événement A et B : “obtenir le roi de cœur” - A ∩ B = {R♥} 1 1 1 P(A ∩ B) = = × = P(A) × P(B) 32 4 8 1/32 1 PB (A) = = = P(A) 1/4 8 −→ A et B sont indépendants. Et il y a aussi indépendance entre A et B, A et B, et A et B ! ! ! (UPV) E411XS4 2012/2013 41 / 95 Chapitre 4 : Variables aléatoires et loi de probabilité I - Définition Une variable aléatoire est une variable qui associe une valeur numérique déterminée à chaque issue d’une expérience aléatoire. Bien sûr, avant la réalisation de l’expérience, la valeur prise par cette variable est aléatoire mais une fois l’expérience réalisée, sa valeur est connue et unique. On note X (Ω) l’ensemble des valeurs possibles pour la variable aléatoire X : X (Ω) = {v1X , v2X , ...} ... ou lorsqu’il n’y a pas d’ambiguïté sur le nom de la variable : X (Ω) = {v1 , v2 , ...}. Exemple 1 : Obtenir un job Définissons la variable aléatoire X par ses valeurs : elle vaut 1 si l’individu obtient le job et 0 sinon. (UPV) E411XS4 2012/2013 42 / 95 Alors : X (Ω) = {0, 1} X = 1 est équivalent à “il obtient le job” X = 0 est équivalent à “il n’obtient pas le job” Exemple 2 : Lancer d’un dé Sachant que s’il obtient un nombre pair, le joueur gagne 10 fois le résultat du dé, sinon il perd 10 fois le résultat du dé, définissons alors la variable aléatoire X correspondant au gain du joueur. X (Ω) = {−50, −30, −10, 20, 40, 60} X ≥ 30 est équivalent à X = 40 ou X = 60. Remarque : Dans cette situation une autre variable aléatoire simple Y peut être définie par “le double du résultat du dé”. Y (Ω) = {2, 4, 6, 8, 10, 12} Propriété : Pour une expérience aléatoire donnée, d’univers des possibles Ω, on peut définir une infinité de variables aléatoires. (UPV) E411XS4 2012/2013 43 / 95 Exemple 3 : Compter le nombre de fautes de français dans une copie d’examen On s’intéresse à la variable aléatoire X qui représente la penalité dûe aux fautes de français. La pénalité intervient à partir de 6 fautes : de 6 à 10 fautes, la pénalité est de 1, de 11 à 20 fautes pénalité de 2 et au delà de 20 fautes, 3 points de pénalité. X (Ω) = {0, 1, 2, 3} X = 0 est équivalent à “il y a strictement moins de 6 fautes” = A. Exemple 4 : Taille d’un individu Soit X la variable aléatoire qui stocke la mesure de la taille en centimètres. X (Ω) = R+ “160 < X < 180” est équivalent à “mesurer entre 160 et 180 cm” qui peut aussi s’écrire “|X − 170| < 10”. (UPV) E411XS4 2012/2013 44 / 95 ⊲ Une variable aléatoire est dite discrète si elle ne peut prendre qu’un nombre fini (ou dénombrable) de valeurs isolées. Exemple : - Obtenir un job : X (Ω) = {0, 1} - Gain au lancer de dé : X (Ω) = {−50, −30, −10, 20, 40, 60} - Pénalité copie d’examen : X (Ω) = {0, 1, 2, 3}. ⊲ Une variable aléatoire est dite continue si au contraire elle prend ses valeurs dans des intervalles (nombre infini de valeurs numériques non isolées). Exemple : Taille d’un individu : X (Ω) = R+ . (UPV) E411XS4 2012/2013 45 / 95 II - Événements et variables aléatoires ⊲ Lorsqu’on s’intéresse à certaines valeurs de X particulières, on fixe un sous-ensemble de X (Ω). On peut alors lui associer le sous-ensemble de Ω constitué de toutes les issues dont la valeur associée par X fait partie de celles sélectionnées. Exemple : Lancer d’un dé Au sous-ensemble {40, 60} de X (Ω), on peut associer le sous-ensemble {4, 6} de Ω ⊲ Par extension, tout sous-ensemble de X (Ω) définit un événement. Exemple : Lancer d’un dé X ≤ 0 = {−50, −30, −10} est un événement équivalent à {1, 3, 5} de Ω. Exemple : Fautes de français X > 0 = {1, 2, 3} est un événement équivalent à Ā. (UPV) E411XS4 2012/2013 46 / 95 ⊲ On peut ainsi utiliser toutes les propriétés classiques sur les ensembles (∪, ∩, complémentaire) pour les événements définis à l’aide d’une variable aléatoire X . Exemple : Lancer d’un dé “X ≥ 0” ∪ “X = −30” = {−30, 20, 40, 60} Exemple : Fautes de français “X ≥ 1” = “X = 0” Exemple : Taille d’un individu “X ≤ 175” ∪ “X ≤ 180” = “X ≤ 180” “X ≤ 175” ∩ “X ≤ 180” = “X ≤ 175” “X ≤ 175” ∩ “X ≥ 180” = ∅ “X ≤ 175” = “X > 175” “X ≤ 175”∩ “X ≤ 180” = “175 < X ≤ 180” Remarque : Par commodité d’écriture, on omet ensuite les guillemets. (UPV) E411XS4 2012/2013 47 / 95 III - Loi de probabilité Pour définir la loi de probabilité d’une variable aléatoire, on distingue le cas discret du cas continu. • Loi de probabilité d’une variable aléatoire discrète Elle est définie par un tableau donnant la probabilité associée à chaque valeur possible de la variable X . Autrement dit, la loi de probabilité de la variable aléatoire X est l’ensemble des couples (v , P(X = v )) pour toutes les valeurs v de X (Ω). Exemple : Jeu de loterie La roue d’une loterie possède 10 secteurs : 4 verts, 3 bleus, 2 jaunes et 1 rouge. Lorsqu’on tire un secteur bleu ou vert, on perd 10. Lorsqu’il est jaune, on gagne 20 et rouge 100. Soit G la variable aléatoire “gain du joueur” : G (Ω) = {−10, 20, 100} 7 P(G = −10) = P(“tirer secteur bleu ou vert”) = 10 1 2 P(G = 100) = P(G = 20) = 10 10 (UPV) E411XS4 2012/2013 48 / 95 Ainsi le tableau : vG −10 20 100 P(G = v G ) 7 10 2 10 1 10 constitue la loi de probabilité de G . Elle est représentée par le diagramme en bâtons suivant : 1 0.9 0.8 Probabilité 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −10 20 100 Gain du joueur (UPV) E411XS4 2012/2013 49 / 95 ⊲ Les événements X = v forment une partition de Ω. Ainsi la somme des probabilités associées à toutes les valeurs possibles de X est égale à 1 : X P(X = v ) = 1 v ∈X (Ω) Remarque : On peut aussi calculer les probabilités de tous les événements exprimés à l’aide de X . 1 3 2 + = P(X > 0) = P(X = 20) + P(X = 100) = 10 10 10 Mais aussi P(X > 5) = P(X = 20) + P(X = 100) P(X < 20) = P(X = −10) P(X ≤ 20) = P(X = −10) + P(X = 20) P(X ≤ 25) = P(X = −10) + P(X = 20) ⊲ On appelle fonction de répartition de la variable aléatoire X , la fonction définie pour n’importe quelle valeur de R par : F (x) = P(X ≤ x) (UPV) E411XS4 2012/2013 50 / 95 Cela représente donc la probabilité que X prenne une valeur plus petite qu’une valeur donnée. C’est donc un cumul des probabilités des valeurs de X (Ω) plus petites que x. On représente graphiquement la fonction de répartition par : 1 0.9 Fonction de répartition 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 −20 0 20 40 60 80 100 120 Gain du joueur C’est une fonction définie sur R en escalier et croissante de 0 à 1. (UPV) E411XS4 2012/2013 51 / 95 ⊲ L’espérance d’une variable aléatoire discrète mesure la tendance de cette variable. Elle est définie par la quantité : X E (X ) = v P(X = v ) v ∈X (Ω) Exemple : Jeu de loterie (suite) E (G ) = (−10 × = 7 2 1 ) + (20 × ) + (100 × ) 10 10 10 −70 + 40 + 100 =7 10 Remarque : Sans observation relative à la variable aléatoire, on utilise cette espérance (ou valeur espérée) comme prédiction de la variable aléatoire. Attention cette prédiction ne fait pas forcément partie des valeurs possibles de la variable ! ! ! (UPV) E411XS4 2012/2013 52 / 95 ⊲ La variance d’une variable aléatoire discrète mesure la dispersion des valeurs de la variable autour de l’espérance. Elle est définie par la quantité : X V (X ) = E [(X − E (X ))2 ] = (v − E (X ))2 P(X = v ) v ∈X (Ω) = E (X 2 ) − (E (X ))2 = X v ∈X (Ω) L’écart-type est donné par : σ(X ) = p v 2 P(X = v ) − (E (X ))2 V (X ) Exemple : Jeu de loterie (suite) 7 2 1 ) + ((20)2 × ) + ((100)2 × ) 10 10 10 700 + 800 + 10000 = = 1150 10 = 1150 − 72 = 1101 = 33.18 E (G 2 ) = ((−10)2 × V (G ) σ(G ) (UPV) E411XS4 2012/2013 53 / 95 • Loi de probabilité d’une variable aléatoire continue Exemple : On s’intéresse à la variable aléatoire T mesurant le temps de réponse d’un individu à un stimulus. Sachant qu’il n’est pas possible de dépasser un délai de 2 minutes, l’ensemble des valeurs possibles pour cette variable aléatoire (en secondes) est : T (Ω) = [0, 120]. Remarque : attention ! ! ! - il est alors impossible de présenter les valeurs dans un tableau ! - comme il y a une infinité de valeurs, la probabilité d’une unique valeur est réduite à 0 ! ! ! ... P(T = 34) = 0 - on ne peut calculer que des probabilités sur des intervalles : P(30 < T ≤ 40) Pour une variable aléatoire continue, on ne peut parler que de densité de probabilité. C’est une sorte de probabilité ramenée à une unité d’intervalle très petite ! (UPV) E411XS4 2012/2013 54 / 95 Ainsi à chaque valeur x d’une variable aléatoire continue X , on associe une densité f (x) représentant la densité de probabilité d’un intervalle infiniment petit autour de x : f (x) ≥ 0, pour tout x. 0.03 0.025 Densité 0.02 0.015 0.01 0.005 0 −20 0 20 40 60 80 100 120 140 Temps de réponse au stimulus ⊲ Lorsqu’on somme les probabilités associées à toutes les valeurs possibles de X , on obtient 1. Pour une variable aléatoire continue : Z f (x)dx = 1 R la surface totale sous la courbe d’une densité est toujours égale à 1. (UPV) E411XS4 2012/2013 55 / 95 Calculons la probabilité que le temps de réponse soit compris entre 20 et 40 secondes : P(20 ≤ T ≤ 40) = P(20 < T < 40) = P(20 < T ≤ 40) Remarque 1 : < ou ≤ ... peu importe car rappelons que quel que soit la valeur t de la variable aléatoire T : P(T = t) = 0 ... mais cela n’est vrai que pour une variable aléatoire continue ! ! ! Remarque 2 : P(0 ≤ T ≤ 40) = P(T ≤ 40) car sur l’intervalle ] − ∞; 0[ la densité de probabilité de cette variable aléatoire T est nulle (UPV) E411XS4 2012/2013 56 / 95 0.03 P ( 20 < T < 40 ) 0.025 Densité 0.02 0.015 0.01 0.005 0 −20 0 20 40 60 80 100 120 140 Temps de réponse au stimulus P(20 < T < 40) = Z 40 f (t)dt 20 = P(T < 40) − P(T < 20) Z 20 Z 40 f (t)dt f (t)dt − = −∞ (UPV) E411XS4 −∞ 2012/2013 57 / 95 ⊲ La fonction de répartition de la variable aléatoire continue X est donc définie pour n’importe quelle valeur x par : Z x f (t)dt F (x) = P(X ≤ x) = −∞ c’est donc la surface sous la courbe “à gauche” de x. 0.03 F(40) = P ( T < 40 ) 0.025 Densité 0.02 0.015 0.01 0.005 0 −20 0 20 40 60 80 100 120 140 Temps de réponse au stimulus (UPV) E411XS4 2012/2013 58 / 95 C’est toujours une fonction croissante de 0 à 1 mais qui n’est plus une fonction en escalier ! 1 0.03 0.9 P(a<T<b) 0.025 0.7 0.02 0.6 Densité Fonction de répartition 0.8 0.5 0.015 0.4 0.01 0.3 0.2 0.005 0.1 0 −20 0 20 40 60 80 100 120 0 −20 140 0 Temps de réponse au stimulus P(a < T ≤ b) = Z a 20 40 60 80 100 Temps deb réponse au stimulus 120 140 b f (t)dt a = F (b) − F (a) (UPV) E411XS4 2012/2013 59 / 95 ⊲ L’espérance et la variance d’une variable aléatoire continue sont définies par : Z x f (x)dx E (X ) = et R V (X ) = Z E (X 2 ) − (E (X ))2 x 2 f (x)dx − (E (X ))2 = R Remarque : - ce ne sont que des écritures adaptées du cas discret - nous ne vous demandons pas dans le cadre de ce cours de savoir faire ces calculs mais de savoir ce que représentent ces 2 grandeurs (UPV) E411XS4 2012/2013 60 / 95 IV - Propriétés sur l’espérance et la variance ⊲ À partir d’une variable aléatoire X , on peut en définir d’autres comme fonction de celle-ci : aX + b, X 2 , ... il est alors en général facile d’en obtenir la loi à partir de celle de X . Exemple : Jeu de loterie La variable G désignait le gain (en francs) à ce jeu de loterie. En prenant en compte, le paiement de 1 euro pour participer au jeu, nous définissons la variable S somme totale en euros gagnée par le joueur : S = 0.1524 × G − 1 On peut alors donner la loi de S par le tableau : s P(S = s) −2.524 2.048 14.24 7 10 2 10 1 10 Vous pouvez alors calculer l’espérance et la variance de S et vous vous apercevrez que : E (S) = 0.1524×E (G )−1 = 0.0668 et V (S) = 0.15242 ×V (G ) = 25.57156 (UPV) E411XS4 2012/2013 61 / 95 Propriété 1 : Soit Y la variable aléatoire définie à partir de la variable aléatoire X par : Y = aX + b, alors : E (Y ) = a E (X ) + b V (Y ) = a2 V (X ) Propriété 2 : Soit Y la variable aléatoire définie comme somme de 2 variables aléatoires X1 et X2 : Y = X1 + X2 alors : E (Y ) = E (X1 ) + E (X2 ) V (Y ) = V (X1 ) + V (X2 ) si indépendance Propriété 3 : À partir de la variable aléatoire X , on définit la variable aléatoire centrée réduite Y par : X − E (X ) Y = σ(X ) alors E (Y ) = 0 (UPV) et V (Y ) = 1. E411XS4 2012/2013 62 / 95 Exemple : Jeu de loterie (suite) Deux amis jouent indépendamment à ce jeu et on s’intéresse à leur gain total (en euro après avoir retranché leurs frais de participation). Si G1 et G2 sont les variables désignant leur gain respectif en francs (sans compter les frais de participation) alors : T = 0.1524 (G1 + G2 ) − 2 et E (T ) = = = V (T ) = = 0.1524 E (G1 + G2 ) − 2 0.1524 [E (G1 ) + E (G2 )] − 2 0.1524 [7 + 7] − 2 = 0.1336 0.15242 [V (G1 ) + V (G2 )] 0.15242 [1101 + 1101] = 51.1431 Remarque : attention ! ! ! ça n’est pas la même chose que : T = 0.1524 (2 × G ) − 2 (UPV) E411XS4 2012/2013 63 / 95 V - Quelques lois de probabilité usuelles • Lois discrètes ⊲ Loi uniforme : X ∼ U nif C’est le principe d’équiprobabilité ! La variable aléatoire discrète X suit une loi uniforme lorsqu’elle prend un nombre fini K de valeurs : X (Ω) = {v1 , v2 , ..., vK } et que : ∀i ∈ 1, .., K P(X = vi ) = Alors E (X ) et = V (X ) = (UPV) PK 1 K i =1 vi K PK 2 i =1 vi K − PK E411XS4 i =1 vi K !2 2012/2013 64 / 95 Exemple : Résultat du lancer de dé alors E (X ) = V (X ) = (UPV) vi 1 2 3 4 5 6 P(X = vi ) 1 6 1 6 1 6 1 6 1 6 1 6 1+2+3+4+5+6 21 = = 3.5 6 6 12 + 22 + 32 + 42 + 52 + 62 − 3.52 = 2.92 6 E411XS4 2012/2013 65 / 95 ⊲ Loi de Bernoulli : X ∼ Ber (p) C’est la loi d’une variable aléatoire succés/échec ou vrai/faux ... codée 1/0 ! La variable aléatoire discrète X suit une loi de Bernoulli de paramètre p lorsqu’elle prend deux valeurs : X (Ω) = {0, 1} et que : P(X = 1) = p Alors E (X ) = p (UPV) et et P(X = 0) = 1 − p V (X ) = p (1 − p) E411XS4 2012/2013 66 / 95 Exemple : Sondage Dans la rue, on interroge un individu “Êtes-vous pour le projet de constitution européenne ?” On définit X la variable aléatoire qui prend la valeur 1 s’il répond Oui et 0 sinon. Ainsi X ∼ Ber (p) où p est la probabilité qu’un individu soit favorable au projet de constitution européenne. ⊲ Loi binomiale : X ∼ Bin(n, p) C’est la loi d’une variable aléatoire qui compte le nombre de “succés” lors de la répétition indépendante d’une expérience succés/échec Elle a donc n + 1 valeurs possibles : X (Ω) = {0, 1, ..., n}. La variable aléatoire discrète X suit une loi binomiale de paramètres n et p lorsqu’elle s’écrit comme une somme de n variables aléatoires indépendantes de loi de Bernoulli : n X Xi X = où Xi indépendantes et i =1 (UPV) E411XS4 ∀i ∈ {1, ..n} Xi ∼ Ber (p) 2012/2013 67 / 95 L’expression de sa loi est donnée par : P(X = k) = Cnk p k (1 − p)n−k ∀k ∈ {0, .., n} 0.35 0.35 Bin(10;0.2) 0.3 0.3 0.3 0.2 0.15 0.2 0.15 0.2 0.15 0.1 0.1 0.1 0.05 0.05 0.05 0 0 0 1 2 3 4 5 6 7 8 9 10 Bin(10;0.8) 0.25 Probabilités 0.25 Probabilités 0.25 Probabilités Bin(10;0.5) 0 1 2 3 4 5 6 7 8 9 10 0 0 1 2 3 4 5 6 7 8 9 10 Remarque : Ber (p) = Bin(1, p) De plus, on obtient facilement : E (X ) = np (UPV) V (X ) = np(1 − p) E411XS4 2012/2013 68 / 95 Exemple : Sondages (suite) On interroge 1000 personnes qui indépendamment les unes des autres donnent leur position par rapport au projet de constitution européenne. Soit X1 la variable modélisant la réponse de la première personne, puis X2 celle de la deuxième et ainsi de suite. ∀i ∈ {1, .., 1000} Xi ∼ Ber (p). Soit X la variable aléatoire qui compte parmi les 1000 personnes combien seront favorables à la constitution européenne. X ∼ Bin(1000, p) ⊲ Loi Géométrique : X ∼ Geom(p) C’est la loi du nombre d’essais nécessaires pour qu’un événement se réalise : nombre de tentatives pour obtenir le permis de conduire, ... La variable aléatoire discrète X suit une loi géométrique de paramètre p si elle prend ses valeurs dans : X (Ω) = {1, 2, ...} = N∗ et si sa loi de probabilité est donnée par : P(X = k) = (1 − p)k−1 p (UPV) E411XS4 ∀k = 1, 2, ... 2012/2013 69 / 95 Remarque : le paramètre p modélise la probabilité de succès à chaque essai On peut déduire de l’expression de cette loi que : E (X ) = 1 p V (X ) = 1−p p2 ⊲ Loi de Poisson : X ∼ P(λ) C’est la loi du nombre d’événements survenus dans une période de temps donné : nombre d’urgences à l’hôpital la nuit, nombre de SMS reçus en une heure ... La variable aléatoire discrète X suit une loi de Poisson de paramètre λ si elle prend ses valeurs dans : X (Ω) = {0, 1, ...} = N et si sa loi de probabilité est donnée par : P(X = k) = e −λ (UPV) λk k! E411XS4 ∀k = 0, 1, 2, ... 2012/2013 70 / 95 On peut déduire de l’expression de cette loi que : E (X ) = λ V (X ) = λ Remarque : ... et toutes les autres ! ! ! (UPV) E411XS4 2012/2013 71 / 95 • Lois continues ⊲ Loi uniforme sur un intervalle [a, b] : X ∼ U nif ([a, b]) C’est le principe d’équiprobabilité adapté : la densité est la même sur tout l’intervalle ! La variable aléatoire continue X suit une loi uniforme sur l’intervalle [a, b] ssi X (Ω) = [a, b] et 1 ∀x ∈ [a, b] f (x) = b−a partout ailleurs la densité est nulle. (UPV) E411XS4 2012/2013 72 / 95 Unif([0,10]) Densité 0.1 0.05 0 −5 0 5 10 15 20 25 30 35 40 45 50 ⊲ Loi normale centrée réduite : U ∼ N (0, 1) c’est la fameuse loi de Gauss (courbe en cloche) ! Les deux paramètres ont été fixés à 0 et 1 respectivement ce qui signifie : E (U) = 0 V (U) = 1 par convention, on la désignera par U. (UPV) E411XS4 2012/2013 73 / 95 U(Ω) = R et sa densité est représentée par : 0.5 0.45 0.4 0.35 Densité 0.3 0.25 0.2 0.15 0.1 0.05 0 −5 −4 −3 −2 −1 0 1 2 3 4 5 Pour calculer les probabilités d’intervalles on se ramène à une table déjà construite. On notera lα le réel positif tel que P(U ≥ lα ) = α Remarque : lα est le quantile d’ordre 1 − α : lα = q1−α Exemple : α = 0.05 alors P(U ≤ l0.05 ) = 0.95. (UPV) E411XS4 2012/2013 74 / 95 Ainsi P(−lα/2 ≤ U ≤ lα/2 ) = 1 − α 0.5 0.45 0.4 0.35 1− α Densité 0.3 0.25 α/2 0.2 0.15 α/2 0.1 0.05 0 −5 −4 −3 −2 −1 −l 0 α /2 1 2 l P(−2.5758 ≤ U ≤ 2.5758) P(−1.96 ≤ U ≤ 1.96) P(−1.65 ≤ U ≤ 1.65) P(U ≥ 1.65) (UPV) E411XS4 3 4 5 α /2 = = = = 0.99 0.95 0.90 0.05 2012/2013 75 / 95 ⊲ Loi normale : X ∼ N (µ, σ 2 ) elles se déduisent toutes de la loi normale centrée réduite ! Les deux paramètres ont été fixés à µ et σ 2 respectivement ce qui signifie : V (X ) = σ 2 E (X ) = µ X (Ω) = R et sa densité est représentée par : 0.5 0.5 0.45 0.45 0.4 0.4 X ∼ N(2,1) 0.35 0.35 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 X ∼ N(2,4) 0.3 Densité Densité 0.3 −4 −2 (UPV) 0 2 4 6 0 E411XS4 −4 −2 0 2 4 2012/2013 6 76 / 95 Pour calculer les probabilités d’intervalles on se ramène à la table de la loi normale centrée réduite car : X ∼ N (µ, σ 2 ) =⇒ X −µ ∼ N (0, 1) σ une seule table suffit ! ! ! Remarque : ... et toutes les autres ! ! ! - la loi exponentielle de paramètre λ : X ∼ Exp(λ) X (Ω) = R+ elle modélise de nombreux phénomènes de durée : temps d’attente à un guichet, temps écoulé entre 2 pannes ... - la loi de Student de paramètre ν : X ∼ Tν X (Ω) = R et ν est le nombre de degrés de liberté elle ressemble à la loi normale mais est plus plate et lorsque ν grandit, elle se rapproche de plus en plus de la loi normale. - la loi du χ2 de paramètre ν : X ∼ χ2ν X (Ω) = R+ et ν est le nombre de degrés de liberté (UPV) E411XS4 2012/2013 77 / 95 si ν = 1 c’est la loi du carré d’une loi normale centrée réduite : X = U 2 pour ν quelconque, c’est la loi de la somme de ν P carré de variables aléatoires centrées réduites indépendantes : X = νi =1 Ui2 . 0.5 0.5 0.45 0.45 0.4 0.4 0.35 0.35 0.25 X∼T 0.2 3 X ∼ Exp(2) 2 0.25 0.25 0.2 0.2 0.15 0.15 0.1 0.1 0.05 0.05 0 0 1 2 3 4 (UPV) 5 6 7 8 9 10 0 X ∼ χ4 0.15 Densité 0.3 Densité Densité 0.3 0.1 0.05 −6 −4 −2 0 E411XS4 2 4 6 0 0 2 4 6 8 10 12 14 2012/2013 16 18 20 78 / 95 VI - Intervalle de dispersion d’une variable aléatoire continue • Définition On appelle intervalle de dispersion de la variable aléatoire continue X au risque α un intervalle [binf ; bsup ] contenant des valeurs de X avec la probabilité 1 − α : P(binf ≤ X ≤ bsup ) = P(X ∈ [binf ; bsup ]) = 1−α On le note : ID1−α (X ) = [binf ; bsup ] On dit : “ intervalle de dispersion à (1 − α)% de X ” Exemple : X ∼ N (0, 1) 1) P(−0.5244 ≤ X ≤ 1.2816) = 0.6 donc ID60% (X ) = [−0.5244; 1.2816] 2) P(X ≥ 0) = 0.5 donc ID50% (X ) = [0; +∞[ (UPV) E411XS4 2012/2013 79 / 95 ⊲ En pratique, le risque α est souvent faible : 0.1%, 1%, 5% ... parfois 10%. Exemple : 1) X ∼ N (0, 1) P(−1.96 ≤ X ≤ 1.96) = 0.95 donc ID95% (X ) = [−1.96; 1.96] 2) X ∼ N (2, 1) P(0.04 ≤ X ≤ 3.96) = 0.95 donc ID95% (X ) = [0.04; 3.96] • Propriété Pour un risque α fixé, il existe une infinité d’intervalles correspondant à la probabilité 1 − α. Exemple : X ∼ N (0, 1) 1) P(−1.7507 ≤ X ≤ 2.3263) = 0.95 donc ID95% (X ) = [−1.7507; 2.3263] 2) P(−2.0537 ≤ X ≤ 1.8808) = 0.95 donc ID95% (X ) = [−2.0537; 1.8808] (UPV) E411XS4 2012/2013 80 / 95 ⊲ En pratique, on choisit : • un intervalle centré au sens des quantiles ID1−α (X ) = [qα/2 ; q1−α/2 ] ce qui, dans le cas d’une distribution symétrique, est identique à : • un intervalle centré autour de l’espérance : ID1−α (X ) = [E (X ) − a; E (X ) + a] La loi normale est un exemple classique de distribution symétrique. De façon générale pour la loi N (0, 1), avec les notations de la section précédente, on a : ID1−α (U) = [−lα/2 ; lα/2 ] Exemple : X ∼ N (0, 1) ID99% (X ) = [−2.5758; 2.5758] (UPV) E411XS4 2012/2013 81 / 95 Chapitre 5 : Lois limites ... quand le nombre de répétitions n d’une expérience aléatoire grandit ! I - Préliminaire Lors de la modélisation d’une expérience aléatoire, on lui associe une variable aléatoire X . On répète n fois cette expérience aléatoire de façon identique et indépendante. À chaque répétition, on répète aussi la modélisation et on note Xi la variable aléatoire associée à la répétition numéro i . X1 , X2 , ..., Xn sont n copies de la variable aléatoire X . Elles sont toutes indépendantes et de même loi (celle de X ). ∀i ∈ {1, .., n} (UPV) E (Xi ) = E (X ) = µ V (Xi ) = V (X ) = σ 2 E411XS4 2012/2013 82 / 95 On définit alors la variable aléatoire : n X = 1X Xi n i =1 que l’on appelle “moyenne” • son espérance • sa variance • son écart-type (UPV) E (X ) = µ V (X ) = σ2 n σ σ(X ) = √ n E411XS4 2012/2013 83 / 95 Remarque 1 Après avoir observé ces n répétitions, on dispose de n réalisations P x1 , x2 , ...xn . On peut alors en calculer la moyenne : x = n1 ni=1 xi . La valeur obtenue est une réalisation de la variable aléatoire X . Remarque 2 On peut répéter p fois (par paquet) l’observation de n répétitions, on obtient alors p réalisations de X (UPV) E411XS4 2012/2013 84 / 95 II - La loi des grands nombres Exemple 1 On répète n fois le lancer d’une pièce de monnaie équilibrée. On définit la variable aléatoire X : X = 1 si pile ; X = 0 si face. Un exemple de réalisations : 1 0 1 0 0 1 0 0 0 1 0 0 ... 0.7 0.4 0.5 0.6 moyenne 0.8 0.9 1.0 On augmente n progressivement et on calcule à chaque fois la moyenne sur les n lancers. x représente alors la proportion de 1. Les valeurs de x au fur et à mesure sur ces mêmes réalisations : 1 0.5 0.6667 0.5 0.4 0.5 0.4286 ... 0 200 400 600 800 1000 n (UPV) E411XS4 2012/2013 85 / 95 Exemple 2 On répète n fois le lancer d’un dé équilibré. On note, dans la variable aléatoire X , la face obtenue. Un exemple de réalisations : 4 1 5 6 2 5 2 1 5... 2.5 3.0 moyenne 3.5 4.0 On augmente n progressivement et on calcule à chaque fois la moyenne des faces sur les n lancers. Les valeurs de x au fur et à mesure sur ces mêmes réalisations : 4 2.5 3.3333 4 3.6... 0 1000 2000 3000 4000 5000 n (UPV) E411XS4 2012/2013 86 / 95 Exemple 3 On répète n fois l’observation d’une variable aléatoire N (0, 1). moyenne −0.6 −0.4 −0.2 0.0 On augmente n progressivement et on calcule à chaque fois la moyenne sur les n répétitions. 0 200 400 600 800 1000 n (UPV) E411XS4 2012/2013 87 / 95 • Théorème 1 X n grand −→ µ En choisissant n suffisamment grand, la moyenne peut être rendue aussi proche que possible de l’espérance µ. • Théorème 2 V (X ) = σ2 n Plus n grandit, plus la dispersion de la moyenne se réduit. (UPV) E411XS4 2012/2013 88 / 95 III - Le théorème central limite On affine encore le comportement de la moyenne. Pour cela, on regarde la distribution de la moyenne sur plusieurs paquets d’observations. Exemple 2 On prend à chaque fois 1000 paquets de n lancers de dés et on représente l’histogramme des 1000 moyennes observées pour n = 1, 5, 20, 50, 100 Histogramme des moyennes 0 0 50 50 100 150 100 200 150 250 Histogramme des moyennes 1 2 3 4 5 6 moyennes de x sur n=1 valeur (UPV) 1 2 3 4 5 6 moyennes de x sur n=5 valeurs E411XS4 2012/2013 89 / 95 Histogramme des moyennes 0 0 50 50 100 150 100 200 150 250 300 200 Histogramme des moyennes 2 3 4 5 6 1 2 moyennes de x sur n=20 valeurs 3 4 5 6 moyennes de x sur n=50 valeurs 50 100 150 200 Histogramme des moyennes 0 1 1 2 3 4 5 6 moyennes de x sur n=100 valeurs (UPV) E411XS4 2012/2013 90 / 95 • Théorème (cas général) On répète n fois une expérience aléatoire. Soit X1 , ..., Xn les n variables aléatoires indépendantes et de même loi associées à ces répétitions. ∀i ∈ {1, .., n} X −µ r σ2 n E (Xi ) = E (X ) = µ V (Xi ) = V (X ) = σ 2 n grand −→ N (0, 1) Si n est grand, la moyenne centrée réduite se comporte comme une variable aléatoire de loi N (0, 1). En pratique, n n’a pas besoin d’être très grand (cf graphique) ... en tout cas, nettement moins que pour la loi des grands nombres ! (UPV) E411XS4 2012/2013 91 / 95 • Cas particulier Bernoulli C’est la situation du sondage ! On répète n fois une expérience aléatoire de Bernoulli. Soit X1 , ..., Xn les n variables aléatoires indépendantes et de loi Ber (p) associées à ces répétitions. ∀i ∈ {1, .., n} E (Xi ) = E (X ) V (Xi ) = V (X ) Et E (X ) V (X ) r X −p p (1 − p) n = p = p (1 − p) = p p (1 − p) = n n grand −→ N (0, 1) Rappel : X modélise la proportion de 1. (UPV) E411XS4 2012/2013 92 / 95 IV - TCL et intervalle de dispersion • Intervalle de dispersion pour X À l’aide de l’approximation de la loi de X obtenue par le théorème central limite, on peut alors construire, quand n est grand, un intervalle de dispersion approché pour les valeurs de X : σ σ ID1−α (X ) = [µ − lα/2 √ ; µ + lα/2 √ ] n n • Intervalle de dispersion pour X : cas Bernoulli À l’aide de l’approximation de la loi de X obtenue par le théorème central limite, on peut alors construire, quand n est grand et p pas trop proche ni de 0 ni de 1, un intervalle de dispersion approché pour les valeurs de X : r r p (1 − p) p (1 − p) ID1−α (X ) = [p − lα/2 ; p + lα/2 ] n n (UPV) E411XS4 2012/2013 93 / 95 Outre la moyenne, le TCL permet aussi d’approcher la loi de la somme de n variables aléatoires X1 , .., Xn indépendantes et identiquement distribuées. On définit : n X Xi S= i =1 Alors E (S) = n µ V (S) = n σ 2 Ainsi le théorème central limite donne : S −n µ √ n σ2 n grand −→ N (0, 1) Si n est grand, la somme centrée réduite se comporte comme une variable aléatoire de loi N (0, 1). (UPV) E411XS4 2012/2013 94 / 95 • Intervalle de dispersion pour S À l’aide de l’approximation de la loi de S obtenue par le théorème central limite, on peut alors construire, quand n est grand, un intervalle de dispersion approché pour les valeurs de S : √ √ ID1−α (S) = [n µ − lα/2 n σ ; n µ + lα/2 n σ] • Intervalle de dispersion pour S : cas Bernoulli À l’aide de l’approximation de la loi de S obtenue par le théorème central limite, quand n est grand et p pas trop proche ni de 0 ni de 1, on peut alors construire un intervalle de dispersion approché pour les valeurs de S : ID1−α (S) = [n p − lα/2 (UPV) p n p (1 − p) ; n p + lα/2 E411XS4 p n p (1 − p)] 2012/2013 95 / 95