Ière PARTIE NOTIONS DE CALCUL DES PROBABILITES ET DE VARIABLE ALEATOIRE CHAPITRE 1 NOTIONS SUR LES PROBABILITES FORMULES DE BASE I - Exemples Il est fréquent de jouer aux cartes, aux dés ou à d'autres jeux de hasard et on peut ainsi faire appel plus "ou moins intuitivement au calcul des probabilités. Par exemple : (1) On jette un dé équilibré et on gagne si la face 6 sort. fl est évident que l'on a une chance sur 6 de gagner, et on dira que la probabilité que la face 6 sorte est égale à : Le calcul est rapide puisque six faces peuvent sortir avec la même chance à la suite du lancer du dé et qu'une seule correspond au numéro désiré. (2) On jette un dé et on gagne si la face sortie est supérieure à 4 (c'est à dire 5 ou 6). On a ainsi deux chances sur six de gagner et la probabilité est de : (3) On tire au hasard une carte dans un jeu de 32 et on gagne si on tire un roi ou un trèfle. Quelles sont les chances de gagner ou quelle est la probabilité de gain ? - il y a au total 32 cartes qui peuvent être tirées avec une chance identique (on supposera que le jeu est parfaitement "franc") ; - 4 sont des rois ; - 8 sont des trèfles ; En additionnant, on serait donc tenté de dire que l'on a 12 chances sur 32 de gagner mais on compte alors deux fois la même carte : le roi de trèfle (une fois comme roi et un fois comme trèfle). La réponse exacte est donc de : 4+8-1 = 11 cartes sur 32 et la probabilité de : (on a 11 chances sur 32 de gagner). (4) Les exemples ci-dessus sont faciles à appréhender mais on peut étendre le raisonnement à beaucoup d'autres domaines comme la gestion des entreprises, les possibilités de réussite d'une opération ou la réaction d'un groupe d'individus à une question posée. Une des difficultés est d'envisager les différents événements qui peuvent se produire et de calculer la probabilité de réalisation de chacun. En effet, dans certains cas on peut faire appel à des techniques de dénombrement, ou à des "lois" connues, mais pour d'autres, il s'agira d'estimations par manque de connaissance du phénomène concerné ou parce que l'on cherche à formaliser des appréciations subjectives du type : "si je fais ceci, comment mon adversaire va réagir ? Avec quelles chances ?" Toutefois, quel que soit le mode d'obtention des probabilités, leur utilisation dans divers calculs obéit aux mêmes règles que nous allons maintenant aborder. II - Notion de probabilité et relations de base On envisage une situation ou une épreuve (par exemple : le jet d'un dé, le contrôle d'un stock ou un sondage d'opinion...), dans lesquelles différents événements peuvent se produire (par exemple : telle face sort, la pièce contrôlée est bonne, la réponse à une question est favorable,...). On a donc une liste d'événements possibles qui peuvent être quantitatifs ou qualitatifs et que l'on peut noter ei (e comme "événement", i indiquant le repère, le rang ou le numéro d'ordre ; par exemple, on notera e1 "la pièce est bonne" et e2 "la pièce est mauvaise"). A chaque événement correspond une probabilité, que l'on notera P(ei) ou Pi (i étant le même que pour ei qui représente les chances qu'a cet événement de se réaliser (par exemple I chance sur 6 d'obtenir la face 1 en jetant un dé à six faces). (1) La probabilité est un nombre compris entre zéro et un En effet : - si un événement e^ est "impossible" et ne peut pas se réaliser, "ses" chances sont nulles et on aura : Pi = 0 - si on est sûr qu'un événement ei va se réaliser, on dira qu'il est "certain" et : Pi=1 Par exemple, la probabilité de tirer le deux de pique dans un jeu de 32 cartes est nulle, car il n'y a pas de deux de pique. De même, la probabilité de sortir un nombre inférieur à sept lorsqu'on jette un dé à six faces marquées de 1 à 6 est égale à 1 car, quelle que soit la face sortie, elle sera inférieure à sept. (2) Probabilité de l'événement contraire Soit un jeu de 32 cartes. Si on tire une carte au hasard, la probabilité de tirer un roi est de 4/32. Celle de tirer une carte différente du roi (ou "non roi") est de 28/32, que l'on peut obtenir en faisant le total des cartes autres que le roi (as, dames, etc.) ou en écrivant simplement : 32-4 =28 cartes qui ne sont pas des rois et la probabilité cherchée est égale à : 32 4 28 4 ou 1 32 32 32 c'est à dire P(non roi) = 1 - P(roi) ce qui simplifie les calculs. Plus généralement, si on considère un événement A et sa probabilité P(A), celle de l'événement contraire notée A sera égale à : 1 - P(A) = P(Ā) Ā se lit : "non A". (3) Relations de base du calcul des probabilités a) Si on considère une carte à jouer tirée au hasard d'un jeu de 32 cartes, la probabilité d'avoir un roi ou une dame est de : 4 4 8 puisqu'il y a 4 rois et 4 dames dans le jeu 32 32 32 Plus généralement, on peut écrire que : P(A ou B) = P(A) + P(B) (1) A et B indiquant deux événements "incompatibles" c'est à dire que l'un et l'autre ne peuvent se produire ensemble (par exemple tirer une carte qui soit à la fois dame et roi). (1) En notation de la théorie des ensembles, on utilise : P(A U B) pour P(A ou B), U indiquant la réunion. b) Par contre, si on considère deux événements compatibles, on a : P(A ou B) = P(A) + P(B) - P(A et B) (1) P(A et B) exprime la réalisation simultanée de deux événements A et B. On parle de probabilité jointe. Par exemple, la probabilité de tirer un roi ou un trèfle est égale à (voir supra) : 4 8 1 11 32 32 32 32 En effet, il y a 4 rois dans le jeu, ainsi que 8 trèfles, soit douze cartes sur 32, mais en procédant de cette manière, on compte deux fois le roi de trèfle, qui est à la fois roi et trèfle (A et B). û faut donc le retrancher une fois. On peut, sans difficulté, appliquer cette relation à d'autres domaines. Si 40 % d'individus lisent un journal donné A, si 70 % d'individus lisent un autre journal B, et si, par ailleurs, 35 % lisent à la fois A et B, on peut dire que : 0,4 + 0,7 - 0,35 = 0,75 ou 75 % lisent l'un ou l'autre des deux journaux. Plus précisément : • 35 % lisent les deux [ P(A et B)] • 40 - 35 = 5 % ne lisent que A, soit : _ P(A seul) = P(A) - P(A et B) = P(A et B) • 70 - 35 = 35 % ne lisent que B, soit : _ P(B seul) = P(B) - P(A et B) = P(B et A) • 100 -p5 + 5 + 251 = 25 % ne lisent ni A ni B P(S et B) = 1 - P (A ou B) = 1 - 0,75 = 0,25 On a donc le schéma suivant : On verra ultérieurement comment calculer dans certains cas P(A et B). (1) en notation de la théorie des ensembles, on utilise : P (A ∩ B) pour P (A et B), ∩ indiquant l'intersection (4) La somme des probabilités est égale à 1 sous certaines conditions La relation : P 1 signifie simplement que si on dispose, dans le cadre d'une i i situation ou d'une épreuve, d'une liste exhaustive des événements incompatibles qui peuvent se produire, la somme de leurs probabilités est égale à 1. Par exemple, si on jette un dé : • au total, six faces peuvent apparaître (liste "exhaustive") ; • les événements sont incompatibles : si la face 2 sort, elle ne peut être en même temps la face 3 ou 4 ; • la somme des probabilités est bien égale à 1, car chaque face a une probabilité de 1/6 de "sortir" et il y a 6 faces. III - Essai de formulation Dans le calcul des probabilités on s'efforce d'appréhender des épreuves, des situations pour lesquelles les résultats ne sont pas connus avec certitude. Ils constituent ainsi un ensemble d'événements possibles, appelé ensemble fondamental (1). On peut ainsi noter les relations entre les différents événements en utilisant la théorie des ensembles : (1) A U B représente l'événement : réalisation de l'événement A ou de l'événement B (2) A ∩ B représente l'événement : réalisation de l'événement A et de l'événement B (3) Ā est l'événement contraire d'un événement A (4) A B signifie que la réalisation d'un événement A entraîne la réalisation de l'événement B,(par exemple obtenir 2 entraine obtenir un nombre pair). (5) Ø est un événement qui ne peut se réaliser (événement "impossible") Définir les situations ne suffit pas, il faut en quantifier les possibilités de réalisation. Le calcul de probabilités montre que l'on obtient des nombres compris entre 0 et 1. En particulier, si un événement est "certain", sa probabilité est égale à 1. S'il est (1) Cet ensemble est souvent noté Ω (oméga) "impossible", sa probabilité est égale à 0. De même, si deux événements A et B ne peuvent se réaliser simultanément ("incompatibles"), on peut écrire que : P(A ou B) = P(A U B) = P(A) + P(B) (1) Un certain nombre de conséquences en découlent, notamment : - Si la réalisation de A entraîne celle de B, alors : P(A) ≤ P(B) Par exemple, dans le lancer d'un dé : P(face 2) < P(face paire) 1 6 En effet : 3 6 - P(A U B) = P(A) + P(B) - P(A ∩ B) si A et B sont compatibles, ce que nous avons vu précédemment. IV - Quelques applications Application 1 Un organisme réalise une loterie comportant 500 numéros de 1 à 500. Gagnent un lot: - le numéro 453 - les numéros terminés par deux zéros - les numéros de 1 à 5. a) Une personne tire un numéro au hasard. Quelle est la probabilité qu'elle gagne un lot ? b) Cette même personne tire un second numéro au hasard. Quelle est la probabilité qu'elle gagne un second lot ? (on ne remet pas le premier numéro tiré). c) Quelle est la probabilité qu'elle ne gagne rien au premier tirage ? (1) KOLMOGOROFF a défini une axiomatique avec : P(Ω) = 1 P(A) ≥ 0 et P(A U B) = P(A) + P(B) si A ∩ B =Ø Solution a) Traduisons l'énoncé en termes relatifs : sur 500 numéros, 11 sont des numéros gagnants. Respectivement : - le 453 - les 100,200, 300,400,500 -les 1,2,3 ,4 ,5 La probabilité de gagner pour une personne est alors : 11 0,022 500 c'est à dire 11 cas favorables, sur 500 cas possibles parce que les tirages des différents numéros sont "équiprobables" (chaque numéro a la même chance de sortir). b) Après le tirage du premier numéro, il reste 10 lots et 499 numéros à tirer, soit une chance de gagner de : 10 0,02 499 ou 2 chances sur 100 c) Pour ne rien gagner au premier tirage, il faut tirer un numéro parmi les 489 non gagnants, soit : 489 11 ou 1 0,978 500 500 On peut utiliser en effet la formule de l'événement contraire avec : P(perte) = 1 - P(gain) = 1 - 0,022 Application 2 D'après des études antérieures, on a pu établir que : - 20 % d'une population avait un loisir A (conjointement ou non avec B) -10 % avait un autre loisir B (conjointement ou non avec A) - 5 % avait à la fois A et B. a) Quelle est la probabilité qu'une personne prise au hasard ait A ou B (c'est à dire un ou deux loisirs) ? b) Même question pour un seul loisir (c'est à dire que A ou que B). c) Même question pour zéro loisir. Solution On peut schématiser la répartition de la population : La surface hachurée représente ceux qui n'ont pas de loisir et correspond à l'événement ( A B ) . D'après l'énoncé, on a: P(A) = 0,2 P(B)=0,1 P(A et B) = P(A∩B) = 0,05 a) Un ou deux loisirs On cherche P(A ou B). En effet, la notation "ou" englobe l'intersection c'est à dire (A et B) (deux loisirs). P(A ou B) = P(A U B) = P(A) + P(B) - P(A ∩ B) = 0,2 + 0,1 - 0,05 = 0,25 b) un seul loisir On constate sur le schéma ci-dessus que : P(A uniquement) = P(A) - P(A et B) = 0,2 - 0,05 = 0,15 En effet, si 20 % de la population a le loisir A et 5 % les loisirs A et B, seulement 15 % n'ont que A. On fait le même raisonnement pour B avec : P(B uniquement) = P(B) - P(A∩B) = 0,1 - 0,05 = 0,05 c) zéro loisir Ceci correspond à l'événement ( A B ) avec : P( A B ) = 1 - P(A ou B) = 1 - 0,25 = 0,75 En effet, si 25 % de la population a un ou deux loisirs, par différence 75 % n'en ont pas (événement contraire). Application 3 Une enquête a révélé que sur une population interrogée : - 5 % des individus consommaient trois produits A, B et C -15 % B et C, mais pas A - 20 % A et B, mais pas C -10 % A et C, mais pas B - 10 % ne consommaient aucun produit - 5 % ne consommaient A uniquement -10 % consommaient A uniquement ou B uniquement (en excluant A et B) On interroge une personne sur son comportement d'achat. a) Ecrire sous forme de probabilités les données ci-dessus qui expriment les chances qu'une personne tirée au hasard consomme tel ou tel produit. b) En déduire la probabilité : - qu'elle consomme A - qu'elle consomme B - qu'elle consomme C uniquement - qu'elle consomme uniquement B et C. Solution a) Si 5 % des personnes interrogées consomment A, B et C, on peut écrire qu'une personne choisie au hasard a 5 "chances" sur 100 de consommer les trois produits, soit : P(A et B et C) = P(A∩B∩C) = 0,05 De même, on peut écrire : P(B et C) = P(B ∩ C) = | 0,15 P(A et B) = 0,20 P(A et C) = 0.10 P( A et B et C ) = 0,10 (en effet, la personne ne consomme aucun produit c'est à dire ni A ni B ni C). P(A uniquement ) = 0,05 (attention il faut distinguer P(A) et P(A uniquement) car la première peut englober la consommation de A en même temps que d'autres produits, par exemple B ou C). P(A uniquement ou B uniquement) = 0,10 (c'est le même problème que ci-dessus). b) Pour calculer les probabilités demandées, on peut raisonner de la manière suivante : Elle consomme A isolément avec P(A uniquement) = 0,05 conjointement avec B, P(A et B) = 0,20 conjointement avec C, P(A et C) = 0,10 Or, si on considère la consommation conjointe de A, B et C, elle est déjà incluse dans (A et B) et (A et C) comme le montre le schéma ci-dessous (les surfaces ne sont pas proportionnelles). La surface hachurée est ainsi comptée une fois lorsqu'on considère (A et B) et une autre fois lorsqu'on considère (A et C), il faut donc la retrancher une fois dans le calcul de P(A). Soit: P(A) = 0,05 + 0,20 + 0,10 - 0,05 = 0,30 Ainsi, il y a 30 chances sur 100 qu'une personne prise au hasard consomme A isolément ou avec d'autres produits. Elle consomme B Faisons le même raisonnement qu'avec A : On sait que : P(A uniquement ou B uniquement) = 0,10 d'où P(B uniquement) = 0,10 - P(A uniquement) = 0,10 - 0,05 = 0,05 Par ailleurs : P(A et B) = 0,20 P(B et C) = 0,15 Soit un total de 0,40 auquel il faut retrancher la quantité P(A et B et C), soit P(B) = 0,05 + 0,20 + 0,15 - 0,05 = 0,35 35 % des personnes interrogées consomment B isolément ou conjointement. Elle consomme C uniquement Déterminons d'abord la probabilité qu'elle consomme C, isolément ou avec d'autres produits. On peut procéder par différence en tenant compte des résultats et des données précédents : On sait que 90 % de la population interrogée consomme un ou plusieurs produits. En effet : P(A ou B ou C) = 1 - P( A et B et C ) =1-0,10 = 0,90 En s'appuyant sur le schéma ci-dessous : on constate que, parmi les consommateurs de un ou plusieurs produits (90 % de la population), ceux qui ne consomment que C peuvent être obtenus en retranchant ceux qui consomment (A ou B). En effet, (A ou B) inclue (A et C), (B et C), (A et B), que A ou que B. Or, d'après les réponses précédentes : P(A ou B) = P(A) + P(B) - P(A et B) = 0,30+0,35-0,20 = 0,45 On en déduit : P(uniquement C) = 0,9 - 0,45 = 0,45 Résumé l/ La probabilité mesure les chances qu'un événement se réalise. Soit : P(ei) = Pi avec: 0 ≤ Pi ≤ l - Si Pi = 0, l'événement est "impossible" ; - Si Pi = 1, l'événement est "certain". 2/ Si on considère deux événements A et B, on a les relations suivantes : P(A ou B) = P(A) + P(B) - P(A et B) ou P(A U B) = P(A) + P(B) - P(A ∩ B), si on utilise une notation ensembliste (avec U = "union" et ∩ = "intersection"). • P(A ou B) exprime la probabilité que A "ou" B se réalise (c'est-à-dire soit l'un, soit l'autre, soit les deux) ; • P( A et B) exprime la probabilité que A "et" B se réalisent ensemble. • Si A et B ne peuvent se réaliser ensemble, on dit qu'ils sont incompatibles et P(A et B) = 0 (ou A ∩ B = 0 en langage ensembliste). 31 On peut étendre la formule du 2/ à plus de deux événements avec : a) P(A ou B ou C) = P(A) + P(B) + P(C) si A,B et C sont incompatibles (avec + P(D) si on avait un quatrième événement incompatible, etc...) Ainsi : • Si, à la suite d'une épreuve (par exemple le jet d'un dé), on définit tous les événements e; incompatibles qui peuvent se produire et on calcule les probabilités correspondantes Pp on vérifiera : P 1 i i -Si, à la suite d'une épreuve ou si dans un ensemble d'événements possibles, on s'intéresse à un événement A et on cherche P(A), on peut l'exprimer en cherchant la probabilité que A ne se réalise pas, P( A ) et : P(A) = 1 - P(Ā) Ā est l'événement "contraire" et se lit "non A" b) P(A ou B ou C) = P(A) + P(B) + P(C) - P(A et B) - P(A et C) - P(B et C) + P(A et B et C) si A, B et C sont quelconques. Ainsi : - on additionne les probabilités de chaque événement, - on retranche les "intersections" 2 à 2, - on ajoute l'intersection 3 à 3. S'il y avait un 4ème événement D compatible, on rajouterait P(D), on retrancherait les probabilités de toutes les intersections 2 à 2, on rajouterait celles de toutes les intersections 3 à 3 et on retrancherait celle de l'intersection 4 à 4 (A et B et C et D). 4/ En termes d'ensemble, on considère une épreuve E et on définit tous les événements qui peuvent se produire. L'ensemble de ces événements est "l'ensemble fondamental" Ω (oméga), et on peut écrire que : P(Ω) = 1 L'événement "impossible" est représenté par "l'ensemble vide" Ø avec : P(Ø)=0 CHAPITRE 2 PROBABILITE CONDITIONNELLE FORMULE DE BAYES 1 - Notion de probabilité conditionnelle Supposons qu'une personne tire une carte au hasard d'un jeu de 32 cartes, la regarde et nous dise, sans nous la montrer, "c'est un roi". Quelle est alors la probabilité que ce soit le roi de trèfle ? La réponse est bien sûr 1/4 car il y a un roi de trèfle sur les quatre rois du jeu. On a ainsi défini la probabilité d'un événement du type "sachant qu'on a un roi, quelle est la probabilité que ce soit le roi de trèfle". On parie de probabilité conditionnelle, que l’on notera : P(A/B) c’est à dire "Probabilité de A sachant B" PB(A) c'est à dire "Probabilité de A si B" (A et B repérant deux événements donnés). On peut généraliser cette notion à bien d'autres situations : par exemple sur une population de ménages, 60 % possèdent au moins une unité d'un produit donné et, sur les 60 %, 40 % en possèdent deux. On interroge maintenant au hasard un ménage et on lui demande s'il possède le produit. Il répond "oui". Quelle est alors la probabilité qu'il en possède deux unités ? Intuitivement, la réponse est 0,4 puisque 40 % de ceux qui possèdent le produit en possèdent deux unités. On écrira: P(possède 2/possède 1) = 0,4 ce qui signifie qu'il y a 40 chances sur 100 que le propriétaire du produit en possède deux unités. On peut ainsi traiter tous les problèmes du type : "sachant que....", "étant donné que ...", "si... alors...", dont les applications sont très fréquentes. II - Formule des probabilités conditionnelles (1) Pour déterminer le nombre P(A/B) on appliquera la première formule de BAYES: P(A/B) PB (A) P(A et B) P(B) En effet, si on représente les événements A et B comme les parties d'un ensemble, on a le schéma : On "sait" que l'on est dans B et on cherche la probabilité d'être aussi dans A. On calcule alors le rapport entre la zone "(A et B)" et la zone B. Si, par exemple, 20 % d'une population lit deux journaux A et B et si 50 % lisent le journal B (seul ou avec A), la probabilité qu'un lecteur de B lise aussi A est égale à : P(A/B) 0,2 0,4 0,5 Il y a 40 chances sur 100 qu'un lecteur de B lise aussi A. (2) De la formule ci-dessus, on peut en déduire le calcul de P(A et B). û suffit de permuter les inconnues et on obtient : P(A et B) = P(A/B) x P(B) Par exemple, si on tire deux cartes d'un jeu de 32 cartes sans remettre la première, la probabilité d'avoir un roi au second tirage et un roi au premier est : P(R2 et R1) = P(R2/ R1) x P(R1) 3 4 0,012 31 32 En effet, au premier tirage, il y a 4 rois sur 32 cartes [ P(R1) = 4/32]. Au second tirage, il ne reste plus que 3 rois sur 31 cartes [P(R2/R1) = 3/31]. On peut ainsi, grâce à cette formule, calculer des probabilités d'événements de la forme (A et B) ou (A ∩ B). (3) Si on considère que A et B sont indépendants, on peut écrire : P(A/B) = P(A) et P(A et B) = P(A) x P(B) En effet, A et B sont indépendants si la réalisation de B n'a aucune incidence sur celle de A et sur la probabilité correspondante (et réciproquement). Si nous reprenons l'exemple des deux rois mais en considérant que la première carte est remise avant le tirage de la seconde, on a : P(R2 et R1) = P(R2) x P(R1) 4 4 0,016 32 32 En effet, la première carte est remise et il reste 4 rois sur 32 cartes au second tirage [P(R2) = 4/32]. Le jeu n'a pas été modifié d'un tirage à l'autre et les deux tirages sont indépendants (c'est une différence très importante entre un sondage "avec remise" et un autre "sans remise" ou exhaustif). III - Théorème de Bayes D'application très générale, il reprend et généralise la formule des probabilités conditionnelles. Par exemple, la rédaction de documents identiques est réalisée sur 2 postes de travail. A réalise 30 % de l'ensemble des documents B réalise 70 % de l'ensemble des documents. Le travail est ensuite contrôlé pour déceler les erreurs éventuelles. En moyenne, le taux d'erreur de A est de 6 % et celui de B de 4 %. Supposons maintenant qu'on contrôle un document au hasard : il présente une erreur. Quelle est la probabilité qu'il ait été rempli par le poste A ? (1) Pour répondre, on peut faire un simple raisonnement en pourcentage : Cherchons d'abord le taux moyen d'erreurs en pondérant le taux de chaque poste par le pourcentage du travail effectué : Sur 1000 documents rédigés, A en réalise 300 avec 6 % d'erreur, soit 18 erreurs au total B en réalise 700 avec 4 % d'erreur, soit 28 erreurs. Au total, sur 1 000 documents remplis, on a 46 erreurs ou un taux moyen de 46/1000 ou 0,046 ou 4,6%. Comme A a réalisé 18 erreurs sur les 46, la probabilité qu'un document erroné vienne de A est égale à : 18 0,39 46 Pour B, on obtiendrait : 28 0,61 46 Le total est égal à 1 puisqu'on a deux possibilités de sources d'erreur (liste "exhaustive" d'événements "incompatibles"). (2) Cherchons maintenant à raisonner en termes de probabilité. On veut calculer : P(l'erreur vient de A/ il y a une erreur) = P(A/E) avec : P(A/E) P(A et E) P(E) a) P(A et E) représente la probabilité qu'un document soit rédigé par A et qu'il présente une erreur, soit : - il y a 30 chances sur 100 qu'un document soit rédigé par A [P(A) = 0,3] ; - il y a alors 6 chances sur 100 que ce document présente une erreur [P(E/A) = 0,06] D'où: P(A et E) = P(E/A) x P(A) = 0,06 x 0,3 = 0,018 (d'après la formule établie supra) b) Par ailleurs, P(E) au dénominateur représente la probabilité qu'un document soit erroné quel que soit le poste de travail qui l'a rédigé, c'est à dire A ou B. On a donc (1) : P(E) = P(E et A) + P(E et B) En effet, une erreur peut être commise par A ou par B. En appliquant le même raisonnement qu'au numérateur, on obtient : P(E) = (0,06 x 0,3) + (0,04 x 0,7) = 0,046 Enfin, P(A/E) que l'on cherche est égale à : 0,018 0,39 0,046 (3) Deuxième formule de Bayes Elle s'exprime par : P(A k /B) P(A k etB) P(AietB) i B exprime un premier événement qui se produit, dont la probabilité est non nulle. Ai exprime une série de n événements incompatibles qui peuvent se produire à la suite de B, l'indice i représentant l'un quelconque de ces événements. Σ indique que l'on fait la somme des probabilités. La formule de Bayes permet ainsi de calculer la probabilité que l'un parmi ces n événements se produise, alors que B s'est produit. On note Ak cet événement particulier dont on cherche la probabilité. [Sur l'exemple, on avait deux événements possibles (erreur en provenance de A ou de B), i varie donc de 1 à 2]. (1) Voir supra, probabilité d'événements du type P(A ou B), A et B étant incompatibles, avec : P(A ou B) = P(A) + P(B) IV - Quelques applications Application 1 En procédant à des contrôles de fabrication, on a constaté qu'une pièce pouvait avoir jusqu'à deux défauts, les défauts étant indépendants. On a constaté, lors de différents contrôles, le premier défaut 1 fois sur 20 et le second 1 fois sur 10. Si on veut effectuer par sondage un nouveau contrôle de qualité et si on tire une pièce au hasard, quelle est la probabilité qu'elle présente : a) un défaut seulement. b) deux défauts. c) zéro défaut. Solution On peut présenter le problème sous forme de tableau : 1er défaut Ā A B 0 1 B 1 2 2ème défaut A représente le premier défaut et B le second. P(A) 1 (probabilité d'avoir le premier défaut). 20 P(B) 1 (probabilité d'avoir le deuxième défaut). 10 19 (probabilité de ne pas avoir le premier défaut) 20 9 P(B) 1 P(B) (probabilité de ne pas avoir le deuxième défaut) 10 P(A) 1 P(A) a) Un défaut uniquement D'après le tableau ci-dessus, la pièce a un défaut dans le cas où elle présente uniquement le défaut A ou le défaut B. On peut écrire : P(l) = P(A et B ) + P(Ā et B) On introduit B et Ā car on veut un seul défaut (l'autre défaut ne doit pas se réaliser). Les événements étant indépendants, on développe : P(l) = P(A) x P( B ) + P(Ā) x P(B) P(1) 1 9 19 1 0,14 20 10 20 10 Il y a 14 chances sur 100 qu'une pièce contrôlée présente un seul défaut. b) deux défauts L'événement correspondant est (A et B), avec : P(2) P(AetB) P(A) P(B) 1 1 0,005 20 10 c) zéro défaut I ne faut pas avoir de défaut A ni de défaut B, soit (A et B) avec P(0) P(Aet B) P(A) P(B) 19 9 0,885 20 10 On aurait pu calculer par différence avec : P(0) = 1 - [P(l) + P(2)] = 1-0,14 - 0,005 = 0,855 Compte tenu des taux de défectuosité, 85,5 % des pièces fabriquées ne doivent pas présenter de défauts. Application 2 En comparant 1987 et 1990 , on analyse l'évolution des niveaux de rémunération sur l'ensemble des salariés présents en 1987. On obtient le tableau suivant : 1990 1987 Niveau 1 Niveau 2 Total Niveau 1 Niveau 2 Départ Total 70 5 75 15 35 50 15 10 25 100 50 150 Le tableau se lit de la manière suivante : Il y avait en 1987 150 salariés au total dont 100 au niveau 1 de rémunération. Sur ces 100, 70 sont restés au niveau 1 en 1990 et 15 sont passés au niveau 2 ; enfin 15 sont partis entre-temps. Pour "quantifier" la possible évolution d'une rémunération, calculer la probabilité que : a) Un salarié, ayant atteint le niveau 1 en 1987, passe au niveau 2 trois ans plus tard. b) Un salarié au niveau 1 en 1990 était au même niveau en 1987. Solution a) Pour répondre à cette question, il suffit de lire le tableau "en ligne". Au total, 100 salariés étaient au niveau 1 en 1987 et 15 d'entre eux ont atteint le niveau 2 en 1990, soit: P(niveau 2 en 90/niveau 1 en 87) = 15/100 = 0,15 Il y a 15 chances sur 100 qu'un salarié progresse de niveau sur une période de 3 ans. b) On lit le tableau "en colonne". En 1990, on a au total 75 salariés de niveau 1 dont 70 avait le même niveau en 1987, soit : P(niveau 1 en 87/ niveau 1 en 90) = 70/75 = 0,93 ou 93 % des salariés de niveau 1 en 90 sont restés au même niveau qu'en 87. Les réponses aux questions a) et b) utilisent la relation : P(A/B) P(A et B) P(B) Par exemple : 15 P(N 2 en 90 et N1 en 87) 150 P(N 2 en 90/N1 en 87) 0,15 100 P(N1 en 87) 150 (150 étant le nombre de salariés en 1987). Résumé (1) Le conditionnement se mesure en probabilité par une formule dite formule de Bayes : a) Si B est un événement de probabilité non nulle, pour tout événement A, on a : P(A/B) P(A B) P(A et B) P(B) P(B) Ainsi, la réalisation de B peut avoir une influence sur la réalisation d'un autre événement A. On peut déduire de cette formule : p(A et B) = p(A ∩ B) = p(A/B) x p(B) b) Si la réalisation de A n'influence pas la réalisation de B, on a les relations : p(B/A) = p(B) ou p(A/B) = p(A) qui nous permettent d'écrire : p(A ∩ B) = p(A) x p(B) A et B sont indépendants. (2) On peut également mesurer le conditionnement par la 2ème formule de Bayes : Si B est un événement de probabilité non nulle et (Ai), i variant de 1 à n, constitue un système complet d'événements (on dit aussi partition), alors : pour un entier k donné entre 1 et n. CHAPITRE 3 VARIABLES ALEATOIRES 1 - Notion de variable aléatoire Dès qu'on raisonne dans l'incertain et que l'on procède à des valorisations il est important d'en mesurer le degré de réalisation, ou degré de vraisemblance, que nous appellerons probabilité. L'ensemble des valeurs et les probabilités associées à chacune d'elles portent le nom de variable aléatoire. (1) Exemple a) Dans le cadre de prévisions budgétaires, on estime qu'il y a trois hypothèses de résultat : - bénéficiaire pour 100 KF - bénéficiaire pour 60 KF - déficitaire pour (- 40 KF) On estime les chances de réaliser les différents résultats à respectivement 40 %, 25 % et 35 %. Quel est le résultat moyen que l'on peut espérer ? La réponse est intuitive ; on a : - 40 chances sur 100 de gagner +100 - 25 chances sur 100 de gagner + 60 - 35 chances sur 100 de perdre - 40 En moyenne, on peut donc gagner : (100 x 0,4) + (60 x 0,25) + (- 40 x 0,35) = 41 KF Pour répondre à la question, on a pondéré chaque valeur par sa probabilité de réalisation. b) Sur l'exemple précédent, on considérait une variable avec des valeurs monétaires. On peut envisager n'importe quel autre type de variable. Par exemple, on demande à un technicien d'estimer les possibilités de pannes d'une machine sur une période donnée. On peut exprimer sa réponse sous forme de tableau : nombre de pannes possibles 0 1 2 3 probabilité correspondante 0,60 0,20 0,15 0,05 1,00 Par exemple, il estime qu'il y a 60 chances sur 100 de ne pas avoir de panne. On a donc une nouvelle variable aléatoire (le nombre de pannes) qui peut prendre des valeurs entières de 0 à 3 avec différentes probabilités. (2) Généralisation On définira une variable aléatoire simplement en écrivant que "c'est une variable dont les valeurs sont assorties de probabilités". On note en général, pour une variable X : xi la valeur de rang i pi la probabilité correspondante, c'est à dire la probabilité que la variable prenne la valeur xi. Il faut noter que les pi peuvent : - être purement subjectives ; - être estimées ; - être calculées pour chaque valeur en appliquant les règles du calcul des probabilités des chapitres précédents ; - être déterminées à partir d'une formule générale en fonction des valeurs de X. Nous verrons ce problème lors de l'étude des différentes lois de probabilité. (3) Propriétés On peut effectuer sur les variables aléatoires la plupart des traitements (graphiques, valeurs caractéristiques) effectués sur les variables statistiques (1). a) En particulier on peut calculer une valeur moyenne ou espérance mathématique Si on reprend sous forme de tableau l'exemple précédent des prévisions budgétaires, on a : résultats possibles xi (en KF) probabilités Pi résultats pondérés xipi -40 +60 +100 0,35 0,25 0,40 -14 +15 +40 TOTAL 1,00 +41 On retrouve le résultat moyen (ou espéré) de 41 000 francs. Plus généralement on définit l'espérance mathématique par : E(X) x i pi i avec : E(x) : "Espérance de x" Σ : "somme pour tous les i" b) L'espérance mathématique a le défaut de toutes les moyennes, elle compense "fortes" valeurs et "faibles" valeurs ; elle est donc plus ou moins significative suivant la diversité des valeurs qui composent la série. Ainsi, pour mesurer son homogénéité on peut faire appel à une valeur de dispersion qui est l'écart type. (1) voir des mêmes auteurs dans la même collection : "Méthodes statistiques pour la gestion" Celui-ci est la racine carrée de la variance que l'on calcule à l'aide de la formule : V(X) x i E(X) pi 2 i ou de la formule développée : V(X) x i2 pi E(X) 2 i Si on reprend l'exemple ci-dessus et si on présente les calculs sous forme de tableau, on obtient : résultats xi en probabilité pi KF - 40 0,35 +60 0,25 +100 0,40 xi - E(x) [xi - E(x)]2 [xi - E(x)]2 pi - 81 (1) +19 +59 6561 (2) 361 3481 2 296,35 (3) 90,25 1 392,40 3779,00 (1) -40 -41 = -81 (2) (- 81)2 = 6 561 (3) 6561x0,35 =2296,35 On en déduit : V(x) = variance de x = 3779 et σ(x)(1) = écart type de x = √3779 = 61,47 ce qui signifie qu'en moyenne, les valeurs de la série s'écartent de l'espérance de 61,47. (1) σ(x) se lit "sigma de x" L'écart type exprime ainsi une notion de distance ou de proximité. Plus il est proche de zéro, plus la série est "centrée" autour de la moyenne, plus la dispersion est faible. c) On appelle fonction de répartition de la variable x F(x) = P(X≤x) F(x) représente la probabilité d'observer une valeur inférieure ou égale à une valeur donnée x (notion de probabilité cumulée croissante). d) Comme en statistique descriptive, on distingue différents types de variables Elles peuvent être : • discrètes ou discontinues ; par exemple, le nombre d'enfants à charge dans un ménage. Les valeurs prises sont ponctuelles, "isolées" et, dans ce cas, en nombre fini ; • continues ; par exemple la durée de réalisation d'un processus de fabrication. La variable peut prendre n'importe quelle valeur à l'intérieur d'un intervalle. Mais il faut noter qu'en gestion, on utilise le plus fréquemment des variables discontinues, soit "par nature", soit par suite de l'utilisation d'instruments de mesure qui "arrondissent" (par exemple on exprime une durée en années entières). Cette distinction entraîne toutefois des différences au niveau des définitions et des formules de calcul, en introduisant notamment le calcul intégral (voir résumé en fin de chapitre et exercice d'application). II - Combinaison de variables aléatoires (1) Comme en statistique descriptive, il arrive fréquemment de combiner deux variables aléatoires (tri croisé). Par exemple, pour un produit donné, la demande journalière en nombre d'unités est une variable aléatoire prenant des valeurs 0 à 3 et l'offre une autre variable aléatoire prenant les valeurs entières de 0 à 2. La combinaison des deux permet d'apprécier les probabilités de couverture de la demande par l'offre. De même, le contrôle d'une norme de fabrication peut faire apparaître de 0 à 4 défauts. Le contrôle d'une deuxième norme peut révéler de 0 à 3 défauts. La combinaison des deux exprimera le nombre total de défauts à la suite du contrôle des deux normes. On a ainsi, dans le cas de deux variables : - une première variable X aux modalités xi et aux probabilités pi ; - une seconde variable Y, aux modalités yj et aux probabilités pj ; - une combinaison donnée par les couples (xi, yj) avec les probabilités : pij = P(xi et yj) Ce qu'on peut traduire sous forme de tableau à double entrée : - En additionnant les probabilités du tableau en colonne, on obtient les probabilités pj correspondant aux différentes valeurs yj et quel que soit X. On définit ainsi la distribution marginale de y. - De même, en additionnant les probabilités pij en ligne, on obtient les pi correspondant aux xi., quel que soit Y, c'est à dire la distribution marginale de X. - pij est la probabilité du couple (xi, yj), c'est à dire la probabilité d'observer simultanément les valeurs xi et yj. C'est donc la probabilité d'une intersection que l'on calculera en appliquant les règles propres à p(A et B), en fonction de l'indépendance des variables (voir chapitre précédent). (2) On peut, grâce aux combinaisons de variables aléatoires, définir de nouvelles variables en effectuant diverses opérations (somme, produit, différence,...) Par exemple, la différence entre la quantité offerte et la quantité demandée mesure, si elle est positive, une surcapacité de l'offre. Si elle est négative, elle traduira une rupture de l'offre. De même, la somme des défauts constatés sur deux normes donne une appréciation globale du manque d'adéquation aux normes. Les nouvelles variables obtenues se caractérisent par une distribution de probabilités et par des valeurs de position et de dispersion. En se limitant aux combinaisons les plus simples de deux variables aléatoires, on notera que : a) Si z = x + y (variable "somme"), on a : E(z) = E(x + y) = E(x) + E(y) x et y étant indépendantes ou non. Par contre, le calcul de la variance de z est lié à l'indépendance des variables. Si x et y sont indépendantes : V(x + y) = V(x) + V(y) Si x et y sont dépendantes : V(x + y) = V(x) + V(y) + 2 cov (x,y) cov (x,y) exprime la covariance, c'est à dire la variation simultanée des variables autour de leur espérance respective. La formule correspondante est un peu "lourde" : cov(x, y) x i E(x) yi E(y) pij i j oucov(x, y) x i yi pij E(x) E(y) i i Deux formules de calcul sont en effet possibles et on verra comment les utiliser sur un exemple. Remarque Si x et y sont indépendantes, cov (x,y) = 0 (mais si cov (x,y) = 0, cela ne signifie pas nécessairement que x et y sont indépendantes). b) Si z = xy, on retiendra simplement que : - avec x et y indépendantes : E(xy) = E(x) x E(y) - avec x et y dépendantes : E(xy) = E(x) x E(y) + cov (x,y) Nous retrouverons ces différentes formules à propos des lois de probabilités et des problèmes d'échantillonnage et d'estimation. (3) On dispose de couples (xi, yj), pondérés par des probabilités pij. On peut donc effectuer tous les traitements statistiques concernant les tableaux à double entrée et, en particulier, réaliser des ajustements et calculer des coefficients de corrélation, afin de quantifier les relations qui lient deux variables (i). Ainsi, si on cherche à déterminer a et b tels que : y = ax + b, on calculera cov(x, y) a V(x) x y p i i j j ij x p 2 i i E(x) E(y) E(x) 2 i etb E(y) aE(x) On pourra tester la précision de l'ajustement avec le coefficient de corrélation linéaire : r(x, y) cov(x, y) σ(x)σ(y) x y p i i E(x) E(y) j x p 2 i i i j ij E(x) 2 y p 2 j j E(y) 2 j r(x,y) est le coefficient de corrélation linéaire. Il est compris entre -1 et +1. Plus il est proche de 1 en valeur absolue, plus l'ajustement linéaire exprime correctement la relation entre les deux variables, et inversement s'il est proche de zéro. Ce type de calcul sera développé à partir d'un exercice. (1) voir, dans la même collection "Méthodes statistiques pour la gestion" des mêmes auteurs. III - Quelques applications Application 1 On va raisonner simplement sur une urne avec 5 boules : 2 marquées "1" et 3 marquées "2".(1) On procède successivement au tirage au hasard de deux boules et on notera X le numéro sorti au 1er tirage et Y le numéro sorti au 2ème. 1- On suppose que la première boule est remise dans l'urne avant de tirer la seconde (tirage avec remise, ou non exhaustif). a) Etablir la distribution de probabilité de X et celle de Y. b) Calculer E(X), E(Y), V(X) et V(Y). c) On appelle Z le total des points marqués au cours des deux tirages. Etablir la distribution de probabilité de Z. Calculer E(Z) et V(Z) et comparer aux résultats obtenus en b). 2- On ne remet pas la première boule avant de tirer la seconde (tirage sans remise ou exhaustif). Répondre aux mêmes questions qu'au 1- en précisant : a) La distribution de X b) La distribution de Y c) Celle de Z Solution 1/a) On établit facilement la distribution de X et de Y Xi PI Yi pi 1 0,4 1 0,4 2 0,6 2 0,6 1 1 (1) En pratique, il suffira de "remplacer" les boules par diverses pièces contrôlées ou par des personnes interrogées, différenciées par exemple par le sexe ou le revenu. En effet : - 2 boules sur 5 sont marquées 1, il y a donc 4 chances sur 10 de tirer une boule marquée "l". - Comme la 1ère boule est remise, les probabilités pour Y sont identiques à celles de X (la composition de l'urne n'est pas changée d'un tirage à l'autre). b)Le calcul des espérances mathématiques et des variances s'obtient à partir du tableau suivant : Xi ou Yj 1 2 Pi ou pj 0,4 0,6 1 Xipi ou yjpj 0,4 1,2 1,6 X²ipi ou yj²pj 0,4 2,4 2,8 Par exemple, on obtient : 1,2 =2 x 0,6 et 2,4 =2² x 0,6 On en déduit : E(X)=ΣXiPi= 1,6 E(Y)=ΣYiPj= 1,6 Et V(X)=ΣXi²pi-E(X)² = 2,8 - 1,62 = 0,24 V(Y) = 0,24 c) Déterminons les valeurs que peut prendre Z en combinant X et Y, soit Xi 1 2 Yj 1 2 3 2 3 4 Ainsi, Z prend des valeurs de 2 à 4. On peut facilement déterminer les probabilités correspondantes. Par exemple : P(Z=3) = P[(X=1 et Y=2) ou(X=2 et Y=l)] = P(A ou B) = P(A) + P(B) (car A et B sont incompatibles) D'où: P(Z = 3) = P(X= 1 et Y= 2) + P (X = 2 et Y = 1) P(X=l) x P(Y= 2) + P(X= 2) x P(Y=1) (en effet, P(C et D) = P(C) x P(D) lorsque C et D sont indépendants) On en conclue : P(Z = 3) = 0,4 x 0,6 + 0,6 x 0,4 = 0,48 en utilisant les probabilités du a) et du b). En faisant le même raisonnement sur toutes les valeurs de Z, on obtient la distribution de probabilité de Z présentée dans le tableau suivant : Zk 2 3 4 P(Zk) 0,16 0,48 0,36 1 Zk x P(Zk) 0,32 . 1,44 1,44 3,2 Z²kP(Zk) 0,64 4,32 5,76 10,72 On en déduit E(Z) = 3,2 et V(Z) = 10,72 – 3,2² =0,48 et on constate que : E(Z)=E(X+Y) = E(X)+E(Y) = 1,6 + 1,6 = 3,2 V(Z) = V(X +Y) = V(X) + V(Y) = 0,24 + 0,24 = 0,48 2/On considère maintenant que la première boule n'est pas remise. La composition de l'urne est donc changée d'un tirage à l'autre et les deux tirages sont dépendants. a) La distribution de X est inchangée car X correspond à la première boule tirée. Soit : E(X) =1,6 et V(X) = 0,24 b) En ce qui concerne Y, ont peut schématiser les différentes possibilités sous forme d'arbre séquentiel. Ainsi, Y est égale à 1 dans les deux cas A et C. A signifie que l'on a tiré une boule 1 au premier tirage et une boule 1 au second. Pour C, on a 2 puis 1. D'où : P(Y = 1) = P(A ou C) = P(A) + P(C) =(2/5 x ¼) + (3/5 x 2/4) = 0,4 En effet, A étant l'intersection de deux événements dépendants, P(A) = P(boule 1 en second/boule 1 en premier) x P(boule 1 en premier) (1) On procède de même pour Y = 2 et on obtient : Yj l 2 et E(Y) = 1,6 PJ 0,4 0,6 1 V(Y) = 0,24 c) En ce qui concerne Z, on peut se reporter à l'arbre séquentiel du b). Par exemple, Z=2siX=l etY=1.0n obtient ainsi la distribution de Z Zk 2 Pk 2/5 x 1/4 = 0,1 Zk Pk 0,2 Z²kPk 0,4 3 (2/5x3/4)+3/5x2/4)=0,6 1,8 5,4 4 3/5x2/4 = 0,3 1.2 4,8 On en déduit : E(Z) = 3,2 et V(Z) = 0,36 On constate : - que comme dans le cas d'événements indépendants, E(Z) = E(X+Y) = E(X) + E(Y) =3,2 (1) En effet, si A et B sont deux événements dépendants : P(A et B) = P(A/B) x P(B) mais que : V(Z) = 0,36 ≠ V(X + Y) = V(X) + V(Y) = 0,48 En effet, dans le cas de variables dépendantes, on sait que : V(X+Y) == V(X) + V(Y) +2Cov(X,Y) avec Le premier terme signifie que l'on multiplie chaque valeur de X par chaque valeur de Y et par la probabilité du couple. Toujours en se basant sur l'arbre séquentiel du b), on peut dresser le tableau suivant : Valeur Xi Valeur Yj Pij 1 1 2/5 x ¼ = 0,1 1 2 2/5 x ¾ = 0,3 2 1 3/5 x 2/4 = 0,3 2 2 3/5 x 2/4 = 0,3 1 Xi Yj Pij 0,1=1x1x0,1 0,6 0,6 1,2 2,5 On en déduit : Cov(x.y) = 2,5 - 1,6 x 1,6 = -0,06 et V(Z) = 0,24 + 0,24 + 2 (-0,06) = 0,36 ce qui correspond au résultat trouvé directement. Application 2 Pour apprécier le montant d'un stock par rapport aux achats réalisés, on effectue un sondage sur deux cents produits achetés en relevant sur huit quinzaines les quantités restant en stock à la fin de chaque quinzaine. On mesure ainsi directement la vitesse d'écoulement du stock. Les résultats sont présentés dans le tableau suivant quinzaine 0 1 2 3 4 5 6 7 8 quantité restante 200 140 90 60 40 20 10 5 0 Ainsi, pour 200 unités achetées et entrées en stock, il en reste seulement 140 au bout d'une quinzaine, 90 au bout de 2 et plus du tout au bout de 8 quinzaines. On considère que ce schéma va s'appliquer à 150 unités nouvellement entrées. l/ Calculer : a) La probabilité qu'une unité soit vendue au plus tard au bout de 3 quinzaines ; b)La probabilité qu'une unité reste en stock plus de 5 quinzaines ; c)La probabilité qu'une unité soit vendue entre la 3ème et la 5ème quinzaine (incluse) ; d)La probabilité qu'une unité invendue à la fin de la 2ème quinzaine soit vendue au plus tard la 4ème. 2/ Calculer la durée moyenne de détention en stock et en déduire le coût du stockage des 150 unités livrées (On estime le coût unitaire de stockage à 5 francs par quinzaine). Solution l/ a) On constate sur le tableau de l'énoncé que, sur 200 unités, 60 restaient invendues au bout de 3 quinzaines. On en a donc vendu 140. La probabilité est égale à : 140 = 0,7 = P (x < 4) = P (x ≤3) 200 si on note x la variable aléatoire : "durée de stockage exprimée en quinzaines" b) Sur ce même tableau, on constate que, au bout de 5 quinzaines, il reste 20 unités en stock sur 200. Comme on suppose que le phénomène observé s'applique à la nouvelle livraison de 150 unités, on peut écrire : P (x > 5) = 20 = 0,1 200 c) On peut exprimer la question posée par : P (3 ≤ x ≤ 5). En effet, la durée est au moins égale à 3 et au plus égale à 5. Pour obtenir le résultat, on peut raisonner par différence : - d'après le tableau de départ, au bout de 5 quinzaines, il restait 20 unités en stock. Donc, 180 ont été vendues au plus tard la 5ème quinzaine et on a : P(x ≤ 5) = 180 = 0,9 200 où P(x ≤ 5) = 1 - P(x>5) =1 -0,1= 0,9 pour utiliser la réponse du b). d'après le même tableau, 90 unités restaient en stock au bout de 2 quinzaines et seront vendues à partir de la 3ème quinzaine. D'où 110 unités ont été vendues au plus tard la 2ème quinzaine. D'où: P (x < 3) = 110 = 0,55 200 - En conclusion 180 -110 = 70 unités ont été vendues entre le Sème et la 5ème quinzaine, soit : P(3 ≤ x ≤ 5) = 70 = 0,35 200 ou P (x ≤ 5) - P (x <3) = 0,9 - 0,55 = 0,35 d) -Si on raisonne en quantités, on constate que, sur 200 unités, 90 restaient invendues à la fin de la 2ème quinzaine, soit : P (x > 2) = 90 = 0,45 200 [ou 1 - P (x < 3) = 1 - 0,55] A la fin de la 4ème quinzaine, il reste seulement 40 unités sur les 90. Donc 50 ont été vendues entre la 3ème et la 4ème quinzaine. On en conclue que la probabilité cherchée est : 50 =0,56 90 Si on formalise, on cherche une probabilité conditionnelle du type P(A/B), avec : A : l'unité est vendue entre la 3ème et la 4ème quinzaine ( 3 ≤ x ≤ 4) B : elle était invendue à la fin de la 2ème quinzaine (x > 2) On écrit donc : P(3≤x≤4 / x>2) = P(3 x 4 et x 2) P(x 2) En effet : P (A/B) = P(A et B) P(B) On notera que l'événement [ 3≤x ≤ 4 et x>2] peut se résumer à (3≤ x ≤ 4). En effet, si la durée est comprise entre 3 et 4, elle est nécessairement supérieure à 2 quinzaines, (mais la réciproque n'est pas vraie). Plus généralement, dans le cas où un événement A est inclus dans un événement B, on a la relation : P (A et B) = P (A). D'où : P(3 ≤ x ≤ 4) = 90 40 = 0,25 (voir raisonnement du c) 200 Et P(x > 2) = 0,45 (voir ci-dessus) Enfin P(3 ≤ x ≤ 4 / x>2) = 0,25 = 0,56 0,45 2/ Pour calculer la durée moyenne, on va déterminer les valeurs de la variable "durée de détention en quinzaines" et les probabilités correspondantes. On obtient le tableau suivant : durée de détention [0-1[ [1-2[ [2-3[ [3-4[ [4-5[ [5-6[ l6-7[ [7-8[ pi 0,30 0,25 0,15 0,10 0,10 0,05 0,025 0,025 1 durée moyenne Xi 0,5 1,5 2,5 3,5 4,5 5,5 6,5 7,5 Xipi 0,1500 0,3750 0,3750 0,3500 0,4500 0,2750 0,1625 0,1875 2,325 En effet, si on reprend le tableau de l'énoncé, sur 200 unités au départ, il en reste 140 à la fin de la première quinzaine, donc 60 ont été vendues, soit 30 % de l'effectif. Il y a donc 30 chances sur 100 qu'une unité ait une durée de détention comprise entre 0 et 1 quinzaine. On obtient ainsi les deux premières colonnes du tableau ci dessus. Il faut noter (voir statistique descriptive) que lorsqu'une variable est classée, on considère que la variable prend une valeur moyenne égale au centre de chaque classe. Ainsi, pour [0 -1[, on prendra pour Xi la valeur 0,5, ce qui correspond à la 3ème colonne du tableau. Pour obtenir la durée moyenne de détention, il faudra pondérer chaque Xi par la probabilité Pi correspondante (4ème colonne du tableau), d'où : E(x) = Σ xipi= 2.325 En moyenne, une unité reste 2,325 quinzaines en stock. Etant donné qu'il y a 150 unités livrées, que chacune sera stockée 2,325 quinzaines et que le coût est de 5 francs par quinzaine, on en déduit le coût estimé total du stockage : 150 x 2,325 x 5 = 1 743,75 Ainsi, en moyenne il faut ajouter au coût d'achat des 150 unités un coût de stockage de 1 743,75 F. (ou 11,63 F. par unité). Application 3 Le problème est d'estimer un niveau de stock qui permette de satisfaire au plus juste la demande. Ainsi, pour un produit, on a relevé (expérimentalement) le nombre d'unités demandées par jour. On peut ainsi en déduire la probabilité d'avoir telle demande journalière : quantité demandée Di probabilité pi 0 0,1 1 0,3 (*) 2 0,4 3 0,2 (*) Par exemple pour 30 % des journées étudiées, la demande a été de 1 unité. Parallèlement, on a étudié en fonction des stocks et des livraisons le nombre d'unités disponibles à la vente chaque jour, que l'on traduit sous forme de variable aléatoire : quantité en stock Sj 0 1 probabilité pj 0,3 0,5 Stock et demande sont supposées indépendantes. 2 0,2 l/ Quelle est la quantité moyenne demandée par jour ? De même, quelle est la quantité moyenne en stock par jour ? Que conclure ? 2/ Chaque demande non satisfaite entraîne un manque à gagner unitaire de 100 francs (l). Chaque produit non vendu coûte 10 francs par jour (frais de stockage, immobilisation financière, coût du réseau de vente,...). a) Calculer les différentes valeurs de la variable Z représentant la différence entre le stock et la demande. b)0rdonner en établissant la distribution de probabilités de Z. c)En déduire la conséquence monétaire moyenne journalière de la non adéquation entre le stock et la demande. (l) les 100 francs représentant la marge une fois tous les frais déduits. Solution l/ On calcule E(D) = Σ Dipi et E(S) = Σ Sjpj Di 0 1 2 3 Pi 0,1 0,3 0,4 0,2 1 DiPi 0 0,3 0,8 0,6 1,7 Sj 0 1 2 pj 0,3 0,5 0,2 SjPj 0 0,5 0,4 1 0,9 Ainsi, en moyenne la demande s'élève à 1,7 unité par jour alors que le stock ne permet de satisfaire que 0,9. On a ainsi un déséquilibre égal à 0,8 unité par jour que l'on peut exprimer par E(S) - E(D) = 0,9 - 1,7 = -0,8 = E (S - D) La nouvelle variable aléatoire (S - D) représente la couverture de la demande par le stock et est obtenue en combinant les deux variables aléatoires S et D. 2/ a) Dressons un tableau à double entrée pour déterminer les différentes valeurs de (Z=S-D). Ces valeurs sont exprimées au centre du tableau. Di Sj 0 (0,3) 1 (0,5) 2 (0,2) 0 (0,1) 1 (0,3) 2 (0,4) 3 (0,2) 0 -1 -2 -3 1 0 -1 -2 2 1 0 -1 Ainsi, le stock est insuffisant de 3 unités ( Z = -3) lorsque aucune unité n'est disponible face à une demande de 3 unités. On peut calculer les probabilités correspondantes à chaque valeur de Z, avec : Pk = P(Zk) = P (Sj et Di) tel que : Sj - Di = Zk Par exemple, la probabilité de (Z = -3) est égale à : P(Z=-3) = P(Sj = 0 et Di = 3) = P(A et B) Etant donné que le stock et la demande sont indépendants, on utilise la relation : P (A et B) = P (A) x P (B) et P (-3) = P (Sj = 0) x P (Di = 3) = 0,3 x 0,2 = 0,06 Ainsi, il y a 6 "chances" sur 100 que le manque à gagner concerne 3 imités. b) On ordonne les valeurs de Z tirées du tableau précédent et on calcule les probabilités correspondantes comme pour P (Z = -3). On obtient la distribution de probabilités de Z. Valeurs de Z -3 -2 -1 0 1 2 Pk - P(Zk) 0,06 (0,3x0,4) + (0,5x0,2) = 0,22 (0,3x0,3) + (0,5x0,4) + (0,2x0,2) =0,33 (0,3x0,1) + (0,5x0,3) + (0,2x0,4) =0,26 (0,5x0,1) + (0,2x0,3) = 0,11 (0,2x0,1) =0,02 Σpk = 1 Par exemple, pour calculer P(Z = -2), on calcule la probabilité de chaque événement permettant d'obtenir la valeur (-2) et on additionne . Ainsi, on obtient (-2) dans deux cas (voir tableau du a)) : - la demande est de 2 unités et le stock de zéro ; - la demande est de 3 unités et le stock d'une. On a supposé que stock et demande étaient indépendants et on en déduit que : P(Sj= 0 et Di = 2) = P(Sj = 0) x P(Di = 2) = 0,3 x0,4 = 0,12 P(Sj= 1 et Di = 3) = P(Sj = 1) x P(Di = 3) = 0,5 x 0,2 = 0,10 et en additionnant : 0,12 + 0,10 = 0,22 = P(Z=-2) c) A chaque valeur de Z correspond une conséquence monétaire M (coût du stockage ou manque à gagner) dont la probabilité est celle de la valeur de Z correspondante. On définit ainsi une nouvelle variable aléatoire. On a donc le tableau Zk -3 -2 -1 0 1 2 Mk -300 -200 -100 0 -10 -20 Pk 0,06 0,22 0,33 0,26 0,11 0,02 Mk x Pk -18 -44 -33 0 -1,1 -0,4 -96,5 Par exemple, si la demande est supérieure au stock de 3 unités (Z = - 3), le manque à gagner est de 300 ( -100 x 3). En pondérant chaque conséquence monétaire Mk par la probabilité Pk ,on calcule l'espérance mathématique de M, qui représente la conséquence moyenne journalière d'une non adéquation du stock à la demande. Soit: E(M) = Σ Mk Pk = -96,5 Le coût moyen est ainsi de 96,50 francs par jour que l'on peut décomposer en : - manque à gagner dû à des ventes non honorées -18 - 44 - 33 = -95 francs - coût du stockage dans le cas inverse : -1,1 - 0,4 = -1,5 francs Par ailleurs, on peut constater que dans seulement 26 % des cas le stock et la demande s'équilibrent (Z^ = 0). N'y aurait-il pas lieu de stocker un peu plus de produits pour minorer le manque à gagner, quitte à majorer le coût de stockage qui est plus faible à l'unité ? On peut ainsi refaire le même raisonnement avec d'autres valeurs de Sj et chercher un optimum. Application 4 Suite au passage de 100 questionnaires auprès d'un échantillon prélevé au hasard on effectue le tri croisé des réponses à deux questions, on obtient le tableau suivant : Réponse 1 Yj 0 1 2 Réponse 2 Xi 0 1 2 0,2 0,05 - - 0,38 0,02 - 0,05 0,3 Pour chaque question, la réponse est valorisée par un chiffre variant de 0 à 2 (échelle de valeurs). On définit ainsi deux variables aléatoires X et Y. Les nombres décimaux à l'intérieur du tableau signifient par exemple que 20 % des personnes interrogées ont répondu 0 à la première question et 0 à la seconde (soit 0,20). Est-ce qu'il existe une relation entre la réponse 1 et la réponse 2, ce qui permettrait par exemple de hiérarchiser les questions ? Solution Le simple examen du tableau montre que les nombres décimaux les plus élevés sont sur la diagonale et donc que l'octroi d'un chiffre 2 à la question 1 s'accompagne en général du même chiffre à la question 2. On peut affiner cette observation en calculant le coefficient de corrélation entre les deux variables, soit : r(x, y) cov(x, y) σ(x)σ(y) x y p i i E(x) E(y) j x p 2 i i i j ij E(x) 2 y p 2 j j E(y) 2 j Pour définir r(x,y), on peut directement calculer à partir du tableau initial et en le complétant : yj 0 1 0,2 0,05 0,38 0,05 0,48 0,48 0,48 2 pi xipi x²ipi 0,02 0,3 0,32 0,64 1,28 0,25 0,4 0,35 1 1,12 1,76 0 0,4 0,7 1,1 0 0,4 1,4 1,8 xi 0 1 2 pj yj pj y²i pj 0,2 0 0 - La colonne pj est obtenue en totalisant les nombres de chaque ligne. Ainsi, 0,25 = 0,20 + 0,05, ce qui signifie que la valeur X == 0 est combinée dans 20 % des cas avec Y = 0 et dans 5 % des cas avec Y = 1. Au total, on observe dans 25 % des cas la valeur X = 0 (quel que soit Y). L'ensemble des pi constitue la distribution marginale de X. De même, en totalisant les colonnes, on obtient les pj pour Y. - Les colonnes xipi et x²ipi sont obtenues par produit. Par exemple : 0,7 = 2 x 0,35 1,4=22x0,35 II en est de même des lignes yj pj et y²i pj En cumulant, on obtient Σxipi , Σyj pj , Σx²ipi et Σy²i pj - La Somme x y p i i j ij est obtenue à partir des produits apparaissant sur le j tableau ci-dessous. Chaque produit est obtenu en multipliant la valeur de x, (en tête de ligne), par la valeur de y, (en tête de colonne) et la probabilité du couple (p,,). yj 0 1 x y p 2 i xi i 0 1 2 0 0 0 0 0,38 0,1 j ij j 0 0,42 1,3 1,72 0 0,04 1,é Ainsi : 1,3 = (2 x 1 x 0,05) + (2 x 2 x 0,30) = 0,1 +1,2 En cumulant en colonne, on obtient x y p i i j ij j Nous n'insisterons pas sur ces calculs et renvoyons le lecteur à des ouvrages de statistique descriptive. Avec les éléments du tableau, on peut calculer le coefficient de corrélation linéaire r (x,y) : r(x, y) r(x, y) 1,72 1,1 1,12 1,8 (1,1)² 1,76 (1,12)² 0,48 0,89 0,59 0,5056 Comme r(x,y) se rapproche de 1, on peut conclure qu'il existe une relation linéaire entre la réponse fournie à la question 1 et celle fournie à la question 2 ; ce qui signifie que les réponses sont hiérarchisées de la même manière pour les personnes interrogées. La manière de répondre à une question 1 entraînera une réponse voisine à la question 2, ce qui permet d'étudier les "chaînages" existant entre les réponses à plusieurs questions d'un même questionnaire.!! faut toutefois noter que cette relation est également fonction de la manière de valoriser les réponses à chaque question. Résumé l/ Une variable aléatoire est "une variable dont les valeurs xi sont assorties de probabilités pi". Ces probabilités peuvent être : - subjectives ; - calculées en appliquant les règles du calcul des probabilités (voir chapitres précédents) ; - déterminées à partir d'une formule générale ; - estimées (voir chapitres suivants). 2/ a) On peut effectuer sur ces variables tout traitement statistique (graphiques, valeurs de position, de dispersion,...). En particulier, on peut calculer : - l'Espérance Mathématique : E(x) x i pi i σ(x) V(x) - l'écart type : 2 avec : V(x) x i pi E²(x) i ou : V(x) x i E(x) pi 2 i Si la variable étudiée est discontinue ou discrète. b) On peut également définir la fonction de répartition avec k F(x k ) P(X x k ) pi i 1 On calcule ainsi pour la valeur xk la somme des probabilités de xk et de toute valeur inférieure à xk. 3f Si la variable aléatoire est continue, les formules ci-dessus deviennent : E(x) f(x)dx f(x) étant la densité de probabilité. V(x) 2 x E(x) f(x)dx OU V(x) x²f(x)dx E²(x) et x0 F(x 0 ) f(x)dx pour la fonction de répartition. Les calculs correspondants font appel au calcul intégral mais : - d'une part ce type de variable est peu utilisé dans les domaines traités dans cet ouvrage ; - d'autre part, les variables continues utilisées sont souvent tabulées, les tables fournissant les résultats désirés. 4/ Plusieurs variables aléatoires peuvent être combinées. En particulier, si on considère deux variables aléatoires. x qui prend des valeurs xi avec des probabilités pi y qui prend des valeurs yj avec des probabilités pj (On peut s'intéresser aux couples (xi ,yj) dont les probabilités sont de la forme : Pij = P(xi ,yj) On peut effectuer sur ces couples tous les traitements propres à la combinaison de deux variables et, en particulier, calculer la covariance et le coefficient de corrélation, avec : cov(x, y) x i E(x) yi E(y) pij i j x y p i ou r(x, y) i cov(x, y) σ(x)σ(y) E(x) E(y) j ij j x y p i i j ij E(x) E(y) j 2 2 x p E(x) i i i 2 2 y p E(y) j j j 5/ On peut également définir une troisième variable qui combine les deux premières, par exemple : Z=x+y et on établit que : E(Z) = E(x) + E(y) et, si x et y sont indépendantes V(Z) = V(x) + V(y) ou, si x et y sont dépendantes V(Z) = V(x) + V(y) + 2 cov (x,y) 6/ Par ailleurs, certains phénomènes se caractérisent par des conditions de réalisation identiques que l'on peut formuler, résumer, exprimer par une même formule mathématique f(x). Ainsi, on a défini des "lois de probabilité" usuelles et nous étudierons dans les chapitres suivants les plus fréquemment utilisées. 7/ Remarque : Si a est une constante • E(ax) = a E(x) • V(ax) = a2 V(x) • E(a) = a • V(a) = 0