(c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES #2 (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES PARAGRAPHE No 1 ETUDE ELEMENTAIRE DES PROBABILITES Objectifs (c) JP Marca pour CNAM INTEC • Les Probabilités et statistiques fournissent, au sein de l'appareillage mathématique, les outils de traitement des données obtenus lors d'activités répétitives comme celles rencontrées dans les jeux de hasard, mais aussi dans · le marketing, · l'assurance, · l'agriculture, · la chimie, · la recherche médicale, · les processus industriels et logistiques . Quizz • • • • • • • (c) JP Marca pour CNAM INTEC Probabilité ? Probabilité théorique ? Probabilité empirique ? Impossibilité? Certitude ? Erreur aléatoire ? Espérance Mathématique ? Calcul des probabilités • C'est l'intégration du hasard, traduit mathématiquement en variable aléatoire, qui a permis de projeter dans l'avenir les résultats de la statistique descriptive et de faire de la statistique une discipline dynamique, aux domaines d'application illimités. • Il ne s'agit plus seulement de décrire, mais d'interpréter et de prévoir. • Le calcul des probabilités, sous l'impulsion de grands mathématiciens tels que Pascal, Fermat, Bernouilli, Huygens, Euler, Laplace et Gauss, va permettre à la statistique de devenir une véritable science. (c) JP Marca pour CNAM INTEC Calcul des probabilités • Il connaît un fort développement au XIXème siècle pour être appliqué aussi bien dans les sciences physiques que dans les sciences sociales. • Au XXème siècle, la Recherche Opérationnelle fait beaucoup appel à la Théorie des Jeux. (c) JP Marca pour CNAM INTEC EPREUVE, EVENTUALITE ET EVENEMENT (c) JP Marca pour CNAM INTEC • Considérons une épreuve probabiliste, par exemple le tirage d'une carte au hasard dans un jeu de cartes, le jet d'un dé ou le tirage d'une boule dans une urne. • On désigne par éventualité chaque possibilité élémentaire et par évènement un ensemble d'éventualités. L'univers des possibles est l'ensemble des éventualités • Une épreuve comporte n éventualités possibles également probables et s'excluant mutuellement. EPREUVE, EVENTUALITE ET EVENEMENT • Dans l'épreuve du jeu de dé, n'importe laquelle des 6 éventualités (chaque éventualité correspond à une face) a la même chance de survenir après lancement. • Dans l'épreuve du jeu de cartes, n'importe laquelle des 52 éventualités (chaque éventualité correspond à une carte d'un jeu de 52) a la même chance de survenir après tirage si l'on remet la carte tirée dans le jeu. (c) JP Marca pour CNAM INTEC PROBABILITE (c) JP Marca pour CNAM INTEC • Décider de participer à un tournoi de bridge c'est espérer la victoire. • Il est possible de vaincre à coup sûr si l'on reçoit les 13 cartes à pique. Cette distribution tient-elle du rêve ? • Par définition, on ne sait si un évènement aléatoire va se produire ou non. • Tout ce que l'on peut faire, c'est mesurer la probabilité d'apparition de cet évènement. • Il existe deux définitions de la probabilité : l'une théorique, l'autre empirique. PROBABILITE (c) JP Marca pour CNAM INTEC • Dans le cas où l'univers des possibles est formé d'éventualités en nombre fini qui ont toutes autant de chances de se produire (équiprobabilité), la probabilité théorique est définie comme : nombre favorables nombre de de cascas favorables --------------------------------nombre de cas possibles. nombre totaltotal de cas possibles. • Ainsi la probabilité qu'une pièce tombe sur son côté pile est de 1/2 (on négligera la probabilité qu'elle tombe sur la tranche). • La probabilité de tirer un six avec un dé est de 1/6. PROBABILITE (c) JP Marca pour CNAM INTEC • Dans de nombreux cas, il est impossible de déterminer cette probabilité théorique. • On a alors recours à l'expérimentation et on définit la probabilité empirique comme le rapport du nombre constaté d'occurences de l'évènement sur le nombre d'essais effectués. • Plus le nombre d'essais est important, plus la probabilité empirique se rapproche de la probabilité théorique. • Simulation PROBABILITE (c) JP Marca pour CNAM INTEC • Définissons un évènement A, par exemple le tirage d'un 8 de coeur, l'obtention d'une face affichant un nombre pair ou le tirage d'une boule blanche dans l'urne. • Si parmi les n éventualités de notre épreuve, k sont favorable à l'événement A, la probabilité de celui-ci est égale à k/n : k Nombre d'éventualités équiprobables favorables P {A} = -- = -----------------------------------------------------n Nombre d'éventualités équiprobables possibles • Les éventualités sont encore appelées évènements élémentaires. L'ensemble de toutes les éventualités possibles constitue l'ensemble des évènements ou ensemble fondamental E. PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 1. On tire une carte dans un jeu de 52 cartes. Quelle est la probabilité de tirer un huit de coeur ? Quelle est la probabilité de tirer un coeur ? Quelle est la probabilité de tirer un 8 ? PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 1. On tire une carte dans un jeu de 52 cartes. Quelle est la probabilité de tirer un huit de coeur ? Quelle est la probabilité de tirer un coeur ? Quelle est la probabilité de tirer un 8 ? 1 P {8 de coeur} = --- = 0,02 52 PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 1. On tire une carte dans un jeu de 52 cartes. Quelle est la probabilité de tirer un huit de coeur ? Quelle est la probabilité de tirer un coeur ? Quelle est la probabilité de tirer un 8 ? 1 P {8 de coeur} = --- = 0,02 52 13 P {coeur} = --- = 0,25 52 PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 1. On tire une carte dans un jeu de 52 cartes. Quelle est la probabilité de tirer un huit de coeur ? Quelle est la probabilité de tirer un coeur ? Quelle est la probabilité de tirer un 8 ? 1 P {8 de coeur} = --- = 0,02 52 13 P {coeur} = --- = 0,25 52 4 P {huit} = --- = 0,077 52 PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 2. On jette un dé. Quelle est la probabilité de tirer un six ? Quelle est la probabilité de tirer nombre pair? PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 2. On jette un dé. Quelle est la probabilité de tirer un six ? Quelle est la probabilité de tirer nombre pair? 1 P {six} = --- = 0,16 6 PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 2. On jette un dé. Quelle est la probabilité de tirer un six ? Quelle est la probabilité de tirer nombre pair? 1 P {six} = --- = 0,16 6 3 P {pair} = --- = 0,50 6 PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 3. On tire une boule dans une urne qui contient 10 boules blanches, 20 boules noires et 30 boules rouges. Quelle est la probabilité d'obtenir une boule blanche.? PROBABILITE (c) JP Marca pour CNAM INTEC Exemple 3. On tire une boule dans une urne qui contient 10 boules blanches, 20 boules noires et 30 boules rouges. Quelle est la probabilité d'obtenir une boule blanche.? 10 P {boule blanche} = --- = 0,16 60 IMPOSSIBILITE, CERTITUDE ET EVENEMENT ALEATOIRE (c) JP Marca pour CNAM INTEC Un évènement impossible (impossibilité) est un évènement pour lequel aucune des éventualités pouvant résulter de l'épreuve probabiliste n'est favorable. L'ensemble des éventualités favorables à cet évènement est vide. La probabilité d'un évènement impossible est donc nulle. P {φ} = 0 Un évènement certain (certitude) est un évènement pour lequel toutes les éventualités pouvant résulter de l'épreuve probabiliste sont favorables. L'ensemble des éventualités favorables à cet évènement est l'ensemble fondamental E lui même. La probabilité d'un évènement certain est donc égale à 1. P {E} = 1 IMPOSSIBILITE, CERTITUDE ET EVENEMENT ALEATOIRE (c) JP Marca pour CNAM INTEC Entre ces deux extrêmes, évènement impossible et évènement certain, il y a toute la gamme des évènements possibles. Une probabilité est donc toujours comprise entre 0 et 1. Un évènement aléatoire a une probabilité comprise entre 0 et 1. 0 =< P <= 1 La somme des probabilités de tous les évènements Ai possibles et mutuellement incompatibles est égale à 1 : P {ΣiAi} = 1 IMPOSSIBILITE, CERTITUDE ET EVENEMENT ALEATOIRE (c) JP Marca pour CNAM INTEC Dans l'exemple de l'urne, les probabilités réciproques de tirer une boule blanche, une boule noire et une boule rouge ; 10 P {boule blanche} = --60 P {boule noire} 20 = --60 P {boule rouge} 30 = --60 La somme de ces probabilités : 10 --60 20 30 60 + --- + --- = --- = 1 60 60 60 ESPERANCE MATHEMATIQUE (c) JP Marca pour CNAM INTEC On appelle Espérance mathématique la moyenne arithmétique des valeurs possibles pondérées par leur probabilité : E(X) = Σi (pi . xi) L'exemple de la loterie permet d'appréhender la signification de cette espérance mathématique. Dans une loterie, le gain moyen est celui obtenu au cours d'un nombre précis et limité de parties. L'espérance mathématique correspond au gain moyen sur un nombre théoriquement infini. Cette espérance est donc inaccessible au joueur mais est un point de repère essentiel pour l'organisateur car elle indique la tendance de gain moyen par partie et lui permet de fixer le prix du billet assurant le bénéfice recherché. ESPERANCE MATHEMATIQUE (c) JP Marca pour CNAM INTEC Illustrons le concept avec un exemple simple : Une tombola prépare 200 billets et assigne un lot de 1000 € au billet gagnant. La probabilité est de 1/200. Le montant du gain est de 1000 €. L'espérance mathématique est de 5 €. Le prix du billet doit donc être supérieur à 5 € si l'utilisateur espère une marge. Rappelons aussi le pari de Pascal : même si vous considérez que la probabilité que Dieu existe est faible, la valeur du gain (la vie éternelle !) est telle que l'espérance mathématique est forte. EVENEMENT COMPLEMENTAIRE (c) JP Marca pour CNAM INTEC L'évènement Ä complémentaire de l'évènement A est formé par toutes les éventualités possibles et incompatibles qui ne font pas partie de A. C'est le complément de A par rapport à l'ensemble des évènements E. Par définition : P {A} + P {Ã} = 1, d'où : P {A} = 1 - P { Ä} EVENEMENT COMPLEMENTAIRE (c) JP Marca pour CNAM INTEC Dans l'exemple de l'urne, on se propose de calculer l'évènement : tirer une boule noire OU une boule rouge. La réponse est évidente dès lors qu'on considère la probabilité de l'évènement complémentaire : tirer une boule blanche. P {Noire OU Rouge} = 1 - 10 5 P {Blanche} = 1 - --- = --60 6 Il faut donc souvent penser à rechercher la probabilité de l'évènement complémentaire. EVENEMENT COMPLEMENTAIRE (c) JP Marca pour CNAM INTEC On tire 13 cartes dans un jeu de 52 cartes. Quelle est la probabilité d'obtenir tous les piques ? Répondre à cette question implique de calculer le nombre d'éventualités équiprobables possibles que comporte le tirage de 13 cartes parmi 52. Ceci conduit à l'étude des problèmes de dénombrement, c'est à dire à l'analyse combinatoire. Celle-ci fait l'objet du paragraphe suivant. (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES PARAGRAPHE No 2 ANALYSE COMBINATOIRE Objectifs (c) JP Marca pour CNAM INTEC • Comprendre l'importance de l'analyse combinatoire pour opérer le dénombrement des cas favorables et des cas possibles dans la détermination d'une probabilité Quizz • • • • • • • (c) JP Marca pour CNAM INTEC Dénombrement ? Analyse combinatoire ? Permutation ? Arrangement ? Combinaison ? Application de l’analyse combinatoire au calcul des probabilités ? Avec ou sans remise ? DISPOSITIONS ORDONNEES ET NON ORDONNEES (c) JP Marca pour CNAM INTEC • L'analyse combinatoire a pour objet le dénombrement des différentes dispositions que l'on peut former à partir d'un ensemble d'éléments. • Nous symboliserons les éléments par des lettres. • Nous distinguerons deux types de dispositions : les dispositions ordonnées et non ordonnées. • Considérons une escadrille de trois avions, F-AAAA, FBBBB et F-CCCC DISPOSITIONS ORDONNEES ET NON ORDONNEES (c) JP Marca pour CNAM INTEC • Dans les dispositions ordonnées, deux dispositions contenant les mêmes éléments sont considérées comme différentes si ceux-ci n'occupent pas les mêmes places. • Si constitue une patrouille avec deux avions, je différencierai la configuration où F-AAAA est le leader et F-BBBB l'ailier de celle ou F-BBBB est le leader et F-AAAA l'ailier. • Dans les dispositions non ordonnées, deux dispositions composées des mêmes éléments sont considérées comme identiques quelque soient les places occupées par ceux-ci. • Les deux patrouilles constituées sont considérées comme identiques. LES PERMUTATIONS (c) JP Marca pour CNAM INTEC • Une permutation de n éléments est une disposition ordonnée de ces éléments, chacun de ceux-ci figurant une fois et une seule dans chaque permutation. • Dans notre escadrille de trois avions, nous avons 6 permutations : 1 2 3 4 5 6 F-AAAA F-AAAA F-BBBB F-BBBB F-CCCC F-CCCC F-BBBB F-CCCC F-AAAA F-CCCC F-AAAA F-BBBB F-CCCC F-BBBB F-CCCC F-AAAA F-BBBB F-AAAA • On note Pn le nombre de permutations que l'on peut effectuer avec n éléments • Pn = 1 * 2 * 3 * ... * n = n! . LES PERMUTATIONS (c) JP Marca pour CNAM INTEC • Avec 3 avions : 3! = 3 * 2 = 6 • Dans le tableur Microsoft Excel, la fonction Factorielle s'écrit =FACT(x) • Modèle Simul2.xls LES PERMUTATIONS (c) JP Marca pour CNAM INTEC • L'Union Européenne comprend désormais 25 pays membres qui, à tour de rôle, président le Conseil pendant 6 mois. Combien y-a-t-il de façons différentes d'organiser l'ordre de succession à la Présidence du Conseil ? LES PERMUTATIONS (c) JP Marca pour CNAM INTEC • L'Union Européenne comprend désormais 25 pays membres qui, à tour de rôle, président le Conseil pendant 6 mois. Combien y-a-t-il de façons différentes d'organiser l'ordre de succession à la Présidence du Conseil ? • Réponse : • 25 ! = 15 511 210 043 330 985 984 000 000 LES ARRANGEMENTS (c) JP Marca pour CNAM INTEC • Un arrangement de p éléments choisis dans un ensemble de n éléments est une disposition ordonnée de p de ces n éléments, chacun d'eux ne pouvant figurer plus d'une fois dans le même arrangement. A p • On note n le nombre d'arrangements de p éléments choisis parmi n. p A = n n! -----------(n - p) ! LES ARRANGEMENTS (c) JP Marca pour CNAM INTEC • Reprenons notre escadrille et voyons comment former nos patrouilles de deux appareils en distinguant leader et ailier : No Arrangement 1 2 3 4 5 6 Leader F-AAAA F-BBBB F-BBBB F-CCCC F-AAAA F-CCCC • Arrangement de 3 avions 2 à 2 • 2 3 ! A = --------- = 6 3 (3 - 2) ! Ailier F-BBBB F-AAAA F-CCCC F-BBBB F-CCCC F-AAAA LES ARRANGEMENTS (c) JP Marca pour CNAM INTEC • Si nous avions à former des patrouilles de 3 avions, chacun ayant une place spécifique, à partir d'une escadrille de 7 appareils : LES ARRANGEMENTS (c) JP Marca pour CNAM INTEC • Si nous avions à former des patrouilles de 3 avions, chacun ayant une place spécifique, à partir d'une escadrille de 7 appareils : • 3 7 ! A = --------- = 210 7 (7 - 3) ! • Dans le tableur Microsoft Excel, la fonction Arrangement s'appelle PERMUTATION -ce qui n'est pas très heureux, même si un arrangement de n éléments choisi dans un ensemble de n éléments est une permutation- et s'écrit =PERMUTATION(n;p). • Modèle Simul3.xls LES ARRANGEMENTS (c) JP Marca pour CNAM INTEC • 50 candidats se présentent à un concours comportant 5 places. La liste des reçus est triée selon le nombre de points obtenus. Combien y a t il de listes possibles? LES ARRANGEMENTS (c) JP Marca pour CNAM INTEC • 50 candidats se présentent à un concours comportant 5 places. La liste des reçus est triée selon le nombre de points obtenus. Combien y a t il de listes possibles? • 5 A 50 50 ! = ------ = 254 251 200 45 ! LES COMBINAISONS (c) JP Marca pour CNAM INTEC • Une combinaison de p éléments choisis dans un ensemble de n éléments est une disposition non ordonnée de ces p éléments où chacun figure au plus une fois. • La combinaison est une opération analogue à l'arrangement, mais dans laquelle on ne tient pas compte de l'ordre des éléments. Que l'avion F-AAAA occupe la place de leader ou d'ailier n'importe pas. C p • On note n le nombre de combinaisons de p éléments choisis parmi n. p C = n n! -----------p! (n - p) ! LES COMBINAISONS (c) JP Marca pour CNAM INTEC • Reprenons notre escadrille et voyons comment former des patrouilles de deux appareils sans attribuer un rôle particulier aux pilotes : No Combinaison 1 1 (la même) 2 2 (la même) 3 3 (la même) Avion 1 F-AAAA F-BBBB F-AAAA F-CCCC F-BBBB F-CCCC Avion 2 F-BBBB F-AAAA F-CCCC F-AAAA F-CCCC F-BBBB LES COMBINAISONS (c) JP Marca pour CNAM INTEC • Combinaisons de 3 avions 2 à 2 • 2 3 ! C = ------------- = 3 3 2 ! (3 - 2) ! • Dans le tableur Microsoft Excel, la fonction Combinaison s'appelle COMBIN et s'écrit =COMBIN(n;p) • Modèle Simul4.xls LES COMBINAISONS (c) JP Marca pour CNAM INTEC • En 1943, vous êtes chargé d'organiser un convoi de vivres et de munitions pour le port russe de Mourmansk. • Dans le port il y a 4 escorteurs, 7 cargos et 3 porte-avions. • Votre convoi doit comporter un escorteur de tête, 3 cargos, 1 porte-avion et un escorteur de queue. • Combien d'organisations possibles ? LES COMBINAISONS (c) JP Marca pour CNAM INTEC • En 1943, vous êtes chargé d'organiser un convoi de vivres et de munitions pour le port russe de Mourmansk. Dans le port il y a 4 escorteurs, 7 cargos et 3 porte-avions. Votre convoi doit comporter un escorteur de tête, 3 cargos, 1 porte-avion et un escorteur de queue. Combien d'organisations possibles ? • Possibilités de choix pour le premier escorteur = 4 3 • Possibilités de choix pour les 3 cargos = C7 = 35 • Possibilités de choix pour le dernier escorteur = 3 (choix réduit par la sélection de l'escorteur de tête. • D'où : 4 * 35 * 3 * 3 = 1260 LES COMBINAISONS (c) JP Marca pour CNAM INTEC Nous retrouvons nos 50 candidats qui se présentent à un concours comportant 5 places. La liste des reçus est triée cette fois selon l'ordre alphabétique. Combien y a t il de listes possibles ? LES COMBINAISONS (c) JP Marca pour CNAM INTEC Nous retrouvons nos 50 candidats qui se présentent à un concours comportant 5 places. La liste des reçus est triée cette fois selon l'ordre alphabétique. Combien y a t il de listes possibles ? 5 C 50 ! = ---------- = 2 118 760 50 5 ! 45 ! PROPRIETES DES COMBINAISONS (c) JP Marca pour CNAM INTEC Propriété No 1 : A partir d'un arrangement de p éléments choisis parmi n, on obtient p! combinaisons en permutant les p éléments. p p! p C =A n n! = ------------------ n ( n - p) ! Propriété No 2 : En raison de la symétrie de la formule : p C n-p = C n n PROPRIETES DES COMBINAISONS (c) JP Marca pour CNAM INTEC Propriété No 3 : p C p = C n p-1 + C n-1 n-1 La démonstration de la propriété No 3 : Soit les n éléments a, b, ...n. Le nombre de combinaisons que l'on peut effectuer avec ces n éléments est égal à la somme du nombre des combinaisons contenant l'élément a et du nombre de combinaisons ne le contenant pas. On peut former toutes les combinaisons contenant a en ajoutant à celui-ci (p-1) éléments choisis parmi les (n-1) éléments différents de a. Le nombre de combinaisons contenant a est donc : p-1 C n-1 PROPRIETES DES COMBINAISONS (c) JP Marca pour CNAM INTEC Le nombre de combinaisons ne contenant pas a sont obtenues en choisissant p éléments parmi les (n-1) p C n-1 Par conséquent : p C p =C n + n-1 p-1 C n-1 PROPRIETES DES COMBINAISONS (c) JP Marca pour CNAM INTEC Propriété No 4 (Développement du binôme de Newton) : n (p + q) = n Σ k=0 k C n k p n-k q La démonstration de la propriété No 4 : 2 2 2 (p + q) = p + 2pq + q 3 3 2 2 3 (p + q) = p + 3 p q + 3 q p + q ..................................... n n 1 n-1 k k n-k n (p + q) = p + C p q + ... + C p q + ... + q n n En effet, dans cette expression, on obtient un terme en pk qn-k en choisissant p dans k des n facteurs (p+q) composant (p + q)n, k étant pris dans les (n k) facteurs restants. On pourra donc former autant de termes pk qn-k qu'il y a de façons de choisir k facteurs dans l'ensemble des n facteurs. L'ordre des facteurs n'intervenant pas, on obtient Cnk termes pk qn-k. PROPRIETES DES COMBINAISONS (c) JP Marca pour CNAM INTEC Remarque : En faisant dans la formule du binôme de Newton: p =q=1 on obtient le résultat remarquable suivant : 0 C 1 + C n n + ... + C n n = 2 n La somme des coefficients du développement du binôme de Newton est égale à 2n. DISPOSITIONS SANS REPETITION ET AVEC REPETITION (c) JP Marca pour CNAM INTEC Introduisons une nouvelle distinction entre dispositions, selon que les éléments qui les constituent peuvent y figurer une seule ou plusieurs fois. Dispositions sans répétition : un même élément ne peut figurer qu'une seule fois dans une disposition. Les dispositions sans répétition correspondent au schéma de tirages sans remise, dit encore tirages exhaustifs, dans une urne (ou dans un jeu de cartes). Dispositions avec répétition : un même élément peut figurer plusieurs fois dans une dispositions. Les dispositions avec répétition correspondent au schéma de tirages avec remise, dits encore tirages indépendants, dans une urne (ou dans un jeu de cartes). Exemple En disposant deux à deux les éléments de l'ensemble {a,b}, on peut faire deux dispositions ordonnées sans répétition : (a,b) (b,a) et quatre dispositions ordonnées avec répétition : (a,a) (a,b) (b,a) (b,b) LES ARRANGEMENTS AVEC REPETITION (c) JP Marca pour CNAM INTEC Un arrangement avec répétition de p éléments choisis dans un ensemble de n éléments est une disposition ordonnée des éléments choisis, chacun pouvant figurer plusieurs fois (jusqu'à p fois) dans le même arrangement. Exemple / Soit un ensemble de 4 éléments { a,b,c,d}. Arrangeons les 2 à 2 avec répétition. On obtient : ab ba ac ca ad da bc cb bd db cd dc aa bb cc dd soit 16 arrangements avec répétition. On note Anp le nombre d'arrangements avec répétition de p éléments choisis parmi n. On a : p p A=n n APPLICATION DE L'ANALYSE COMBINATOIRE AU CALCUL DES PROBABILITES (c) JP Marca pour CNAM INTEC Rappelons la question posée à la fin du chapitre précédent. On a 13 cartes dans un jeu de 52 cartes. Quelle est la probabilité d'obtenir tous les coeurs ? Puisque l'ordre dans lequel les cartes ont été tirées n'a pas d'importance, il s'agit de combinaisons. Un jeu de 52 cartes permet C5213 combinaisons de 13 cartes. Toutes sont équiprobables si la distribution a été faite au hasard. Une seule est favorable. La probabilité : 1 1 P {tous les coeurs} = --- = + ----------------C5213 635 013 559 600 Exercice (c) JP Marca pour CNAM INTEC Sachant qu'un joueur joue 5000 parties de poker par an, combien de temps doit il jouer pour récupérer un carré d'as à la première donne ? Exercice (c) JP Marca pour CNAM INTEC Sachant qu'un joueur joue 5000 parties de poker par an, combien de temps doit il jouer pour récupérer un carré d'as à la première donne ? Le nombre de mains possibles de 5 cartes avec un jeu de 52 est : C525 = 2 598 960 Sur ce nombre, seules 48 ont les 4 as (Chaque combinaison de 4 as incorpore l'une des 48 autres cartes restantes). La probabilité d'avoir 4 as lors d'une partie est donc : 48/2 598 960 = 0,00001847 Avec 5000 parties, la probabilité est de : 0,09234463 Il faut jouer près de 11 ans (10,8) pour que cette probabilité atteigne 1. Exercice (c) JP Marca pour CNAM INTEC Une boîte de 20 pièces de rechange contient 18 bonnes et 2 défectueuses. On prélève au hasard 6 pièces dans la boîte. Quelle est la probabilité que 5 de ces pièces exactement soient bonnes ? Exercice (c) JP Marca pour CNAM INTEC Une boîte de 20 pièces de rechange contient 18 bonnes et 2 défectueuses. On prélève au hasard 6 pièces dans la boîte. Quelle est la probabilité que 5 de ces pièces exactement soient bonnes ? L'ordre du choix des 6 pièces n'a pas d'importance et le nombre total de façons de choisir ces pièces est le nombre de manières de choisir 6 éléments dans un ensemble de 20, à savoir, C206. Le nombre de choix qui contiennent exactement 5 bonnes pièces et une mauvaise est égal au nombre de manières de choisir 5 pièces à partir de 18 objets, à savoir C185, multiplié par le nombre de façons de choisir 1 objet à partir de 2, à savoir C21. La probabilité que l'évènement survienne est égale à : C185 . C21 -------------C206 Cette probabilité vaut 0,44. Problème #2 (c) JP Marca pour CNAM INTEC 8 personnes autour d'une table ronde Combien de dispositions possibles sachant que 2 personnes ne peuvent rester ensemble ? Problème #2 (c) JP Marca pour CNAM INTEC 8 personnes autour d'une table Combien de dispositions possibles sachant que 2 personnes ne peuvent rester ensemble ? Nombre de cas possibles en tenant compte de la position = Nombre d'arrangements = n! Mais la table est ronde : il y a n possibilités de construire chaque arrangement. Le nombre de cas possibles : (n!)/n = (n-1)! Les incompatibilités : il y a (n-2)! possibilités de placer les autres convives. Pour chacune de ces possibilités il y a 2 mauvais placements, la combinaison Autres, A, B et la combinaison Autres, B, A (Du fait de la rotondité de la table, A, B, Autres et B,A, Autres sont équivalents aux premiers). Le nombre de cas acceptables est donc (n-1)! - 2*(n-2)! Pour n=8 => 3 600 (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES Paragraphe No 3 ALGEBRE DES ENSEMBLES Objectifs (c) JP Marca pour CNAM INTEC • Comprendre les atouts de l'algèbre des ensembles pour résoudre certains problèmes de probabilités Quizz • • • • • • • • • (c) JP Marca pour CNAM INTEC Ensemble ? Appartenance ? Diagramme de Venn ? Inclusion ? Réunion ? Intersection ? Partition ? Dualité et complémentarité ? Différence ? LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Un ensemble est une collection d'objets ou d'évènements, appelés éléments ayant comme caractère commun d'appartenir à l'ensemble. • Le nombre n d'éléments d'un ensemble E est appelé son cardinal. On note : • |E| = n • Appartenance • Si e est un élément de l'ensemble E, on écrit • e∈E LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Le diagramme de Venn • Comme Euler dans ses "Lettres à une Princesse d'Allemagne", écrites en 1760, on peut représenter un ensemble E par une surface "patatoïde" délimitée par un trait. • Cette surface est inscrite dans un rectangle R qui représente le référentiel que nous nommerons ensemble fondamental. • On remarquera que les éléments n'interviennent pas dans ce type de représentation. Certains la font remonter à G.W. Leibniz (1646-1716) • La première utilisation de tels diagrammes en logique. Les Américains leur donnent aujourd'hui le nom de diagrammes de Venn bien que John Venn n'ait publié sa "Symbolic logic" qu'en 1894. LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Le diagramme de Venn Stat01.swf LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • La relation d'inclusion • Un ensemble A est inclus dans un ensemble E si chaque élément de A appartient aussi à E. • e ∈ A => e ∈ E • On écrit alors que A ⊂ E ou E ⊃ A • On dit que A est une partie ou un sous-ensemble de E. Stat02.swf LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Partie vide • L'ensemble vide est l'ensemble qui ne comporte pas d'éléments. On le désigne par le symbole ∅. • Soit A une partie de E. Le complémentaire de A par rapport à E, noté à est constitué de tous les éléments de E qui n'appartiennent pas à A. • e ∈ à ⇔ e ∉ A • Le symbole ⇔ signifie "équivalent à" Stat03.swf LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Ensemble des parties d'un ensemble • Soit l'ensemble E = {a, b, c, d} • Formons toutes les parties possibles de E : ∅ {a} ,{b} ,{c} ,{d} {ab} ,{ac} ,{ad} ,{bc}, {bd} ,{cd} {abc} ,{abd} ,{acd} ,{bcd} {abcd} Elles forment un nouvel ensemble appelé ensemble des parties de E et noté P (E). • Rappelons que l'ensemble E lui-même et l'ensemble vide ∅ appartiennent à l'ensemble des parties de E : • E ∈ P(E) ∅ ∈ P(E) LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • En formant les parties de E, nous avons constaté que celle-ci étaient constituées par les combinaisons que l'on peut constituer avec les éléments appartenant à l'ensemble. Un ensemble à n éléments a donc : • 0 1 n C + C + ... + C = n n n 2 n parties LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Si deux ensembles sont disjoints A ∩ B= ∅ Stat04.swf LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • On appelle réunion de A et B, l'ensemble R formé des éléments appartenant à A ou à B (éventuellement aux deux). • On note : R=A ∪ B Stat05.swf LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • On appelle intersection de A et de B, l'ensemble I formé des éléments appartenant à la fois à A et B. • On note : I=A∩ B • Si A et B sont disjoints, leur intersection est l'ensemble vide Stat06.swf LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Les opérations de réunion et d'intersection possèdent les propriétés de commutativité, d'associativité et de distributivité. Ces dernières sont particulièrement utiles. • Distributivité de la réunion par rapport à l'intersection • A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) • Distributivité de l'intersection par rapport à la réunion • A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Partition d'un ensemble • On appelle partition d'un ensemble E un ensemble de parties {A1, A2, A3, ... An} non vides, disjointes deux à deux et dont la réunion est égale à l'ensemble E: • Ai = ∅ pour toutes les valeurs de i • Ai ∩ Aj = ∅ avec i ≠ j • Les parties Ai sont appelées les classes de la partition. • Si les éléments de l'ensemble sont des éventualités, une partition revient à décomposer l'ensemble fondamental, tel que nous l'avons défini dans le chapitre 1, en évènements mutuellement incompatibles. Ceux-ci forment alors ce qu'on appelle un système complet d'évènements. • Le système complet d'évènements d'un lancement de 2 pièces est {Pile-Pile, Pile-Face, Face-Pile, FaceFace} LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Dualité et complémentation • Les propriétés algébriques de l'union et de l'intersection vont par deux. Par exemple, la propriété : • A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C) • a son expression duale, qui s'en déduit en échangeant les symboles ∪ et ∩ : • A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C) • Cette dualité résulte de ce que, à chaque partie A de E, on peut associer sa complémentarité à LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC • Différence • La différence A - B de deux parties A et B est constituée par les éléments de A qui ne sont pas éléments de B : __ • A-B=A∩B LE LANGAGE DE L'ALGEBRE DES ENSEMBLES (c) JP Marca pour CNAM INTEC Les lois de Morgan fournissent les règles de calcul relatives à l'opération de complémentation : Loi 1 : La complémentaire d'une réunion est l'intersection des complémentaires ______ __ __ (A ∪ B) = A ∩ B Stat07.swf Loi 2 : La complémentaire d'une intersection est la réunion des complémentaires ______ __ __ (A ∩ B) = A ∪ B Ces lois se démontrent aisément avec les diagrammes de Venn Problème #1 (c) JP Marca pour CNAM INTEC Sur 150 personnes : • 65 regardent la télévision • 60 écoutent la radio • 50 lisent un journal • 35 regardent la télévision et écoutent la radio • 25 regardent la télévision et lisent un journal • 30 lisent un journal et écoutent la radio • 10 regardent la télévision, écoutent la radio et lisent un journal Combien de personnes ne regardent que la télévision ? Combien de personnes n'ont pas d'activité ? Problème #1 (c) JP Marca pour CNAM INTEC TV TV + R TV+J TV+J+R Radio ® J+R Journal (J) Problème #1 (c) JP Marca pour CNAM INTEC TV seul Radio seul Journal seul TV + Radio sans J TV + Journal sans Radio Journal + Radio sans TV Les 3 Total Solde 15 5 5 25 15 20 10 95 150 55 TV Radio Journal 65 60 50 TV=65-25-10-15=15 TV + R =35-10=25 TV+J =25-10=15 TV+J+R =10 Radio (R) =60-25-10-20 =5 Journal (J)=50-20-10-15=5 J+R =30-10=20 Intérêt pour votre métier de cette approche : problématique de l'acheteur (c) JP Marca pour CNAM INTEC BESOIN REEL Non Qualité Non Qualité Chance Qualité Sur-spécification SPECIFICATION REALISATION OU ACHAT DE SOLUTION Gaspillage (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES Paragraphe No 4 REGLES DU CALCUL DES PROBABILITES Objectifs (c) JP Marca pour CNAM INTEC • Comprendre les probabilités composées et les règles d'application des théorèmes de Bayes. • S'approprier l'ensemble des principes du calcul des probabilités grâce à des exercices de synthèse. Quizz • • • • • • • • • (c) JP Marca pour CNAM INTEC Règles de calcul ? Probabilités totales ? Indépendance et incompatibilité ? Probabilité conditionnelle ? Probabilité A ou B ? Probabilité A et B ? Probabilités composées ? Dépendance et indépendance ? Théorème de Bayes ? Une nouvelle approche du calcul des probabilités (c) JP Marca pour CNAM INTEC • La théorie des probabilités a été redéfinie d'une manière plus rigoureuse au plan mathématique à la lumière des règles de l'algèbre des ensembles. • Ceci impose un référentiel de postulats ou axiomes, desquels on tire un certain nombre de théorèmes. • Les régles du calcul des probabilités indiquent comment il est possible de déterminer la probabilité d'un évènement défini à partir des opérations logiques que nous venons d'étudier, effectuées sur les parties de l'ensemble fondamental. • Ces règles sont introduites sous forme d'axiomes qui généralisent les résultats variables dans le cas où il est possible de définir l'ensemble fondamental comme un ensemble d'évènements élémentaires équiprobables. • Si on interprète les probabilités d'évènements comme des modèles de fréquence de réalisation d'évènements lors de multiples répétitions d'une expérience donnée, ces probabilités auront les propriétés essentielles de ces fréquences. Une nouvelle approche du calcul des probabilités (c) JP Marca pour CNAM INTEC • Axiome No 1 : Une probabilité est donc un nombre compris entre 0 et 1 parce que la fréquence relative est un nombre compris entre 0 et 1. • Axiome No 2 : La probabilité de l'évènement E, où E est l'ensemble fondamental, est égale à 1 parce qu'un des résultats possibles est certain de se produire quand l'expérience est réalisée. • Axiome No 3 : Si deux évènements A et B sont disjoints, la probabilité de la réunion de ces évènements doit être égale à la somme des probabilités de ces deux évènements parce que pour ces évènements la fréquence relative de réalisation de A et B est égale à la fréquence relative de réalisation de A plus la fréquence relative de réalisation Une nouvelle approche du calcul des probabilités (c) JP Marca pour CNAM INTEC Autres axiomes : Soit l'ensemble fondamental E et F la famille des évènements. La famille F des évènements est une classe de parties de l'ensemble fondamental Les évènements A1, A2, An appartiennent à F Une mesure de la probabilité P est une fonction à valeur réelle définie sur un ensemble fondamental E telle que : 1. 0 <= P(A) <= 1 2. P(E) = 1 3. P(A1 ∪ A2 ∪ ... An) = P(A1)+P(A2)+...+P(An) On pourra aussi dire que P est une application P de F dans [0,1] Une nouvelle approche du calcul des probabilités (c) JP Marca pour CNAM INTEC Propriétés : P(∅) = 0 P(Ã) = 1 - P(A) Si A ⊂ B, P(A) <= P(B) On tire aussi de ces axiomes deux théorèmes très importants qui vont constituer les principales règles de calcul qui s'appliquent aux probabilités : le théorème des probabilités totales et le théorème des probabilités composées. Le théorème des probabilités totales (c) JP Marca pour CNAM INTEC Les applications des probabilités envisagent souvent plusieurs évènements combinés plutôt qu'un seul évènement. Considérons deux évènements A1 et A2 associés à une expérience. Il est souvent intéressant de savoir si, lorsque l'expérience se produit, A1 et A2 se réalisent tous les deux ou si un seul des évènements se produit. L'algèbre des ensembles nous fournit un mode de représentation pour ces probabilités : La probabilité pour que les deux évènements surviennent : P(A1 ∩ A2) - Probabilité A1 ET A2 La probabilité pour qu'un seul des évènements surviennent : P(A1 ∪ A2) - Probabilité A1 OU A2 Le théorème des probabilités totales (c) JP Marca pour CNAM INTEC • Supposons que les points de l'ensemble fondamental correspondant aux réalisations de A1 et A2 soient des points à l'intérieur de deux aires désignées respectivement A1 et A2. • On peut donc représenter le diagramme de Venn, figuré sur le schéma interactif ci-dessous. • En passant la souris sur les équations ensemblistes définissant chaque zone du diagramme, vous faîtes apparaître la probabilité correspondante. Stat10.swf Le théorème des probabilités totales (c) JP Marca pour CNAM INTEC La probabilité que l'un de deux évènements survienne est égale à la somme des trois probabilités mises en évidence sur le schéma : la probabilité d'avoir A1 sans A2, le probabilité d'avoir A2 sans A1 et la probabilité d'avoir les deux. ___ ___ P(A1 ∪ A2) = P(A1 ∩ A2) + P(A1 ∩ A2) + P(A1 ∩ A2) Nous voyons aussi sur le même diagramme que ___ P(A1) = P(A1 ∩ A2) + P(A1 ∩ A2) ___ P(A2) = P(A2 ∩ A1) + P(A1 ∩ A2) La combinaison de ces trois expression permet, en éliminant P(Ã1 ∩ A2) et P(A1 ∩ Ã2) de la première grâce aux deux dernières, d'obtenir l'expression suivant pour la probabilité recherchée : P(A1 ∪ A2) = P(A1) + P(A2) - P(A1 ∩ A2) Le théorème des probabilités totales (c) JP Marca pour CNAM INTEC THEOREME DES PROBABILITES TOTALES P(A1 ∪ A2) = P(A1) + P(A2) - P(A1 ∩ A2) La probabilité de trouver des comptables avec des cheveux verts OU des yeux mauves s'obtient en additionnant la probabilité d'avoir des cheveux verts quelque soit la couleur des yeux à la probabilité d'avoir des yeux mauves quelque soit la couleur des cheveux. A ce résultat il faut cependant retirer la probabilité d'observer simultanément cheveux verts et yeux mauves car cet événement est inclus à la fois dans A et dans B, donc compté deux fois. Le théorème des probabilités totales : cas des évènements qui s'excluent (c) JP Marca pour CNAM INTEC Si les deux ensembles du diagramme précédent sont disjoints, deux évènements A1 et A2 n'ont aucun point commun. On dit qu'ils sont mutuellement exclusifs. P(A1 ∩ A2) = 0 La formule devient alors : FORMULE PARTICULIERE DES PROBABILITES TOTALES Si A1 et A2 sont des évènements mutuellement exclusifs P(A1 ∪ A2) = P(A1) + P(A2) On peut généraliser ces formules à n évènements (n > 2). Exemples d'applications (c) JP Marca pour CNAM INTEC On tire une carte dans un jeu de 52 cartes : Probabilité d'avoir un coeur ou un roi ? On tire une carte dans un jeu de 52 cartes : Probabilité d'avoir un as ou un roi ? Exemples d'applications (c) JP Marca pour CNAM INTEC On tire une carte dans un jeu de 52 cartes : Probabilité d'avoir un coeur ou un roi ? P(1 roi ou un coeur) = P(1 coeur) + P(1 roi) - P(roi de coeur) (cas général) 4 1 1 1 P = -- = -- + -- - -13 4 13 52 On tire une carte dans un jeu de 52 cartes : Probabilité d'avoir un as ou un roi ? P(1 roi ou un as) = P(1 as) + P(1 roi) (cas des évènements qui s'excluent) 2 1 1 P = -- = -- + -13 13 13 Exemples d'applications (c) JP Marca pour CNAM INTEC On jette deux dés. Quelle est la probabilité d'obtenir soit un total de 7, soit un total de 11 points ? Exemples d'applications (c) JP Marca pour CNAM INTEC On jette deux dés. Quelle est la probabilité d'obtenir soit un total de 7, soit un total de 11 points ? A1 est la probabilité d'obtenir un total de 7. A2 est la probabilité d'obtenir un total de 11 points. Ces évènement sont mutuellement exclusifs. 6 arrangements permettent d'obtenir A1 : (1,6), (2,5), (3,4), (4,3), (5,2) et (6,1) 2 arrangements permettent d'obtenir A2 : (5,6) et (6,5) 6 2 P(A1) = -- P(A2) = -- 36 36 6 2 8 P(A1 ∪ A2)= -- + -- = -36 36 36 INDEPENDANCE ET INCOMPATIBILITE. (c) JP Marca pour CNAM INTEC Il est important de ne pas confondre les notions d'indépendance et d'incompatibilité. L'incompatibilité va de pair avec l'exclusion. Deux évènements A et B sont exclusifs ou incompatibles si, lorsque A se réalise, B ne peut pas se réaliser et réciproquement (Tirer une carte qui soit à la fois un cœur et un pique : réalisation simultanée impossible). Nous avons vu que lorsque deux évènements sont exclusifs, P(A1 ∪ A2) = P(A1) + P(A2) Deux évènements A et B sont indépendants si la réalisation de A n'est pas influencée par la réalisation de B et réciproquement. Deux évènements indépendants sont nécessairement compatibles mais la réciproque n'est pas toujours vraie. Nous verrons dans le paragraphe suivant la traduction mathématique de l'indépendance PROBABILITES CONDITIONNELLES. (c) JP Marca pour CNAM INTEC On appelle probabilité conditionnelle d'un évènement B dépendant d'un évènement A la probabilité de B sachant que A est réalisé. Cette probabilité se note Probabilité(B/A) et s'énonce Probabilité de B si A. P(A ∩ B) P(B/A) = ---------P(A) Pour décomposer une probabilité conditionnelle (probabilité de doubler votre capital si vous spéculez en bourse) il faut mettre au numérateur l'intersection des 2 évènements constituant la condition (Spéculer en bourse ET doubler le capital) et au numérateur la probabilité de l'événement de référence (spéculer en bourse). Exemples d'applications (c) JP Marca pour CNAM INTEC On tire une carte dans un jeu de 52 cartes. Désignons par B l'évènement "Tirer un roi" et par A l'évènement "tirer un roi ou un coeur". On a : P(A ∩ B) = P(B) = 4/52 = 1/13 P(A) = 12 (coeurs sauf roi) + 3 (rois sauf roi coeur) + 1 (roi de coeur)/52 = 16/52 = 4/13 La probabilité d'avoir tiré un roi, sachant que l'on a tiré un roi ou un coeur : P(A ∩ B) P(B/A) = --------P(A) P(un roi) 1/13 1 P(un roi/un roi ou un coeur) = -------------------- = ----- = --P(un roi ou un coeur) 4/13 4 PROBABILITES COMPOSEES (c) JP Marca pour CNAM INTEC La formule des probabilités composées résulte du concept de probabilité conditionnelle. P(A ∩ B) = P(B/A) * P(A) P(A ∩ B) = P(A/B) * P(B) Lorsqu'un événement aléatoire AB résulte de la réalisation simultanée de deux évènements aléatoires A et B, la probabilité de réalisation de l‘évènement AB considéré est égale à la probabilité de réalisation de l'un des évènements composants, multipliée par la probabilité de réalisation de l'autre sachant que le premier s'est effectivement réalisé. PROBABILITES COMPOSEES : ILLUSTRATION (c) JP Marca pour CNAM INTEC Une digue vient d'être construite sur une rivière. Elle est capable de résister à des crues tant que le débit reste inférieur à 109 m3 par seconde. Au delà elle a une chance sur deux de rompre; Une société souhaite aménager les terres protégées par la digue à condition que la probabilité de rupture dans les 30 prochaines années soit inférieure à 0,01. Les statistiques ont pu établir que l'occurrence du débit critique dans les 30 dernières années a été de 0,014. Décision ? PROBABILITES COMPOSEES : ILLUSTRATION (c) JP Marca pour CNAM INTEC Une digue vient d'être construite sur une rivière. Elle est capable de résister à des crues tant que le débit reste inférieur à 109 m3 par seconde. Au delà elle a une chance sur deux de rompre; Une société souhaite aménager les terres protégées par la digue à condition que la probabilité de rupture dans les 30 prochaines années soit inférieure à 0,01. Les statistiques ont pu établir que la probabilité du débit critique dans les 30 dernières années a été de 0,014. Décision ? P(A) rupture digue P(B) crue critique = 0,014 P(A/B) = 0,5 (probabilité de rupture sachant que le niveau critique est atteint) P(B/A) = 1 (Si la digue cède, c'est qu'il y a crue) P(AB)= P(A) P(B/A) = P(A) P(AB) = P(B) P(A/B) = 0,014 . 0,5 P(A) = 0,014 . 0,5 = 0,007 < 0,01 => Décision favorable EVENEMENTS INDEPENDANTS (c) JP Marca pour CNAM INTEC Nous avions défini que deux évènements sont indépendants si le fait que l'évènement A soit réalisé ne donne aucune connaissance sur l'évènement B. Dans le cas inverse ils sont dépendants . Si deux évènements A et B sont indépendants l'un de l'autre : P(A/B) = P(A) P(B/A) = P(B) P(A ∩ B) = P(A) * P (B) Illustration (c) JP Marca pour CNAM INTEC • Synthèse sur dénombrement, indépendance, exclusion, probabilités composées et totales • Soit un lampadaire de 3 ampoules • Chaque ampoule a 1 chance sur 2 d'être en panne au bout de 1000 heures • Probabilité pour qu'au bout de 1000 heures, 2 soient en panne Synthèse (c) JP Marca pour CNAM INTEC Probabilité Théorème des d'avoir A OU B probabilités totales Si évènements P(A ou B) = mutuellement P(A) + P(B) exclusifs Probabilité Théorème des d'avoir A ET B probabilités composées Si évènements P(A et B) = indépendants P(A) * P(B) Illustration (c) JP Marca pour CNAM INTEC On tire 3 cartes sans remise dans un jeu de 52 cartes. Quelle est la probabilité d'obtenir 3 as ? Illustration (c) JP Marca pour CNAM INTEC On tire 3 as sans remise dans un jeu de 52 cartes. Quelle est la probabilité d'obtenir 3 as ? Désignons par A1, A2 et A3 les ensembles de tirages de 3 cartes dans lesquels figurent respectivement un as au premier, au second et au troisième tirage. Selon la formule des probabilités composées généralisée : P (A1 ∩ A2 ∩ A3) = P(A1) * P(A2/A1) * P(A3/A2 ∩ A1) Soit : Probabilité de tirer un as sur un jeu de 52 cartes qui en comporte 4. Probabilité de tirer un as lorsqu'on vient de tirer un as (soit probabilité de tirer un as sur un jeu de 51 cartes qui en comporte 3) Probabilité de tirer un as lorsqu'on vient de tirer un as ET un as (soit probabilité de tirer un as sur un jeu de 50 cartes qui en comporte 2) 4 3 2 1 = -- * -- * -- = ------52 51 50 5 525 Problème #4 (c) JP Marca pour CNAM INTEC Soit A et B des évènements tels que p(A) = 1/3 , P(B) = 1/4, P(A et B) = 1/6 Calculer P(A ou B) P(A/B) Probabilité de A quand B est réalisé P(B/A) Probabilité de B quand A est réalisé Les évènements A et B sont-ils indépendants ? Problème #4 (c) JP Marca pour CNAM INTEC Soit A et B des évènements tels que p(A) = 1/3 , P(B) = 1/4, P(A et B) = 1/6 Calculer P(A ou B) = P(A) + P(B) - P(A et B) = 1/3 + 1/4 - 1/6 = 5/12 P(A/B) = P(A et B) / P(B) = (1/6) / (1/4) = 2/3 P(B/A) = P(A et B) / P(A) = (1/6) / (1/3) = 1/2 Les évènements A et B ne sont pas indépendants car p(A) * p(B) est différent de p(A et B) Etude d'un cas (c) JP Marca pour CNAM INTEC Imaginons qu'une urne contienne deux boules rouges. Une deuxième urne d'apparence identique contient une boule rouge et une boule blanche. Une urne est choisie au hasard et on tire une boule. Quelle est le probabilité que la première urne soit choisie, si la boule tirée est rouge ? B est l'évènement "Tirer la première urne". Son complément est choisir de le seconde urne. A est l'évènement "Tirer une boule rouge" Son complément à est de choisir une boule blanche. Le problème consiste à déterminer la probabilité conditionnelle P(B/A) (Choix première urne B SI la boule tirée est rouge A) Le théorème des probabilités composées donne : P(A ∩ B) P(B/A) = --------P(A) Etude d'un cas (c) JP Marca pour CNAM INTEC On a : P(A ∩ B) = P(B) * P(A/B) La probabilité de choix de la première urne P(B) = 0,5 Une fois celle-ci choisie, on est sûr d'avoir une boule rouge : P(A/B) = 1 P(A ∩ B) = 0,5 * 1 = 0,5 Premier théorème de Bayes (c) JP Marca pour CNAM INTEC L'exemple du paragraphe précédent est typique des problèmes où l’on examine le résultat d'une expérience et où on se demande ensuite quelle est la probabilité que le résultat soit effectivement dû à une des causes possibles. Dans l'exemple, deux causes possibles pour avoir une boule rouge, soit avoir la première urne (qui ne contient que des boules rouges), soit tirer une des boules rouges de la seconde urne. Nous avons obtenu le résultat en appliquant les théorèmes des probabilités, mais par un processus un peu long. Le Théorème de Bayes a pour objectif d'aller directement au résultat. PREMIER THEOREME DE BAYES (c) JP Marca pour CNAM INTEC Le premier théorème de Bayes a pour objet d'exprimer P(B/A) en fonction de P(A/B). P(A/B) * P(B) P(B/A) = ---------------P(A) On le démontre en éliminant P(A ∩ B) entre les expressions de probabilités conditionnelles. P(A ∩ B) P(A/B) * P(B) P(B/A) = ---------------- = -----------------P(A) P(A) SECOND THEOREME DE BAYES (c) JP Marca pour CNAM INTEC Le second théorème de Bayes est une généralisation du premier P(A/Bi) * P(Bi) P(Bi/A) = --------------------------Σk P(A/Bk) * P(Bk) Par définition des probabilités conditionnelles, on peut écrire : P(A ∩ Bi) = P(A/Bi) * P(Bi) Par ailleurs, les Bk formant une partition de l'ensemble fondamental, le théorème des probabilités totales devient : P(A) = Σk P(A/Bk) * P(Bk) Illustration (c) JP Marca pour CNAM INTEC Une entreprise de sous-traitance possède 3 machines M1, M2 et M3. La production pour l'année : Machine Production Taux rejets M1 240 10% M2 300 5% M3 660 1% Quelle est la probabilité pour qu'un lot, dans lequel on a tiré une pièce défectueuse, provienne de la machine M1 ? Illustration (c) JP Marca pour CNAM INTEC Une entreprise de sous-traitance possède 3 machines M1, M2 et M3. La production pour l'année : Machine Production Taux rejets M1 240 10% M2 300 5% M3 660 1% Quelle est la probabilité pour qu'un lot, dans lequel on a tiré une pièce défectueuse, provienne de la machine M1 ? Probabilité pour qu'une pièce tirée au hasard vienne de M1 : P(M1) = 240/1200 = 0,20, de M2 : P(M2) = 300/1200 = 0,25, de M3 : P(M3) = 660/1200 = 0,55 Si l'on fait intervenir l'événement D, à savoir "pièce défectueuse", les probabilités deviennent : P(D/M1) = Probabilité qu'une pièce venant de M1 soit défectueuse = 0,1 De la même manière, P(D/M2) = 0,05 et P(D/M3) = 0,01 Illustration (c) JP Marca pour CNAM INTEC L'application du second théorème de Bayes P(D/M1)*P(M1) p(M1/D) = --------------------------------------------------P(D/M1)*P(M1) + P(D/M2)*P(M2) + P(D/M3)*P(M3) 0,1*0,2 p(M1/D) = ----------------------------------------- = 0,526 0,1*0,2 + 0,05*0,25 + 0,01*0,55 On obtiendrait de même : P(M2/D) = 0,329 et P(M3/D) = 0,145 Exercice (c) JP Marca pour CNAM INTEC On fabrique un objet p indifféremment à partir de 3 machines A, B et C. Machine % Production Taux rejets A 60% 1% B 30% 2% C 10% 5% Une pièce B est rejetée. Quelle est la probabilité qu'elle vienne de A ? Probabilité pour qu'une pièce tirée au hasard vienne de A : P(A) = 0,6, de B : P(B) = 0,3, de C : P(C) = 0,1 Si l'on fait intervenir l'événement D, à savoir "pièce défectueuse", les probabilités deviennent : P(D/A) = Probabilité qu'une pièce venant de A soit défectueuse = 0,01 De la même manière, P(D/B) = 0,02 et P(D/C) = 0,05 Exercice (c) JP Marca pour CNAM INTEC L'application du second théorème de Bayes P(D/A)*P(A) p(A/D) = --------------------------------------------------P(D/A)*P(A) + P(D/B)*P(B) + P(D/C)*P(C) 0,6*0,01 p(A/D) = ----------------------------------------- = 0,35 0,6*0,01 + 0,3*0,02 + 0,1*0,05 Exercice (c) JP Marca pour CNAM INTEC On fabrique un objet p indifféremment à partir de 3 machines A, B et C. Machine % Production Taux rejets A 60% 1% B 30% 2% C 10% 5% Une pièce B est rejetée. Quelle est la probabilité qu'elle vienne de A ? Exercices de synthèse No 1 (c) JP Marca pour CNAM INTEC Lors d'un audit comptable, on extrait au hasard 30 pièces Quelle est la probabilité pour qu'au moins deux de ces pièces ait été émises le même jour (On considère 220 jours ouvrables). Toutes les dates sont équiprobables Exercices de synthèse No 1 (c) JP Marca pour CNAM INTEC Lors d'un audit comptable, on extrait au hasard 30 pièces. Quelle est la probabilité pour qu'au moins deux de ces pièces ait été émises le même jour (On considère 220 jours ouvrables). Toutes les dates sont équiprobables La mention "au moins" nous indique de recourir à la probabilité de l'événement complémentaire. C'est à dire qu'on s'intéresse à la probabilité qu'il n'y ait aucune coïncidence des dates d'émission dans un groupe de n pièces. Le nombre total de cas possibles est 220 à la puissance n noté 220^n. Le nombre de cas favorables est le nombre de choix ordonnés de n dates parmi 220, soit: 220! / (220-n)! Donc, la probabilité qu'il n'y ait aucune coïncidence de dates d'émission est : 220! / ((220-n)! * 220^n ) = produit[(220 - i)/220 , pour i=0 à n-1] = produit[1 - i/220 , pour i=0 à n-1] La probabilité P(n) qu'il y ait au moins une coïncidence est donc : P(n) = 1 - produit[1 - i/220 , pour i=0 à n-1]. Il suffit ensuite de calculer P(30). Exercices de synthèse No 1 (c) JP Marca pour CNAM INTEC La difficulté vient du fait que les termes de la formule excèdent les capacités de calcul des tableurs et des calculettes. Il faut donc réfléchir un peu pour organiser le calcul, en tenant compte des limites et des possibilités des outils.. Si on dispose d'une calculatrice programmable, il est possible de programmer, avec une boucle, le calcul de l'expression : produit[1 - i/220 , pour i=0 à n-1]. Cette programmation dépend de la calculatrice et du langage utilisés. Si l'on dispose d'un tableur, l'expression : produit[1 - i/220 , pour i=0 à n-1] est facile à calculer en faisant un tableau de taille n, avec 3 colonnes : une colonne pour i, une colonne pour 1 - i/220, une colonne pour le produit et une colonne pour le résultat final. Exercices de synthèse No 1 (c) JP Marca pour CNAM INTEC Le tableau donne donc une probabilité de 0,87 Exercices de synthèse No 2 (c) JP Marca pour CNAM INTEC La probabilité d'être de sexe masculin est de 0,5. La probabilité qu'un individu de sexe quelconque soit du groupe sanguin A est de 0,40 Quelle est la probabilité pour un individu d'être une femme de groupe sanguin A ? Quelle est la probabilité qu'un individu de groupe sanguin A soit de sexe masculin ? Exercices de synthèse No 2 (c) JP Marca pour CNAM INTEC La probabilité d'être de sexe masculin est de 0,5. La probabilité qu'un individu de sexe quelconque soit du groupe sanguin A est de 0,40 Quelle est la probabilité pour un individu d'être une femme de groupe sanguin A ? P = 0,20 Quelle est la probabilité qu'un individu de groupe sanguin A soit de sexe masculin ? P=0,50 Exercice de synthèse (c) JP Marca pour CNAM INTEC L'éclairage d'une pièce nécessite l'emploi de 2 lampes. Soit A1 l'évènement : la 1ère lampe est défaillante - P(A1) = 0,12 Soit A2 l'évènement : la 2nde lampe est défaillante - P(A2) = 0,18 On donne P(A1 ∩ A2) = 0,07. Probabilité pour que les 2 lampes fonctionnent ? Exercice de synthèse (c) JP Marca pour CNAM INTEC L'éclairage d'une pièce nécessite l'emploi de 2 lampes. Soit A1 l'évènement : la 1ère lampe est défaillante - P(A1) = 0,12 Soit A2 l'évènement : la 2nde lampe est défaillante - P(A2) = 0,18 On donne P(A1 ∩ A2) = 0,07. Probabilité pour que les 2 lampes fonctionnent ? Par hypothèse P(A1 ∩ A2) = 0,07 qui est ≠ 0 F et G ne sont pas mutuellement exclusifs. P(A1) * P(A2) = 0,12 * 0,18 = 0,0216 qui est ≠ P(A1 ∩ A2) F et G ne sont pas indépendants L'évènement "Au moins une lampe est défaillante" = P(A1 ∪ A2) P(A1 ∪ A2) = P(A1) + P(A2) - P(A1 ∩ A2) = 0,12 + 0,18 - 0,07 = 0,23 L'évènement "Les deux lampes fonctionnent" est l'évènement contraire du précédent. _______ P(A1 ∪ A2) = 1 - P(A1 ∪ A2) = 1 - 0,23 = 0,77 Exercice de synthèse (c) JP Marca pour CNAM INTEC La probabilité qu'un moteur à piston sur un monomoteur tombe en panne en 1925 était 0,005. La probabilité qu'un moteur à piston sur un bimoteur tombe en panne en 1925 était 0,003. Quel est l'avion le plus sûr ? Exercice de synthèse (c) JP Marca pour CNAM INTEC La probabilité qu'un moteur à piston sur un monomoteur tombe en panne en 1925 était 0,005. La probabilité qu'un moteur à piston sur un bimoteur tombe en panne en 1925 était 0,003. Quel est l'avion le plus sûr ? Probabilité pour qu'au moins un des moteurs tombe en panne sur le bimoteur Evénement "1er moteur 1 fonctionne" : 1-0,003 = 0,997 Evénement "2eme moteur fonctionne" : 1 - 0,003 = 0,997 Probabilité que les deux moteurs fonctionnent : 0,997 * 0,997 = 0,994009 Probabilité pour qu'au moins un des moteurs tombe en panne : 1 - 0,994009 = 0,005991 La panne d'un seul des 2 moteurs au décollage est critique, surtout avec une charge exceptionnelle en carburant (Crash de Fonck). Le monomoteur est donc plus sûr, malgré la fiabilité moindre de son moteur. C'est ce raisonnement qui a poussé Lindbergh a voler sur un monomoteur Ryan pour traverser l'Atlantique Nord, alors que tous ceux qui avaient tenté avant lui -et échoué- étaient partis sur des bimoteurs. Son choix fut le bon. (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES Paragraphe No 5 VARIABLES ALEATOIRES ET LOIS DE PROBABILITE DISCRETES Objectifs (c) JP Marca pour CNAM INTEC • Nous avons traité le problème "Quelle est la probabilité pour qu'un événement -ou une combinaison d'évènements- survienne" ? • Nous voulons maintenant tenter de résoudre un autre problème : "Quelle est la probabilité pour que dans le cas d'un nombre déterminé d'essais, l'événement considéré se produise un certain nombre de fois ?" • Ceci va nous conduire à introduire la notion de variable aléatoire et de loi de probabilité. • L'analyse des caractéristiques des variables aléatoires nous conduira à jeter un pont avec les statistiques descriptives • Nous verrons plusieurs lois caractéristiques. Quizz • • • • • • • • (c) JP Marca pour CNAM INTEC Distribution de probabilité ? Variable aléatoire ? Loi de probabilité ? Répartition ? Densité ? Variable discrète ? Loi binomiale ? Loi binomiale et variable de Bernouilli ? Quizz • • (c) JP Marca pour CNAM INTEC Loi de Poisson ? Conditions applications de Poisson versus binomiale ? Distribution de la probabilité (c) JP Marca pour CNAM INTEC • Dès que la probabilité d'un évènement est connue (soit par le calcul, soit à partir d'un grand nombre d'essais empirique), une autre problématique peut être envisagée. • Celle-ci s'exprime : "Quelle est la probabilité pour que dans le cas d'un nombre déterminé d'essais, l'événement considéré se produise un certain nombre de fois ?" • Nous savons que la probabilité de faire pile avec une pièce est 1/2. • Le nouveau problème posé : • Quelle est la probabilité de faire 5 fois pile en jetant 12 fois la pièce ? Distribution de la probabilité (c) JP Marca pour CNAM INTEC • Les lois de probabilité synthétisent toutes ces notions. • Elles reviennent à associer des probabilités à chaque valeur d'une variable aléatoire correspondant aux diverses éventualités d'une expérience aléatoire. • Chaque loi de probabilité peut être étudiée en fonction de sa distribution (ou répartition) et de sa densité. • La fonction de répartition F(X) est définie par : • F(X) = Probabilité pour que la variable aléatoire X prenne une valeur inférieure à x. • La fonction de densité f(X) est définie par : • f(X) = Probabilité pour que la variable aléatoire X prenne une valeur particulière x. • Nous reviendrons sur ces fonctions. Distribution de la probabilité (c) JP Marca pour CNAM INTEC • La loi de probabilité est aussi définie par des grandeurs caractéristiques comme l'espérance mathématique -définie au paragraphe 1- qui représente un gain moyen et la dispersion des résultats possibles autour de ce gain moyen. • Cette dispersion est mesurée par l'écart type. • Selon la nature de l'essai et des évènements à évaluer, il existe différents modèles mathématiques qui peuvent être utilisés. • Le tableur permet de les matérialiser. Variable aléatoire (c) JP Marca pour CNAM INTEC Variable aléatoire • Si à chacun des évènements élémentaires de l'ensemble des X évènements E on fait correspondre un nombre, on définit une variable aléatoire X. • On dit que la variable aléatoire X est discrète lorsque ses différentes valeurs possibles x sont en nombre fini. • Supposons un lancement d'une pièce de monnaie, limité à deux occurrences. • Soit la variable aléatoire X qui correspond au nombre de faces obtenues. • Elle peut prendre les valeurs 0, 1 ou 2. Loi de probabilité (c) JP Marca pour CNAM INTEC Loi de probabilité • En associant à chacune des valeurs possibles de la variable aléatoire discrète la probabilité de l'événement correspondant, on obtient la loi de probabilité de X. • Du fait du caractère discret de la variable la représentation graphique est un diagramme en bâtons. • La somme des probabilités composant une loi de probabilité est toujours égale à 1 ΣiP(X=xi) = 1 Loi de probabilité (c) JP Marca pour CNAM INTEC Si nous reprenons notre exemple des deux lancements de pièces pour la recherche de "face", nous obtenons la loi de probabilité suivante : Evènement élémentaire Variable aléatoire X Probabilité P(X) Pile - Pile 0 1/4 Pile - Face 1 1/4 Face - Pile 1 1/4 Face - Face 2 1/4 Total 1 Loi de probabilité : représentation graphique (c) JP Marca pour CNAM INTEC 0,6 0,5 P(X) Probabilité 0,5 0,4 0,3 0,25 0,25 0,2 0,1 0 X Variable aléatoire Série1 Loi de probabilité : représentation graphique (c) JP Marca pour CNAM INTEC Probabilité d'avoir 0 face 0,6 0,5 P(X) Probabilité 0,5 0,4 0,3 0,25 0,25 0,2 0,1 0 X Variable aléatoire Série1 Loi de probabilité : représentation graphique (c) JP Marca pour CNAM INTEC Probabilité d'avoir 1 face 0,6 0,5 P(X) Probabilité 0,5 0,4 0,3 0,25 0,25 0,2 0,1 0 X Variable aléatoire Série1 Loi de probabilité : représentation graphique (c) JP Marca pour CNAM INTEC Probabilité d'avoir 2 faces 0,6 0,5 P(X) Probabilité 0,5 0,4 0,3 0,25 0,25 0,2 0,1 0 X Variable aléatoire Série1 Loi de probabilité (c) JP Marca pour CNAM INTEC • Autre illustration sur la base d'un jet de pièce. • Nous considérons cette fois la variable aléatoire X comme le nombre de jets successifs pour avoir enfin face. • L'ensemble des valeurs possibles n'est plus 0-2. Il s'étend de 1 (on fait face au premier coup) à un très grand nombre (on finit par y arriver au bout d'un nombre astronomique de jets, après une extraordinaire série de piles) . • Le domaine est l'ensemble des entiers positifs. • Nous sommes dans le cas d'un ensemble infini dénombrable. • Pour que x jets soient nécessaires, il faut enchaîner : · x-1 piles · 1 face (xéme tirage) • La probabilité est alors P(X=x) = (1/2)x-1 * (1/2) • Soit 1/2x Loi de probabilité (c) JP Marca pour CNAM INTEC La loi de probabilité est alors : Evènement élémentaire Variable aléatoire X Probabilité P(X) Face au 1er coup 1 1/2 Face au 2e coup 2 1/4 Face au 3e coup 3 1/8 Face au xe coup x 1/2X Total 1 Loi de probabilité : représentation graphique (c) JP Marca pour CNAM INTEC 0,6 0,5 0,4 0,3 Série1 0,2 0,1 Variable X 21 19 17 15 13 11 9 7 5 3 0 1 0,5 0,25 0,125 0,0625 0,03125 0,015625 0,0078125 0,00390625 0,00195313 0,00097656 0,00048828 0,00024414 0,00012207 6,1035E-05 3,0518E-05 1,5259E-05 7,6294E-06 3,8147E-06 1,9073E-06 9,5367E-07 4,7684E-07 2,3842E-07 Probabilité P(X) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Loi de probabilité : représentation graphique (c) JP Marca pour CNAM INTEC Probabilité d'avoir face au premier coup 0,6 0,5 0,4 0,3 Série1 0,2 0,1 Variable X 21 19 17 15 13 11 9 7 5 3 0 1 0,5 0,25 0,125 0,0625 0,03125 0,015625 0,0078125 0,00390625 0,00195313 0,00097656 0,00048828 0,00024414 0,00012207 6,1035E-05 3,0518E-05 1,5259E-05 7,6294E-06 3,8147E-06 1,9073E-06 9,5367E-07 4,7684E-07 2,3842E-07 Probabilité P(X) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Loi de probabilité : représentation graphique (c) JP Marca pour CNAM INTEC Probabilité d'avoir face au second coup et pile au premier 0,6 0,5 0,4 0,3 Série1 0,2 0,1 Variable X 21 19 17 15 13 11 9 7 5 3 0 1 0,5 0,25 0,125 0,0625 0,03125 0,015625 0,0078125 0,00390625 0,00195313 0,00097656 0,00048828 0,00024414 0,00012207 6,1035E-05 3,0518E-05 1,5259E-05 7,6294E-06 3,8147E-06 1,9073E-06 9,5367E-07 4,7684E-07 2,3842E-07 Probabilité P(X) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Fonction de répartition (c) JP Marca pour CNAM INTEC Fonction de répartition • La fonction de répartition F(x) de la variable discrète X est définie par : • F(X) = P(X<x) • C'est une fonction positive non décroissante. • Elle exprime la probabilité que X prenne une valeur strictement inférieure à x. • Cette fonction est égale à 0 pour -oo • Cette fonction est égale à 1 pour +oo • On passe facilement de la loi de probabilité à la fonction de répartition et réciproquement. • F(X) = Σ xi<x P(=xi) Fonction de répartition (c) JP Marca pour CNAM INTEC Si nous reprenons notre premier exemple des deux lancements de pièces, nous obtenons la fonction de répartition suivante : Evènement élémentaire Variable aléatoire X Probabilité P(X) Fonction de répartition F(X) 0 Pile - Pile 0 1/4 1/4 Pile - Face 1 1/4 1/2 Face - Pile 1 1/4 3/4 Face - Face 2 1/4 1 Total 1 Fonction de répartition : représentation graphique (c) JP Marca pour CNAM INTEC 1,2 1 0,8 0,6 Série1 0,4 0,2 0 1 2 3 Fonction de répartition (c) JP Marca pour CNAM INTEC Si nous reprenons notre second exemple : Evènement élémentaire Variable aléatoire X Probabilité P(X) Fonction de répartition F(X) Départ 0 0 0 Face au 1er coup 1 1/2 1/2 Face au 2e coup 2 1/4 3/4 Face au 3e coup 3 1/8 7/8 Face au xe coup x 1/2X ((2x-1)/2x Limite oo Total 1 1 Fonction de répartition (c) JP Marca pour CNAM INTEC 1,2 1 0,8 0,6 Série1 0,4 0,2 X 21 19 17 15 13 11 9 7 5 0 3 0,5 0,75 0,875 0,9375 0,96875 0,984375 0,9921875 0,99609375 0,99804688 0,99902344 0,99951172 0,99975586 0,99987793 0,99993896 0,99996948 0,99998474 0,99999237 0,99999619 0,99999809 0,99999905 0,99999952 0,99999976 1 0,5 0,25 0,125 0,0625 0,03125 0,015625 0,0078125 0,00390625 0,00195313 0,00097656 0,00048828 0,00024414 0,00012207 6,1035E-05 3,0518E-05 1,5259E-05 7,6294E-06 3,8147E-06 1,9073E-06 9,5367E-07 4,7684E-07 2,3842E-07 F(X) Répartition 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 Loi de probabilité à deux dimensions (c) JP Marca pour CNAM INTEC • Soit deux variables aléatoires discrètes définies sur l'ensemble fondamental E. • Si à chacune des valeurs possibles du couple (X,Y) on associe la probabilité de l'événement correspondant, on obtient la loi conjointe des variables aléatoires X et Y • ou loi de la variable aléatoire à deux dimensions (X, Y). Loi de probabilité à deux dimensions (c) JP Marca pour CNAM INTEC • Considérons le jet de deux dés. • La variable aléatoire X correspond au nombre de points X1 apportés par le premier dé. • La variable aléatoire Y correspond à la somme des points des deux dés : Y = X1 + X2 • pij représente la probabilité que X et Y prennent respectivement deux valeurs déterminées xi et yj • pij = P(X=xi, Y=yj) • • = P(X1 = xi, X2=yj - xi) = P(X1 = xi)* p(X2=yj - xi) en raison de la formule des probabilités composées • Or la probabilité pour qu'un dé prenne une certaine valeur est égale à 1/6. • Donc pij = 1/6 * 1/6 = 1/36 • La loi de probabilité a donc l'allure du tableau suivant Loi de probabilité à deux dimensions (c) JP Marca pour CNAM INTEC Y X 1 2 3 4 5 6 Loi marginale de Y 2 3 4 5 6 7 8 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 0 0 0 1/36 1/36 1/36 1/36 0 0 0 0 1/36 1/36 1/36 0 0 0 0 0 1/36 1/36 9 0 0 1/36 1/36 1/36 1/36 Loi marginale 10 11 12 de X 1/6 0 0 0 1/6 0 0 0 1/6 0 0 0 1/6 1/36 0 0 1/6 1/36 1/36 0 1/6 1/36 1/36 1/36 1/6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1 Loi de probabilité à deux dimensions (c) JP Marca pour CNAM INTEC Y X 1 2 3 4 5 6 Loi marginale de Y 2 3 4 5 6 7 8 Loi 1 chance sur 36 (6*6) d'avoirmarginale une 9 10 11 12 de X somme égale à 2 1/6 avec le0 premier dé 0 0 0 1/6 0 0= 10(1 et 0 1)1/6 si 1/36Aucune 0 0 chance 0 1/6 premier a 1/36 le 1/36 0 0 dé 1/6 valeur 1/36une 1/36 1/36 0 >=2 1/6 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 0 0 0 1/36 1/36 1/36 1/36 0 0 0 0 1/36 1/36 1/36 0 0 0 0 0 1/36 1/36 1/36 1/36 1/36 1/36 1/6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1 Loi de probabilité à deux dimensions (c) JP Marca pour CNAM INTEC Y X 1 2 3 4 5 6 Loi marginale de Y 2 3 4 5 6 7 8 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 0 0 0 1/36 1/36 1/36 1/36 0 0 0 0 1/36 1/36 1/36 0 0 0 0 0 1/36 1/36 6 possibilités àLoi1 chance surmarginale 36 9 10 11 12 d'avoir 7 : de X 1/6 1 + 6 0 0 0 0 1/6 2 + 5 0 0 0 0 1/6 30 + 04 1/36 0 1/6 1/36 1/36 4 0 + 03 1/6 5 + 02 1/36 1/36 1/36 1/6 1/36 1/36 1/36 1/6 6 +1/36 1 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1 Loi de probabilité à deux dimensions (c) JP Marca pour CNAM INTEC Y X 1 2 3 4 5 6 Loi marginale de Y Loi de probabilité marginale de X 2 3 pi = 4 5 6 Σjpij = P(X=xi) 7 1/36 1/36 1/36 1/36 1/36 1/36 Une probabilité de 1/6 0 1/36 1/36 1/36 1/36 1/36 pour chaque face du 0 0 1/36 dé1/36 1/36 1/36 0 0 0 1/36 1/36 1/36 0 0 0 0 1/36 1/36 0 0 0 0 0 1/36 8 9 0 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 Loi marginale 10 11 12 de X 1/6 0 0 0 1/6 0 0 0 1/6 0 0 0 1/6 1/36 0 0 1/6 1/36 1/36 0 1/6 1/36 1/36 1/36 1/6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1 Loi de probabilité à deux dimensions Loi de probabilité marginale de Y pj = Y X 1 2 3 4 5 6 Loi marginale de Y 2 (c) JP Marca pour CNAM INTEC Σipij = P(Y=yi) P(2) = 1/36 4 5 6 7 8 P(3)=1/36+1/36 3 P(4) = 1/36+1/36+1/36 1/36 1/36 1/36 1/36 1/36 1/36 0 ….. 0 1/36 1/36 1/36 1/36 1/36 1/36 P(11) = 1/36+1/36 0 0 1/36 1/36 1/36 1/36 1/36 P(12) = 1/36 0 0 0 1/36 1/36 1/36 1/36 0 0 0 0 1/36 1/36 1/36 0 0 0 0 0 1/36 1/36 9 0 0 1/36 1/36 1/36 1/36 Loi marginale 10 11 12 de X 1/6 0 0 0 1/6 0 0 0 1/6 0 0 0 1/6 1/36 0 0 1/6 1/36 1/36 0 1/6 1/36 1/36 1/36 1/6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1 Loi de probabilité conditionnelle (c) JP Marca pour CNAM INTEC • Nous avons défini la probabilité conditionnelle au paragraphe 4. • Les probabilités Pj/i correspondant aux diverses valeurs possibles yi de Y forment la loi conditionnelle de Y liée par X=xi. • Dans l'exemple précédent, la loi conditionnelle du nombre de points X amené par le premier dé , sachant que la somme Y des points des eux dés est égale à 5, est : Y X 1 2 3 4 5 6 Loi marginale de Y 2 3 4 5 6 7 8 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 1/36 0 0 1/36 1/36 1/36 1/36 1/36 0 0 0 1/36 1/36 1/36 1/36 0 0 0 0 1/36 1/36 1/36 0 0 0 0 0 1/36 1/36 9 0 0 1/36 1/36 1/36 1/36 Loi marginale 10 11 12 de X 1/6 0 0 0 1/6 0 0 0 1/6 0 0 0 1/6 1/36 0 0 1/6 1/36 1/36 0 1/6 1/36 1/36 1/36 1/6 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 P(X/Y) = P(XetY)/P(X) P(Y)=1/9 P(X) = 1/36 ou 0 selon X 1 X 1 2 3 4 5 6 P(X/Y=5) 1/4 1/4 1/4 1/4 0 0 Total 1 Retour sur l'indépendance (c) JP Marca pour CNAM INTEC • Nous avons défini l'indépendance au paragraphe 4 • La notion d'indépendance de deux évènements peut également être étendue à deux variables aléatoires X et Y. • On dit que deux variables X et Y sont indépendantes si, pour tout couple de valeurs (xi,xj) on a la relation • pij = pi *pj • c'est à dire si, quels que soient xi et yi, les évènements (X=xi) et (Y=yj) sont indépendants. Caractéristiques d'une variable aléatoire discrète (c) JP Marca pour CNAM INTEC • Retour sur le concept d'espérance mathématique • Nous avons défini l'espérance mathématique au paragraphe 1 • La définition E(X) variable discrète. = Σi (pi . xi) est valable pour une Quelle est l'espérance mathématique d'un jeu de dés Caractéristiques d'une variable aléatoire discrète (c) JP Marca pour CNAM INTEC • Retour sur le concept d'espérance mathématique • Nous avons défini l'espérance mathématique au paragraphe 1 • La définition E(X) variable discrète. = Σi (pi . xi) est valable pour une Quelle est l'espérance mathématique d'un lancer d'un dé E(X) = 1/6*1 + 1/6*2 + 1/6*3 + 1/6*4 + 1/6*5 + 1/6*6 = 1+2+3+4+5+6/6 = 21/6 = 3,5 Caractéristiques d'une variable aléatoire discrète (c) JP Marca pour CNAM INTEC Propriétés de l'espérance mathématique E(aX+b)=aE(X) + b E(X+Y)=E(X) + (Y) L'espérance mathématique d'une somme de variables aléatoires est égale à la somme des espérances mathématiques E(X)=m L'espérance mathématique d'une moyenne de variables aléatoires est égale à cette moyenne E(X.Y) = E(X).E(Y) Si X et Y sont indépendantes Caractéristiques d'une variable aléatoire discrète (c) JP Marca pour CNAM INTEC Variance • La variance V(X) de la variable aléatoire X est 'espérance mathématique des carrés des écarts à l'espérance mathématiques V{X} = E{ (X- E{X})2 } • Dans le cas de variables discrètes V{X} = Σ i pi(xi - E(X)}2 • L'écart type est la racine carrée de la variance σ = V V(X) Caractéristiques d'une variable aléatoire discrète (c) JP Marca pour CNAM INTEC Exemple variance • Reprenons l'exemple de notre lancer de dés • L'espérance mathématique a été évaluée à 3,5 • Par suite : 6 • V(X) = • = 2,92 Σ x=1 1/6 (x-3,5)2 x 1 2 3 4 5 6 (x-3,5)^2 6,3 2,3 0,3 0,3 2,3 6,3 Div 1/6 1 0,4 0 0 0,4 1 2,92 Intérêt de ces concepts pour le gestionnaire (c) JP Marca pour CNAM INTEC • L'intérêt de ces concepts mathématiques un peu formels n'est pas évident pour le gestionnaire. • Nous allons illustrer l'intérêt de la variance en tant que mesure de la dispersion des variables aléatoires autour de valeurs de position à l'aide d'une étude de cas qui reviendra aussi sur les concepts de base des statistiques descriptives et illustrera quelques fonctions utiles d'Excel Etude de cas (c) JP Marca pour CNAM INTEC • Vous avez pour mission d'auditer la filiale MULTISERVICES SA. • Un des objectifs de la mission est d'apprécier son efficacité commerciale 2002 2003 2004 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 250 240 260 270 280 230 290 180 210 250 270 300 320 380 330 350 360 270 230 230 270 330 350 350 360 380 380 400 350 300 350 410 430 450 440 460 Multiservices SA 500 300 Série1 200 Linéaire (Série1) 100 Mois 35 33 31 29 27 25 23 21 19 17 15 13 11 9 7 5 3 0 1 CA 400 Etude de cas (c) JP Marca pour CNAM INTEC Mois Année 2002 2003 2004 1 2 3 4 5 6 7 8 9 10 11 12 250 320 360 240 380 380 260 330 380 270 350 400 280 360 350 230 270 300 290 230 350 180 230 410 210 270 430 250 330 450 270 350 440 300 350 460 Evolution Multiservices SA 500 CA 400 2002 300 2003 200 2004 100 0 1 2 3 4 5 6 7 Mois 8 9 10 11 12 Etude de cas (c) JP Marca pour CNAM INTEC Mois Année 2002 2003 2004 1 2 3 4 5 6 7 8 9 10 11 12 250 320 360 240 380 380 260 330 380 270 350 400 280 360 350 230 270 300 290 230 350 180 230 410 210 270 430 250 330 450 270 350 440 300 350 460 0 0 0 0 1 0 3 2 2 3 1 12 180-209 210-239 240-269 270-299 300-329 330-359 360-389 390-419 420-449 450-479 >=480 Fréquences absolues 180 210 240 270 300 330 360 390 420 450 480 1 1 2 5 3 0 0 0 0 0 0 12 0 0 2 2 0 3 4 1 0 0 0 12 Fréquences relatives 8,33% 8,33% 16,67% 41,67% 25,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 0,00% 16,67% 16,67% 0,00% 25,00% 33,33% 8,33% 0,00% 0,00% 0,00% 12 12 0,00% 0,00% 0,00% 0,00% 8,33% 0,00% 25,00% 16,67% 16,67% 25,00% 8,33% 180-209 210-239 240-269 270-299 300-329 330-359 360-389 390-419 420-449 450-479 >=480 5 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 2004 2003 2002 1 2 3 4 5 6 7 8 9 2002 2004 10 11 Etude de cas (c) JP Marca pour CNAM INTEC Mois Année 2002 2003 2004 1 2 3 4 5 6 7 8 9 10 11 12 250 320 360 240 380 380 260 330 380 270 350 400 280 360 350 230 270 300 290 230 350 180 230 410 210 270 430 250 330 450 270 350 440 300 350 460 Position Mode 250,00 Médiane 255,00 Position avec nivellement Moyenne arithmétique 252,50 Moyenne géométrique (1) 250,21 Moyenne harmonique (2) 247,74 Dispersion Etendue 120,00 Ecart absolu moyen 25,83 Variance 1068,75 Ecart-type 32,69 350,00 380,00 330,00 390,00 L'observation la plus fréquente Valeur qui partage la population en 2 sous groupes d'égal effectif 314,17 392,50 310,02 389,71 305,58 248,31 Somme des valeurs divisée par nombre de valeurs Racine nieme du produit de toutes les valeurs Inverse de la moyenne arithmétique des inverses des observations 150,00 160,00 42,78 39,17 2407,64 2118,75 49,07 46,03 Ecart entre la plus forte et la plus faible Moyenne des écarts absolus des observations par rapport à la moyenne arithmétique Moyenne arithmétique des carrés des écrts entre valeurs et moyenne arithmétique Racine carrée de la variance (1) Utile pour tout phénomène multiplicatif (variation de prix, intérêts composés) Calcul taux croissance moyen (2) Utile pour analyse de rendements, de consommations, cad chaque fois que l'on combine 2 variables sous forme de rapport Loi binomiale (c) JP Marca pour CNAM INTEC • Lorsque les évènements sont représentés par des variables discrètes, nous pouvons recourir à la distribution binomiale. • On appelle suite de n épreuves de Bernouilli l'expérience qui consiste à répéter n fois une épreuve ayant eux issues possibles. • Chaque épreuve doit être indépendante l'une de l'autre. • Soit une suite de n épreuves de Bernouilli avec pour chaque épreuve : · La probabilité p d'un succès · La probabilité q = 1-p d'un échec Loi binomiale (c) JP Marca pour CNAM INTEC Faux Vrai Faux Vrai Vrai Vrai Faux Faux Vrai Faux Vrai Vrai Faux Faux Loi binomiale (c) JP Marca pour CNAM INTEC • Les probabilités obtenues apparaissent comme les termes du développement du binôme • n=1 p+q • n=2 (p+q)2 • n=3 (p+q)3 Evènement n=1 n=2 n=3 F V FF FV VF VV FFF FFV FVF VFV FVV VFV VVF VVV Variable aléatoire 0 1 0 1 1 2 0 1 1 1 2 2 2 3 Probabilité P(X) q p q2 2pq p2 q3 3pq2 3qp2 p3 Loi binomiale (c) JP Marca pour CNAM INTEC • La probabilité Pk d'obtenir k succès au cours de ces n épreuves (qui est aussi la probabilité d'obtenir n-k échecs) est : Pk = Cnk pk qn-k (0<k<=n) • La loi de probabilité correspondante s'appelle loi binomiale Loi binomiale (c) JP Marca pour CNAM INTEC Exemple • A la suite d'une étude de la Direction Commerciale, on constate que 50% des systèmes vendus sont des systèmes ALPHA. • La probabilité pour qu'une commande choisie au hasard concerne un équipement ALPHA est donc 0,5. • Si nous sélectionnons dix commandes, de 0 à 10 commandes du groupe peuvent concerner des systèmes ALPHA. • La probabilité pour chacune de ces possibilités peut être définie à l'aide de la distribution binomiale. Loi binomiale (c) JP Marca pour CNAM INTEC Exemple • La probabilité pour que x commandes ALPHA soient dans un groupe sélectionné est représenté par f(x) • Cette fonction est la fonction de densité. • La fonction F(x) renvoie à la probabilité selon laquelle 0 à x commandes concernent un matériel ALPHA. • Cette fonction est la fonction de distribution • Nous nous appuyons sur Excel pour visualiser la solution Reprise Binomiale (c) JP Marca pour CNAM INTEC • Un lot de pièces qui contient 10% de pièces défectueuses • Ce lot de pièces dans lequel on prélève un échantillon de taille n = 10 • Probabilité pour que cet échantillon contienne 2 pièces défectueuses • B(10;0,1) • P(2) = Prob(X = 2) = C10 2 p2 q8 • = C10 2 (0,1)2 (0,9)8 • 19% Reprise Binomiale (c) JP Marca pour CNAM INTEC • Un journal mensuel lance une campagne de publicité pour susciter de nouveaux abonnements en envoyant un numéro en spécimen à des personnes susceptibles de s'abonner • La probabilité que l'envoi d'un engendre un abonnement est p = 0,2 spécimen • Quelle est la probabilité pour que l'envoi de 10 spécimens provoque trois abonnements nouveaux Reprise Binomiale (c) JP Marca pour CNAM INTEC • Un journal mensuel lance une campagne e publicité pour susciter de nouveaux abonnements en envoyant un numéro en spécimen à des personnes susceptibles de s'abonner • La probabilité que l'envoi d'un engendre un abonnement est p = 0,2 spécimen • Quelle est la probabilité pour que l'envoi de 10 spécimens provoque trois abonnements nouveaux • B(10;0,2) • P(3) = C10 3 (0,2)3 (0,8) • 20% 7 Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC LOI.BINOMIALE • Renvoie la probabilité d'une variable aléatoire discrète suivant la loi binomiale. • Utilisez la fonction LOI.BINOMIALE pour résoudre des problèmes comportant un nombre de tests ou d'essais déterminé, lorsque le résultat des essais ne peut être qu'un succès ou un échec, lorsque les essais sont indépendants ou lorsque la probabilité de succès est constante au cours des expérimentations. • La fonction LOI.BINOMIALE peut, par exemple, calculer la probabilité pour que deux des trois enfants à naître soient des garçons. Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC Syntaxe LOI.BINOMIALE(nombre_s;essais;probabilité_s;cumulative) • nombre_s représente le nombre d'essais réussis. • essais • probabilité_s représente la probabilité de succès de chaque essai. • cumulative représente une valeur logique qui détermine le mode de calcul de la fonction. Si l'argument cumulative a la valeur VRAI, alors LOI.BINOMIALE renvoie la fonction de distribution cumulée qui représente la probabilité qu'il y ait au plus nombre_s succès ; si l'argument cumulative a la valeur FAUX, LOI.BINOMIALE renvoie la fonction de probabilité de masse qui représente la probabilité qu'il y ait nombre_s succès. représente le nombre d'essais indépendants. Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC Notes • Les arguments nombre_s et essais sont tronqués à leur partie entière. • Si l'un des arguments nombre_s, essais ou probabilité_s n'est pas numérique, la fonction LOI.BINOMIALE renvoie la valeur d'erreur #VALEUR! • Si l'argument nombre_s < 0 ou nombre_s > essais, la fonction LOI.BINOMIALE renvoie la valeur d'erreur #NOMBRE! • Si l'argument probabilité_s < 0 ou probabilité_s > 1, la fonction LOI.BINOMIALE renvoie la valeur d'erreur #NOMBRE! • La fonction de probabilité de masse est la suivante : • b(x,n,p) =Cxn pn (1-p)x-n • La distribution binomiale cumulée est la suivante : • B(x,n,p) =Σy=0nb(x,n,p) Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC Exemple Le jeu pile ou face avec une pièce de monnaie ne peut donner qu'un seul résultat. La probabilité que le premier lancer donne le résultat face est de 0,5 et la probabilité d'obtenir 6 fois le résultat face sur dix lancers se calcule de la façon suivante : LOI.BINOMIALE(6;10;0,5;FAUX) égale 0,205078 Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC Nous reprenons notre exemple concernant les ventes d'ALPHA f(x) = LOI.BINOMIALE(LC(-1);10;0,5;FAUX) f(x) = LOI.BINOMIALE(LC(-2);10;0,5;VRAI) Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC x f(x) 0 1 2 3 4 5 6 7 8 9 10 0,00097656 0,00976563 0,04394531 0,1171875 0,20507813 0,24609375 0,20507813 0,1171875 0,04394531 0,00976563 0,00097656 F(X) 0,00097656 0,01074219 0,0546875 0,171875 0,37695313 0,62304688 0,828125 0,9453125 0,98925781 0,99902344 1 Probabilité pour qu'une commande concerne l'équipement Alpha 1 0,8 0,6 0,4 0,2 0 f(x) 1 2 3 4 5 6 7 8 Nombre de commandes 9 10 11 f(x) F(X) Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC •De la courbe précédente nous tirons : •Probabilité pour que 6 commandes sur les 10 tirées au hasard concernent des ALPHA = 20,51 % •La probabilité la plus forte se situe naturellement pour 5 commandes puisque la probabilité pour qu'une commande tirée au hasard concerne un ALPHA est de 50%. •Probabilité pour qu'il y ait un ALPHA au moins dans 6 parmi les 10 tirées au hasard : Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC •De la courbe précédente nous tirons : •Probabilité pour que 6 commandes sur les 10 tirées au hasard concernent des ALPHA = 20,51 % •La probabilité la plus forte se situe naturellement pour 5 commandes puisque la probabilité pour qu'une commande tirée au hasard concerne un ALPHA est de 50%. •Probabilité pour qu'il y ait un ALPHA au moins dans 6 parmi les 10 tirées au hasard = 82,81 % •La probabilité tend vers 1 si l'on tend à considérer les 10 commandes. • Autrement dit, si on prend 10 commandes au hasard dans un ensemble de commandes où la probabilité d'avoir un ALPHA est de 50%, on est sûr d'en avoir une au minimum qui concerne un ALPHA. Loi binomiale avec Excel (c) JP Marca pour CNAM INTEC Exemple Le jeu pile ou face avec une pièce de monnaie ne peut donner qu'un seul résultat. La probabilité que le premier lancer donne le résultat face est de 0,5 et la probabilité d'obtenir 6 fois le résultat face sur dix lancers se calcule de la façon suivante : LOI.BINOMIALE(6;10;0,5;FAUX) égale 0,205078 Rappel définition Mois Année 2002 2003 2004 1 2 250 320 360 240 380 380 (c) JP Marca pour CNAM INTEC 3 4 5 6 7 8 9 10 11 12 260 270 330 350 380 400 280 360 350 230 270 300 290 230 350 180 230 410 210 270 430 250 330 450 270 350 440 300 350 460 Position Mode 250,00 350,00 380,00 Médiane 255,00 330,00 390,00 Position avec nivellement Moyenne arithmétique 252,50 314,17 392,50 Moyenne géométrique (1) 250,21 310,02 389,71 Moyenne harmonique (2) 247,74 305,58 248,31 Dispersion Etendue 120,00 150,00 160,00 Ecart absolu moyen 25,83 42,78 39,17 Variance 1068,75 2407,64 2118,75 Ecart-type 32,69 49,07 46,03 L'observation la plus fréquente Valeur qui partage la population en 2 sous groupes d'égal effectif Somme des valeurs divisée par nombre de valeurs Racine nieme du produit de toutes les valeurs Inverse de la moyenne arithmétique des inverses des observations Ecart entre la plus forte et la plus faible Moyenne des écarts absolus des observations par rapport à la moyenne arithmétique Moyenne arithmétique des carrés des écrts entre valeurs et moyenne arithmétique Racine carrée de la variance (1) Utile pour tout phénomène multiplicatif (variation de prix, intérêts composés) Calcul taux croissance moyen (2) Utile pour analyse de rendements, de consommations, cad chaque fois que l'on combine 2 variables sous forme de rapport -32,5 1056,3 2118,75 46,03 -12,5 156,3 -12,5 7,5 -42,5 -92,5 -42,5 17,5 37,5 57,5 47,5 67,5 156,3 56,3 1806,3 8556,3 1806,3 306,3 1406,3 3306,3 2256,3 4556,3 loi binomiale et variable Bernouilli (c) JP Marca pour CNAM INTEC • A chaque épreuve élémentaire, dont le résultat se présente sous la forme d'une alternative Vrai Faux, nous pouvons associer une variable aléatoire Xi pouvant prendre la valeur 1 avec une probabilité p et la valeur 0 avec une probabilité q Evenement Variable Probabilité A 1 p A barre 0 1-p • Toute variable B(n;p) peut être considéré comme la somme de n variables de Bernouilli B(1;p) loi binomiale et variable Bernouilli (c) JP Marca pour CNAM INTEC • Ainsi, le nombre X de faces obtenues en n tirages peut etre considéré comme la somme de n variables de Bernouilli indépendantes X1, X2, … Xn • Ces variables sont indépendantes • Les probabilités restent constantes • D'où les grandeurs caractéristiques mode, espérance mathématique, écart type et variance mode (c) JP Marca pour CNAM INTEC • Soit le rapport P(X+1)/P(X) • P(X) = n!/x! (n-x)! pX (1-p) n-X • P(X+1) = … • Rapport = (n-x) p / (x+1) q • Le mode est la valeur Mo de X pour laquelle la probabilité est la plus forte • P(X) > P(x-1) et P(X) > P(x + 1) • Mo est l'entier compris entre np-q et np+p • Cas factures ALPHA n=10 p = 0,5 => Mo = 5 Espérance mathématique • X=X1 + X2 + X3 + … + Xn • E(Xi) = 0*q + 1*p • E(X) = p + p + p + p + … + p • E(X) = np (c) JP Marca pour CNAM INTEC Variance et ecart type • V(X) = Σ1 à n (xi- E(X))2 P(xi)) • V(X) = npq (c) JP Marca pour CNAM INTEC Ajustement loi binomiale à une distribution statistique (c) JP Marca pour CNAM INTEC • Supposons une série d'observations concernant une variable statistique X correspondant a priori aux conditions d'applications de la loi binomiale (n épreuves indépendantes • On ne connaît pas p (objectif sondage) • La méthode d'ajustement consiste à adopter, pour représenter le phénomène, la loi binomiale dont l'espérance mathématique est égale à la moyenne de la distribution observée • E(X) = np => p = moyenne / n Loi de Poisson (c) JP Marca pour CNAM INTEC • La loi de Poisson traite des situations similaires à celle de la distribution binomiale. • Il existe toutefois deux différences importantes. • Le groupe sélectionné (échantillon) est généralement très grand. • La probabilité pour la réalisation d'un événement est très petite. • La loi de Poisson travaille avec l'espérance mathématique alors que la loi binomiale travaille avec les variables tirages et probabilité_succès. Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • Syntaxe • LOI.POISSON(x;espérance;cumulative) • x • espérance représente l'espérance mathématique • cumulative représente une valeur logique déterminant le mode de calcul de la fonction : cumulatif ou non. Si l'argument cumulative est VRAI, la fonction LOI.POISSON renvoie la probabilité de Poisson pour qu'un événement aléatoire se reproduise un nombre de fois inférieur ou égal à x. Si l'argument cumulative est FAUX, la fonction renvoie la probabilité de Poisson pour qu'un événement se reproduise x fois exactement. représente le nombre d'événements. Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • Notes • Si l'argument x n'est pas un nombre entier, il est ramené à sa valeur entière par troncature. • Si les arguments x ou espérance ne sont pas numériques, la fonction LOI.POISSON renvoie la valeur d'erreur #VALEUR! • Si l'argument x<0, la fonction LOI.POISSON renvoie la valeur d'erreur #NOMBRE! • Si l'argument espérance<0, la fonction LOI.POISSON renvoie la valeur d'erreur #NOMBRE! Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • La fonction LOI.POISSON se calcule comme suit : • Si l'argument cumulative = FAUX : • LOI.POISSON = e-Λ Λκ / κ! • Si l'argument cumulative = VRAI : • CUM.LOI.POISSON = Σ e-Λ Λκ / κ! Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • Exemples • LOI.POISSON(2;5;FAUX) égale 0,084224 • LOI.POISSON(2;5;VRAI) égale 0,124652 Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • Nous allons traiter le problème de la fiabilité d'une usine de production de consommables pour le matériel de forage pétrolier pour les opérateurs Exploration-Production du secteur pétrolier. • La probabilité de CQ (Anomalie Qualité) est de 0,0002. • Nous devons prévoir le nombre d'anomalies susceptibles d'intervenir au cours de la fabrication d'un lot de 5000 pièces. Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • Nous allons traiter le problème en utilisant simultanément la loi binomiale et la loi de Poisson. • Pour Poisson : • Le nombre de tirages est de 5000 • La probabilité d'occurrence d'un CQ est de 0,0002 • La loi binomiale s'écrit : loi.binomiale(x;5000;0,0002;cumulative) • L'espérance mathématique est égale à la probabilité d'un événement multipliée par le nombre d'évènements, soit 5000 * 0,0002 = 1 • La loi de Poisson s'écrit : loi.poisson(x;1;cumulative) Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC x 0 1 2 3 4 5 6 7 8 9 10 Poisson Binomiale 0,36787944 0,36784265 0,36787944 0,36791623 0,18393972 0,18395812 0,06131324 0,06130711 0,01532831 0,01532064 0,00306566 0,00306229 0,00051094 0,00050997 7,2992E-05 7,278E-05 9,124E-06 9,0866E-06 1,0138E-06 1,0082E-06 1,0138E-07 1,0066E-07 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 Poisson Binomiale Poisson Loi de Poisson (c) JP Marca pour CNAM INTEC • Une variable aléatoire discrète X qui prend les valeurs entières x = 0,1,2, … • avec la probabilité • P(x) = P(X=x) = e-m mx / x! • est une variable de Poisson • Le paramètre m représente à la fois la moyenne et la variance de la distribution • On vérifie que • Le paramètre Σ P(x) de 0 à oo tend vers 1 Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • Renvoie la probabilité d'une variable aléatoire suivant une loi de Poisson. • Une application courante de la loi de Poisson est la prédiction du nombre d'événements susceptibles de se produire sur une période de temps déterminée, par exemple, · le nombre de voitures qui se présentent à un poste de péage pendant l'espace d'une minute. · le nombre de pièces défectueuses en cas d'échantillon grand et de faible taux de panne, ou le nombre de défaillances d'un équipement au cours d'une période donnée · le nombre d'accidents survenus au cours d'une période · le nombre d'arrivées simultanées à un guichet • C'est la loi des faibles probabilités Loi de Poisson avec Excel (c) JP Marca pour CNAM INTEC • On démontre au passage l'intérêt de la loi de Poisson pour les couples faible probabilité * grand nombre d'évènements. • On retrouve avec l'espérance une valeur moyenne, alors que la loi binomiale mixe un très grand nombre avec un très petit nombre, ce qui est mécaniquement un source d'erreurs Interprétation résultats (c) JP Marca pour CNAM INTEC • Probabilité que tous les tests soient bons dans la série de 5000: 36% • Probabilités de détecter une anomale : 36% • Probabilité de détecter 6 anomalies : 5/10000 CARACTÉRISTIQUES POISSON (c) JP Marca pour CNAM INTEC • Mode : partie entière de m • Espérance mathématique = m • Variance = m CONDITIONS D'APPLICATION POISSON (c) JP Marca pour CNAM INTEC • Approximation binomiale par Poisson P(np) vue dans application • Règle : approximation ok si n> 30 et p <0,1 et np(1-p) < 5 • Avantage 1 paramètre, d'ou emploi de tables CONDITIONS D'APPLICATION POISSON (c) JP Marca pour CNAM INTEC • La loi de Poisson peut aussi être la résultante d'un Processus de Poisson • Un processus de Poisson correspond à à la réalisation d'évènements aléatoires dans le temps : arrivée bateaux, trains, avions à destination, appels téléphoniques, clients au guichet, pannes machines • Le processus de Poisson répond aux hypothèses suivantes : · Probabilité de réalisation d'un événement au cours d'une petite période infinitésimale de temps dt est proportionnelle à cette durée de temps dt. Elle tend donc vers 0 si dt tend vers 0 · Evènements indépendants entre eux et indépendants du temps AJUSTEMENT POISSON A UNE DISTRIBUTION OBSERVEE (c) JP Marca pour CNAM INTEC • Soit une distribution observée qui semble a priori relever d'une distribution théorique de Poisson. • Premier contrôle : vérifier égalité moyenne et variance • Si écart trop fort considérer plutôt la moyenne empirique plutôt que la variance empirique • Comparer ensuite probabilités théoriques avec distribution observée (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES Paragraphe No 6 VARIABLES ALEATOIRES ET LOIS DE PROBABILITE CONTINUES Quizz • • • • • • (c) JP Marca pour CNAM INTEC Variable aléatoire continue ? Loi de probabilité continue ? Caractéristiques d'une variable aléatoire continue ? Loi normale ? Loi exponentielle ? Validité de l'ajustement d'une loi de probabilité à une distribution observée? Objectifs (c) JP Marca pour CNAM INTEC • Notre démarche d'analyse s'adresse maintenant aux variables aléatoires continues. Plan • Variable aléatoire continue • Loi de probabilité continue • Extension à deux dimensions • Caractéristiques d'une variable aléatoire continue • Loi normale • Loi de probabilité exponentielle • Validité de l'ajustement d'une loi de probabilité à une distribution observée (c) JP Marca pour CNAM INTEC Variable aléatoire continue (c) JP Marca pour CNAM INTEC • Une variable aléatoire continue est une variable dont l'ensemble de définition est un intervalle (ou une réunion d’intervalles) • Dans le cas d’une variable aléatoire continue, la définition de la loi de probabilité qui lui est attachée exige quelques précautions. • Le nombre de points que contient l’intervalle de définition est infini non dénombrable. • Il en résulte qu’à une valeur déterminée de la variable aléatoire correspond une probabilité nulle. • On est donc conduit à définir la loi de probabilité de x par la probabilité que appartienne à l’intervalle ouvert −∞,x • c’est à dire par sa fonction de répartition ] [ Loi de probabilité continue • • • • • • (c) JP Marca pour CNAM INTEC La loi de probabilité d’une variable aléatoire continue est définie par sa fonction de répartition F(x) F(x) = P(X<x) F(x) est une fonction positive croissante avec lim F(x) = 0 quand x -> - oo lim F(x) = 1 quand x -> + oo La représentation graphique de la fonction de répartition est la courbe cumulative ou courbe de répartition. F(x) x Probabilité attachée à un intervalle • (c) JP Marca pour CNAM INTEC P(a<=X<b) = P(X<b) - P(X<=a) = F(a) - F(b) F(x) F(b) F(a) x a b Densité de probabilité • (c) JP Marca pour CNAM INTEC Densité moyenne F (b) − F (a) f (a, b) = b−a • Densité en un point : dérivée de la fonction de répartition (par définition de la dérivée) Probabilité élémentaire • (c) JP Marca pour CNAM INTEC Probabilité élémentaire pour que la variable aléatoire X prenne une valeur inférieure à l'intervalle dx entourant le point x : P( x ≤ X < x + dx ) = f ( x )dx • Dans l'intervalle (a,b) a P(a ≤ X < b) = ∫ f (x )dx = F (b) − F (a) b • Cette probabilité correspond à l'aire rouge Probabilité élémentaire • (c) JP Marca pour CNAM INTEC L'aire comprise entre la courbe de densité de probabilité et l'axe des abcisses est égale à 1. Caractéristique d'une variable aléatoire • • (c) JP Marca pour CNAM INTEC La définition de l'espérance mathématique, de la variance et de la covariance s'appliquent aux variables aléatoires continues. Propriétés identiques que pour les variables discrètes Loi Normale (c) JP Marca pour CNAM INTEC • La loi normale ou loi de Laplace-Gauss est une des distributions que l'on rencontre le plus souvent. • C'est la loi suivie par une variable aléatoire qui est la résultante d'un grand nombre de causes indépendantes dont les effets s'additionnent et dont aucune n'est prépondérante. Loi Normale (c) JP Marca pour CNAM INTEC • La densité de probabilité de la loi normale f (x) = 1 2πσ e 1 x −m 2 ) − ( 2 σ • La loi normale dépend de deux paramètres m (espérance mathématique) et σ (écart type) X → N(m, σ ) Loi Normale (c) JP Marca pour CNAM INTEC 10 ecart type 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5 9 9,5 10 10,5 11 11,5 12 12,5 13 13,5 14 14,5 15 15,5 16 16,5 17 17,5 18 18,5 19 19,5 20 2 7,4336E-07 2,51475E-06 7,99187E-06 2,38593E-05 6,69151E-05 0,000176298 0,000436341 0,001014524 0,002215924 0,004546781 0,00876415 0,015869826 0,026995483 0,043138659 0,064758798 0,091324543 0,120985362 0,150568716 0,176032663 0,193334058 0,19947114 0,193334058 0,176032663 0,150568716 0,120985362 0,091324543 0,064758798 0,043138659 0,026995483 0,015869826 0,00876415 0,004546781 0,002215924 0,001014524 0,000436341 0,000176298 6,69151E-05 2,38593E-05 7,99187E-06 2,51475E-06 7,4336E-07 4 0,00438208 0,00594298 0,00793491 0,01043025 0,01349774 0,01719657 0,02156933 0,02663457 0,0323794 0,03875307 0,04566227 0,05296916 0,06049268 0,06801375 0,07528436 0,08204024 0,08801633 0,09296377 0,09666703 0,09895942 0,09973557 0,09895942 0,09666703 0,09296377 0,08801633 0,08204024 0,07528436 0,06801375 0,06049268 0,05296916 0,04566227 0,03875307 0,0323794 0,02663457 0,02156933 0,01719657 0,01349774 0,01043025 0,00793491 0,00594298 0,00438208 6 0,01657952 0,01898378 0,02158627 0,02437566 0,02733501 0,03044151 0,03366645 0,03697536 0,04032845 0,04368123 0,04698531 0,05018957 0,05324133 0,0560878 0,05867755 0,06096206 0,0628972 0,06444469 0,06557329 0,06625991 0,06649038 0,06625991 0,06557329 0,06444469 0,0628972 0,06096206 0,05867755 0,0560878 0,05324133 0,05018957 0,04698531 0,04368123 0,04032845 0,03697536 0,03366645 0,03044151 0,02733501 0,02437566 0,02158627 0,01898378 0,01657952 8 0,02283114 0,02463818 0,02648458 0,02835837 0,03024634 0,03213424 0,03400687 0,03584833 0,03764218 0,03937169 0,04102012 0,04257095 0,04400817 0,04531654 0,04648189 0,04749133 0,04833351 0,04899886 0,04947971 0,04977048 0,04986779 0,04977048 0,04947971 0,04899886 0,04833351 0,04749133 0,04648189 0,04531654 0,04400817 0,04257095 0,04102012 0,03937169 0,03764218 0,03584833 0,03400687 0,03213424 0,03024634 0,02835837 0,02648458 0,02463818 0,02283114 0,25 0,2 Série1 0,15 Série2 Série3 0,1 Série4 0,05 0 0 5 10 15 20 25 Loi Normale centrée réduite (c) JP Marca pour CNAM INTEC • En faisant le changement de variable t=(x-m)/σ, on obtient une expression beaucoup plus simple de la loi normale, de paramètre m=0 et σ = 1 y(t ) = 1 2π e t − 2 2 Loi Normale centrée réduite (c) JP Marca pour CNAM INTEC Moyenne 0 ecart type -3 -2,8 -2,6 -2,4 -2,2 -2 -1,8 -1,6 -1,4 -1,2 -1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1 1,2 1,4 1,6 1,8 2 2,2 2,4 2,6 2,8 3 3,2 1 0,00443185 0,00791545 0,01358297 0,02239453 0,03547459 0,05399097 0,07895016 0,11092083 0,14972747 0,19418605 0,24197072 0,28969155 0,3332246 0,36827014 0,39104269 0,39894228 0,39104269 0,36827014 0,3332246 0,28969155 0,24197072 0,19418605 0,14972747 0,11092083 0,07895016 0,05399097 0,03547459 0,02239453 0,01358297 0,00791545 0,00443185 0,00238409 0,45 0,4 0,35 0,3 0,25 Série1 0,2 0,15 0,1 0,05 0 -4 -3 -2 -1 0 1 2 3 4 5 6 Loi normale (c) JP Marca pour CNAM INTEC • La taille des étudiants se distribue selon une loi normale de moyenne égale à 175 cm et d’écart-type égal à 8 cm. • Pourcentage des étudiants ayant une taille supérieure à 1,83 m Loi normale (c) JP Marca pour CNAM INTEC • La taille des étudiants du CPE se distribue selon une loi normale de moyenne égale à 175 cm et d’écart-type égal à 8 cm. • Pourcentage des étudiants ayant une taille supérieure ou égale à 1,83 m • P(X>=183) est donné par l'aire sous la courbe normale dont les paramètres sont m = 175 et s = 8 à droite de x=183 Loi normale (c) JP Marca pour CNAM INTEC 150 152 154 156 158 160 162 164 166 168 170 172 174 176 178 180 182 0,00037778 0,00079977 0,00159052 0,00297149 0,00521512 0,00859828 0,01331728 0,01937653 0,02648458 0,03400687 0,04102012 0,04648189 0,04947971 0,04947971 0,04648189 0,04102012 0,03400687 0,000889025 0,002020137 0,004332448 0,008774475 0,016793306 0,030396362 0,052081279 0,084565722 0,130294517 0,190786953 0,265985529 0,353830233 0,450261775 0,549738225 0,646169767 0,734014471 0,809213047 183 0,03024634 0,841344746 184 186 188 190 192 194 196 198 200 202 204 206 208 0,02648458 0,01937653 0,01331728 0,00859828 0,00521512 0,00297149 0,00159052 0,00079977 0,00037778 0,00016764 6,9883E-05 2,7366E-05 1,0068E-05 0,869705483 0,915434278 0,947918721 0,969603638 0,983206694 0,991225525 0,995667552 0,997979863 0,999110975 0,999630922 0,999855519 0,999946688 0,999981463 1,2 1 0,8 0,6 Série1 Série2 0,4 0,2 0 0 50 P(X>183) 100 0,1587 150 200 250 Loi normale (c) JP Marca pour CNAM INTEC • La taille des étudiants du CPE se distribue selon une loi normale de moyenne égale à 175 cm et d’écart-type égal à 8 cm. • Pourcentage des étudiants ayant une taille supérieure ou égale à 1,83 m • P(X>138) est aussi égale à l'aire sous la courbe normale, centrée, réduite, à droite du point z qui correspond à la valeur 1 183 − 175 t = =1 8 • La table Π(t) donne P(X<1)=0,8413 • P(X>=1)=1 - 0,8413 = 0,1587 Loi normale (c) JP Marca pour CNAM INTEC • Probabilité pour que la taille soit < 1,83 = 0,8413 • Probabilité pour que la taille soit comprise entre 1,78 m et 1,83 ? • La valeur de la variable normale centrée réduite pour 1,78 178 − 175 z = = 0,375 8 • P(1,78 <= X < 1,83) = Π(1) - Π(0,375) = 0,8413 - 0,646 • P = 0,195 Loi normale (c) JP Marca pour CNAM INTEC • La table P(t) a été établie pour permettre de déterminer l'intervalle de confiance associé à une estimation sur un échantillon. • Elle donne les valeurs de t telles qu'il y ait une probabilité P pour que t se trouve dans l'intervalle (-tlim, +tlim) Loi normale (c) JP Marca pour CNAM INTEC P (t) Probabilité t: variable normale centrée réduite Π(t) P(t) P (t) Probabilité t: variable normale centrée réduite P t 1-P P/2 t P/2 P Loi normale (c) JP Marca pour CNAM INTEC P (t) Probabilité t: variable normale centrée réduite Π(t)Attention : la P (t) logique de Probabilité détermination de P n'est pas symétrique P(t) t: variable normale centrée réduite P t 1-P P/2 t P/2 P Loi normale (c) JP Marca pour CNAM INTEC • Déterminer l'intervalle (-tlim,+tlim) tel que la probabilité que t se trouve à l'intérieur de cet intervalle soit égale à 99% • -tlim +tlim Loi normale (c) JP Marca pour CNAM INTEC • Déterminer l'intervalle (-tlim,+tlim) tel que t se trouve à l'intérieur de cet intervalle soit égale à 99% • P(-tlim<=t<+tlim) = 1 - P(t) = 0,99 -tlim • P(t) = 0,01 = > t=2,5758 +tlim Loi normale (c) JP Marca pour CNAM INTEC • Déterminer la valeur de t telle que • P(t<tlim) = 95% Loi normale (c) JP Marca pour CNAM INTEC • Déterminer la valeur de t telle que • P(t<tlim) = 95% • P/2 + (1-P) = 0,95 • P/2 - 2P/2 = 0,95 - 1 • P/2 = 0,05 • P = 0,1 ==> t = 1,6449 Approximation Loi binomiale / Loi normale (c) JP Marca pour CNAM INTEC • X = B(n;p) • n -> OO • P # 0 et q # 1 OU P # 1 et q # 0 • m=n. p • σ = npq • L'approximation est acceptable dès que npq>9 Approximation Loi binomiale / Loi normale (c) JP Marca pour CNAM INTEC • On tire avec remise un échantillon de taille n=50 dans une population contenant une proportion p = 0,3 de personnes possédant le caractère "joue au loto" • Soit X le nombre d'individus présentant ce caractère dans l'échantillon • Probabilité P(15<=X<18) Approximation Loi binomiale / Loi normale (c) JP Marca pour CNAM INTEC • On tire avec remise un échantillon de taille n=50 dans une population contenant une proportion p = 0,3 de personnes possédant le caractère "joue au loto" • Soit X le nombre d'individus présentant ce caractère dans l'échantillon • Probabilité P(15<=X<18) • =P(15<=X<=17) = P(15)+P(16)+P(17) = 0,3354 11 12 14 15 16 17 18 19 20 Approximation Loi binomiale / Loi normale (c) JP Marca pour CNAM INTEC 11 12 14 15 16 17 18 19 20 • P(15)+P(16)+P(17) = F(17+1/2) - F(15-1/2) • • =F(17,5) - F(14 ,5) = Π(0,77) - Π(-0,15) • = Π(0,77) - (1-Π(0,15)) • = • =0,7794-0,4404 = 0,3390 Loi moyenne gros échantillon (c) JP Marca pour CNAM INTEC _ • La moyenne x d'un gros échantillon de taille n, tiré avec remise dans une population de moyenne m et d'écart type σ suit approximativement, quelle que soit la loi de distribution de X dans la population, suit une loi normale de moyenne m et d'écart type σ n (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES CHAPITRE No 7 Statistiques inductives (c) JP Marca pour CNAM INTEC • Quelles relations entre les caractéristiques d'une population de plusieurs milliers d'éléments et celle d'un échantillon de quelques dizaines extrait au hasard de cette population ? Quizz • • • • • • • • • (c) JP Marca pour CNAM INTEC Population Recensement Echantillon Sondage Inférence statistique Tirage simple Tirage exhaustif ou non exhaustif Plan d'expérience Distribution d'échantillonnage Retour sur quelques distributions • Quelles autres distributions utiles, hormis Bernouilli (Loi binomiale), Poisson et Gauss (Loi normale) • Distribution Gamma • Distribution exponentielle • Distribution du Chi Carré (c) JP Marca pour CNAM INTEC Distribution Gamma (c) JP Marca pour CNAM INTEC • Dans l’étude de la durée de vie d’un équipement industriel ainsi que dans d’autres domaines, on rencontre souvent la distribution Gamma (du nom de la fonction mathématique Gamma) xα - 1 e-(x/β) f(x) = __________ avec X>0 βα Γ(α) Γ(α ) = ∫ ∞ 0 xα - 1 e - x dx Distribution Gamma (c) JP Marca pour CNAM INTEC Le raisonnement mathématique (intégration par partie) démontre : Γ(α + 1) = α Γ(α ) => Γ(α + 1) = α ! (Fonction factorielle) On démontre que la moyenne et la variance de la distribution Gamma : µ = E(X) = β α σ2 = E(X2) - µ2 = β2 α Distribution Exponentielle La distribution exponentielle est un cas particulier de la fonction Gamma où α = 1 e-(x/β) f(x) = __________ β Cette distribution survient, par exemple, dans l'étude de la durée de vie d'une substance radioactive. (c) JP Marca pour CNAM INTEC Distribution Exponentielle (c) JP Marca pour CNAM INTEC Si le taux de désintégration d'une quantité y de substance radioactive est proportionnelle à la quantité de substance qui reste au temps t, alors y vérifie une équation différentielle qui s'écrit : dy ---- = - λ y dt où λ est une constante dont la valeur dépend de la nature de la substance radioactive étudiée Distribution Exponentielle (c) JP Marca pour CNAM INTEC La solution de cette équation est y = y0 e - λt y0 est la quantité de substance au temps t = 0 Puisque (y0 - y)/y0 désigne la fraction de la substance de départ désintégrée en t unités de temps, c'est aussi la probabilité qu'un atome de cette substance choisi au hasard se désintègre en t unités de temps. Distribution Exponentielle (c) JP Marca pour CNAM INTEC Si X représente la durée de vie de cet atome y0 - y F(t) = P(X <= t) = --------- = 1 - e - λt y Cette expression donne la fonction de répartition de la variable aléatoire X en X=t En dérivant F(t) par rapport à t, on obtient la fonction de densité en X = t.. Soit f(t) = λ e - λt Distribution Exponentielle (c) JP Marca pour CNAM INTEC f(t) = λ e - λt Une comparaison de ce résultat avec la définition de la distribution exponentielle e-(x/β) f(x) = ----β indique que la densité de la variable aléatoire X, où X est la durée de vie d'un atome radioactif, se distribue selon une loi exponentielle de paramètre β=1/λ Cette relation fait qu'on définit souvent la distribution Gamma en fonction des paramètres α et λ, plutôt que α et β. Distribution Exponentielle (c) JP Marca pour CNAM INTEC On a déterminé que la distribution exponentielle est un modèle approprié pour calculer la probabilité qu'une machine fonctionne convenablement pendant une durée totale de t unités de temps avant de tomber en panne. Distribution Exponentielle (c) JP Marca pour CNAM INTEC Un fabricant de matériel électronique sait par expérience que son matériel fonctionne en moyenne 2 ans sans réparation et que la durée avant d'atteindre la première panne suit une distribution exponentielle. S'il garantit son matériel pour une durée d'un an, quelle proportion de ses clients devra-t-il dépanner si ces pannes se produisent pendant la première année ? Distribution Exponentielle (c) JP Marca pour CNAM INTEC Un fabricant de matériel électronique sait par expérience que son matériel fonctionne en moyenne 2 ans sans réparation et que la durée avant d'atteindre la première partie suit une distribution exponentielle. S'il garantit son matériel pour une durée d'un an, quelle proportion de ses clients devra-t-il dépanner si ces pannes se produisent pendant la première année ? Puisque β = 2 est la moyenne de la distribution exponentielle, la densité qui s'applique dans ce cas est f(x) = e-x/2/2 Calculons P(X<1) En posant t = x/2 1 P(X<1) = 1/2 / e-x/2 /2 dx = / e-t dt 0 = 0,39 0 Même si la durée de vie moyenne est le double de la durée de vie garantie, la probabilité que l'équipement tombe en panne avant l'expiration de la garantie est forte Distribution Exponentielle (c) JP Marca pour CNAM INTEC Une autre application intéressante de la distribution exponentielle est en relation avec la distribution de Poisson. On peut démontrer que, si le nombre de réalisations d'un évènement dans une unité de temps suit une distribution de Poisson de paramètre µ, alors le temps entre deux réalisations successives de l'évènement se distribue selon une loi exponentielle de paramètre β = 1/µ Distribution Exponentielle (c) JP Marca pour CNAM INTEC Le nombre moyen de clients qui se présentent à une caisse d'un supermarché sur un intervalle de 5 minutes est de 10. On suppose que le nombre de clients suit une distribution de Poisson. Quelle est la probabilité qu'aucun client ne se présente à une caisse dans un intervalle de 2 minutes ? Distribution Exponentielle (c) JP Marca pour CNAM INTEC Le nombre moyen de clients qui se présentent à une caisse d'un supermarché sur un intervalle de 5 minutes est de 10. On suppose que le nombre de clients suit une distribution de Poisson. Quelle est la probabilité qu'aucun client ne se présente à une caisse dans un intervalle de 2 minutes ? Puisque µ = 10 clients dans un intervalle de 5 minutes, µ = 2 clients dans un intervalle d'une minute. La moyenne de la distribution exponentielle qui donne le temps en minutes entre les arrivées est donnée par β = 1/ µ = 1/2 La distribution exponentielle associée f(x) = 2 e-2x avec x > 0 où x représente la durée en minutes entre des arrivées successives. En effectuant la substitution t = 2 x ∞ ∞ P(x>=2) = / 2 e-2x dx = / e-tdt = e-4 = 0,018 2 4 Distribution Exponentielle ∞ (c) JP Marca pour CNAM INTEC ∞ P(x>=2) = / 2 e-2x dx = / e-tdt = e-4 = 0,018 2 4 Ce résultat se traduit : si le nombre moyen de clients qui se présentent dans ce supermarché sur une journée est 960, le nombre moyen de creux d'au moins 2 minutes (périodes sans clients) est de 960 * 0,018 = 17 Distribution du Chi Carré La distribution du chi carré est un autre cas particulier de la distribution gamma avec de nombreuses applications statistiques On l'obtient en choisissant β = 2 et en écrivant α = ν / 2 x (ν / 2) - 1 e-(x/2) f(x) = ______________ avec x>0 2 (ν / 2) Γ(ν / 2) (c) JP Marca pour CNAM INTEC Distribution du Chi Carré (c) JP Marca pour CNAM INTEC Cette transformation est associée à divers problèmes statistiques ν est appelé nombre de degrés de liberté On peut calculer la moyenne et la variance d'une variable du chi carré En posant β = 2 et α = ν / 2 dans les formules µ = E(X) = β α µ=ν σ2 = 2 ν σ2 = E(X2) - µ2 = β2 α Introduction à la statistique inductive • Soient des données collectées dans le monde réel, caractéristiques d'une population : données empiriques • Soient des données théoriques issues de modèles mathématiques, ceux des lois de probabilité • Est-il possible de prévoir la valeur de ces caractéristiques en déterminant la loi de probabilités qui les régit à partir de l'analyse d'une échantillon de la population ? (c) JP Marca pour CNAM INTEC Sondage (c) JP Marca pour CNAM INTEC • Lorsqu'on doit évaluer une caractéristique X d'une population P (sexe ou taille d'êtres vivants, goûts musicaux ou culinaires de personnes, qualité de fabrication de pièces), deux méthodes peuvent être employées. • Le recensement consiste à mesurer la valeur du caractère chez tous les individus. • Le sondage limite l'analyse à un sousensemble appelé échantillon Sondage (c) JP Marca pour CNAM INTEC • De nombreuses raisons évidentes militent pour la seconde méthode • La faisabilité • La rapidité • Le coût moins élevé • Mais la méthode a bien sûr ses faiblesses • Les valeurs de l'échantillon ne représentent qu'accidentellement celles de la population : ce sont des variables aléatoires • L'écart entre échantillon et population est d'autant plus grand que l'échantillon est atypique (erreur d'échantillonage) Sondage (c) JP Marca pour CNAM INTEC • Seule une sélection effectuée parfaitement au hasard permet d'éliminer toutes les causes de déviation systématique (biais) • Exemple : dans une enquête sur les goûts alimentaires (Aimez-vous le yaourt à la vanille ?) il faut s'assurer d'équilibrer hommes et femmes, actifs et inactifs, forts et faibles pouvoir d'achat. • Dans une population P de p individus, chacun aura la probabilité 1/p de figurer dans l'échantillon. Sondage (c) JP Marca pour CNAM INTEC • Il faut donc : • Une « population » P • Une variable aléatoire X associée à cette population • Un échantillon E de P • Exemple : • Soit X le nombre de pièces défectueuses repérées dans un lot E de 100 pièces soumises à un contrôle, au sein d'une production P de 5000 Echantillonage (c) JP Marca pour CNAM INTEC Choisir l’échantillon de population le plus représentatif du comportement de l’ensemble Echantillonage (c) JP Marca pour CNAM INTEC • La collecte des données empiriques d'un échantillon pose divers problèmes • Pertinence du choix de l'échantillon (représentativité) • Importance ou non de l'ordre d'arrivée des données • Classification des données • Représentation des données (histogrammes des valeurs en répartissant les données en classes autour des centres de classes) Echantillonage (c) JP Marca pour CNAM INTEC • En statistique, la population des résultats désigne la totalité des résultats expérimentaux possibles • Un échantillon de la population est un ensemble de données rassemblées en réalisant l'expérience un certain nombre de fois. • L'inférence statistique consiste à tirer des conclusions théoriques au sujet d'une population au moyen d'un échantillon extrait empiriquement de cette population. Inférence Données expérimentales (c) JP Marca pour CNAM INTEC Loi Construire un modèle Processus d’inférence inductive Si données statistiques => Inférence statistique Inférence et densité de probabilité (c) JP Marca pour CNAM INTEC • Le choix du mathématicien • Modèle qui prédise les résultats associés à un tirage de 100 pièces • Ou • Modèle qui prédise la fréquence des différentes valeurs de X • Le choix 2 conduit à retenir comme modèle des fonctions de densité de variables aléatoires et les inférences statistiques s'appliquent généralement aux fonctions de densité Base théorique pour l'échantillonnage : Moments empiriques (c) JP Marca pour CNAM INTEC • Pour étudier une distribution d'un ensemble de valeurs, les histogrammes procurent beaucoup d'informations générales • La description mathématique fournit des informations plus précises et plus utiles • Cette description est basée les moments • Moments d'ordre 1, 2, 3, ..., n • Dans la pratique 1 et 2 Moments empiriques (c) JP Marca pour CNAM INTEC • Soit x1, X2, ..., Xn les valeurs observées d'un échantillon de taille n de la variable aléatoire X • Le moment d'ordre k centré sur l'origine d'une distribution empirique est donné par 1 mk = --n n Σx k i i=1 Moments empiriques (c) JP Marca pour CNAM INTEC • Le moment d'ordre k centré sur la moyenne d'une distribution empirique est donné par 1 mk = --n n Σ (x i i=1 - x)k Moments empiriques (c) JP Marca pour CNAM INTEC • Le moment d'ordre 1, x, est le centre de gravité de la distribution empirique. • Cette moyenne de l'échantillon sert à estimer la moyenne théorique µ 1 x = --n n Σ (x ) i i=1 Moments empiriques (c) JP Marca pour CNAM INTEC • Puisque σ2 est le moment d'ordre 2 d'une distribution théorique, le moment d'ordre 2 d'une ditribution empirique est tout naturellement associé à la variance. • s2 est la variance de l'échantillon • L'écart type est s • Noter le n-1 1 s2 = --n-1 n Σ (x i i=1 - x)2 Exercice (c) JP Marca pour CNAM INTEC • Soit la distribution empirique du tableau ci-dessous concernant des durées en secondes de conversations téléphoniques. • Tracer l'histogramme, calculer la moyenne et l'écart-type de cet échantillon • Déterminer les pourcentages approximatifs de données qui se situent dans les intervalles x-s et x+s, x-2s et x+2s Xi 49,50 149,50 249,50 349,50 449,50 549,50 649,50 749,50 849,50 949,50 fi 6 28 88 180 247 260 133 42 11 5 Exercice (c) JP Marca pour CNAM INTEC 300 250 200 Série1 150 100 50 0 1 2 173 3 4 5 6 324 7 8 9 10 626 777 475 Xi 49,50 149,50 249,50 349,50 449,50 549,50 649,50 749,50 849,50 949,50 fi 6 28 88 180 247 260 133 42 11 5 Exercice (c) JP Marca pour CNAM INTEC • L'histogramme suggère une loi normale • Dans une loi normale, les intervalles (µ - σ, µ + σ) et (µ - 2σ, µ + 2σ) comprennent respectivement 68 et 95% de l'aire • Dans la distribution empirique on considère (x - s, x + s) et (x - 2s, x + 2s) • • • • Les calculs donnent : x = 475,2 s = 151 Les intervalles recherchés (324,626) et (173, 777) Exercice (c) JP Marca pour CNAM INTEC • On détermine approximativement le nombre d'observations à l'intérieur de ces intervalles en supposant une répartition uniforme • 678 appels dans le premier intervalle (67,8%) • L'intervalle (173,777) exclut 52 appels (5,2%) • Résultats très conformes à la loi normale malgré un histogramme irrégulier Tests d'hypothèses (c) JP Marca pour CNAM INTEC • Généralement, une hypothèse statistique est une affirmation sur la fonction de densité d'une variable aléatoire. • Affirmer qu'une variable aléatoire se distribue selon une loi normale est un exemple d'hypothèse statistique • Dans la plupart des cas on va supposer la fonction de densité connue et l'hypothèse va porter sur une affirmation concernant la valeur d'un paramètre de cette fonction de densité • Exemple : Hypothèse que la moyenne d'une variable aléatoire de Poisson est égale à 10 Tests d'hypothèses • Un test d'hypothèse statistique définit une procédure d'acceptation ou de rejet d'une hypothèse • Cette définition assure une liberté au statisticien pour concevoir son test (c) JP Marca pour CNAM INTEC Population vs Echantillon • Définitions • Caractéristiques • Notations • Loi de probabilité (c) JP Marca pour CNAM INTEC Retour sur l'échantillonnage : définitions (c) JP Marca pour CNAM INTEC • Tirage simple • Tirage exhaustif : un individu déjà sélectionné n'est pas remis dans la population "mère" et ne peut donc être sélectionné à nouveau • Tirage non exhaustif : un individu déjà sélectionné est remis dans la population mère et peut donc être tiré une nouvelle fois • Plan d'expérience : Etude des méthodes d'échantillonnage et des problèmes qui s'y rattachent • Echantillon aléatoire : chaque individu de la population mère a la même probabilité d'appartenir à l'échantillon • Distribution d'échantillonnage. Considérons tous les échantillons de taille n tirés de la population mère et, pour chacun d'eux, calculons une caractéritique C (moyenne, variance). L'ensemble des valeurs de C donne la distribution d'échantillonnage de C Population vs échantillon : Population (c) JP Marca pour CNAM INTEC • La distribution du caractère quantitatif X dans la population mère P est caractérisée par le tableau No 1 : Modalités X1 ... Xi ... Xq Effectifs N1 ... Ni ... Nq Fréquences N1 P1 = --N ... Ni Pi = --N ... Nq Pq = --N Population vs échantillon : Population Cette population est de plus caractérisé par ses moments. La moyenne (empirique): p M = Σ (f X ) i i i=1 La variance (empirique): p σ2 = Σf i i=1 (Xi - M)2 (c) JP Marca pour CNAM INTEC Population vs échantillon : Echantillon (c) JP Marca pour CNAM INTEC Le prélèvement de n individus dans P conduit à un échantillon de taille n. Il y a CNn échantillons de taille n possibles La distribution du caractère quantitatif X dans cet échantillon est caractérisée par le tableau No 2: Modalités x1 ... xi ... xq Effectifs n1 ... ni ... nq Fréquences n1 f1 = --n ... ni f1 = --n ... nq f1 = --n Population vs échantillon : Echantillon (c) JP Marca pour CNAM INTEC Cet échantillonnage est de plus caractérisé par ses moments. La moyenne : n x = Σ (f X ) i i i=1 La variance : n s2 = Σ f (X - X) i i=1 i 2 Population vs échantillon : Distribution d'échantillonnage (c) JP Marca pour CNAM INTEC • Les CNn moyennes des CNn échantillons différents consituent la distribution d'échantillonnage des moyennes. • Celle ci est aussi caractérisable par une moyenne et un écart-type Population vs échantillon : notations Notations (c) JP Marca pour CNAM INTEC Population Echantillon Taille N n Moyenne M x Ecart-type σ s Fréquence p f Population vs échantillon : Loi de probabilité (c) JP Marca pour CNAM INTEC • L'échantillon est obtenu par n tirages successifs. • Chacun de ces tirages représente une expérience aléatoire dont le résultat est xi Modalités x1 ... xi ... xq Probabilités P1 ... Pi ... Pq • Aux n tirages de l'échantillon sont donc associées n variables aléatoires Xi de même loi de probabilité. • Les tirages étant non exhaustifs (tirages avec remise) ces n variables sont indépendantes • P(X1 = Xa, X2 = Xb, ...) = P(X1 = Xa)*P(X2=Xa) Estimation et Distribution d'échantillonnage (c) JP Marca pour CNAM INTEC • Suivant que la distribution du caractère X dans la population mère P est connue ou non, 2 problèmes peuvent être abordés. • Pb No 1 : Connaissant x et s2, que peut on dire de la moyenne M et de la variance σ2 de la population mère ? • Ce problème est celui de l'estimation. Comment décrire la population mère à partir d'un échantillon ? La grandeur caractéristique de l'échantillon est l'estimateur. • Pb No 2 : Connaissant la distribution de X dans P et les valeurs de M et σ2 , que peut-on dire des caractéristiques d'un échantillon tiré au hasard ? • Ce problème est celui de la théorie des distributions d'échantillonnage, qui étudie les distributions de toutes les caractéristiques de l'échantillon tiré au hasard. Distribution d'échantillonnage • Distribution des moyennes • Distribution des fréquences (c) JP Marca pour CNAM INTEC Distribution d'échantillonnage : cas des moyennes (c) JP Marca pour CNAM INTEC • Cette théorie étudie les distributions de toutes les caractéristiques de l'échantillon tiré au hasard : variables xi, moyennes, variances et fréquences • Considérons le cas des moyennes • Considérons le cas où les variables aléatoires Xi sont indépendantes (tirage non exhaustif) et de même loi de probabilité normale dont l'écart-type est connu • xn est défini comme X1 + X2 + ... + Xi + ... Xn / n • Le théorème "Central limit" dit que la loi de la moyenne centrée réduite de n variables aléatoires indépendantes peut être approximée par une loi normale (centrée, réduite) avec une précision d'autant plus grande que n est grand. • La variable centrée réduite T =( xn - E(xn)) / σ(xn) suit donc une loi normale centrée réduite si n est assez grand Distribution d'échantillonnage des moyennes On démontre (démonstration au tableau) E(X) = M σ(X) = σ / V n Il en résulte que la moyenne de l'échantillon suit approximativement une loi normale N(moyenne population, écart type population divisé par racine carré de l'échantillon) (c) JP Marca pour CNAM INTEC Distribution d'échantillonnage des moyennes (c) JP Marca pour CNAM INTEC C'est ici qu'il faut bien comprendre les composantes du problème posé Le problème posé est de déduire la distribution d'échantillonnage de la moyenne fondée sur un échantillon aléatoire de taille n extrait d'une population normale N. Soit X distribué selon une loi normale de moyenne M et de variance σ2 Nous envisageons un échantillon aléatoire de taille n prélevé dans cette population La moyenne de cet échantillon : 1 X = --- (X1 + X2 + ... + Xn) n Distribution d'échantillonnage des moyennes (c) JP Marca pour CNAM INTEC • Cette moyenne est une variable aléatoire parce que les Xi qui la composent sont des variables aléatoires • Après le prélèvement, X est un nombre • Avant le prélèvement, c'est une variable aléatoire dont les valeurs dépendent des valeurs prises par la variable de départ X • Il faut déterminer la fonction de densité de X • Nous avons vu que la variable X est une variable normale de moyenne M et de variance σ2/n Distribution d'échantillonnage des moyennes (c) JP Marca pour CNAM INTEC • On peut donc exprimer le théorème selon lequel : • Si X se distribue selon une loi normale de moyenne M et de variance σ2 et si on prélève un échantillon aléatoire de taille n, la moyenne de l'échantillon X se distribue selon une loi normale de moyenne M et de variance σ2/n • Ce théorème démontre que la précision d'une moyenne d'un échantillon qui estime la moyenne d'une population augmente lorsque la taille de l'échantillon croit • Il faut prélever un échantillon quatre fois plus important si on veut doubler la précision de l'estimateur. Distribution d'échantillonnage des moyennes (c) JP Marca pour CNAM INTEC • Nous avons considéré le cas du tirage non exhaustif dans une population dont l'écart type est connu. • Dans le cas d'un tirage sans remise, on doit corriger l'écart type, avec un coefficient d'exhaustivité N −n N −1 • Dans le cas où l'écart-type n'est pas connu, on en fait une estimation ponctuelle (Loi de Student vue plus loin) Distribution d'échantillonnage des fréquences (c) JP Marca pour CNAM INTEC • La fréquence d'échantillons est la variable aléatoire F • Dans le cas d'échantillons indépendants (tirage avec remise) F = P(n,p) Si n>=30 et np(1-p) < 5 F => B(n,p) Si n>=30 et np(1-p) < 5 F =>N dont E(F) = p et σ(F)= V (p)(1-p) / n Exercice (c) JP Marca pour CNAM INTEC • Un fabricant de fil synthétique de canne à pêche a déterminé après une longue période d'essai que la résistance à la rupture de son fil se distribue approximativement selon une loi normale de moyenne égale à 30kg et d'écart type égal à 4 kg. • Il modifie son processus de fabrication pour gagner du temps. • On prélève un échantillon de 25 pièces dans la production du nouveau processus et on mesure la moyenne de cet échantillon qui est égale à 28 kg. • Quelle est la probabilité d'avoir une résistance moyenne à la rupture inférieure ou égale à 28 kg si le nouveau processus ne diminue pas la résistance à la rupture ? Exercice (c) JP Marca pour CNAM INTEC • Soit X la résistance à la rupture d'un morceau de fil choisi au hasard et supposons que X soit une variable normale avec µ = 30 et σ = 4. • Suivant le théorème précédent, la moyenne de l'échantillon calculée sur un échantillon de taille n = 25 suit une loi normale de moyenne m(x) = 30 et d'écart type σ(x) = 4 / (25)1/2 = 0,8 • Il en résulte • P(X<=28) = P(Z <= -2,5) avec Z = x - m(x) / σ(x) • Z est une variable normale, centrée, réduite. On détermine sa probabilité à partir de la table. • P = 0,006 Estimation • Principe • Estimation ponctuelle • Estimation par intervalles de confiance (c) JP Marca pour CNAM INTEC Estimation (c) JP Marca pour CNAM INTEC • Nous venons de voir que la théorie des distributions d'échantillonnage avait pour but de déduire la connaissance des distributions des variables aléatoires de l'échantillon à partir de la connaissance de la distribution de X dans la population mère. • La théorie de l'estimation se propose de résoudre le problème inverse. • L'estimation est la recherche de la valeur d'une caractéristique inconnue Θ d'une population mère, à partir des observations faites sur un échantillon • Un estimateur T de Θ est une fonction des valeurs observées sur un échantillon ayant pour but de fournir une valeur de Θ Estimation (c) JP Marca pour CNAM INTEC • Nous nous attachons plus particulièrement à trouver une estimation, autrement dit une approximation de la moyenne M et de l'écart-type σ de la population lorsque le caractère X est supposé suivre une loi de Gauss. • Nous nous proposons aussi d'estimer une proportion p d'une modalité X dans la population mère. • Dans ces travaux, nous déduisons toujours la valeur approchée du paramètre Θ à estimer, à partir de l'observation d'un échantillon de taille n. Estimation : deux méthodes (c) JP Marca pour CNAM INTEC • L'estimation ponctuelle détermine pour le paramètre Θ cherché une valeur approchée unique . • L'estimation par intervalle de confiance détermine un "intervalle de confiance" qui a une grande probabilité de contenir la valeur exacte de Θ Estimation ponctuelle (c) JP Marca pour CNAM INTEC • Cette méthode utilise un estimateur ponctuel du paramètre inconnu Θ. • Il s'agit d'une fonction à plusieurs variables Tn (X1, X2, ..., Xn) qui aux n variables aléatoires Xi de l'échantillon fait correspondre une variable aléatoire Tn appelée estimateur. • Cette fonction est telle que si les résultats d'un sondage sont : X1=x1, X2=x2, ....., Xn = xn, la valeur numérique Tn est une valeur approchée du paramètre Θ à estimer • L'estimation ponctuelle est la valeur unique fournie pour le paramètre Θ par l'estimateur retenu Estimation ponctuelle (c) JP Marca pour CNAM INTEC • Supposons que la moyenne M du caractère X dans la population mère puisse être estimée par la moyenne m (x) des valeurs observées dans l'échantillon (mn) • Ceci revient à dire que mn est un estimateur ponctuel de M • Soit Tn(X1, X2, ..., Xn) = 1/n Σ xi = mn • Si dans un échantillon de taille 3 on trouve X1=2, X2=6, X3=4, • La moyenne M pourra être estimée par la valeur T3(2,6,4) = 1/3(2+6+4) = 4 Estimation ponctuelle (c) JP Marca pour CNAM INTEC • Pour que la valeur approchée du paramètre Θ, fournie par l'estimateur ponctuel, comporte une précision suffisante, et surtout pour que cette précision s'améliore lorsque la taille n de l'échantillon augmente, il faut que l'estimateur réponde aux conditions suivantes : • E(Tn) = Θ • V(Tn) -> 0 quand n -> ∞ • L'estimateur est dit alors "absolument correct" • L'estimateur est une variable aléatoire, souvent notée avec un accent circonflexe (^m, ^p) dont on connaît, grâce à l'échantillon, une réalisation. • Cette réalisation constitue l'estimation. Estimation ponctuelle (c) JP Marca pour CNAM INTEC • Le meilleur des estimateurs, le plus précis, est à taille égale de l'échantillon celui dont la variance est la plus faible. • On peut considérer la variance de l'estimateur comme un indice de sa précision. • Ce meilleur estimateur est appelé estimateur efficace. Estimateur de la moyenne d'une population (c) JP Marca pour CNAM INTEC • La moyenne x observée sur l'échantillon est l'estimateur efficace de la moyenne M de la population E{x} = m • La variance de cet estimateur est égale à : V {x} = V {x} = σ2 dans le cas de tirages avec remise n σ2 N −n n . N −1 dans le cas de tirages sans remise Estimateur de la variance d'une population (c) JP Marca pour CNAM INTEC • On démontre que n −1 2 E{s } = .σ n 2 n • La variance de l'échantillon n'est donc pas un estimateur absolument correct de la variance de la population • L'estimateur de la variance de la population est : n σ = . sn2 n −1 ∧ 2 • L'estimation de la variance inconnue de la population mère sera celle observée dans l'échantillon, multipliée par n/n-1 Estimateur d'une proportion d'une population Ni p= N (c) JP Marca pour CNAM INTEC ni fn = n • On démontre que fn est un estimateur efficace de p ∧ p = fn • L'estimation de la proportion inconnue de la population mère sera donc la fréquence observée dans l'échantillon Estimation par intervalle de confiance (c) JP Marca pour CNAM INTEC • L'estimation ponctuelle a pour défaut de ne fournir ni la précision de l'estimation, ni le risque d'erreur. • La méthode d'estimation par intervalle de confiance a pour mérite de fournir l'intervalle (Θ - ∆Θ , Θ + ∆Θ ) ou la valeur vraie Θ* a la probabilité α de se trouver. • Cette méthode donne, outre la valeur approchée Θ, la précision de cette approximation ∆Θ/ Θ • La précision de l'estimation est la probabilité α' de commettre une erreur relative égale à l'approximation en considérant Θ à la place de Θ* • α' est le degré ou coefficient de confiance • α = 1 - α' indique la probabilité inverse que l'intervalle de confiance ne contienne pas Θ*. C'est le seuil de confiance ou risque d'erreur Estimation par intervalle de confiance • • • • (c) JP Marca pour CNAM INTEC Intervalle de confiance : (19,20) Limites de confiance : 19 et 20 Coefficient de confiance : 95% La valeur cherchée a 95 % de chances de se trouver entre 19 et 20 • 95% = P(19,5 - 0,5 < Θ* < 19,5 + 0,5) • Précision : 0,5 / 19,5 = 3% 95% 19 20 Intervalle de confiance pour la moyenne d'une loi normale (c) JP Marca pour CNAM INTEC • A chaque individu d'une population P, est attachée une valeur xi d'un caractère x • La distribution de X dans P est supposée correspondre à une loi normale N(M,σ) • On se propose d'estimer M en prélevant au hasard un échantillon de taille n • Soit x la moyenne de la variable X dans l'échantillon de taille n Intervalle de confiance pour la moyenne d'une loi normale (c) JP Marca pour CNAM INTEC • Considérons que la variance est connue • On a démontré que si X suit une loi normale dans la population mère, mn suit également une loi normale • E(X) = M • σ(X) = σ / V n • Autrement dit, si X suit la loi N(M,σ), x suit la loi N(M,σ/Vn) • et la variable centrée réduite (mn-M) / σ/Vn suit la loi N(0,1), Intervalle de confiance pour la moyenne d'une loi normale (c) JP Marca pour CNAM INTEC • Si on se fixe à l'avance un coefficient de confiance α' et si on cherche t tel que • P(-t < (mn-M) / σ/Vn < +t) = α' • il en résulte que t est défini en fonction de α' par la relation +t ∫ −t 1 × e − u 2 / u × du = α ' 2π • et sa valeur est lue dans la table de loi normale Intervalle de confiance pour la moyenne d'une loi normale (c) JP Marca pour CNAM INTEC • Or mn − M σ σ −t < < + t ⇔ mn − t < M < mn + t σ/ n n n • Donc Pr ob (mn − t σ n < M < mn + t σ n ) =α' • Autrement dit : (mn − t σ n < M < mn + t σ n ) • constitue un intervalle de confiance à α% de M Intervalle de confiance pour la moyenne d'une loi normale (c) JP Marca pour CNAM INTEC • • • • Exemple : On choisit α' = 95% Donc t = 1,96 si un sondage de taille n = 100 a donné x = 3 et a permis de supposer que σ= 2 • On peut affirmer que M a 95 chances sur 100 d'appartenir à l'intervalle : 3 − 1,96. 2 ; 3 + 1,96. 2 10 10 • Soit [2,6 , 3,4] Exercice (c) JP Marca pour CNAM INTEC • La gestion de la qualité de service du RTC est fondée sur divers indicateurs comme l'indicateur TCOM : temps d'établissement des communications (délai exprimé en secondes de mise en relation entre deux abonnés) • A l'image de la durée de communication de l'exercice précédent, on a pu déterminer que ce délai était une variable aléatoire régie par une loi normale • Sur un échantillon de 300 communications, on observe une valeur moyenne de cet indicateur X = 15,5 secondes et un écart-type de 4 secondes. 1. Déterminer un intervalle de confiance de niveau 95% pour la valeur moyenne de TCOM 2. Quelle taille d'échantillon serait nécessaire pour estimer la moyenne m avec une précision de +/- 0,1 sec (pour le même niveau de confiance de 95% et un écart-type constant quelque soit la taille de l'échantillon) Exercice (corrigé 1°) • • • • • • • • • • (c) JP Marca pour CNAM INTEC Variable estimateur moyenne X E(X) = m, s(X) = σ / Vn On est régi par la loi normale l'intervalle aléatoire contenant m au seuil de 95% est donné par : P(x -tα σ(x) <= M <= x + tα σ(x) ) = 0,95 En consultant une table P(t) pour p = a = 0,05 t = 1,96 P(X -1,96 σ(x) <= M <= x + 1,96 σ(x) ) σ(x) = σ / V300 s Vn / Vn-1, soit 4 V300 / V299 est un estimateur de σ L'intervalle de confiance lié à l'échantillon • 15,5 - 1,96 4 /V 299; 15,5 + 1,96 4/ V 299 • [15,05 ; 15,95] Exercice (corrigé 2°) • tα σ(x) < 0,1 tα σ ≤ 0,1 (c) JP Marca pour CNAM INTEC σ(x) = σ / Vn n s tα ≤ 0,1 n −1 4 1,96 ≤ 0,1 n −1 • n = 6147 σ 2 = n/(n-1) s2 Cas de populations quelconques (c) JP Marca pour CNAM INTEC • Nous avons fait l'hypothèse d'une population "normale" (caractéristique étudiée répartie selon une loi normale) • Dans le cas de population quelconque, la distribution de la moyenne x ne tend vers une loi normale que lorsque l'effectif n de l'échantillon tend vers l'infini • Le principe vu est donc applicable pour de gros échantillons (n>30) • Lorsque l'effectif de l'échantillon est petit, c.a.d. en pratique inférieur à 30 unités, la moyenne x de l'échantillon ne suit une loi normale que si la population d'origine est elle-même normale (Notre hypothèse de départ) Cas où on ne connait pas l'écart-type de la population (c) JP Marca pour CNAM INTEC • A chaque prélèvement d'échantillon est attaché une valeur de la variable aléatoire mn (moyenne de l'échantillon), une valeur de la variable aléatoire s2n (variance de l'échantillon) • Si on ne connait pas l'écart type de la population,on peut introduire un estimateur de cet écart type n σ = . sn2 n −1 ∧ 2 • puis la variable centrée réduite T '= mn − M ∧ σ n Cas où on ne connait pas l'écart-type de la population (c) JP Marca pour CNAM INTEC • On démontre que T' suit une loi de Student à ν = (n-1) degrés de liberté (si X suit une loi de Gauss ) • n représente l'effectif de l'échantillon • Cette loi est tabulée en fonction de ν (En Excel LOI.STUDENT.INVERSE(probabilité, degré liberté) • Pour des valeurs de ν suffisamment grandes (supérieures à 30) elle est convenablement approximée par la loi normale réduite N(0,1) 0,9 0,5 0,3 0,2 0,1 0,05 0,02 0,001 1 0,158 1,000 1,963 3,078 6,314 12,706 31,821 636,619 2 0,142 0,816 1,386 1,886 2,920 4,303 6,965 31,599 3 0,137 0,765 1,250 1,638 2,353 3,182 4,541 12,924 Exemple (c) JP Marca pour CNAM INTEC • A la suite d'un accident dans une centrale nucléaire, avec rejet de particules radioactives dans l'atmosphère, un échantillon aléatoire de 16 personnes a été tiré avec probabilités égales dans la ville voisine. • Cet échantillon a été soumis pendant une année à un contrôle d'irradiation. • On désigne par x la mesure du rayonnement reçue par une personne en un an. La variable x est normalement distribuée. • Les résultats de l'échantillon • moyenne x = 15,125 rem • Ecart type s = 4,841 • Estimer le rayonnement moyen reçu par les habitants de la ville et déterminer l'intervalle de confiance à 99% de cette estimation Exemple (c) JP Marca pour CNAM INTEC • L'estimation du rayonnement moyen • x = 15,125 rem • La variable x étant normalement distribuée dans la population, x suit une loi normale, bien que l'effectif de l'échantillon soit inférieur à 30 • Toutefois, σ étant inconnu, la variable x−M T= s' n • dans laquelle σ est estimé par s' n'est pas une variable normale. • Le tirage de l'échantillon dans la population normale pouvant être considéré comme effectué avec remise (n petit par rapport à N), T suit une loi de Student-Fisher à n-1 degrés de liberté Exemple (c) JP Marca pour CNAM INTEC • L'intervalle de confiance est donné par Pr ob ( x − tα s' s' ≤ M ≤ x + tα ) = 0,99 où tα = 2,947 n n est donné par une table de Student-Fisher pour ν = n-1 = 15 degrés de liberté et P = α = 0,01 • Compte tenu de la faible taille de l'échantillon, il faut exprimer σ par s' et non par s n 16 2 s' = . s = .(4,841) 2 = 24,9976 n −1 15 s' = 5 s' 5 = = 1,25 n 4 2 Estimation d'une proportion (c) JP Marca pour CNAM INTEC • Considérons la distribution d'un caractère X dans une population P tel que celle-ci est composée de deux catégories d'individus en proportion p et q = 1-p. • On estime la proportion p inconnue par la fréquence f = x/n observée sur l'échantillon. • Les cas à considérer • Echantillon tiré avec remise • Cas d'un gros échantillon • Cas où p est petit, avec un échantillon assez gros • Cas d'un petit échantillon • Echantillon sans remise Estimation d'une proportion : echantillon tiré avec remise (c) JP Marca pour CNAM INTEC • La fréquence f est une variable binomiale de paramètre n et p • f -> B(n, p) • Son espérance mathématique E(F ) = p • Son écart type σ (F ) = p (1 − p ) =σF n • La connaissance de la loi d'échantillonnage de f permet de déterminer l'intervalle de confiance Estimation d'une proportion : Gros échantillon avec remise (c) JP Marca pour CNAM INTEC • Lorsque l'échantillon est suffisamment grand, la loi binomiale peut être approchée par la loi normale. • L'approximation de la loi binomiale par la loi normale est acceptable lorsque npq > 9 • Dans ces conditions f suit une loi normale de paramètres : • M = p et σF = p (1 − p ) n • p étant inconnu, σf l'est aussi. • La loi d'échantillonnage de f n'est pas entièrement donnée. • Deux possibilités existent pour déterminer l'intervalle de confiance : • méthode par estimation de l'écart-type • méthode de l'ellipse Exercice (c) JP Marca pour CNAM INTEC • On s'intéresse à la proportion d'individus achetant le journal local dans une petite ville de 10 000 habitants. Sur 100 personnes interrogées, 70 personnes déclarent acheter le journal. • Au seuil de confiance de 80%, estimer la proportion d'individus qui achètent le journal dans la ville • Même question au seuil de 90% • Combien de personnes doit-on interroger au seuil de 90% pour que la précision de l'estimation soit de 5% Exercice (Corrigé) (c) JP Marca pour CNAM INTEC • Variable estimateur fréquence F E(F ) = p σ (F ) = p (1 − p ) =σF n • Intervalle aléatoire contenant p au seuil de 80% (tα = 1,28) [F - 1,28 σF ; F + 1,28 σF ] • Intervalle de confiance 0,7.0,3 0,7.0,3 [0,7 − 1,28. ; 0,7 + 1,28. ] = [0,64 ; 0,76] 100 100 • Même question, au seuil de 90% tα = 1,645 • Intervalle de confiance 0,7.0,3 0,7.0,3 [0,7 − 1,645. ; 0,7 + 1,645. ] = [0,62;0,78] 100 100 Exercice (Corrigé) • Il faut tα <= 0,05 si 5% précision absolue p (1 − p ) tα ≤ 0,05 n 0,3.0,7 1,645 ≤ 0,05 n • au seuil de 90% et en estimant ponctuellement σF • Soit n >= 227,31 • n = 228 (c) JP Marca pour CNAM INTEC Détermination de la taille d'un échantillon (c) JP Marca pour CNAM INTEC • La détermination de la taille d'un échantillon pour obtenir une précision donnée est l'inverse du calcul de l'intervalle de confiance d'une estimation • Etant donné un seuil de probabilité 1-α fixé a priori, quel doit être l'effectif n de l'échantillon pour obtenir la précision, c'est à dire l'intervalle de confiance désiré ? Echantillonage (c) JP Marca pour CNAM INTEC • En statistique, la population des résultats désigne la totalité des résultats expérimentaux possibles • Un échantillon de la population est un ensemble de données rassemblées en réalisant l'expérience un certain nombre de fois. • L'inférence statistique consiste à tirer des conclusions théoriques au sujet d'une population au moyen d'un échantillon extrait empiriquement de cette population. Echantillonage (c) JP Marca pour CNAM INTEC Choisir l’échantillon de population le plus représentatif du comportement de l’ensemble Synthèse (c) JP Marca pour CNAM INTEC Population P avec une caractéristique Xi Synthèse (c) JP Marca pour CNAM INTEC Population P avec une caractéristique Xi Loi de probabilité régissant la distribution de Xi dans P caractérisée par M et σ Synthèse (c) JP Marca pour CNAM INTEC Population P avec une caractéristique Xi Loi de probabilité régissant la distribution de Xi dans P caractérisée par M et σ Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Synthèse (c) JP Marca pour CNAM INTEC Population P avec une caractéristique Xi Loi de probabilité régissant la distribution de Xi dans P caractérisée par M et σ Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Synthèse (c) JP Marca pour CNAM INTEC Population P avec une caractéristique Xi Loi de probabilité régissant la distribution de Xi dans P caractérisée par M et σ Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Loi de probabilité régissant la distribution des échantillons Distribution des moyennes, des fréquences, .. Synthèse (c) JP Marca pour CNAM INTEC Population P avec une caractéristique Xi Problème de distribution d'échantillonnage Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Loi de probabilité régissant la distribution de Xi dans P caractérisée par M et σ Loi de probabilité régissant la distribution des échantillons Distribution des moyennes, des fréquences, .. Synthèse (c) JP Marca pour CNAM INTEC Loi de probabilité Population P Si X se distribue selon une la loi normale de moyennerégissant M avec une distribution de 2 caractéristique Xi et de variance σ et si on prélève un échantillon Xi dans P Problème de aléatoire de taille n, lacaractérisée distribution moyenne de l'échantillonpar X M et σ d'échantillonnage se distribue selon une loi normale de moyenne M et de variance σ2/n Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Loi de probabilité régissant la distribution des échantillons Distribution des moyennes, des fréquences, .. Synthèse (c) JP Marca pour CNAM INTEC Population P avec une caractéristique Xi Problème d'estimation Loi de probabilité régissant la distribution de Xi dans P caractérisée par M et σ • Estimation ponctuelle • Estimation par intervalle de confiance Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Loi de probabilité régissant la distribution des échantillons Distribution des moyennes, des fréquences, .. Synthèse (c) JP Marca pour CNAM INTEC Loi de La moyenne x de l'échantillon est un bonprobabilité Population P régissant la estimateur de la moyenne avec une M de la population distribution de caractéristique Xi Xi dans P *** caractérisée Problème La fréquence f observée d'estimation dans l'échantillon est unpar M et σ • Estimation bon estimateur de la ponctuelle proportion p dans la • Estimation par intervalle de population Echantillon confiance avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Loi de probabilité régissant la distribution des échantillons Distribution des moyennes, des fréquences, .. Synthèse (c) JP Marca pour CNAM INTEC Loi de probabilité Population P La variance s de régissant la avec une l'échantillon n'est pas distribution un de caractéristique Xi bon estimateur de la Xi dans P variance σ de la population caractérisée Problème Le bon estimateur : par M et σ d'estimation • Estimation ponctuelle • Estimation par intervalle de confiance Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi n σ = . sn2 n −1 ∧ 2 Loi de probabilité régissant la distribution des échantillons Distribution des moyennes, des fréquences, .. Synthèse (c) JP Marca pour CNAM INTEC Loi de σ σ probabilité (mn − t < M < mn + t ) Population P n n régissant la avec une distribution de caractéristique Xi constitue un intervalle de confiance à α% de M Xi dans P où t est la valeur de lacaractérisée Problème par M et σ d'estimation variable normale pour une • Estimation probabilité α ponctuelle • Estimation par intervalle de confiance Echantillon avecEchantillon la même avecEchantillon la même caractéristique Xi Echantillon avec la même caractéristique Xi Echantillon avec la même caractéristique Xi avec la même caractéristique Xi caractéristique Xi Loi de probabilité régissant la distribution des échantillons Distribution des moyennes, des fréquences, .. Exercice (c) JP Marca pour CNAM INTEC • Une machine d'une chaîne de fabrication découpe des verres de montres dont le diamètre doit être égal à 30 mm. • Une certaine tolérance, toutefois est acceptée et le disque est considéré conforme si son diamètre est compris entre 29,950 mm et 30,050 mm. • Les diamètres des verres de montres sont supposés suivre une loi normale. • Le contrôle de la qualité de la production est fait par un échantillonnage : chaque jour un échantillon de 50 verres est extrait, de façon aléatoire, de la production des 1000 verres fabriqués quotidiennement • On obtient, lors d'un contrôle, les résultats suivants : Diamètre [29,90;29,95] [29,95;29,99] [29,99;30,01] [30,01;30,05] [30,05;30,10] Nbre de verres observés 5 12 22 9 2 Exercice (c) JP Marca pour CNAM INTEC • Calculez le diamètre moyen et l'écart type de ce diamètre dans l'échantillon ainsi que la proportion de verres conformes • En déduire une estimation ponctuelle de ses trois paramètres dans la production • Par intervalle de confiance, au seuil de 98%, estimer le diamètre moyen d'un verre dans la production. Selon la règle énoncée par la direction, si le diamètre moyen estimé est compris dans l'intervalle [29.98 ; 30,02], la qualité est décidée "bonne" sinon, la qualité de la production est décidée "mauvaise" et un réglage de la machine est immédiatement mis en place. Etant donné l'échantillon, quelle décision doit-on prendre ? • Estimer, par intervalle de confiance au seuil de 95%, le nombre de verres conformes produits chaque jour. • Quelle taille d'échantillon faudrait-il choisir pour que la précision relative de l'estimation de ce nombre de verres conformes soit égale à 10% pour le même seuil de 95% Exercice (Corrigé) (c) JP Marca pour CNAM INTEC • X : diamètre d'un verre de montre • Dans l'échantillon ni xi ∑ = 29,9937 mm x= n s= ∑ fi xi 1 2 2 − x = 0,0336 mm 43 f = = 0,86 soit 86% 50 Exercice (Corrigé) (c) JP Marca pour CNAM INTEC • M = diamètre moyen de la production estimé ponctuellement ∧ M = x = 29,9937 mm • σ : écart type de la production estimé ponctuellement par n σ= .s = 0,03397 mm n −1 ∧ • p : proportion de pièces conformes dans la production, estimée ponctuellement par : ∧ p = f = 0,86 Exercice (Corrigé) • Estimation d'une moyenne M • Variable estimateur X • X -> N (M; σ(x)=σ / Vn) • Intervalle aléatoire au seuil de 98% P ( x1 ≤ X ≤ x 2 ) = 0,98 P (−t ≤ X ≤ +t ) = 0,98 • 1-P = α =0,02 => t = 2,33 lu dans P(t) et donc P ( X − 2,33.σ ( X ) ≤ M ≤ X + 2,33.σ ( X )) = 0,98 • D'ou l'intervalle de confiance • X prend la valeur x = 29,9937 (c) JP Marca pour CNAM INTEC Exercice (Corrigé) σ ( x) = (c) JP Marca pour CNAM INTEC σ 50 inconnu est estimé ponctuellement par ∧ σ s ou 50 49 IC0 , 98 ( M ) = [29,9825 ; 30,0049] L'estimation de M donne un diamètre moyen compris entre 29,9825 et 30,0049 et donc à l'intérieur de l'intervalle considéré comme "bon" par la direction. La machine n'a pas à être réglée. Test d'hypothèses • Tests de comparaison • à un standard • entre deux échantillons (c) JP Marca pour CNAM INTEC Test d'hypothèse (c) JP Marca pour CNAM INTEC • Nous avons défini un test d'hypothèse statistique comme une procédure d'acceptation ou de rejet d'une hypothèse • Un test paramétrique consiste à définir une règle de décision concernant la validité d'une hypothèse portant sur la valeur d'un paramètre d'une loi de distribution dans la population • Les tests non paramétriques sont construits à partir d'une fonction des valeurs observées sur l'échantillon, fonction indépendante de la loi de distribution dans la population. Un bon exemple de ce type de test est le test du χ2 Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • Le test du χ2 constitue la troisième et dernière étape de la modélisation d'un phénomène statistique par une loi de probabilité. • 1ere étape : statistique descriptive via une distribution empirique • 2ème étape : ajustement d'une loi de probabilité à la distribution empirique • 3ème étape : test de la validité de l'ajustement effectué. C'est ici que prend place le test du χ2 Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • Soit T1, T2, ... Tν, ν variables normales centrés réduites indépendantes • Soit χ2 la somme de leurs carrés • Cette somme est elle-même une variable aléatoire qui varie entre 0 et l'infini • Cette variable aléatoire a pour fonction de densité : x (ν / 2) - 1 e-(x/2) f(x) = ______________ avec x= χ2 >0 2 (ν / 2) Γ(ν / 2) Nous retrouvons la fonction vue en début de chapitre E(χ2 )=ν V(χ2 )=2ν Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • On dit que c'est une loi du χ2 à ν degrés de liberté • La loi du χ2 est une distribution dissymétrique étalée vers la droite. • Elle tend à se rapprocher de la distribution normale quand le nombre de degrés de liberté augmente • Sous Excel, LOI.KHIDEUX(x;d) renvoie la probabilité d'une variable aléatoire x suivant une loi du χ2 à d degrés de liberté • KHIDEUX.INVERSE renvoie, pour une probabilité donnée, la valeur de la variable aléatoire suivant une loi du χ2 • Construction table Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • Pour ν = 9, la valeur du χ2 a une probabilité de 75% d'être supérieure à 5,90 et de 5% d'être supérieure à 16,9 Nb deg liberte 1 2 3 4 5 6 7 8 9 0,07172177 0,1148318 0,21579528 0,35184632 0,58437437 0,20698909 0,29710948 0,48441856 0,71072302 1,06362322 1,34441309 1,64649738 2,17973075 2,7326368 3,48953913 1,73493291 2,08790074 2,70038952 3,32511286 4,16815904 x 0,005 0,01 0,025 0,05 0,1 0,995 0,99 0,975 0,95 0,9 3,927E-05 0,00015709 0,00098207 0,00393214 0,01579077 0,01002508 0,02010067 0,05063562 0,10258659 0,21072103 0,4117419 0,55429808 0,83121162 1,14547623 1,61030799 0,67572678 0,87209033 1,23734425 1,6353829 2,20413068 0,98925569 1,23904231 1,68986919 2,16734992 2,83310693 0,25 0,5 0,75 0,9 0,75 0,5 0,25 0,1 0,10153104 0,45493643 1,32330472 2,70554397 0,57536415 1,21253292 1,92255756 2,67460285 1,38629438 2,36597389 3,356694 4,35146022 2,77258872 4,1083445 5,38526906 6,62567989 4,60517019 6,25138846 7,77944034 9,23635694 3,45459887 5,34812084 7,84080412 10,6446407 4,25485221 5,07064054 5,898826 6,34581137 7,34412163 8,34283278 9,03714745 10,218855 11,3887515 12,0170366 13,3615661 14,6836566 0,95 0,975 0,99 0,995 0,05 0,025 0,01 0,005 3,84145915 5,02388647 6,63489671 7,87943869 5,99146455 7,37775891 9,21034037 10,5966347 7,81472776 9,48772904 11,0704978 12,5915872 9,34840357 11,1432868 12,832502 14,4493753 11,3448667 13,2767041 15,0862725 16,8118938 12,8381564 14,860259 16,7496024 18,5475842 14,0671404 15,5073131 16,91898 16,0127643 17,5345461 19,0227678 18,4753069 20,090235 21,6659943 20,2777399 21,954955 23,5893508 Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • Pour ν = 9, la valeur du χ2 a une probabilité de 75% d'être supérieure à 5,90 et de 5% d'être supérieure à 16,9 Nb deg liberte 1 2 3 4 5 6 7 8 9 0,07172177 0,1148318 0,21579528 0,35184632 0,58437437 0,20698909 0,29710948 0,48441856 0,71072302 1,06362322 1,34441309 1,64649738 2,17973075 2,7326368 3,48953913 1,73493291 2,08790074 2,70038952 3,32511286 4,16815904 x 0,005 0,01 0,025 0,05 0,1 0,995 0,99 0,975 0,95 0,9 3,927E-05 0,00015709 0,00098207 0,00393214 0,01579077 0,01002508 0,02010067 0,05063562 0,10258659 0,21072103 0,4117419 0,55429808 0,83121162 1,14547623 1,61030799 0,67572678 0,87209033 1,23734425 1,6353829 2,20413068 0,98925569 1,23904231 1,68986919 2,16734992 2,83310693 0,25 0,5 0,75 0,9 0,75 0,5 0,25 0,1 0,10153104 0,45493643 1,32330472 2,70554397 0,57536415 1,21253292 1,92255756 2,67460285 1,38629438 2,36597389 3,356694 4,35146022 2,77258872 4,1083445 5,38526906 6,62567989 4,60517019 6,25138846 7,77944034 9,23635694 3,45459887 5,34812084 7,84080412 10,6446407 4,25485221 5,07064054 5,898826 6,34581137 7,34412163 8,34283278 9,03714745 10,218855 11,3887515 12,0170366 13,3615661 14,6836566 0,95 0,975 0,99 0,995 0,05 0,025 0,01 0,005 3,84145915 5,02388647 6,63489671 7,87943869 5,99146455 7,37775891 9,21034037 10,5966347 7,81472776 9,48772904 11,0704978 12,5915872 9,34840357 11,1432868 12,832502 14,4493753 11,3448667 13,2767041 15,0862725 16,8118938 12,8381564 14,860259 16,7496024 18,5475842 14,0671404 15,5073131 16,91898 16,0127643 17,5345461 19,0227678 18,4753069 20,090235 21,6659943 20,2777399 21,954955 23,5893508 =KHIDEUX.INVERSE(x;ν) Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • Principe du test • Les écarts entre la distribution observée et la distribution ajustée à la loi peuvent être de deux causes : • Une fluctation normale d'échantillonnage (l'échantillon est un extrait de la population) avec des écarts faibles • L'ajustement n'a pas lieu d'être, avec un écart supérieur avec des écarts élevés • Cet écart va être mesuré par la distance existante entre la théorique ajustée et la distribution observée • Cette distance étant une grandeur aléatoire, elle est mesurée par une loi de probabilité Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • Cette loi permet de calculer la probabilité d'obtenir une distance supérieure à la distance observée • On se fixe un seuil de probabilité α dit seuil de confiance • Si la probabilité obtenue est inférieure au seuil de confiance, on rejette l'hypothèse. • Si la probabilité obtenue est supérieure au seuil de confiance, on accepte l'hypothèse. Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • L'expérience concerne N observations classées selon k modalités (classes de valeurs) • A chaque modalité Ci correspond un effectif Ni et la probabilité pi déterminé par la loi P de probabilité théorique • La distance d : 2 ( N − N ) i pi 2 d = ∑ e1 = ∑ N pi i =1 i =1 k k • Avant la réalisation des observation, d est une variable aléatoire qui suit une loi du χ2 à ν=k-1 degrés de liberté Test d'hypothèse non paramétrique : le χ2 (c) JP Marca pour CNAM INTEC • Après la réalisation, on est à même de calculer d • On connaît pas a priori la loi P. Celle-ci est ajustée d'après la distribution observée. • Si l'ajustement de la loi théorique a nécessité l'estimation de r paramètres à partir des observations, la distance d suit, dans l'hypothèse où la distribution théorique est effectivement la loi ajustée, une loi du χ2 à ν=k-r-1 degrés de liberté • Tout ceci repose sur une distribution normale des écats qui implique des effectifs suffisamment grands (4,5) dans chaque modalité, d'où de possibles regroupements • Seuil α de 2 à 5% Test d'hypothèse non paramétrique : le χ2 • Corrigé Pb N o 5 • Doc D1 et D2 (c) JP Marca pour CNAM INTEC Test d'hypothèse paramétrique (c) JP Marca pour CNAM INTEC • Construire un test suppose le processus suivant : 1. Choix des hypothèses • H0 Hypothèse dite nulle, c'est l'hypothèse qui sera privilégiée • H1 contre laquelle on teste H0 2. Détermination de la variable de décision D • En supposant l'hypothèse H0 vraie, la loi de probabilité de la variable D doit être parfaitement déterminée 3. Choix du risque α, de 1ère espèce, ce risque correspond à la probabilité de rejeter, à tort, l'hypothèse H0 • Détermination de la région critique , ensemble des valeurs de D conduisant au rejet de H0. Cette région dépend de l'hypothèse H1 4. Enoncé de la règle de décision Test de comparaison d'un paramètre à une norme (c) JP Marca pour CNAM INTEC • Comparaison d'une moyenne à une norme • On utilise la variable de décision X • Comparaison d'une proportion à une norme • On utilise la variable de décision F Test de comparaison d'un paramètre à une norme (c) JP Marca pour CNAM INTEC • Exemple • On considère un échantillon d'effectif 50 dans lequel on mesure x = 42, s = 7 • Tester H0 : M=40 contre H1 M>40 • La variable de décision adaptée est X • X est régie par une loi normale N (M; σ(x)=σ / Vn) • Si H0 vrai, M=40 • σ, écart-type de l'age dans la population est inconnu • Il est estimé par s/V n-1 = 7/7 = 1 • La loi N (40;1) puisque N>= 30 Test de comparaison d'un paramètre à une norme (c) JP Marca pour CNAM INTEC N (40;1) gère l'expérience • La loi • Le seuil de signification étant fixé à α = 5 %, la limite l de la région critique est donnée par : • P(x<l / M=40) = 0,05 <=> P(T<t0,05) = 0,05 • ou T représente la variable normale centrée réduite x−M T= s n • La valeur de t0,05 dans la table (P(0,1) = 1,645 • D'ou t = 1,645 = l - 40/ (7/V50) • => l = 41,63 • On rejette H0 (42 > 41,63) Test de comparaison d'un paramètre à une norme (c) JP Marca pour CNAM INTEC H0 : région d'acceptation 0,45 0,4 H1 : région critique 0,35 0,3 0,25 Série1 0,2 0,15 0,1 0,05 0 41,63 40 Comparaison d'échantillons • Soit 2 échantillons A et B • A : mA, σA, PA • B : mB, σB, PB • On considère que les échantillons sont indépendants (c) JP Marca pour CNAM INTEC Comparaison d'échantillons : comparaison moyennes • Les hypothèses : • H0 => mA = mB • H1 => mA ≠ mB • Pour effectuer ce test, on le transforme en • H0 => mA - mB = 0 • H1 => mA - mB ≠ 0 • On utilise la variable de décision XA - XB • qui répond à une loi normale N(mA − mB ; σ A2 σ B2 nA + nB (c) JP Marca pour CNAM INTEC Comparaison d'échantillons : comparaison proportions • Les hypothèses : • H0 => pA = pB • H1 => pA ≠ pB • Pour effectuer ce test, on le transforme en • H0 => pA - pB = 0 • H1 => pA - pB ≠ 0 • On utilise la variable de décision FA - FB • qui répond à une loi normale p A (1 − p A ) pB (1 − pB ) N(p A − pB ; + nA nB (c) JP Marca pour CNAM INTEC Comparaison d'échantillons : comparaison proportions (c) JP Marca pour CNAM INTEC • Dans une entreprise, on tire un échantillon de 150 personnes. 30 femmes parmi 50 ont un salaire mensuel inférieur à 2000 € alors que 65 hommes parmi 100 ont un salaire mensuel inférieur à 2000 € • Peut on considérer, au seuil de 5%, que la proportion de salaires inférieurs à 2000 est la même chez les femmes que chez les hommes. Test d'ajustement d'une distribution statistique par une loi de probabilité (c) JP Marca pour CNAM INTEC • Principe identique • Les hypothèses : • H0 => X suit telle loi de probabilité • H1 => X ne suit pas telle loi de probabilité • On utilise la variable de décision D • Sous H0 ( N ith − niobs ) D=∑ N ith 2 • Avec Nith = effectif théorique qui serait observé si H0 vrai • Nobs = effectif observé dans distribution empirique Test d'ajustement d'une distribution statistique par une loi de probabilité (c) JP Marca pour CNAM INTEC • D suit une loi du χ2(ν) • avec ν : paramètre loi du χ2 = k - r - 1 • k = nombre de modalités • r = nombre de paramètres • Détermination d'une région critique, de seuil α, correspondant au risque de 1ere espèce (Probabilité d'avoir H1 vrai alors que H0 est considéré comme vrai, d'ou contradiction) • Probabilité β d'avoir H0 vrai alors que H1 est considéré comme vrai (contradiction inverse : risque 2ème espèce) Revue avec Excel • Modèle RappelBase (c) JP Marca pour CNAM INTEC Exercices • • • • • (c) JP Marca pour CNAM INTEC Le bruit émis par les avions doit être inférieur à 80 décibels dans les zones voisines, sinon l'aéroport doit indemniser les riverains Ceux-ci affirment que le niveau de bruit atteint effectivement 80 décibels alors que l'aéroport affirme qu'il n'est que de 78 décibels. Des experts font des mesures en prélevant un échantillon de n= 100 et s2 = 49 1: Que signifie le choix H0 m = 80 et H1 : m<80 2. H0 m=80 · Quelle région critique ? · Que faire si moyenne de l'échantillon est 79,1 Application à la comptabilité (c) JP Marca pour CNAM INTEC • Contrôle par sondage de l'inventaire • Comparaison des effectifs réels à ceux figurant à l'inventaire • Contrôle par sondage : au lieu de contrôler toutes les catégories d'articles, on n'effectue le contrôle que sur un échantillon choisi au hasard • On vérifie que cet échantillon ne comporte pas plus d'une certaine proportion d'erreurs, autrement dit que l'on est pas au delà d'une limite l qui fixe la frontière de l'inacceptable (région critique) • Test simple • Test classique • Test progressif (c) JP Marca pour CNAM INTEC UV205 MATHEMATIQUES CHAPITRE No 8 Analyse de données (c) JP Marca pour CNAM INTEC • Comment aller au delà de la statistique descriptive en prenant en compte des données multidimensionnelles • Régression • Analyse en composantes principales • Analyse factorielle des correspondances Régression à une variable (c) JP Marca pour CNAM INTEC • On peut chercher un ajustement linéaire entre le chiffre d'affaires Y (variable expliquée) et chacune des deux variables explicatives X1 (budget pub) et X2 (promotion des ventes) • Les paramètres de cette droite sont donnés par Cov ( X i , Y ) a= V (Xi) b = Y − aX i • On rappelle que la covariance est la moyenne des produits des écarts pour chaque série d'observation Régression à une variable Période 1 2 3 4 5 6 7 8 9 10 Y (c) JP Marca pour CNAM INTEC X1 150 135 140 127 138 124 110 154 142 133 135,3 Coefficient correlation Son carré X2 20 18 17 18 19 17 16 20 19 18 18,2 10 8 9 7 7 6 5 11 9 8 8 0,87731343 0,95322775 0,76967885 0,90864314 covariance covariance**2 V(X) V(Y) 13,34 20,1 177,9556 404,01 1,56 3 148,21 148,21 0,76967885 0,90864314 Droite regression Y,X1 8,55128205 -20,3333333 1,65385858 30,1710225 0,76967885 6,53221798 26,7341095 8 Valeur a Valeur b Régression à une variable X1 16 17 17 18 18 18 19 19 20 20 DX1 116,487179 125,038462 125,038462 133,589744 133,589744 133,589744 142,141026 142,141026 150,692308 150,692308 (c) JP Marca pour CNAM INTEC Y 110 140 124 135 127 133 138 142 150 154 180 160 140 120 100 Données mesurées Ajustement 80 60 40 20 0 15 17 19 21 Régression à une variable (c) JP Marca pour CNAM INTEC La fonction Y = aXi+b minimise les carrés des écarts entre les valeurs réelles de Y et les valeurs ajustée Le coefficient de corrélation mesure la réalité de cet ajustement : Cov ( X , Y ) ρ = σ ( X ) * σ (Y ) où X et Y sont MOYENNE(matrice1) et MOYENNE(matrice2). L'ajustement est meilleur avec X2 Régression à deux variables On recherche de la même manière une fonction Y = a1X1 + a2X2 + b qui minimise les carrés des écarts entre les valeurs réelles de Y et les valeurs ajustée (c) JP Marca pour CNAM INTEC Analyse en composantes principales A partir d'un certain nombre d'observations portant sur un ensemble d'individus, on cherche à repérer l'existence de groupes d'individus ayant, par rapport aux variables observées, des profils communs (c) JP Marca pour CNAM INTEC Analyse en composantes principales (c) JP Marca pour CNAM INTEC Exemple des notes obtenues par un groupe d'élèves dans 2 matières Individus A B C D E F G H I J K Français 6 6 19 15 19 15 5 8 7 14 13 Maths 5 13 18 12 16 15 14 2 5 16 14 20 18 16 Maths 14 12 10 8 6 4 2 0 0 5 10 Français 15 20 Analyse en composantes principales • Si plus de 2 variables, travail dans un espace à n dimensions • Projection sur 2 axes, choisis comme étant ceux pour lesquels la projection du nuage de point a une variance maximale • Nécessité logiciel spécifique (c) JP Marca pour CNAM INTEC Analyse en composantes principales (c) JP Marca pour CNAM INTEC • Données de base (Amerique du Sud 1996) PNB/Hab Argentine (A) Taux chômage Taux d'inflation Dette/PNB 8320 18,0% 0,1% 30,00% 800 5,8% 10,2% 79,00% Brésil (BR) 3801 4,7% 11,0% 22,00% Chili (CH) 4545 4,9% 6,6% 11,00% Colombie (CO) 1910 8,6% 21,0% 30,00% Equateur (EQ) 1390 12,0% 23,0% 73,00% Paraguay (PA) 1690 4,8% 8,0% 30,00% Pérou (PE) 2310 8,8% 11,0% 48,00% Uruguay (U) 5170 10,7% 42,2% 70,00% Vénézuela (V) 2548 13,0% 1,02 44,00% Bolivie (BO) Analyse en composantes principales (c) JP Marca pour CNAM INTEC • Résultats programme ACP Composantes sur axes principaux Axe 1 PNB/Hab 0,727 Taux chômage 0,647 Taux d'inflation 0,076 Dette/PNB -0,215 Part des axes dans variance totale Axe 1 0,393 Axe 2 0,376 Axe 2 -0,237 0,403 0,619 0,631 Coordonnées des pays sur les axes Argentine (A) Bolivie (BO) Brésil (BR) Chili (CH) Colombie (CO) Equateur (EQ) Paraguay (PA) Pérou (PE) Uruguay (U) Vénézuela (V) Axe 1 3,17 -1,73 -0,33 0,05 -0,41 -0,47 -1,11 -0,44 0,69 0,58 Axe 2 -0,60 0,66 -1,38 -1,85 -0,35 1,31 -0,98 -0,08 1,10 2,17 Analyse en composantes principales (c) JP Marca pour CNAM INTEC • Interprétation résultats • Axe 1, 39% de la variance totale, marqué par le poids de la composante PNB/Hab (0,727) => niveau développement PE CO BO PA BR CH -2 -1 0 U V A 1 2 3 4 Analyse en composantes principales (c) JP Marca pour CNAM INTEC • Interprétation résultats • Axe 2, 37% de la variance totale, marqué par le poids des composantes taux d'inflation (0,619) et dette/PNB (0,631) => Conformité FMI CH -3,00 -2,00 U PA BR A CO PE BO -1,00 0,00 1,00 E V 2,00 3,00 Analyse en composantes principales (c) JP Marca pour CNAM INTEC • Projection sur le plan des deux axes principaux 2,50 2,00 1,50 1,00 0,50 0,00 -0,50 -1,00 -1,50 -2,00 -2,50 -2 -1 0 1 2 3 4 Analyse factorielle des correspondances • Même principe appliqué à des tableaux de contingence répartissant une population statistique en fonction de 2 variables, dans un tableau à double entrée • Les totaux verticaux et horizontaux ont alors une signification (Vérif 100 % en valeur relative) (c) JP Marca pour CNAM INTEC