EPITECH PROBABILITES ET STATISTIQUES Cours207 Ajustements statistiques Dominique Neveu Année 2006-2007 Chapitre 1 Ajustements statistiques 1.1 Avertissement au lecteur Les résultats de calculs dans ce cours le sont avec peu de chiffres significatifs afin d’en clarifier la lecture. Toutefois, nous précisons que tous les calculs ont été effectués avec la précision maximum. Ce n’est qu’à l’affichage que la précision est réduite. 1.2 Séries observées Dans ce paragraphe, nous décrivons ce qu’est une série observée. Nous citons des exemples que nous traiterons tout au long de ce cours pour expliquer comment on effectue un ajustement avec une loi de probabilités. On effectue des observations d’une variable sur un échantillon. On supposera dans ce cours que la variable est de type quantitatif discret, c’est à dire adoptant une liste de valeurs entières. Mais les notions présentées dans ce cours s’appliquent aussi à d’autres types de variables. Pour chaque valeur possible de la variable, on relève l’effectif de cette valeur dans l’échantillon. On dispose ainsi d’une série de valeurs et de leur effectif observé. On dit alors qu’il s’agit d’une série observée. Nous allons adopter les notations suivantes : x Ox X Ox N= : valeur de la variable. : effectif observé correspondant. : total des effectifs observés. x Exemple 1 (Nombres aléatoires) On veut tester un programme informatique qui génère des nombres au hasard. On choisit de générer des nombres 1 entiers compris entre 0 et 9. On effectue un test sur 1000 nombres. Pour chaque nombre, on relève son nombre d’apparitions ou effectif. Les résultats sont donnés dans le tableau ci-dessous. x Ox Nombre Effectif 0 120 1 87 2 115 3 103 4 91 5 109 6 92 7 112 8 94 9 77 Total 1 000 Exemple 2 (Production de pièces métalliques) Un marteau-pilon fabrique des pièces métalliques en très grand nombre. Certaines sont défectueuses. Pour effectuer un contrôle, on prélève 100 échantillons de 100 pièces. Pour chaque échantillon, on relève le nombre de pièces défectueuses. Le nombre de pièces défectueuses varie entre 0 et 8. Le nombre d’échantillons correspondants est donné dans le tableau suivant : x Ox Nombre de pièces défectueuses Effectif : Nombre d’échantillons 0 1 2 3 4 5 6 7 8 9 et plus Total 2 7 14 21 19 17 11 5 4 0 100 Exemple 3 (Métal radioactif ) On a observé le nombre de particules β émises par un métal radioactif pendant 100 secondes successives. Pour chaque seconde, on note le nombre de particules émises qui est compris entre 0 et 12 ou plus. Le tableau suivant présente la série observée : x Ox 1.3 Nombre de particules Effectif : Nombre de de secondes 0 1 2 3 4 5 6 7 8 9 10 11 12 et plus 1 2 4 8 13 15 17 14 10 7 4 3 2 Ajustement d’une loi de probabilités à une série observée Le but de ce paragraphe est de présenter des ajustements de séries observées avec des lois de probabilités théoriques. Le principe en est le suivant. Pour une série observée donnée, on choisit une loi de probabilités adaptée. On calcule alors, pour chaque valeur de la série, l’effectif théorique donné par la loi de probabilités. Finalement, on compare l’ensemble des effectifs observés à celui des effectifs théoriques calculés et on juge de la validité de l’ajustement choisi. 2 Total 100 Différents ajustements sont possibles, suivant les situations rencontrées. On retient, à titre d’exemple les ajustements suivant : ajustement d’une loi uniforme, ajustement d’une loi binômiale et ajustement d’une loi de Poisson. Il y a de nombreux avantages à substituer une loi de probabilité connue à une série observée. En effet, cette loi a des propriétés connues, elle est en général tabulée. On présente alors, à la place de la série observée, quelques caractéristiques simples de la loi. Ceci facilite, entre autres, les comparaisons entre séries. Nous adoptons les notations suivantes : x Ox Tx X N= Ox : : : : valeur de la variable. effectif observé. effectif théorique calculé. total des effectifs observés. x 1.3.1 Loi uniforme La loi uniforme s’applique lorsque tous les évènements élémentaires sont équiprobables. C’est le cas de la plupart des jeux de hasard. Dans le cas de l’exemple 1 du générateur de nombres aléatoires, c’est la loi uniforme que nous retenons pour l’ajustement. Exemple 4 (suite de l’exemple 1) Chacun des dix nombres générés au 1 hasard admet une probabilité d’apparaître. Pour obtenir l’effectif à partir 10 de la probabilité, il faut multiplier par l’effectif total N = 1000. On a donc le tableau d’effectifs théoriques suivant : x 0 1 2 3 4 5 6 7 8 9 Total Ox 120 87 115 103 91 109 92 112 94 77 N = 1000 3 Tx 100 100 100 100 100 100 100 100 100 100 1000 1.3.2 Loi binomiale Lorsque la série observée représente le nombre de succès d’une suite d’épreuves répétées, on peut tenter un ajustement par une loi binomiale B(n,p). La difficulté essentielle consiste à déterminer les paramètres n et p. Le paramètre n est égal à l’effectif total N de la série. Pour déterminer p, la question peut se poser de deux manières. Parfois p est imposé par la nature même de la série statistique. Dans d’autres cas, p n’est pas connu : on l’estime alors par la moyenne des valeurs observées. Ces deux possibilités seront présentées sur un même exemple. Exemple 5 (suite de l’exemple 2) 1˚ Dans le cas de l’exemple 2, peuton ajuster une loi binomiale ? La population est nombreuse. La question est de savoir si la proportion p des pièces défectueuses est fixe. Ceci n’est pas évident : réglage du marteau-pilon, qualité du métal des pièces... Moyennant cette réserve, il est possible d’appliquer la loi binômiale. 2˚ Quel est le paramètre n de la loi binomiale ? Le paramètre n est égal à l’effectif total N : n = N = 100. 3˚ Quel est le paramètre naturel p de la loi binomiale ? Le nombre moyen de pièces défectueuses est donné par la moyenne des observations : 1 X x= x.Ox N x 0 × 2 + 1 × 7 + 2 × 14 + ... + 9 × 0 392 = = 3, 92pièces défectueuses. 100 100 On choisit le paramètre p égal à la proportion de pièces défectueuses : x= p= x 3, 92 = = 0, 0392 N 100 On aurait donc une loi binomiale B(100 ;0,0392). 4˚ Quels sont les paramètres p si la proportion de pièces défectueuses était connue et égale à 3% ou 4% ? Pour qu’il y ait 3% ou 4% de pièces défectueuses de façon fixe, il faudrait que la loi de répartition des échantillons observés soit une loi binômiale B(100 ;0,03) ou B(100 ;0,04). 5˚ Quelles sont les valeurs théoriques des effectifs pour ces différents ajustements ? Les effectifs théoriques Tx sont obtenus par le produit de la probabilité par l’effectif total : Tx = N × Cnx .px .(1 − p)n−x 4 x Tx = 100 × C100 .px .(1 − p)100−x Remarque importante : Pour que la somme des effectifs théoriques soit égale à la somme N des effectifs observés, la dernière valeur T(9 et plus) est calculée par différence au total des effectifs observés N et non par la formule donnée par la loi. On obtient les résultats suivants : Nombre de pièces défectueuses x 0 1 2 3 4 5 6 7 8 9 et plus Total Nombre d’échantillons Ox 2 7 14 21 19 17 11 5 4 0 100 B(100 ;0,03) Tx 4,8 14,7 22,5 22,7 17,1 10,1 5,0 2,1 0,7 0,3 100 B(100 ;0,0392) Tx 1,8 7,5 15,1 20,1 19,9 15,6 10,1 5,5 2,6 1,7 100 B(100 ;0,04) Tx 1,7 7,0 14,5 19,7 19,9 16,0 10,5 5,9 2,9 1,9 100 Les résultats obtenus avec le paramètre naturel p = 0,0392 ne sont pas très différents des effectifs observés. Ceci est en faveur de l’ajustement binômial. On voit également que la distribution observée se rapproche plus de B(100 ;0,04) que de B(100 ;0,03). En observant les valeurs du nombre théorique de pièces défectueuses, on constate que les lois B(100 ;0,0392) et B(100 ;0,04) paraissent être de bons ajustements. 1.3.3 Loi de Poisson Il existe essentiellement deux cas où l’on peut tenter un ajustement par une loi de Poisson. Le premier cas correspond aux conditions de la loi de Poisson. On rappelle qu’un processus de Poisson est la réalisation d’évènements aléatoires rares dans le temps ou dans l’espace, obéissant aux conditions suivantes : – La probabilité de l’évènement au cours d’une petite période ou sur une petite portion d’espace ∆t est proportionnelle à ∆t ; – Elle est indépendante de ce qui s’est produit antérieurement ou à côté ; – La probabilité de deux apparitions sur le même ∆t est négligeable. 5 Lorsque l’on est en présence d’une série satisfaisant au moins approximativement aux conditions énoncées ci-dessus et telle que la moyenne observée soit du même ordre que la variance observée, on peut tenter un ajustement par une loi de Poisson. On rappelle que la moyenne et la variance se calculent d’après les formules suivantes : x= V ar(x) = 1 X x.Ox N x 1 X 2 x .Ox − x2 N x Le deuxième cas est celui de l’approximation de la loi binomiale par la loi de Poisson. C’est à dire lorsqu’on se trouve devant une distribution binomiale B(n,p) avec p très faible (en pratique p < 0.1), n grand (en pratique n > 50), et np ≤ 10 (de l’ordre de quelques unités). La loi binomiale B(n,p) peut alors être approchée par la loi de Poisson de paramètre λ = np. De la même manière que dans le cas de l’ajustement par la loi binomiale, il faut rechercher le paramètre λ soit comme moyenne de la distribution, soit en se le donnant à priori. Le premier exemple porte sur un processus de Poisson. Le deuxième est un ajustement de la loi binômiale par une loi de Poisson. Exemple 6 (suite de l’exemple 3) On a observé le nombre de particules β émises par un métal radioactif pendant 100 secondes successives. On se trouve bien devant un processus de Poisson : la probabilité d’émission d’une particule est proportionnelle au temps, indépendante des émissions antérieures ; sur une très courte période, la probabilité d’apparition de deux particules à la fois est négligeable. En évaluant la moyenne et la variance des observations, on montre que ces valeurs sont proches : x= 0 × 1 + 1 × 2 + 2 × 4 + ... + 12 × 2 601 = = 6, 01émissions/seconde 100 100 02 × 1 + 12 × 4 + 22 × 4 + ... + 122 × 2 − (6, 01)2 ' 6, 17 100 La moyenne et la variance sont voisines. Il est alors logique de tenter un ajustement par une loi de Poisson, de paramètre λ = 6,01. Les effectifs théoriques Tx sont donnés par la formule (probabilité multipliée par l’effectif total) : V ar(x) = Tx = N × 6 e−λ .(λ)x x! Tx = 100 × e−6,01 .(6, 01)x x! Remarque importante : Pour que la somme des effectifs théoriques soit égale à la somme N des effectifs observés, la dernière valeur T(12 et plus) est calculée par différence au total des effectifs observés et non par la formule donnée par la loi. Nombre de particules x 0 1 2 3 4 5 6 7 8 9 10 11 12 et plus Total Nombre de secondes Ox 1 2 4 8 13 15 17 14 10 7 4 3 2 100 P(6,01) Tx 0,2 1,5 4,4 8,9 13,3 16,0 16,1 13,8 10,4 6,9 4,2 2,3 2,0 100 On remarque qu’il n’y a pas de trop fortes différences visibles entre les effectifs observés Ox et les effectifs théoriques Tx . Exemple 7 (suite de l’exemple 2 et 5) En admettant la validité de la représentation de la distribution observée par une loi binômiale, on se trouve dans les conditions où l’approximation de la loi binômiale par la loi de Poisson est possible : n = 100 est assez grand, p = 0,0392 est faible, np = 3,92 est de l’ordre de quelques unités. On peut donc chercher à ajuster une loi de Poisson de paramètre λ = 3,92. Comme 3,92 est proche de 4, il est possible de tenter également l’essai d’une approximation par une loi de paramètre 4. Cela revient à chercher s’il y a 4% de pièces à rejeter dans la production du marteau-pilon. Les résultats sont donnés dans le tableau suivant (la dernière valeur est encore calculée par différence avec le total observé pour obtenir les mêmes totaux d’effectifs) : 7 Nombre de pièces défectueuses x 0 1 2 3 4 5 6 7 8 9 et plus Total Nombre d’échantillons Ox 2 7 14 21 19 17 11 5 4 0 100 P(3,92) Tx 2,0 7,8 15,2 19,9 19,5 15,3 10,0 5,6 2,7 1,9 100 P(4) Tx 1,8 7,3 14,7 19,5 19,5 15,6 10,4 6,0 3,0 2,1 100 L’un et l’autre des ajustements paraissent satisfaisants. Remarquons que dans cet exemple, les lois binômiales B(100 ;0,03), B(100 ;0,0392) et B(100 ;0,04) et les lois de Poisson P(3,92) et P(4), toutes les cinq, paraissent s’ajuster convenablement à la série observée. 8