EPITECH PROBABILITES ET STATISTIQUES Cours207

publicité
EPITECH
PROBABILITES ET STATISTIQUES
Cours207
Ajustements statistiques
Dominique Neveu
Année 2006-2007
Chapitre 1
Ajustements statistiques
1.1
Avertissement au lecteur
Les résultats de calculs dans ce cours le sont avec peu de chiffres significatifs afin d’en clarifier la lecture. Toutefois, nous précisons que tous les
calculs ont été effectués avec la précision maximum. Ce n’est qu’à l’affichage
que la précision est réduite.
1.2
Séries observées
Dans ce paragraphe, nous décrivons ce qu’est une série observée. Nous
citons des exemples que nous traiterons tout au long de ce cours pour expliquer comment on effectue un ajustement avec une loi de probabilités.
On effectue des observations d’une variable sur un échantillon. On supposera dans ce cours que la variable est de type quantitatif discret, c’est à dire
adoptant une liste de valeurs entières. Mais les notions présentées dans ce
cours s’appliquent aussi à d’autres types de variables.
Pour chaque valeur possible de la variable, on relève l’effectif de cette valeur dans l’échantillon. On dispose ainsi d’une série de valeurs et de leur
effectif observé. On dit alors qu’il s’agit d’une série observée.
Nous allons adopter les notations suivantes :
x
Ox X
Ox
N=
: valeur de la variable.
: effectif observé correspondant.
: total des effectifs observés.
x
Exemple 1 (Nombres aléatoires) On veut tester un programme informatique qui génère des nombres au hasard. On choisit de générer des nombres
1
entiers compris entre 0 et 9. On effectue un test sur 1000 nombres. Pour
chaque nombre, on relève son nombre d’apparitions ou effectif. Les résultats
sont donnés dans le tableau ci-dessous.
x
Ox
Nombre
Effectif
0
120
1
87
2
115
3
103
4
91
5
109
6
92
7
112
8
94
9
77
Total
1 000
Exemple 2 (Production de pièces métalliques) Un marteau-pilon fabrique des pièces métalliques en très grand nombre. Certaines sont défectueuses. Pour effectuer un contrôle, on prélève 100 échantillons de 100 pièces.
Pour chaque échantillon, on relève le nombre de pièces défectueuses. Le
nombre de pièces défectueuses varie entre 0 et 8. Le nombre d’échantillons
correspondants est donné dans le tableau suivant :
x
Ox
Nombre
de pièces
défectueuses
Effectif :
Nombre
d’échantillons
0
1
2
3
4
5
6
7
8
9 et
plus
Total
2
7
14
21
19
17
11
5
4
0
100
Exemple 3 (Métal radioactif ) On a observé le nombre de particules β
émises par un métal radioactif pendant 100 secondes successives. Pour chaque
seconde, on note le nombre de particules émises qui est compris entre 0 et
12 ou plus. Le tableau suivant présente la série observée :
x
Ox
1.3
Nombre
de particules
Effectif :
Nombre de
de secondes
0
1
2
3
4
5
6
7
8
9
10
11
12 et
plus
1
2
4
8
13
15
17
14
10
7
4
3
2
Ajustement d’une loi de probabilités à une série
observée
Le but de ce paragraphe est de présenter des ajustements de séries observées avec des lois de probabilités théoriques. Le principe en est le suivant.
Pour une série observée donnée, on choisit une loi de probabilités adaptée.
On calcule alors, pour chaque valeur de la série, l’effectif théorique donné
par la loi de probabilités. Finalement, on compare l’ensemble des effectifs
observés à celui des effectifs théoriques calculés et on juge de la validité de
l’ajustement choisi.
2
Total
100
Différents ajustements sont possibles, suivant les situations rencontrées. On
retient, à titre d’exemple les ajustements suivant : ajustement d’une loi uniforme, ajustement d’une loi binômiale et ajustement d’une loi de Poisson.
Il y a de nombreux avantages à substituer une loi de probabilité connue
à une série observée. En effet, cette loi a des propriétés connues, elle est en
général tabulée. On présente alors, à la place de la série observée, quelques
caractéristiques simples de la loi. Ceci facilite, entre autres, les comparaisons
entre séries.
Nous adoptons les notations suivantes :
x
Ox
Tx X
N=
Ox
:
:
:
:
valeur de la variable.
effectif observé.
effectif théorique calculé.
total des effectifs observés.
x
1.3.1
Loi uniforme
La loi uniforme s’applique lorsque tous les évènements élémentaires sont
équiprobables. C’est le cas de la plupart des jeux de hasard. Dans le cas de
l’exemple 1 du générateur de nombres aléatoires, c’est la loi uniforme que
nous retenons pour l’ajustement.
Exemple 4 (suite de l’exemple 1) Chacun des dix nombres générés au
1
hasard admet une probabilité
d’apparaître. Pour obtenir l’effectif à partir
10
de la probabilité, il faut multiplier par l’effectif total N = 1000. On a donc le
tableau d’effectifs théoriques suivant :
x
0
1
2
3
4
5
6
7
8
9
Total
Ox
120
87
115
103
91
109
92
112
94
77
N = 1000
3
Tx
100
100
100
100
100
100
100
100
100
100
1000
1.3.2
Loi binomiale
Lorsque la série observée représente le nombre de succès d’une suite
d’épreuves répétées, on peut tenter un ajustement par une loi binomiale
B(n,p). La difficulté essentielle consiste à déterminer les paramètres n et p.
Le paramètre n est égal à l’effectif total N de la série. Pour déterminer p, la
question peut se poser de deux manières. Parfois p est imposé par la nature
même de la série statistique. Dans d’autres cas, p n’est pas connu : on l’estime alors par la moyenne des valeurs observées. Ces deux possibilités seront
présentées sur un même exemple.
Exemple 5 (suite de l’exemple 2) 1˚ Dans le cas de l’exemple 2, peuton ajuster une loi binomiale ?
La population est nombreuse. La question est de savoir si la proportion p des
pièces défectueuses est fixe. Ceci n’est pas évident : réglage du marteau-pilon,
qualité du métal des pièces... Moyennant cette réserve, il est possible d’appliquer la loi binômiale.
2˚ Quel est le paramètre n de la loi binomiale ?
Le paramètre n est égal à l’effectif total N : n = N = 100.
3˚ Quel est le paramètre naturel p de la loi binomiale ?
Le nombre moyen de pièces défectueuses est donné par la moyenne des observations :
1 X
x=
x.Ox
N x
0 × 2 + 1 × 7 + 2 × 14 + ... + 9 × 0
392
=
= 3, 92pièces défectueuses.
100
100
On choisit le paramètre p égal à la proportion de pièces défectueuses :
x=
p=
x
3, 92
=
= 0, 0392
N
100
On aurait donc une loi binomiale B(100 ;0,0392).
4˚ Quels sont les paramètres p si la proportion de pièces défectueuses était
connue et égale à 3% ou 4% ?
Pour qu’il y ait 3% ou 4% de pièces défectueuses de façon fixe, il faudrait
que la loi de répartition des échantillons observés soit une loi binômiale
B(100 ;0,03) ou B(100 ;0,04).
5˚ Quelles sont les valeurs théoriques des effectifs pour ces différents ajustements ?
Les effectifs théoriques Tx sont obtenus par le produit de la probabilité par
l’effectif total :
Tx = N × Cnx .px .(1 − p)n−x
4
x
Tx = 100 × C100
.px .(1 − p)100−x
Remarque importante : Pour que la somme des effectifs théoriques soit
égale à la somme N des effectifs observés, la dernière valeur T(9 et plus) est
calculée par différence au total des effectifs observés N et non par la formule
donnée par la loi.
On obtient les résultats suivants :
Nombre
de pièces
défectueuses
x
0
1
2
3
4
5
6
7
8
9 et plus
Total
Nombre
d’échantillons
Ox
2
7
14
21
19
17
11
5
4
0
100
B(100 ;0,03)
Tx
4,8
14,7
22,5
22,7
17,1
10,1
5,0
2,1
0,7
0,3
100
B(100 ;0,0392)
Tx
1,8
7,5
15,1
20,1
19,9
15,6
10,1
5,5
2,6
1,7
100
B(100 ;0,04)
Tx
1,7
7,0
14,5
19,7
19,9
16,0
10,5
5,9
2,9
1,9
100
Les résultats obtenus avec le paramètre naturel p = 0,0392 ne sont pas
très différents des effectifs observés. Ceci est en faveur de l’ajustement binômial. On voit également que la distribution observée se rapproche plus
de B(100 ;0,04) que de B(100 ;0,03). En observant les valeurs du nombre
théorique de pièces défectueuses, on constate que les lois B(100 ;0,0392) et
B(100 ;0,04) paraissent être de bons ajustements.
1.3.3
Loi de Poisson
Il existe essentiellement deux cas où l’on peut tenter un ajustement par
une loi de Poisson.
Le premier cas correspond aux conditions de la loi de Poisson. On rappelle
qu’un processus de Poisson est la réalisation d’évènements aléatoires rares
dans le temps ou dans l’espace, obéissant aux conditions suivantes :
– La probabilité de l’évènement au cours d’une petite période ou sur une
petite portion d’espace ∆t est proportionnelle à ∆t ;
– Elle est indépendante de ce qui s’est produit antérieurement ou à côté ;
– La probabilité de deux apparitions sur le même ∆t est négligeable.
5
Lorsque l’on est en présence d’une série satisfaisant au moins approximativement aux conditions énoncées ci-dessus et telle que la moyenne observée soit
du même ordre que la variance observée, on peut tenter un ajustement par
une loi de Poisson. On rappelle que la moyenne et la variance se calculent
d’après les formules suivantes :
x=
V ar(x) =
1 X
x.Ox
N x
1 X 2
x .Ox − x2
N x
Le deuxième cas est celui de l’approximation de la loi binomiale par la loi de
Poisson. C’est à dire lorsqu’on se trouve devant une distribution binomiale
B(n,p) avec p très faible (en pratique p < 0.1), n grand (en pratique n >
50), et np ≤ 10 (de l’ordre de quelques unités). La loi binomiale B(n,p) peut
alors être approchée par la loi de Poisson de paramètre λ = np.
De la même manière que dans le cas de l’ajustement par la loi binomiale, il
faut rechercher le paramètre λ soit comme moyenne de la distribution, soit
en se le donnant à priori.
Le premier exemple porte sur un processus de Poisson. Le deuxième est
un ajustement de la loi binômiale par une loi de Poisson.
Exemple 6 (suite de l’exemple 3) On a observé le nombre de particules
β émises par un métal radioactif pendant 100 secondes successives. On se
trouve bien devant un processus de Poisson : la probabilité d’émission d’une
particule est proportionnelle au temps, indépendante des émissions antérieures ; sur une très courte période, la probabilité d’apparition de deux particules à la fois est négligeable.
En évaluant la moyenne et la variance des observations, on montre que ces
valeurs sont proches :
x=
0 × 1 + 1 × 2 + 2 × 4 + ... + 12 × 2
601
=
= 6, 01émissions/seconde
100
100
02 × 1 + 12 × 4 + 22 × 4 + ... + 122 × 2
− (6, 01)2 ' 6, 17
100
La moyenne et la variance sont voisines. Il est alors logique de tenter un ajustement par une loi de Poisson, de paramètre λ = 6,01. Les effectifs théoriques
Tx sont donnés par la formule (probabilité multipliée par l’effectif total) :
V ar(x) =
Tx = N ×
6
e−λ .(λ)x
x!
Tx = 100 ×
e−6,01 .(6, 01)x
x!
Remarque importante : Pour que la somme des effectifs théoriques soit
égale à la somme N des effectifs observés, la dernière valeur T(12 et plus)
est calculée par différence au total des effectifs observés et non par la formule
donnée par la loi.
Nombre de
particules
x
0
1
2
3
4
5
6
7
8
9
10
11
12 et plus
Total
Nombre de
secondes
Ox
1
2
4
8
13
15
17
14
10
7
4
3
2
100
P(6,01)
Tx
0,2
1,5
4,4
8,9
13,3
16,0
16,1
13,8
10,4
6,9
4,2
2,3
2,0
100
On remarque qu’il n’y a pas de trop fortes différences visibles entre les effectifs
observés Ox et les effectifs théoriques Tx .
Exemple 7 (suite de l’exemple 2 et 5) En admettant la validité de la
représentation de la distribution observée par une loi binômiale, on se trouve
dans les conditions où l’approximation de la loi binômiale par la loi de Poisson est possible : n = 100 est assez grand, p = 0,0392 est faible, np = 3,92
est de l’ordre de quelques unités. On peut donc chercher à ajuster une loi de
Poisson de paramètre λ = 3,92.
Comme 3,92 est proche de 4, il est possible de tenter également l’essai d’une
approximation par une loi de paramètre 4. Cela revient à chercher s’il y a 4%
de pièces à rejeter dans la production du marteau-pilon. Les résultats sont
donnés dans le tableau suivant (la dernière valeur est encore calculée par
différence avec le total observé pour obtenir les mêmes totaux d’effectifs) :
7
Nombre de
pièces défectueuses
x
0
1
2
3
4
5
6
7
8
9 et plus
Total
Nombre
d’échantillons
Ox
2
7
14
21
19
17
11
5
4
0
100
P(3,92)
Tx
2,0
7,8
15,2
19,9
19,5
15,3
10,0
5,6
2,7
1,9
100
P(4)
Tx
1,8
7,3
14,7
19,5
19,5
15,6
10,4
6,0
3,0
2,1
100
L’un et l’autre des ajustements paraissent satisfaisants. Remarquons que
dans cet exemple, les lois binômiales B(100 ;0,03), B(100 ;0,0392) et B(100 ;0,04)
et les lois de Poisson P(3,92) et P(4), toutes les cinq, paraissent s’ajuster
convenablement à la série observée.
8
Téléchargement