NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE

publicité
Chapitre 1
NOTIONS ELEMENTAIRES
DE STATISTIQUE
PROBABILISTE
Les statistiques sont une modélisation de la part aléatoire des phénomènes.
Dans le cadre de ce cours, cet aléatoire concerne la variabilité des mesures quantitatives qui peuvent être entreprise en chimie ou en chimie-physique. Les bases
mathématiques de cette modélisation sont les probabilités. Ici, on se contentera de définitions proposées par l’ISO 3534[8]. Ce cours transcrira souvent des
normes éditées dans les séries ISO, en particulier [8], [9] et [10].
1.1
1.1.1
Défintions
Définition déterministe de la probabilité
Lors de la réalisation d’un événement A dont le nombre d’issues favorables
peut être calculé au moyen de l’analyse combinatoire (compte tenu de l’hypothèse d’équiprobabilité des issues), on définit la probabilité P (A) de cet événement par le rapport du nombre d’issues favorables (nA ) au nombre d’issues
possibles (n) :
nA
(1.1)
n
C’est la définition classique que l’on utilise pour évaluer les issues d’un jeu
de hasard depuis les travaux de B. Pascal au sujet des problèmes du Chevalier
de Méré [3] et développés par Huigens [7] et Bernouilli [1].
Exemple : La probabilité pour obtenir "pile" après un lancé d’une pièce
parfaitement symétrique est de 0,5.
P (A) =
1.1.2
Définition empirique de la probabilité
Si après un grand nombre de réalisations d’une expérience (n réalisations)
on observe nA fois l’issue souhaitée, la probabilité de cet événement est la limite
de la fréquence des observations de l’issue souhaitée :
1
2CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
P (A) = lim
n→∞
nA
n
(1.2)
En réalité, la fréquence observée en fonction de n oscille autour de sa valeur
théorique et s’en rapproche indéfiniment lorsque lim conformément à la "loi
n→∞
des grands nombres" [1, 13].
1.1.3
Variables aléatoires
Considérons un événement comportant un certain nombre d’issues. Si on
associe un nombre à chaque issue, ou à chaque ensemble d’issues, ce nombre est
appelé variable aléatoire ou aléa numérique. On la note par une lettre majuscule
X, par contre les valeurs particulières de la variable aléatoire sont notées par
une minuscule x. On additionne parfois un indice pour faire référence à une
réalisation particulière au sein d’une série de réalisation d’une même variable
aléatoire xi .
Exemple : jeu de pile ou face : Les issues du jeu sont pile ou face. On peut
associer à pile X = 1 et à face X = -1 ou encore 0 et 1 ou tout autre nombre.
X est alors une variable aléatoire.
Exemple détaillé :
Expérience aléatoire : lancer deux dés, un rouge et un bleu.
Evénements : le dé rouge fait 2 et le dé bleu fait 3
Variables aléatoires : X la valeur obtenue au tirage du dé rouge,
Y celle obtenue pour le dé bleu,
Z =X +Y,
T qui vaut 1 si X = Y et 0 sinon.
Remarquons que les événement {“On tire un double”} et {T = 1} sont
identiques.
1.1.4
Continuité et discontinuité d’une variable aléatoire,
notion de densité de probabilité
Variable discontinue ou discrète : C’est une variable qui ne peut prendre que
des valeurs isolées séparées par un intervalle fini, c’est-à-dire non infinitésimal.
Elle est généralement représentée par un entier. On peut associer une probabilité
à chaque valeur possible d’une variable aléatoire discrète.
Variable continue : C’est une variable qui peut prendre toutes les valeurs
d’un intervalle fini ou infini. Cela signifie que la différence entre deux valeurs
voisines peut être aussi petite que l’on peut l’imaginer. C’est un nombre réel.
On ne peut pas associer une probabilité à une valeur particulière d’une variable aléatoire continue. La probabilité pour que X prenne une valeur particulière x dans R (l’ensemble des nombres réels) est toujours nulle. Par contre on
peut associer à x une densité de probabilité f (x) et on peut associer à un intervalle [x, x + δx] une probabilité non nulle (figure 1.1). La densité de probabilité
est définie de la même manière que la densité d’un milieu continu [11, 12].
Si l’intervalle est assez petit pour qu’on puisse y considérer f (x) comme
constant :
P (X ∈ [x, x + δx]) = f (x)δx
(1.3)
1.1. DÉFINTIONS
3
Figure 1.1 – Seule l’aire sous la courbe représentative d’une distribution d’une
fonction de probabilité est, en pratique, une probabilité.
4CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
On constate bien que cette probabilité tend vers 0 lorsque δx tend vers 0.
Remarque : Une probabilité est une grandeur sans dimensions. En revanche, la densité de probabilité a une dimension : c’est l’inverse de la dimension
de la variable aléatoire concernée. Par exemple, si la variable aléatoire est une
mesure de distance exprimée en mètres, alors la densité de probabilité de cette
variable aléatoire s’exprime en mètres−1 .
Exemple : On s’intéresse à la taille des personnes d’un certain âge. Si la
taille est considérée comme une variable aléatoire continue, donc un nombre réel
(un nombre réel est un nombre infiniment précis), rien n’empêche d’examiner la
probabilité pour rencontrer un individu de taille 1,7500 m ou même 1,7543 m. La
probabilité de rencontrer dans la population une valeur numérique aussi précise
est nulle. Il est d’ailleurs impossible de mesurer la taille d’une personne avec une
telle précision. Par contre il existe un certain nombre d’individus ayant une taille
comprise entre 1,75 et 1,76 m si l’échantillon est suffisamment grand. L’opération
qui consiste à définir des classes correspondant à des intervalles de valeur que
peut prendre une variable aléatoire est appelée discrétisation. Usuellement, ces
classes sont ne se recouvrent pas les unes les autres mais couvrent en revanche
la totalité du domaine de définition de la variable aléatoire.
1.2
1.2.1
Généralités sur les lois de probabilités
Définition
Une loi de probabilité est une relation permettant d’associer une probabilité
ou une densité de probabilité à chaque valeur d’une variable aléatoire.
Pour une variable aléatoire discrète, c’est la donnée de la probabilité que
soient prises chacunes des valeurs de la variable aléatoire.
Exemple détaillé : En reprenant l’exemple précédent, la loi de X est
1
6
de même pour Y . Pour Z
P (X = 1) =
P (X = 2) =
1
2
P (Z = 3) =
36
36
Enfin, la loi de T est
P (Z = 2) =
...
1
6
...
P (Z = 7) =
P (X = 6) =
6
36
...
1
6
P (Z = 12) =
1
36
1
5
P (T = 1) =
6
6
Pour une variable aléatoire continue, on ne peut pas procéder de cette manière, puisque dans ce cas P (X = x0 ) = 0 pour tout x0 . On pourrait considérer
que la loi d’une variable aléatoire continue est la donnée de P (X ∈ [a, b]) pour
tout a et pour tout b. Mais c’est assez lourd et nous allons voir dans un instant
que ça revient à donner la fonction de répartition de la variable aléatoire.
P (T = 0) =
1.2.2
Représentation d’une loi de probabilité
Si la variable est discrète : représentation comme un diagramme en bâtons
(figure 1.2).
Pour une variable continue on représente la fonction densité de probabilité
(voir 1.1)
1.2. GÉNÉRALITÉS SUR LES LOIS DE PROBABILITÉS
5
Figure 1.2 – Représentation en bâton d’une distribution de probabilité discrète.
6CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
1.2.3
Fonction de répartition d’une loi de probabilité
La fonction cumulative de distribution, ou fonction de distribution F ou
fonction de répartition F est définie par :
FX (x) = P (X ≤ x)
(1.4)
Cette notion, ainsi que celle de densité de probabilité a vraisemblablement
été énoncée dans leur sens moderne pour la première fois par C. F. Gauss en
1809 [5].
Remarquons que les variables aléatoires continues ont en général une fonction
de répartition dérivable. Leur densité fX est alors la dérivée de leur fonction de
répartition :
0
fX = FX
Et donc, la fonction de répartition est la primitive de la densité qui vaut 0 en
−∞
Z x
FX (x) =
fX (t)dt
−∞
Par ailleurs, remarquons que pour tout a et b
P (X ∈]a, b]) = FX (b) − FX (a)
Ainsi la donnée de la fonction de répartition équivaut à la donnée de la loi. En
pratique, on préférera donner la densité.
1.2.4
Représentation graphique de la fonction de répartition
La courbe est encore appelée Courbe des Probabilités Cumulées. Dans le cas
d’une loi continue, F (x) représente la surface délimitée par la courbe représentation de la loi entre −∞ et l’abscisse x. Ces courbes sont continues dans le cas
de variables aléatoires continues et sont discontinues dans le cas de variables
aléatoirs discrètes.
Remarque : une fonction de répartition est toujours croissante et continue
à droite.
1.2.5
Fractile d’ordre α : tα
Dans le cas d’une loi continue le fractile tα est l’abscisse x telle que la surface
délimitée par la loi de probabilité entre −∞ et tα soit égale à α. Les fonctions
F (t) et tα sont des fonctions réciproques l’une de l’autre.
Si t(α) est le fractile d’ordre α on a les relations :
P (X < tα ) = α
(1.5)
P (X ≥ tα ) = 1 − α
(1.6)
F (tα ) = α
(1.7)
On s’intéresse également au fractile t1−α qui joue le même rôle que tα ) pour
les grandes valeurs de l’absice x (figure 1.5). On démontre que :
1.2. GÉNÉRALITÉS SUR LES LOIS DE PROBABILITÉS
7
Figure 1.3 – Fonction cumulative ou fonction de répartition d’une loi de probabilité continue.
8CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Figure 1.4 – Fonction cumulative ou fonction de répartition d’une loi de probabilité discrète.
1.3. PARAMÈTRES STATISTIQUES DES VARIABLES ALÉATOIRES
9
Figure 1.5 – Exemples de factiles « inférieur »et « supérieur »d’une loi statistique.
P (X ≥ t1−α ) = α
(1.8)
P (X < t1−α ) = 1 − α
(1.9)
F (t1−α ) = α
(1.10)
Si la loi statistique est symétrique et centrée on a la relation tα = −t1−α .
Les fractiles symétriques sont utilisé pour délimiter chacun une surface extérieure de α2 . La surface totale intérieure à l’intervalle interfractile étant 1 − α.
Seul le fractile positif est donné, la borne inférieur s’en déduisant au signe près.
Remarques :
— Les fractiles des lois de probabilités ont une importance considérable dans
les tests statistiques.
— Des fractiles ne peuvent être définis que pour des variables aléatoires
continues, discrètes ou ordonnées.
1.3
1.3.1
Paramètres statistiques des variables aléatoires
Espérance mathématique
Definition 1. L’espérance mathématique est un paramètre de position (ou paramètre de tendance centrale) défini par les relations :
PN
— Variable discrète : E(X) = R i=1 xi P (X = xi )
— Variable continue : E(X) = U xf (x)dx
Où les xi sont les issues possibles de la variable aléatoire discrète X et U est le
domaine défini par les issus possibles de la variable aléatoire X quand celle-ci
est continue. Notez l’utilisation dans ce cas de la densité de probabilité f (x).
10CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Figure 1.6 – Exemple de factiles symétrique d’une loi statistique, forcément
symétrique.
L’espérance mathématique s’apparrente donc à une somme des issues possibles de la variable aléatoire pondérée par les porbabilités leurs réalisations
respectives. Cette idée est énoncée dès la naissance des probabilités : le concept
est ainsi déjà énoncé par Huygens en 1657 [7].
Exemple détaillé : Pour le dé à 6 faces,
E(X) = 1.P (X = 1) + 2.P (X = 2) + · · · + 6.P (X = 6) =
1 + 2 + ... + 6
7
=
6
2
Quelques propriétés de l’espérance mathématique
Si α est un nombre,
E(α) = α
(1.11)
Remarque : La dimension de l’espérance mathématique d’une variable aléatoire est la même que celle de cette variable aléatoire.
Si X et Y sont deux variables aléatoire et α et β sont deux nombres :
E(αX + βY ) = αE(X) + βE(Y )
(1.12)
Si X et Y sont deux variables aléatoire indépendantes :
E(XY ) = E(X)E(Y )
(1.13)
On appel variable aléatoire centrée, la variable aléatoire Z construite à
partir de la variable aléatoire X selon la relation :
Z = X − E(X)
L’espérance mathématique de X est donc nulle.
(1.14)
1.3. PARAMÈTRES STATISTIQUES DES VARIABLES ALÉATOIRES
1.3.2
11
Variance et écart-type
Definition 2. La variance est l’espérance du carré de la variable centrée :
V (X) = E((X − E(X))2 ).
PN
— Variable discrète : V (X) = R i=1 (xi − E(X))2 P (X = xi )
— Variable continue : V (X) = U (x − E(X))2 f (x)dx
p
Definition 3. L’écart-type est la racine carrée de la variance : σ(X) = V (X).
La variance et l’écart-type sont des paramètres de dispersion.
Remarque : La dimension de la variance d’une variable aléatoire est le
carré de celle de cette variable aléatoire ; celle de l’écart-type est la même que
celle de la variable aléatoire.
Quelques propriétés de l’espérance mathématique
Si X est une variable aléatoire et α est un nombre :
V (αX) = α2 V (X)
(1.15)
Si X et Y sont deux variables aléatoires :
V (X + Y ) = V (X) + V (Y )
(1.16)
V (X − Y ) = V (X) + V (Y )
(1.17)
Ces propriétés ne s’appliquent pas aux écart-types.
On appel variable aléatoire centré réduite, la variable aléatoire Z défini
par rapport à la variable aléatoire X selon la relation suivante :
Z=
X − E(X)
σ(X)
(1.18)
La variable aléatoire admet une espérance nulle et une variance de 1. Elle
aussi appelée variable normalisée.
Propriété : V X = E(X 2 ) − (EX)2
Démonstration : EX est un nombre qu’on note m et qu’on identifie à la
variable aléatoire constante qui vaut m, notée m aussi.
V X = E((X−m)2 ) = E(X 2 −2mX+m2 ) = E(X 2 )−2mEX+m2 = E(X 2 )−m2
1.3.3
Moments d’ordre supérieur et cumulants
Definition 4. On appelle moment d’ordre n la grandeur :
Mn = E(X n )
(1.19)
Le moment centré d’ordre n est le moment d’ordre n de la variable centrée :
µn = E((X − E(X))n )
(1.20)
12CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
On a donc M1 = E(X) , µ1 = 0 et µ2 = V (X).
Les moments sont particulièrement importants car ils sont liés à la transformée de Fourier de leur distrbution de probabilité. En effet, on définis un fonction
génératrice des moments par la relation suivante :
GX (k) = E(eikX )
(1.21)
Pour une variable continue prenant ses valeurs dans un domaine U :
Z
GX (k) =
e( ikx)fX (x)dx
(1.22)
U
Ainsi, GX (k) apparaît comme la transformée de Fourier de la densité de
probablité fX (x) de la variable aléatoire X 1 .
Pour une variable discrète
GX (k) =
N
X
eikxi P (X = xi )
(1.23)
i=1
Dans ce cas, la fonction GX (k) est évidemment périodique.
Ces fonction GX (k) sont des génératrice de moments parce que leur développement analytique fait apparaître chaque moment individuellement :
GX (k) =
∞
X
(ik)n
Mn
n!
n=1
(1.24)
Ainsi, la connaissance de tous les moments d’une distribution implique que
l’on peut reconstruire la fonction génératrice des moments, puis par transformée
de Fourier inverse, avoir une connaissance exacte de la distribution de probabilité. A l’inverse, la connaissance exacte de la distribution de probabilité, via le
calcul du terme n du développement analytique de la fonction génératrice des
moments, permet d’avoir accès au moment d’orde n.
Si on considère le développement analytique du logarithme de la fonction
GX (k), on obtient les cumulants de la distribution :
log(GX (k)) =
∞
X
(ik)n
Kn
n!
n=1
(1.25)
Les cumulants sont des combinaisons des moments, par exemple :
K1 = M1 = E(X)
K2 = M2 −
M12
= V (X)
K3 = M3 − 3M2 M1 +
K4 = M4 − 4M3 M1 −
Kn = Mn −
n−1
X
(1.26)
2M12
3M22
(1.27)
(1.28)
+
l−1
Cn−1
Kl Mn−l
12M2 M12
−
6M14
(1.29)
(1.30)
l=1
1. Plus exactement, il s’agit de la transformée de Fourier d’un prolongement analytique de
la densité de probabilité.
1.3. PARAMÈTRES STATISTIQUES DES VARIABLES ALÉATOIRES
13
bien entendu la relation de récurrence permet de trouver les moments en
fonction des cumulants :
Mn = Kn +
n−1
X
l−1
Cn−1
Kl Mn−l
(1.31)
l=1
Les cumulants sont étroitements liés aux moments et inversement. L’intérêt
de calculer avec des cumulants est que la fonction génératrice des cumulants est
souvent plus simple à manipuler.
Ces notions ont été développées par le marquis de Laplace au début du
XIXème siècle [11, 12].
1.3.4
Kurtosis et coefficient d’aplatissement
Il est fréquemment affirmé que tous les moments centrés d’ordre impair (>1)
donnent une indication sur la dissymétrie de la loi de probabilité et les moments
d’ordre pair (>2) sur l’aplatissement de cette loi. Ceci vient de comparaisons
à la loi normale centré réduite qui joue un rôle prépondérant en probabilité et
statistique.
En effet, pour la loi normmale centrée, tous les moments d’ordre pair sont
des puissances du moment d’ordre 2 et tous les moments d’ordre impair sont
nuls. En somme, pour une distribution normale quelconque, la connaissance de
la moyenne et de la variance sont suffisant pour la déterminer complètement.
Pour une distribution dont empiriquement, on pense qu’elle ressemble à une
loi normale, il sera donc pertinent de calculer les moments d’ordre 3 et 4 pour
affiner la comparaison à la loi normale.
Definition 5. On appelle coefficient d’assumétrie la quantité
3 !
K3
µ3
X − E(X)
= 3/2 = 3/2
γ=E
σ(X)
µ
K
2
(1.32)
2
On note que pour une distibution normale, gamma = 0 nécessairement,
car la distribution est centrée. Le coefficient d’asymétrie est une grandeur sans
dimension, sa valeur donne une idée de l’importance de la dissymétrie et son
signe montre si la dissymétrie provient de valeurs élevées de X (dissymétrie à
droite ) ou des valeurs petites de X (dissymétrie à gauche).
Definition 6. On appelle Kurtosis la quantité
β=E
X − E(X)
σ(X)
4 !
=
µ4
µ22
(1.33)
On note que la Kurtosis pour une loi normale est donc nécessairement beta =
3. Comme généralement on préfère généralement avoir des quantités relatives à
la valeur zéro, on introduit une Kurtosis normalisée.
Definition 7. On appelle Kurtosis normalisée la quantité
4 !
X − E(X)
K4
β=E
−3= 2
σ(X)
K2
(1.34)
14CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
C’est souvent la Kurtosis normalisée qui est en pratique calculée par les
logiciels de statistique. Dans ce cas, β > 0 (respectivement β < 0) indique une
distribution dont les queues sont plus épaisses (respectivement moins épaisses)
comparées à une distribution normale, toutes choses égales par ailleurs.
1.3.5
Autres paramètres de position
Definition 8. Le mode est la réalisation possible x de la variable aléatiore X
dont la probabilité est maximale.
Cette valeur peut ne pas être unique. Une distribution unimodale est une
distribution n’ayant qu’un seul mode, sinon elle est bimodale, trimodale ou
multimodale.
Definition 9. La médiane Med est la réalisation possible x de la variable aléatoire X pour laquelle P (X < x) = P (X ≥ x).
Pour une distribution continue c’est la valeur qui sépare la courbe de densité
de probabilité en deux portions de surface égale. La médiane est le fractile
d’ordre t 21 .
1.4
1.4.1
Etude de quelques lois de probabilités discrètes
La loi de Bernouilli
Le loi de Bernouilli [1] décrit un jeu comportant deux issues :
— une issue favorable S, à laquelle on associe la valeur 1, avec la probabilité
p;
— une issue défavorable S̄, à laquelle on associe la valeur 0, avec la probabilité q = 1 − p.
Le diagramme en bâton de la distribution ne contient donc que deux barres.
Les paramètres de positions de la distribution peuvent être résumés ainsi :
E(X) = p
(1.35)
V (X) = pq
√
σ(X) = pq
(1.36)
(1.37)
M3 (X) = p
(1.38)
κ3 (X) = pq(q − p)
(1.39)
µ3 (X) = κ3 (X) = pq(q − p)
(1.40)
M4 (X) = p
(1.41)
κ4 (X) = pq(1 − 6pq)
µ4 (X) = κ4 (X) +
p−q
β(X) = √
pq
1 − 6pq
γ(X) =
pq
3κ22 (X)
(1.42)
= pq(1 − 3pq)
(1.43)
(1.44)
(1.45)
1.4. ETUDE DE QUELQUES LOIS DE PROBABILITÉS DISCRÈTES
1.4.2
15
La loi Binomiale
La loi Binomiale [2] est la somme de n processus de Bernouilli de paramètre
p. En d’autre termes il s’agit de compter le nombre de succès, chacun ayant une
probabilité p d’être réalisé, à la suite de n essais indépendants et indiscernables.
Si les essais sont représentés par une chaîne de bits, les succès sont les bits
allumés et les non-succès sont les bits éteints. La position des bits allumés n’est
pas importante : toutes les permutations des bits donnent correspondent au
même nombre de succès et donc à la même réalisation de la variable aléatoire
qui représente leur compte.
La distribution est calculée en utilisant la formule 1.46.
n x
P (X = x) =
p (1 − p)n−x
(1.46)
x
Paramètres statistiques
E(X) = np
(1.47)
V (X) = np(1 − p)
p
σ(X) = np(1 − p)
(1.48)
3 3
(1.49)
2 3
2 2
3
2
M3 (X) = n p − 3n p + 3n p + 2np − 3np + np
3
1 − 2p
κ3 (X) = p
(np(1 − p)) 2
np(1 − p)
µ3 (X) = κ3 (X) = pq(q − p)
M4 (X) = p
(1.51)
(1.52)
(1.53)
κ4 (X) = pq(1 − 6pq)
µ4 (X) = κ4 (X) +
p−q
β(X) = √
pq
1 − 6pq
γ(X) =
pq
(1.50)
3κ22 (X)
(1.54)
= pq(1 − 3pq)
(1.55)
(1.56)
(1.57)
Moyenne : np
Mediane : bnpc si p ≤ 1p
− ln(2) ou si ln(2) ≤ p.
Déviation Standard : np(1 − p).
Coefficient d’applatissement : √ 1−2p si p 6= 0 et p 6= 1.
np(1−p)
1
Kurtosis : 3 − n6 + np(1−p)
On représente la loi binomiale à l’aide d’un diagramme en bâtons. Le diagramme est symétrique lorsque p = q = 0, 5 (Figure 1.7a). Dans ce cas la
médiane, le mode et l’espérance sont égaux. Lorsque p augmente et q diminue
la dissymétrie augmente : la médiane et le mode deviennent sont plus petits que
l’espérance (Figure 1.7b). Enfin, lorsque n est grand et p petit, les valeurs de
P (X = x) diminuent très vite à partir d’une certaine valeur de x. En pratique,
pour ce type de distribution, il n’y a souvent qu’une vingtaine de valeurs dont
la probabilité n’est pas négligeable.
16CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Figure 1.7 – Diagramme en bâton de distributions binomiales. Les paramètres
sont (a) n=10, p=0,5 et (b) n=10, p=0,3.
1.4. ETUDE DE QUELQUES LOIS DE PROBABILITÉS DISCRÈTES
1.4.3
17
La loi de Poisson
On obtient la loi de Poisson [14] à partir de la loi binomiale lorsque n est très
grand et p très petit, le produit m = np n’étant pas très grand (1 ≤ np ≤ 20).
Par exemple une loi Binomiale de paramètres p = 0,05 et n = 100 est très
bien approximée par une loi de Poisson. Techniquement la distribution d’une
loi de Poisson est donnée par l’équation 1.58. Elle n’est paramétrée que par une
quantité, noté m et qui représente la valeur moyenne de la distribution. D’autre
part, contrairement à la loi Binomiale, son support n’admet pas de majorant.
Pour toute valeur de x entière positive ou nul, on peut calculer une probabilité.
Cette loi modélise très bien les situations où l’on compte des évènements rares
dans une population quasiment infini. Par exemple, le nombre de désintégrations
radioactives par unité de temps, dans un échantillon suit une loi de Poisson. La
probabilité de désintégration d’un atome par seconde est très faible, mais il faut
intégrer celle-ci sur la taille d’un échantillon comprenant un nombre d’atomes
de l’ordre d’une mole. Un autre exemple est le nombre d’objets défectueux issus
d’une chaîne de fabriquation. Un dernier exemple, est le nombre de réponses à
une attaque de phishing par courriel.
P (X = x) =
mx −m
e
x!
(1.58)
Paramètres statistiques
E(X) = m
(1.59)
V (X) = m
√
σ(X) = m
(1.60)
(1.61)
2
3
M3 (X) = m + 3m + m
(1.62)
κ3 (X) = m
(1.63)
µ3 (X) = m
(1.64)
2
3
M4 (X) = m + 7 ∗ m + 6 ∗ m + m
4
(1.65)
κ4 (X) = m
(1.66)
µ4 (X) = (3 ∗ m + 1) ∗ m
1
β(X) = √
m
1
γ(X) = 3 +
m
(1.67)
(1.68)
(1.69)
Moyenne : m
Mediane : bm + 13 − 0.02
√∗ mc.
Déviation Standard : m.
Coefficient d’applatissement : √1m .
1
Kurtosis : 3 − m
Le diagramme est toujours dissymétrique vers les valeurs élevées de x ; la
médiane et le mode sont inférieurs à la moyenne (Figure 1.8). Pour les grandes
valeurs de n, β tend vers 0 et γ tend vers 3, et la loi se rapproche d’une loi de
Normale.
18CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Figure 1.8 – Diagramme en bâton d’un distribution de Poisson de paramètre
m = 3.
1.5
1.5.1
Etude de quelques lois de probabilités continues utiles pour l’interprétation de données
expérimentales
Loi de Gauss ou loi Normale
Cette loi est fréquemment appelée loi Normale [2, 5]. Sa densité, donnée
par l’équation 1.70, est une fonction continue dépendant des deux paramètres
µ et σ, la moyenne et l’écart-type respectivement. Le cas particulier où µ = 0
et σ = 1 est désigné comme étant une loi Normale Centrée Réduite. Il est
toujours possible de ramener une variable aléatoire X suivant une loi Normale
quelconque à une variable aléatoire Z suivant loi Normale Centrée Réduite par
un changement de variable (équation 1.71). La densité de la loi Normale Centrée
Réduite est donnée par l’équation 1.72.
Remarque : Ainsi la fonction de répartition de la loi normale centrée réduite
est
Z x
1 −t2
√ e 2 dt
Φ(x) =
2π
−∞
Cette fonction est bien définie, mais elle ne peut pas être exprimée comme
composée de fonction classiques. Pour calculer une valeur de Φ, on se reportera
à une table statistique ou à une calculatrice. Le changement de variable pour
calculer les valeurs prises par la fonction de répartition d’une Gaussienne de
paramètres m et σ est
x−m
)
F (x) = Φ(
σ
g(x) =
−(x−m)2
1
√ e 2σ2
σ 2π
(1.70)
1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D
Z=
X −µ
σ
(1.71)
1 −x2
g1 (x) = √ e 2
2π
(1.72)
Beaucoup de mesures physiques se distribuent suivant une loi Normale. Il
existe des tests statistiques permettant de prouver le caractère normal d’un
ensemble de mesures et la normalité d’une distribution expérimentale est souvent une condition nécessaire pour l’application des tests statistiques sur les
moyennes ou sur les variances.
Paramètres statistiques
E(X) = µ
V (X) = σ
(1.73)
2
(1.74)
σ(X) = σ
(1.75)
2
3
M3 (X) = 3 ∗ σ ∗ µ + µ
(1.76)
κ3 (X) = 0
(1.77)
µ3 (X) = 0
(1.78)
4
2
2
4
M4 (X) = 3 ∗ σ + 6 ∗ σ ∗ µ + µ
κ4 (X) = 0
µ4 (X) = 3 ∗ σ
(1.79)
(1.80)
4
(1.81)
β(X) = 0
(1.82)
γ(X) = 3
(1.83)
Moyenne : µ
Mediane : µ.
Déviation Standard : σ.
Coefficient d’applatissement : 0.
Kurtosis : 3
La loi est représentée par son diagramme de densité (Figure 1.9a). Le mode,
la médiane et la moyenne sont égales. L’aplatissement prend une valeur caractéristique, γ = 3.
Pour une loi Normale Centrée Réduite, les paramètres sont les suivants :
20CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Figure 1.9 – Diagrammes de densité de probabilité (a) d’une loi Normale de
paramètres µ = 3 et σ = 1.5 et (b) d’une loi Normale Central Réduite.
1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D
E(X) = 0
(1.84)
V (X) = 1
(1.85)
σ(X) = 1
(1.86)
M3 (X) = 0
(1.87)
κ3 (X) = 0
(1.88)
µ3 (X) = 0
(1.89)
M4 (X) = 3
(1.90)
κ4 (X) = 0
(1.91)
µ4 (X) = 3
β(X) = 0
(1.92)
(1.93)
γ(X) = 3
(1.94)
Moyenne : µ
Mediane : µ.
Déviation Standard : σ.
Coefficient d’applatissement : 0.
Kurtosis : 3
La loi Normale Centrée Réduite représentée par sa densité sur la figure ??b,
est donc symétrique. Le mode, la médiane et la moyenne sont nules. L’aplatissement γ = 3 est prise comme référence lorsqu’on veut comparer les autres lois
statistiques à la loi Normale.
Les tests d’hypothèses font fréquemment appel à la loi Normale Centré Réduite. C’est pourquoi il est important de connaître des ordres de grandeurs
particulièrement fréquents. Ceux-ci sont résumés dans le tableau 1.1.
Approximation d’une loi binômiale par une loi normale
Soit X une variable aléatoire qui suit une loi binômiale de paramètres m et p.
On peut considérer que X = X1 + X2 + · · · + Xn où les Xi sont n variables aléatoires qui suivent une loi de Bernouilli de paramètre p. Ce sont donc n variables
aléatoires indépendantes identiquement distribuées (même loi, de moyenne µ et
√
converge en
de variance σ 2 ). On déduit du théorème centrale limite que X−nµ
σ n
loi vers une Gaussienne. Autrement dit, pour n suffisamment
p grand, on peut
considérer que X suit une loi normale de paramètres np et np(1 − p).
La qualité de l’approximation est meilleure lorsque p est proche de 21 . On
considèrera qu’elle est valide si np ≥ 5 et n(1 − p) ≥ 5.
Nous faisons ici l’approximation d’une variable aléatoire discrète par une
variable aléatoire continue. Pour qu’elle soit valide, il faut lui donner un peu
“d’épaisseur”. P (X = x0 ) en tant que variable aléatoire binômiale est approchée
par la Gaussienne notée aussi X vérifiant
1
1
1
1
P (X ∈]x0 − , x0 + ]) = Φ(x0 + ) − Φ(x0 − )
2
2
2
2
22CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Log(Distribution)
x
g(x)
P (|X| > x) en %
3.5
0.00087
0.05
3.0
0.0044
0.25
2.6
0.013
1.00
1.96
0.058
5.00
1.00
0.24
32.00
Table 1.1 – Valeurs remarquables de la distribution Normale Centrée Réduite.
La distribution g(x)est représentée en échelle logarithmique pour rendre visible
les queues de la distribution. Les aires colorées correspondent aux probabilités
reportées dans la colonne P (|X| > x), aux différentes absices x.
1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D
Figure 1.10 – Distribution du χ2 pour différentes valeurs du paramètre k.
Quand k augmente, la distribution se décale vers la droite, s’applatie et approche
une loi normale.
Pour simplifier les notations, le calcul a été fait dans le cas d’une Gaussienne centrée réduite, dans le cas général, il faut tenir compte du changement
de variable en Φ( x−m
σ ).
1.5.2
Loi du χ2
Il s’agit de la loi suivie par une variable aléatoire qui se décompose comme
une somme de carrés de variables aléatoires indépendantes, chacune suivant une
loi normale centrée réduite N (0, 1) (équation 1.95) [6]. Elle apparaît fréquemment, notemment quand il s’agit de calculer les écarts entre des estimations et
les données expérimentales correspondantes. La loi du χ2 est donc utilisée dans
les problèmes d’adéquation, c’est à dire lorsqu’il faut prouver que des valeurs
expérimentales sont proches de valeurs modèles ou théoriques.
X=
X
Y 2 , Y ∼ N (0, 1)
(1.95)
Puisqu’il s’agit d’une somme de carrés de termes, cette distribution a pour
support les nombres réels positifs ou nuls. Elle dépend d’un paramètre k, appelé
degré de liberté qui correspond au nombre de termes de la somme. Quand ce
2
paramètre devient très grand, la loi
√ du χ s’approche d’une loi Normale dont la
moyenne est k et l’écart-type est 2k.
24CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Paramètres statistiques
E(X) = k
(1.96)
V (X) = 2k
√
σ(X) = 2k
(1.97)
(1.98)
3
2
M3 (X) = k + 6k + 8k
(1.99)
κ3 (X) = 8k
(1.100)
µ3 (X) = 8k
(1.101)
4
3
2
M4 (X) = k + 12k + 44k + 48k
(1.102)
κ4 (X) = 48k
(1.103)
µ4 (X) = 12k(k + 4)
(1.104)
3(k + 4)
r k
8
γ(X) =
k
β(X) =
(1.105)
(1.106)
Moyenne : k
Mediane : 0.
√
Déviation Standard : 2k.
Coefficient d’applatissement :
Kurtosis :
q
8
k.
3(k+4)
k
Fractiles de la loi du χ2
Le risque α représente la surface sous la courbe de densité entre un absice
noté χ2 (k, 1 − α) et l’infinis ou entre 0 et χ2 (k, α). Contrairement aux lois
symétriques où les fractiles « à gauche »se déduisent au signe près des fractiles
« à droite », ici les deux types de fractiles doivent être calculés.
1.5.3
Loi de Student
Pour traiter des tests d’hypothèses, il sera fréquemment fait appel une opération de standardisation consistant à diviser une estimation d’une moyenne
par une estimation d’une déviation standard. La quantité calculée, considérée
comme une variable aléatoire suit une loi dite loi t de Student [15]. Celle-ci se
définis par le rapport de deux variables aléatoires : au numérateur, la première
suit une loi Normale Centré Réduite et au dénominateur se trouve la racine carré
de la seconde variable suivant une loi du χ2 . Elle hérite donc d’un paramètre, ν
le nombre de degrés de libertés. Sa forme exacte est relativement compliquée.
Elle a l’allure d’une fonction Gaussienne dont les queues s’applatissent plus
doucement (Figure ??). A mesure que le paramètre ν prend une valeur élevée,
la loi de Student tend vers la loi Normale (Figure ??). Lorsque ν devient très
grand (en pratique lorsque ν > 40) la loi de Student est quasiment équivalente
à la loi de Gauss.
1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D
Figure 1.11 – Illustration des fractiles d’une loi du χ2 de paramètre k = 3.
Figure 1.12 – Distribution t de Student de paramètre ν = 1. La distribution
normale est figurée en pointillés pour comparaison.
26CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Figure 1.13 – Distribution t de Student par différentes valeurs du paramètre
ν = 1. La distribution normale est figurée en pointillés pour comparaison.
Paramètres statistiques
Les moments de la loi t de Student ne sont définis que si leur ordre est
inférieur strictement au nombre de degrés de libertés ν. Dans les formules qui
suivent, il faut donc que ν > 4.
E(X) = 0
(1.107)
ν
V (X) =
ν−2
r
ν
σ(X) =
ν−2
M3 (X) = 0
(1.108)
(1.109)
(1.110)
κ3 (X) = 0
(1.111)
µ3 (X) = 0
(1.112)
2
3∗ν
((ν − 4) ∗ (ν − 2))
6 ∗ ν2
κ4 (X) =
((ν − 4) ∗ (ν − 2)2 )
3 ∗ ν2
µ4 (X) =
((ν − 4) ∗ (ν − 2))
β(X) = 0
M4 (X) =
γ(X) =
Moyenne : 0
Mediane : 0.
3 ∗ (ν − 2)
ν−4
(1.113)
(1.114)
(1.115)
(1.116)
(1.117)
1.5. ETUDE DE QUELQUES LOIS DE PROBABILITÉS CONTINUES UTILES POUR L’INTERPRÉTATION D
Figure 1.14 – Illustration des fractiles d’une loi t de Student de paramètre
ν = 5.
Déviation Standard :
q
ν
ν−2 .
Coefficient d’applatissement :
Kurtosis : 0
3∗(ν−2)
ν−4 .
Fractiles de la loi de Student
Les valeurs des fractiles t(ν, α) et t(ν, 1−α) de la loi de Student sont données
dans les tables statistiques. Aujourd’hui, ces tables sont accessibles dans des
logiciels spécialisés et les plus courantes sont intégrés dans les tableurs tels que
Excel ou LibreOffice.
Puisque la loi est symétrique t(ν, α) = −t(ν, 1 − α) (Figure ??). La valeur
t(ν, 1 − α) à ν constant augmente lorsque α diminue, mais à α constant les
valeurs de t(ν, 1 − α) augmentent sensiblement lorsque ν diminue (voir figures
??et ??).
Ceci s’explique facilement par l’augmentation de l’aplatissement de la courbe.
En effet, plus une courbe est aplatie, plus il faut prendre une abscisse t(1 − α)
R t(1−α)
élevée pour que l’intégrale −∞ Tν (u)du (où Tν désigne la distribution t de
Student) ait une valeur donnée.
Ce comportement peut se traduire comme l’évolution de l’incertitude en
fonction des connaissances acquise sur un sujet. Le nombre de degrés de liberté
représente alors la quantité d’information acquise et t(ν, 1 − α), l’incertitude.
Quand il y a peu d’information, l’incertitude est grande, elle diminue quand
l’information augmente, mais elle ne devient jamais nule.
1.5.4
Loi de Fisher-Snédecor
C’est la loi d’une variable aléatoire continue appelée F dont la densité de
probabilité dépend de deux paramètres k1 et k2 (des degrés de liberté). Elle est
28CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Figure 1.15 – Evolution des distributions de probabilité d’une loi de Fisher
Snedecor quand (a) ν1 = 5 et ν2 ∈ [2, 10] et (b) ν1 =∈ [2, 10] et ν2 = 5.
suivie par une variable aléatoire qui est le rapport de deux variables aléatoire
suivant une loi du χ2 et pondérée par leurs degrés de libertés respectifs 1.118.
La loi est aussi appelée loi F (ou en anglais F-ratio) [4].
X=
Y1 /k1
Y2 /k2
(1.118)
Le loi est définie sur les nombres réels positifs ou nuls. Quand le nombre
de degrés de libertés du dénominateur k2 est fixé, le mode de la distribution
augmente avec le nombre de degrés de libertés du numérateur k1 , tandis que
la distribution est plus étalée (figure ??(a)). Quand le nombre de degrés de
libertés du numérateur k1 est fixé, le mode de la distribution augmente avec le
nombre de degrés de libertés du dénominateur k2 , tandis que la distribution est
plus resserée (figure ??(b)). La moyenne ne dépend que des degrés de liberté du
dénominateur k2 .
Paramètres statistiques
La variance d’une loi de Fisher-Snedecor n’est définie que si k2 > 4 et k1 > 0.
Les moments d’ordre supérieurs à 2 ont des expression bien trop compliquées
pour être reproduites ici. Par conséquent, la Kurtosis et le coefficient d’assymétrie ne sont pas non plus reproduits.
1.6. CE QU’IL FAUT RETENIR
29
k2
k2 − 2
2 ∗ k22 ∗ (k1 + k2 − 2)
V (X) =
(k1 ∗ (−2 + k2 )2 ∗ (k2 − 4))
s
2 ∗ k22 ∗ (k1 + k2 − 2)
σ(X) =
(k1 ∗ (−2 + k2 )2 ∗ (k2 − 4))
E(X) =
(1.119)
(1.120)
(1.121)
(1.122)
2
Moyenne : k2k−2
k2
Mode : k1k−2
k2 −2 .
1
Déviation Standard :
q
2∗k22 ∗(k1 +k2 −2)
(k1 ∗(−2+k2 )2 ∗(k2 −4)) .
Fractiles de la loi de Fisher-Snedecor
Les tables donnent les valeurs des fractiles supérieurs F (k1 , k2 , 1 − α) pour
une valeur donnée de α. C’est à dire que les deux entrées de la table sont k1 et
k2 . Il y a des tables pour différents risque α = 0, 05 ou α = 0, 01. Ces tables
sont incluses dans les logiciels et les tableurs les plus répandus tels que Excel et
LibreOffice.
Il existe une relation entre les fractiles qui en simplifie le calcul.
F (k1 , k2 , α) =
1.6
—
—
—
—
—
—
—
—
1
F (k2 , k1 , 1 − α)
(1.123)
Ce qu’il faut retenir
Calcul de l’Espérance mathématique
Calcul de la variance
Variable centrée réduite
Proprités d’additivité des l’esprance et de la variance
Loi de Probabilité
Fonction de répartition
Fractiles
Lois de Bernouilli, Binomiale, Poisson, Normale, χ2 , Student, FisherSnedecor
30CHAPITRE 1. NOTIONS ELEMENTAIRES DE STATISTIQUE PROBABILISTE
Bibliographie
[1] Niklaus Bernoulli, Johann Konrad von I Mechel, and Johann Konrad von
I Mechel. Dissertatio inauguralis mathematico-juridica de usu artis conjectandi in jure. Typis Johannis Conradi à Mechel, 1709.
[2] Abraham De Moivre. Miscellanea analytica de seriebus et quadraturis.
1730.
[3] Yves Derriennic. Pascal et les problemes du chevalier de méré. Gazette des
mathématiciens, 97 :45–71, 2003.
[4] Ronald Aylmer Fisher et al. On a distribution yielding the error functions
of several well known statistics. In Proceedings of the international congress
of mathematics, volume 2, pages 805–813, 1924.
[5] Carl Friedrich Gauss. Theoria motus corporum coelestium in sectionibus
conicis solem ambientium auctore Carolo Friderico Gauss. sumtibus Frid.
Perthes et IH Besser, 1809.
[6] Friedrich Robert Helmert. Über die wahrscheinlichkeit der potenzsummen
der beobachtungsfehler. Z. Math. u. Phys, 21 :192–218, 1876.
[7] Christiaan Huygens. De ratiociniis in ludo aleae. Ex officinia J. Elsevirii,
1657.
[8] Statistics – Vocabulary and symbols – Part 1 : General statistical terms
and terms used in probability, 2006.
[9] Statistics – Vocabulary and symbols – Part 2 : Applied statistics, 2006.
[10] Statistics – Vocabulary and symbols – Part 3 : Design of experiments, 1999.
[11] Laplace, Pierre Simon, and de Marquis. Essai philosophique sur les probabilités, 1814.
[12] Pierre Simon marquis de Laplace. Théorie analytique des probabilités. V.
Courcier, 1820.
[13] Norbert Meusnier. Argumentation et démonstration de la loi des grands
nombres dans la démonstration mathématique dans l’histoire. In IREM,
editor, Actes du colloque Inter-Irem de Besançon, La démonstration mathématique dans l’histoire, Besançon, pages 89–97. IREM, 1989.
[14] Siméon Denis Poisson and Christian Heinrich Schnuse. Recherches sur la
probabilité des jugements en matière criminelle et en matière civile. Meyer,
1841.
[15] Student. The probable error of a mean. Biometrika, pages 1–25, 1908.
31
Téléchargement