Les PROBABILITES et la STATISTIQUE de A à Z

publicité
3 Dress_B Page 15 Samedi, 28. août 2004 11:21 11
A
B
C
D
E
Bartlett (test de)
(Bartlett test)
F
Test d’hypothèse paramétrique utilisé pour comparer les variances observées de plusieurs
échantillons statistiques.
G
test de comparaison de q variances σ 12, σ 22, …, σ q2
H
M
N
O
P
q
∑ ( nk – 1 ) ln sk2 .
Q
t = ( N – q ) ln s 2 –
L
( n 1 – 1 )s 12 + ( n 2 – 1 )s 22 + … + ( n q – 1 )s q2
s 2 = -------------------------------------------------------------------------------------------------- .
N–q
3. On calcule la valeur observée de la variable de test :
K
• Déroulement technique du test
1. On calcule, avec les formules usuelles, la moyenne puis la variance débiaisée s k2 de
l’échantillon n° k.
2. On calcule une estimation commune de toutes les variances :
J
• Hypothèse testée. H0 = « σ 12 = σ 22 = ... = σ q2 » contre H1 = « il existe au moins deux
varian-ces différentes ».
I
• Données. q séries ou groupes, avec pour chaque k (1 ≤ k ≤ q) : un échantillon de nk valeurs
observées d’une variable aléatoire numérique Xk d’espérance mathématique µk et de
variance σ k2 .
On note N le nombre total de valeurs observées n1 + n2 + ...+ nq.
• Conditions et précautions
– Ce test n’est pas robuste : il n’est valable que dans le cas où les lois des échantilons sont
toutes normales ;
– il est prudent de demander que chaque effectif nk soit ≥ 5.
T
Il est parfois conseillé de diviser la variable de test t par le facteur correctif :
W

1
C = 1 + --------------------  
3(q – 1) 
X
1
V
1 
- – ---- .
∑ n------------N
k – 1
U
q
S
R
k =1
Y
Remarque : si q = 2, ce test n’est pas équivalent au test du quotient des variances
(sauf si les effectifs sont égaux).
Z
© Dunod – La photocopie non autorisée est un délit.
k=1
Les valeurs de référence de la variable de test sont à lire dans les tables de la loi du khideux à q – 1 degrés de liberté, pour le risque unilatéral α (qui est le risque standard des
tables du khi-deux).
3 Dress_B Page 16 Samedi, 28. août 2004 11:21 11
16
Bayes (formule de), Bayes (théorème de)
Bayes (formule de), Bayes (théorème de)
(Bayes formula, Bayes
theorem)
Nom d’une formule – ou théorème – utilisée pour trouver les « probabilités des causes ».
Formule de Bayes (version simple)
Soient deux évènements A et B d’un espace probabilisé (Ω, A, P), avec P(B) ≠ 0.
Alors :
P ( A )P ( B A )
P(A ∩ B)
P ( A B ) = ------------------------ = -------------------------------- .
P(B)
P(B)
P(A ∩ B)
Le terme ------------------------ est la définition de la probabilité conditionnelle, et la formule de Bayes
P(B)
est son expression avec l’autre probabilité conditionnelle. De façon générale, il s’agit
d’exprimer l’une quelconque des deux probabilités conditionnelles en fonction de l’autre.
Formule de Bayes (version composée)
Soient une partition (Hj) (ou système complet d’événements) d’un espace Ω et un
évènement B, avec P(B) ≠ 0. Alors :
P ( H j )P ( B H j )
P ( Hj ∩ B )
P ( H j B ) = ------------------------- = ---------------------------------------------------------------------------------------------------------------------------------------- .
P(B)
P ( H 1 )P ( B H 1 ) + P ( H 2 )P ( B H 2 ) + … + P ( H k )P ( B H k )
Les évènements Hj peuvent être considérés comme des causes, et l’évènement B comme un
résultat. Il s’agit bien entendu d’une interprétation dans le contexte d’une modélisation, tous
les évènements, causes et résultat, étant de même « nature » mathématique.
Exemple 1
Un dépistage systématique est effectué sur une population dont 6 % des
individus présentent une certaine affection A non apparente. Ce dépistage est débuté par un
test qui donne 95 % de résultats positifs pour les personnes atteintes par A (les autres étant
des « faux négatifs ») et 1 % de résultats positifs pour les personnes non atteintes (les « faux
positifs »).
Quelle est la probabilité conditionnelle qu’une personne prise au hasard soit atteinte par A
sachant que le test a donné un résultat positif ? Soit indemne sachant que le test a donné un
résultat négatif ?
On peut représenter la situation soit par un arbre, soit par un tableau à 4 cases : par exemple,
dans cette deuxième représentation (S signifie sain, et A porteur de l’affection A), la
probabilité de la case « S et test – » est calculée comme le produit P(S)P(test –|S) = 0,94 × 0,99
= 0,9306 ; le tableau est figuré ci-dessous :
test –
test +
S
0,9306
0,0094
0,94
A
0,0030
0,0570
0,06
0,9336
0,0664
1
3 Dress_B Page 17 Samedi, 28. août 2004 11:21 11
Benford (loi de)
17
B
C
D
E
0,9306
P ( S et test + )
P ( S test – ) = -------------------------------- = ---------------- ≈ 0,997 ,
0,9336
P ( test – )
valeur à comparer avec la probabilité a priori 0,94 d’être sain.
A
Ce tableau est complété par les probabilités « marginales », et on peut calculer notamment
P(test –) = P(S et test –) + P(A et test –) = 0,9336 (somme par colonne) et de même P(test +)
= 0,0664. On peut alors calculer les probabilités conditionnelles demandées :
0,0570
P ( A et test + )
P ( A test + ) = --------------------------------- = ------------------ ≈ 0,86 ,
0, 0664
P ( test + )
valeur à comparer avec la probabilité a priori 0,06 d’être porteur de A, et :
F
Exemple 2
I
J
K
L
M
Q
On voit ainsi que, pour employer un vocabulaire ancien, la probabilité a priori qu’une pièce
(prise au hasard) ait été fabriquée par C est 0,30, et que la probabilité a posteriori qu’elle ait
été fabriquée par C sachant qu’elle est défectueuse passe à 0,65.
P
P ( C )P ( D C )
0,0024
P ( C D ) = -------------------------------- = ---------------- = 0,65
P(D)
0,0037
O
Et on a enfin :
N
P(D) = P(A)P(D| A) + P(B)P(D| B) + P(C)P(D| C)
= 0,4 × 0,001 + 0,3 × 0,003 + 0,3 × 0,008 = 0,0037.
R
Voir conditionnelle (probabilité).
S
T
X
Y
Z
Cette loi a été utilisée dans les années 1990 pour détecter des fraudes comptables par utilisation de données inventées.
W
➤ Utilisation
V
En particulier P(1) = 0,301 ≈ 30 %. L’une des justifications mathématiques de cette loi est
son invariance par un changement arbitraire d’unité de mesure.
U
(Benford distribution)
Loi empirique qui régit la distribution du premier chiffre des nombres pris dans des ensembles de données présentant des grandes variations d’échelle. Cette loi a été découverte en
1881 par l’astronome S. Newcomb et redécouverte en 1938 par le physicien F. Benford. Elle
énonce que la probabilité d’apparition du premier chiffre significatif k d’un nombre (écrit en
base 10) est :
1
P(k) = log 10  1 + ---

k
Benford (loi de)
© Dunod – La photocopie non autorisée est un délit.
H
On peut alors calculer le dénominateur de la formule de Bayes
G
On considère une usine où trois machines fabriquent un même modèle de pièce.
40 % des pièces sont fabriquées par la machine A, qui produit 0,1 % de pièces défectueuses ;
30 % des pièces sont fabriquées par la machine B, plus ancienne, qui produit 0,3 % de pièces
défectueuses ; 30 % des pièces sont fabriquées par la machine C, encore plus ancienne, qui
produit 0,8 % de pièces défectueuses. On demande la probabilité conditionnelle qu’une pièce
ait été fabriquée par la machine C, sachant qu’elle est défectueuse.
Appelons A l’évènement « une pièce prise au hasard a été fabriquée par la machine A », B et
C les évènements analogues pour les machines B et C. Appelons D l’évènement « une pièce
prise au hasard est défectueuse ». Il faut commencer par traduire les pourcentages en probabilités et en probabilités conditionnelles :
P(A) = 0,4, P(B) = 0,3, P(C) = 0,3,
P(D|A) = 0,001, P(D| B) = 0,003, P(D|C) = 0,008.
Téléchargement