Le théorème de Bayes Thomas Bayes (1702

publicité
Le théorème de Bayes
Thomas Bayes (1702-1761) est né à Londres en Angleterre et a développé un théorème
qui porte sur le calcul de la probabilité d’un événement basé sur une connaissance a
priori. Cette approche est à l’inverse de l’approche fréquentiste qui examine les situations
sans tenir compte des connaissances préalables. Le théorème, de façon indirecte, fut
publié à titre posthume en 1763 sous le titre de Essay Towards Solving a Problem in the
Doctrine of Chance. En gros l’application du théorème permet d’établir que la probabilité
d’un événement est le résultat conditionnel d’une probabilité connue. La formule1 du
théorème est la suivante2 :
P (B / A) =
P(B1 ) * P( A | B1 )
(
P( B1 ) * P( A | B1 ) + P(B2 ) * P A | B2
)
Nous verrons en détails la définition des termes dans les prochaines lignes.
Certaines applications du théorème
Il est possible d’appliquer le théorème de Bayes dans plusieurs situations dont : les
intentions de votes, le milieu sportif et surtout le milieu médical. En effet, dans pour ce
dernier cas l’application du théorème de Bayes est monnaie courante. Comme les tests
médicaux ne sont pas sûr à 100% il est possible d’avoir un faux positif ou un faux
négatif. C'est-à-dire que le test indique que le patient est atteint d’une certaine maladie
alors qu’en réalité le patient n’a pas la maladie (faux positif) ou encore les résultats du
test indiquent que le patient n’a pas la maladie alors qu’en réalité il a effectivement la
maladie (faux négatif). Pour pallier à un mauvais diagnostique, les médecins procéderont
souvent à un deuxième test afin de confirmer le résultat initial. Le théorème de Bayes
permet d’établir la probabilité d’un résultat erroné.
Exemple3 :
Supposons que l’on sait qu’une personne sur 100 (ou .01) souffre d’une maladie ou d’une
condition quelconque (que nous noterons X). Supposons également qu’il y a 95% (ou
.95) de chances qu’une personne avec la maladie X (ou la condition X) obtiendra un
résultat positif pour la maladie X, et qu’il existe 3% (.03) des chances qu’une personne
qui n’a pas la maladie X obtienne un résultat positif (faux positif). Si une personne
choisie au hasard obtient un résultat positif pour X, quelle est la probabilité que cette
personne ait réellement la maladie X?
1
La formule est différente selon la probabilité qui est recherché.
La formule sera différente selon la probabilité que l’on recherche. Ici nous cherchons la probabilité de
l’évènement B conditionnelle à A.
3
Cet exemple provient du Dictionnary of Statistics, Penguin Reference, London, 2004, pp8-10
2
Rappelons la formule du théorème : P (B1 / A) =
P(B1 ) * P( A | B1 )
(
P( B1 ) * P( A | B1 ) + P(B2 ) * P A | B2
)
Pour appliquer le théorème supposons que :
A représente l’évènement « obtient un test positif pour la maladie X »
B1 a la maladie X
B2 n’a pas la maladie X
Nous cherchons P (B1 / A) c'est-à-dire possède la maladie X et obtient un résultat positif
au test.
Nous avons donc :
Prob B1 = 0.01 (en effet 1 personne sur 100 a la maladie X)
Prob B2 = 0.99 (en effet 99 personnes sur 100 n’a pas la maladie X)
A = obtient un résultat positif au test
P (B1 / A) = la probabilité qu’une personne qui possède la maladie obtienne un test positif.
Nous avons donc :
P (B1 / A) =
P (B1 / A) =
P(B1 ) * P( A | B1 )
(
P( B1 ) * P( A | B1 ) + P(B2 ) * P A | B2
)
0.01 * 0.95
= 0.24
0.01 * 0.95 + 0.99 * 0.03
Donc avant le test la probabilité qu’un individu ait la maladie était de 0.01 (ou 1%) et
après le test cette probabilité est de 0.24 ou 24%
Deuxième exemple4
Dans une région 30% des hommes et 20% des femmes sont contre le développement d’un
tronçon routier. Les femmes forment 45% de tous les résidents de la région. Une
personne qui est contre le projet est sélectionnée au hasard. Quelle est la probabilité que
cette personne soit une femme?
Nous avons donc :
Prob (F) = ,45 (en effet les femmes forment 45% de la population)
Prob (C) = ,20 (en effet 20% des femmes sont contre le projet)
Prob (N) = ,55 (en effet 55% des personnes ne sont pas des femmes)
4
Source: Exemple modifié (même chiffre mais contexte différent) in Statistics Problem solvers pp 98-99.
Nous obtenons la formule suivante :
P (F C ) =
P(F )P(C F )
P(F )P(C F ) + P( N )P(C N )
Il faut lire l’équation d la façon suivante :
La probabilité d’une femme contre le projet est égale à la probabilité d’une femme fois la
probabilité conditionnelle d’être contre le projet et d’être une femme divisé par la
probabilité d’une femme fois la probabilité conditionnelle d’être contre le projet et d’être
une femme plus la probabilité de ne pas être une femme fois la probabilité d’être contre le
projet et de ne pas être une femme.
On obtient ainsi :
P (F C ) =
(0,45)(0,2)
=
(0,45)(0,2) + (0,55)(0,3)
,09
,09
= ,353
=
,09+,165 ,255
La probabilité qu’une personne contre le projet et choisi au hasard soit une femme est de
,353 (35,3%).
Un dernier exemple5 (exercice)
Supposons qu’on réalise une enquête sur un projet de loi controversé. On désire par le
biais de cette enquête examiner la perception en fonction de l’allégeance politique des
individus. Pour les fins de l’exemple l’enquête porte sur 260 personnes. (L’erreur serait
1
donc de
= 0,062). L’enquête demande aux individus s’ils sont pour ou contre le
260
projet de loi et demande également leur allégeance politique. Pour les fins de l’exemple
on dira qu’il y a deux allégeances (Parti A et Parti B).
On obtient les résultats suivants :
Allégeance
Parti A
Parti B
TOTAL
5
Pour le projet
98
79
177
Contre le projet
54
29
83
Total
152
108
260
Inspiré de l’exemple in The complete idiot’s guide to Statistics, p. 95. Nous avons modifié le contexte.
Il est évidemment possible de faire un Khi deux ici. On obtient le tableau suivant :
Allégeance
Parti A
Parti B
TOTAL
Pour le projet
98
(103,48)
79
(73,52)
177
Contre le projet
54
(48,52)
29
(34,48)
83
Total
152
108
260
Nous obtenons un résultat tel que : χ2 (1) 2,19 n.s.
On pourrait ainsi affirmer qu’il n’y a pas d’association entre l’attitude par rapport au
projet de loi et l’allégeance politique. Vous vous attendiez à ce que les partisans du Parti
A soient contre le projet. Vous désirez connaître les raisons qui motivent ces personnes
d’être pour le projet. Pour cela vous décidez de choisir au hasard une personne parmi les
260. En utilisant le théorème de Bayes calculez la probabilité que la personne choisie soit
effectivement du Parti A et qu’elle soit en faveur du projet de loi.
Nous avons donc :
L’événement A : La personne est en faveur du projet de loi
L’événement B : La personne est d’allégeance au Parti A
Calculez :
1)
2)
3)
4)
5)
La probabilité que la personne choisie soit en faveur du projet de loi
La probabilité que la personne choisie est d’allégeance au Parti A
La probabilité que la personne choisie ne soit pas en faveur du projet de loi
La probabilité que la personne choisie est d’allégeance au Parti B
La probabilité que la personne choisie soit en faveur du projet de loi et
d’allégeance au Parti A
6) La probabilité que la personne choisie ne soit pas en faveur du projet de loi et
d’allégeance au Parti A
7) La probabilité que la personne choisie soit en faveur du projet de loi et
d’allégeance au Parti B
8) La probabilité que la personne choisie ne soit pas en faveur du projet de loi et
d’allégeance au Parti A
9) La probabilité que la personne choisie ne soit pas en faveur du projet de loi et
d’allégeance au Parti B
10) La probabilité que la personne choisie soit en faveur du projet de loi OU
d’allégeance au Parti A
11) La probabilité que la personne choisie soit en faveur du projet de loi OU
d’allégeance au Parti B
12) En utilisant le théorème de Bayes calculez la probabilité que la personne choisie
est d’allégeance au Parti A sachant que cette personne est pour le projet de loi
Réponses :
1) P (A) =
177
= 0,68
260
2) P (B) =
152
= 0,58
260
3) P (A’) =
83
= 0,32
260
4) P (B’) =
108
= 0,42
260
98
= 0,64
152
54
6) P ( A' B ) =
= 0,36
152
5) P ( A B ) =
7) P ( A B') =
79
= 0,73
108
8) P(A et B) = P ( A B ) *P(B) = (0,64)*(0,58) = 0,37
9) P (A et B’) = P ( A B') *P(B’) = (,73)*(0,42) = 0,31
10) P (A ou B) = P(A) + P(B) – P (A et B) = (0,68) + (0,58) – (0,37) = 0,89
11) P (A ou B’) = P(A) + P(B’) – P (A et B’) = (0,68) + (0,42) – (0,31) = 0,79
12) P (B A) =
=
P (B ) * P ( A B )
P (B ) * P ( A B ) + P B ' P A B '
(( )(
(0,58) * (0,64)
=
(0,58) * (0,64) + ((0,42)(0,73))
))
0,37
= 0,54
0,37 + 0,31
Téléchargement