Le théorème de Bayes Thomas Bayes (1702-1761) est né à Londres en Angleterre et a développé un théorème qui porte sur le calcul de la probabilité d’un événement basé sur une connaissance a priori. Cette approche est à l’inverse de l’approche fréquentiste qui examine les situations sans tenir compte des connaissances préalables. Le théorème, de façon indirecte, fut publié à titre posthume en 1763 sous le titre de Essay Towards Solving a Problem in the Doctrine of Chance. En gros l’application du théorème permet d’établir que la probabilité d’un événement est le résultat conditionnel d’une probabilité connue. La formule1 du théorème est la suivante2 : P (B / A) = P(B1 ) * P( A | B1 ) ( P( B1 ) * P( A | B1 ) + P(B2 ) * P A | B2 ) Nous verrons en détails la définition des termes dans les prochaines lignes. Certaines applications du théorème Il est possible d’appliquer le théorème de Bayes dans plusieurs situations dont : les intentions de votes, le milieu sportif et surtout le milieu médical. En effet, dans pour ce dernier cas l’application du théorème de Bayes est monnaie courante. Comme les tests médicaux ne sont pas sûr à 100% il est possible d’avoir un faux positif ou un faux négatif. C'est-à-dire que le test indique que le patient est atteint d’une certaine maladie alors qu’en réalité le patient n’a pas la maladie (faux positif) ou encore les résultats du test indiquent que le patient n’a pas la maladie alors qu’en réalité il a effectivement la maladie (faux négatif). Pour pallier à un mauvais diagnostique, les médecins procéderont souvent à un deuxième test afin de confirmer le résultat initial. Le théorème de Bayes permet d’établir la probabilité d’un résultat erroné. Exemple3 : Supposons que l’on sait qu’une personne sur 100 (ou .01) souffre d’une maladie ou d’une condition quelconque (que nous noterons X). Supposons également qu’il y a 95% (ou .95) de chances qu’une personne avec la maladie X (ou la condition X) obtiendra un résultat positif pour la maladie X, et qu’il existe 3% (.03) des chances qu’une personne qui n’a pas la maladie X obtienne un résultat positif (faux positif). Si une personne choisie au hasard obtient un résultat positif pour X, quelle est la probabilité que cette personne ait réellement la maladie X? 1 La formule est différente selon la probabilité qui est recherché. La formule sera différente selon la probabilité que l’on recherche. Ici nous cherchons la probabilité de l’évènement B conditionnelle à A. 3 Cet exemple provient du Dictionnary of Statistics, Penguin Reference, London, 2004, pp8-10 2 Rappelons la formule du théorème : P (B1 / A) = P(B1 ) * P( A | B1 ) ( P( B1 ) * P( A | B1 ) + P(B2 ) * P A | B2 ) Pour appliquer le théorème supposons que : A représente l’évènement « obtient un test positif pour la maladie X » B1 a la maladie X B2 n’a pas la maladie X Nous cherchons P (B1 / A) c'est-à-dire possède la maladie X et obtient un résultat positif au test. Nous avons donc : Prob B1 = 0.01 (en effet 1 personne sur 100 a la maladie X) Prob B2 = 0.99 (en effet 99 personnes sur 100 n’a pas la maladie X) A = obtient un résultat positif au test P (B1 / A) = la probabilité qu’une personne qui possède la maladie obtienne un test positif. Nous avons donc : P (B1 / A) = P (B1 / A) = P(B1 ) * P( A | B1 ) ( P( B1 ) * P( A | B1 ) + P(B2 ) * P A | B2 ) 0.01 * 0.95 = 0.24 0.01 * 0.95 + 0.99 * 0.03 Donc avant le test la probabilité qu’un individu ait la maladie était de 0.01 (ou 1%) et après le test cette probabilité est de 0.24 ou 24% Deuxième exemple4 Dans une région 30% des hommes et 20% des femmes sont contre le développement d’un tronçon routier. Les femmes forment 45% de tous les résidents de la région. Une personne qui est contre le projet est sélectionnée au hasard. Quelle est la probabilité que cette personne soit une femme? Nous avons donc : Prob (F) = ,45 (en effet les femmes forment 45% de la population) Prob (C) = ,20 (en effet 20% des femmes sont contre le projet) Prob (N) = ,55 (en effet 55% des personnes ne sont pas des femmes) 4 Source: Exemple modifié (même chiffre mais contexte différent) in Statistics Problem solvers pp 98-99. Nous obtenons la formule suivante : P (F C ) = P(F )P(C F ) P(F )P(C F ) + P( N )P(C N ) Il faut lire l’équation d la façon suivante : La probabilité d’une femme contre le projet est égale à la probabilité d’une femme fois la probabilité conditionnelle d’être contre le projet et d’être une femme divisé par la probabilité d’une femme fois la probabilité conditionnelle d’être contre le projet et d’être une femme plus la probabilité de ne pas être une femme fois la probabilité d’être contre le projet et de ne pas être une femme. On obtient ainsi : P (F C ) = (0,45)(0,2) = (0,45)(0,2) + (0,55)(0,3) ,09 ,09 = ,353 = ,09+,165 ,255 La probabilité qu’une personne contre le projet et choisi au hasard soit une femme est de ,353 (35,3%). Un dernier exemple5 (exercice) Supposons qu’on réalise une enquête sur un projet de loi controversé. On désire par le biais de cette enquête examiner la perception en fonction de l’allégeance politique des individus. Pour les fins de l’exemple l’enquête porte sur 260 personnes. (L’erreur serait 1 donc de = 0,062). L’enquête demande aux individus s’ils sont pour ou contre le 260 projet de loi et demande également leur allégeance politique. Pour les fins de l’exemple on dira qu’il y a deux allégeances (Parti A et Parti B). On obtient les résultats suivants : Allégeance Parti A Parti B TOTAL 5 Pour le projet 98 79 177 Contre le projet 54 29 83 Total 152 108 260 Inspiré de l’exemple in The complete idiot’s guide to Statistics, p. 95. Nous avons modifié le contexte. Il est évidemment possible de faire un Khi deux ici. On obtient le tableau suivant : Allégeance Parti A Parti B TOTAL Pour le projet 98 (103,48) 79 (73,52) 177 Contre le projet 54 (48,52) 29 (34,48) 83 Total 152 108 260 Nous obtenons un résultat tel que : χ2 (1) 2,19 n.s. On pourrait ainsi affirmer qu’il n’y a pas d’association entre l’attitude par rapport au projet de loi et l’allégeance politique. Vous vous attendiez à ce que les partisans du Parti A soient contre le projet. Vous désirez connaître les raisons qui motivent ces personnes d’être pour le projet. Pour cela vous décidez de choisir au hasard une personne parmi les 260. En utilisant le théorème de Bayes calculez la probabilité que la personne choisie soit effectivement du Parti A et qu’elle soit en faveur du projet de loi. Nous avons donc : L’événement A : La personne est en faveur du projet de loi L’événement B : La personne est d’allégeance au Parti A Calculez : 1) 2) 3) 4) 5) La probabilité que la personne choisie soit en faveur du projet de loi La probabilité que la personne choisie est d’allégeance au Parti A La probabilité que la personne choisie ne soit pas en faveur du projet de loi La probabilité que la personne choisie est d’allégeance au Parti B La probabilité que la personne choisie soit en faveur du projet de loi et d’allégeance au Parti A 6) La probabilité que la personne choisie ne soit pas en faveur du projet de loi et d’allégeance au Parti A 7) La probabilité que la personne choisie soit en faveur du projet de loi et d’allégeance au Parti B 8) La probabilité que la personne choisie ne soit pas en faveur du projet de loi et d’allégeance au Parti A 9) La probabilité que la personne choisie ne soit pas en faveur du projet de loi et d’allégeance au Parti B 10) La probabilité que la personne choisie soit en faveur du projet de loi OU d’allégeance au Parti A 11) La probabilité que la personne choisie soit en faveur du projet de loi OU d’allégeance au Parti B 12) En utilisant le théorème de Bayes calculez la probabilité que la personne choisie est d’allégeance au Parti A sachant que cette personne est pour le projet de loi Réponses : 1) P (A) = 177 = 0,68 260 2) P (B) = 152 = 0,58 260 3) P (A’) = 83 = 0,32 260 4) P (B’) = 108 = 0,42 260 98 = 0,64 152 54 6) P ( A' B ) = = 0,36 152 5) P ( A B ) = 7) P ( A B') = 79 = 0,73 108 8) P(A et B) = P ( A B ) *P(B) = (0,64)*(0,58) = 0,37 9) P (A et B’) = P ( A B') *P(B’) = (,73)*(0,42) = 0,31 10) P (A ou B) = P(A) + P(B) – P (A et B) = (0,68) + (0,58) – (0,37) = 0,89 11) P (A ou B’) = P(A) + P(B’) – P (A et B’) = (0,68) + (0,42) – (0,31) = 0,79 12) P (B A) = = P (B ) * P ( A B ) P (B ) * P ( A B ) + P B ' P A B ' (( )( (0,58) * (0,64) = (0,58) * (0,64) + ((0,42)(0,73)) )) 0,37 = 0,54 0,37 + 0,31