Introduction à l’intelligence artificielle et la théorie de jeux Raisonnement sous incertitudes Wieslaw Zielonka www.irif.fr/˜zielonka November 15, 2016 Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Les sources d’incertitude Ignorance – connaissances limités. Nos opposants dans le poker ont-ils les bonnes cartes ou ils bluffent. Indéterminisme physique ou phénomènes aléatoires physiques. Impossibilité de prévoir pile ou face ou le résultats d’un dé. Flou dans la description ou dans les conditions. Règles de déduction : la logique (lois précises, déterminées) ou l’approche Bayesien (calcul de proba). Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Calcul de probabilité U - l’univers de tous les évènements possibles. P(U) = 1 Pour X ⊆ U, 0 ≤ P(x) ≤ 1. (additivité) Pour X , Y ⊆ X , si X ∩ Y = ∅ alors P(X ∪ Y ) = P(X ) + P(Y ). (additivité dénombrable) Si Xi , iS= 1, 2, 3, . .P . sont tels que ∞ Xi ∩ Xj = ∅ pour i 6= j alors P( ∞ X ) = i i=1 i=1 P(Xi ). Pour X , Y ⊆ U, P(X ∪ Y ) = P(X ) + P(Y ) − P(X ∩ Y ). Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Probabilité conditionnelle Probabilité de X étant donné Y , P(X |Y ) = Wieslaw Zielonka www.irif.fr/˜zielonka P(X ∩ Y ) P(Y ) Introduction à l’intelligence artificielle et la théorie de jeux Indépendance X et Y indépendants, X ⊥ ⊥ Y si P(X |Y ) = P(X ). Indépendance est symétrique : X ⊥ ⊥ Y si et seulement si Y ⊥ ⊥X Ceci évident si on prend une définition équivalente: X ⊥ ⊥ Y su et seulement si P(X ∩ Y ) = P(X ) · P(Y ). Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Indépendance conditionnelle X ⊥ ⊥ Y |Z si P(X |Y , Z ) = P(X |Z ) X ⊥ ⊥ Y |Z lire : X indépendant de Y étant donné Z . P(X |Y , Z ) est la probabilité de X étant donné Y et Z : P(X |Y , Z ) = Wieslaw Zielonka www.irif.fr/˜zielonka P(X ∩ Y ∩ Z ) P(Y ∩ Z ) Introduction à l’intelligence artificielle et la théorie de jeux Probabilité totale Supposons que les S évènements {Bi } forment une partition de U, c’est-à-dire U = i Bi et Bi ∩ Bj = ∅ pour i 6= j. Alors X P(Bi ) P(U) = i Et plus généralement, P(A) = X P(A ∩ Bi ) i pour chaque évènement A. Conséquence : P(A) = X P(A|Bi ) · P(Bi ) i si {Bi } une partition de U. Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Règle de chaînage P(A1 , A2 , . . . , An ) = P(A1 )·P(A2 |A1 )·P(A3 |A1 , A2 )·P(A4 |A1 , A2 , A3 ) · · P(An−1 |A1 , A2 , . . . , An−2 ) · P(An |A1 , A2 , . . . , An−1 ) P(A1 , A2 , . . . , An ) désigne P(A1 ∩ A2 ∩ . . . ∩ An ). P(A1 ) · P(A2 |A1 ) · P(A3 |A1 , A2 ) · · · P(An |A1 , A2 , . . . , An−1 ) = P(A1 , A2 ) P(A1 , A2 , A3 ) P(A1 , A2 , . . . , An−1 , An ) P(A1 ) · · ··· P(A1 ) P(A1 , A2 ) P(A1 , A2 , . . . , An−1 ) Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Théorème de Bayes P(H|E ) = P(E |H) · P(H) P(E ) P(H) probabilité à priori de H (H-hypothèse) P(H|A) - probabilité à posteriori de H (probabilité de H après qu’on a observé l’évènement A) P(E |H) - vraisemblance de E P(E ) - probabilité à priori de E (probabilité marginale de E ) P(E |H) · P(H) P(E ∩ H) · P(H) P(E ∩ H) = = = P(H|E ) P(E ) P(H) · P(E ) P(E ) Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Formule de Bayes Si {Hi } une partition de U alors P(A|Hi ) · P(Hi ) P(Hi |A) = P i P(A|Hi ) · P(Hi ) Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Exemple de raisonnement Bayesien Supposons qu’une femme sur 100 développe un cancer de sein. Supposons que le test de cancer donne le taux de faux positifs de 0.2 (pour 20% de femmes sans cancer le test est positif). Supposons aussi que le taux de faux négatifs est de 0.1 (pour 10% de femmes ayant le test donne une réponse négative). Pour une femme le test a donné le résultat positif. Quelle est la probabilité qu’elle a un cancer? Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux exercice (suite) P(cancer ) = 1/100 P(positive|cancer ) = 1/5 P(negative|cancer ) = 1/10 P(positive|cancer )P(cancer ) = P(positive) (1 − P(negative|cancer ))P(cancer ) = P(positive|cancer )P(cancer ) + P(positive|cancer )P(cancer ) 1 1 (1 − 10 ) 100 = 1 1 1 (1 − 10 ) 100 + 15 (1 − 100 ) 0.009 ∼ 0.043 0.009 + 0.198 P(cancer |positive) = Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Le problème de Monty Hall Le jeu oppose un présentateur à un candidat. Le candidat est placé devant trois portes fermées. Derrière l’une d’elles se trouve une voiture de luxe et derrière chacune des deux autres se trouve une chèvre. Le candidat doit désigner une porte. Puis le présentateur doit ouvrir une porte qui n’est ni celle choisie par le candidat. Le présentateur sait où se trouve la voiture et ouvre toujours une porte avec une chèvre derrière. Le candidat a alors le droit soit ouvrir la porte qu’il a choisie initialement, soit ouvrir la troisième porte. Que doit-il faire ? Quelles sont ses chances de gagner la voiture en agissant au mieux ? Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux People v. Collins 1964 couple mixte accusé de vol à main armé. Condamné sur la base qu’ils correspondent à un profil très improbable. En particulier, d’après les témoins, la description de voleurs indique que 1 l’homme a une moustache, 2 il est noir et a une barbe, 3 la femme a une queue de cheval, 4 elle est blonde, 5 le couple est mixte, 6 le couple est parti en voiture jaune. Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Le procureur a suggéré que les probabilité suivantes sont observées dans LA: 1 un homme avec moustache 1/4, 2 noir avec une barbe, 1/10, 3 une femme avec queue de cheval, 1/10, 4 blonde, 1/3, 5 mixte, 1/1000, 6 voiture jaune 1/10. H - hypothèse coupable, Ei une de 6 évènements observés. Pour le procureur (et un “expert” en math!): Y P(E |H) = P(Ei |H) = 1/12000000 i Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Mais les évènements ne sont pas indépendants: la barbe implique avec une grande probabilité (presque 1) une moustache 2 et 4 impliquent 5 En éliminant 1 et 5 on obtient la probabilité 1/3000. Mais plus fondamentalement la probabilité d’être coupable n’est pas 1 − P(E |H) mais P(E |H)P(H) P(E |H)P(H) + P(E |H)P(H) Soyons généreux pour le procureur et mettant P(E |H) = 1 P(H|E ) = P(H|E ) = P(H) P(H) + P(H)/3000 P(H) difficile a estimer mais si on suppose la probabilité uniforme d’être coupable pour toutes les couples (environ 1600000 en L.A.) on arrive à P(H|E ) = 0.002. Le jugement de l’homme (et uniquement de l’homme!) a été ensuite annulé (partiellement sur la Introduction base queà les évènement Wieslaw Zielonka www.irif.fr/˜zielonka l’intelligence artificielle et la théorie de jeux Exemple : classement probabiliste - credit scoring Le banque calcule le risques que le crédit ne sera pas remboursé. Basé sur : le revenu, l’épargne, profession, âge, histoire de crédits précédents, etc. Une variable aléatoire : X :U→R Ici la situation est suivante: on observe plusieurs variables aléatoires et on doit prévoir le risque. P(X1 , X2 ) distribution conjointe de X1 et X2 , est un ensemble de valeur P(X1 = x1 , X2 = x2 ) pour tous les x1 et x2 . Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Distribution marginale P(X1 ) = X P(X1 , X2 ) := X P(X1 , X2 = x2 ) x2 X2 intelligence faible élevée A 0.07 0.18 0.26 grade B 0.28 0.09 0.37 C 0.35 0.03 0.38 0.7 0.3 1 Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Classification X1 - revenu annuel, X2 - l’épargne C = 1 client avec un risque élevé, C = 0 client avec un risque faible. Soit x = (x1 , x2 ). Par la règle de Bayes P(C |x) = P(C ) · P(x|C ) P(x) et on peut, par exemple, prendre la décision C = 1 si P(C = 1|x) > 21 . P(C = 1) probabilité à priori P(C = 1) + P(C = 0) = 1 P(x|C ) vraisemblance - P(x|C = 1) - probabilité qu’un client dont le risque est élevé possède les caractéristiques X1 = x1 et X2 = x2 Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Problème de classification général Il y a k classes mutuellement disjointes, C1 , . . . , Ck . Nous avons les probabilités à priori: k X P(C1 ), . . . , P(Ck ), P(Ci ) = 1 i=1 La probabilité que l’objet avec les caractéristiques x = (x1 , . . . , xn ) appartient à la classe Ci est P(Ci |x) = P(x|Ci ) · P(Ci ) P(x|Ci ) · P(Ci ) = Pk P(x) i=1 P(x|Ci ) · P(Ci ) Pour minimiser l’erreur choisir Cj telle que P(Cj |x) = max P(Ci |x) i Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Pertes et risques Les décisions mauvaises n’ont toujours pas le même coût et les décisions correctes ne donnent toujours pas le même gain. Par exemple accepter un candidat pour un crédit avec un grand risque de défaut de paiement n’est pas équivalent au rejet d’un candidat solvable. Pareil par exemple pour estimation de risque de tremblement de terre. Prédire un tremblement de terre qui n’aura pas lieu pose bien moins de problème que ne pas avertir la population avec que le tremblement se produit. Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux αi - l’action qui consiste à attribuer (correctement ou non) la classe Ci λik - perte subi par une action αi l’évènement appartient en fait à la classe Ck Alors l’espérance de risque pour une décision αi est R(αi |x) = k X λij P(Cj |x) j=1 On choisit l’action αi qui minimise R(αi |x) Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux 0/1 pertes ( 0 si i = k, λik = 1 si i 6= k Donc la même perte 1 en cas d’une mauvaise décision, et la perte 0 en cas d’une bonne décision. Le risque de prendre l’action αi est R(αi |x) = k X λij P(Cj |x) = j=1 X P(Cj |x) = 1 − P(Ci |x) j6=i Donc dans ce cas minimiser le risque est équivalent à prendre la classe la plus probable. Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux Action doute/rejet Si la mauvaise classification coûte beaucoup on pourra ajouter une action supplémentaire: doute αk+1 Une fonction de perte possible: 0 si i = k λik = λ si i = k + 1 1 sinon. Wieslaw Zielonka www.irif.fr/˜zielonka Introduction à l’intelligence artificielle et la théorie de jeux