Transparents

publicité
Introduction à l’intelligence artificielle et la théorie
de jeux
Raisonnement sous incertitudes
Wieslaw Zielonka
www.irif.fr/˜zielonka
November 15, 2016
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Les sources d’incertitude
Ignorance – connaissances limités. Nos opposants dans le
poker ont-ils les bonnes cartes ou ils bluffent.
Indéterminisme physique ou phénomènes aléatoires physiques.
Impossibilité de prévoir pile ou face ou le résultats d’un dé.
Flou dans la description ou dans les conditions.
Règles de déduction : la logique (lois précises, déterminées) ou
l’approche Bayesien (calcul de proba).
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Calcul de probabilité
U - l’univers de tous les évènements possibles.
P(U) = 1
Pour X ⊆ U, 0 ≤ P(x) ≤ 1.
(additivité) Pour X , Y ⊆ X , si X ∩ Y = ∅ alors
P(X ∪ Y ) = P(X ) + P(Y ).
(additivité dénombrable) Si Xi , iS= 1, 2, 3, . .P
. sont tels que
∞
Xi ∩ Xj = ∅ pour i 6= j alors P( ∞
X
)
=
i
i=1
i=1 P(Xi ).
Pour X , Y ⊆ U, P(X ∪ Y ) = P(X ) + P(Y ) − P(X ∩ Y ).
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Probabilité conditionnelle
Probabilité de X étant donné Y ,
P(X |Y ) =
Wieslaw Zielonka www.irif.fr/˜zielonka
P(X ∩ Y )
P(Y )
Introduction à l’intelligence artificielle et la théorie de jeux
Indépendance
X et Y indépendants,
X ⊥
⊥ Y si P(X |Y ) = P(X ).
Indépendance est symétrique :
X ⊥
⊥ Y si et seulement si Y ⊥
⊥X
Ceci évident si on prend une définition équivalente:
X ⊥
⊥ Y su et seulement si P(X ∩ Y ) = P(X ) · P(Y ).
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Indépendance conditionnelle
X ⊥
⊥ Y |Z si P(X |Y , Z ) = P(X |Z )
X ⊥
⊥ Y |Z lire : X indépendant de Y étant donné Z .
P(X |Y , Z ) est la probabilité de X étant donné Y et Z :
P(X |Y , Z ) =
Wieslaw Zielonka www.irif.fr/˜zielonka
P(X ∩ Y ∩ Z )
P(Y ∩ Z )
Introduction à l’intelligence artificielle et la théorie de jeux
Probabilité totale
Supposons que les
S évènements {Bi } forment une partition de U,
c’est-à-dire U = i Bi et Bi ∩ Bj = ∅ pour i 6= j.
Alors
X
P(Bi )
P(U) =
i
Et plus généralement,
P(A) =
X
P(A ∩ Bi )
i
pour chaque évènement A.
Conséquence :
P(A) =
X
P(A|Bi ) · P(Bi )
i
si {Bi } une partition de U.
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Règle de chaînage
P(A1 , A2 , . . . , An ) = P(A1 )·P(A2 |A1 )·P(A3 |A1 , A2 )·P(A4 |A1 , A2 , A3 ) · ·
P(An−1 |A1 , A2 , . . . , An−2 ) · P(An |A1 , A2 , . . . , An−1 )
P(A1 , A2 , . . . , An ) désigne P(A1 ∩ A2 ∩ . . . ∩ An ).
P(A1 ) · P(A2 |A1 ) · P(A3 |A1 , A2 ) · · · P(An |A1 , A2 , . . . , An−1 ) =
P(A1 , A2 ) P(A1 , A2 , A3 )
P(A1 , A2 , . . . , An−1 , An )
P(A1 ) ·
·
···
P(A1 )
P(A1 , A2 )
P(A1 , A2 , . . . , An−1 )
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Théorème de Bayes
P(H|E ) =
P(E |H) · P(H)
P(E )
P(H) probabilité à priori de H (H-hypothèse)
P(H|A) - probabilité à posteriori de H (probabilité de H après
qu’on a observé l’évènement A)
P(E |H) - vraisemblance de E
P(E ) - probabilité à priori de E (probabilité marginale de E )
P(E |H) · P(H)
P(E ∩ H) · P(H)
P(E ∩ H)
=
=
= P(H|E )
P(E )
P(H) · P(E )
P(E )
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Formule de Bayes
Si {Hi } une partition de U alors
P(A|Hi ) · P(Hi )
P(Hi |A) = P
i P(A|Hi ) · P(Hi )
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Exemple de raisonnement Bayesien
Supposons qu’une femme sur 100 développe un cancer de sein.
Supposons que le test de cancer donne le taux de faux positifs de
0.2 (pour 20% de femmes sans cancer le test est positif).
Supposons aussi que le taux de faux négatifs est de 0.1 (pour 10%
de femmes ayant le test donne une réponse négative).
Pour une femme le test a donné le résultat positif. Quelle est la
probabilité qu’elle a un cancer?
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
exercice (suite)
P(cancer ) = 1/100
P(positive|cancer ) = 1/5
P(negative|cancer ) = 1/10
P(positive|cancer )P(cancer )
=
P(positive)
(1 − P(negative|cancer ))P(cancer )
=
P(positive|cancer )P(cancer ) + P(positive|cancer )P(cancer )
1
1
(1 − 10
) 100
=
1
1
1
(1 − 10
) 100
+ 15 (1 − 100
)
0.009
∼ 0.043
0.009 + 0.198
P(cancer |positive) =
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Le problème de Monty Hall
Le jeu oppose un présentateur à un candidat. Le candidat est placé
devant trois portes fermées. Derrière l’une d’elles se trouve une
voiture de luxe et derrière chacune des deux autres se trouve une
chèvre. Le candidat doit désigner une porte. Puis le présentateur
doit ouvrir une porte qui n’est ni celle choisie par le candidat. Le
présentateur sait où se trouve la voiture et ouvre toujours une porte
avec une chèvre derrière. Le candidat a alors le droit soit ouvrir la
porte qu’il a choisie initialement, soit ouvrir la troisième porte.
Que doit-il faire ?
Quelles sont ses chances de gagner la voiture en agissant au
mieux ?
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
People v. Collins
1964 couple mixte accusé de vol à main armé.
Condamné sur la base qu’ils correspondent à un profil très
improbable.
En particulier, d’après les témoins, la description de voleurs indique
que
1
l’homme a une moustache,
2
il est noir et a une barbe,
3
la femme a une queue de cheval,
4
elle est blonde,
5
le couple est mixte,
6
le couple est parti en voiture jaune.
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Le procureur a suggéré que les probabilité suivantes sont observées
dans LA:
1
un homme avec moustache 1/4,
2
noir avec une barbe, 1/10,
3
une femme avec queue de cheval, 1/10,
4
blonde, 1/3,
5
mixte, 1/1000,
6
voiture jaune 1/10.
H - hypothèse coupable, Ei une de 6 évènements observés.
Pour le procureur (et un “expert” en math!):
Y
P(E |H) =
P(Ei |H) = 1/12000000
i
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Mais les évènements ne sont pas indépendants:
la barbe implique avec une grande probabilité (presque 1) une
moustache
2 et 4 impliquent 5
En éliminant 1 et 5 on obtient la probabilité 1/3000.
Mais plus fondamentalement la probabilité d’être coupable n’est pas
1 − P(E |H)
mais
P(E |H)P(H)
P(E |H)P(H) + P(E |H)P(H)
Soyons généreux pour le procureur et mettant P(E |H) = 1
P(H|E ) =
P(H|E ) =
P(H)
P(H) + P(H)/3000
P(H) difficile a estimer mais si on suppose la probabilité uniforme
d’être coupable pour toutes les couples (environ 1600000 en L.A.)
on arrive à P(H|E ) = 0.002.
Le jugement de l’homme (et uniquement de l’homme!) a été
ensuite
annulé
(partiellement
sur la Introduction
base queà les
évènement
Wieslaw
Zielonka
www.irif.fr/˜zielonka
l’intelligence
artificielle et la théorie de jeux
Exemple : classement probabiliste - credit scoring
Le banque calcule le risques que le crédit ne sera pas remboursé.
Basé sur : le revenu, l’épargne, profession, âge, histoire de crédits
précédents, etc.
Une variable aléatoire :
X :U→R
Ici la situation est suivante: on observe plusieurs variables aléatoires
et on doit prévoir le risque.
P(X1 , X2 ) distribution conjointe de X1 et X2 , est un ensemble de
valeur P(X1 = x1 , X2 = x2 ) pour tous les x1 et x2 .
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Distribution marginale
P(X1 ) =
X
P(X1 , X2 ) :=
X
P(X1 , X2 = x2 )
x2
X2
intelligence
faible
élevée
A
0.07
0.18
0.26
grade B
0.28
0.09
0.37
C
0.35
0.03
0.38
0.7
0.3
1
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Classification
X1 - revenu annuel, X2 - l’épargne
C = 1 client avec un risque élevé, C = 0 client avec un risque
faible.
Soit x = (x1 , x2 ).
Par la règle de Bayes
P(C |x) =
P(C ) · P(x|C )
P(x)
et on peut, par exemple, prendre la décision C = 1 si
P(C = 1|x) > 21 .
P(C = 1) probabilité à priori
P(C = 1) + P(C = 0) = 1
P(x|C ) vraisemblance - P(x|C = 1) - probabilité qu’un client dont
le risque est élevé possède les caractéristiques X1 = x1 et X2 = x2
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Problème de classification général
Il y a k classes mutuellement disjointes, C1 , . . . , Ck .
Nous avons les probabilités à priori:
k
X
P(C1 ), . . . , P(Ck ),
P(Ci ) = 1
i=1
La probabilité que l’objet avec les caractéristiques x = (x1 , . . . , xn )
appartient à la classe Ci est
P(Ci |x) =
P(x|Ci ) · P(Ci )
P(x|Ci ) · P(Ci )
= Pk
P(x)
i=1 P(x|Ci ) · P(Ci )
Pour minimiser l’erreur choisir Cj telle que
P(Cj |x) = max P(Ci |x)
i
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Pertes et risques
Les décisions mauvaises n’ont toujours pas le même coût et les
décisions correctes ne donnent toujours pas le même gain.
Par exemple accepter un candidat pour un crédit avec un grand
risque de défaut de paiement n’est pas équivalent au rejet d’un
candidat solvable.
Pareil par exemple pour estimation de risque de tremblement de
terre. Prédire un tremblement de terre qui n’aura pas lieu pose bien
moins de problème que ne pas avertir la population avec que le
tremblement se produit.
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
αi - l’action qui consiste à attribuer (correctement ou non) la classe
Ci
λik - perte subi par une action αi l’évènement appartient en fait à
la classe Ck
Alors l’espérance de risque pour une décision αi est
R(αi |x) =
k
X
λij P(Cj |x)
j=1
On choisit l’action αi qui minimise
R(αi |x)
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
0/1 pertes
(
0 si i = k,
λik =
1 si i 6= k
Donc la même perte 1 en cas d’une mauvaise décision, et la perte 0
en cas d’une bonne décision.
Le risque de prendre l’action αi est
R(αi |x) =
k
X
λij P(Cj |x) =
j=1
X
P(Cj |x) = 1 − P(Ci |x)
j6=i
Donc dans ce cas minimiser le risque est équivalent à prendre la
classe la plus probable.
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Action doute/rejet
Si la mauvaise classification coûte beaucoup on pourra ajouter une
action supplémentaire: doute αk+1
Une fonction de perte possible:


0 si i = k
λik = λ si i = k + 1


1 sinon.
Wieslaw Zielonka www.irif.fr/˜zielonka
Introduction à l’intelligence artificielle et la théorie de jeux
Téléchargement