Document

publicité
Incertitude
Chap. 13
1
Plan
•
•
•
•
•
•
Incertitude
Probabilité
Syntaxe et Sémantique
Inférence
Indépendance et règle de Bayes
Comment l’utiliser?
2
Incertitude
Soit action At = partir pour l’aéroport t minutes avant le vol
Est-ce que At me permet d’arriver à temps?
Problèmes:
1.
2.
3.
4.
Observabilité partielle (état de route, plans des autres conducteurs, etc.)
Senseurs bruités (nouvelle sur le trafic)
Incertitude dans les résultats des actions (pneu dégonflé, etc.)
Complexité énorme pour modéliser et prédire le trafic
Donc, une approche purement logique va
1.
2.
Soit risquer le fausseté: “A25 me permet d’arriver à temps”
Soit arriver à la conclusion trop faible pour prendre une décision:
“A25 va me permettre d’y arriver à temps s’il n’y a pas d’accident sur le pont et
qu’il ne pleut pas et que mes pneus restent intacts, etc. »
(A1440 pourrait raisonnablement être considérée de m’y amener à temps mais je
dois rester une nuit à l’aéroport …)
3
Méthodes pour traiter l’incertitude
• Étendre la logique
– Logique de défaut ou non monotone:
• Par défaut: supposons que ma voiture n’a pas de pneu à plat
• Supposons que A25 marche à moins contredit par des évidences
– Problèmes: Quelles hypothèses par défaut sont raisonnables? Comment traiter
la contradiction?
– Logique non monotone: quand contradiction, défaire la chose la moins ancrée
• Approche numériques
– Probabilité
• Modéliser le degré de croyance de l’agent en une proposition
• Étant donné les évidences disponibles,
"A25 me permet d’y arriver à temps" avec la probabilité 0.04
• Combinaisons
– Règles avec facteurs arbitraire (fudge factors):
• A25 |→0.3 arriver à temps
• Sprinkler |→ 0.99 WetGrass
• WetGrass |→ 0.7 Rain
• Problèmes: combinaison des règles, Sprinkler causes Rain??
– Logique floue: étend les valeurs de vérité en [0,1] ≠ probabilité
• WetGrass est vrai à degré 0.2
4
Probabilité
Des assertions probabilistes résument les effets de
– Paresse (laziness): impossibilité d’énumérer les exceptions,
qualifications, etc.
– ignorance: manque des faits pertinents, des conditions initiales,
etc.
Probabilité subjective ou Bayesienne:
• Probabilités reliées aux propositions par rapport à l’état
de connaissances de l’agent
e.g., P(A25 | pas d’accident rapporté) = 0.06
(Ceci n’est pas une assertion sur le monde, mais une
évaluation)
Probabilités de propositions changent avec de nouvelles
évidences:
e.g., P(A25 | pas d’accident rapporté, 5 a.m.) = 0.15
(analogie à l’entraînement KB |=α, non à la vérité)
5
Prendre des décisions sous
incertitude
Supposons que je crois en :
P(A25 arrive à temps | …)
P(A90 arrive à temps | …)
P(A120 arrive à temps | …)
P(A1440 arrive à temps | …)
= 0.04
= 0.70
= 0.95
= 0.9999
• Quelle action prendre?
Dépend de mes préférences sur rater le vol vs. temps
d’attente, etc.
– Théorie d’utilité est utilisée pour représenter et inférer des
préférences sur des actions à prendre
Utilité(Action) = å P(Résultati | Action)*Utilité(Résultati )
i
– Théorie de décision = théorie de probabilité + théorie d’utilité
6
Probabilité: base
• Commençons par un ensemble  — l’espace d’échantillonnage
– e.g., 6 chiffres d’un dé.
– w Î W est un point d’échantillon / monde possible / événement
atomique
• Un espace de probabilité ou modèle probabiliste est un espace
d’échantillonnage avec l’assignation P(w) pour chaque w Î W :
– 0 ≤ P(w) ≤ 1
– ΣwP(w) = 1
• e.g., P(1)=P(2)=P(3)=P(4)=P(5)=P(6)=1/6.
– ~ Comparer événement atomique à une ligne dans la table de vérité
• Un événement A est n’importe quel sous ensemble de Ω
P( A) 
 P(w)
w
A est vrai dans w
• E.g., P(jet de dé < 4) = P(1) + P(2) + P(3) = 1/6 + 1/6 + 1/6 = 1/2
7
Variable aléatoire
• Une variable aléatoire est une fonction des points
d’échantillonnage vers certain champ, e.g. réel ou
booléen
– E.g. Impaire(dé=1) = vrai
• P induit une distribution de probabilité de toute variable
aléatoire X:
– P(X = xi ) =
å
P(w)
w:X (w)=xi
– E.g. P(Impaire=vrai) = P(1) + P(3) + P(5) = 1/6 + 1/6 + 1/6 = 1/2
8
Propositions
• Considérer une proposition comme l’événement (ensemble de points
d’échantillonnage) où la proposition est vraie
• Étant donné des variables aléatoires A et B:
– Événement a = ensemble de points d’échantillonnage où A(w) = vrai
– Événement a = ensemble de points d’échantillonnage où A(w) = faux
– Événement ab = ensemble de points d’échantillonnage où A(w) = vrai et B(w) =
vrai
• Dans les applications d’IA, les points d’échantillonnage sont souvent
définis pat les valeurs d’un ensemble de variables aléatoires, i.e.
l’espace d’échantillonnage est le produit cartésien des champs des
variables
• Avec des variables booléennes, les points d’échantillonnage =
modèles de logique de proposition
– E.g. A = vrai, B = faux, ou ab
• Proposition = disjonction des événements atomiques dans lesquels
elle est vraie
– E.g. (a  b)  (¬a  b)  (a  ¬b)  (a  b)
 P(a  b) = P(¬a  b) + P(a  ¬b) + P(a  b)
9
Syntaxe
•
Élément de base: variable aléatoire
•
Similaire à la logique propositionnelle: les mondes possibles sont définis par
des assignations de valeurs aux variables aléatoires
•
Variables aléatoires booléennes
e.g., Cavity (est-ce que j’ai une carie?)
•
Variables aléatoires Discrètes
e.g., Weather prend des valeurs dans <sunny,rainy,cloudy,snow>
•
Les valeurs dans le domaine doivent être exhaustives et exclusives
mutuellement
•
•
Propositions élémentaires construites par assignation de valeur à une
variable aléatoire:
–
–
e.g., Weather = sunny, Cavity = false
(abrégés comme sunny, cavity)
–
•
Propositions complexes sont formées avec les propositions élémentaires et
des connecteurs logiques standard. E.g., Weather = sunny  Cavity = false
10
Syntaxe
• Événement atomique: une spécification
complète de l’état du monde dont l’agent est
incertain
E.g., si le monde est composé de 2 variables
booléennes Cavity et Toothache, alors il y a 4
événements atomiques distincts:
Cavity = false Toothache = false
Cavity = false  Toothache = true
Cavity = true  Toothache = false
Cavity = true  Toothache = true
• Ces événements atomiques sont exhaustives et
mutuellement exclusives
11
Axiomes de probabilité
• Pour toutes propositions A, B
– 0 ≤ P(A) ≤ 1
– P(true) = 1 et P(false) = 0
– P(A  B) = P(A) + P(B) - P(A  B)
12
Probabilité a priori
•
Probabilité a prori ou probabilité inconditionnelle
e.g., P(Cavity = true) = 0.1 et P(Weather = sunny) = 0.72 correspondent aux
croyances a priori (i.e. avant l’arrivée de toute nouvelle évidence)
•
Distribution de probabilité: fournit tous les affectations possibles:
P(Weather) = <0.72,0.1,0.08,0.1> (normalisé, i.e., somme à 1)
•
Distribution de probabilité conjointe pour un ensemble de variables
aléatoires: fournit la probabilité de chaque événement atomique avec ces
variables aléatoires
P(Weather,Cavity) = une matrice de 4 × 2 valeurs:
Weather =
Cavity = true
Cavity = false
•
sunny
0.144
0.576
rainy
0.02
0.08
cloudy
0.016
0.064
snow
0.02
0.08
Toute question sur le domaine peut être répondue par la distribution
conjointe
13
Probabilité conditionnelle
• Probabilité a posteriori or conditionnelle
e.g., P(cavity | toothache) = 0.8
i.e., étant donné que toothache est tout ce que je sais
• (Notation pour les distributions conditionnelles:
P(Cavity | Toothache) = vecteur de 2 éléments de vecteurs de 2 éléments)
• Si on sait plus, e.g., cavity est aussi donnée, alors on a
P(cavity | toothache,cavity) = 1
• Une nouvelle évidence peut être non pertinente, ce qui permet à la
simplification, e.g.,
P(cavity | toothache, sunny) = P(cavity | toothache) = 0.8
• Ce genre d’inférence, sanctionnée par les connaissances du
domaine est cruciale
14
Probabilité conditionnelle
• Définition de probabilité conditionnelle:
P(a | b) = P(a  b) / P(b) si P(b) > 0
• Règle de produit: fournit une formulation alternative:
P(a  b) = P(a | b) P(b) = P(b | a) P(a)
• Une version générale tient pour toutes les distributions, e.g.,
P(Weather,Cavity) = P(Weather | Cavity) P(Cavity)
(vu comme ensemble de 4X2 équations)
• Règle de chaîne est dérivée par application successive de règle de
produit:
P(X1, …,Xn) = P(X1,...,Xn-1) P(Xn | X1,...,Xn-1)
= P(X1,...,Xn-2) P(Xn-1 | X1,...,Xn-2) P(Xn | X1,...,Xn-1)
=…
n
= Õ P(Xi | X1,..., Xi-1 )
i=1
15
Inférence par énumération
• Commencer par la distribution de probabilité conjointe:
• Pour toute proposition φ, some les événements
atomiques où elle est vraie: P(φ) = Σω:ω╞φ P(ω)
16
Inférence par énumération
• Commencer par la distribution de probabilité conjointe:
• Pour toute proposition φ, some les événements
atomiques où elle est vraie: P(φ) = Σω:ω╞φ P(ω)
• P(toothache) = 0.108 + 0.012 + 0.016 + 0.064 = 0.2
17
Inférence par énumération
• Commencer par la distribution de probabilité conjointe:
• Pour toute proposition φ, some les événements
atomiques où elle est vraie: P(φ) = Σω:ω╞φ P(ω)
• P(toothache ∨ cavity) = 0.108 + 0.012 + 0.016 + 0.064
+ 0.072 + 0.008 = 0.28
• (Comparer à la preuve par énumération en logique)
18
Inférence par énumération
• Commencer par la distribution de probabilité conjointe:
• Peut aussi calculer les probabilités conditionnelles:
P(cavity | toothache) = P(cavity  toothache)
P(toothache)
=
0.016+0.064
0.108 + 0.012 + 0.016 + 0.064
= 0.4
19
Normalisation
•
•
Dénominateur peut être vu comme une constante de normalisation α
On sait que P(cavity | toothache)+P(cavity | toothache)=1
P(cavity | toothache) = α P(cavity, toothache)
P(cavity | toothache) = α P(cavity, toothache)
•
Il suffit de calculer P(cavity, toothache) et P(cavity, toothache) et
normaliser.
P(Cavity | toothache) = α, P(Cavity,toothache)
= α, [P(Cavity,toothache,catch) + P(Cavity,toothache,catch)]
= α, [<0.108,0.016> + <0.012,0.064>]
= α, <0.12,0.08> = <0.6,0.4>
Idée générale: calculer la distribution des variables de requête en fixant les
variables d’évidence et sommant sur les variables cachées
20
Inférence par enumération
Typiquement, nous sommes intéressés par la distribution de probabilité
conjointe des variable de requête Y
sachant la valeur spécifique e pour les variables d’évidence E
Soit les variables cachées H = X - Y – E
Alors la sommation requise pour les entrées conjointes est faite en sommant
sur (summing out) les variables cachées:
P(Y | E = e) = αP(Y,E = e) = αΣhP(Y,E= e, H = h)
•
Les termes dans la sommation sont des entrées conjointes parce que Y, E
et H couvre l’ensemble de variables aléatoires
•
Problèmes évidents:
1. Complexité en temps au pire cas O(dn) où d est la plus grande arité (taille du
domaine) et n le nombre de variables
2. Complexité en espace O(dn) pour stocker les distributions conjointes
3. Comment trouver les nombres pour O(dn) entrées?
21
Indépendence
• A et B sont indépendantes ssi
P(A|B) = P(A) or P(B|A) = P(B)
or P(A, B) = P(A) P(B)
P(Toothache, Catch, Cavity, Weather)
= P(Toothache, Catch, Cavity) P(Weather)
• 32 (=23 x 4) entrées sont réduites à 12;
• Autre exemple: pour n pièces de monnaie indépendantes, O(2n)
→O(n)
• Indépendance absolue est puissante, mais rare
• La dentisterie est un domaine vaste avec des centaines de
variables, aucune n’étant indépendante. Quoi faire?
22
Indépendance conditionnelle
• P(Toothache, Cavity, Catch) a 23 – 1 = 7 entrées indépendantes
• Si j’ai une carie (cavity), la probabilité que la sonde l’accroche
(catch) ne dépend pas de si j’ai mal aux dents:
(1) P(catch | toothache, cavity) = P(catch | cavity)
• La même indépendance tient si je n’ai pas de carie:
(2) P(catch | toothache,cavity) = P(catch | cavity)
• Catch est indépendante conditionnellement de Toothache sachant
Cavity:
P(Catch | Toothache,Cavity) = P(Catch | Cavity)
• Expressions équivalentes
P(Toothache | Catch, Cavity) = P(Toothache | Cavity)
P(Toothache, Catch | Cavity) = P(Toothache | Cavity) P(Catch | Cavity)
23
Indépendance conditionnelle
contd.
• Écrire la distribution conjointe au complet en utilisant la
règle de chaîne:
P(Toothache, Catch, Cavity)
= P(Toothache | Catch, Cavity) P(Catch, Cavity)
= P(Toothache | Catch, Cavity) P(Catch | Cavity) P(Cavity)
= P(Toothache | Cavity) P(Catch | Cavity) P(Cavity)
I.e., 2 + 2 + 1 = 5 nombre indépendant
P(touthache|cavity), P(touthache|cavity)
• Dans la plupart des cas, l’utilisation de l’indépendance
conditionnelle réduit la taille de représentation de
distribution conjointe d’exponentiel en n à linéaire en n
• L’indépendance conditionnelle est la forme de
connaissance la plus basique et robuste concernant
l’environnement incertain
24
Règle de Bayes
• Règle de produit P(ab) = P(a | b) P(b) = P(b | a) P(a)
 Règle de Bayes: P(a | b) = P(b | a) P(a) / P(b)
• Ou en forme de distribution
P(Y|X) = P(X|Y) P(Y) / P(X) = αP(X|Y) P(Y)
• Utile pour évaluer la probabilité de diagnostic à partir de
la probabilité causale :
– P(Cause|Effet) = P(Effet|Cause) P(Cause) / P(Effet)
– E.g., Soit M méningite, S raideur dans le cou:
P(m|s) = P(s|m) P(m) / P(s) = 0.8 × 0.0001 / 0.1 = 0.0008
– Note: probabilité a posteriori de méningite encore très faible!
25
Règle de Bayes et
indépendance conditionnelle
P(Cavity | toothache  catch)
= αP(toothache  catch | Cavity) P(Cavity)
= αP(toothache | Cavity) P(catch | Cavity) P(Cavity)
• C’est un exemple de modèle Bayes naïve:
P(Cause,Effect1, … ,Effectn) = P(Cause) πiP(Effecti|Cause)
• Nombre total de paramètres est linéaire en n
26
Le monde
de
W um pus
W orwumpus
ld
1,4
2,4
3,4
4,4
1,3
2,3
3,3
4,3
1,2
2,2
3,2
4,2
3,1
4,1
B
OK
1,1
OK
2,1
B
OK
=ijtr=vrais
ue iff [i si
, j ][i,
contains
a pit une fosse
•Pi j P
j] contient
•B i j B=ij tr=vrai
sent la brise
ue iff ssi
[i , j ][i,isj]breezy
only B 1,1
, B 1,2, B 2,1 inles
thevariables
probability model
•Include
Contient
seulement
B1,1,B1,2,B2,1 dans le
modèle probabiliste
• Déterminer la probabilité d’avoir une fosse à une case
27
Spécifier le modèle probabiliste
• La distribution conjointe complète est
P(P1,1, . . . , P4,4, B1,1, B1,2, B2,1)
• Appliquer la règle de produit:
P(B1,1, B1,2, B2,1 | P1,1, . . . , P4,4)P(P1,1, . . . , P4,4)
(faire comme ça pour obtenir P(Effect|Cause))
• Premier terme : 1 si adjacents à des fosses, 0 autrement
• Second terme : fosses placées de façon aléatoire, avec
une probabilité de 0.2 par carré:
P(P1,1,..., P4,4 ) = Õ
pour n fosses
4,4
i, j=1,1
P(Pi, j ) = 0.2 ´ 0.8
n
16-n
28
Observations et requête
• Nous connaissons les faits:
b = ¬b1,1 ∧ b1,2 ∧ b2,1
known = ¬p1,1 ∧ ¬p1,2 ∧ ¬p2,1
• Requête = P(P1,3|known, b)
• Définir Unknown = tous les Pij autres que P1,3 et
Known
• Pour inférence par énumération, nous avons:
P(P1,3|known, b) = αΣunknownP(P1,3, unknown, known, b)
Où unknown est une combinaison de toutes les variables cachées
–Augmente exponentiellement avec le nombre de
carrés
29
Utiliser Ul’indépendance
conditionnelle
sing condit ional indep endence
• Basic
Idée
de base:
Les are
observations
sont indépendantes
insight:
observations
conditionally independent
of other hidden des
autres
carrés
cachés
squares
given
neighbouring
hidden squares
1,4
2,4
3,4
4,4
1,3
2,3
3,3
4,3
OTHER
QUERY
1,2
1,1
2,2
3,2
4,2
2,1
FRINGE
3,1
4,1
KNOWN
• Define
Définir
Unknown
= Fringe
Unknown
= F r i nge
∪ Other ∪ Other
P P(b|P
(b|P1,3, K nown,
Unknown) = P (b|P = ,P(b|P
K nown, F,Known,Fringe)
r i nge)
1,3,Known,Unknown) 1,3
1,3
queryla
into
a form where
canforme
use this! où on peut l’utiliser
• Manipulate
Manipuler
requête
en we
une
30
Chapt er 13
31
Utiliser l’indépendance conditionnelle
31
Utiliser
l’indépendance conditionnelle
U sing condit ional indep endence cont d.
1,3
1,3
1,2
2,2
1,2
B
2,2
3,1
1,1
OK
OK
0.2 x 0.2 = 0.04
3,1
1,1
OK
OK
0.2 x 0.8 = 0.16
2,2
1,1
OK
0.8 x 0.2 = 0.16
2,2
B
OK
3,1
OK
2,1
B
OK
1,2
B
2,1
B
1,3
1,2
OK
2,1
B
2,2
B
OK
2,1
1,3
1,2
B
OK
1,1
1,3
3,1
1,1
2,1
B
OK
OK
0.2 x 0.2 = 0.04
3,1
B
OK
OK
0.2 x 0.8 = 0.16
P(P1,3|known, b) = α 0.2(0.04 + 0.16 + 0.16), 0.8(0.04 + 0.16)
≈ 0.31, 0.69
P(P2,2|known, b) ≈
0.86, 0.14
32
Sommaire
• La probabilité est un formalisme rigoureuse pour
des connaissances incertaines
• Distribution de probabilité conjointe spécifie la
probabilité de tout événement atomique
• Des requêtes peuvent être répondues en
sommant sur les événements atomiques
• Pour des domaines non triviaux, on doit trouver
une façon de réduire la taille de jointure
• Indépendance et indépendance conditionnelle
fournissent des outils
33
Téléchargement