1
Prisededécisionscomplexes
1
Plan
Problèmesdedécisionsséquentielles
Algorithme«valueiteration »
Algorithme« policyiteration »
POMDP
Réseaudedécisiondynamique
2
Exemple
Touslesétatsnonterminauxontune
récompensede‐0.04
3
2
Exemple
Sil’environnementétait
déterministe,lasolutionserait:
[Haut,Haut,Droite,Droite,
Droite]
àl’incertitude,cechemin
n’aque0.85+(0.14*0.8)=
0.32776chancederéussite.
4
Modèledetransition
Lemodèledetransitionspécifielaprobabilité
dechaquerésultatpossibled’uneaction.
T(s,a,s’):laprobabilitéd’atteindrel’étatsen
effectuant l
action
a
dans l
état
s
effectuant
laction
a
dans
tat
s
.
OnsupposedestransitionsMarkoviennes
Laprobabilitéd’atteindresnedépendquedeset
nondesétatsprécédents.
5
Fonctiond’utilité
Commeleproblèmededécisionest
séquentiel,lafonctiond’utilitédoitdépendre
d’uneséquenced’états.
L
agent reçoit une compense
R
(
s
)qui peut
Lagent
reçoit
une
récompense
R
(
s
)
qui
peut
êtrepositiveounégative.
Lutilitéd’unesuited’étatest(pourle
moment)lasommedesrécompensesreçues.
6
3
ProcessusdedécisiondeMarkov
Problèmededécisionséquentielledansun
environnementcomplètementobservable
avecunmodèledetransitionMarkovienet
desrécompensesadditives.
UnMDPestdéfinipar:
Étatinitial:S0
Modèledetransition:T(s,a,s’)
Fonctionderécompense:R(s)
7
Politique
Unesolutionauproblèmenepeutpasêtreune
suited’actionfixe.
Ilfautpouvoirspécifierl’actionàfairedans
chaqueétat.
Ceciestappeléunepolitique(π)
π(s)estl’actionrecommandéeparlapolitiqueπ
pourl’états.
Lapolitiqueoptimaleπ*estcellequial’utilité
espéréemaximale.
8
Politiqueoptimale
(Risk vsReward)
9
HGD : pénible, désagréable,
BGD : morne, agréable
4
Fonctiond’utilité
OnveutdéfinirUh([s0,s1,…,sn])
PourunhorizonfiniaprèsNétapes,the
``gameisover’’:
Uh([s0,s1,…,sN+k])=Uh([s0,s1,…,sN])
Lapolitiqueoptimaleestnonstationnaire
Lapolitiqueoptimalepeutchangerdansletemps.
Pourunhorizoninfini,lapolitiqueoptimale
eststationnaire.
10
Assignationd’utilité
Récompensesadditives:
Récompensesescomptées(discounted):
lefacteurd’escompteestunnombreentre0et1.
L’agentpréfèrelesrécompensesimmédiates.
11
«ValueIteration »
Algorithmeutilisépourcalculerunepolitique
optimale.
Idée:Calculerl’utilitédechaqueétatet
optimaledanschaqueétat.
12
5
Utilitéd’unétat
Lutilitédoitêtredéfiniesuruneséquence
d’états.
Ondonnecommeutilitéàunétatl’utilité
espérée des séquences d
états qui peuvent le
espérée
des
séquences
tats
qui
peuvent
le
suivre.
Lesséquencesd’étatsdépendentdela
politiqueexécutée.
13
Utilitéd’unétat
Lavéritableutilitéd’unétatU(s)estUπ*(s).
C’estàdirelasommeespéréedes
récompensesescomptéessil’agentexécutela
politique optimale
politique
optimale
.
R(s):Larécompenseàcourttermed’êtredans
l’états.
U(s):Larécompenseàlongtermeàpartirde
l’états.
14
Utilitémaximaleespérée
Intuitivementetselonleprincipedela
rationalité,l’agentdevraitchoisirl’actionqui
maximisel’utilitéespérée,c’estàdire:
15
1 / 11 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !