Décision Complexe

Téléchargement

Prisededécisionscomplexes

Plan

•Problèmesdedécisionsséquentielles

•Algorithme«valueiteration »

•Algorithme« policyiteration »

•POMDP

•Réseaudedécisiondynamique

Exemple

•Touslesétatsnonterminauxontune

récompensede‐0.04

Exemple

•Sil’environnementétait

déterministe,lasolutionserait:

[Haut,Haut,Droite,Droite,

Droite]

•Dûàl’incertitude,cechemin

n’aque0.85+(0.14*0.8)=

0.32776chancederéussite.

Modèledetransition

•Lemodèledetransitionspécifielaprobabilité

dechaquerésultatpossibled’uneaction.

•T(s,a,s’):laprobabilitéd’atteindrel’états’en

effectuant l

’

action

dans l

’

état

effectuant



laction



dans



létat



•OnsupposedestransitionsMarkoviennes

–Laprobabilitéd’atteindres’nedépendquedeset

nondesétatsprécédents.

Fonctiond’utilité

•Commeleproblèmededécisionest

séquentiel,lafonctiond’utilitédoitdépendre

d’uneséquenced’états.

•

’

agent reçoit une récompense

(

)qui peut

•

Lagent



reçoit



une



récompense



(

)



qui



peut



êtrepositiveounégative.

•L’utilitéd’unesuited’étatest(pourle

moment)lasommedesrécompensesreçues.

ProcessusdedécisiondeMarkov

•Problèmededécisionséquentielledansun

environnementcomplètementobservable

avecunmodèledetransitionMarkovienet

desrécompensesadditives.

•UnMDPestdéfinipar:

–Étatinitial:S0

–Modèledetransition:T(s,a,s’)

–Fonctionderécompense:R(s)

Politique

•Unesolutionauproblèmenepeutpasêtreune

suited’actionfixe.

•Ilfautpouvoirspécifierl’actionàfairedans

chaqueétat.

•Ceciestappeléunepolitique(π)

•π(s)estl’actionrecommandéeparlapolitiqueπ

pourl’états.

•Lapolitiqueoptimaleπ*estcellequial’utilité

espéréemaximale.

Politiqueoptimale

(Risk vsReward)

HGD : pénible, désagréable,

BGD : morne, agréable

Fonctiond’utilité

•OnveutdéfinirUh([s0,s1,…,sn])

•PourunhorizonfinioùaprèsNétapes,the

``gameisover’’:

–Uh([s0,s1,…,sN+k])=Uh([s0,s1,…,sN])

–Lapolitiqueoptimaleestnonstationnaire

•Lapolitiqueoptimalepeutchangerdansletemps.

•Pourunhorizoninfini,lapolitiqueoptimale

eststationnaire.

Assignationd’utilité

•Récompensesadditives:

•Récompensesescomptées(discounted):

–oùlefacteurd’escompteestunnombreentre0et1.

–L’agentpréfèrelesrécompensesimmédiates.

«ValueIteration »

•Algorithmeutilisépourcalculerunepolitique

optimale.

•Idée:Calculerl’utilitédechaqueétatet

utiliser ces utilités pour choisir l

’

action

utiliser



ces



utilités



pour



choisir



laction



optimaledanschaqueétat.

Utilitéd’unétat

•L’utilitédoitêtredéfiniesuruneséquence

d’états.

•Ondonnecommeutilitéàunétatl’utilité

espérée des séquences d

’

états qui peuvent le

espérée



des



séquences



détats



qui



peuvent



suivre.

•Lesséquencesd’étatsdépendentdela

politiqueexécutée.

Utilitéd’unétat

•Lavéritableutilitéd’unétatU(s)estUπ*(s).

•C’est‐à‐direlasommeespéréedes

récompensesescomptéessil’agentexécutela

politique optimale

politique



optimale

•R(s):Larécompenseàcourttermed’êtredans

l’états.

•U(s):Larécompenseàlongtermeàpartirde

l’états.

Utilitémaximaleespérée

•Intuitivementetselonleprincipedela

rationalité,l’agentdevraitchoisirl’actionqui

maximisel’utilitéespérée,c’est‐à‐dire:

1 / 11 100%

Documents connexes

charte pour une veille optimale

Oral d`économie publique et du choix social

fonction f(parametres p) si cas_de_base(p) alors g(p) sinon h(f

Graph picture - Moodle Lille 2

Solution de l`exercice 7. Un algorithme vorace pour

1. Valeurs 2. Objectifs et moyens - Maison médicale du quartier des

Les algorithmes heuristiques

SousChef_1-1_appel d offres

Optimiser au gré du hasard

algorithme algorithme -bases -une

Algorithmes gloutons

Considérer l`algorithme

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Décision Complexe

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Décision Complexe

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib