2
Exemple
•Sil’environnementétait
déterministe,lasolutionserait:
[Haut,Haut,Droite,Droite,
Droite]
•Dûàl’incertitude,cechemin
n’aque0.85+(0.14*0.8)=
0.32776chancederéussite.
4
Modèledetransition
•Lemodèledetransitionspécifielaprobabilité
dechaquerésultatpossibled’uneaction.
•T(s,a,s’):laprobabilitéd’atteindrel’états’en
’
’
.
•OnsupposedestransitionsMarkoviennes
–Laprobabilitéd’atteindres’nedépendquedeset
nondesétatsprécédents.
5
Fonctiond’utilité
•Commeleproblèmededécisionest
séquentiel,lafonctiond’utilitédoitdépendre
d’uneséquenced’états.
’
agent reçoit une récompense
êtrepositiveounégative.
•L’utilitéd’unesuited’étatest(pourle
moment)lasommedesrécompensesreçues.
6