Sarah Filip

Téléchargement

Page 1 / 22 Sarah Filippi

Utilisation de la divergence

de Kullback-Leibler pour

des algorithmes optimistes

en apprentissage par

renforcement

Sarah Filippi

en collaboration avec

Olivier Cappé, Aurélien Garivier

Page 2 / 22 Sarah Filippi

Apprentissage par Renforcement

Agent Envir.

Récompense Rt

Action At

Observation St

dilemme

exploration

exploitation

Le système est dans un état Stqui évolue de façon markovienne :

St+1∼P(St,At;·)et Rt=r(St,At) + εt

A chaque instant t, l’agent choisit une action At∈Aen fonction du

passé (Ss,As,Rs)s<tpour maximiser la récompense cumulée

t=0Rt

Page 3 / 22 Sarah Filippi

Politique, récompense moyenne et regret

But : trouver la politique π:S→A qui a la plus grande

récompense moyenne :

ρπ=lim

n→∞

nEπ"n

t=0

Rt#

Récompense moyenne optimale ρ∗=supπρπ=ρπ∗

Mesure de performance : regret cumulé

Regret(n) =

t=0

ρ∗−Rt

Page 4 / 22 Sarah Filippi

Plan

Algorithmes optimistes

Déﬁnition pour des MDPs

L’algorithme UCRL-2

L’algorithme KL-UCRL

Estimation des transitions

L’algorithme KL-UCRL

Regret : bornes et simulations

Propriétés de KL-UCRL

Page 5 / 22 Sarah Filippi

Algorithmes optimistes

Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95]

Fais comme si tu te trouvais dans l’environnement qui t’est le plus

favorable parmi tous ceux qui rendent les observations assez

vraisemblables

Pour les modèles de bandit :

UCB (Upper Conﬁdence Bound) = établir une borne supérieure de

l’intérêt de chaque action, et choisir celle qui est la plus

prometteuse [Auer&al ’02 ; Audibert&al ’07]

1 / 26 100%

Documents connexes

Luvisotto Sarah Bio - HEG-FR

pour les Chrétiens et les Musulmans

DE FIGUEIREDO Carmen 96 rue Aristide Briand 59240 Dunkerque

ASSISTANTE MARKETING

Qu`est-ce que le harcèlement

algorithme algorithme -bases -une

comment creer un systeme d`information marketing efficace

La présentation du dialogue

Devoir surveillé de français n°2 Niveau : 2AM

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

Grille d'évaluation orale ISN - Compétences et capacités

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Sarah Filip

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Sarah Filip

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib