Utilisation de la divergence de Kullback-Leibler pour des algorithmes optimistes en apprentissage par renforcement Sarah Filippi en collaboration avec Olivier Cappé, Aurélien Garivier Page 1 / 22 Sarah Filippi Apprentissage par Renforcement Observation St Agent Action At Envir. dilemme exploration p exploitation Récompense Rt Le système est dans un état St qui évolue de façon markovienne : St+1 ∼ P(St , At ; ·) et Rt = r (St , At ) + εt A chaque instant t, l’agent choisit une action At ∈ A en fonction du passé Pn (Ss , As , Rs )s<t pour maximiser la récompense cumulée t=0 Rt Page 2 / 22 Sarah Filippi Politique, récompense moyenne et regret But : trouver la politique π : S → A qui a la plus grande récompense moyenne : " n # 1 π X π Rt ρ = lim E n→∞ n t=0 Récompense moyenne optimale ρ∗ = supπ ρπ = ρπ Mesure de performance : regret cumulé Regret(n) = n X t=0 Page 3 / 22 Sarah Filippi ρ∗ − Rt ∗ Plan Algorithmes optimistes Définition pour des MDPs L’algorithme UCRL-2 L’algorithme KL-UCRL Estimation des transitions L’algorithme KL-UCRL Regret : bornes et simulations Propriétés de KL-UCRL Page 4 / 22 Sarah Filippi Algorithmes optimistes Algorithmes optimistes : [Lai&Robins ’85 ; Agrawal ’95] Fais comme si tu te trouvais dans l’environnement qui t’est le plus favorable parmi tous ceux qui rendent les observations assez vraisemblables Pour les modèles de bandit : UCB (Upper Confidence Bound) = établir une borne supérieure de l’intérêt de chaque action, et choisir celle qui est la plus prometteuse [Auer&al ’02 ; Audibert&al ’07] Page 5 / 22 Sarah Filippi Algorithme optimiste pour des MDPs Environnements qui rendent les observations vraisemblables ( CR Mt = P, r : ∀s, ∀a, |r̂t (s, a) − r (s, a)| ≤ p Nt (s, a) CP tel que ∀s, ∀a, d P̂t (s, a; .), P(s, a; .) ≤ g(Nt (s, a)) où d est une distance et g : R → R une fonction croissante. Environnement le plus favorable Le MDP (dit optimiste) maximise les équations d’optimalité : ! ∀s, h∗ (s) + ρ∗ = max max r (s, a) + P,r ∈Mt a∈A Page 6 / 22 Sarah Filippi X s0 ∈S P(s, a; s0 )h∗ (s0 ) Etape de maximisation On doit résoudre, à chaque étape, des problèmes du type : pour une loi empirique p et pour un vecteur de biais V , trouver q ∗ = argmax q 0 V d(p,q)≤δ Illustration en dim. 3 : p, q ∈ S3 = {p ∈ [0, 1]3 , Page 7 / 22 Sarah Filippi P3 i=1 pi = 1}, V ∈ R3 Algorithme UCRL-2 [Auer&Ortner,’09] Utilisation de la distance L1 pour calculer le modèle optimiste d(p, q) = kp − qk1 Utilisation d’inégalité de concentrations de type Hoeffding [Weissman&al,’03] pour déterminer CP et g(.) La recherche de q ∗ = argmaxkp−qk1 ≤δ q 0 V est triviale et facilement interprétable. De plus, on peut montrer les bornes de regret suivantes : E(Regret(n)) ≤ C|S|2 |A| log(n) , C étant une constante dépendant de ∆(M) = minρπ <ρ∗ ρ∗ − ρπ Page 8 / 22 Sarah Filippi Limites de l’algorithme UCRL-2 Les voisinages L1 n’ont pas beaucoup de sens pour des lois de probabilités Le modèle optimiste a quelques propriétés indésirables : peut mettre à 0 des transitions observées ne peut pas mettre à 0 des transitions vers le "paradis" Page 9 / 22 Sarah Filippi Plan Algorithmes optimistes Définition pour des MDPs L’algorithme UCRL-2 L’algorithme KL-UCRL Estimation des transitions L’algorithme KL-UCRL Regret : bornes et simulations Propriétés de KL-UCRL Page 10 / 22 Sarah Filippi Inégalité de concentration Théorème : [Garivier&Leonardi,’10] si X1 , . . . , Xn sont des v.a. iid à valeur dans S et de loi p = (p(1), . . . , p(|S|)),Pl’estimateur p̂n = (p̂n (1), . . . , p̂n (|S|)) défini par np̂n (i) = nj=1 1{i} (Xj ) vérifie δ P ∀t ≤ n, KL(p̂t , p) > ≤ 2e(δ log(n) + |S|)e−δ/|S| t Le voisinage KL est adapté à la géométrie et aux propriétés probabilistes du simplexe. Page 11 / 22 Sarah Filippi “Kullback-Leibler UCRL” Stratégie optimiste : à l’instant t 1. considère l’ensemble Mt de tous les MDP qui rendent les observations ( assez vraisemblables CR Mt = P, r : ∀s, ∀a, |r̂t (s, a) − r (s, a)| ≤ p Nt (s, a) CP tel que ∀s, ∀a, KL P̂t (s, a; .); P(s, a; .) ≤ Nt (s, a) 2. trouve le MDP optimiste dont la valeur est la plus grande : ! ∗ ∗ ∀s, h (s) + ρ = max max r (s, a) + P,r ∈Mt a∈A X 0 ∗ 0 P(s, a; s )h (s ) s0 ∈S 3. joue pendant un certain temps la politique optimale de ce MDP Page 12 / 22 Sarah Filippi La maximisation On doit résoudre à chaque étape des problèmes du type : pour une loi empirique p et pour un vecteur de biais V , trouver q ∗ = argmax q 0 V KL(p;q)≤δ Solution explicite de cette maximisation : maximisation d’une fonction linéaire sur un espace convexe. Pour ν > maxi:pi >0 Vi on définit : f (ν) = X pi log(ν − Vi ) + log i Page 13 / 22 X i Sarah Filippi pi ν − Vi ! Trouver le maximum Cas 1 : pas de paradis Soit i ∗ = argmax Vi . Deux possibilités : Cas 1 : si pi ∗ > 0 alors f (ν) = δ et f pi qi ∝ ν − Vi Cas 2 : Si pi ∗ = 0, 2 cas : Cas 2.A : si f (Vi ∗ ) ≥ δ, alors cf. Cas 1 Cas 2.B : si f (Vi ∗ ) < δ, alors qi ∗ > 0, ν = Vi ∗ et pour i 6= i ∗ , Page 14 / 22 qi ∝ pi ν − Vi Sarah Filippi delta V* nu Trouver le maximum Soit i ∗ = argmax Vi . Deux possibilités : Cas 2.A : renoncement au paradis Cas 1 : si pi ∗ > 0 alors f (ν) = δ et qi ∝ f pi ν − Vi Cas 2 : Si pi ∗ = 0, 2 cas : Cas 2.A : si f (Vi ∗ ) ≥ δ, alors cf. Cas 1 Cas 2.B : si f (Vi ∗ ) < δ, alors qi ∗ > 0, ν = Vi ∗ et pour i 6= i ∗ , Page 14 / 22 qi ∝ pi ν − Vi Sarah Filippi delta V* nu Trouver le maximum Soit i ∗ = argmax Vi . Deux possibilités : Cas 2.B : espoir de paradis Cas 1 : si pi ∗ > 0 alors f (ν) = δ et qi ∝ f pi ν − Vi Cas 2 : Si pi ∗ = 0, 2 cas : Cas 2.A : si f (Vi ∗ ) ≥ δ, alors cf. Cas 1 Cas 2.B : si f (Vi ∗ ) < δ, alors qi ∗ > 0, ν = Vi ∗ et pour i 6= i ∗ , Page 14 / 22 qi ∝ pi ν − Vi Sarah Filippi delta nu=V* Commentaires La maximisation ne pose donc aucun problème algorithmique et peut être résolue très rapidement en quelques itérations de Newton. Si aucune transition vers un "paradis" n’a été observée, l’algorithme arbitre entre ajouter de la probabilité à cette transition reconnaître qu’elle est invraisemblable et ajouter de la probabilité à d’autres transitions en fonction du nombre de transitions observées (dont dépend δ) l’intérêt relatif de cet état (mesuré par son biais) Page 15 / 22 Sarah Filippi Majoration du regret Théorème : Pour un horizon n > 1 assez grand, le regret moyen en utilisant l’algorithme KL-UCRL est borné par : E(Regret(n)) ≤ C|S|2 |A| log(n) , C étant une constante dépendant de ∆(M) = min ρ∗ − ρπ π ∗ ρ <ρ Page 16 / 22 Sarah Filippi Exemple / Benchmark : RiverSwim Exemple nécessitant une bonne politique d’exploration [Strehl&Littman’08] 0.4 0.6 0.6 0.6 0.6 0.6 Action 1 0.6 R=5 0.35 2 1 0.35 3 0.05 0.05 1 1 0.35 4 0.05 0.35 5 0.05 6 0.4 Action 2 1 Page 17 / 22 1 courant Sarah Filippi 1 1 R=10000 Simulations : RiverSwim 0.4 0.6 0.6 0.6 0.6 0.6 Action 1 0.6 R=5 0.35 2 1 0.35 3 0.05 0.05 1 1 0.35 4 0.05 0.35 5 0.05 6 0.4 Action 2 1 1 courant Début Page 18 / 22 Sarah Filippi 1 1 R=10000 Simulations : RiverSwim 0.4 0.6 0.6 0.6 0.6 0.6 Action 1 0.6 R=5 0.35 2 1 0.35 3 0.05 0.05 1 1 0.35 4 0.05 0.35 5 0.05 6 0.4 Action 2 1 1 courant Début Page 18 / 22 Sarah Filippi 1 1 R=10000 Simulations : RiverSwim 7 5 x 10 KL−UCRL UCRL Regret 4 3 2 1 0 0 2 4 6 t 8 10 4 x 10 F IGURE: Comparaison des regrets des algorithmes UCRL-2 et KL-UCRL. Page 19 / 22 Sarah Filippi Compatibilité avec les observations Le modèle optimiste donne toujours une probabilité non-nulle aux évènements observés. Soit p3 6= 0, q ∗ = argmaxkp−qk1 ≤δ q 0 V Voisinage L1 : q3∗ = 0 Page 20 / 22 Voisinage KL : q3∗ 6= 0 Sarah Filippi Propriétés des modèles optimistes Quand une transition de x vers y n’a pas été observée, l’algorithme arbitre entre l’attractivité relative de y et les preuves statistiques accumulées contre l’existence d’une telle transition. Page 21 / 22 Sarah Filippi Propriétés des modèles optimistes Quand une transition de x vers y n’a pas été observée, l’algorithme arbitre entre l’attractivité relative de y et les preuves statistiques accumulées contre l’existence d’une telle transition. Page 21 / 22 Sarah Filippi Conclusion Utilisation de la divergence de KL pour construire un nouvel algorithme optimiste Il ne nécessite aucune connaissance a priori de la structure du MDP Le calcul du modèle optimiste peut se faire très efficacement avec quelques itérations de Newton L’analyse de l’algorithme permet de garantir des bornes de regret du même odre que celles connues dans la littérature Les simulations montrent un comportement significativement meilleur en pratique Extension : utilisation de la divergence de KL pour construire un nouvel algorithme pour des modèles de bandit à récompenses binaires (KL-UCB) Page 22 / 22 Sarah Filippi