L’algorithme UCB1 se base sur l’équation suivante.
Lj(t) = Sj(t)
Nj(t)+s2 log n
Nj(t)(1)
Question 1 : Quel bras jchoisit l’algorithme UCB1 ?
Question 2 : Dans l’équation (1) quelle partie correspond à l’exploitation et quelle partie
à l’exploration ? Proposer alors une variante de UCB1 qui permet de régler le compromis
exploration/exploitation.
Question 3 : La borne sur le regret pour UCB1 s’écrit sous la forme :
Rn≤c1Clog n+c2
où C=X
j,µj6=µ∗
1
∆j
Quels sont, d’après cette equation, les problèmes de bandits difficiles à résoudre ?
2 Étude du regret d’une stratégie simple
Nous allons étudier une stratégie simple pour résoudre le problème des bandits à 2-bras.
Chacun des 2 bras suit une loi de Bernoulli de paramètre µ1,µ2avec µ1> µ2>0.
Rappel : Un tirage selon la loi de Bernoulli de paramètre pdonne 1avec une probabilité p
et 0avec une probabilité 1−p. Plus formellement une variable Xaléatoire suivant une loi de
Bernoulli de paramètre pvérifie :
P(X= 1) = p
P(X= 0) = 1 −p
Notations :
–∆ = µ1−µ2>0
–I(t)le numéro du bras choisit au temps t
–Xj(t)la récompense obtenu au temps tsur le bras j. On considère une récompense
nulle si le bras jn’est pas choisit.
–Nj(t)le nombre de fois que l’on a choisit le bras jjusqu’à l’instant t.
La stratégie : Soit m, t ∈Ntels que t≥2m. pour les mpremiers coups on choisit le bras
1, pour les mcoups suivant on prend le bras 2. Cela revient à faire
I(1) =... =I(m) = 1
I(m+ 1) =... =I(2m) = 2
On définit alors ˆµ1,ˆµ2, les moyennes empiriques observées au temps t= 2m.
ˆµ1=P2m
t=1 X1(t)
N1(2m)=P2m
t=1 X1(t)
m
ˆµ2=P2m
t=1 X2(t)
N2(2m)=P2m
t=1 X2(t)
m
Pour les coups restant t≥2mon jouera toujours le bras qui a la plus grande moyenne
empirique.
∀t≥2m, I(t) = (1si ˆµ1≥ˆµ2
2si ˆµ1≤ˆµ2
(2)
3