hModèles de bandits. g
1.2 Cadre mathématique et notations.
Nous présentons formellement le modèle des bandits. Dans cette section, seront définis les
concepts fondamentaux dont nous ferons un usage constant au cours de ce rapport.
Soit K≥2 : pour chaque k≤K, on suppose qu’il existe une suite de variables aléatoires
(Xk(n))n∈N, indépendantes et identiquement distribuées selon une loi de probabilité Pk. On
suppose que ces Ksuites sont indépendantes entre elles.
Une stratégie de bandits est une suite prévisible de variables aléatoires (It)t∈Nà valeurs dans
{1,...,K}, c’est-à-dire que ∀t, la variable Itest Ft−1-mesurable, où l’on a défini :
Ft=σ³XI1,I1,..., XIt,It´
Notons que la filtration ainsi obtenue tient compte du fait qu’à l’instant t, si l’on tire 2le
bras k, on récolte Xk(t) mais on ne dispose d’aucune information sur la valeur que l’on aurait
récoltée si l’on avait tiré un autre bras : pour l6= k,Xl(t) n’est pas connu. On parle parfois de
modèle en « information incomplète » : la situation aurait été radicalement différente si, en
plus de récolter la récompense Xk(t), on pouvait connaître chaque Xl(t) : on aurait disposé du
maximum d’information disponible à l’instant tpour approfondir la connaissance de chaque
bras.
On parle souvent, à propos de la suite It, d’un « algorithme de bandits » ; la réalisation d’une
variable Xkest souvent décrite comme « la réalisation du bras k» . Le modèle est à comprendre
comme suit : à chaque instant t, on a le choix entre Kmachines à sous différentes. La somme
d’argent récoltée par l’utilisateur s’il tire la machine kà l’instant test Xk(t).
Ainsi, la somme récoltée à l’instant test XIt(t) : on notera parfois cette quantité Ztpour
alléger les notations. Ainsi, à la fin du n-ième essai, la somme totale récoltée par le joueur est
Pt≤nZt. C’est cette somme qu’il s’agit de rendre la plus grande possible. Pour cela, on choisit
de maximiser son espérance 3. Notons µk=E[Xk(t)] l’espérance du bras k. Le meilleur bras
est celui pour lequel l’espérance est la plus élevée. Ce qui se rapporte à ce meilleur bras sera
systématiquement noté avec une étoile :
k?=arg max
1≤k≤Kµk
µ?=µk?=max
1≤k≤Kµk
Lorsqu’on tire systématiquement le bras k?, on récolte en moyenne au bout de nessais la
quantité nµ?; lorsqu’on adopte une stratégie quelconque, on récolte en moyenne au bout de
nessais la quantité Pi≤nE[Zt]=Pi≤nµIt.
DÉFINITION 1. — On appelle regret du modèle à l’instant n la quantité :
E[R(n)] =E·n
X
t=1
µ?−µIt¸
Notons Nk(t)=P1It=kle nombre de fois où le bras ka été tiré à l’instant t. En effectuant
une interversion de sommes à termes positifs il est possible de récrire cette quantité sous la
2. C’est-à-dire si It=k.
3. D’autres critères de maximisation sont possibles. Par exemple, on peut s’intéresser non pas à l’espérance de
gain, mais à la valeur de ce gain avec grande probabilité : il s’agirait alors d’obtenir un résultat du type P(PZy<²)<
r(²), où ²et r(²) sont tous les deux petits.
[4\