Travaux Pratiques Claire Vernade, Alexandre Gramfort, Joseph Salmon
Apprentissage par renforcement
et bandits multibras
Liens utiles pour ce TP :
??? http://chercheurs.lille.inria.fr/~lazaric/Webpage/MVA-RL_Course14.html
- Introduction -
L’apprentissage par renforcement désigne un ensemble de méthodes qui s’appliquent dans le cadre où
les données ne sont pas stockées à l’avance mais peuvent être vues comme un flux. Dans cette partie,
nous présentons ce cadre et nous posons le problème que nous résoudrons par trois algorithmes différents
au cours de ce TP.
Un cadre d’apprentissage différent
Aux deux cadres d’apprentissage déjà vus, le supervisé et le non-supervisé, on ajoute un nouveau type
de modèle – dit par renforcement – pour lequel à chaque instant on doit prendre des décisions et l’on
observe des réponses disponibles au fur et à mesure du temps.
Ce type d’apprentissage trouve de nombreuses applications en neurosciences computationnelles, en
robotique, en économie, etc. En effet, dans de tels cas, l’enjeu est d’agir optimalement face à un historique
de données afin d’engendrer de nouveaux retours d’expériences que l’on souhaite les plus positifs possible.
Exemple 1. Un exemple historique est le cas de la comparaison de deux médicaments. Imaginons qu’un
laboratoire dispose de deux traitements A et B pour une maladie. Son but est de réaliser des tests afin de
déterminer lequel est le plus efficace. 1000 personnes sont recrutées et l’on doit décider de la procédure de
test pour évaluer A et B : lorsque l’on administre l’un d’eux, la réponse du patient peut-être "guérir" (1)
ou "mourir" (0). Une solution naïve (et dangereuse) consiste à traiter 500 patients avec A et 500 avec
B et calculer la moyenne des résultats sur les deux populations. Hélas, si l’un des deux traitements est
mortel, on aura sacrifié 500 personnes dans cette expérience. Peut-être aurait-il été plus intelligent d’agir
différemment ? En apprentissage par renforcement on va plutôt administrer les traitements séquentielle-
ment et adapter le choix au fur et à mesure des retours d’expérience afin de minimiser le nombre total
de morts.
Cet exemple est le point de départ historique des recherches sur le problème spécifique du "bandit
multibras". Son nom vient de l’argot américain qui désigne une machine à sous par le mot "one-armed
bandit" (en français : bandit manchot). En effet, le même problème peut être schématisé par un agent
face à deux machine à sous : l’une gagne avec une probabilité p1, l’autre avec une probabilité p2. L’enjeu
est de trouver une stratégie qui permette de gagner le plus possible dans une fenêtre de temps Tfixée,
et donc de choisir le plus vite possible le bras assurant le gain maximal.
Formalisme de l’apprentissage par renforcement
On se donne Kactions possibles A1, . . . , AK. Pour i= 1, . . . , K, l’action Aicorrespond à une tirer une
loi de Bernoulli de paramètre µi, notées B(µi): on gagne (gain=1) avec probabilité µiet l’on perd (gain=0)
avec probabilité (1 −µi). On suppose les actions triées par espérance décroissante : µ1> µ2>· · · > µK.
Choisir l’action – ou le bras – Akà l’instant tdéclenche l’apparition d’une récompense que l’on nommera
Xt(k)∼B(µk). À chaque instant t, on tire le bras d’indice It∈ {1, . . . , K}. Le nombre de tirages du bras
keffectués jusqu’à l’instant test noté Nk(t).
page 1