Optimisation de stratégie de golf (Q-Learning)

Optimisation de stratégie de golf

(Q-Learning)

Etudiant:

Yassine Yaakoubi

Responsables:

Gautier Stauﬀer

Matthieu Guillot

02 mai 2016

Contents

1 Introduction 4

1.1 Présentation du Projet Global: "le problème de plus court chemin

stochastique et ses applications au golf" ................ 4

1.2 Présentation du projet d’IRL : "Optimisation de stratégie de golf

(Q-Learning)" .............................. 4

1.3 Le golf .................................. 4

1.4 Acheminement du projet ........................ 5

2 Q-Learning, Théorie 6

2.1 Processus Markovien .......................... 6

2.2 Présentation générale .......................... 7

2.3 Algorithme simpliﬁé .......................... 7

2.4 Algorithme détaillé ........................... 8

2.5 Choix des paramètres .......................... 9

2.6 Convergence de l’algorithme ...................... 10

2.6.1 Watkins (1989-1992) ...................... 10

2.6.2 John N. Tsitsiklis ........................ 11

2.6.3 Huizhen Yu et Dimitri P. Bertsekas .............. 11

3 Expérimentations et Algorithme 12

3.1 Diﬀérentes parties de l’algorithme ................... 12

3.2 Initialisation ............................... 12

3.3 Choisir l’action à tester ......................... 13

3.3.1 Epsilon-Greedy ......................... 13

3.3.2 Softmax ............................. 13

3.3.3 Preciousness ........................... 14

3.4 Approche générale ........................... 14

3.5 Condition d’arrêt ............................ 15

3.5.1 Sans utilisation de la matrice ................. 16

3.5.2 Avec utilisation de la matrice ................. 16

3.6 Résultats numériques .......................... 17

4 Pour aller plus loin 21

Conclusion 23

2

Avant-Propos :

Ce projet a été réalisé dans le cadre d’une introduction à la recherche en laboratoire

au G-SCOP, le laboratoire des Sciences pour la Conception, l’Optimisation et la

Production de Grenoble.

Depuis sa création en 2007, le laboratoire est organisé en 6 domaines de com-

pétences :

•Optimisation Combinatoire (OC)

•Recherche opérationnelle et système de production (ROSP)

•Gestion et conduite des systèmes de production (GCSP)

•Conception collaborative (CC)

•Conception produit-process (CPP)

•Système d’Information, conception Robuste des Produits (SIREP)

Ce projet « L’optimisation de stratégie de golf » a été encadré par Gautier

Stauﬀer au sein de l’équipe Optimisation Combinatoire et co-encadré par Mathieu

Guillot.

Bien que j’aie eu une expérience en laboratoire (Gipsa-Lab.), c’est ma première

expérience à G-SCOP et plus généralement dans une unité de recherche d’OC.

Ce choix de sujet vient suite à mon envie de me focaliser sur la recherche

opérationnelle et ses diverses applications pour aider à la prise de décisions aussi

bien en temps réel qu’en temps diﬀéré.

3

1 Introduction

1.1 Présentation du Projet Global: "le problème de plus

court chemin stochastique et ses applications au golf"

L’objectif de ce projet est de construire des modèles mathématiques et des solutions

algorithmiques. Nous proposons de développer dans un premier temps des outils

qui exploiteraient les statistiques des joueurs pour optimiser leur stratégie de jeu

en fonction du parcours et d’utiliser ensuite ces résultats à diﬀérents niveaux pour

par exemple:

•aider les joueurs à améliorer leurs performances

•prévoir le gagnant du prochain tournoi

•déterminer comment inﬂuencer le parcours pour rendre une compétition plus

équilibrée ou plus diﬃcile

•déﬁnir de nouveaux systèmes de classement des parcours

•etc . . .

Les méthodes "naturelles" pour résoudre ce genre de problème sont basées

sur la programmation stochastique et notamment sur les Processus de Décision

Markoviens et les plus courts chemins stochastiques.

1.2 Présentation du projet d’IRL : "Optimisation de stratégie

de golf (Q-Learning)"

Le projet porte sur l’optimisation de stratégie de golf. On veut donc minimiser le

nombre de coups qu’on fait pour atteindre le trou ﬁnal.

On n’utilise cependant pas les données du terrain, les probabilités du jeu. On

les découvre au fur et à mesure qu’on joue et donc on construit cette stratégie tout

en simulant des jeux de golf et en utilisant ce qu’on vient de découvrir au fur et à

mesure.

Intuitivement, on sent que la stratégie optimale n’est pas forcément « viser le

trou » puisque ceci dépend considérablement du terrain, de la position du trou

ainsi que des capacités du joueur à bien viser.

1.3 Le golf

Un parcours de golf est découpé en plusieurs trous d’une longueur allant de 91

mètres à 630 mètres. Un trou est caractérisé par une aire de départ ( TEE(1) )

4

sur laquelle le joueur de golf mettra en jeu une balle de golf en la frappant avec son

club. La balle progresse alors sur le FAIRWAY(7) par coups successifs jusqu’au

trou(10) situé sur le green (8).

Ce trou est bordé d’un rough(3) : zone d’herbe tondue plus haute et générale-

ment de nature plus épaisse que le FAIRWAY ; cette zone peut être laissée à

l’état naturel. Bien entendu, des obstacles d’eau et des BUNKERS(5) (zones

remplies de sables) viennent pimenter la vie du golfeur ! Notons d’ailleurs qu’en

frappant une balle qui tombe dans l’eau(2), on reprend le jeu avec un point de

pénalité.

Figure 1 – Terrain de golf

Le terrain de golf n’est pas inﬁni. Pour le délimiter, il y a ce que l’on appelle

des hors limites (Out of Bounds – OB (4)). En frappant une balle hors limite,

il faut impérativement rejouer un coup là où vous avez tapé votre balle la dernière

fois (c’est-à-dire à l’endroit où la faute a été commise) avec 1 point de pénalité.

On remarque donc qu’on a 8 diﬀérents types de textures dans un terrain de golf.

1.4 Acheminement du projet

La première partie du projet consistait à se familiariser avec le code, les outils déjà

développés et donc le modèle du terrain, les diﬀérentes textures. . . . . .

La seconde était de découvrir la méthode du Q-Learning, de voir les travaux

déjà faites là-dessus ainsi que de s’assurer qu’on va converger vers une stratégie

optimale.

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

Optimisation de stratégie de golf (Q-Learning)

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Optimisation de stratégie de golf (Q-Learning)

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib