Optimisation de stratégie de golf
(Q-Learning)
Etudiant:
Yassine Yaakoubi
Responsables:
Gautier Stauffer
Matthieu Guillot
02 mai 2016
Contents
1 Introduction 4
1.1 Présentation du Projet Global: "le problème de plus court chemin
stochastique et ses applications au golf" ................ 4
1.2 Présentation du projet d’IRL : "Optimisation de stratégie de golf
(Q-Learning)" .............................. 4
1.3 Le golf .................................. 4
1.4 Acheminement du projet ........................ 5
2 Q-Learning, Théorie 6
2.1 Processus Markovien .......................... 6
2.2 Présentation générale .......................... 7
2.3 Algorithme simplifié .......................... 7
2.4 Algorithme détaillé ........................... 8
2.5 Choix des paramètres .......................... 9
2.6 Convergence de l’algorithme ...................... 10
2.6.1 Watkins (1989-1992) ...................... 10
2.6.2 John N. Tsitsiklis ........................ 11
2.6.3 Huizhen Yu et Dimitri P. Bertsekas .............. 11
3 Expérimentations et Algorithme 12
3.1 Différentes parties de l’algorithme ................... 12
3.2 Initialisation ............................... 12
3.3 Choisir l’action à tester ......................... 13
3.3.1 Epsilon-Greedy ......................... 13
3.3.2 Softmax ............................. 13
3.3.3 Preciousness ........................... 14
3.4 Approche générale ........................... 14
3.5 Condition d’arrêt ............................ 15
3.5.1 Sans utilisation de la matrice ................. 16
3.5.2 Avec utilisation de la matrice ................. 16
3.6 Résultats numériques .......................... 17
4 Pour aller plus loin 21
Conclusion 23
2
Avant-Propos :
Ce projet a été réalisé dans le cadre d’une introduction à la recherche en laboratoire
au G-SCOP, le laboratoire des Sciences pour la Conception, l’Optimisation et la
Production de Grenoble.
Depuis sa création en 2007, le laboratoire est organisé en 6 domaines de com-
pétences :
Optimisation Combinatoire (OC)
Recherche opérationnelle et système de production (ROSP)
Gestion et conduite des systèmes de production (GCSP)
Conception collaborative (CC)
Conception produit-process (CPP)
Système d’Information, conception Robuste des Produits (SIREP)
Ce projet « L’optimisation de stratégie de golf » a été encadré par Gautier
Stauffer au sein de l’équipe Optimisation Combinatoire et co-encadré par Mathieu
Guillot.
Bien que j’aie eu une expérience en laboratoire (Gipsa-Lab.), c’est ma première
expérience à G-SCOP et plus généralement dans une unité de recherche d’OC.
Ce choix de sujet vient suite à mon envie de me focaliser sur la recherche
opérationnelle et ses diverses applications pour aider à la prise de décisions aussi
bien en temps réel qu’en temps différé.
3
1 Introduction
1.1 Présentation du Projet Global: "le problème de plus
court chemin stochastique et ses applications au golf"
L’objectif de ce projet est de construire des modèles mathématiques et des solutions
algorithmiques. Nous proposons de développer dans un premier temps des outils
qui exploiteraient les statistiques des joueurs pour optimiser leur stratégie de jeu
en fonction du parcours et d’utiliser ensuite ces résultats à différents niveaux pour
par exemple:
aider les joueurs à améliorer leurs performances
prévoir le gagnant du prochain tournoi
déterminer comment influencer le parcours pour rendre une compétition plus
équilibrée ou plus difficile
définir de nouveaux systèmes de classement des parcours
etc . . .
Les méthodes "naturelles" pour résoudre ce genre de problème sont basées
sur la programmation stochastique et notamment sur les Processus de Décision
Markoviens et les plus courts chemins stochastiques.
1.2 Présentation du projet d’IRL : "Optimisation de stratégie
de golf (Q-Learning)"
Le projet porte sur l’optimisation de stratégie de golf. On veut donc minimiser le
nombre de coups qu’on fait pour atteindre le trou final.
On n’utilise cependant pas les données du terrain, les probabilités du jeu. On
les découvre au fur et à mesure qu’on joue et donc on construit cette stratégie tout
en simulant des jeux de golf et en utilisant ce qu’on vient de découvrir au fur et à
mesure.
Intuitivement, on sent que la stratégie optimale n’est pas forcément « viser le
trou » puisque ceci dépend considérablement du terrain, de la position du trou
ainsi que des capacités du joueur à bien viser.
1.3 Le golf
Un parcours de golf est découpé en plusieurs trous d’une longueur allant de 91
mètres à 630 mètres. Un trou est caractérisé par une aire de départ ( TEE(1) )
4
sur laquelle le joueur de golf mettra en jeu une balle de golf en la frappant avec son
club. La balle progresse alors sur le FAIRWAY(7) par coups successifs jusqu’au
trou(10) situé sur le green (8).
Ce trou est bordé d’un rough(3) : zone d’herbe tondue plus haute et générale-
ment de nature plus épaisse que le FAIRWAY ; cette zone peut être laissée à
l’état naturel. Bien entendu, des obstacles d’eau et des BUNKERS(5) (zones
remplies de sables) viennent pimenter la vie du golfeur ! Notons d’ailleurs qu’en
frappant une balle qui tombe dans l’eau(2), on reprend le jeu avec un point de
pénalité.
Figure 1 – Terrain de golf
Le terrain de golf n’est pas infini. Pour le délimiter, il y a ce que l’on appelle
des hors limites (Out of Bounds – OB (4)). En frappant une balle hors limite,
il faut impérativement rejouer un coup là où vous avez tapé votre balle la dernière
fois (c’est-à-dire à l’endroit où la faute a été commise) avec 1 point de pénalité.
On remarque donc qu’on a 8 différents types de textures dans un terrain de golf.
1.4 Acheminement du projet
La première partie du projet consistait à se familiariser avec le code, les outils déjà
développés et donc le modèle du terrain, les différentes textures. . . . . .
La seconde était de découvrir la méthode du Q-Learning, de voir les travaux
déjà faites là-dessus ainsi que de s’assurer qu’on va converger vers une stratégie
optimale.
5
1 / 25 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !