Contents
1 Introduction 4
1.1 Présentation du Projet Global: "le problème de plus court chemin
stochastique et ses applications au golf" ................ 4
1.2 Présentation du projet d’IRL : "Optimisation de stratégie de golf
(Q-Learning)" .............................. 4
1.3 Le golf .................................. 4
1.4 Acheminement du projet ........................ 5
2 Q-Learning, Théorie 6
2.1 Processus Markovien .......................... 6
2.2 Présentation générale .......................... 7
2.3 Algorithme simplifié .......................... 7
2.4 Algorithme détaillé ........................... 8
2.5 Choix des paramètres .......................... 9
2.6 Convergence de l’algorithme ...................... 10
2.6.1 Watkins (1989-1992) ...................... 10
2.6.2 John N. Tsitsiklis ........................ 11
2.6.3 Huizhen Yu et Dimitri P. Bertsekas .............. 11
3 Expérimentations et Algorithme 12
3.1 Différentes parties de l’algorithme ................... 12
3.2 Initialisation ............................... 12
3.3 Choisir l’action à tester ......................... 13
3.3.1 Epsilon-Greedy ......................... 13
3.3.2 Softmax ............................. 13
3.3.3 Preciousness ........................... 14
3.4 Approche générale ........................... 14
3.5 Condition d’arrêt ............................ 15
3.5.1 Sans utilisation de la matrice ................. 16
3.5.2 Avec utilisation de la matrice ................. 16
3.6 Résultats numériques .......................... 17
4 Pour aller plus loin 21
Conclusion 23
2