Strat´egies optimistes en apprentissage par renforcement
Sarah Filippi
To cite this version:
Sarah Filippi. Strat´egies optimistes en apprentissage par renforcement. Math´ematiques [math].
Ecole nationale sup´erieure des telecommunications - ENST, 2010. Fran¸cais. <tel-00551401>
HAL Id: tel-00551401
https://tel.archives-ouvertes.fr/tel-00551401
Submitted on 3 Jan 2011
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-
entific research documents, whether they are pub-
lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.
i
Thèse
présentée pour obtenir le grade de docteur
de Télécom ParisTech
Spécialité : Signal et Images
Sarah Filippi
Stratégies optimistes en apprentissage par
renforcement
Soutenue le 24 novembre 2010 devant le jury composé de
Jean-Yves Audibert Rapporteurs
Rémi Munos
Damien Ernst Examinateurs
Frédérick Garcia
Eric Moulines
Fabrice Clérot
Olivier Cappé Directeurs de thèse
Aurélien Garivier
Table des matières
Remerciements 5
Résumé 8
Notations 11
Introduction 15
1 MDP et Apprentissage par renforcement 23
1.1 Processus de décision markoviens . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.1.1 Exemples .................................. 25
1.1.2 Règles de décision et politiques . . . . . . . . . . . . . . . . . . . . . . 27
1.1.3 Critère de performance, fonction de valeur . . . . . . . . . . . . . . . . 28
1.1.4 Politique optimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
1.1.5 Table état-action et politique gloutonne . . . . . . . . . . . . . . . . . 30
1.1.6 Notations vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
1.2 Planification dans des MDP discrets à horizon infini . . . . . . . . . . . . . . 31
1.2.1 Le critère γ-pondéré ............................ 32
1.2.2 Lecritèremoyen .............................. 34
1.3 Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.3.1 Méthodes « model-free » . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1.3.2 Méthodes « model-based » . . . . . . . . . . . . . . . . . . . . . . . . . 43
1.4 POMDP....................................... 51
1.4.1 Dénitions ................................. 51
1.4.2 Etatinterne................................. 52
1.4.3 Planication ................................ 54
1.4.4 Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . 55
1.5 Conclusion ..................................... 56
2 Apprentissage par renforcement dans un modèle d’écoute de canal 57
2.1 Introduction..................................... 57
2.2 Modèle d’allocation de canal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.2.1 Modélisation par un POMDP . . . . . . . . . . . . . . . . . . . . . . . 59
2.2.2 Modélisation par un « restless bandit » . . . . . . . . . . . . . . . . . . 60
2.3 Planication..................................... 61
Table des matières
2.3.1 Modèlegénéral ............................... 61
2.3.2 Politiques d’indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.3.3 Modèle de canaux stochastiquement identiques . . . . . . . . . . . . . 75
2.4 Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.4.1 Idée générale de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . 78
2.4.2 Modèle ................................... 79
2.4.3 L’algorithme de pavage (AP) . . . . . . . . . . . . . . . . . . . . . . . 80
2.4.4 Analyse de la performance de l’algorithme . . . . . . . . . . . . . . . . 81
2.4.5 Application pour le modèle d’écoute de canal . . . . . . . . . . . . . . 84
2.4.6 Application pour le modèle à Ncanaux stochastiquement identiques . 90
2.5 Conclusion ..................................... 92
3 Bandits paramétriques 93
3.1 Introduction..................................... 93
3.2 Modèle de bandit linéaire généralisé . . . . . . . . . . . . . . . . . . . . . . . 96
3.2.1 Modèles linéaires généralisés . . . . . . . . . . . . . . . . . . . . . . . . 96
3.2.2 Modèle de bandit linéaire généralisé . . . . . . . . . . . . . . . . . . . 97
3.3 L’algorithme GLM-UCB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.4 Discussion...................................... 99
3.4.1 Influence du nombre de bras sur le regret . . . . . . . . . . . . . . . . 99
3.4.2 Généralisation de l’algorithme UCB . . . . . . . . . . . . . . . . . . . 100
3.5 Résultatsthéoriques ................................ 100
3.5.1 Analyseduregret.............................. 100
3.5.2 Borne de confiance asymptotique . . . . . . . . . . . . . . . . . . . . . 110
3.6 Expériences..................................... 110
3.6.1 Donnéessimulées.............................. 111
3.6.2 Données réelles publiques . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.6.3 Données de publicité sur internet . . . . . . . . . . . . . . . . . . . . . 114
3.7 Bandits contextuels paramétriques . . . . . . . . . . . . . . . . . . . . . . . . 115
3.7.1 Algorithme GLM-UCBContext ...................... 116
3.7.2 Résultats théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.3 Résultats numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.8 Conclusion ..................................... 122
4 Utilisation de la divergence de Kullback-Leibler dans les algorithmes op-
timistes 123
4.1 Introduction..................................... 123
4.2 Modèles et approche optimiste . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.2.1 Modèles considérés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.2.2 Approches « model-based » optimistes . . . . . . . . . . . . . . . . . . 124
4.2.3 Inégalités de concentration utilisant la divergence de KL . . . . . . . . 126
4.3 AlgorithmeKL-UCB................................ 129
4.3.1 Analysethéorique ............................. 130
4.3.2 Performances pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.4 L’algorithme KL-UCRL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.4.1 Recherche du modèle optimiste . . . . . . . . . . . . . . . . . . . . . . 137
4.4.2 Résultats théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.4.3 Résultats numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
4.4.4 Discussion.................................. 155
4.5 Conclusion ..................................... 156
4
1 / 180 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !