Table des matières
2.3.1 Modèlegénéral ............................... 61
2.3.2 Politiques d’indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.3.3 Modèle de canaux stochastiquement identiques . . . . . . . . . . . . . 75
2.4 Apprentissage par renforcement . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.4.1 Idée générale de l’algorithme . . . . . . . . . . . . . . . . . . . . . . . 78
2.4.2 Modèle ................................... 79
2.4.3 L’algorithme de pavage (AP) . . . . . . . . . . . . . . . . . . . . . . . 80
2.4.4 Analyse de la performance de l’algorithme . . . . . . . . . . . . . . . . 81
2.4.5 Application pour le modèle d’écoute de canal . . . . . . . . . . . . . . 84
2.4.6 Application pour le modèle à Ncanaux stochastiquement identiques . 90
2.5 Conclusion ..................................... 92
3 Bandits paramétriques 93
3.1 Introduction..................................... 93
3.2 Modèle de bandit linéaire généralisé . . . . . . . . . . . . . . . . . . . . . . . 96
3.2.1 Modèles linéaires généralisés . . . . . . . . . . . . . . . . . . . . . . . . 96
3.2.2 Modèle de bandit linéaire généralisé . . . . . . . . . . . . . . . . . . . 97
3.3 L’algorithme GLM-UCB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
3.4 Discussion...................................... 99
3.4.1 Influence du nombre de bras sur le regret . . . . . . . . . . . . . . . . 99
3.4.2 Généralisation de l’algorithme UCB . . . . . . . . . . . . . . . . . . . 100
3.5 Résultatsthéoriques ................................ 100
3.5.1 Analyseduregret.............................. 100
3.5.2 Borne de confiance asymptotique . . . . . . . . . . . . . . . . . . . . . 110
3.6 Expériences..................................... 110
3.6.1 Donnéessimulées.............................. 111
3.6.2 Données réelles publiques . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.6.3 Données de publicité sur internet . . . . . . . . . . . . . . . . . . . . . 114
3.7 Bandits contextuels paramétriques . . . . . . . . . . . . . . . . . . . . . . . . 115
3.7.1 Algorithme GLM-UCBContext ...................... 116
3.7.2 Résultats théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.3 Résultats numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
3.8 Conclusion ..................................... 122
4 Utilisation de la divergence de Kullback-Leibler dans les algorithmes op-
timistes 123
4.1 Introduction..................................... 123
4.2 Modèles et approche optimiste . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.2.1 Modèles considérés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.2.2 Approches « model-based » optimistes . . . . . . . . . . . . . . . . . . 124
4.2.3 Inégalités de concentration utilisant la divergence de KL . . . . . . . . 126
4.3 AlgorithmeKL-UCB................................ 129
4.3.1 Analysethéorique ............................. 130
4.3.2 Performances pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.4 L’algorithme KL-UCRL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
4.4.1 Recherche du modèle optimiste . . . . . . . . . . . . . . . . . . . . . . 137
4.4.2 Résultats théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.4.3 Résultats numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
4.4.4 Discussion.................................. 155
4.5 Conclusion ..................................... 156
4