RICM 4 module Probabilités et Simulation
Devoir
Le travail se fait en binôme. Chaque binôme choisit un seul sujet parmi ceux proposés ci-après.
Le travail devra être envoyé par mail (deadline fixée ultérieurement) sous forme d’archive compressée
Nom1-Nom2.tar.gz
La structure de l’archive sera la suivante :
Nom1-Nom2/src/README
Nom1-Nom2/src/codes-sources
Nom1-Nom2/src/Makefile
Nom1-Nom2/doc/rapport.pdf
Nom1-Nom2/doc/HOWO
Nom1-Nom2/data/données expérimentales ayant servi pour votre rapport
Sujet du mail
[RICM4:PS] Rapport DM Nom1-Nom2
Tout travail qui ne sera pas rendu dans ce format ne sera pas évalué.
Sujet 2 : Apprentissage dans les jeux matriciels à deux joueurs
Un jeu matriciel à deux joueurs est la donnée d’un ensemble fini d’actions pour chaque joueur, et d’une fonction
de gain associée aux couples d’actions. Chaque joueur a une fonction de gain spécifique. Par exemple, on parle de
jeu à somme nulle lorsque ce que gagne le joueur 1 (noté J1) est l’opposé de ce que gagne le joueur 2 (noté J2).
Les échecs sont un exemple de jeu à somme nulle.
On représente souvent ces jeux sous forme d’une matrice de gain Apour J1, et une matrice de gain Bpour
J2. Ces deux matrices ont autant de lignes que d’actions pour J1 et autant de colonnes que d’actions pour J2. On
peut alors associer le choix d’une action par J1 au choix d’une ligne de la matrice, et au choix d’une colonne de la
matrice pour J2. Le gain de J1 (resp. J2) est à l’intersection de la ligne et la colonne choisies de la matrice A (resp.
matrice B). Bien entendu, les joueurs cherchent à maximiser leur gain.
Dans l’exemple suivant, les joueurs ont deux actions possibles. Si J1 choisit la ligne 2 et J2 choisit la colonne
1, alors le gain est 3pour J1 et 4pour J2. Nous utiliserons ces données dans la suite du projet.
A=6,0
3,2et B=0,1
4,3.
Dans de nombreux jeux, il est intéressant d’utiliser une stratégie aléatoire. Par exemple, dans le jeu “Pierre
Feuille Ciseaux”, un joueur qui choisit l’une des actions selon le résultat d’un générateur aléatoire uniforme sur
{1..3}ne perdra pas plus d’une fois sur deux en moyenne. Il peut, de plus, utiliser des informations statistiques sur
les choix de son adversaire pour augmenter cette moyenne : par exemple, il pourra tirer profit de l’observation que
l’adversaire joue, en moyenne, une fois sur deux “Pierre” (question : comment ?).
Nous noterons alors x(resp. y) la stratégie aléatoire de J1 (resp. J2), qui est un vecteur de probabilité
x= (x1, x2)(resp. y= (y1, y2)), où x1est la probabilité pour le joueur 1 de choisir la ligne 1, et x2est la proba-
bilité de choisir la ligne 2. L’objectif des joueurs est maintenant de maximiser leur espérance de gain.
Question 2.1 : Espérance de gain
Montrer que, étant donnée les stratégies xet ydes joueurs, l’espérance de gain de J1 (resp. J2) est
txAy (resp. txBy). Ici, xet ysont des vecteurs colonnes.
Question 2.2 : Stratégie optimale de J1
En supposant connue par J1 la stratégie y de J2, calculer une stratégie optimale, c’est-à-dire une
stratégie qui maximise l’espérance de gain pour le joueur 1 (faire cela pour toutes les valeurs de y).
Montrer qu’il existe toujours une stratégie déterministe, i.e. (0,1) ou (1,0), qui est optimale.
Polytech’ Grenoble UJF 3/ 7