Amélioration du stratège par Amélioration du stratège par

publicité
Amélioration du stratège par
Apprentissage
Apprendre
pp
la fonction d’évaluation
z
Définition de la fonction d’évaluation
Eval(s) = w1 f1(s) + w2 f2(s) + … + wn fn(s)
–
Fonction dépendante ou non du temps (du n° de
coup)
E l(t s)) = w1(t) f1(s)
Eval(t,
( ) + w2(t) f2(s)
( ) + … + wn(t) fn(s)
( )
z
Apprendre les w ou les w(t)
Apprendre
pp
à explorer
p
?
z
Paramétrisation de l’algorithme
l algorithme de recherche
–
Algorithme à profondeur fixée
z
–
Tendance à favoriser des p
prises importantes
p
au dernier coup
p
Algorithmes à profondeur variable
z
Nécessite un critère d’arrêt
–
–
–
Stabilité
St
bilité d
de lla situation
it ti
Validité de la fonction d’évaluation
Algorithmes dépendants des contraintes temporelles
z
Prise en compte du temps
–
Profondeur fixée dépendante du temps
Comment apprendre ?
Mise au p
point du stratège
g
z
A la main
z
Par apprentissage supervisé
z
Par apprentissage faiblement supervisé
Apprentissage
pp
g supervisé
p
z
Principe
–
Apprentissage à partir d’une base d’exemples
z
On fournit
O
f
it un ensemble
bl de
d situations
it ti
étiquetées
éti
té par un
expert
Apprentissage automatique de la fonction d’évaluation f(s)
– Algorithmes « simples »
z Type réseaux de neurones
–
Apprentissage faiblement
f
p
supervisé
z
Principe : on apprend à partir de parties entières
gagnées/perdues
–
On fait jouer la machine contre elle
elle-même
même des (centaines de)
milliers de parties
z
z
–
On raffine au fur et à mesure le stratège
But : trouver des poids optimaux
Problème : Credit assignment problem
z
z
z
Déterminer les coups responsables de victoire/défaite
Plus généralement les bons et les mauvais coups
Comment changer les poids ?
Apprentissage supervisé
Apprentissage à partir
d’exemples (etat,coup)
z
Méthodes
–
Apprentissage à partir d’un ensemble de paires
E= {(etati, coupi),
) i=1..N}
i=1 N}
z
correspondant à des coups « idéaux » dans un
ensemble de situations
Apprentissage à partir d’un ensemble
pp
g
d’apprentissage
z
Base de coups idéaux E= {(etati, coupi),
) i=1..N}
i=1 N}
–
–
z
On cherche la fonction f qui va choisir dans chaque
situation etati le coup coupi
Il faut que l’ensemble d’apprentissage soit représentatif de
toutes les situations
Gé é
Généralement
algorithmes itératifs
é f
z
Pb : Avoir l’ensemble E
–
+sieurs possibilités :
1.
2.
Parser d
P
des parties
ti diff
diffusées
é sur Internet
I t
t
Stocker la courbe f(s) sur une partie et déterminer
q
un bon coup
p
automatiquement
–
Par exemple celui à partir duquel f(s) a été toujours positif
Apprentissage faiblement
supervisé
Apprentissage sur des
parties entières
1. Apprentissage par exploration
Exploration simple de l’espace des
fonctions d’évaluation
z
On cherche un point W=(w
W (w1, w2, …,wn) optimal dans l’espace
l espace
des W.
z
Idée
–
–
–
Explorer +- exhaustivement l’espace des (w1, w2, …,wn)
On part de W0
A une itération t donnée,, on a un vecteur Wt
z
On veut modifier le vecteur pour une composante j
On fait jouer un joueur utilisant Wt contre
z un joueur utilisant Wt +(0,…, ε,...,0) où ε>0 apparait sur la j-ieme
p
composante
z un joueur utilisant Wt -(0,…, ε,...,0)
– On sélectionne le meilleur,
– On recommence pour le même j jusqu’à ce qu’on n’améliore plus
–
z
On recommence pour un autre j
Algorithme
g
z
Initialiser W aléatoirement (ou d’après
d après vos essais)
z
Tant que …
–
Pour j=1 à p (nombre de sous fonctions)
z
z
Évaluer ((W |w
| j+ ε)) et ((W ||wj- ε).
) Et déterminer le sens de l’amélioration
Tant qu’il y a amélioration faire
–
z
wj = wj+ ε ou (wj = wj- ε )
Evaluation : Par rapport à un joueur de référence
Téléchargement