Amélioration du stratège par Apprentissage Apprendre pp la fonction d’évaluation z Définition de la fonction d’évaluation Eval(s) = w1 f1(s) + w2 f2(s) + … + wn fn(s) – Fonction dépendante ou non du temps (du n° de coup) E l(t s)) = w1(t) f1(s) Eval(t, ( ) + w2(t) f2(s) ( ) + … + wn(t) fn(s) ( ) z Apprendre les w ou les w(t) Apprendre pp à explorer p ? z Paramétrisation de l’algorithme l algorithme de recherche – Algorithme à profondeur fixée z – Tendance à favoriser des p prises importantes p au dernier coup p Algorithmes à profondeur variable z Nécessite un critère d’arrêt – – – Stabilité St bilité d de lla situation it ti Validité de la fonction d’évaluation Algorithmes dépendants des contraintes temporelles z Prise en compte du temps – Profondeur fixée dépendante du temps Comment apprendre ? Mise au p point du stratège g z A la main z Par apprentissage supervisé z Par apprentissage faiblement supervisé Apprentissage pp g supervisé p z Principe – Apprentissage à partir d’une base d’exemples z On fournit O f it un ensemble bl de d situations it ti étiquetées éti té par un expert Apprentissage automatique de la fonction d’évaluation f(s) – Algorithmes « simples » z Type réseaux de neurones – Apprentissage faiblement f p supervisé z Principe : on apprend à partir de parties entières gagnées/perdues – On fait jouer la machine contre elle elle-même même des (centaines de) milliers de parties z z – On raffine au fur et à mesure le stratège But : trouver des poids optimaux Problème : Credit assignment problem z z z Déterminer les coups responsables de victoire/défaite Plus généralement les bons et les mauvais coups Comment changer les poids ? Apprentissage supervisé Apprentissage à partir d’exemples (etat,coup) z Méthodes – Apprentissage à partir d’un ensemble de paires E= {(etati, coupi), ) i=1..N} i=1 N} z correspondant à des coups « idéaux » dans un ensemble de situations Apprentissage à partir d’un ensemble pp g d’apprentissage z Base de coups idéaux E= {(etati, coupi), ) i=1..N} i=1 N} – – z On cherche la fonction f qui va choisir dans chaque situation etati le coup coupi Il faut que l’ensemble d’apprentissage soit représentatif de toutes les situations Gé é Généralement algorithmes itératifs é f z Pb : Avoir l’ensemble E – +sieurs possibilités : 1. 2. Parser d P des parties ti diff diffusées é sur Internet I t t Stocker la courbe f(s) sur une partie et déterminer q un bon coup p automatiquement – Par exemple celui à partir duquel f(s) a été toujours positif Apprentissage faiblement supervisé Apprentissage sur des parties entières 1. Apprentissage par exploration Exploration simple de l’espace des fonctions d’évaluation z On cherche un point W=(w W (w1, w2, …,wn) optimal dans l’espace l espace des W. z Idée – – – Explorer +- exhaustivement l’espace des (w1, w2, …,wn) On part de W0 A une itération t donnée,, on a un vecteur Wt z On veut modifier le vecteur pour une composante j On fait jouer un joueur utilisant Wt contre z un joueur utilisant Wt +(0,…, ε,...,0) où ε>0 apparait sur la j-ieme p composante z un joueur utilisant Wt -(0,…, ε,...,0) – On sélectionne le meilleur, – On recommence pour le même j jusqu’à ce qu’on n’améliore plus – z On recommence pour un autre j Algorithme g z Initialiser W aléatoirement (ou d’après d après vos essais) z Tant que … – Pour j=1 à p (nombre de sous fonctions) z z Évaluer ((W |w | j+ ε)) et ((W ||wj- ε). ) Et déterminer le sens de l’amélioration Tant qu’il y a amélioration faire – z wj = wj+ ε ou (wj = wj- ε ) Evaluation : Par rapport à un joueur de référence