Les comportements stratégiques via la théorie des

publicité
CHAPITRE I LES COMPORTEMENTS STRATEGIQUES VIA LA THEORIE DES JEUX Dans l’introduc/on, nous avons fait l’hypothèse qu’un producteur ou un consommateur devait maximiser quelques chose dans un contexte de risques ou d’incer/tude sans tenir compte des décisions des autres producteurs ou consommateurs. Il n’y a ainsi aucune interac/on stratégique. La théorie des jeux étudie les interac/ons stratégiques entre individus, c’est à dire les situa/ons dans lesquelles les décisions prises par un individu ont des répercussions sur les autres individus. Dans ce contexte, l’u/lité d’un agent dépend non seulement de ses propres ac/ons mais également des ac/ons choisies par les autres. Afin de déterminer quelles sont les ac/ons des autres agents lui permeDant de maximiser son bien être, un individu doit an/ciper le ac/ons des autres agents. Un jeu est défini à par/r des éléments suivants : (i) un ensemble de joueurs, quels sont les agents qui interagissent?, (ii) les règles du jeu, quelles sont les ac/ons qu’un individu peut entreprendre ? Quelles informa/ons les agents disposent ils lorsqu’ils prennent leurs décisions ? (iii) les résultats, quels sont ils à l’issue du jeu ? (iv) les paiements, est-­‐ce que les agents peuvent gagner ou perdre? L’informa/on dont disposent les joueurs est une donnée fondamentale de toute interac/on stratégique. On oppose informa/on parfaite et informa/on imparfaite d’une part, informa/on complète et informa/on incomplète d’autre part. La première opposi/on concerne les règles du jeu. Lorsque l’informa/on est parfaite, quel que soit le moment où un joueur prend sa décision, il connaît exactement l’histoire du jeu, c’est à dire tous les coûts joués précédemment par lui ainsi que par les autres joueurs. En outre, les décisions des agents sont prises successivement et non simultanément. L’informa/on est imparfaite lorsque au moins une de ces deux condi/ons n’est pas sa/sfaite. La seconde opposi/on concerne les circonstances du jeu. L’informa/on est complète lorsque tout élément du jeu est connaissance commune. En par/culier, chaque joueur sait quelles sont les ac/ons que les autres joueurs peuvent décider d’entreprendre et connaît tous les paiements. Pour comprendre l’intérêt de la théorie des jeux en ma/ère de risques et d’incer/tude, nous procéderons en quatre étapes. Nous analyserons dans un premier temps, les jeux à informa/on complète et parfaite, dans un deuxième temps, les jeux à informa/on complète et imparfaite, puis les jeux répétés et enfin les jeux à informa/on incomplète. A. Jeux à informa0on complète et parfaite. On dit qu’un jeu est à informa/on complète si chacun des par/cipants connaît : -­‐  Son ensemble de choix -­‐  L’ensemble de choix des autres joueurs -­‐  Toute la gamme des issues possibles et les gains qui leur sont associés -­‐  Les mo/fs des autres joueurs Le fait que chacun connaissance les mo/fs et domaines de choix des autres signifie que tout joueur peut se meDre dans la peur des autres, avant de prendre sa décision. Dans la mesure où tout le monde fait de même, il y a un enchaînement sans fin : je sais que les autres peuvent se meDre à ma place, qu’ils savent que je le sais… Ce jeu de miroirs traduit la conscience qua chaque individu de la ra/onalité des autres, tout au moins lorsqu’il y a informa/on complète. Quand ceDe hypothèse est vérifiée, on parle de connaissance commune de la structure du jeu, de la part de touts ceux qui y par/cipent. 1. Informa/on parfaite et récurrence à rebours Lorsqu’il y a informa/on complète, chaque joueur connaît toutes les données du problèmes, pour lui et les autres. Toutefois, pour qu’un jeu soit totalement défini, il faut que ses règles précisent l’ordre des coups. Trois types de situa/on peuvent être envisagées : -­‐ Soit les joueurs font leurs choix de façon séquen/elle, dans un ordre précis fixé à l’avance -­‐  Soit ils prennent leur décision simultanément -­‐  Soit ils font face à des situa/ons mixtes avec des coups successifs et des coups simultanés. Nous allons ici nous intéresser à un jeu séquen/el à informa/on parfaite. a. La forme extensive d’un jeu La représenta/on extensive d’un jeu spécifie: l’ensemble des joueurs, dans quel ordre ils jouent, les différentes ac/ons qu’ils peuvent choisir, ce qu’ils savent au moment de jouer, les paiements pour toutes les issues possibles du jeu. La forme extensive du jeu est généralement représentée à l’aide d’un arbre (arbre de Kuhn). L’arbre se lit toujours de gauche à droite. Le sommet de l’arbre correspond au coup ini/al. Les traits issus de ce sommet, appelés branches de l’arbre, correspondent aux ac/ons possibles du joueur A, soit a1, a2, a3. Ces branches conduisent à des nœuds de l’arbre, à par/r desquels le joueur intervenant en second, ici B, effectue son choix (parmi les deux ac/ons à sa disposi/on, b1 et b2). D’où les nouvelles branches de l’arbre qui conduisent à de nouveaux nœuds, point de départ du joueur C… Si le nombre de coups est fini, l’arbre se termine par des suites de nombres qui donnent les gains de chacun des joueurs pour les ac/ons choisies. C b1 B b2 C a1 B b1 C a2 A C b2 a3 B b1 C C b2 b. Le jeu sous sa forme stratégique On appelle stratégie d’un joueur une spécifica/on complète des ac/ons qu’il a choisies dans chacune des circonstances possibles du jeu. Cela signifie que l’on connaît la stratégie du joueur, on sait précisément quelle ac/on il va choisir dans toutes les configura/ons du jeu Dans un jeu séquen/el, le choix de chaque joueur doit tenir compte, entre autres, des choix faits par ceux qui l’ont précédé dans l’ordre des coups. Toute décision est condi/onnelle à celle des autres. Elle doit envisager des éventualités possibles et établir des plans d’ac/ons., plans que l’on appelle stratégies. Celles ci se présentent sous la forme d’une suite de décisions :si ceux qui m’ont précédé ont fait tel ou tel choix, alors je re/ens telle ou telle ac/on. Le caractère condi/onnel des stratégies fait que leur nombre augmente de façon exponen/elle avec le nombre de coups que comporte le jeu. Evidemment, lors du déroulement effec/f du jeu, un seul des nœuds rela/fs à chaque joueur est aDeint (un seul chemin allant du nœud ini/al à un vecteur de gains est parcouru le long de l’arbre), et par conséquent les stratégies envisageant ce qui se passe dans des nœuds non aDeints ne servent à rien. Cependant, si les joueurs sont ra/onnels et cherchent à /rer par/ de toute l’informa/on dont ils disposent, ils doivent dresser la liste complète des stratégies possibles avant de choisir la meilleure d’entre elles. Ils doivent ainsi représenter l’arbre de Kuhn dans son ensemble afin de prendre leurs décisions en connaissance de cause, même si ces décisions conduisent à ne parcourir qu’un seul des chemins de l’arbre. Exemple 1 : un nouvel entrant face à un monopole Considérons une nouvelle entreprise A qui envisage de produire un bien dont l’offre et le fait d’une autre entreprise, M, pour monopole. Pour l’entreprise A, le choix est simple, soit elle entre, soit elle n’entre pas. De son côté, le monopole M devra décider s’il accepte de laisser entrer un concurrent (M devra dès lors baisser sa produc/on s’il veut éviter une baisse brutale des prix) ou s’il ne cède pas (ce qui se traduire par une baisse des prix pour empêcher son concurrent d’entrer sur le marché). Il y a donc trois issues possibles : (1°) soit A n’entre pas et M fait le bénéfice maximum; (2) soit A entre et M accepte ceDe entrée de sorte qu’il y a un partage des bénéfices entre les deux entreprises (au regard des parts de marché bien évidemment); (3°) soit A entre sur le marché et M tente par tous les moyens de résister, ce qui peut se traduire par des pertes pour les deux entreprises. L’arbre de Kuhn fera apparaître chaque issue associée à un vecteur de gains (a,b), a donnant le gain de celui qui joue en premier (ici A), b le gain de celui qui joue en second (ici M). N’accepte pas (-­‐3, -­‐2) M Entre Accepte (4,4) A N’entre pas (0,10) Résolu/on du jeu : Si A décide de ne pas entrer, il suffit à M de con/nuer à produire comme auparavant en /rant le par/ de sa situa/on de monopole (gain de 10). En revanche, si A décide d’entrer, M a intérêt à accepter l’entrée puisqu’il s’assure un gain posi/f (4) alors que s’il n’accepte pas, il encourt une perte (-­‐2). Dans cas condi/ons, l’entreprise A, qui an/cipe les choix de M en se meDant à sa place, va décider d’entrer ce qui lui permet d’obtenir un gain posi/f (4). Ainsi le jeu semble comporter une solu/on (4,4), A entre et M accepte. c. La récurrence à rebours La méthode u/lisée pour trouver la solu/on de l’exemple précédent est appelée « Backward inducLon », soit récurrence à rebours. Elle consiste à raisonner à par/r de la fin, en commençant par déterminer les choix à chaque nœud de celui qui joue en dernier, puis de celui qui joue avant lui et ainsi de suite. Sur l’arbre du jeu, ceDe méthode conduit à élaguer progressivement les branches, jusqu’à ce qu’il ne reste plus que le nœud ini/al. Ainsi dans notre exemple, comme M accepter l’entrée lorsque A décide d’entrer, l’arbre de Kuhn se réduit de la manière suivante : (4,4) Entre A (0,10) N’entre pas Exemple 2 Appliquer le principe de récurrence à cet arbre de Kuhn. Quelle est la solu/on? C B c1 (1,10,15) c2 b1 b2 C a1 b3 (2,3,4) c1 c2 (4,3,3) c1 (8,2,7) C A C a2 L a s o l u / o n e s t -­‐ e l l e op/male ? Procure t’elle un gain total supérieur pour les trois joueurs ? B (5,5,5) b1 b2 b3 C C c2 c1 c2 c1 c2 c1 c2 (1,3,3) (3,1,1) (2,2,2) (1,3,5) (6,4,1) (3,4,2) (5,1,1) La solu/on consiste à commence par déterminer les choix de C à chaque nœud. On ob/ent (15 > 5), (4>3), (7> 3), (2>1), (5>1), (2>1). On détermine ensuite les mêmes choix pour B, on ob/ent (10>3>2), (4>3>2). Le choix de A vient ensuite: (3>1). Au final : A choisit a2, B choisit b3, C choisit c1, les gains sont donnés par (3, 4, 2). -­‐ Notons que le jeu comporte une issue qui procure un gain strictement supérieur aux trois joueurs, la solu/on (5,5,5), solu/on qui n’est pourtant pas retenue bien que les trois joueurs agissent ra/onnellement (maximisa/on des gains personnels compte tenu de choix an/cipés des autres). Ainsi la solu/on est sous-­‐op/male. -­‐ Par ailleurs, il existe un vecteur de gains (1, 10, 15) qui procure un gain total largement supérieur à tous les autres. Ainsi le choix (a1, b1, c1) peut apparaître comme une solu/on ra/onnelle, si et seulement si, il est possible de transférer les gains d’un joueur à l’autre (règle de partage). Précisons que l’ordre des coups (qui fait par/e des règles du jeu) est très important. Si l’on reprend l’exemple du nouvel entrant et du monopole en supposant que c’est le monopole qui joue en premier, quel arbre obtenez vous ? Il y a deux sous jeux: Si M accepte, A entre (gain de 4 plutôt que 0), si M n’accepte pas, A n’entre pas ( g a i n n u l p l u t ô t Accepte qu’une part de 2) M entre (4,4) A (10,0) n’entre pas A entre N’accepte pas n’entre pas Accepte (4,4) M N’accepte pas (10,0) (-­‐2, -­‐3) (0,10) M a intérêt à ne pas accepter (gain de 10 contre 4), la solu/on par récurrence à rebours est : M n’accepte pas et A n’entre pas. Ainsi, modifier les règles du jeu à d’importantes conséquences sur la solu/on. Le fait de jouer en premier donne un avantage (Situa9on de meneur de Stackelberg) 2. Le marchandage en informa/on complète et parfaite En règle générale, l’issue d’un marchandage est imprévisible en raison de l’existence d’un grand nombre de facteurs impondérables : rapport de forces, stratégie de bluff, pouvoir de négocia/on… L’informa/on (privée, collec/ve…) joue un rôle essen/el dans tout marchandage. Dans le cas d’un jeu à informa/on parfaite et complète, il est possible de résoudre le problème du marchandage par la méthode de la récurrence à rebours. Un dirigeant de société (noté A) et un collec/f de salariés (noté B) doivent se partager les bénéfices auxquels on peut toujours aDribuer une taille unitaire, de sorte que si on note x la part de A, celle de B est (1-­‐x). On suppose que plus la négocia/on se prolonge, plus les bénéfices se réduisent. A chaque coup, la taille des bénéfices est mul/pliée par une constante β (0<β<1). On suppose que la négocia/on ne comporte que deux tours, A fait une proposi/on, B accepte ou fait une contreproposi/on, que A accepte ou refuse. Dans ce dernier cas, les règles du jeu s/pulent que les gains de A et B sont nuls. i)  Représenter l’arbre de Kuhn ii)  Appliquer la méthode de récurrence par rebours iii)  Introduire un tour de négocia/on supplémentaire iv)  Que se passe t’il lorsque la négocia/on se poursuit indéfiniment ? Taille des bénéfices Premier tour A propose le partage 1 (x0; 1-­‐x0) B accepte (x0; 1-­‐x0) Deuxième tour B refuse B propose (x1; 1-­‐x1) A accepte (βx1; β(1-­‐x1) A refuse (0,0) β Le modèle de marchandage peut être aménagé en introduisant une fonc/on d’u/lité pour les gains et en considérant des coefficients β différents pour A et B, sous réserve qu’ils soient tous deux compris entre 0 et 1. L’essen/el est cependant de préserver le cadre d’informa/on complète et parfaite. Il faut ainsi supposer que tous ces changements sont connaissance commune, c’est à dire que chacun peut effectuer ses calculs sans problèmes. 3. Les limites de la récurrence à rebours La méthode de récurrence à rebours apparaît comme une méthode de résolu/on ra/onnelle d’un jeu. Toutefois, elle peut mener à des situa/ons par/culières. Considérons le jeu suivant : arrête A (1,1) B arrête poursuit (0,3) (2,2) poursuit Appliquer la méthode de rebours, la solu/on est elle efficiente ? On applique le principe de récurrence à rebours, en commençant par le choix de B, qui consiste à arrêter (ce qui rapporte 3 au lieu de 2 s’il con/nue). Ayant prévu cela, il ne reste plus à A que de décider d’arrêter dès le début (gain de 1 contre 0). Ainsi la solu/on de ce jeu par récurrence à rebours est : A arrête, le gain de chaque joueur étant égal à 1. Or parmi les issues du jeu, il y en a une qui procure un gain neDement supérieur à chaque joueur (2,2), ceDe issue est plus efficiente que la solu/on résultant de la récurrence à rebours. Et pourtant, elle s’impose dans une perspec/ve non coopéra/ve et individualiste. Car si A décidait de poursuivre le jeu, avec pour but d’aDendre la solu/on la plus efficiente (2,2), la solu/on ra/onnelle de B serait d’arrêter, puisque ça lui rapport 3 au lieu de 2. On pourrait envisager une solu/on dans laquelle B s’engagerait sur l’honneur à poursuivre le jeu si A le fait, mais comment rendre crédible un tel engagement, sachant que B n’a aucun intérêt à le tenir… La sous op/malité ou l’inefficience des solu/ons résultant de choix ra/onnels (strictement individualistes) est typique en théorie des jeux… Exemple : le jeu du mille-­‐paDes de Rosenthal A c B c A c B c A c B c a a a a a a (1000 1000) (1,1) (0, 3) (998, 998) (997, 1000) (999, 999) (998, 1001) A c B c A c (2,2) a a (3,2) (8,1) (1, -­‐10) Résoudre ce jeu par la méthode de récurrence à rebours. Peut imaginer une autre stratégie ? L’applica/on du principe de la récurrence à rebours entraîne que A décide d’arrêter dès le premier coup. Toutefois, A peut gagner beaucoup plus s’il con/nue et si B s’arrête(8 au lieu de 3). En outre, il observe qu’il existe une issue très défavorable à B (perte de 10). Sachant cela et compte tenu du caractère séquen/el du jeu, A peut chercher à semer le trouble dans l’esprit de B, en décidant de con/nuer (c) au premier coup, contre toute aDente (selon le principe de récurrence). Si B s’en /ent, lui, à ce point de vue, il doit alors décider de con/nuer, puisqu’en toute logique A devrait décider de con/nuer également (gain de 2 contre 1). Cependant, en ne choisissant pas a dès le début, A a eu apparemment un comportement étrange : il existe donc un risque, pour B, que A agisse de façon irra/onnelle, entraînant une perte de 10 par ce dernier. Face à ce risque, B peut adopter une autude prudente, consistant à arrêter si A con/nue, de sorte que celui-­‐ci parvient à ses fins, et ob/ent le gain maximum: 8. Ainsi malgré les apparences, le comportement de A peut être ra/onnel. Evidemment, B peut an/ciper la ruse et la déjouer. Si A en est persuadé, alors il a intérêt à retenir la solu/on normale, c’est à dire d’appliquer la solu/on de récurrence à rebours. Cet exemple nous rappelle que les choix des joueurs dépendent non seulement de l’informa/on concernant les règles et les gains associés aux diverses issues du jeu, mais aussi de la connaissance que chacun a du comportement des autres. Si la solu/on de récurrence à rebours ne s’impose pas, c’est parce qu’une hypothèse du modèle a été modifiée : celle qui suppose qu’il y a informa/on complète. Le fait que B puisse douter de la ra/onalité de A (même si ce doute n’est pas jus/fié) signifie qu’il n’est pas totalement informé de la situa/on… A peut chercher à profiter de cet état de fait. Le manque d’informa/ons sur l’un des paramètres du modèle (même si ce n’est que pour un joueur) nécessite de prendre en compte les croyances des intervenants, sans elles, il n’est pas possible de dégager une solu/on du modèle. Ces croyances prennent généralement la forme de distribu/ons de probabilité ; quelle est la probabilité que B aDribue à l’éventuelle irra/onalité de A ? Quelle est la probabilité que A aDribue à la réac/on qu’il aDend de B ? Aux gains certains, se subs/tuent de espérances de gains…. B. Jeux à informa0on complète mais imparfaite Nous allons introduire ici l’hypothèse que les règles du jeu s/pulent l’existence de coups simultanés, ce qui revient à introduire une imperfec/on au niveau de l’informa/on dont disposent les joueurs. Dans ce cas, il n’est plus possible d’u/liser la méthode de récurrence à rebours.. Il convient alors de trouver une solu/on au jeu en privilégiant une autre méthode. 1. Différentes méthodes de résolu/on de problèmes à L’éliminaLon des stratégies dominées Considérons le jeu suivant : A B s1 s2 s3 t1 (8,8) (4,7) (10, 6) t2 (9,2) (5,5) (6,3) Quelle est la stratégie retenue ? B n’a jamais intérêt à choisir s3 puisque s2 lui donne toujours un gain supérieur, quel que soit le choix de A (7 > 6 et 5 > 3), on dit que s2 domine s3. Sachant cela, A se détermine en excluant que B re/enne s3. Mais alors, sa stratégie t2 domine t1 (9 > 8 et 5 > 4). Si A est ra/onnel, il ne peut choisir que t2. Ayant an/cipé cela, B choisir s2. Ainsi la solu/on qui se dégage après ceDe élimina/on des itéra/ons successives des stratégies dominées est : A choisit t2 et B s2, tous les deux auront un gain de 5. CeDe issue du jeu, fruit de la ra/onalité, est sous op/male. Les issues associées aux choix (t1, s1) et (t1, s3) procurent un gain supérieur. Ainsi la solu/on par élimina/on des stratégies dominées, du moins lorsqu’elle est unique, demande de la part de chaque joueur d’effectuer une succession de calculs en se meDant dans la peau de l’autre, en an/cipant correctement son comportement, ce qui n’est possible que s’il y a connaissance commune de toutes les caractéris/ques du jeu. Evidemment plus le nombre de stratégies et de joueurs augmente, plus les calculs deviennent complexes. à L’équilibre de Nash Le mathéma/cien John Nash a mis en avant en 1950, la no/on d’équilibre, qui désigne une situa/on où chacun maximise ses gains compte tenu du choix des autres. Plus précisément, un équilibre de Nash est une combinaison de stratégies – une par joueur – telle que personne n’aurait pu augmenter strictement son gain en retenant une stratégie différente de celle que lui aDribue ceDe combinaison, compte tenu des stratégies des autres joueurs. En fait, la meilleure façon de caractériser l’équilibre de Nash consiste à voir en lui une situa/on de non regret, il y a équilibre de Nash si chaque joueur ne regreDe pas le choix qu’il a effectué après avoir constaté celui des autres. Ainsi, c’est après que chacun ait annoncé son choix que l’on peut dire s’il y équilibre ou pas. Dès que l’annonce est faite, le jeu est terminé. L’équilibre de Nash diffère ainsi de la no/on d’ équilibre au sens de dynamique ou processus de tâtonnement. Les choix sont faits à un moment donné et c’est terminé. Si on repend l’exemple précédent. A B s1 s2 s3 t1 (8,8) (4,7) (10, 6) t2 (9,2) (5,5) (6,3) Le couple de stratégies (t2, s2) auquel correspond le vecteur de gains (5, 5) est un équilibre de Nash. A n’aurait rien à gagner à choisir t1 au lieu de t2 (si B s’en /ent à s2); de même, le passage de s2 à s1 ou à s3 se serait traduit par une diminu/on des gains de B ( si A reste en t2). * Le dilemme du prisonnier est un jeu où des individus ont intérêt à s’entendre plutôt qu’à ne pas s’entendre, mais où chacun peut gagner à ne pas respecter un éventuel accord, si les autres s’y /ennent. Tel est le cas lorsque deux suspects sont incités à se dénoncer l’un l’autre : B A Se tait Dénonce A Se tait (2,1) (-­‐5, 4) Dénonce B (3, -­‐2) (-­‐2, -­‐1) * Soit un jeu défini par la matrice suivante : B A S1 s2 t1 (1,0) (0,1) t2 (0,1) (1,0) On vérifie immédiatement que ce jeu ne comporte aucun équilibre. Quel que soit le couple de stratégies (/, sj), l’un des deux joueurs aurait obtenu plus (1 contre 0) s’il avait modifié son choix. Ainsi se pose le problème de l’existence d’équilibres pour certains jeux. * Soit le nouveau jeu suivant : Nouvel Entrant Monopole Entre N’entre pas Laisse entrer (3,3) (10,0) Ne laisse pas entrer (-­‐8,-­‐5) (10,0) Quelle est la solu/on à ce jeu ? * Soit le nouveau jeu suivant : deux entreprises A et B ont la possibilité de lancer un nouveau produit pour lequel les débouchés sont limités, sans qu’il n’y ait de compromis entre elles si toutes deux décident de produire. B A Produit Ne produit pas Produit (-­‐3, -­‐2) (10,0) Ne produit pas (0,8) (0,0) Quelle est la solu/on du jeu ? * Soit le jeu simultané défini par la matrice des gains suivante : 2 S1 1 S2 S3 t1 2,1 1,3 1,2 t2 3,1 1,0 2,2 t3 1,5 -­‐ 1,4 0,2 Certaines stratégies sont elles strictement dominées ? Quelles sont les stratégies qui survivent à l’élimina/on répétée des stratégies strictement dominées ? Quel est l’équilbre de Nash du jeu ? La stratégie t3 du joueur 1 est strictement dominée On commence donc par éliminer t3 du tableau, le jeu devient : 2 1 S1 S2 S3 t1 2,1 1,3 1,2 t2 3,1 1,0 2,2 S1 est strictement dominée par s3, le tableau peut donc être simplifié. 2 1 S2 S3 t1 1,3 1,2 t2 1,0 2,2 T1, t2, s2, s3 survivent à l’élimina/on répétée des stratégies strictement dominées. Il y a deux équilibres de Nash en stratégies pures (t1, s2) et (t2, s3) * Reprenons le jeu ini/al suivant : A B s1 s2 s3 t1 (8,8) (4,7) (10, 6) t2 (9,2) (5,5) (6,3) Supposons que pour une raison quelconque (accident clima/que), les gains associés à la stratégie t2 de A soient diminués de 2. Que se passe t’il ? Qu’en concluez vous ? Le jeu se trouve modifié : A B s1 s2 s3 t1 (8,8) (4,7) (10, 6) t2 (7,2) (3,5) (4,3) Le couple (s2, t2) ne représente plus un équilibre (si B choisit s2, A a intérêt à choisir t1); en revanche, (t1, s1) est un équilibre unique, équilibre qui se traduit par une augmenta/on des gains de A et de B par rapport à l’équilibre du jeu ini/al, où les ressources étaient pourtant plus abondantes. Ainsi la diminu/on des gains possibles pour l’un des joueurs a permis de débloquer la situa/on sous op/male , elle même résultant de choix ra/onnels individuels. Le fait de limiter l’informa/on disponible peut être source d’efficience, tout le monde y gagne. Exercice 1: Un employé d’une entrepris peut travailler sérieusement ou bien /rer au flanc. Son supérieur peut contrôler la qualité de son travail ou bien vaquer à d’autres occupa/ons. 2 1 Inspecte Vaque à d’autres occcupa0ons Travaille 2,2 2,3 Tire au flanc 1,4 3,2 1/ Y a t’il des équilibres de Nash en stratégies pures ? 2/ Représenter graphiquement les meilleures réponses de l’employé et de son supérieur 3/ Quel est l’équilibre de Nash du jeu ? L’équilibre de Nash est le concept de solu/on par excellence en théorie des jeux. Ce caractère prédominant s’explique aisément dans une perspec/ve non coopéra/ve, strictement individualiste, puisque l’idée cons/tu/ve de l’équilibre de Nash est que chacun cherche à maximiser ses gains, en dehors de toute autre considéra/on si ce n’est les contraintes imposées par le choix des autres. Peut-­‐on cependant affirmer que l’équilibre de Nash est un concept de solu/on en/èrement sa/sfaisant ? Non, la seule chose que l’on peut affirmer est que s’il y a pour chacun une façon évidente de jouer, alors elle cons/tue forcément un équilibre de Nash. Car si ce n’était pas le cas, cela voudrait dire qu’il y a au moins un joueur qui regreDe son choix, au vu du choix des autres, de sorte que la solu/on évidente de jouer ne l’est pas vraiment pour lui. La réciproque de ceDe proposi/on n’est cependant pas vraie : lorsqu’un jeu comporte au moins un équilibre de Nash, il n’est pas sûr que celui ci en cons/tue la solu/on incontestable, et cela pour plusieurs raisons : -­‐  Comment faire lorsqu’il y a plusieurs équilibres, non comparables entre eux ? -­‐  Les équilibres de Nash peuvent être sous op/maux, il est dès lors difficile d’en faire des choix privilégiés pour les joueurs. -­‐  S’il existe une issue proche de celle d’un équilibre de Nash qui se traduit pas de lourdes pertes pour au moins un des joueurs, alors celui-­‐ci peut chercher la sécurité en cherchant une stratégie hors équilibre qui lui assure un gain minimum quelle que soit la décision des autres joueurs. Sachant cela ou le prévoyant, les autres joueurs vont modifier leurs choix en conséquence, l’issue finale est loin d’être évidente. -­‐ En ce qui concerne la non op/malité possible de l’équilibre de Nash, telle qu’elle apparaît, par exemple, dans le dilemme du prisonnier, elle conduit à s’interroger sur la possibilité de négocia0ons, et d’éventuels accords préalables entre les joueurs. Pourquoi ceux-­‐ci ne s’entendraient ils pas, s’ils en ont la possibilité pour retenir l’issue qui leur procure à tous un gain supérieur à l’équilibre de Nash. Comment être sur que l’accord sera respecté au moment du choix, alors que la tenta/on est grande pour chacun, de dévier afin de gagner plus ? On se trouve ici confronter au problème du caractère exécutoire des accords: problème qui ne peut être résolu qu’en modifiant le jeu, en rajoutant un systèmes de sanc/ons ou en faisant intervenir des paramètres tels que la réputa/on ou la confiance, c’est dans ceDe perspec/ve qu’ont été créé les modèles de jeux répétés. -­‐ L’une des propriétés essen/elles de l’équilibre de Nash est son caractère auto-­‐
exécutoire: s’il a été retenu lors d’un accord préalable entre les joueurs en tant que solu/on alors chacun a intérêt à s’y tenir, s’il pense que les autres font de même. On retrouve ici le rôle des croyances. -­‐ L’équilibre de Nash peut être interprété de la manière suivante : si un joueur quelconque pense que les autres vont choisir des stratégies caractérisant un équilibre donné, alors il ne lui reste plus qu’à retenir sa stratégie de Nash pour cet équilibre. En procédant de la sorte, il confirme le choix des autres, tout au moins s’il l’a correctement an/cipé. L’équilibre de Nash résulte ainsi de prévisions auto-­‐réalisatrices, chacun pensant que les autres vont choisir telle ou telle solu/on, celle ci se réalisera effec/vement et les prévisions se verront donc confirmées (an/cipa/ons ra/onnelles). Ainsi ce que chacun pense – ses croyances – joue un rôle essen/el en ce qui concerne le résultat d’un jeu, notamment s’il y équilibre. Reste alors à expliquer l’origine des croyances des joueurs. 2. Les stratégies mixtes Certains jeux peuvent ne pas avoir d’équilibre de Nash ou en avoir plusieurs. Dans ces deux situa/ons, il y a donc indétermina/on. Afin de contourner ceDe difficulté, il a été proposé de faire intervenir les probabilités au moment de la prise de décision, plutôt que de retenir une ac/on, les joueurs affectent des probabilités aux ac/ons parmi les lesquelles ils doivent choisir. On dit alors qu’ils font appel à des stratégies mixtes plutôt qu’à des stratégies pures (probabilité aDribuer à une ac/on est égale à 1). Le recours à une approche probabiliste pose le problème du critère d’évalua/on des gains, qui ne sont plus certains. Problème qui est résolu en théorie des jeux comme en théorie de la décision par l’adop/on du principe de l’espérance mathéma/que. Il s’agit de pondérer les gains associés aux différentes issues par la probabilité de survenance de celles-­‐ci. Le principal argument avancé pour jus/fier le recours aux stratégies mixtes est d’ordre mathéma/que. Nash a montré que tout jeu à informa/on complète et imparfaite comporte au moins un équilibre en stratégies mixtes. L’équilibre envisagé est un équilibre de Nash. Ainsi accepter les stratégies mixtes lève l’hypothèse de l’éventuelle non existence d’une équilibre en informa/on complète et imparfaite, et permet de jus/fier l’importance accordée aux équilibres. Cependant, la prise en compte des stratégies mixtes n’est pas sans inconvénients. Elle ne peut entraîner qu’une augmenta/on du nombre d’équilibres. Exercice 1 : reprenons le jeu sans équilibre en stratégies pures B A S1 s2 t1 (1,0) (0,1) t2 (0,1) (1,0) Appelons Pa et Pb les probabilités aDribuées à leur première stratégie par A et B, respec/vement (ils n’ont chacun que deux stratégies à leur disposi/on, la probabilité aDribuée à la deuxième stratégie ne peut alors qu’être 1 – Pa pour A et 1 – Pb pour B. Résoudre le jeu Exercice 2 : reprenons le jeu dans lequel deux entreprises doivent décider si elles se lancent dans la produc/on d’un nouveau bien. B A Résoudre le jeu Produit Ne produit pas Produit (-­‐3, -­‐2) (10,0) Ne produit pas (0,8) (0,0) Exercice 3: La bataille des sexes Un couple doit se rencontrer ce soir. Il peuvent assister à un match de football ou aller à l’opéra. Le mari préfère le football à l’opéra. Sa femme préfère l’opéra au football. Cependant tous deux préfèrent être ensemble que séparés. Où vont ils s’ils n’ont pas la possibilité de communiquer ? 2 1 Opéra Football Opéra 3,2 0,0 Football 0,0 2,3 1/ Quels sont les équilibres de Nash en stratégies pures ? 2/ Montrer qu’il existe aussi un équilibre en stratégies mixtes. Les stratégies mixtes soulèvent un certain nombre de problèmes : -­‐ Ce sont tout d’abord des équilibres de Nash au sens faible. Un changement unilatéral de stratégie n’aurait pas augmenté les gains, certes, mais il ne les aurait pas diminués non plus. Rien n’incite un joueur quelconque à retenir sa stratégie d’équilibre (lorsque les autres l’ont fait) à voir les deux exemples précédents. Mais évidemment, il suffit qu’un seul joueur ne re/enne pas sa stratégie d’équilibre pour que celui-­‐ci ne se réalise pas. -­‐ Il peut arriver qu’il y ait des équilibres de Nash au sens faible avec des stratégies pures mais cela est plutôt excep/onnel, alors que cela est toujours le cas avec les équilibres en stratégies mixtes. -­‐ Se pose également la ques/on de savoir quelle significa/on donner au fait que les joueurs annoncent des probabilités d’ac/ons, alors que le but de modélisateur est d’obtenir un ou des résultats précis. -­‐ En outre, dès que l’annonce est faite, le jeu est terminé, quelle que soit l’issue. Pourtant derrière la no/on de probabilité, il y a l’idée de répé//on (qui permet de se faire une opinion sur le caractère plus ou moins probable d’un événement. C. Les Jeux répétés La vie économique a généralement un caractère répé//f, les interac/ons entre agents se reproduisent de façon systéma/que, pendant un certain temps. La théorie des jeux prend en compte cet aspect en introduisant des phénomènes de réputa/on, de représailles, de conven/ons… La théorie des jeux répétés permet surtout d’introduire dans le raisonnement économique des comportement de type coopéra/f. 1. Les jeux répétés : des super jeux Lorsque l’on répète un jeu J soit un nombre T fini de fois, soit un nombre infini de fois, on ob/ent un nouveau jeu que l’on appelle super jeu. Un super jeu étant forcément à plusieurs coups, les stratégies des joueurs sont formées par des successions d’ac/ons. Comme ces ac/ons sont condi/onnelles – elles doivent tenir compte des choix effec/fs ou éventuels des autres joueurs aux coups précédents -­‐, le nombre de stratégies d’un super jeu augmente exponen/ellement avec le nombre T de fois que le jeu cons/tu/f est répété. CeDe profusion des stratégies génère un problème posé par les jeux répétés, à savoir celui de la mul/plicité des équilibres. Les issues et les gains des jeux répétés se déduisent de ceux du jeu cons/tu/f. Ainsi, en ce qui concerne les gains, on considère que l’objec/f des joueurs est de maximiser une somme pondérée des gains obtenus à chaque coup, les coefficients de pondéra/on étant du même type que ceux qui sont u/lisés lors de la recherche de la valeur actuelle d’un flux de receDes. En économie, les gains présents et les gains futurs sont généralement considérés comme étant de nature différente: afin de les rendre homogènes, et pouvoir les addi/onner, on actualise les gains futurs, en leur appliquant le coefficient : t
Où t est la date où ils seront perçus et i le taux d’actualisa/on. Ce qui peut conduire certains à préférer obtenir plus tout de suite, quiDe à voir baisser leurs gains futurs, tout dépend de la valeur du taux d’actualisa/on. 1 / (1+ i)
Le fait que les joueurs prennent leur décision en tenant compte de l’ensemble de leurs gains montre que leur choix ne peut se faire au coup par coup mais qu’il doit être d’emblée global, toutes les éventualités étant envisagées. à Le choix de certaines stratégies peut être interprété comme une menace (ou la possibilité de représailles). Toutefois pour qu’une menace soit prise au sérieux, il faut qu’elle soit crédible, c’est à dire que sa mise à exécu/on ne doit pas être trop couteuse pour celui qui la met en place. Ce n’est pas le cas si les stratégies choisies ne correspondent pas au dernier coup à un équilibre de Nash du jeu cons/tu/f J. Car il existe au moins un joueur qui peut augmenter son gain par un changement unilatéral de stratégie, et les menaces de sanc/on n’ont pas de prise sur lui puisqu’elles ne peuvent être mises à exécu/on. Il existe un concept de solu/on de l’équilibre de Nash qui ne re/ent que des menaces crédibles, c’est l’équilibre parfait. La méthode u/lisée pour déterminer un tel équilibre est la récurrence à rebours. Méthode qui peut servir dans le cas des jeux répétés un nombre fini de fois, mais dont l’applica/on s’avère être moins simple dans la mesure où de tels jeux ne sont pas forcément à informa/on parfaite. à Face aux menaces de représailles de la part des autres, chaque joueur peut chercher à déterminer le niveau de gain en dessous duquel il ne peut être contraint par ceux-­‐ci. Ce niveau, dit de sécurité, résulte d’une démarche minimax. Le joueur i détermine son gain maximum pour chacun des choix des autres joueurs, et an/cipant d’éventuelles sanc/ons de leur part, re/ent la stratégie permeDant de minimiser ce gain maximum. Soit le jeu suivant : A B s1 s2 s3 t1 (3,3) (9,2) (7,1) t2 (4,5) (6,7) (8,4) t3 (1,8) (7,5) (6,6) Quel est le niveau de sécurité de A et B ? Si l’on se met à la place de A, si B choisit s1, le gain maximum de A est 4, il est de 9 si B choisit s2 et de 8 si B choisit s3. Le niveau de sécurité de A, correspondant à son minimax, est donc égal à 4 (= min (4, 8, 9)). De même, le niveau de sécurité de B est égal à 3 (= min (3, 7, 8)). Le couple (4,3) des niveaux de sécurité n’est pas une des issues du jeu, et il n’y a pas de raison qu’il le soit, en règle générale. On appelle individuellement ra/onnelles les issues du jeu procurant à chaque joueur un gain strictement supérieur à son niveau de sécurité. Ainsi, ici il y a quatre issues de ce type : (6,7), (8,4), (7,5) et (6,6) en stratégies pures. Aucune d’elles n’est un équilibre de Nash du jeu (qui n’en comporte d’ailleurs pas en stratégies pures), ce qui n’empêche pas qu’elles puissent apparaître dans les équilibres du jeu répété. Notons pour finir sur cet exemple qu’en supposant que l’issue retenue à chaque coup est celle qui a (6,7) pour vecteurs de gains (choix de t2 par A et de s2 par B). Si A déviait à un moment donné, en retenant t1 plutôt que t2, B choisissant encore s2, alors il augmenterait tout de suite son gain de 3; mais si, à /tre de riposte, B décidait de le sanc/onner à tous les coups suivants, A ne pourrait s’assurer à chaque coup que son niveau de sécurité. D’où un manque à gagner à chaque coup, par rapport au cas où il n’aurait pas dévié, de 6 – 4 = 2 La valeur actuelle du flux de ces manque à gagner est donc, au taux i et si le jeu se répète : 2
3
A a donc intérêt à dévier si 2/i < 3, c’est à dire si i > 2/3 taux qui est extrêmement élevé et fort peu vraisemblable. On peut ainsi associer à chaque issue individuellement ra/onnelle un taux d’actualisa/on « limite » en dessous duquel la dévia/on par rapport à l’issue envisagée n’est pas payante. 2
2
2
2
+
+
+... =
1+ i (1+ i) (1+ i)
i
2. Les jeux répétés et la stratégie de coopéra/on Si l’on repart du dilemme du prisonnier, ce jeu d’admet qu’un seule issue d’équilibre : les deux joueurs avouent toujours. Or, tous deux gagneraient bien plus s’ils adoptaient la stratégie de ne pas avouer. La méthode de la récurrence à rebours empêche un tel choix (du point de vue de la ra/onalité individuelle). L’un des objec/fs de l’approche par les jeux répétés est de trouver un moyen d’échapper à ceDe logique. La coopéra/on peut ici être introduite. Le jeu s’avère même très convaincant lorsque l’on introduit une dose d’incer/tude, c’est à dire que l’on relâche quelque peu l’hypothèse d’informa/on complète. Il suffit pour cela que chaque joueur ne soit pas tout à fait sûr que les autres ont un comportement parfaitement ra/onnel, autrement dit que le joueur i aDribue une probabilité ε (aussi pe/te soit elle) que le joueur j, quel qu’il soit, ait un comportement irra/onnel en choisissant « de ne pas avouer » (dans le dilemme du prisonnier) alors que l’équilibre de Nash lui dicte le contraire, et cela quel que soit i. Si J comporte un seul équilibre équilibre de Nash et une issue coopéra/ve qui le domine strictement (sans pour autant représenter un équilibre) alors les stratégies du super jeu consistant à annoncer que l’on coopère tant que les autres coopèrent et à se replier sur l’équilibre de Nash (dominant) dès qu’un joueur dévie, peuvent être d’équilibre du super jeu. Pour cela, il suffit que le nombre de fois T où le jeu est répété soit suffisamment grand, de sorte que l’espérance de gain associée au cas où « personne ne dévie » soit supérieure à celle qui résulte lorsqu’il y a une quelconque dévia/on. L’un des résultats de ceDe analyse, qui peut être appliquée au jeu du prisonnier répété, est qu’un comportement apparemment irra/onnel (ne pas avouer) peut finalement ne pas l’être vraiment. D’ailleurs, chacun a intérêt à ce que la probabilité ε soit la plus grande possible, c’est à dire à se bâ/r une réputa/on de non ra/onalité (je ne suis pas une balance, même s’il m’en coûte). L’irra/onalité est ainsi u/lisée pour arriver à une forme forte de la ra/onalité : l’irra/onalité ne peut être exclue, chaque joueur accorde une pe/te probabilité à l’irra/onalité. Point de réflexion : En vous appuyant sur le dilemme du prisonnier, que peut engendrer le relâchement de l’hypothèse de connaissance commune ? Dilemme du prisonnier répété un nombre fini de fois en supposant que chaque joueur est ra/onnel et sait que l’autre l’est aussi, mais ignore si l’autre sait qu’il est lui même ra/onnel. Ignorance qui conduit le joueur A à penser qu’il se peut que le joueur B aDribue une probabilité non nulle (même si elle est pe/te) à un comportement irra/onnel de sa part (consistant à ne pas dénoncer). Dès lors, A a intérêt à entretenir ceDe idée chez B, et de façon fort ra/onnelle, à ne pas le dénoncer; B est alors confirmé dans sa croyance quant à la possibilité que A soit irra/onnel, et choisit également de ne pas dénoncer A, de sorte que le jeu se poursuit de façon op/male pour A et B (non dénoncia/on mutuelle). Le raisonnement peut être repris quel que soit l’ordre (fini) de connaissance mutuelle; il permet de donner une jus/fica/on ra/onnelle à des comportements apparemment irra/onnels. En revanche, il n’est plus valable s’il y a connaissance commune. 3. Les jeux répétés indéfiniment Si un jeu est répété un nombre fini de fois, le dernier coup, même s’il est extrêmement lointain (T est grand) peut avoir une incidence décisive sur la forme prise par l’ensemble des équilibres, et cela, bien que le choix fait pour ce dernier coup ait une influence négligeable sur le gain total de chacun. Pour reprendre le dilemme du prisonnier, que l’on répète ce jeu deux fois ou n fois , il ne comporte qu’un seul équilibre de Nash : les deux joueurs avouent toujours à principe de la récurrence à rebours : au dernier coup, chacun a intérêt à avouer (stratégie dominante) et aucune menace ne peut l’empêcher de le faire…il en est de même pour l’avant dernier coup… et ainsi de suite… La seule façon de s’en sor/r (s’il y a informa/on complète, comportements ra/onnels et connaissance commune) consiste à supposer qu’il n’y a pas de dernier coup, que le jeu se poursuit indéfiniment. On considère qu’ils font « comme si » ou bien qu’ils aDribuent à chaque coup une probabilité p à l’éventualité que « la fin du monde » aura lieu au coup suivant. Leurs calculs portent alors sur des espérances de gain. Dans le cas du dilemme du prisonnier, le couple de stratégies consistant, pour chaque joueur, à ne pas avouer tant que l’autre n’avoue pas, et à avouer indéfiniment tant que l’autre le fait, est un équilibre de Nash. En effet, le gain supplémentaire obtenu lorsque l’on avoue, l’autre n’avouant pas, est annulé dans les coups suivants, où l’autre riposte en avouant toujours. Mieux vaut ne jamais parler et les toucher les gains de la coopéra/on. L’applica/on de sanc/ons lorsque l’autre dévie est un élément essen/el de l’équilibre. Les sanc/ons sont ici tout à fait crédibles, puisqu’avouer est une stratégie dominante d’équilibre du jeu. Soulignons trois points importants : à Il est possible d’imaginer un grand nombre de variantes et d’équilibres de Nash : (i) j’avoue une fois sur deux, tant que l’autre n’avoue pas, j’avoue toujours dès qu’il avoue, tandis que l’autre choisit de ne pas avouer tant que son complice ne le dénonce pas deux fois de suite. à Un des résultats de la théorie des jeux répétés est de montrer d’un point de vue non coopéra/f, que les joueurs ont intérêt à coopérer. Or la no/on de coopéra/on est un abus de langage. Une coopéra/on repose sur un accord, une entente préalable (recherche du bien être collec/f) or tel n’est pas le cas ici, avec les jeux répétés où chacun n’a qu’un seul objec/f, maximiser son gain personnel. Si l’issue coopéra/ve est un choix effec/f, c’est parce qu’elle permet de réaliser cet objec/f. Il faut faire appel la plupart du temps à des menaces , ce qui relève plus du conflit que de la coopéra/on. à The folk Theorem ou théorème de tout le monde : L’exemple du dilemme du prisonnier répété indéfiniment comporte une infinité d’équilibres de Nash. Depuis longtemps, les théoriciens des jeux se sont aperçus que la mul/plicité des équilibres est une caractéris/que des jeux répétés indéfiniment. Le Folk Theorem peut être présenté de la manière suivante : toute issue individuellement raLonnelle du jeu de base J peut être, par répéLLon indéfinie, une issue d’équilibre du superjeu J∞. Dans le dilemme du prisonnier répété indéfiniment, l’issue coopéra/ve où personne n’avoue jamais, est une issue d’équilibre. La démonstra/on du folk theorem est basée sur l’idée de menace : la stratégie consistant à choisir à chaque coup une ac/on ayant une issue individuellement ra/onnelle, ceDe issue étant la même pour tous les joueurs, et à sanc/onner toute dévia/on, est une stratégie d’équilibre, si elle est retenue par chacun des joueurs. D. Les jeux à informa0on incomplète L’hypothèse d’informa/on complète empêchant d’envisager des situa/ons fréquentes en économie, Harsanyi (1967) a proposé de la relâcher par/ellement en introduisant une incer/tude « exogène ». S’il y a trop d’incer/tude ou d’importantes lacunes au niveau de l’informa/on, il devient difficile de construire des modèles, la no/on de ra/onalité perd de son contenu. Harsanyi propose que certains des paramètres (issues, gains, comportements) peuvent prendre de façon aléatoire, diverses valeurs : les valeurs possibles sont connues de tous, mais tel n’est pas forcément le cas pour celles qui sont effec/vement prises par ces paramètres. On suppose qu’à chaque joueur est associé un ensemble (fini ou infini) de types, l’incer/tude portant sur son type effec/f. La plupart du temps, celui-­‐ci a trait aux gains possibles. En informa/on incomplète, l’incer/tude porte sur le type que va prendre chaque joueur,; elle est exogène puisque produite par les faits extérieurs au modèle. Cependant Harsanyi a proposé de rajouter un joueur fic/f, appelé Nature, dont la seule ac/vité consiste à préciser à chaque joueur quel est son type effec/f. Nature n’a pas de fonc/on objec/f, pas de comportement stratégique. Si on présente le jeu par un arbre de Kuhn, alors Nature donne le coup ini/al en aDribuant un type aux joueurs; en règle générale, il est supposé que chacun connaît son type, mais pas celui des autres, il y a donc asymétrie d’informa/on, et avant de prendre sa décision, tout joueur doit es/mer le type des autres, en faisant appel au calcul des probabilités. Celles ci peuvent être objec/ves et relever du domaine de la connaissance commune ou bien être subjec/ves, chacun procédant à ses propres es/ma/ons sur le type des autres. 1. Equilibre bayésien et croyances Après avoir pris connaissance de son type, chaque joueur détermine la stratégie qui maximise son espérance de gain, compte tenu des types que peuvent prendre les autres joueurs, et des probabilités de leur réalisa/on. Tout le monde ayant annoncé son choix, le jeu est terminé. A quelle condi/on y a t’il équilibre ? Si chaque joueur constatant le choix des autres, ne regreDe pas le sien, il y a équilibre de Nash. Toutefois, il ne faut pas oublier les an/cipa/ons des joueurs, ces dernières interviennent de façon essen/elle dans l’établissement des stratégies op/males. Pour qu’il y ait équilibre, il faut que les an/cipa/ons soient vérifiées. Or, ces dernières portent non seulement sur la probabilité de réalisa/on des types pour chaque joueur mais aussi sur la façon dont les uns et les autres agissent en fonc/on de leur type. Autrement dit, dans les calculs des individus interviennent leurs croyances sur le comportement des autres. Généralement, on suppose que les joueurs u/lisent, pour vérifier si leurs an/cipa/ons ont été correctes, la règle de Bayes, c’est pourquoi l’équilibre correspondant est appelé équilibre bayésien. La règle de Bayes donne un moyen de passer de la probabilité a priori aDribuée à la réalisa/on d’un événement à sa probabilité a postériori, après avoir observé s’il s’est effec/vement réalisé, ou pas. Pour qu’il y ait équilibre bayésien, il faut que chaque joueur choisisse sa stratégie condi/onnelle pour chacun de ses types, de façon à maximiser son espérance d’u/lité condi/onnelle, en considérant les stratégies condi/onnelles des autres joueurs comme données. Si on appelle stratégies privées, les stratégies d’un type (connu simplement par le joueur dont il est la réalisa/on), alors un équilibre bayésien d’un jeu est un ensemble de stratégies (une pour chaque type de joueur) tel que la stratégie privée de chaque type de chaque joueur est la meilleure réponse par ce type compte tenu des stratégies retenues par les autres joueurs. Les jeux à informa/on incomplète peuvent prendre plusieurs formes, en économie, on fait généralement référence aux ventes aux enchères et au duopole de Cournot. à Un modèle d’enchères Soit deux individus, A et B, propriétaires d’un maison, à laquelle tous les deux aDribuent la valeur 100. Les deux individus passent l’accord suivant : chacun propose un prix de rachat du bien; celui qui fait l’offre la plus élevée l’ob/ent en totalité, contre versement de la somme proposée. Les types des deux joueurs sont donnés par leurs évalua/ons respec/ves du bien va et vb, chacun ne connaissant que la sienne. On fait l’hypothèse que va et vb peuvent prendre de façon équiprobable, n’importe quelle valeur entre 0 et 100, et que ce fait est connaissance commune. On note xva l’offre de A, avec x compris entre 0 et 1, et yvb l’offre de B (0 ≤ y ≤1) Calculer l’espérance de gain de A et de B à Le modèle de Cournot Soit deux entreprises, A et B, qui sont les seules à produire un seul bien, dont on suppose que le coût unitaire est constant (soit c). Les deux entreprises font face, ensemble, à une demande d(p), où p est le prix du bien qu’elles produisent. Soit d(p)= d – p. où d est une constante posi/ve. Une des hypothèses essen/elles du modèle est que les offres et les demandes sont centralisées, et qu’à chaque couple d’offres (qa, qb) où qa est l’offre de A et qb l’offre de B correspond à un prix d’équilibre p (qa, qb) connu par A et par B. Par conséquent, p(qa, qb) est tel que : qa + qb = d – p (qa, qb) D’où p(qa,qb) = d -­‐ qa – qb Le modèle de Cournot postule que l’ensemble des stratégies des joueurs est formé par les quan/tés offertes et que chaque entreprise suppose l’offre de l’autre est une donnée, indépendante de sa propre offre, et que pour des offres qa et qb quelconques, c’est le prix p(qa, qb) qui prévaut. Quelle est l’offre de B ? Le profit Π (qa, qb) = qb (d – qa – qb) – c qb = qb (k – qa – qb) avec k = d – c Le maximum est aDeint pour la valeur de qb annulant sa dérivée, valeur qui dépend de qa, considérée par A comme une donnée indépendante de son propre choix, et que l’on peut noter qb (qa). Comme la dérivée de πb (qa, qb) par rapport à qb est : -­‐ 2 qb + k – qa, il s’ensuit que : L’offre qb (qa) de B pour qa donné est : k −
q
a (1) q
(q
)
=
b
a
2
La fonc/on qb (.) est appelée la fonc/on de réac/on de B. On calcule de la même façon, la fonc/on de réac/on A (qa (qb)) = (k – qb) / 2 puisque les deux entreprises ont la même fonc/on de coût. L’équilibre de Cournot c c est tel que : a
b
c
c
c
c
a
a
b
b
(q , q )
qa (qb (q ))= q et qb (qa (q ))= q
C’est un équilibre de Nash, aucune des deux entreprises n’aurait pu augmenter son profit en changeant unilatéralement son offre. Considérons maintenant que B peut avoir un coût faible (c1) avec une probabilité p, ou un coût unitaire élevé, c2, avec une probabilité 1 – p. B peut être du type B1, à coûts faibles, ou du type B2 à coûts élevés. Pour une offre qa de A, l’offre de type Bi, i = 1, 2, est : k − qa
qbi (qa) = i
i = 1, 2
(2) 2
L’entreprise A cherche à déterminer l’offre qui va maximiser son profit, ou plutôt son espérance de profit, puisqu’elle sait seulement que le coût unitaire de B est soit c1, soit c2. Comme c1 a une probabilité p, c2 une probabilité 1 – p, 1
2
l’espérance de profit de A est, pour des produc/ons b
b
1
2
q et q de B :
pqa (k −qa −qb )+(1− p)qa (k −qa−qb )
En annulant la dérivée par rapport à qa, on ob/ent l’offre de A : k − (pq1 + (1− p)q 2 )
qa (q1b, qb2 ) =
b
b
(3) 2
Qui dépend des quan/tés offertes par les types de B. i
i
Ainsi, les offres q
b de B dépendent de qa et l’offre de A des q
b
i
Par conséquent, l’équilibre correspond aux valeurs de qa et de q
b qui rendent compa/bles ces offres. i
Si on reporte les valeurs de q
b i = 1, 2, dans (3) on ob/ent l’offre d’équilibre de A : 1
2
Puis en remplaçant qa par ceDe valeur dans (2), on ob/ent les offres d’équilibre de B, selon son type : 1
2
2
1
(2k − (pk + (1− p)k )) / 3
((3+ p)k + (1− p)k − 2k) / 6
((4 − p)k + pk − 2k) / 6
Quelques commentaires : Cet équilibre bayésien repose sur des croyances et une informa/on commune. Ainsi -­‐ Les probabilités p et (1-­‐p) des deux types de B peuvent être une donnée objec/ve ou résulter d’apprécia/ons subjec/ves de A et B; en réalité, ce qui est important, c’est que toutes deux aDribuent à p la même valeur, celle qui intervient dans les offres d’équilibre. Dans le subjec/f, de telles offres dépendent des croyances des joueurs concernant ceDe valeur. -­‐ Bien que B connaisse la valeur prise par ki (k1 par exemple), l’équilibre nécessite que soit précisé son offre même pour le type qui ne s’est pas réalisé (k2) car ceDe offre intervient dans le calcul par A de son espérance de profit. -­‐ Les croyances sur lesquelles se fonde l’équilibre obtenu portent aussi sur la forme des conjectures faites par chaque joueur concernant le comportement de l’autre. Ainsi, si au lieu de supposer que A adopte un comportement à la Cournot, on postule qu’elle intègre dans son espérance de profit les fonc/ons d’offre de B et si ceDe dernière garde des conjectures à la Cournot, on ob/ent un autre équilibre, dans lequel A joue le rôle de meneur et B celui de suiveur, on parle d’équilibre de Stackelberg. 2. Les jeux de signalisa/on Les jeux à informa/on incomplète sont souvent des jeux de signalisa/on du type : Nature choisit le type de joueur, A, qui prend alors sa décision, en connaissance de cause, le choix de A apparaît alors à un autre joueur, B, comme un signal à par/r duquel il cherche à déduire le type pris par A. L’aléa ne concerne qu’un joueur, la modélisa/on suppose explicitement un ordre des coups. p s1 A Nature s2 1-­‐p s1 A s2 B B r1 r2 r1 r2 r1 r2 r1 r2 Nature choisit avec les probabilités p et (1-­‐p), les types de A, qui connaît ce choix et qui re/ent l’une de ses deux stratégies (s1 ou s2) tout en sachant que B va prendre sa décision (r1 ou r2) en tenant compte du signal qui lui a été envoyé. Soit le cas du monopole et du nouvel entrant, où ce dernier soit décider s’il entre ou n’entre pas (il joue d’abord), le monopole ayant ensuite à choisir entre accepter ou ne pas accepter le nouveau venu. Ici l’incomplétude provient de ce que le monopole ignore si le nouveau venu a des coûts de produc/on faibles ou élevés. Il suppose qu’il est de l’un ou de l’autre type, et aDribue une probabilité à chacune de ces deux éventualités. Nature Coûts faibles Entre NV N’entre pas Coûts élevés Accepte (0,15) entre NV N’entre pas (0,15) (5,4) N’accepte (-­‐1, -­‐ 4) M pas Accepte (2,2) N’accepte pas (-­‐2, 12) Pour déterminer un équilibre bayésien de ce jeu, on procède d’abord à rebours, en s’intéressant au choix de M. Si NV n’entre pas, ce choix est simple : M poursuit sa produc/on comme auparavant (gain de 15). En revanche si, NV entre, alors M doit décider s’il accepte ou pas le nouveau venu en tenant compte de ce que celui-­‐ci est soit à coûts faibles, soit à coûts élevés. Dans le premier cas, NV est un candidat sérieux dont il faut s’accommoder, dans le second cas, il affecte rela/vement peu les gains. Supposons que la probabilité que NV soit à coûts faibles est égale à ½, M doit aDribuer une probabilité au type de NV après avoir constaté que celui-­‐ci a décidé d’entrer; c’est alors qu’interviennent ses croyances. Si par exemple, il aDribue la probabilité 1 au fait que NV décide d’entrer si ses coûts sont faibles, et la probabilité 0.3 d’une entrée avec des coûts élevés, alors il résulte de la règle de Bayes que la probabilité que les coûts de NV soient faibles, lorsque NV entre, est : Prob (coûts faibles / NV entre ) = (1/2 . 1) / (1/2 . 1 + 1/2 . 0.3) = 0.77 La probabilité que les coûts soient élevés, toujours si NV entre, est égale à 1 – 0.77 = 0.23 Muni de ces probabilités, M peut alors déterminer ses espérances de gain, lorsqu’il accepte ou refuse la présence du nouveau venu, celui-­‐ci ayant décidé de produire. Si M accepte : (0.77 x 4) + (0.23 x 2) = 3.54 Si M n’accepte pas : (0.77 x – 4) + (0.23 x 12) = -­‐ 0.32 Il s’ensuit que M accepte puisque celui lui rapporte un gain supérieur (que s’il refuse). L’arbre du jeu pour NV peut ainsi se réduire à : Nature Coûts faibles NV Entre N’entre pas Coûts élevés entre NV (5,4) (0,15) (2,2) N’entre pas (0,15) Son choix est clair : il entre, que les coûts soient faibles ou forts. Bien entendu, ce choix provient de ce que que « entrer » est pour lui une stratégie dominante. Dans ces condi/ons, si NV décide d’entrer et M d’accepter, il y a équilibre bayésien (parfait) parce que tout changement unilatéral de stratégies par l’un ou l’autre implique une diminu/on de son gain aDendu, mais aussi parce que les croyances sont confirmées ou du moins non infirmées. Si M croît que la probabilité d’entrer de NV lorsque ses coûts sont élevés est de 0.9 au lieu de 0.3 alors on vérifie que : NV entre, M accepte, n’est pas un équilibre car, dans ce cas, M a une espérance de gain plus grande s’il ne cède pas lorsque NV entre. En revanche, NV n’entre pas, M n’accepte pas, en est un. Les croyances de M concernant l’autude de NV lorsque celui-­‐ci est de tel ou tel type sont donc essen/elles pour la détermina/on de l’équilibre du jeu. Notons que le modèle peut postuler la façon de réagir de NV, mais rien n’interdit d’envisager le cas où NV agit en tenant compte non seulement de son choix mais aussi du fait que celui-­‐ci intervient dans la décision que va prendre M. Autrement dit, NV sait que M l’observe et doit, très ra/onnellement, intégrer ceDe informa/on avant d’agir. Mais alors, M doit à son tour, envisager une telle éventualité et en tenir compte au moment de son choix. On voit s’enclencher une série (théoriquement indéfinie) de croyances imbriquées qui n’est pas sans rappeler la no/on de connaissance commune. Toutefois, ceDe dernière traitait de croyances objec/ves alors qu’ici on traite de croyances subjec/ves. Pour s’en sor/r, il convient donc de couper ceDe chaîne de croyances imbriquées et d’imposer une limite à la ra/onalité : c’est ce que nous avons fait en supposant que NV agissait sans tenir compte de ce que M l’observe 3. Croyances, appren/ssage et ins/tu/ons Dans tout jeu, dès qu’il n’y a pas un choix qui va de soi pour tous les par/cipants, la recherche de solu/ons nécessite de prendre en compte les croyances de chacun. Cependant, la diversité des croyances a comme corollaire la mul/plicité des équilibres. à Face à ceDe indétermina/on, une issue consiste à faire un tri parmi les croyances de façon à éliminer celles qui apparaissent comme peu raisonnables. On peut ainsi introduire les issues ra/onalisables, jus/fiables, divines… à Une autre solu/on consisterait à considérer que les croyances se sont formées peu à peu, suite aux expériences vécues par les joueurs, celles qui se sont avérées erronées ayant été progressivement éliminées. On peut prendre en compte l’appren9ssage fait par les individus au fur et à mesure qu’ils interagissent. L’intégra/on de ceDe hypothèse dans les modèles pose cependant certains problèmes : -­‐ Les erreurs rela/ves aux croyances ne portent pas sur des faits objec/fs, indépendants des individus, mais sur la résultante de l’interac/on de leurs subjec/vités. -­‐ Dans la mesure où l’appren/ssage est un processus, on peut envisager de l’étudier dans le cadre d’un jeu élargi, répété ou à plusieurs coups… -­‐ Qui dit appren/ssage, dit erreur, et donc choix erroné, c’est là une situa/on hors équilibre à laquelle il est difficile de donner une forme précise, tout au moins dans le cadre de modèles du type de ceux qui sont u/lisés par la théorie des jeux. à Une façon d’aborder le problème de la forma/on des croyances et de l’appren/ssage consiste à procéder à des expériences en observant des individus placés dans des situa/ons de jeu (exemple de jeux de marchandage). Ces jeux dits jeux avec ul/matum se présentent de la manière suivante : deux individus doivent se partager un gâteau, dont la taille diminue avec le temps à un taux constant; l’un d’entre eux, A fait une offre , que l’autre, B, accepte, ou pas. Si le jeu est à un coup et si un refus de B entraîne un gain nul pour les deux joueurs, alors la solu/on est A propose 99% du gâteau pour lui et donc 1% pour B, B accepte car s’il n’acceptait pas, il n’aurait rien du tout. Autrement dit, A /re pleinement par/ de l’avantage qu’il a de faire la seule offre (il joue en premier). Si le jeu est à deux ou trois coups, alors la situa/on est complexe, mais il est possible de résoudre le jeu par récurrence à rebours. Les jeux expérimentaux se limitent souvent au cas à 1 coup, parfois 2, car au delà, on ne peut s’aDendre à ce que les individus servent de cobayes déterminent leur choix en appliquant le principe de la récurrence à rebours. Or même dans ce cas, les comportements observés infirment les prédic/ons de la théorie. Ainsi un sen/ment d’équité vient perturber la stricte applica/on du principe de ra/onalité, les individus du type B préférant ne rien obtenir du tout plutôt que de voir leur part réduite à une propor/on faible « C’est injuste ! ». A doit tenir compte de ce sen/ment au moment de faire sa proposi/on, autrement dit ses croyances quant aux mo/va/ons de B jouent un rôle décisif dans son choix. Les expériences par confronta/ons répétées peuvent être un moyen de donner une base objec/ve à ces croyances, à travers l’observa/on des réac/ons de B. Toutefois, si celui-­‐ci est ra/onnel, il a intérêt à faire croire à A qu’il refusera les offres insuffisantes pour lui, autrement dit, on tombe dans une logique de jeu de signalisa/on, répété, et les interac/ons stratégiques complexes qui s’ensuivent… Dans les jeux expérimentaux de marchandage répété, il est implicitement supposé que les individus analysent ce qui se passe, et en /rent des leçons, mais en appliquant quelques règles ou principes simples. Autrement dit, sans être des robots comme dans le dilemme du prisonnier…, les joueurs n’adoptent pas le comportement élaboré que leur prête la théorie des jeux, une limite est mise à leur ra/onalité. Celle-­‐ci ne s’avère être qu’un facteur explica/f, à côté de la culture, des normes, des tradi/ons, des conven/ons qui imprègnent profondément les individus. à Le jeu est caractérisé par des règles et implicitement par l’adhésion des joueurs à ces règles. Celles-­‐ci cons/tuent le cadre ins9tu9onnel dans lequel chacun prend sa décision. Cadre qui peut prendre des formes diverses, allant du marchandage entre deux individus à celui, plus complexe, du traitement centralisé d’un grand nombre d’informa/ons. Même dans le cas du marchandage, le facteur ins/tu/onnel est essen/el à la défini/on du jeu. Ainsi, dans la mesure où il est supposé qu’il y a échange volontaire, la solu/on consistant à ce que le plus fort impose ses choix à son coéchangiste est exclue, l’hypothèse d’échange volontaire en cache donc une autre : l’existence d’une ins/tu/on – une norme ou une conven/on – protégeant le plus faible. Ins/tu/on d’autant plus complexe si on admet qu’il puisse y avoir tromperie sur la marchandise ou tout autre comportement opportuniste. D’où viennent les ins/tu/ons ? Pourquoi les joueurs y adhérent ils ? Du point de vue de l’individualisme méthodologique (base de la théorie des jeux), la réponse découle des choix individuels ra/onnels. Or quel que soit le modèle, ces choix ne sont définis que dans un cadre précis, qui leur impose des contraintes; ils ne peuvent expliquer ce cadre. D’où un cercle vicieux : les ins/tu/ons condi/onnent les choix individuels, dont elles seraient elles mêmes le produit… C’est pourquoi toute réflexion sur les ins/tu/ons, du point de vue de la théorie des jeux, doit faire appel à des concepts tels que les normes sociales, les conven/ons, le croyances a priori ou même l’idéologie, tout cela dans une structure minimale. 
Téléchargement