Cours, printemps 2011, Martine Nida-Rümelin

publicité
1
Cours, printemps 2011, Martine Nida-Rümelin
Handout 2s ; version corrigée et complétée (24.2.2011)
(handout supplémentaire sur le dilemme des prisonniers)
La théorie de décision affirme comme thèse centrale :
Dans une situation de risque (les résultats des propres actions dépendent de circonstances
inconnues pour lesquelles la personne concernée a une probabilité subjective) il est rationnel
de choisir une action avec une valeur expectée maximale.
Constatation sur le dilemme des prisonniers :
Selon cette théorie, une personne rationnelle qui se trouve dans une situation de la structure
du dilemme des prisonniers choisit d’avouer (elle choisit la solution ‘non-coopérative’).
Présupposition : Les probabilités pour les actions de l’autre ne dépendent pas des propres
actions !
Définition de la valeur expectée :
C1, C2, ….Cn : Les circonstances pertinentes
Ces circonstances s’excluent mutuellement et une des circonstances se réalise.
A1, …Am : les actions possibles
P(Ci, Aj) = la probabilité subjective de la personne que Ci se réalise si elle choisit Aj.
Vij : La valeur subjective des résultats si la personne choisit Aj et la circonstance Ci se
réalise.
La valeur expectée E(Aj) de l’action Aj :
E(Aj) = V1j x P(C1,Aj) + V2j x P(C2,Aj) + …..+ VnJ x P(Cn,Aj)
Application de la théorie de décision au dilemme des prisonniers :
C1 : l’autre avoue
C2 : l’autre n’avoue pas
A1 : j’avoue
A2 : je n’avoue pas
V11 : la valeur des résultats si l’autre avoue et moi aussi = la valeur de 5 ans de prison = 0,5
V21 : la valeur des résultats si l’autre n’avoue pas et moi j’avoue = la valeur de la liberté = 1
V12 : la valeur des résultats si l’autre avoue et moi, je n’avoue pas = la valeur de 10 ans de
prison = 0
V22 : la valeur des résultats si l’autre n’avoue pas et moi non plus = la valeur de 2 ans de
prison = 0,8
P(C1,A1) = P(C1,A2) = p
P(C2,A2) = P(C2,A2) = 1-p
2
Structure du dilemme des prisonniers avec ordre de préférence :
C1
A1
(3,3)
A2
(4,1)
C2
(1,4)
(2,2)
Structure du dilemme des prisonniers avec valeurs subjectifs :
C1
A1
(0,2 ;0,2)
A2
(0 ;1)
C2
(1 ;0)
(0,8 ;0,8)
E(A1) = V11 x p + V21 x (1-p) = 0,5 p + 1 (1-p)
E(A2) = V12 x p + V22 x (1-p) = 0 p + 0,8 (1-p)
Résultat : Pour tous les valeurs de p (entre 0 et 1) E(A1) > E(A2).
Observation générale : Pour les cas ou la probabilité des circonstances ne dépend pas des
propres actions, le principe de maximaliser la valeur expectée (la thèse centrale de la théorie
de décision) implique le principe de dominance.
Mais le principe de dominance peut être en conflit avec le principe de la maximalisation de la
valeur expectée si les probabilités dépendent des propres actions.
Illustration par un exemple :
C1
C2
A1
10
4
A2
8
3
P(C1,A1) = 0,2
P(C2,A1) = 0,8
P(C1,A2) = 0,9
P(C2,A2) = 0,1
Selon le principe de dominance (dans une version simple qui ne mentionne pas les
probabilités) la personne rationnelle choisirait A1.
Mais :
Selon le principe de la théorie de décision une personne rationnelle choisit A2.
3
Preuve :
E(A1) = 10 x 0,2 + 4 x 0,8 = 2 + 3,2 = 5,2.
E (A2) = 8 x 0,9 + 3 x 0,1 = 7,2 + 0,3 = 7,4.
Donc : E(A2) > E(A1).
Question : Quelle réponse est la bonne ?
Réponse : Il est rationnel de choisir A2 et non pas A1.
Thèse : Un teste intuitif est nécessaire pour justifier cette réponse.
Résultat pour le problème des prisonniers :
Si on présuppose que les probabilités pour les actions de l’autre ne dépendent pas du propre
choix, alors, selon la théorie de décision les deux personnes doivent avouer.
5 Réponses au problème théorétique du dilemme des prisonniers
(1) La réponse de la rationalité collective
Thèse 1 : Dans chaque situation de la structure du dilemme des prisonniers, il est rationnel de
choisir l’option coopérative.
Contre-argument :
Ce ne peut pas être juste en général, car ce comportement n’est pas rationnel si je sais que
l’autre ne va pas coopérer.
(2) La réponse de la rationalité individuelle
Thèse 2 : Dans chaque situation de la structure du dilemme des prisonniers, il est rationnel de
choisir l’option non-coopérative.
Contre-argument :
Cela implique que les personnes qui raisonnent de manière coopérative (je joue le rôle qui est
le mien dans la solution qui est collectivement rationnelle) agissent de manière irrationnelle.
Mais ceci semble inacceptable.
(3) La réponse de solidarité
Thèse 3 : Les personnes impliquées dans un dilemme des prisonniers devraient prendre en
considération les intérêts de l’autre personne. En faisant ceci elles arrivent à la solution
coopérative.
Commentaire : Cette thèse est tout à fait juste. Si les personnes concernées prennent les
intérêts de l’autre en considération de la même manière comme les propres intérêts, alors elles
sortent du dilemme, - tout simplement parce que les valeurs qu’elles attribuent aux
conséquences sont maintenant les sommes des valeurs de chacune des deux personnes. Le
4
schéma suivant représente les valeurs attribuées (et on voit que ce n’est plus un dilemme des
prisonniers):
C1
A1
(0,4 ;0,4)
A2
(1 ;1)
C2
(1;1)
(1,6 ;1,6)
La personne qui choisit entre les colonnes choisira A2 et la personne qui choisit entre les
lignes choisira C2.
Pourtant, le problème théorétique n’est pas résolu par cette observation. La question
théorétique était de savoir comment une personne rationnelle devrait se comporter quand elle
se trouve dans une situation du dilemme des prisonniers. Ce que nous pouvons constater c’est
uniquement que deux personnes qui prennent chacune les valeurs de l’autre en considération
comme les propres valeurs ne peuvent jamais se trouver dans une situation du dilemme des
prisonniers. (Une telle situation ne peut pas se produire quand les deux personnes attribuent la
même valeur à chaque résultat).
(4) La réponse de symétrie
Différentes versions de l’idée suivante se trouvent dans la littérature :
Les deux personnes sont rationnelles et elles se trouvent exactement dans la même situation. Il
est donc exclu que les deux personnes se comportent de manière différente. Donc, soit
(A1,C1) soit (A2,C2) se réalisera. Ce raisonnement est accessible aussi aux personnes
concernées. Elles peuvent donc toutes les deux exclure que une des solutions asymétrique se
produira. Chacune des deux personne préfère (A2,C2). La première va donc choisir A2 et la
deuxième choisira C2.
Remarque : Il me semble que cette idée de base est erronée et ne peut pas être sauvée. Elle
semble basée sur un argument du type suivant (décrit du point de vu de la personne qui choisit
entre les colonnes) :
(1) Nous sommes tous les deux rationnelles et nous allons donc choisir la même action.
Donc :
(2) Soit (A1,C1) se produira, soit (A2, C2) se produira.
Donc (conséquence de (2)) :
(3) Si je choisi A1, alors l’autre choisira C1 et si je choisi A2, alors l’autre choisira C2.
(4) Je préfère (A2,C2) à (A1,C1).
Donc (de (3) et (4)) :
(5) Je dois choisir A2.
Critique : (3) et (4) justifie (5) uniquement si (3) exprime une relation causale. Mais ce n’est
pas le cas. Celui qui choisit entre les colonnes n’a aucune influence sur ce que fait l’autre. Il
ne peut pas être rationnel de choisir A2 dans la conviction que l’autre va aussi choisir l’action
correspondante en basant cet espoir sur son propre choix. (A discuter !)
5
(5) Une solution mixte
La solution mixte inclut les thèses suivantes :
(T1) Il est rationnel de raisonner ainsi : Je me rends compte que la combinaison d’actions
(A2, A2) est collectivement rationnelle. Je vais donc remplir mon rôle dans le bute de réaliser
cette combinaison collectivement rationnel et je vais pour cette raison choisir A2 dans l’espoir
que l’autre personne va raisonner de la même manière.
(T2) Dans certains cas il n’est pas rationnel de suivre le raisonnement décrit dans (T1),
notamment si j’ai une bonne raison pour croire que l’autre ne va pas raisonner ainsi.
Problèmes de cette solution :
- Comment peut-on distinguer, de manière générale, les cas ou il est rationnel de suivre ce
raisonnement et les cas ou ce n’est pas rationnel ?
- Quel est l’erreur de celui qui argumente pour l’action A1 suivant le principe de
dominance dans les cas auxquels s’applique (T1) ?
A ne pas oublier : une solution d’un paradoxe doit inclure une localisation de l’erreur de
l’argument qui mène au résultat contraire.
Téléchargement
Explore flashcards