Des sociétés simulées

publicité
Des sociétés simulées
Economie cognitive et sciences
sociales cognitives
Plusieurs apprentissages.
Cognitive economics
" L’économie cognitive " (Walliser [1999]) peut être définie à deux
niveaux, individuel et collectif.
Au niveau individuel, il s’agit d’étudier les croyances,
raisonnements et processus de décision qui gouvernent les choix
économiques (y compris dans leurs dimension techniques et
organisationnelles). C’est le "programme cognitiviste" qui met
l'accent sur les processus d’apprentissage, présidant aux décisions
et comportements des agents.
Au niveau collectif, il s’agit d’étudier l’effet des interactions
sociales sur la formation des grandeurs économiques agrégées et
sur l’émergence et la régulation des formes organisationnelles,
institutionnelles et techniques qui résultent, de manière délibérée
ou involontaire des actions individuelles. C’est le "programme
évolutionniste", qui met l'accent sur les processus d'adaptation des
agents à leur environnement, en particulier au sein de réseaux ou
de structures d'interaction spécifiques.
En ce qui concerne les apprentissages individuels, Bourgine [1993]
distingue plusieurs niveaux de rationalité des agents selon leur relation à
leur environnement et leur capacité à modéliser le réel.
•Les agents réactifs réagissent de manière fixe à l’information
provenant de leur environnement, sur le mode stimulus-réponse
(réponse sensori-motrice ou " pavlovienne " héritée génétiquement) :
il y a absence d’apprentissage.
•Les agents hédoniques apprennent (par auto-renforcement) à
modifier leur comportement afin d’augmenter leur " plaisir ". Ils sont
capables d’anticipations " hédoniques " et d’adaptation lente à partir
de leur expérience historique, ce qui suppose un niveau de
conscience plus élevé que l’agent réactif (consciousness).
•Les agents éductifs sont dotés d’une capacité de modélisation de
leur environnement, ce qui suppose la capacité de former des
représentations symboliques, de simuler les conséquences d’une
action sur leur environnement, et donc un niveau de conscience plus
élevé (awareness).
Selon une perspective plus proche des catégories de l’économiste,
Walliser [1997] propose une typologie des processus qui permettent de
converger vers un équilibre en théorie des jeux. Il en distingue quatre,
soit par ordre décroissant des capacités cognitives attribuées aux agents :
•Dans un processus EDUCTIF, chaque joueur dispose d’assez
d’information pour simuler parfaitement le comportement des autres
joueurs, ce qui conduit immédiatement à l’équilibre : il n’y a pas
d’apprentissage.
•Dans un apprentissage EPISTEMIQUE, chaque joueur révise ses
croyances relatives aux stratégies des autres adversaires à partir des
informations qu’il a pu observer (Fudenberg, Levine [1998]).
•Dans un apprentissage COMPORTEMENTAL, chaque joueur
modifie sa stratégie compte tenu des résultats observés de ses propres
actions dans le passé (agent hédonique).
•Dans un apprentissage ÉVOLUTIONNAIRE, chaque joueur joue
une stratégie fixe qui se reproduit proportionnellement au gain
obtenu lors de confrontations aléatoires (agent réactif).
Complexity theory and social science (Simon,
Lemoigne)
• BOUNDED rationality (non infinite ability to calculate and non
perfect information)
– Substantive logic: a perfect calculating person, norm to define
«truth» of a demonstration (as used by neoclassic economists)
– Procedural logic: refers to the thought process – search
strategies, cognition which is difficult to make explicit and cannot
be evaluated from outside. Satisfycing (« adéquat »)
• Inventive reasoning defined with two axes:
– methodologic with the elaboration of heuristic reasoning strategies
/ procedures to find logistic path, algorithms for local deduction
– Substantive logic to decide if the path is reasonable, a posteriori –
aim / goal « tatonement ».
• Market as one institution (parallel with organisation)
– Price as the sign of a usable distirbuted knowledge (see von
Hayek)
APPRENTISSAGES
Reinforcement learning
• Melioration (basé sur moyenne des gains) –
moins économe en calcul.
• Bush-Mosteller et Roth-Erev (basés sur le gain
présent et la tendance précédente > update de
la fréquence)
– différence sur vitesse de convergence non constante
ou constante.
– Bush-Mosteller peut utiliser des gains négatifs (plus
proche de la psychologie)
Bush-Mosteller
• p(a,t): proba d’action a à temps t
• Si Π >0
– p(a,t+1) = p (a,t) – ν (Π). p(a,t) si a pas utilisé
– p(a,t+1) = p (a,t) + ν (Π). (1-p(a,t)) si a utilisé
• Si Π < 0
– p(a,t+1) = p (a,t) + ν (-Π). (p(a,t).p(a(t),t)) / (1- p(a(t),t))
– p(a,t+1) = p (a,t) - ν (-Π). (p(a,t)) si a utilisé
Erev-Roth
• N actions ou stratégies
• Qij (t) tendance à jouer j au temps t pour i
• Au début qij (1) = qik(1) = S(1) pour tout j et k et i
– Plus S est élevé plus l’apprentissage est lent
• Pij(t) = qij (t) / Σ qik(t)
• Ou Pij(t) = exp(qij (t)) / Σ exp(qik(t))
• Si i joue k et reçoit x, où R(x) = x-xmin
– Qij (t+1) = (1 – Φ)qij(t)+ Ek(j,R(x))
– Avec Ek(j,R(x)) = (1-ε) R(x) si j=k
– Et (ε/ (N-1)). R(x) sinon
• S, Φ réduction expé, ε experimentation
Routine-based (Melioration)
•
•
•
•
•
•
•
Dans le cadre de 2 activités a et a’
dp(a,t)/ dt = ν(umoyt (a) – umoyt (a’)
Umoy (a) est le gain moyen par action a jusqu’à t
Et v est monotone avec v(0) = 0
dp(a,t)/ dt = p (a,t). (1-(p(a,t)).v(moy(a) – moy ( a’)))
On peut étendre à plus de choix.
On peut aussi mettre des poids à la moyenne.
Imitation
• Deux processus en parallèle : moyenne
exponentielle des gains des actions de
tous les agents
• Telle que la somme des poids est 1
Satisfycing (Simon, 57)
• Pas une recherche du meilleur, mais du « assez
bon » défini sur la base de niveaux d’aspiration
qu’il suffit d’atteindre
• z(t+1) = λ.z(t) + (1- λ).Π(t)
• Évolue dans le temps en fonction des gains.
• On peut aussi imiter les autres
• zi(t+1) = λ1.zi (t) + λ2.(Πi(t)-zi (t)) + λ3. Πsoc(t)
• Avec λ1+ λ2+ λ3 = 1
• Puis le choix abandonné est remplacé grâce à
un mécanisme de routine, ou random ou autre
Belief learning
• Fictitious play : et si j’avais joué…
• Classifier systems
• Stochastic belief learning
Fictitious play
• Mémorise les actions des autres dans le passé et
suppose la même fréquence.
• Conclut à un profil d’actions pour tous les autres avec
probabilité attendue
– E(p(ai-,t)) = 1/t Σδ(ai-(τ) = ai-)
– Où δ(ai-(τ) = ai-) vaut 1 si (ai-(τ) = ai- et 0 sinon
• Comme on connaît aussi tous les gains, on peut calculer
les gains espérés en fonction de la probabilité des profils
d’actions
– E(Πi(ai,t)) = Σ Πi(ai,ai-).E(p(ai-,t))
• Comme souvent on peut faire moyenne exponentielle
Classifier system
•
•
•
•
•
•
•
•
Classification comme compétence humaine
Ensemble de règles condition-action
Règle R: (c1, c2,.. cN) -> (a1, a2,…, aq)
Face à situation (c1, cN) des règles sont
sélectionnées, et choisies selon leur force et leur
spécificité.
B(R)= g1.(g2+ g3.specificity(R)).Strength (R(t))
Et la force évolue
Strength (R(t+1)) = Strength (R(t))+Π(t)-B(R)
Défaut : sur la base d’un jeu de règles préétabli.
Stocastic belief learning
USAGE DES MODELES
More generally: models in social sciences
Humans in society:
- culture, normes (macro)
articulation de phénomènes macro– suicide – birth rate - inflation
...
identification de structures – rôles et relations, pouvoir
- communication, échanges (interactionnisme)
influence des réseaux – diffusion de connaissance,
caractérisation des interactions
- organisation (gestion)
infuence de la structure relationnelle sur la production
- preferences / utility / learning (individualism –
utilitarism - micro)
equilibrium ; looking for ideal situation for allocation,...
game theory - analysis of power relation / cooperation
sciences sociales – Deux méthodologies
1. Les objets sociaux sont indépendants des humains et sont en lien
entre eux ; ils doivent être étudiés dans leur dynamiques propres ;
structuralisme, marxisme, fonctionnalisme ;
induction basée sur l’observation
identification de régularités signifiantes
2. Agréger les actions individuelles pour comprendre le social ;
articuler les mécanismes infividuels et les articuler vers un résultat
global ; hypothèses sur les processus de décision et les relations
entre individus ; micro-économie classique;
déduction basée sur des théoremes.
Savoir – but – mécanisme de calcul > résolution de problèmes
Construction de modèles et simulation : une démarche
intermédiaire
Tester les hypothèses sur les ordres dus à la répétition des interactions
entre hommes sur une ressource
Virtual laboratory:
–
–
–
Faire des hypothèses sur la dynamique de la ressource, le
fonctionnement individuel des entités, leurs relations, les lois de
l'univers (théorie qui devrait permettre la déduction) > élaboration
du modèle multi-agents et implémentation du système
Faire des simulations : détermination d'un état initial, laisser les
entités agir selon les mécanismes prescrits, sans intervention de
l'utilisateur
Observer les résultats : indicateurs, calculs de corrélation et
interprétation, suivi d'un agent particulier (observation locale et
globale) > interprétation des paramètres et de l'influence de la
répétition des interactions – un travail toujours effectué par
comparaison entre simulation (« sensibilité aux paramètres »)
" the distinguishing features of an algorithtm is that all vagueness
must be eliminated ; the rules must describe operations that are
so simple they can be executed by a machine"
Contexte : questions générales et
précises
Comment les individus utilisent-ils les institutions
dans lesquelles ils évoluent ?
Les institutions comme : règles, rôles, droits, circulation
d’information
Approche du comportement comme le signe d’un “traitement
d’information”, interprétation, habitudes et négociation
Comment peut-on prouver les modèles cognitifs que l’on
suppose aux humains?
Une institution fondamentale en économie: le
marché
Téléchargement