Les modèles à règle de décision aléatoire, la face trop cachée des modèles de choix discrets Reynald-Alexandre LAURENT Ce dossier a été réalisé avec LATEX lors de l'année 2003-2004 et encadré par Michèle Cohen, professeur à l'Université Paris I Panthéon Sorbonne1 . Résumé Ce travail vise à présenter les principaux modèles de choix discrets et, en particulier, une catégorie relativement peu utilisée par les économistes : les modèles à règle de décision aléatoire. Après les avoir analysés en détail, nous examinerons des avancées récentes dont bénécient ces modèles, à la fois au niveau théorique et empirique. Nous proposerons également une formalisation visant à généraliser le modèle "Evaluation by aspects" de Tversky (1972) en ayant recours à des familles de caractéristiques. Enn, nous suggérerons quelques pistes d'améliorations futures. 1 "L'université de Paris I Panthéon-Sorbonne n'entend donner aucune approbation, ni improbation aux opinions émises dans ce dossier ; elles doivent être considérées comme propres à leur auteur" 1 Table des matières I Présentation générale des modèles de choix discrets 5 1 Qu'est ce qu'un modèle de choix discrets ? 5 2 L'origine de l'existence des modèles de choix discrets 6 2.1 Fluctuation des choix et comportement intrinsèquement déterministe 2.1.1 Un approfondissement de l'approche déterministe . . . . . . . 2.1.2 L'adoption d'une approche probabiliste . . . . . . . . . . . . . 2.2 Le comportement intrinsèquement probabiliste, une source possible changements de choix. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Les enjeux de l'interprétation des modèles de choix discrets . . . . . . . . . 7 . . . 7 . . . 8 des . . . 9 . . . 10 3 Le modèle fondateur de Luce à règle de décision aléatoire : présentation, extension et lien avec les modèles à utilité aléatoire 12 3.1 Présentation du modèle de Luce . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Principales conséquences et limites du modèle de Luce . . . . . . . . . . . 3.3 L'équivalence entre le "choice axiom" et les RUM classiques . . . . . . . . 3.3.1 Présentation des RUM . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Le rôle du paramètre µ . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Equivalence entre le modèle de Luce et le logit et forme évoluée du logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 13 15 15 16 18 II Le modèle de Tversky, fondateur des modèles procéduraux à règle de décision aléatoire 19 1 Présentation classique du modèle de Tversky 1.1 Concepts et procédure du modèle de Tversky . . . . . . . . 1.2 Version standard du modèle de Tversky . . . . . . . . . . . 1.3 Une généralisation des modèles de Luce et Restle . . . . . 1.3.1 La généralisation du modèle de Luce . . . . . . . . 1.3.2 La généralisation du modèle de Restle . . . . . . . 1.4 La résolution des paradoxes du modèle de Luce . . . . . . 1.4.1 La résolution du paradoxe bus bleu-bus rouge . . . 1.4.2 La résolution du paradoxe du voyage à Paris-Rome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 La version abstraite du modèle de Tversky et ses conséquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 19 21 23 23 24 24 24 26 27 2.1 Les diérentes formulations du modèle de Tversky . . . . . . . . . . . . . . 27 2 2.2 Les conséquences testables issues de la version abstraite du modèle . . . . . 30 3 Une méthode d'estimation des paramètres du modèle de Tversky 31 4 Les limites du modèle de Tversky 35 3.1 La méthode des diérences de probabilité . . . . . . . . . . . . . . . . . . . 31 3.2 Un exemple d'utilisation des diérences de probabilité . . . . . . . . . . . . 32 3.3 Une application du modèle de Tversky à la politique de la santé . . . . . . 34 III Extensions du modèle de Tversky et perspectives d'amélioration des modèles à règle de décision aléatoire. 38 1 Le modèle de Billot et Thisse : une prise en compte du contexte 1.1 Les idées fondamentales du modèle . . . . . . . . . . . . . . . . . 1.2 Formulation du modèle de Billot et Thisse et mise en perspective 1.2.1 Utilité et capacité de Choquet . . . . . . . . . . . . . . . . 1.2.2 Le concept d'utilité contextuelle . . . . . . . . . . . . . . . 1.2.3 Capacités et lien avec d'autres modèles . . . . . . . . . . . 1.3 Le théorème de conversion des capacités aux probabilités . . . . . 1.3.1 La méthode de conversion . . . . . . . . . . . . . . . . . . 1.3.2 Comparaison entre probabilités et capacités . . . . . . . . 1.3.3 Probabilités converties et lien avec les autres modèles . . . 1.4 La résolution du paradoxe bus bleu-bus rouge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 39 39 41 42 43 43 44 45 46 2 Quelques propositions pour améliorer la modélisation des caractéristiques 46 2.1 Idées principales du modèle . . . . . . . . . . . . . . . . . 2.2 Dénitions et formulation de l'EBA en présence de familles 2.2.1 Familles de caractéristiques et sélection en leur sein 2.2.2 Caractéristiques éligibles et famille discriminante . 2.2.3 Elimination parmi les meilleurs aspects . . . . . . . 2.2.4 Elimination par familles d'aspects . . . . . . . . . . 2.2.5 La dénition d'une structure de familles . . . . . . 2.3 Une mise en perspective du modèle avec familles d'aspects 2.3.1 Le lien avec le modèle de Tversky . . . . . . . . . . 2.3.2 Une généralisation du modèle de Luce . . . . . . . 2.4 Le traitement des paradoxes de l'IIA . . . . . . . . . . . . 2.4.1 La résolution du paradoxe de Debreu . . . . . . . . 2.4.2 La résolution du paradoxe de Savage . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 47 47 49 50 51 52 54 54 54 55 55 58 2.5 Perspectives et limites de cette formalisation . . . . . . . . . . . . . . . . . 59 2.5.1 Les limites du modèle avec familles d'aspects . . . . . . . . . . . . . 59 2.5.2 Représentation ensembliste ou matricielle des caractéristiques : quelques perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Conclusion 63 Références 64 4 Première partie Présentation générale des modèles de choix discrets 1 Qu'est ce qu'un modèle de choix discrets ? Les modèles de choix discret décrivent le comportement de choix d'un individu face à un ensemble d'actions mutuellement exclusives. Les économistes supposent généralement que les individus choisissent toujours l'alternative qu'ils préfèrent de façon déterministe. Or, il semble que les choix des individus peuvent uctuer selon le contexte, c'est pourquoi les modèles de choix discrets adoptent une démarche probabiliste plutôt que déterministe. On suppose donc que les choix des individus sont soumis à un certain aléa ce qui conduit à calculer des probabilités de choix pour chaque alternative et à confronter ces probabilités aux fréquences observées pour des individus face à des choix répétés. Après avoir énoncé les principales idées, on peut maintenant préciser chacun des points dans ce paragraphe et le suivant. Ces modèles imposent que l'individu choisisse parmi un ensemble ni d'actions mutuellement exclusives, ce qui peut paraître une contrainte forte dans le domaine de la consommation. Ainsi, la théorie standard n'intègre pas cette contrainte puisqu'elle suppose que l'individu consomme un panier de biens donné, pouvant comporter plusieurs variétés de biens similaires (cela reviendrait à choisir 2 ou plus CD de variétés parmi l'ensemble de CDs proposés au choix). Cependant, cette restriction semble acceptable sur de nombreux marchés (par exemple, à un instant t donné, il est rare de consommer plus d'une automobile...). De plus, pour tous ces marchés où la contrainte semble vériée, la non-prise en compte de cette contrainte peut biaiser les résultats de la théorie standard. Par leur démarche probabiliste, ces modèles s'écartent donc de la théorie néoclassique et en particulier du postulat de rationalité instrumentale parfaite qui suppose : - que chaque individu dispose d'une relation de préférence complète et transitive lui permettant de classer les actions. - que l'individu choisit toujours l'action qu'il préfère. 5 Cette démarche probabiliste découle de l'existence d'un aléa : or depuis Block et Marschak (1960), on distingue traditionnellement entre 2 familles de modèles de choix discrets selon la nature de l'aléa qui aecte le choix. Dans la première, les règles de décisions sont aléatoires et l'utilité déterministe (ex : modèles de Luce, Tversky...) alors que dans la seconde, les règles de décision sont déterministes et l'utilité aléatoire (ex : modèles de Thurstone, McFadden). Ces diérents modèles seront présentés plus loin et par la suite, on qualiera ces familles respectivement de RDRM (random decision rule model) et RUM (random utility model). Nous proposons d'eectuer une classication supplémentaire au sein des RDRM qui sera utile par la suite. Pour cela, nous nous inspirons de la distinction proposée par Simon (1976) entre la rationalité substantielle et la rationalité procédurale. Simon écrit : En économie, la rationalité est vue en terme de choix qu'elle produit ; dans les autres sciences sociales, elle est vue en fonction des process qu'elle met en oeuvre. La rationalité de l'économie est une rationalité substantielle, pendant que la rationalité de la psychologie est une rationalité procédurale. (1997, p 3682 ). Ainsi, Simon reproche aux économistes de ne se préoccuper que du résultat des situations de choix, et non de la manière dont les individus parviennent à cette décision. Or cette distinction pourrait s'appliquer aux RDRM. En eet, certains modèles partent d'un "axiome" à partir duquel ils déduisent une formule de calcul de probabilité (le "résultat", la "substance" de la décision), sans préciser de procédure de décision particulière : ces modèles peuvent être qualiés de "substantiels" (ex : modèle de Luce). D'autres modèles spécient d'abord une procédure de décision, puis en déduisent une méthode de calcul des probabilités et de révélation des paramètres du modèle : ces modèles peuvent être qualiés de "procéduraux" (ex : modèle de Tversky). Les modèles substantiels et procéduraux ne sont pas forcément indépendants même s'ils se situent à des niveaux diérents : ainsi, un ou plusieurs modèles procéduraux peuvent être associés à un modèle substantiel. En eet, il existe parfois plusieurs procédures de décision possibles pour aboutir à un même résultat. 2 L'origine de l'existence des modèles de choix discrets On constate empiriquement que face à une même situation de choix, les individus ont parfois tendance à uctuer dans l'évaluation de leurs actions et donc à ne pas choisir toujours la même alternative. Comme le remarque Tversky, quand les individus sont confrontés à un choix parmi plusieurs alternatives, ils font souvent preuve d'inconstance 2 traduction personnelle si nécessaire pour les citations de ce dossier 6 et d'incohérence. Fréquemment, les individus hésitent quant à l'alternative à sélectionner et ne font pas toujours le même choix sous des conditions apparemment identiques. (1972a, p 281). Ce constat a intrigué les économistes, puisque la théorie standard adopte une vision déterministe des choix : on suppose qu'un individu face à un ensemble d'opportunités de choix retiendra systématiquement une alternative qu'il préfère. Ce paradoxe peut s'expliquer de 2 façons : soit les choix des individus sont intrinsèquement déterministes (auquel cas il convient d'améliorer la théorie an d'expliquer leur inconstance), soit les choix des individus sont intrinsèquement probabilistes. 2.1 Fluctuation des choix et comportement intrinsèquement déterministe Si les choix des individus sont intrinsèquement déterministes, deux démarches semblent possibles an d'expliquer leur comportement : - tenter d'identier les facteurs responsables de ces changements de choix et les incorporer dans le programme de maximisation du consommateur en conservant une démarche déterministe. - reconnaître que le modélisateur est incapable d'appréhender les comportements individuels et incorporer les changements de choix dans une approche probabiliste. Il faut alors ex post tenter d'identier, parmi les interprétations possibles des probabilités, lesquelles sont les plus pertinentes. C'est la voie suivie par certains modèles de choix discret. Nous allons maintenant étudier les mérites et limites respectifs de ces deux démarches. 2.1.1 Un approfondissement de l'approche déterministe Becker et Stigler (1977) ont essayé d'identier les contextes pouvant conduire à un changement de choix et d'inclure systématiquement les variables correspondantes dans des modèles déterministes. Ils arment que les changements de choix ne proviennent pas en général de changements de préférences : - dans certains cas, les changements de choix proviendraient d'une réactivité des individus à un nouvel environnement décroissante avec leur âge. La consommation est vue comme un investissement de long terme, impliquant un apprentissage, comme dans le cas de la musique. Ainsi, selon notre interprétation les jeunes et les personnes âgées ré- agissent diéremment, même si elles ont les mêmes préférences et les mêmes motivations. Pour changer leurs comportements de manière radicale, les personnes âgées doivent soit 7 désinvestir le capital qui correspondait à leur environnement précédent, soit investir dans du capital en accord avec leur nouvel environnement. Leur incitation à le faire doit être faible parce que relativement peu d'années leur restent à vivre pour recueillir les fruits de ces investissements nouveaux et que le désinvestissement du capital humain ne peut être que lent. Les jeunes, d'un autre côté ne sont pas si encombrés par un amoncellement de capital accumulé dans un environnement ancien. Par conséquent, ils n'ont pas besoin d'avoir des préférences ou des motivations spéciques qui les rendent intrinsèquement plus souples à l'environnement de telle façon qu'ils seraient moins touchés par sa modication ; ils sont tout simplement plus stimulés pour investir dans la connaissance et dans les compétences liées au nouvel environnement. (Becker et Stigler, 1977, p 83). Ils défendent que cette explication est plus convaincante qu'un changement de goûts pour expliquer la perte d'habitudes. - dans d'autres cas, les auteurs avancent que la fonction d'utilité est mal spéciée ce qui donne une fausse illusion d'instabilité des préférences. En général, les fonctions d'utilité ne prennent pas en compte la possibilité de dépendance à un produit donné (cigarette, alcool...), le rôle de la publicité ou de la mode, ces derniers facteurs pouvant entraîner des changements de choix. An d'intégrer ces facteurs, Becker et Stigler construisent des fonctions d'utilité stables comportant par exemple un facteur de dépendance, ou un facteur correspondant à la réputation sociale dans le cas de la mode. Si l'explication en terme d'apprentissage de consommation peut paraître séduisante, elle n'explique assurément qu'une petite partie des changements de choix. Pour les autres facteurs, la démarche de "sophistication" croissante des fonctions d'utilité paraît peu prometteuse : outre les problèmes de révélation de cette utilité, De Palma et Thisse (1989) soulignent que l'approche revient à considérer un nombre très élevé d'états au point de devenir ingérable. 2.1.2 L'adoption d'une approche probabiliste La voie déterministe ayant trouvé ses limites, on peut reconnaître l'incapacité du modélisateur à appréhender tous les critères de choix des individus, dont le comportement est pourtant supposé intrinsèquement déterministe. Ainsi, le manque d'information conduit le modélisateur à utiliser des règles de choix probabilistes (par la suite on qualiera cette interprétation d'"économétrique"). Autrement dit, le modélisateur peut au mieux prédire le comportement d'un individu à une fonction de probabilité près. L'approche des choix discrets a cependant à la fois les avantages et inconvénients inverses de l'approche déterministe. En eet, puisqu'il semble dicile d'obtenir une structure formelle pertinente en "ajoutant" au modèle les facteurs contextuels un par un (démarche 8 déterministe), il est préférable d'utiliser un modèle incorporant globalement tous les facteurs (démarche probabiliste) mais il devient alors délicat de mettre en évidence les plus signicatifs alors que cette identication pourrait fournir des renseignements précieux. Cette interprétation économétrique peut être soutenue par les modèles RUM. L'utilité aléatoire d'une action se décompose en une utilité déterministe correspondant aux caractéristiques observables de l'action et un facteur aléatoire correspondant à l'incertitude subie par le modélisateur. Plus précisément Manski (1977), identie 4 sources possibles d'incertitude, classiques dans la tradition économétrique : - les caractéristiques inobservables d'une action - des variations non observables des utilités individuelles - des erreurs de mesure - la nécessité d'utiliser des variables instrumentales pour estimer l'utilité, qui n'est pas connue avec certitude. En revanche, seule une partie des modèles RDRM est compatible avec cette interprétation économétrique. Les modèles RDRM substantiels ne spécient pas de procédure de décision et l'équivalence de leur structure de probabilité avec certains modèles RUM (point qui sera développé plus loin) peut justier une telle interprétation. Par contre, les modèles RDRM procéduraux dénissent une procédure de décision, généralement caractérisée par une forme de rationalité limitée : l'origine des probabilités découle alors explicitement de la procédure de décision spéciée et ne peut donc être liée à cette interprétation économétrique. On a donc vu comment interpréter les uctuations de choix si le comportement des agents est supposé intrinsèquement déterministe. Mais une autre voie consiste à supposer que leur comportement est intrinsèquement probabiliste. 2.2 Le comportement intrinsèquement probabiliste, une source possible des changements de choix. On suppose cette fois que les probabilités observées, exprimant un aléa dans les choix, trouvent leur origine dans les états mentaux des individus. On qualiera donc cette interprétation de "cognitive". On peut noter que cette interprétation pose le même problème d'identication des facteurs contextuels signicatifs que celui abordé dans la section (2.1.2). Une façon de voir le problème consiste à décrire une action comme un ensemble ni de caractéristiques non-décomposables pour l'individu. On peut alors supposer que l'indi9 vidu oublie à l'occasion de prendre en compte certaines caractéristiques d'une action ou se trompe en évaluant l'importance d'une des caractéristiques associée à cette action. Les circonstances dans lesquelles le choix est eectué sont susceptibles de perturber la perception et la désirabilité d'une action. A noter que le comportement d'un individu peut changer en fonction des facteurs extérieurs sans pour autant que ses préférences relatives aux caractéristiques soient modiées. Comme le notent Billot et Thisse (1995, pp 922-923), diérentes explications peuvent soutenir cette interprétation cognitive : - l'état d'esprit des individus varie au cours du temps : ainsi, l'individu uctue lors du processus d'évaluation des attributs associés aux actions (interprétation de Thurstone, 1927). Par exemple, le même enseignant ne note pas de la même manière les mêmes copies d'examen selon le moment où elles lui sont soumises. Les états d'esprits peuvent aussi traduire une focalisation aléatoire sur certains aspects d'une alternative, suite à un phénomène de mode, à l'action de la publicité ou de la force de vente. - l'individu ne connaît qu'imparfaitement ses préférences (ou ses préférences sont oues) et l'imprécision ne permet pas à l'individu de désigner sans ambiguïté ce qu'il veut. En moyenne, il a cependant tendance à sélectionner une action proche de son comportement implicite. - plus fondamentalement, on peut supposer que l'individu se trompe lors de son processus d'évaluation des actions possibles. Les capacités cognitives (de mémorisation, de calcul...) limitées des individus ne leurs permettent pas de s'acquitter de cette tâche complexe de façon optimale. On rejoint alors le concept de rationalité limitée cher à Simon (1957). Cela peut notamment provenir de la diculté éprouvée par les individus à traiter de grands ensembles d'information. Cette interprétation cognitive peut être soutenue par les RDRM, ces derniers exprimant alors plutôt l'idée de rationalité limitée proposée par Simon, puisque les individus ne choisissent pas toujours l'alternative qui leur procure la satisfaction la plus élevée. L'interprétation cognitive peut aussi être soutenue par certains modèles RUM (comme le modèle de Thurstone). 2.3 Les enjeux de l'interprétation des modèles de choix discrets Il y a donc 2 interprétations possibles des modèles de choix discrets. Les modèles RUM et RDRM substantiels sont compatibles avec les 2 interprétations (d'ailleurs les modèles de Thurstone et McFadden conduisent aux mêmes probabilités de choix) alors que les modèles RDRM procéduraux ne s'inscrivent que dans l'interprétation cognitive. 10 L'interprétation cognitive est souvent adoptée par les psychologues qui s'intéressent aux choix pour eux-mêmes alors que les économistes se sont jusque-là intéressés presque exclusivement à l'interprétation économétrique (et donc aux seuls modèles RUM). Cela a conduit McFadden (1981, p 205) à déclarer que les diérences d'interprétation des modèles RUM n'étaient pas d'une réelle importance, les économistes utilisant avant tout les probabilités pour formuler des demandes agrégées, sans s'intéresser au processus ayant conduit à la formulation des probabilités. Cette vision semble pourtant restrictive par rapport aux multiples possibilités qu'orent les diérents modèles de choix discrets et qui pourraient conduire à des enseignements intéressants en économie. Ainsi, l'équivalence des interprétations cesse d'être vraie si l'on utilise les modèles de choix discrets pour analyser des problèmes de bien-être ou d'interaction sociale. De plus, s'il est possible de certier l'origine cognitive des probabilités, ces probabilités peuvent, par exemple, être utilisées pour l'étude de la substituabilité des produits et surtout des caractéristiques des produits (comme dans le modèle de Tversky que nous verrons plus loin) sur les marchés. En revanche, ce type d'enseignement ne peut être tiré si l'on ignore quelle interprétation retenir pour un ensemble de probabilités de choix donné. En outre, l'interprétation cognitive est la seule qui légitime pleinement l'utilisation des modèles de choix discret en écartant la tentation déterministe, exprimée par Stigler et Becker (1977). Or seuls les RDRM procéduraux s'appuient sans ambiguïté sur l'interprétation cognitive. Autrement dit, on ne peut analyser avec nesse les problèmes de substituabilité des caractéristiques des produits sur un marché que si les probabilités de choix découlent d'un RDRM procédural (nous donnerons un exemple de ce type plus loin). Cela ne signie pas qu'il ne peut y avoir d'erreurs économétriques dans ce type de modèles, mais cela signie que ces erreurs peuvent seulement aecter l'estimation des paramètres du modèle mais pas la formule de calcul des probabilités. La tâche de calcul des probabilités est alors plus fastidieuse mais moins sujette à erreur et comporte moins de dicultés d'interprétation (sans toutefois les éliminer totalement). Pour cette raison, il paraît donc utile pour les économistes de s'intéresser et de développer cette famille de RDRM procéduraux jusque là peu étudiée. 11 3 Le modèle fondateur de Luce à règle de décision aléatoire : présentation, extension et lien avec les modèles à utilité aléatoire 3.1 Présentation du modèle de Luce Le premier modèle RDRM a été proposé par Luce en 1959. Ce dernier pose au départ un "axiome de choix" permettant de relier entre elles les probabilités de choix dénies sur des ensembles quelconques d'actions appartenant à A, l'ensemble des alternatives disponibles. Puis, il montre que cet axiome est vérié s'il existe une fonction d'utilité dénie sur A et permettant de calculer les probabilités. Le processus sous-jacent de choix n'est pas explicité 3 . Appelons T l'ensemble des alternatives, A l'ensemble des alternatives accessibles au choix et |S| = n le cardinal d'un ensemble S. On note PkS la probabilité de choisir l'alternative k parmi l'ensemble S, ∀S ∈ ϕ ≡ {S ⊆ A et |S| ≥ 2}, P (a, b) la probabilité de choisir a plutôt que b dans l'ensemble à 2 alternatives et PSA la probabilité X de choisir une alternative parmi le sous-ensemble S de A. On a donc ∀S ⊂ A, PSA = PkA . k∈S L'AXIOME DE CHOIX s'énonce ainsi : ∀S, T ∈ ϕ tels que S ⊆ T , on a : (i) Si ∀a ∈ S , P (a, b) 6= 0, 1 ∀b ∈ T alors : PaT = PST .PaS . Cela signie que la probabilité que k soit choisie dans T est indépendante du sousensemble S contenant a, dans le cas où l'individu doive d'abord choisir un sous-ensemble S avant de choisir une alternative de S. (ii) Si ∃a, b ∈ T /P (a, b) = 0 alors : T −{a} PST = PS−{a} . Cela signie que si certaines actions b sont toujours choisies de préférence à a, on peut éliminer a de T sans aecter les probabilités de choix au sein de S. Une conséquence de cet axiome de choix est le théorème suivant énoncé par Luce (1959)4 : 3à l'inverse du modèle de Tversky que nous présenterons plus loin une preuve de ce théorème, cf. Anderson, De Palma et Thisse, 1992, p 22 4 pour 12 THÉORÈME : Supposons que P (a, b) 6= 0, 1 ∀a, b ∈ A. La partie (i) de l'axiome de choix est satisfaite ssi il existe une fonction positive v dénie sur A telle que : v(a) PaA = X v(b) (1) b∈A Cette fonction est unique à un facteur positif près. Ainsi v(a) peut être interprétée comme une utilité déterministe (ou échelle) de l'action a. Par ailleurs, la formule (1) de calcul des probabilités implique que la probabilité que k soit choisie augmente avec son utilité et diminue lorsque l'utilité d'une autre action dans A augmente. Avec cette démarche, on voit bien que le modèle de Luce est un RDRM substantiel. 3.2 Principales conséquences et limites du modèle de Luce Le "choice axiom" de Luce implique un certain nombre de conséquences, dont beaucoup ne sont malheureusement pas vériées empiriquement ou donnent lieu à des "paradoxes". Plusieurs points font donc débat : - tout d'abord, la régularité est une propriété très faible sur les probabilités de choix qui semble généralement vériée empiriquement. Elle s'énonce ainsi : Régularité : ∀k ∈ A ⊆ B , PkA ≥ PkB . Or il peut arriver que cette propriété soit violée dans le modèle de Luce, ce qui est problématique. - une autre conséquence, concernant seulement les probabilités de choix binaires, découle du "choice axiom" : c'est la transitivité stochastique forte (TSF). La transitivité stochastique généralise la notion algébrique de transitivité. La TSF correspond à : Transitivité stochastique forte : ∀x, y, z ∈ A, P (x; y) ≥ 1/2 et P (y; z) ≥ 1/2 ⇒ P (x; z) ≥ max[P (x; y), P (y; z)]. Le problème est que la TSF est très souvent violée dans les études empiriques (cf. Luce (1977) p 226 pour plus de précisions). 13 - enn, le "choice axiom" de Luce implique une version de la propriété d'indépendance par rapport aux choix extérieurs (IIA). Cette propriété s'énonce : Indépendance par rapport aux choix extérieurs : PaS PaT ∀S, T ∈ ϕ tels que S ⊆ T et ∀a, b ∈ S , S = T . Pb Pb Cette propriété, également connue en psychologie sous le nom de "simple scalability"5 stipule que le rapport des probabilités de choix de a et b est indépendant de l'ensemble qui les contient, c'est-à-dire des choix extérieurs. Cependant, Debreu (1960) dans son "paradoxe du bus bleu-bus rouge" a montré que cette séparabilité pouvait conduire à des résultats contre-intuitifs. Nous reprendrons l'énoncé du paradoxe donné par De Palma et Thisse (1989, p 161-162). On suppose que l'individu doit se rendre à une destination donnée et qu'il lui est indiérent de prendre la voiture ou le bus (P (voiture) = P (bus)). Supposons que 2 bus puissent être utilisés, de couleur rouge ou bleue et que l'individu n'accorde aucune importance à la couleur. Par conséquent, l'ensemble A des actions est donné par {voiture, busrouge, busbleu} et les relations suivantes doivent être satisfaites : P (voiture, busrouge) = P (voiture, busbleu) = 1/2 et PA (busrouge) = PA (busbleu). Intuitivement, on s'attend à ce que les probabilités de choix soient égales à : PA (voiture) = 1/2 et PA (busbleu) = PA (busrouge) = 1/4. Or l'axiome de choix implique6 que PA (voiture) = PA (busbleu) = PA (busrouge) = 1/3. Cela signie que l'ajout d'une alternative supplémentaire aecte de la même façon les alternatives très similaires et les alternatives peu similaires, ce qui n'est guère conforme à l'intuition. L'axiome de choix n'est donc valable que sur des ensembles de choix avec des alternatives susamment distinctes, ce qui n'est pas le cas ici où les bus bleus et rouges auraient pu être assimilés à une seule et unique alternative. Ainsi, comme le note Tversky, les probabilités de choisir des alternatives à partir d'un ensemble donné A ne peuvent être déduites en général des probabilités de choisir ces alternatives dans les sous-ensembles de A ou les ensembles incluant A. (1972a, p 283) 5 cf. Tversky (1972a), p 282 sur ce point la démonstration, cf. De Palma et Thisse (1989, pp. 161-162) 6 pour 14 Un exemple attribué à Savage par Luce et Suppes (1965, pp 334-335) illustre une autre diculté liée à cette propriété d'IIA. On suppose que l'individu doit choisir un voyage et qu'il lui est indiérent de partir à Rome ou à Paris de telle sorte que P (P aris, Rome) = 1/2. Supposons que l'on ajoute 2 nouvelles alternatives correspondant à chacun des voyages auxquels on ajoute 1$ : ces alternatives sont notées (Paris+) et (Rome+). Le bonus étant peu signicatif, on s'attend à ce que l'individu reste indiérent entre Paris et Rome avec ou sans bonus. Or le modèle de Luce implique7 que P (P aris+, Rome) = P (Rome+, P aris) = 1 ce qui est contre-intuitif. Après avoir vu que les conséquences du modèle de Luce étaient sujettes à certaines limites, nous allons voir qu'une équivalence a été établie entre ce modèle et les RUM couramment utilisés. Cette équivalence peut sembler séduisante car elle tend à montrer que l'origine de l'aléa est un problème secondaire. Le revers de la médaille est pourtant que les limites du modèle de Luce se retrouvent dans la plupart des modèles RUM, ce qui soulève des dicultés. 3.3 L'équivalence entre le "choice axiom" et les RUM classiques Bien que le modèle de Luce n'appartienne pas à la même famille que les modèles RUM, une équivalence a été établie. Avant d'énoncer le théorème d'équivalence, nous présenterons brièvement les modèles à utilité aléatoire (pour une présentation formelle et plus complète, cf. De Palma et Thisse, 1989, pp 167-179) 3.3.1 Présentation des RUM Dans les modèles RUM on décompose l'utilité Uk associée à une action k en une utilité déterministe observable (échelle) uk et une variable aléatoire εk . L'existence de l'aléa sur l'utilité peut s'interpréter comme l'existence d'un état d'esprit changeant (interprétation cognitive, défendue par Thurstone, 1927) mais aussi comme une incapacité à observer toutes les caractéristiques des actions inuençant le choix de l'individu (on retrouve l'interprétation "économétrique", soutenue par McFadden, 1981). On suppose que les sujets sont indépendants les uns des autres et statistiquement identiques : on peut ainsi représenter chacun d'eux par la même variable aléatoire. Les modèles à utilité aléatoire supposent alors que la probabilité de choix est égale à la fonction de distribution cumulée de ε suivant une certaine loi. Plusieurs lois sont alors possibles. 7 pour plus de précisions, cf. Tversky (1972a, p 284) 15 Tout d'abord, on peut supposer que ε est distribuée selon une loi uniforme mais cela oblige à dénir des bornes nies dans l'intervalle de dénition. Si le comportement d'un sujet est le résultat d'un grand nombre de facteurs indépendants, le théorème central limite permet alors l'emploi d'une loi normale qui semble plus pertinente. Ce modèle appelé "probit" correspond à la forme proposée par Thurstone (1927). Toutefois, le problème de la fonction normale cumulée est qu'elle ne peut être exprimée à l'aide d'une forme fonctionnelle explicite. On est donc tenté de chercher une forme plus compacte qui donne des valeurs approchées. C'est pourquoi McFadden (1974) a proposé d'utiliser une fonction de distribution logistique car elle conduit à des résultats très proches de ceux obtenus en utilisant la loi normale pour des valeurs susamment diérentes de 0 ou de 1. Cette loi a donné son nom au modèle "logit". Les formules des probabilités sont données par le théorème suivant8 , attribué à Holman et Marley : THÉORÈME : Supposons que les εk soient i.i.d selon la distribution double expo- nentielle : x +γ F (x) = P (εk ≤ x) = exp − exp − µ où γ est la constante d'Euler (γ ≈ 0.5772) et µ une constante positive. Alors ∀k ∈ A, les probabilités de choix qui en résultent sont données par : PkA = exp(uk /µ) n X . (2) exp(uj /µ) j=1 Ce théorème montre que si la distribution de εk est double exponentielle (proposition P1) alors les probabilités de choix sont données par le modèle logit multinomial (proposition P2). On a donc P 1 ⇒ P 2. Yellott (1977) a ensuite prouvé l'équivalence entre les 2 propositions (P 1 ⇔ P 2). Après avoir exposé ces modèles, nous allons nous intéresser au paramètre µ qui pourrait orir un moyen de discriminer entre l'interprétation cognitive et l'interprétation économétrique. 3.3.2 Le rôle du paramètre µ π 2 µ2 Le paramètre µ est intrinsèquement lié à la variance de la distribution (V (ε) = ). 3 Si µ → 0 alors PkA = 1 ssi l'utilité de k est la plus forte parmi toutes les alternatives de 8 pour une preuve de ce théorème, cf. Anderson, De Palma et Thisse, 1992, pp 39-40 16 A. On retrouve alors le modèle néoclassique de choix. A l'inverse, si µ → ∞, l'incertitude est totale et PkA = 1/|A|, ∀k ∈ A. L'interprétation du paramètre µ est pourtant relativement oue dans la littérature. Nous pensons que sa signication dière selon que l'on retient l'interprétation économétrique du RUM (modèle de McFadden) ou l'interprétation cognitive (modèle de Thurstone) : - dans le premier cas, µ s'interprète comme un critère d'inobservabilité de l'action. Si µ → 0 alors les caractéristiques de l'action sont parfaitement observables alors que si µ → ∞ l'ignorance du modélisateur est totale. - dans le second cas, µ s'interprète comme un indicateur des limites à la rationalité du décideur. Si µ → 0, il n'y a pas de limite à la rationalité du décideur et son comportement est déterministe alors que si µ → ∞, l'individu décide de façon totalement aléatoire. Il est intéressant de remarquer que, dans le second cas, cette interprétation est assez semblable à celle proposée par Chen, Friedman et Thisse (1997, p 36), dans un modèle logit plus complexe appliqué à la théorie des jeux. Ces auteurs suggèrent que les probabilités de choix en stratégie pure sont données par : i pij (P i ) [Uji (P i )]µ = m X i [Uki (P i )]µ (3) k=1 où P est une distribution de probabilité du joueur i sur les choix des autres joueurs, pij (P i ) la probabilité pour i de choisir la stratégie pure j étant donnée P i , Uji (P i ) l'utilité pour i de choisir la stratégie pure j étant donnée P i et µi un paramètre de rationalité du joueur i. Si µ → 0, le choix de l'individu est parfaitement aléatoire (probabilités égales) et si µ → ∞ l'individu est parfaitement rationnel. i Les interprétations se rejoignent donc, à la diérence que, dans le modèle multinomial logit standard, la rationalité décroît avec µ alors qu'elle croît avec µ dans le modèle proposé par Chen, Friedman et Thisse. Au vu de la position du paramètre µ dans chacun des modèles, cette diérence paraît logique. La diérence de sens de µ entre l'interprétation cognitive et l'interprétation économétrique ore des perspectives de recherches futures intéressantes. En eet, si µ est un paramètre de limite à la rationalité exprimant la diculté à traiter les grands ensembles d'information, ce dernier devrait logiquement croître quand le nombre d'alternatives de choix (|A|) augmente. En particulier, une étude de Miller (1956) avait montré la diculté 17 pour les individus à traiter des ensembles d'information comportant plus de 7 éléments. En revanche, si µ est un paramètre exprimant un état d'esprit ou un degré d'inobservabilité, il ne devrait pas varier quand |A| augmente. On pourrait donc eectuer un test an de déterminer si µ est ou non croissant avec |A| an de discriminer entre les interprétations. 3.3.3 Equivalence entre le modèle de Luce et le logit et forme évoluée du logit Si on compare cette expression du logit multinomial (3) avec les probabilités du modèle de Luce (21), on voit qu'il sut de poser v(k) = exp(uk /µ) pour obtenir une équivalence. L'avantage du modèle logit multinomial par rapport à la formulation de Luce est donc qu'il se rattache directement à la théorie de l'utilité et qu'il est relié au modèle néoclassique via µ. Cependant, le modèle logit multinomial comporte les mêmes limitations que le modèle de Luce : - l'interprétation reste très ouverte - il ne peut traiter que les situations dans lesquelles la propriété IIA est vériée. Pour surmonter cette seconde limite, Ben-Akiva (1973) a proposé de modéliser le processus de choix selon une procédure emboîtée à deux ou plusieurs étapes9 . On suppose que l'individu choisit d'abord un certain sous ensemble Ai de A regroupant des actions ayant le plus grand nombre possible de caractéristiques communes. Puis l'individu choisit une action particulière selon la probabilité dépendant de l'utilité de l'action. Ben-Akiva a utilisé le modèle logit multinomial aux 2 étapes d'où le nom de "nested logit". Avec ce modèle la propriété IIA est vériée à la fois entre les alternatives d'un sousensemble Ai et entre les sous-ensembles Ai , ∀i (par contre, elle ne l'est pas entre des alternatives appartenant à des sous-ensembles diérents). Le modèle permet donc d'englober un plus grand nombre de situations de choix avec des congurations de substitutions variées entre les actions. Cependant, il faut rappeler que l'interprétation du nested logit tout comme celle du modèle de Luce restent indécises. Nous allons désormais montrer que la généralisation du modèle de Luce en spéciant une procédure de décision permet d'aboutir à un RDRM procédural, le modèle de Tversky, qui comporte moins de dicultés d'interprétation et peut être utilisé pour analyser la substituabilité entre caractéristiques. 9 pour une présentation détaillée, cf. Anderson, De Palma et Thisse (1992, p46-48) 18 Deuxième partie Le modèle de Tversky, fondateur des modèles procéduraux à règle de décision aléatoire Nous présenterons ici la version standard du modèle de Tversky (1972a,b), puis une version plus abstraite permettant d'inférer des conséquences testables. Nous verrons le lien entre ce modèle et le modèle de Luce puis nous montrerons que ses conséquences obtiennent de meilleurs résultats aux tests que celles du modèle de Luce. Nous détaillerons également une méthode proposée par Batsell et al (2003) pour éliciter facilement les paramètres du modèle de Tversky. Nous terminerons en évoquant les limites du modèle de Tversky. 1 Présentation classique du modèle de Tversky 1.1 Concepts et procédure du modèle de Tversky L'idée principale du modèle de Tversky est que le choix d'une alternative peut être vu comme le résultat d'un processus stochastique d'élimination des alternatives. Tversky (1972a,b) décrit une action par un ensemble de caractéristiques. Cette démarche peut être rapprochée des caractéristiques utilisées dans la nouvelle théorie du consommateur par Lancaster (1966). On distingue traditionnellement entre les caractéristiques discrètes (comme la couleur ou la présence d'une certain équipement dans une automobile) et les caractéristiques continues (comme la puissance de l'automobile). Parmi les caractéristiques discrètes, on peut aussi distinguer entre les caractéristiques indépendantes (qui peuvent être seulement absentes ou présentes, comme l'équipement dans la voiture) et les caractéristiques dépendantes qui sont reliées à d'autres caractéristiques par une contrainte, souvent d'exclusion mutuelle (par exemple, une couleur donnée de véhicule est une caractéristique contrainte car sa présence est liée au fait que le véhicule n'a aucune des autres couleurs). La prise en compte ou non de la contrainte relève d'un choix du modélisateur : ainsi, si la contrainte n'est pas prise en compte, un ensemble de caractéristiques dépendantes peut être décomposé en n caractéristiques indépendantes distinctes. Or, Tversky suppose que toutes les caractéristiques sont indépendantes (elles peuvent 19 seulement être présentes ou absentes)10 : les ensembles de caractéristiques discrètes dépendantes sont donc décomposés en n caractéristiques indépendantes. Cette représentation est adaptée aux caractéristiques discrètes mais pour les caractéristiques continues, Tversky fait l'hypothèse de l'existence d'un seuil au delà duquel la caractéristique peut être considérée comme présente (il transforme chaque caractéristique continue en une caractéristique indépendante). A chaque caractéristique est associée une "échelle", utilité positive exprimant l'importance de la caractéristique pour l'individu. A partir de cette dénition des actions, Tversky spécie une procédure de décision : on voit ainsi que son RDRM est procédural. La procédure de sélection d'une alternative fonctionne ainsi (à la manière d'un algorithme, comme le remarquent Anderson, De Palma et Thisse, 1992, p 27) : - tout d'abord, les caractéristiques communes de l'ensemble des choix restants sont éliminées car elles ne peuvent servir à discriminer entre les actions. - ensuite, une caractéristique est sélectionnée et toutes les alternatives ne possédant pas cette caractéristique sont éliminées. La probabilité de sélectionner une alternative est d'autant plus forte que l'utilité de l'alternative est élevée. - enn, on arrête si les alternatives restantes ont les mêmes caractéristiques et dans le cas contraire on retourne à la première étape. Si on termine à cet étape, on regarde le nombre d'alternatives restantes : s'il n'y en a qu'une, elle est sélectionnée. Dans le cas contraire, les alternatives restantes ont une probabilité égale d'être sélectionnée. Plusieurs séquences d'élimination peuvent donc conduire à la sélection d'une alternative. Cette approche rappelle la relation de préférence lexicographique. Elle s'en distingue par l'ordre de sélection des caractéristiques qui est ici aléatoire alors qu'il est déni a priori dans le modèle lexicographique. Chez les psychologues (cf. Reed, 1999, pp 507-514 par exemple), le modèle de Tversky est vu comme un modèle non-compensatoire, c'est-à-dire qui n'eectue pas de compensations entre les caractéristiques des alternatives. Cette classe de modèles11 présente l'avantage de décrire des procédures simples souvent utilisées par les individus an de réduire la taille de leur ensemble d'informations en cas de problème compliqué. Nous allons maintenant présenter la formulation de base du modèle de Tversky. 10 cette hypothèse sera discutée en section 4 opposer aux modèles compensatoires, qui incluent des compensations et supposent donc un raisonnement plus élaboré. 11 à 20 1.2 Version standard du modèle de Tversky Nous reprendrons une version du modèle de Tversky très proche de celle adoptée par Batsell et al (2003). Soit T = {i, j, k...} un ensemble d'alternative de choix. Soit T 0 = {α, β, γ...} l'ensemble des caractéristiques (ou aspects12 ) des alternatives de T. Ces caractéristiques peuvent appartenir à une ou plusieurs alternatives. On dénit enn une fonction d'échelle (ou d'utilité) u : T 0 → R telle que ∀α ∈ T 0 , u(α) est l'échelle de α. On se réfère à un tel modèle par le triplet {T,T',u}. Un individu qui choisit au sein de l'ensemble A ⊂ T d'alternatives choisit une des caractéristiques dans A' et élimine toutes les alternatives ne possédant pas cette caractéristique. On prend alors les dénitions suivantes : - L'ensemble des caractéristiques d'une alternative k donnée est : k 0 = {α ∈ T 0 /k a la caracteristique α} - L'ensemble des alternatives de T possédant une caractéristique α donnée est : Tα = {k ∈ T /α ∈ k 0 } - L'ensemble des caractéristiques de l'ensemble A des alternatives disponibles au choix est : A0 = {α ∈ T 0 /∃k ∈ A/α ∈ k 0 } = [ k0 k∈A - L'ensemble des caractéristiques partagées par toutes les alternatives de A est noté : A0 = {α ∈ T 0 /α ∈ k 0 ∀k ∈ A} = \ k0 k∈A - L'ensemble des alternatives de A possédant une caractéristique α donnée est : Aα = {k ∈ A/α ∈ k 0 } = Tα ∩ A 12 c'est le terme "aspect" qui avait été utilisé par Tversky : pour notre part, nous utiliserons invariablement chacun des termes. 21 - L'ensemble des caractéristiques partagées par toutes les alternatives de A, mais pas par au moins une autre alternative hors de A, est noté : A = {α ∈ T 0 /α ∈ k 0 ∀k ∈ A et @l ∈ / A/α ∈ l0 } On vérie que A ⊆ A0 . Les caractéristiques discriminantes pour l'ensemble A sont celles qui appartiennent au moins à une alternative de A mais qui n'appartiennent pas à toutes les alternatives de A, c'est-à-dire celles comprises dans A0 \A0 . On suppose ensuite que parmi l'ensemble des caractéristiques discriminantes possibles, la probabilité de sélectionner les alternatives selon la présence d'une caractéristique α donnée est égale au rapport de l'utilité de l'aspect considéré sur la somme totale des utilités des caractéristiques discriminantes. Mathématiquement, cette probabilité est donnée par : P (α) = u(α) X u(β) (4) β∈A0 \A0 Pour calculer la probabilité de choix d'une alternative k parmi A, on calcule pour chaque caractéristique la probabilité de sélection de cette caractéristique comme critère discriminant (donnée par la formule précédente) multipliée par la probabilité de choisir l'alternative considérée parmi toutes celles qui possèdent cette caractéristique (qui s'écrit PkAα ). Mathématiquement, si k 0 \A0 6= ∅ cela s'écrit : PkA = X α∈k0 \A0 P (α).PkAα = X u(α) Aα X .Pk . u(β) 0 α∈k \A0 (5) β∈A0 \A0 On remarque que cette formule est récursive. Dans le cas où les alternatives restantes en A partagent toutes les mêmes caractéristiques (k 0 \A0 = ∅), on a : PkA = 1/|A|. 22 (6) / k 0 , on peut réécrire (5) sous la forme : Comme PkAα = 0 si α ∈ PkA X u(α) Aα = X .Pk . u(β) α∈T 0 \A0 (7) β∈A0 \A0 On peut appeler "échelle de A" l'expression VA = u(β) (8) u(α).PkAα . (9) X β∈A0 \A0 et "échelle de k dans A" l'expression VkA = X α∈T 0 \A0 (on note que V A = X .VkA ). k∈A On peut alors vérier que PkA = VkA VA (10) Nous allons maintenant montrer que le modèle de Tversky correspond à une généralisation de modèles à règle de décision aléatoire existants. 1.3 Une généralisation des modèles de Luce et Restle 1.3.1 La généralisation du modèle de Luce Considérons un cas particulier dans lequel les caractéristiques sont toutes disjointes entre les alternatives ou appartiennent toutes à A0 . Dans ce cas, si une caractéristique est sélectionnée, alors ∀α ∈ T 0 , PkAα = 1. On peut alors réécrire (7) ainsi : PkA = X u(α) X . u(β) α∈T 0 \A0 β∈A0 \A0 23 (11) Si on pose v(k) = X u(α), on retrouve : α∈k0 \A0 v(k) PkA = X v(l) l∈S qui correspond à l'expression du modèle de Luce. Le modèle de Tversky est donc une généralisation du modèle de Luce. 1.3.2 La généralisation du modèle de Restle De même, le modèle de Tversky généralise un autre modèle à règle de décision aléatoire, proposé par Restle (1961), dans lequel on ne considère que les probabilités de choix binaires dans l'ensemble (A = {k, l}). Selon Restle, les probabilités sont alors calculées avec la formule : P (k, l) = u(k 0 − l0 ) u(k 0 − l0 ) + u(l0 − k 0 ) (12) On peut prouver cette généralisation en constatant que k 0 \A0 = k 0 −l0 pour l'alternative k et l0 \A0 = l0 − k 0 pour l'alternative l. En conséquence, les caractéristiques sont disjointes et comme dans le cas précédent, on a ∀α ∈ T 0 , PkAα = 1. La formule (7) prend la forme : PkA X X u(α) u(α) X . X = X = u(β) u(α) + u(β) α∈k0 −l0 α∈k0 −l0 α∈k0 −l0 β∈A0 \A0 (13) β∈l0 −k0 Il sut alors de poser que : X u(k 0 − l0 ) = u(α) α∈k0 −l0 pour retrouver la formule (12) du modèle de Restle. Nous allons maintenant voir comment le modèle de Tversky traite le "paradoxe bus bleu-bus rouge" et le paradoxe du voyage à Rome-Paris, ce qui fera aussi oce d'exemples. 1.4 La résolution des paradoxes du modèle de Luce 1.4.1 La résolution du paradoxe bus bleu-bus rouge On reformule d'abord le problème posé par Debreu (1960) en lien avec les caractéristiques. Posons α1 = voiture, α2 = bus, α3 = bleu, α4 = rouge. 24 Dans les conditions xées par Debreu, l'individu doit choisir entre une voiture k1 = {α1 }, un bus bleu k2 = {α2 , α3 } et un bus rouge k3 = {α2 , α4 }. L'individu est indiérent aux couleurs, ce qui impose de vérier PkA2 = PkA3 = 1/2 si A = {k2 , k3 } (condition 1). L'individu est également indiérent entre utiliser la voiture et le bus d'une certaine couleur pour son trajet, ce qui suppose que PkA1 = PkA2 = 1/2 si A = {k1 , k2 } (condition 2) et PkA1 = PkA3 = 1/2 si A = {k1 , k3 } (condition 3). Or, selon Debreu, la caractéristique "couleur" supplémentaire ne devrait pas modier le choix entre voiture et bus car l'utilité de la couleur semble relativement négligeable par rapport à celle du type de véhicule. Dans le cas où A = {k1 , k2 , k3 }, on devrait donc avoir PkA1 ≈ 1/2 et PkA2 = PkA3 ≈ 1/4. Dans la démarche de Tversky, on commence à attribuer des utilités aux caractéristiques. Posons u(α2 ) = β et u(α3 ) = u(α4 ) = γ : l'utilité des couleurs est égale pour vérier la condition 1. De plus les conditions 2 et 3 sont vériées ssi u(k2 ) = u(k3 ) = u(k1 ). On sait que u(k2 ) = u(α2 )+u(α3 ) = β +γ et que u(k3 ) = u(α2 )+u(α4 ) = β +γ . On en déduit qu'il faut poser u(k1 ) = u(α1 ) = β+γ pour vérier les conditions de départ de Debreu. Que se passe-t-il maintenant si A = {k1 , k2 , k3 } ? En appliquant la formule (7), on trouve : PkA1 = β+γ 2β + 3γ et PkA2 = PkA3 = γ β γ γ + 1/2β .1 + . = 2β + 3γ 2β + 3γ 2γ 2β + 3γ On peut détailler le calcul de ces probabilités. Tout d'abord, k1 ne possède que la caractéristique α1 et la probabilité de choisir cette caractéristique est donnée par le rapport des utilités. Or seule k1 possède la caractéristique A α1 : si α1 est sélectionnée, alors seule k1 sera retenue (en d'autre termes Pk1α1 = 1). On retrouve alors l'expression de PkA1 . Intéressons nous maintenant aux 2 autres alternatives. k2 possède deux caractéristiques, la probabilité de sélectionner chacune des caractéristiques étant donnée par le rapport des utilités. Si la couleur bleue α3 est sélectionnée (première partie de l'équation), 25 alors k2 sera sélectionnée à coup sûr car elle est la seule à posséder cette couleur. Si la caractéristique "bus" α2 est sélectionnée (seconde partie de l'équation), la situation est diérente puisque cette caractéristique est aussi partagée par k3 . Il faut alors calculer la A probabilité Pk1α2 de sélectionner k2 par rapport à k3 une fois α2 éliminée. La seule caractéristique discriminante restante est alors la couleur : la probabilité de sélectionner k2 est γ égale à la probabilité de sélectionner bleu parmi {rouge, bleu}, soit . On retrouve ainsi l'expression de PkA2 . Le calcul de PkA3 obéit à une logique similaire. 2γ Analysons désormais les résultats obtenus. 1 1 1 1 On constate que ≤ PkA1 ≤ et ≤ PkA2 (ou 3) ≤ . Or si γ → 0 (utilité de la couleur 3 2 4 2 assez négligeable, comme le suppose Debreu), PkA1 → 21 et PkA2 (ou 3) → 14 . On voit donc que le modèle de Tversky permet de résoudre le paradoxe du bus-bleu/rouge. 1.4.2 La résolution du paradoxe du voyage à Paris-Rome Dans le problème énoncé par Savage, les choix possibles sont k1 =(Paris), k2 =(Paris+), k3 =(Rome) et k4 =(Rome+). Supposons que le voyage à Paris soit doté d'une caractéristique spécique α1 (cela peut aussi correspondre à un ensemble de caractéristiques spéciques, ce qui revient au même) et le voyage à Rome d'une caractéristique spécique α2 . Le dollar supplémentaire est vu comme une caractéristique supplémentaire α3 . On a donc k1 = {α1 },k2 = {α1 , α3 }, k3 = {α2 } et k4 = {α2 , α3 }. Posons u(α1 ) = β et u(α3 ) = γ . PkA1 L'individu est indiérent entre les voyages à Paris et à Rome ce qui impose de vérier = PkA3 si A = {k1 , k3 }. Cette condition est vériée si u(α1 ) = u(α2 ) = β . On peut vérier que l'individu est indiérent entre les 2 voyages, Rome et Paris, sans bonus. Voyons maintenant quels résultats nous obtenons selon les ensembles A retenus : - Si A = {k1 , k2 }, PkA2 = 1 et si A = {k3 , k4 }, PkA4 = 1. Cela signie que le voyage avec un bonus de 1$ est toujours préféré au même voyage sans le bonus, ce qui est conforme à l'intuition. β+γ 1 - Si A = {k2 , k4 }, PkA4 = = ce qui paraît logique : l'individu n'a toujours 2β + 2γ 2 pas de préférence entre les deux voyages auxquels on ajoute le bonus - Le cas le plus intéressant est celui où A = {k1 , k4 } (le cas où A = {k2 , k3 } est symétrique. Dans ce cas, PkA4 = β+γ . Analysons ce résultat : on constate que 2β + γ 26 1 2 ≤ PkA4 ≤ 1. Or si γ → 0 (utilité du bonus assez négligeable par rapport à celle du voyage, comme le suppose Savage), PkA4 → 1/2 ce qui est bien conforme à l'intuition. On voit donc que le modèle de Tversky est un moyen alternatif au modèle Nested logit de résoudre les paradoxes liés à l'IIA. Cela nous fournit un exemple de démarche procédurale fructueuse. 2 La version abstraite du modèle de Tversky et ses conséquences 2.1 Les diérentes formulations du modèle de Tversky A l'origine, le modèle EBA a été formulé en terme d'une échelle d'utilité u dénie sur l'ensemble des aspects pertinents. On pourrait croire que l'application du modèle nécessite une dénition a priori des alternatives en terme d'aspects. Ce n'est pourtant pas le cas car le modèle EBA peut être formulé dans les seuls termes d'élimination d'alternatives. L'idée de base est que les ensembles T et T' étant superposables, la sélection d'une caractéristique revient à sélectionner un ensemble d'alternatives dans T. Le modèle EBA peut donc être formulé en terme de sous-ensembles de T. Cette version abstraite du modèle de Tversky peut également être vue comme le résultat d'un processus Markovien et les probabilités comme des probabilités de transition entre les états (voir Tversky 1972b, p 347). Dans la version abstraite, l'ensemble des aspects devient donc 2T , l'ensemble des sousensembles de T. On dénit alors un modèle EBA "abstrait" par {T,2T ,U }. On retrouve les ensembles dénis précédemment par les formules suivantes : k 0 = {A ⊂ T /k ∈ A} - Ici B représente un ensemble d'alternative qui possèdent toutes une caractéristique α donnée. TB = B - Si l'intersection entre B et A est non-vide, cela signie qu'au moins une alternative de A possède la caractéristique α. A0 = {B ⊂ T /B ∩ A 6= ∅} 27 - Si B inclut A alors cela signie que toutes les alternatives de A ont la caractéristique α A0 = {B ⊂ T /B ⊃ A} AB = A ∩ B - Si B est diérent de T, au moins une alternative de T ne possède pas α. Par contre comme A est inclus dans B, toutes les alternatives de A possèdent α. A = {B/A ⊂ B 6= T } Les probabilités sont toujours données par l'équation (10) mais la dénition de B évolue et pour tous les sous-ensembles quelconques C de T, les formules d'échelle deviennent : X VkA = PkA∩C .U (C) {C⊂T /C∩A6=A} = X X PkB . .U (C) (14) {C⊂T /C∩A=B} B⊂A,B6=A avec U (C) = X u(α) (15) α∈C et VA = X U (C) (16) {C⊂T /C∩A6=A,∅} L'interprétation de U(C) mérite quelques précisions : elle n'est pas une mesure de la valeur des alternatives de A mais plutôt une mesure de l'utilité procurée par les seules caractéristiques spéciques à A. L'équivalence entre la version standard et la version abstraite peut être établie rigoureusement par un théorème (Batsell et al, pp 539-540) : THÉORÈME : Pour chaque modèle EBA {T, T 0 , u}, il existe un modèle EBA abstrait {T, 2T , U } qui est équivalent à {T, T 0 , u} dans le sens où il conduit aux mêmes probabilités de choix. 28 Quelques éléments de preuve13 : La conversion est basée sur l'expression de (9) dans le langage de l'abstract model. De façon strictement équivalente, on peut écrire (9) sous la forme : VkA = X X PkAα . Aα α∈T 0 /Aα ⊂A u(α) et (17) Aα 6=A (Rappelons que l'on considère tous les α ∈ T et que l'on peut donc avoir Aα = ∅ auquel cas PkAα = 0) 0 On pose alors B = Aα et donc B = Tα ∩ A (cf. dénition de Aα ) et on obtient : X VkA = X PkB . B⊂A,B6=A On cherche maintenant à simplier u(α) (18) α∈T 0 /Tα ∩A=B u(α). Pour cela on prouve que : X α∈T 0 /Tα ∩A=B ∀C ( T, α ∈ C ⇔ C = Tα Sans détailler ce point, l'idée principale est la suivante : si α ∈ / C0 alors C 6= Tα (immédiat avec les dénitions) et si α ∈ C0 \C alors C=T. En conséquence, on a : X X u(α) = α∈T 0 /Tα ∩A=B X u(α) {C⊂T /C∩A=B} Tα =C X = X u(α) {C⊂T /C∩A=B} α∈C X = U (C) (19) {C⊂T /C∩A=B} En remplaçant dans (18), on retrouve bien (14). Nous allons maintenant voir quelles conséquences découlent de cette formulation abstraite. 13 pour plus de précisions, cf. Batsell et al (2003), p 539-540 et Tversky (1972a), p 287-288 29 2.2 Les conséquences testables issues de la version abstraite du modèle Comme le reconnaît Luce (1977, p 228), la principale force du modèle de Tversky tient au nombre de conséquences intéressantes qu'il implique 14 . Nous avons déjà vu en section (II.1.4) que le modèle de Tversky résolvait des paradoxes dont était victime le modèle de Luce. Nous allons maintenant montrer que la version abstraite implique des conséquences dont la portée empirique semble meilleure que celles du modèle de Luce. Les preuves de ces implications sont détaillées dans Tversky (1972b, pp 353-357) : - le modèle de Tversky implique la régularité alors qu'elle n'était pas toujours vériée dans le modèle de Luce. - le modèle de Tversky implique une transitivité stochastique modérée (TSM) qui semble vériée dans la plupart des études empiriques, alors que la transitivité stochastique forte du modèle de Luce n'était pas vériée. Cette TSM s'exprime ainsi : Transitivité stochastique modérée : P (x; y) ≥ 1/2 et P (y; z) ≥ 1/2 ⇒ P (x; z) ≥ min[P (x; y), P (y; z)]. - enn, le modèle de Tversky implique une nouvelle conséquence reliant les probabilités de choix binaires et ternaires. Cette propriété est appelée "inégalité multiplicative" par Tversky : Inégalité multiplicative : Si A = {x, y, z}, PxA ≥ P (x; y).P (x; z). Comme le note Tversky (1972a, p 290), cela signie que la probabilité de choisir x parmi A est au moins aussi large que celle de choisir x plutôt qu'y et x plutôt que z dans deux choix indépendants. Le modèle EBA implique une version plus forte de cette inégalité donnée par PxA∪B ≥ PxA .PxB , ∀A, B ⊆ T . Cette inégalité multiplicative dénit ainsi une borne supérieure aux probabilités de choix ternaires. Une borne inférieure peut être trouvée en appliquant la propriété de régularité aux sous-ensembles de A. Ainsi, on a : min[P (x; y).P (x; z)] ≥ PxA ≥ P (x; y).P (x; z). On peut donc souligner que le modèle de Tversky est à la fois théoriquement progressif15 14 voir 15 plus la discussion sur les conséquences du modèle de Luce en section (I.3.2) grand nombre de conséquences testables 30 et empiriquement progressif16 au sens de Popper, par rapport au modèle de Luce. Ces tests devraient constituer des signaux positifs incitant à appliquer ce modèle à diérents niveaux en économie. 3 Une méthode d'estimation des paramètres du modèle de Tversky 3.1 La méthode des diérences de probabilité L'un des problèmes du modèle de Tversky est le grand nombre de paramètres du modèle (l'utilité des diérents ensembles d'alternatives) à éliciter. A l'origine, Tversky (1972a, p 290) estimait leur nombre à 2t − 3 où t = |T | (2t correspond au nombre de sous-ensembles de T auquel on soustrait une unité arbitraire de mesure). Mais Batsell et al (2003, pp 543-544) ont montré que ce nombre était surestimé et qu'il se réduisait en fait à 2t − t − 1. Ces auteurs ont aussi proposé une méthode ecace pour éliciter les paramètres du modèle, que nous allons détailler ici. Cette méthode est basée sur les diérences de probabilité. On compare les variations des probabilités de choix quand un objet est ajouté ou retiré de l'ensemble de choix. Si A est l'ensemble des alternatives de choix, on dénit ∀k ∈ A ⊂ T une diérence de probabilité comme : CkA = PkA − PkT (20) Cette diérence montre comment la probabilité de choisir k varie quand on retire de T les alternatives dans B (ou quant on ajoute les alternatives de B à T \B ). En utilisant les probabilités de transition révélées par le décideur suite à l'ajout ou au retrait d'une alternative, on peut ainsi calculer les diérences de probabilités. Or les auteurs montrent que ces diérences peuvent également être formulées en fonction de l'ensemble des sous-ensembles B de T. On distingue alors trois interactions possibles entre B ⊂ T et A, B ∩ A = ∅, B ∩ A = A et ∅ = 6 B ∩ A 6= A. 16 succès des tests sur les conséquences 31 Cela permet de décomposer la formule en : CkA = X (PkA − PkB )u(B) B∩A=∅ + X (PkA − PkB )u(B) B∩A=A + X (PkB∩A − PkB )u(B) (21) ∅6=B∩A6=A On obtient alors un système d'équations linéaires dont les échelles d'utilité sont les inconnues et pouvant être résolu avec les moindres carrés pondérés. 3.2 Un exemple d'utilisation des diérences de probabilité Reprenons un exemple ctif donné par Batsell et al (2003) dans lequel l'individu a le choix entre 3 alternatives notées {1, 2, 3}. Dans ce cas, 4 sous-ensembles de choix peuvent être construits et l'observation du décideur va conduire à révéler 9 probabilités à partir desquelles on peut construire 6 diérences de probabilité. Par ailleurs, le nombre de diérence à calculer n'est en fait que de 5 car la somme des probabilités est égale à 1. On voit ici que les diérences de probabilités sont plus compactes que les probabilités dont elles découlent : c'est donc un moyen plus ecace de capturer l'information. Les probabilités de l'exemple sont données par : Fig. 1 Probabilités et diérences de probabilités de l'exemple de Batsell et al (2003, p 541) On peut noter que cet exemple ne peut être analysé par le modèle de Luce car l'indépendance par rapport aux choix extérieurs (IIA) est violée. 32 En eet, l'ajout de {2} à l'ensemble {1,3} ne conserve pas les proportions entre 1 et 3: P1123 P113 2 4 = 6 = = P313 3 P3123 3 Par contre, il peut être analysé par le modèle de Tversky. Posons u(B) = αijk... où i,j,k... correspondent aux alternatives dans B. Rappelons que l'utilité d'un ensemble correspond à celle des caractéristiques spéciques qui le composent. Ainsi, α12 correspond à l'utilité des caractéristiques partagées par les alternatives 1 et 2 et que les autres alternatives ne possèdent pas. A titre d'exemple, déterminons l'équation associée à C212 . A partir de (20), on trouve P212 − P2123 = 0.3. On calcule ensuite la formule (21) : - il n'y a qu'un ensemble B tel que B ∩ A = ∅, c'est B = {3}. D'où : X (PkA − PkB )u(B) = (P212 − P23 )α3 B∩A=∅ = (0.6 − 0)α3 = 0.6α3 - il existe également un seul ensemble B tel que B ∩ A = A, c'est B = {1, 2}. D'où : X (PkA − PkB )u(B) = (P212 − P212 )α12 B∩A=A = 0 (22) - il existe par contre 4 ensembles tels que ∅ = 6 B ∩ A 6= A : {1}, {2}, {1, 3} et {2, 3}. D'où X (PkB∩A − PkB )u(B) = (P21 − P21 )α1 + (P22 − P22 )α2 + (P21 − P213 )α13 + (P22 − P223 )α23 ∅6=B∩A6=A = 0 + 0 + (0 − 0)α13 + (1 − 0.5)α23 = 0.5α23 En reprenant la formule (21), on aboutit à l'équation suivante : 0.6α3 + 0.5α23 = 0.3 33 En appliquant la même méthode pour chacune des diérences de probabilités, on obtient le système suivant : 0.5α1 + 0.4α12 0.5α1 + 0.4α13 0.4α + 0.6α 2 12 0.6α2 + 0.5α23 0.4α3 + 0.6α13 0.6α3 + 0.5α23 = 0.2 = 0.2 =0 = 0.3 =0 = 0.3 La résolution donne α2 = α3 = α12 = α13 = 0,α1 = 0.4 et α23 = 0.6. Cela signie que les alternatives 2 et 3 sont similaires car seules leurs caractéristiques communes sont valorisées : elles sont donc parfaitement substituables. Les auteurs ont aussi appliqué cette méthode à un exemple de la vie réelle et ils montrent sur cet exemple que le modèle de Tversky est plus pertinent que le modèle de Luce. La pertinence de l'utilisation de paramètres supplémentaires (par rapport à Luce) est validée empiriquement. Nous allons maintenant voir un exemple d'application de la méthode des diérences de probabilité où la spécicité du modèle de Tversky en tant que RDRM procédural prend toute son importance. 3.3 Une application du modèle de Tversky à la politique de la santé Il paraît réducteur de n'utiliser les modèles de choix discret que pour formuler des demandes agrégées, comme le laisse entendre McFadden (1981). Ces modèles, et en particulier les RDRM procéduraux, peuvent fournir des conseils utiles en terme de politique économique. Imaginons que l'état s'interroge quant à la pertinence d'interdire un certain médicament, noté "médicament 1". Ce dernier est soupçonné d'être consommé davantage parce qu'il contient une substance chimique proche de certains stupéants (qui lui est spécique) plutôt que pour ses vertus curatives. Une évaluation économétrique montre que la consommation du médicament 1 parmi un ensemble de médicaments donnés est plus importante chez un groupe d'individus consommant habituellement des stupéants que chez un groupe témoin (de façon équivalente, on peut considérer un RUM qui montre que la probabilité de consommer ce médicament est plus forte dans le groupe de "dro34 gués"). Le problème est alors d'identier si cette sur-consommation du médicament 1 s'explique par ses propriétés curatives, le groupe de "drogués" nécessitant des soins plus importants que le groupe témoin, ou par la recherche de la substance chimique incriminée. Le modèle de Tversky permet de mieux répondre à cette question que les modèles RUM car 1) il précise explicitement que les diérences de probabilités de choix découlent des comportements individuels et 2) il stipule que ces choix sont fondés sur les caractéristiques des produits. Un moyen de discerner laquelle des interprétations est la bonne est de calculer les paramètres du modèle de Tversky. L'utilité du médicament 1 correspond à l'utilité de ses caractéristiques spéciques et donc de la substance chimique suspectée : elle est notée α1 . Supposons qu'il existe un autre médicament, le médicament 2 ayant exactement les mêmes propriétés curatives que le médicament étudié sans posséder la substance chimique suspecte. L'utilité des caractéristiques spéciques aux deux médicaments est alors notée α12 . Après avoir calculé ces deux utilités avec la méthode des diérences de probabilités, il sut alors de les comparer. Si α1 est beaucoup plus élevée que α12 pour le groupe de drogués que pour le groupe témoin, alors le médicament 1 est bien consommé pour sa substance chimique. Cette conclusion n'aurait pu être tirée avec d'autres modèles de choix discrets car elle aurait posé des problèmes d'interprétation. Nous allons maintenant voir que le modèle de Tversky est pourtant sujet à quelques limites signicatives. 4 Les limites du modèle de Tversky Une première limite du modèle de Tversky tient à la diculté de concevoir toutes les séquences d'élimination possibles. Cela a conduit Tversky et Sattath (1979) à proposer une procédure heuristique qui permettrait d'éviter l'énumération complète des possibilités. Cependant, si l'ensemble de choix n'est pas trop élevé, cette tâche reste réalisable. Une critique plus sévère concerne la prise en compte des caractéristiques continues ou des caractéristiques discrètes dépendantes. Rappelons que les caractéristiques dépendantes, comme la couleur (cas où l'ensemble comporte n éléments : {bleu, rouge, vert, bleu marine...}), sont décomposées en un ensemble de n caractéristiques indépendantes. Chaque caractéristique continue (comme la puissance d'un véhicule, mesurée par le nombre de ch...) est également transformée en une unique caractéristique indépendante par le recours à un seuil d'aspiration. 35 Comme le notent De Palma et Thisse (1989, p 166), cette représentation des caractéristiques continues peut poser problème car les montants absolus des caractéristiques n'importent pas. Ainsi si toutes les alternatives possèdent les mêmes caractéristiques, elles ont une probabilité égale d'être sélectionnées alors qu'une alternative peut dominer toutes les autres en terme des montants absolus de caractéristiques. Il semble donc que cette manière de prendre en compte les caractéristiques continues soit infructueuse et on peut reprocher au modèle de Tversky de ne pas supposer assez de rationalité. Voici une critique qui a pu paraître rédhibitoire à de nombreux économistes... Une autre façon de prendre en compte une caractéristique continue pourrait être de la décomposer en n caractéristiques indépendantes. Cependant, le choix de n serait nécessairement arbitraire. Une voie plus prometteuse, explorée dans la section III.2.5.2, consiste à remplacer la fonction d'utilité u dénie sur T' par un ensemble de fonctions d'utilités, discrètes ou continues, selon la nature de l'aspect considéré. Une troisième critique, liée à la dépendance, concerne la probabilité de sélectionner une certaine caractéristique discriminante. Prenons un exemple pour préciser ce point. Supposons que l'individu ait le choix entre 3 automobiles, pouvant comporter les aspects suivants : α ="airbag", β ="bleu turquoise", γ ="bleu roi", δ ="bleu marine" avec : u α β γ δ = 4 4 3 4 . Supposons que les 3 alternatives soient k1 = (α, β), k2 = (γ) et k3 = (δ). Dans ce cas, la probabilité de sélectionner les choix selon l'une des couleurs est 11/15 alors que celle de sélectionner les choix selon la présence de l'airbag est seulement de 4/15. Ce résultat peut sembler paradoxal. En eet, les diérentes couleurs sont très proches en terme d'utilité et on pourrait s'attendre à ce que la couleur de la voiture soit une caractéristique peu discriminante pour l'individu. En revanche, l'airbag apporte un supplément d'utilité signicatif : on peut supposer que la probabilité de sélectionner les options en fonction de la présence (ou non) de l'airbag soit nettement plus élevée. Cela suppose que la structure des caractéristiques (et en particulier le fait que les caractéristiques soient dépendantes) importe sur le choix des individus, alors que cette dernière n'est pas prise en compte par Tversky. On peut alors se demander si le rapport 36 des utilités est un critère pertinent pour sélectionner une caractéristique. Ces remarques suggèrent que le modèle de Tversky pourrait être amélioré en prenant mieux en compte à la fois les caractéristiques continues et les caractéristiques dépendantes. 37 Troisième partie Extensions du modèle de Tversky et perspectives d'amélioration des modèles à règle de décision aléatoire. Dans cette partie, nous étudierons d'abord le modèle proposé par Billot et Thisse et les interprétations sur lesquelles il s'appuie. Puis nous proposerons un modèle visant à prendre en compte la dépendance entre les caractéristiques tout en conservant une séquence d'élimination à la Tversky. 1 Le modèle de Billot et Thisse : une prise en compte du contexte 1.1 Les idées fondamentales du modèle Le modèle de Billot et Thisse peut être vu comme une amélioration de la version abstraite du modèle de Tversky. Il fournit également des interprétations alternatives à la procédure EBA pouvant conduire à ce type de structure formelle. Comme l'a montré Simon (1957), l'individu face à un grand nombre d'alternatives va se concentrer sur un petit nombre d'entre elles, eectuer une focalisation. Pourtant, l'individu n'est jamais parfaitement sûr de l'alternative qu'il va sélectionner et répugne donc à éliminer un trop grand nombre d'alternatives. Ce comportement s'interprète comme une préférence pour la exibilité (Kreps, 1979). Il y a donc un conit entre la nécessité de focalisation et la préférence pour la exibilité. Or ce conit peut être représenté en considérant que l'individu valorise la possibilité de choisir ou à l'inverse sanctionne l'absence de possibilité de choix. Cela revient à mettre l'accent sur le contexte dans lequel le choix est eectué. L'utilité d'un ensemble d'actions peut alors diérer de la somme des utilités des actions et l'individu peut attribuer des pondérations diérentes aux ensembles de choix. La prise en compte du contexte impose de relâcher la contrainte d'additivité des probabilités, ce qui peut être eectué grâce aux capacités de Choquet. Avec comme seule contrainte la monotonicité, les capacités permettent plus de liberté dans l'évaluation des 38 poids associés aux sous-ensembles d'alternatives. En particulier, la somme des capacités de choix sur l'ensemble total des alternatives peut être diérente de 1 et peut varier selon la taille de l'ensemble de choix. Le problème de cette représentation est que les capacités ne sont pas observables mais les auteurs surmontent cette diculté en montrant que les capacités peuvent être converties en probabilités à l'issue d'une procédure. 1.2 Formulation du modèle de Billot et Thisse et mise en perspective On dénit d'abord les notions d'utilité et de capacité avant d'exposer la formule de calcul des capacités. Puis on détaille le concept d'utilité conceptuelle. Enn, on étudie les liens entre le modèle de Billot et Thisse et d'autres modèles classiques. 1.2.1 Utilité et capacité de Choquet Soit u(.) : 2A → R+ où u(S) exprime la satisfaction de l'individu de choisir dans l'ensemble d'opportunité S. L'utilité satisfait : (U1) : u(∅) = 0. (U2) : u(A) < ∞. (U3) : Si A ⊇ T ⊇ S alors u(A) ≥ u(T ) ≥ u(S). Les deux premiers axiomes sont des normalisations alors que le troisième exprime la préférence pour la exibilité. Avec cette formulation, l'utilité de T peut être plus petite ou plus grande que la somme de ses éléments. On s'intéresse ensuite aux capacités. Considérons deux ensembles d'opportunités, S et T tels que S ⊆ T ⊆ A : alors T constitue le contexte du choix de S. La propension à choisir S dans T est donnée par cT (S) de 2A dans [0,1]. La capacité satisfait : (C1) : cT (∅) = 0. (C2) : cT (T ) = 1. (C3) : Si T ⊇ S ⊇ R alors cT (T ) ≥ cT (S) ≥ cT (R). Le troisième axiome précise que la capacité d'un ensemble de choix ne peut décroître 39 si on y ajoute une alternative. L'utilisation de capacités non-additives peut se justier de 2 façons : - l'existence de capacités peut être une conséquence de la dépendance de l'utilité par rapport au contexte. Dans la théorie standard, l'utilité est libre de contexte dans le sens où la contribution d'une alternative à l'utilité d'un ensemble d'opportunités est indépendante de l'utilité des autres alternatives dans cet ensemble. Ainsi, la somme des probabilités est égale à 1 alors que cette égalité peut être brisée si l'utilité dépend du contexte. L'incertitude est ici intrinsèque car elle est dans le contexte même. - on peut aussi considérer l'interprétation habituelle en la théorie de la décision selon laquelle l'individu face à l'incertitude ne dispose pas d'une distribution de probabilité a priori. Il possède en fait plusieurs distributions de probabilités qu'il combine selon son attitude par rapport au risque. L'incertitude est ici extrinsèque car elle se situe dans la formation des probabilités. Billot et Thisse proposent alors une généralisation du "choice axiom" de Luce : (GCA) : Les capacités de choix sont telles que ∀R ⊆ S ⊆ T, cT (R) = cT (S).cS (R) Ils en déduisent un lien entre les capacités de Choquet et l'utilité des ensembles de choix. PROPOSITION : Supposons que cT (S) 6= 0, 1 ∀S ⊆ T . Alors (GCA) est vrai ssi il existe une fonction u(.) positive satisfaisant U1 à U3 dénie sur 2T telle que cS (R) = u(R)/u(S), ∀R ⊆ S ⊆ T . Cette fonction est unique à une transformation linéaire près.17 La capacité de choisir une alternative dans un ensemble d'opportunités est donc fonction de l'utilité de cette alternative mais aussi des autres alternatives de l'ensemble de choix. Le ratio obtenu incorpore de façon simple le conit entre exibilité et focalisation. Il implique que : - la propension à choisir un sous-ensemble augmente avec son utilité. - la propension de l'individu à se restreindre à S n'augmente pas quand l'utilité de T s'accroît. Après avoir présenté la formulation de base, on décompose l'utilité des ensembles de choix an de faire apparaître une utilité contextuelle qui sera utile pour la conversion des capacités en probabilités. 17 pour une preuve de cette proposition, cf. Billot et Thisse (1999, p 524) 40 1.2.2 Le concept d'utilité contextuelle Si l'utilité est dépendante du contexte alors on peut exprimer l'utilité contextuelle d'un ensemble S = a, b par µ(S) = u(a, b) − [u(a) + u(b)]. En désignant par |S-R| la cardinalité de S-R, on peut alors généraliser cette formule : µ(.) : 2A → R X S → µ(S) = (−1)|S−R| (u(R) − X u(a)) a∈R R⊆S;|R|≥2 L'utilité contextuelle de S peut s'interpréter comme la (dis)satisfaction que l'individu obtient en choisissant dans S indépendamment des propres sous-ensembles de S. Elle peut être positive si le contexte est bon ou négative dans le cas contraire. Par ailleurs, cette utilité contextuelle correspond à l'inverse de Möbius de l'utilité : µ(S) = M [u(S)] si |S| ≥ 2. Billot et Thisse identient une condition pour que µ(S) = 0 (avec |S| ≥ 2) : il faut que u(.) soit modulaire (ou libre de contexte) c'est-à-dire qu'elle vérie : u(S ∪ S 0 ) + u(S ∩ S 0 ) = u(S) + u(S 0 ) L'utilité µ(.) d'un ensemble d'alternatives est toujours non-négative quand l'utilité u(.) est k-monotone avec k = 2n (c'est le cas de l'utilité de Luce) ce qui implique l'inégalité : u( k [ i=1 Si ) ≥ X i u(Si ) − X k+1 u(Si ∩ Sj ) + ... + (−1) i<j u( k \ Si ). i=1 Si k=1, on retrouve (U3) alors que la 2-monotonicité correspond à la propriété de sur-modularité (dénie plus loin). Si k ≥ 3, l'intuition n'est pas claire. Appliquons désormais l'inverse de Möbius aux capacités. Si (GCA) est vérié alors : M [cT (S)] = µ(S)/u(T ). Ainsi, l'inverse de Möbius d'une capacité de choix conserve la même forme que cette capacité de choix quand l'utilité de S est remplacée par son utilité contextuelle. Contrairement à la capacité de choix, son inverse de Möbius peut pourtant être négatif. Cependant, 41 si u(.) est 2n -monotone, il n'est pas négatif et correspond à une probabilité de base. Après avoir déni tous les concepts de base, nous allons maintenant voir le lien entre le modèle de Billot et Thisse et des modèles connus. 1.2.3 Capacités et lien avec d'autres modèles Tout d'abord, Billot et Thisse proposent un axiome puis une proposition permettant de retrouver le modèle néoclassique. Cet axiome s'écrit : (N) : Si ∀S ∈ 2A , ∃T ∈ 2A tel que u(S) = u(S ∪ T ) alors ∀T 0 ∈ 2A , u(S ∪ T 0 ) = u(S ∪ T 0 ∪ T ). d'où PROPOSITION : Si u(.) est une utilité satisfaisant U1 à U3 alors (N) est équivalent à poser u(S) = max[u(a)]. a∈S On peut donc par (N) se ramener au cas standard où l'individu ne valorise pas la possibilité de choisir dans un plus grand ensemble. Il reste que les capacités dièrent des probabilités : ainsi la capacité de choisir l'alternative préférée est 1 mais les autres capacités peuvent être non nulles. Ensuite, les auteurs énoncent un axiome (L) qui, couplé au GCA, implique l'axiome de choix proposé par Luce en 1959. Cet axiome s'écrit : (L) : ∀S, S 0 , T ∈ 2A tel que S ∩ S 0 = ∅ et u(T ) > 0, cT (S ∪ S 0 ) = cT (S) + cT (S 0 ). Cela signie qu'on imposeX aux capacités les mêmes contraintes que des probabilités. [u(a)] possède la propriété de modularité. Ainsi, la capaDans ce cas, l'utilité u(S) = a∈S cité de choix est une probabilité ssi l'utilité est modulaire (ou libre de contexte). Rappelons que, dans le cas d'une utilité modulaire, le supplément d'utilité généré par une nouvelle alternative dépend seulement des caractéristiques de cette alternative. Nous allons maintenant voir comment transformer les capacités, qui sont inobservables, en probabilités qui, elles, sont observables. 42 1.3 Le théorème de conversion des capacités aux probabilités Après avoir étudié la procédure de conversion, nous évoquerons une comparaison entre les probabilités et les capacités puis nous mettrons en perspective les probabilités converties par rapport à d'autres modèles. 1.3.1 La méthode de conversion On considère une mesure de probabilité λ et un opérateur ψ(.) de l'utilité u(.) basé sur l'utilité contextuelle µ(.). ψ λ (.) : 2A → R X S → ψ λ [u(S)] = λ(R ∩ S|R)µ(R) R⊆A;R∩S6=∅ Ici ψ λ [u(S)] est une combinaison des utilités contextuelles pondérées par les ensembles d'opportunités dont l'intersection avec S est non vide. Les poids correspondent aux probabilités conditionnelles λ(.|R) que l'individu choisisse dans S lorsqu'il est confronté à R. Si u est modulaire, ψ λ [u(S)] = u(S). Dans le cas particulier de singletons, si (GCA) est vérié, alors pλT (.) : 2T → [0, 1] X a → pλT (a) = λ(a|R).M [cT (R)] (23) a∈R⊆T Si l'individu a une préférence pour la exibilité, on peut donc convertir les capacités en probabilités cohérentes avec les utilités dépendantes du contexte18 . Le raisonnement sous-jacent au modèle est le suivant : quand l'individu détermine la possibilité de sélectionner l'alternative a ∈ T , il s'intéresse à tous les contextes possibles dénis par les sous-ensembles R ⊆ T contenant a. Dans chaque contexte R, mauvais ou bon, il a une probabilité λ(a|R) de choisir a. Cependant l'individu est conscient que certains contextes sont bons et d'autres mauvais, avec une intensité variable mesurée par M [cT (R)]. Ainsi pλT (a) est augmentée à chaque fois que le concept est bon (et vice versa). On peut noter que l'individu a une attitude symétrique entre les bons et les mauvais contextes. En général, les probabilités converties ne satisfont pas (L). De plus, comme la distribution de probabilités λ est arbitraire, plusieurs probabilités de conversion peuvent être construites. Il est donc nécessaire de lever l'indétermination en observant les fréquences qui émergent des choix répétés de l'individu. 18 pour une preuve, cf. Billot et Thisse (1999, p 530) 43 1.3.2 Comparaison entre probabilités et capacités On peut comparer les capacités et les probabilités de conversion mais cela dépend de la forme de la fonction d'utilité. Rappelons que l'utilité est : - modulaire si u(S ∪ S 0 ) = u(S) + u(S 0 ) − u(S ∩ S 0 ) (cas de Luce) - sous-modulaire (ou concave) si u(S ∪ S 0 ) + u(S ∩ S 0 ) ≤ u(S) + u(S 0 ) (cas de l'utilité néoclassique). - sur-modulaire (ou convexe) si -u est sous-modulaire, c'est-à-dire si u(S ∪S 0 )+u(S ∩ S 0 ) ≥ u(S) + u(S 0 ) On peut voir une utilité sur-modulaire comme traduisant un "bon contexte" et une utilité sous-modulaire comme traduisant un "mauvais contexte". On peut ensuite dénir l'utilité marginale discrète d'une alternative a comme le supplément d'utilité résultant de l'ajout de l'alternative dans l'ensemble d'opportunités S ⊆ A−a : dmu(a, S) = u(S ∪ a) − u(S). Si l'individu a une préférence pour la exibilité, l'utilité marginale discrète d'une alternative est toujours non-négative (c'est un indicateur de la préférence pour la exibilité). On peut alors montrer qu'une utilité u(.) satisfaisant (U1) à (U3) est sous-modulaire ssi ∀S ⊆ T ⊆ A − A on a dmu(a, S) ≥ dmu(a, T ). L'inverse s'applique pour une utilité sur-modulaire. Ainsi une utilité sous-modulaire a une utilité marginale discrète (une préférence pour la exibilité) décroissante et vice versa. Si (GCA) s'applique, alors pλT (S) ≤ cT (S) ssi u(.) est sous-modulaire (et vice versa). Ainsi, si l'individu a une préférence pour la exibilité croissante (utilité sur-modulaire), alors les probabilités converties sont supérieures ou égales aux capacités correspondantes. Pour un ensemble de choix donné, cela revient à armer que si le contexte est mauvais, les probabilités converties sont plus élevées que les capacités alors que c'est l'inverse si le contexte est bon. On peut souligner que l'utilité d'un individu peut être sur-modulaire pour certains ensembles de choix et sous-modulaire pour d'autres (tout comme l'utilité 44 dans le risque peut être convexe sur certaines parties et concave sur d'autres...). 1.3.3 Probabilités converties et lien avec les autres modèles On peut tout d'abord relier ces probabilités à celles du modèle néoclassique. Si l'on suppose que λ est donnée par les probabilités de Luce et que u(a) = u ∀a ∈ T alors on obtient une distribution uniforme : pλT (a) = 1/|T | C'est un cas extrême où l'individu ne prête attention qu'au nombre d'alternatives présentes dans l'ensemble d'opportunités. On peut ensuite rappeler que les probabilités de conversions satisfont le "choice axiom" de Luce ssi l'utilité est modulaire, l'inverse n'étant pas vrai en général. Enn, si on pose M [cT (R)] = PkR dans (23) alors on obtient une généralisation de la version abstraite du modèle EBA de Tversky à la diérence que PkR peut être négatif et que sa somme peut être diérente de 1. En plus de cette contrainte, l'utilité contextuelle doit toujours être positive, ce qui impose que l'utilité soit 2n − monotone. En eet, dans le modèle de Tversky cette utilité contextuelle s'interprète comme l'utilité des caractéristiques communes aux alternatives de l'ensemble mais spéciques par rapport aux autres alternatives. Elle ne peut donc être négative. Autrement dit, pour Tversky, l'utilité spécique d'un ensemble de choix pouvait être supérieure de la somme des utilités spéciques des choix à cause de l'existence de caractéristiques communes. Pour Billot et Thisse, l'utilité d'un ensemble de choix peut être inférieure ou supérieure à la somme des utilités des choix à cause de la prise en compte des contextes. Notons qu'il devrait être possible de cumuler les 2 interprétations en dénissant l'utilité contextuelle dans le modèle de Tversky comme µ(S) = u(S) − u(a, b) − u(a) − u(b) dans le cas où S = a, b. Ici u(S) s'interprète comme l'utilité de l'ensemble S alors que u(a,b) s'interprète comme l'utilité des caractéristiques communes à a et à b. Dans ce cas, un contexte négatif pourrait traduire une insatisfaction de l'individu concernant sa préférence pour la diversité (au niveau des caractéristiques) ou concernant sa préférence pour la exibilité. 45 1.4 La résolution du paradoxe bus bleu-bus rouge Le modèle proposé par Billot et Thisse permet un mode de résolution du paradoxe de Debreu alternatif à celui de Tversky. Notons c=voiture, bb=bus bleu, rb=bus rouge. Pour reprendre les conditions xées par Debreu, les auteurs supposent que u(c) = u(bb) = u(rb) = u(bb ∪ rb) = α et u(c ∪ bb) = u(c ∪ rb) = u(c ∪ rb ∪ bb) = β . On suppose alors que l'individu a une préférence pour la exibilité dans le sens où il valorise la possibilité de choisir entre une voiture et un bus (quelle que soit sa couleur) mais pas de choisir entre 2 bus au lieu d'un seul, d'où β > α. De plus, l'utilité marginale discrète d'ajouter la voiture ou le premier bus à l'ensemble des opportunités est positive alors que celle de l'ajout du second bus est nulle. D'où cA (c) = cA (bb) = cA (rb) = cA (bb ∪ rb) = α/β Ces probabilités de choix ne sont pas additives. Si T = {c, bb} alors cT (c) = cT (bb) = α/β . Si λ est donnée par les probabilités de Luce alors pλT (c) = pλT (bb) = 1/2 à chaque fois que β > α. Si T = c, bb, rb, on trouve pλT (c) = (2β − α)/3β et pλT (bb) = pλT (rb) = (β + α)/6β . Ainsi si β > α, la probabilité de choisir la voiture est toujours strictement plus grande que la probabilité de choisir un des bus. On a donc présenté le modèle de Billot et Thisse qui améliore directement la version abstraite du modèle de Tversky en fournissant une interprétation contextuelle de l'utilité d'un ensemble de choix. Cependant, une autre méthode pour dépasser les limites du modèle de Tversky est d'en améliorer la version standard, par exemple en modiant la prise en compte des caractéristiques dans la procédure de sélection des alternatives, puis de voir en quoi cela inue sur la version abstraite. C'est cette méthode, plus indirecte, que nous allons esquisser dans les sections suivantes. 2 Quelques propositions pour améliorer la modélisation des caractéristiques Nous proposerons d'abord une formalisation regroupant les caractéristiques dépendantes au sein de familles de caractéristiques. Puis nous discuterons des modalités de dénition d'une structure de familles et nous verrons le lien avec d'autres modèles de 46 choix discrets. Enn, nous étudierons comment ce modèle traite du paradoxe de Debreu ainsi que les limites et les perspectives d'une telle formalisation. 2.1 Idées principales du modèle Plutôt que de transformer les caractéristiques liées en caractéristiques indépendantes (comme dans le cas de Tversky), nous proposons un modèle permettant de prendre en compte les ensembles de caractéristiques discrètes dépendantes, ces ensembles étant qualiés de "familles". Les caractéristiques continues sont décomposées en n caractéristiques discrètes appartenant à une même famille, ce qui peut permettre une meilleure prise en compte du niveau absolu (mais ne constitue pas une panacée). L'idée est que l'individu sélectionne de façon aléatoire une famille de caractéristiques (et non plus une caractéristique comme dans le modèle de Tversky), la probabilité de sélectionner une famille étant égale au rapport des utilités des meilleures caractéristiques des familles. Deux versions du modèle sont alors possibles : dans l'une d'elle, on élimine toutes les alternatives ne possédant pas l'une des meilleures caractéristiques de la famille discriminante retenue. Dans l'autre, on calcule la probabilité de sélectionner une caractéristique donnée au sein de la famille (cette dernière étant égale au rapport des utilités) puis on élimine toutes les alternatives ne possédant pas cette caractéristique. La première version suppose plus de rationalité que la seconde mais ore moins de liberté dans l'interprétation et peut sembler inadaptée à certains types de préférences. 2.2 Dénitions et formulation de l'EBA en présence de familles 2.2.1 Familles de caractéristiques et sélection en leur sein Tout d'abord, nous ré-utiliserons ici les mêmes dénitions que celles de Batsell et al (2003), pour la version standard du modèle de Tversky présentée en section 1.2. On a ainsi un ensemble d'alternatives T et un ensemble de caractéristiques T' sur lequel on dénit une utilité u. On reprend les dénitions de k 0 , Tα , A0 , A0 , Aα et A. On introduit ensuite de nouvelles dénitions. On dénit une famille de caractéristiques comme un ensemble de caractéristiques mutuellement exclusives : ainsi, si une caractéristique d'une famille appartient à une alternative, aucune autre caractéristique de cette famille n'appartient à cette alternative. 47 F = {α ∈ T 0 /α ∈ k 0 ⇒ β ∈ / k 0 , ∀β 6= α ∈ F } La famille d'une caractéristique α donnée est : Fα = {σ ∈ F/α ∈ F } De plus, l'ensemble des caractéristiques d'une même famille procurant la même utilité et qui sont partagées par toutes les alternatives de A est donné par (nous verrons l'interprétation de cet ensemble plus loin) : F0 = {σ ∈ F/∀k ∈ A, ∃β 6= σ ∈ F ∩ k 0 /u(σ) = u(β)} On doit également faire l'hypothèse qu'il existe une structure de famille (cette hypothèse sera discutée dans la section 2.2.5) : = = {F ∈ T 0 / [ F = T 0 et \ F = ∅} (24) Ce modèle peut alors être décrit par le quadruplet {T,T',=,u}. Certaines familles peuvent se composer d'une seule caractéristique, d'autres de plusieurs. Pour un ensemble T' donné, il existe en général plusieurs structures de familles possibles. On est donc contraint de supposer que la structure de familles est connue ex ante par le modélisateur. L'ensemble des caractéristiques de toutes les familles qui procurent le plus haut niveau d'utilité au sein de leur famille (par abus de langage, on peut le nommer ensemble des caractéristiques "optimales") est noté : T ∗ = {σ ∈ T 0 /u(σ) ≥ u(β), ∀β 6= σ ∈ Fσ } Au sein d'une famille F donnée, cet ensemble est noté : F ∗ = {σ ∈ F/u(σ) ≥ u(β), ∀β 6= σ ∈ Fσ } F ∗ peut comporter une ou plusieurs caractéristiques optimales. Il sera noté Fα∗ si on fait référence à la famille d'une caractéristique α donnée. On notera : u(F ∗ ) = u(σ/σ ∈ F ∗ ) comme le plus haut niveau d'utilité pouvant être obtenu au sein de la famille F retenue. 48 Pour une famille donnée, l'ensemble des alternatives possédant une caractéristique optimale de cette famille est : AF ∗ = {k ∈ A/k 0 ∩ F ∗ 6= ∅} Nous allons maintenant voir comment utiliser ces diérents ensembles an de calculer la probabilité de choisir une famille discriminante donnée. Puis à partir de cette probabilité, nous montrerons qu'il existe 2 façons de calculer la probabilité de choix d'une alternative dans A. 2.2.2 Caractéristiques éligibles et famille discriminante Nous allons tout d'abord préciser à quoi correspond l'ensemble des caractéristiques discriminantes (dans le modèle de Tversky, il correspond à A0 \A0 ). Pour un ensemble A donné, l'ensemble des caractéristiques discriminantes est : A0D = {α ∈ A0 \(A0 ∪ F0 )} On élimine ici les caractéristiques communes de A0 qui ne peuvent servir à discriminer entre les alternatives. Mais on doit également éliminer les caractéristiques contenues dans F0 : cela correspond au cas où chaque alternative restante possède une caractéristique appartenant à une famille donnée et que l'utilité de chacune de ces caractéristiques est égale. En conséquence, bien que les caractéristiques soient diérentes (sinon, elles auraient été éliminées dans A0 ), il est impossible de discriminer entre les alternatives sur la base de cette famille. Les caractéristiques discriminantes pour une alternative k donnée sont : 0 kD = {α ∈ k 0 ∩ A0D } Après avoir éliminé les caractéristiques non discriminantes, on sélectionne une certaine famille de caractéristiques. La probabilité de sélectionner une famille F donnée est égale au rapport entre la plus haute utilité au sein de F et la somme de toutes les plus fortes utilités de toutes les familles. Formellement, cette probabilité est donnée par : P (F ) = u(F ∗ ) X u(G∗ ) (25) G∈=/G∩A0D 6=∅ On remarque que cette formulation permet de répondre à la critique de sur-pondération des caractéristiques dépendantes : l'utilité de la famille n'est pas croissante avec le nombre de membres, qui n'est pas un critère pertinent pour discriminer. Ainsi, dans l'exemple de la section II.4, la probabilité de discriminer selon une couleur serait de 4/8 alors que celle 49 de discriminer selon la présence d'airbag serait aussi de 4/8. En revanche, cette probabilité est carrément indépendante du niveau d'utilité des caractéristiques "sous-optimales", ce qui peut sembler une hypothèse forte (que nous discuterons plus loin). Par exemple, dans le cas du choix entre les automobiles, on s'attend même à ce que la probabilité de sélectionner l'airbag comme caractéristique discriminante soit supérieure à celle de choisir une couleur. Nous allons maintenant voir deux moyens d'utiliser cette famille discriminante an d'éliminer des alternatives. 2.2.3 Elimination parmi les meilleurs aspects Nous allons nous intéresser à une première formulation du modèle, que l'on pourrait qualier d'"elimination among best aspects" (EBFA). Dans cette version, on élimine toutes les alternatives 1) qui ne possèdent aucune caractéristique de la famille sélectionnée et 2) qui ne possèdent pas la caractéristique préférée au sein de la famille. Autrement dit, cela revient à ne sélectionner que les alternatives possédant la caractéristique de la famille retenue avec le plus haut niveau d'utilité. Comme dans le cas de Tversky, cette formule est récursive : on arrête si les alternatives restantes ont les mêmes caractéristiques et dans le cas contraire on retourne à l'étape précédente. Si plusieurs caractéristiques ont une utilité maximale dans la famille, les alternatives ne possédant aucune de ces caractéristiques sont éliminées. Par la suite, les alternatives restantes ne sont plus discriminées selon cette famille de caractéristiques, qui est écartée à travers F0 . Formellement, la probabilité de choix d'une alternative k parmi A s'écrit : X PkA = P (F ).PkAF ∗ (26) 0 6=∅ F ∈=/F ∩kD Enn, s'il reste plusieurs alternatives mais plus de caractéristiques pour les discriminer, on adopte une loi de probabilité uniforme. La formulation complète est donnée par : PkA = X 0 6=∅ F ∈=/F ∩kD u(F ∗ ) X AF ∗ 0 si kD 6= ∅ .Pk ∗ u(G ) G∈=/G∩A0D 6=∅ 1 |A| sinon 50 Cette version suppose plus de rationalité (ou des préférences moins "uctuantes") que le modèle de Tversky. Cet auteur suppose une double incertitude : à la fois sur le type de caractéristique sélectionné et sur la caractéristique choisie. Dans cette version "EABA", nous considérons que le contexte peut eectivement rendre aléatoire la sélection d'un type de caractéristique mais que la sélection d'une des caractéristiques à l'intérieur de la famille n'est pas aléatoire (pas de préférences oues ou dépendantes du contexte à l'intérieur des familles). Par exemple, la couleur peut être un attribut relativement secondaire dans l'achat d'un sèche-cheveux et un attribut essentiel dans l'achat d'un papier-peint. Par contre, la possibilité qu'une couleur donnée soit valorisée diéremment selon les contextes ne peut être prise en compte dans ce cadre. Ainsi, les préférences d'un individu qui déteste les automobiles de couleur bleue mais apprécie la couleur bleue dans les yeux de sa compagne ne sont pas prises en compte de façon satisfaisante dans cette version. Cette formulation est plus proche du modèle déterministe que de celui de Tversky : le comportement des individus est supposé déterministe à l'intérieur des familles et probabiliste entre les familles. Le modèle est aussi plus proche du modèle lexicographique que de celui de Tversky. En eet, la structure par familles revient nalement à assigner un ordre partiel sur certains groupes de caractéristiques. 2.2.4 Elimination par familles d'aspects Il peut être utile de conserver la probabilité de choix d'une famille donnée en (25) tout en intégrant la possibilité de uctuation des préférences à l'intérieur des familles de caractéristiques. C'est pourquoi une seconde formulation est envisageable. Dans cette version, on élimine toujours les alternatives qui ne possèdent aucune caractéristique de la famille sélectionnée mais on suppose ensuite que l'individu sélectionne une caractéristique discriminante au sein de la famille discriminante retenue en première étape de la décision. La probabilité de sélectionner une caractéristique donnée est égale au rapport d'utilité avec toutes les autres caractéristiques de la famille. On la note : u(α) PαFα = X u(β) β∈Fα Par la suite, comme dans le modèle de Tversky, on élimine les alternatives ne possédant 51 pas cette caractéristique. Dans ce cadre, que l'on peut qualier d'"elimination by families of aspects", la probabilité de choix d'une alternative k parmi A s'écrit : PkA = X P (Fα ).PαFα .PkAα (27) 0 α∈kD En intégrant la possibilité qu'il n'y ait plus de caractéristiques discriminantes pour l'ensemble A, la formule complète est : PkA = X u(α) X . α∈k0 u(β) u(F ∗ ) X α D G∈=/G∩A0D 6=∅ β∈Fα Aα 0 6= ∅ .Pk si kD ∗ u(G ) 1 |A| sinon Ces deux formulations sont fondées sur l'hypothèse d'existence d'une structure de familles bien dénie, ce que nous allons discuter dans la section suivante. 2.2.5 La dénition d'une structure de familles Tversky suppose que l'identication des caractéristiques de chaque alternative peut être réalisée sans diculté. Cependant, l'identication des familles de caractéristiques peut paraître plus dicile : la structure de familles dépend du critère de similarité retenu par le modélisateur lors de la construction des familles. Parfois, la similitude est évidente (même unité de mesure...), d'autres fois moins. De plus, même si des "grappes" de caractéristiques similaires sont identiées, il est possible que plusieurs structures de familles restent possibles. Sans résoudre totalement ce problème, certaines précisions peuvent être apportées sur la "bonne" manière de dénir une structure de familles. Il convient de suivre 2 règles heuristiques lors de la dénition : - il faut prendre en compte les caractéristiques les plus élémentaires possibles : α ∈ F → @β ∈ T 0 /β ⊂ α. - il faut prendre en compte le maximum de contraintes possibles entre les caractéristiques. 52 Un exemple peut illustrer la portée de ces règles. Imaginons que l'individu doive choisir une automobile, cette dernière pouvant ou non être équipé d'un autoradio. L'autoradio comporte 4 ou 6 haut-parleurs (HP) et inclut ou non un lecteur CD. Dans ce problème, plusieurs structures de familles de caractéristiques peuvent être dénies : - une structure comportant une seule famille avec 4 caractéristiques correspondant aux 4 variétés possibles d'autoradio. - une structure avec 2 familles, la première (2 caractéristiques) concernant le nombre de HP et la seconde (1 caractéristique) concernant la présence d'un lecteur CD. - une structure avec 3 familles, l'une avec la présence de l'autoradio (1 caractéristique), une autre avec le nombre de HP (2 caractéristiques) et une autre avec la présence du lecteur CD (1 caractéristique). Une autre voie aurait pu consister à considérer une famille concernant la présence de l'autoradio puis à incorporer au sein de cette familles deux "sous-familles" avec le nombre de haut-parleurs et la présence du lecteur CD : cependant cette représentation est impossible car elle contredit (24). Quelle est la meilleure structure ? La première structure correspond à l'adoption de caractéristiques "sophistiquées" combinant plusieurs éléments. Cette forme présente pourtant 2 inconvénients : - L'énumération de caractéristiques complexes composées de beaucoup d'éléments peut devenir rapidement fastidieuse. De plus, la contrainte selon laquelle l'autoradio a un et un seul nombre d'HP n'apparaît pas dans la structure. - elle suppose que l'individu discrimine sur l'autoradio pris dans son ensemble alors qu'il pourrait choisir de discriminer sur la présence ou non d'un autoradio, ou sur la présence d'un autoradio 6HP seulement ou sur la présence d'un autoradio CD seulement. La seconde structure prend en compte la contrainte sur le nombre d'HP mais ne permet toujours pas à l'individu de discriminer sur la présence ou non d'un autoradio. La structure avec 3 familles semble donc la meilleure. On peut en déduire un principe de décomposition maximum et avancer que de petites familles simples sont préférables à de grandes familles complexes. 53 2.3 Une mise en perspective du modèle avec familles d'aspects Nous allons maintenant étudier les relations entre le modèle avec familles d'aspects et les modèles de Tversky et de Luce. 2.3.1 Le lien avec le modèle de Tversky Nous avons déjà en partie discuté des liens existant avec le modèle de Tversky dans la section précédente mais quelques précisions peuvent toujours être apportées. Tout d'abord, on peut noter que les deux modèles sont non-compensatoires, puisqu'il n'y a aucune forme de compensation entre les caractéristiques. Ensuite, le modèle de Tversky {T,T,u} peut être vu comme un modèle avec familles d'aspects {T,T',=,u} comportant une structure de familles = particulière, composée uniquement de singletons : ∀α ∈ T 0 , |Fα | = 1 ce qui implique d'ailleurs que Fα = F ∗ . Cela revient à décomposer les ensembles de caractéristiques dépendantes en n caractéristiques indépendantes. Cette équivalence est valable pour les 2 versions que nous avons présentées. Enn, on remarque que la formulation "EBFA" revient à décomposer la procédure de sélection d'une caractéristique discriminante du modèle de Tversky en 2 étapes : - sélection d'une famille de caractéristiques (la couleur...) - sélection d'une des caractéristiques du type choisi. (ex : bleu) Nous allons maintenant voir que le modèle avec familles d'aspects, dans sa version EBFA comme EABA, est une généralisation du modèle de Luce (1959). 2.3.2 Une généralisation du modèle de Luce Comme dans le modèle de Tversky, il faut que les alternatives aient des caractéristiques disjointes ou que leurs caractéristiques communes appartiennent à A0 ∪ F0 pour pouvoir retrouver le modèle de Luce à partir du modèle avec familles d'aspects. Voyons d'abord le lien avec la version "EABA" du modèle avec famille d'aspects. Dans ce cas, deux contraintes supplémentaires doivent être ajoutées pour pouvoir considérer que ∗ PkF = 1, ∀α ∈ A0 : - α ∈ Fα∗ . Si cette contrainte n'est pas respectée, l'alternative n'est pas optimale pour cette caractéristique et est donc éliminée. - |Fα∗ | = 1. C'est une condition nécessaire, car sinon, les caractéristiques optimales au sein de la famille jouent le même rôle que des caractéristiques communes dans des sous- 54 ensembles de T' et la simplication n'est pas possible. Une condition susante (mais pas indispensable) correspond bien sûr au cas où toutes les familles sont des singletons. Dans la version EABA, on retrouve alors le modèle de Luce en posant : X u(k) = u(F ∗ ). 0 6=∅ F ∈=/F ∩kD Par ailleurs, on peut vérier que dans ces conditions : X G∈=/G∩A0D 6=∅ u(G∗ ) = X X u(F ∗ ) = 0 6=∅ k∈A F ∈=/F ∩kD X u(k) k∈A . Le lien avec la version "EBFA" est plus complexe 19 . Il semble que la structure de familles doive être composée seulement de singletons, notamment pour que PαFα = 1. Dans ce cas, on retrouve le modèle de Luce par la même transition que celle du modèle de Tversky vers le modèle de Luce : u(k) = X u(α). α∈k0 \A0 Dans les deux versions, on retrouve bien alors : v(k) PkA = X v(l) l∈A 2.4 Le traitement des paradoxes de l'IIA 2.4.1 La résolution du paradoxe de Debreu Nous allons maintenant voir comment le modèle avec familles traite du paradoxe du bus rouge-bleu, ce qui constituera également un exemple d'application des règles de dénition des structures de familles. Rappelons que les caractéristiques dans l'exemple de Debreu sont : α1 = voiture, α2 = bus, α3 = bleu, α4 = rouge et les alternatives : k1 = {α1 }, un bus bleu k2 = {α2 , α3 } et un bus rouge k3 = {α2 , α4 }. Par ailleurs, les utilités doivent vérier les 4 conditions permettant de retrouver le cadre de Debreu (cf. section II.1.4 pour plus de précisions) : - PkA2 = PkA3 = 1/2 si A = {k2 , k3 } 19 ce point reste à approfondir... 55 - PkA1 = PkA2 = 1/2 si A = {k1 , k2 } - PkA1 = PkA3 = 1/2 si A = {k1 , k3 } - u(α2 ) et u(α1 ) sont plus élevées que u(α3 ) = u(α4 ). On s'attend par la suite à trouver PkA1 ≈ 1/2 et PkA2 = PkA3 ≈ 1/4 si A = {k1 , k2 , k3 } an que les résultats du modèle soient conformes à l'intuition. Avant de traiter cet exemple en utilisant le modèle avec familles d'aspects, il faut dénir une structure de familles. Dans ce cas : - soit on considère que toutes les familles sont des singletons, auquel cas la résolution est identique à celle de Tversky. - soit on considère que certaines familles ne sont pas des singletons, auquel cas, il convient de les identier. Il paraît clair qu'il est possible de constituer une famille de couleurs F1 = {α3 , α4 } car ce sont des caractéristiques élémentaires. . Il y a 2 caractéristiques optimales dans cette famille : on a alors u(F1∗ ) = u(α3 ) = u(α4 ) On peut alors se demander s'il est pertinent de créer une famille "type de véhicule". F2 = {α1 , α2 }. On peut montrer que ce n'est pas le cas parce qu'il devient alors impossible de recréer avec ce modèle les conditions de bases de l'exemple de Debreu (1960). On est typiquement dans une situation où la structure à deux familles peut être rejetée d'emblée, sans qu'il soit nécessaire de passer par des tests ex-post, parce qu'elle ne "colle" pas aux données du problème. Considérons le cas où A = {k1 , k2 } : - si u(α2 ) ≥ u(α1 ) alors, si on applique notre modèle, k2 est choisie à coup sûr ce qui viole la condition 2. - il est donc nécessaire que u(α1 ) > u(α2 ) d'où u(F2∗ ) = u(α1 ) Or si cette hypothèse est u(F2∗ ) u(F1∗ ) et P = . Pour que Pk1 = Pk2 = 1/2 k2 u(F1∗ ) + u(F2∗ ) u(F1∗ ) + u(F2∗ ) (condition 2), il faut que u(F1∗ ) = u(F2∗ ), ce qui revient à u(α1 ) = u(α3 ). Or cette égalité vériée, alors Pk1 = contredit la condition 4 (la couleur est négligeable par rapport au type de véhicule). Il n'est donc pas pertinent de prendre en compte une famille "type de véhicule" ce qui peut s'expliquer ainsi : au sein d'une famille, tout supplément d'utilité d'une caractéristique conduit à l'élimination des alternatives avec d'autres caractéristiques de la famille. Or l'hypothèse de Tversky selon laquelle u(α1 ) > u(α2 ) revient à considérer : - soit que la voiture est strictement préférée au bus auquel cas notre représentation se 56 justie mais on ne peut retrouver les conditions initiales de Debreu. - soit que le supplément d'utilité aecté à la voiture découle de l'hypothèse implicite qu'elle est dotée d'une couleur quelconque (et pas le bus), sans qu'il soit utile de préciser cette dernière. De ce fait, la caractéristique "voiture" n'est pas une caractéristique élémentaire. Il est donc préférable de ne pas adopter de famille "type de véhicule" car la caractéristique "voiture" incorpore plus d'éléments que la caractéristique "bus" et pourrait donc être plus "précise". La structure de familles retenue est donc F1 = {α1 }, F2 = {α2 } et F3 = {α3 , α4 }. On a u(F1∗ ) = u(α1 ), u(F2∗ ) = u(α2 ) et u(F3∗ ) = u(α3 ) = u(α4 ). Dans ce cas, l'application du modèle avec familles d'aspects (quelle que soit la version EBFA ou EABA ici) donne : - si A = {k1 , k2 }, Pk1 = u(F2∗ ) + u(F3∗ ) u(F1∗ ) et P = k2 u(F1∗ ) + u(F2∗ ) + u(F3∗ ) u(F1∗ ) + u(F2∗ ) + u(F3∗ ) - si A = {k1 , k3 }, Pk1 = u(F1∗ ) u(F2∗ ) + u(F3∗ ) et P = k3 u(F1∗ ) + u(F2∗ ) + u(F3∗ ) u(F1∗ ) + u(F2∗ ) + u(F3∗ ) - si A = {k2 , k3 }, Pk2 = Pk3 = 1 2 On déduit alors des cas précédents que : u(F1∗ ) = u(F2∗ ) + u(F3∗ ). (28) Soulignons bien que cette égalité découle simplement des conditions qui forment le cadre initial du paradoxe de Debreu. Voyons maintenant le cas le plus intéressant : - si A = {k1 , k2 , k3 }, alors Pk1 = u(F1∗ ) u(F1∗ ) + u(F2∗ ) + u(F3∗ ) Pk2 = 1 u(F2∗ ) + 12 u(F3∗ ) 2 u(F1∗ ) + u(F2∗ ) + u(F3∗ ) Pk3 = 1 u(F2∗ ) + 12 u(F3∗ ) 2 u(F1∗ ) + u(F2∗ ) + u(F3∗ ) et et enn 57 En simpliant les formules ci-dessus avec la relation établie en (28), on trouve alors un résultat surprenant : Pk 1 = 1 u(F1∗ ) = ∗ 2u(F1 ) 2 Pk 2 = 1 u(F1∗ ) 2 2u(F1∗ ) = 1 4 Pk 3 = 1 u(F1∗ ) 2 2u(F1∗ ) = 1 4 et et enn : En appliquant simplement le modèle avec famille d'aspects au cadre d'hypothèses de Debreu, on résout le paradoxe du bus bleu-bus rouge par construction, c'est-àdire que les probabilités attendues (1/2, 1/4 et 1/4) s'obtiennent indépendamment des niveaux d'utilités des caractéristiques. On peut noter qu'il est impossible de retrouver les probabilités du modèle de Luce pour cet exemple : en eet, l'une des conditions de la généralisation est violée car il y a 2 caractéristiques optimales dans la famille F3 . 2.4.2 La résolution du paradoxe de Savage Les données du problème {P aris, Rome} attribué à Savage par Luce et Suppes (1965) permettent une plus grande liberté dans le choix d'une structure de familles. Les choix possibles sont k1 =(Paris), k2 =(Paris+), k3 =(Rome) et k4 =(Rome+). Supposons ici que l'on désigne 3 familles de caractéristiques : le coût donné par F1 = {α1 , α2 }, la qualité du voyage donnée par F2 = {β1 , β2 } et le dollar supplémentaire qui correspond à un singleton F3 = {γ} (avec u(F3∗ ) = u(γ)). Les voyages pour une même destination ont un même coût et une même qualité et si A = {k1 , k3 }, ces caractéristiques se compensent de telle sorte que PkA1 = PkA3 (condition 1). Dans ce cas, on a k1 = {α1 , β1 }, k2 = {α1 , β1 , γ}, k3 = {α2 , β2 }, k4 = {α2 , β2 , γ}. On vérie immédiatement que PkA4 = 1 si A = {k3 , k4 } et PkA2 = 1 si A = {k1 , k2 }. Si A = {k1 , k2 }, pour que les probabilités de choisir Paris ou Rome soient non nulles, il faut dans notre modèle : - soit que u(α1 ) > u(α2 ) et u(β1 ) < u(β2 ) 58 - soit que u(α1 ) < u(α2 ) et u(β1 ) > u(β2 ) Supposons que l'on retienne la première possibilité, auquel cas u(F1∗ ) = u(α1 ) et u(F2∗ ) = u(β2 ). Si A = {k1 , k3 } alors : Pk 1 = u(F2∗ ) u(F1∗ ) et P = k 3 u(F1∗ ) + u(F2∗ ) u(F1∗ ) + u(F2∗ ) On doit donc également retenir que u(F1∗ ) = u(F2∗ ) pour que la condition 1 soit vériée, ce qui équivaut à u(α1 ) = u(β2 ). Si toutes ces conditions sont vériées, alors si A = {k2 , k3 }, on trouve les probabilités Pk 2 = u(F2∗ ) u(F1∗ ) + u(F3∗ ) , P = k 3 u(F1∗ ) + u(F2∗ ) + u(F3∗ ) u(F1∗ ) + u(F2∗ ) + u(F3∗ ) On en déduit que Pk2 est légèrement supérieure à Pk3 mais plus u(γ) est faible, plus Pk2 et Pk3 sont proches et tendent vers 1/2. Des résultats similaires peuvent être obtenus pour A = {k1 , k4 }. 2.5 Perspectives et limites de cette formalisation 2.5.1 Les limites du modèle avec familles d'aspects On peut tout d'abord reprocher à la formalisation avec familles d'aspects d'être encore inachevée. Le principal travail restant à accomplir est d'étudier comment le modèle standard que nous avons présenté pourrait être transformé en modèle abstrait, à la manière de Tversky, et si ce modèle abstrait pourrait conduire à des conséquences testables nouvelles ou diérentes. Cette transformation devrait pouvoir être prochainement réalisée : par exemple, cela revient à considérer un modèle abstrait comportant certains sous-ensembles de T dans lesquels une alternative est directement sélectionnée. Nous avons l'intention de poursuivre cette voie dans le futur. Ensuite, une critique peut être formulée à l'égard du modèle avec familles d'aspects dans sa formule actuelle : dans un tel modèle, la probabilité de sélectionner une famille pour discriminer entre les alternatives devrait être d'autant plus forte que cette famille, justement, est discriminante. Or, dans la formalisation que nous avons proposée, la probabilité de sélectionner une famille dépend du plus haut niveau d'utilité d'une caractéristique au sein de cette famille. Mais si les préférences sont oues ou uctuantes, cette meilleure caractéristique peut, elle aussi, changer, ce qui provoque des dicultés. Enn, la prise en compte des caractéristiques continues est toujours discutable puis- 59 qu'on est contraint de les décomposer en caractéristiques discrètes. Un moyen de résoudre ce problème est de remplacer la fonction d'utilité dénie sur 2T en un ensemble de fonctions, chacune étant dénie sur une famille et pouvant être discrète ou continue selon la nature des caractéristiques au sein de la famille. C'est cette perspective que nous allons évoquer brièvement dans la section suivante. 2.5.2 Représentation ensembliste ou matricielle des caractéristiques : quelques perspectives Dans le modèle de Tversky, comme dans celui avec familles d'aspects, les caractéristiques sont représentées par un ensemble T'. Cette représentation n'est pourtant pas celle que l'on rencontre le plus fréquemment en économie (Lancaster, 1966) comme en psychologie (Reed, 1999). En eet, une représentation sous forme de matrice est bien souvent privilégiée. On suppose qu'il existe des familles de caractéristiques et que chaque alternative possède, pour chaque famille, une caractéristique appartenant à cette famille, ce qui permet de représenter l'ensemble des caractéristiques dans une matrice avec en colonne les alternatives et en ligne les familles de caractéristiques. On peut noter d'emblée que cette représentation est plus exigeante que celle adoptée dans le modèle avec familles d'aspects vu précédemment car elle impose qu'une famille possède une de ses caractéristiques présente dans chaque alternative : ∀α ∈ T 0 , ∀k ∈ A, α ∈ / k 0 ⇒ ∃!β 6= α ∈ Fα ∩ k 0 . Cette condition n'est cependant pas si contraignante : il est toujours possible de dénir une caractéristique correspondant à l'absence de caractéristique de la famille considérée. Cette représentation présente certains avantages. Tout d'abord, comme dans le modèle de départ avec familles d'aspects, elle peut prendre en compte la dépendance entre des caractéristiques. Ensuite, elle permet de dénir une fonction d'utilité sur chaque famille de caractéristiques (plutôt que sur 2T ). Ainsi, si la famille comporte des caractéristiques continues, il est possible de dénir une fonction d'utilité continue, ce qui est préférable. Précisons la dénomination "matricielle" retenue. Soit un ensemble de choix A comportant N alternatives indiciées i (i=1...N). Soit un ensemble de familles de caractéristiques = comportant K familles Fj (j=1...K). Soit xij la caractéristique appartenant à l'alternative i et la famille de caractéristique j. Par exemple, si i désigne une automobile et j une famille de couleur alors xij = bleu si l'automobile est de couleur bleue. Soit uj : j → R l'utilité de la famille j qui associe à toute caractéristique xij de j une utilité uj (xij ). 60 On peut alors dénir une matrice U décrivant les utilités de toutes les caractéristiques : u1 (x11 ) .. . U = uj (x1j ) .. . uK (x1K ) ··· ... ··· ... u1 (xi1 ) .. . uj (xij ) .. . · · · u1 (xN 1 ) ... ··· ... · · · uK (xiK ) · · · .. . uj (xN j ) .. . uj (xN j ) A partir de ce cadre, on peut proposer une séquence d'élimination par aspects, dont la formulation devra encore être approfondie à l'avenir. Un bon critère pour dénir une famille discriminante peut être de considérer la variance au sein de cette famille de caractéristiques. En eet, l'individu est d'autant plus prêt à discriminer selon la couleur si l'écart entre la couleur qu'il préfère et la couleur qu'il n'apprécie pas est élevé. De plus, la variance prend en compte l'ensemble des caractéristiques d'une famille et pas seulement la meilleure. Cette variance est calculée sur toutes les caractéristiques diérentes appartenant à une famille, sans prendre en compte le nombre de fois où elles reviennent dans les alternatives. Il faut y ajouter une caractéristique ctive avec un niveau d'utilité xé à 0 dans le cas où au moins une alternative n'incorpore aucune caractéristique de cette famille. Certaines familles comportent donc une caractéristique ctive et pas d'autres. Dans le cas de caractéristiques discrètes, on note αjl la l-ième caractéristique de la famille j comportant Cj caractéristiques avec l = 1...Cj et αj0 la caractéristique ctive de la famille j si elle en possède une. Dans ce cas, la variance se calcule ainsi : 2 Cj Cj X X 1 1 uj (αjl )2 − uj (αjl ) V ar(uj ) = Cj l=0 Cj l=1 Dans le cas de caractéristiques continues, la variance est calculée de façon habituelle : V ar(uj ) = E(u2j ) − E(uj )2 La probabilité de sélectionner une famille j comme critère discriminant serait alors de : P (Fj ) = V ar(uj ) K X V ar(uk ) k=1 Il reste maintenant à construite de façon explicite une formule récursive modélisant la procédure EBA et permettant le calcul de probabilités. Cette perspective de recherche 61 pourrait permettre de remédier aux défauts des versions précédentes du modèle avec familles d'aspects. 62 Conclusion Nous avons donc montré que les modèles à règle de décision aléatoire, peu utilisés en économie, présentaient pourtant de multiples avantages. Ainsi, le modèle de Tversky, célèbre chez les psychologues, peut désormais être aisément appliqué grâce à une méthode ecace de révélation de ses paramètres. Il pourrait permettre de nouvelles analyses des comportements de consommation, en lien avec les caractéristiques des produits et déboucher sur de nouveaux enseignements en économie industrielle, à propos des marchés de produits diérenciés. Des avancées récentes ont été réalisées, notamment en permettant la prise en compte du contexte par l'introduction des capacités de Choquet. Pourtant, des progrès restent à accomplir, à la fois au niveau théorique, pour remédier à certaines limites inhérentes à ces modèles (prise en compte des diérents types de caractéristiques) et au niveau empirique, pour essayer d'en préciser les interprétations. 63 Références bibliographiques ANDERSON S.J., DE PALMA A. et THISSE J-F. (1992), Discrete choice theory of product dierentiation, Cambridge, MIT Press. BATSELL R.R., POLKING J.C., CRAMER R.D., MILLER C.M. (2003), "Useful mathematical relationships embedded in Tversky's elimination by aspects model", Journal od Mathematical Psychology, 47, p. 538-544. BEN-AKIVA M. (1973), "Structure of Passager Travel Demand Models", Ph.D. Dissertation, Department of Civil Engineering, MIT, Cambridge. BILLOT A. et THISSE J-F. (1995), "Modèles de choix individuels discrets : théorie et applications à la microéconomie", Revue Économique, 46, p. 921-930. BILLOT A. et THISSE J-F. (1999), "A Discrete Choice Model When Context Matters", Journal of Mathematical Psychology, 43, p. 518-538. BLOCK H.D. et MARSCHAK J. (1960), "Random Ordering and Stochastic Theories of Response" dans I. OLKIN (ed.), Contributions to Probability and Statistics, Stanford University Press, p. 97-132. CHEN H-C., FRIEDMAN J.W. et THISSE J-F. (1997), "Boundedly Rational Nash Equilibrium : A Probabilistic Choice Approach", Games and Economic Behavior, 18, p. 32-54. DEBREU G. (1960), "Review of R.D.Luce, Individual Choice Behavior : a Theoretical Analysis", American Economic Review, 50, p. 186-188. DE PALMA A. et THISSE J-F. (1989), "Les modèles de choix discrets", Annales d'économie et de statistique, 14, p. 151-190. KREPS D.M. (1979), "A representation theorem for preference for exibility", Econometrica, 47, p. 565-578. LANCASTER K.J. (1966), "A New Approach to Consumer Theory", Journal of Political Economy, 74, p. 132-157. 64 LUCE R.D. (1959), Individual Choice Behavior : A Theoretical Analysis, New York, Wiley. LUCE R.D. (1977), "The Choice Axiom after Twenty Years", Journal of mathematical psychology, 15, p. 215-233. LUCE R.D. et SUPPES P. (1965), "Preference, Utility, and Subjective Probability" dans R.D. Luce, R.R. Bush et E. Galander ed., Handbook of Mathematical Psychology, New York : Wiley, p. 249-410. MANSKI C. (1977), "The structure of Random Utility Models", Theory and Decision, 8, p. 229-254. MCFADDEN D. (1974), "Conditional Logit Analysis of Qualitative Choice Behavior" dans P. ZAREMBKA (ed), Frontiers in Econometrics, New York : Academic Press, p. 105-142. MCFADDEN D. (1981), "Econometric models of probabilistic choice". Dans C. MANSKI et D. MCFADDEN (Eds), Structural analysis of discrete data with econometric applications, p. 198-272, Cambridge MIT Press. MILLER G.A. (1956), "The magical number seven, plus or minus two : some limits on our capacity for processing information", Psychological review, 63, p. 81-97. REED S. (1999), Cognition, théories et applications, De Boeck Université. RESTLE F. (1961), Psychology of judgement and choice, New York, Wiley. SIMON H.A. (1957), Models of Man, New York, Wiley. SIMON H.A. (1976), "From substantive to procedural rationality". Dans S.J. LATSIS, Method and Appraisal in Economics, Cambridge University Press. SIMON H.A. (1997), Models of bounded rationality, Vol. 3, MIT Press. STIGLER G.J. et BECKER G.S. (1977), "De Gustibus Non Est Disputandum", American Economic Review, 67, p. 76-90. 65 THURSTONE L.L. (1927), "A Law of Comparative Judgement", Psychological Review, 34, p. 273-286. TVERSKY A. (1972a), "Elimination by aspects : A Theory of Choice.", Psychological Review, 79, p. 281-299. TVERSKY A. (1972b), "Choice by Elimination", Journal of mathematical psychology, 9, p. 341-367. TVERSKY A. et SATTATH S. (1979), "Preference Trees", Psychological Review, 86, p. 542-573. YELLOTT J.I. (1977), "The Relationship between Luce's Choice Axiom, Thurstone's Theory of Comparative Judgement, and the Double Exponential Distribution", Journal of Mathematical Psychology, 5, p. 109-144. 66