Les modèles à règle de décision aléatoire, la face trop cachée des

publicité
Les modèles à règle de décision aléatoire, la
face trop cachée des modèles de choix discrets
Reynald-Alexandre LAURENT
Ce dossier a été réalisé avec LATEX lors de l'année 2003-2004 et encadré par Michèle
Cohen, professeur à l'Université Paris I Panthéon Sorbonne1 .
Résumé
Ce travail vise à présenter les principaux modèles de choix discrets et, en particulier,
une catégorie relativement peu utilisée par les économistes : les modèles à règle de décision
aléatoire. Après les avoir analysés en détail, nous examinerons des avancées récentes dont
bénécient ces modèles, à la fois au niveau théorique et empirique. Nous proposerons
également une formalisation visant à généraliser le modèle "Evaluation by aspects" de
Tversky (1972) en ayant recours à des familles de caractéristiques. Enn, nous suggérerons
quelques pistes d'améliorations futures.
1 "L'université
de Paris I Panthéon-Sorbonne n'entend donner aucune approbation, ni improbation aux
opinions émises dans ce dossier ; elles doivent être considérées comme propres à leur auteur"
1
Table des matières
I Présentation générale des modèles de choix discrets
5
1 Qu'est ce qu'un modèle de choix discrets ?
5
2 L'origine de l'existence des modèles de choix discrets
6
2.1 Fluctuation des choix et comportement intrinsèquement déterministe
2.1.1 Un approfondissement de l'approche déterministe . . . . . . .
2.1.2 L'adoption d'une approche probabiliste . . . . . . . . . . . . .
2.2 Le comportement intrinsèquement probabiliste, une source possible
changements de choix. . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Les enjeux de l'interprétation des modèles de choix discrets . . . . . .
. . . 7
. . . 7
. . . 8
des
. . . 9
. . . 10
3 Le modèle fondateur de Luce à règle de décision aléatoire : présentation,
extension et lien avec les modèles à utilité aléatoire
12
3.1 Présentation du modèle de Luce . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Principales conséquences et limites du modèle de Luce . . . . . . . . . . .
3.3 L'équivalence entre le "choice axiom" et les RUM classiques . . . . . . . .
3.3.1 Présentation des RUM . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.2 Le rôle du paramètre µ . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3 Equivalence entre le modèle de Luce et le logit et forme évoluée du
logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
12
13
15
15
16
18
II Le modèle de Tversky, fondateur des modèles procéduraux
à règle de décision aléatoire
19
1 Présentation classique du modèle de Tversky
1.1 Concepts et procédure du modèle de Tversky . . . . . . . .
1.2 Version standard du modèle de Tversky . . . . . . . . . . .
1.3 Une généralisation des modèles de Luce et Restle . . . . .
1.3.1 La généralisation du modèle de Luce . . . . . . . .
1.3.2 La généralisation du modèle de Restle . . . . . . .
1.4 La résolution des paradoxes du modèle de Luce . . . . . .
1.4.1 La résolution du paradoxe bus bleu-bus rouge . . .
1.4.2 La résolution du paradoxe du voyage à Paris-Rome
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 La version abstraite du modèle de Tversky et ses conséquences
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
21
23
23
24
24
24
26
27
2.1 Les diérentes formulations du modèle de Tversky . . . . . . . . . . . . . . 27
2
2.2 Les conséquences testables issues de la version abstraite du modèle . . . . . 30
3 Une méthode d'estimation des paramètres du modèle de Tversky
31
4 Les limites du modèle de Tversky
35
3.1 La méthode des diérences de probabilité . . . . . . . . . . . . . . . . . . . 31
3.2 Un exemple d'utilisation des diérences de probabilité . . . . . . . . . . . . 32
3.3 Une application du modèle de Tversky à la politique de la santé . . . . . . 34
III Extensions du modèle de Tversky et perspectives d'amélioration des modèles à règle de décision aléatoire.
38
1 Le modèle de Billot et Thisse : une prise en compte du contexte
1.1 Les idées fondamentales du modèle . . . . . . . . . . . . . . . . .
1.2 Formulation du modèle de Billot et Thisse et mise en perspective
1.2.1 Utilité et capacité de Choquet . . . . . . . . . . . . . . . .
1.2.2 Le concept d'utilité contextuelle . . . . . . . . . . . . . . .
1.2.3 Capacités et lien avec d'autres modèles . . . . . . . . . . .
1.3 Le théorème de conversion des capacités aux probabilités . . . . .
1.3.1 La méthode de conversion . . . . . . . . . . . . . . . . . .
1.3.2 Comparaison entre probabilités et capacités . . . . . . . .
1.3.3 Probabilités converties et lien avec les autres modèles . . .
1.4 La résolution du paradoxe bus bleu-bus rouge . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
38
39
39
41
42
43
43
44
45
46
2 Quelques propositions pour améliorer la modélisation des caractéristiques
46
2.1 Idées principales du modèle . . . . . . . . . . . . . . . . .
2.2 Dénitions et formulation de l'EBA en présence de familles
2.2.1 Familles de caractéristiques et sélection en leur sein
2.2.2 Caractéristiques éligibles et famille discriminante .
2.2.3 Elimination parmi les meilleurs aspects . . . . . . .
2.2.4 Elimination par familles d'aspects . . . . . . . . . .
2.2.5 La dénition d'une structure de familles . . . . . .
2.3 Une mise en perspective du modèle avec familles d'aspects
2.3.1 Le lien avec le modèle de Tversky . . . . . . . . . .
2.3.2 Une généralisation du modèle de Luce . . . . . . .
2.4 Le traitement des paradoxes de l'IIA . . . . . . . . . . . .
2.4.1 La résolution du paradoxe de Debreu . . . . . . . .
2.4.2 La résolution du paradoxe de Savage . . . . . . . .
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
47
49
50
51
52
54
54
54
55
55
58
2.5 Perspectives et limites de cette formalisation . . . . . . . . . . . . . . . . . 59
2.5.1 Les limites du modèle avec familles d'aspects . . . . . . . . . . . . . 59
2.5.2 Représentation ensembliste ou matricielle des caractéristiques : quelques
perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Conclusion
63
Références
64
4
Première partie
Présentation générale des modèles de
choix discrets
1
Qu'est ce qu'un modèle de choix discrets ?
Les modèles de choix discret décrivent le comportement de choix d'un individu face à
un ensemble d'actions mutuellement exclusives. Les économistes supposent généralement que les individus choisissent toujours l'alternative qu'ils préfèrent de façon déterministe. Or, il semble que les choix des individus peuvent uctuer selon le contexte, c'est
pourquoi les modèles de choix discrets adoptent une démarche probabiliste plutôt que
déterministe. On suppose donc que les choix des individus sont soumis à un certain aléa
ce qui conduit à calculer des probabilités de choix pour chaque alternative et à confronter
ces probabilités aux fréquences observées pour des individus face à des choix répétés.
Après avoir énoncé les principales idées, on peut maintenant préciser chacun des points
dans ce paragraphe et le suivant.
Ces modèles imposent que l'individu choisisse parmi un ensemble ni d'actions mutuellement exclusives, ce qui peut paraître une contrainte forte dans le domaine de la
consommation. Ainsi, la théorie standard n'intègre pas cette contrainte puisqu'elle suppose que l'individu consomme un panier de biens donné, pouvant comporter plusieurs
variétés de biens similaires (cela reviendrait à choisir 2 ou plus CD de variétés parmi
l'ensemble de CDs proposés au choix).
Cependant, cette restriction semble acceptable sur de nombreux marchés (par exemple,
à un instant t donné, il est rare de consommer plus d'une automobile...). De plus, pour tous
ces marchés où la contrainte semble vériée, la non-prise en compte de cette contrainte
peut biaiser les résultats de la théorie standard.
Par leur démarche probabiliste, ces modèles s'écartent donc de la théorie néoclassique
et en particulier du postulat de rationalité instrumentale parfaite qui suppose :
- que chaque individu dispose d'une relation de préférence complète et transitive lui
permettant de classer les actions.
- que l'individu choisit toujours l'action qu'il préfère.
5
Cette démarche probabiliste découle de l'existence d'un aléa : or depuis Block et Marschak (1960), on distingue traditionnellement entre 2 familles de modèles de choix discrets
selon la nature de l'aléa qui aecte le choix. Dans la première, les règles de décisions sont
aléatoires et l'utilité déterministe (ex : modèles de Luce, Tversky...) alors que dans la
seconde, les règles de décision sont déterministes et l'utilité aléatoire (ex : modèles de
Thurstone, McFadden). Ces diérents modèles seront présentés plus loin et par la suite,
on qualiera ces familles respectivement de RDRM (random decision rule model) et RUM
(random utility model).
Nous proposons d'eectuer une classication supplémentaire au sein des RDRM qui
sera utile par la suite. Pour cela, nous nous inspirons de la distinction proposée par Simon (1976) entre la rationalité substantielle et la rationalité procédurale. Simon écrit :
En économie, la rationalité est vue en terme de choix qu'elle produit ; dans les autres
sciences sociales, elle est vue en fonction des process qu'elle met en oeuvre. La rationalité
de l'économie est une rationalité substantielle, pendant que la rationalité de la psychologie
est une rationalité procédurale. (1997, p 3682 ). Ainsi, Simon reproche aux économistes
de ne se préoccuper que du résultat des situations de choix, et non de la manière dont les
individus parviennent à cette décision.
Or cette distinction pourrait s'appliquer aux RDRM. En eet, certains modèles partent
d'un "axiome" à partir duquel ils déduisent une formule de calcul de probabilité (le "résultat", la "substance" de la décision), sans préciser de procédure de décision particulière : ces
modèles peuvent être qualiés de "substantiels" (ex : modèle de Luce). D'autres modèles
spécient d'abord une procédure de décision, puis en déduisent une méthode de calcul des
probabilités et de révélation des paramètres du modèle : ces modèles peuvent être qualiés
de "procéduraux" (ex : modèle de Tversky). Les modèles substantiels et procéduraux ne
sont pas forcément indépendants même s'ils se situent à des niveaux diérents : ainsi,
un ou plusieurs modèles procéduraux peuvent être associés à un modèle substantiel. En
eet, il existe parfois plusieurs procédures de décision possibles pour aboutir à un même
résultat.
2
L'origine de l'existence des modèles de choix discrets
On constate empiriquement que face à une même situation de choix, les individus ont
parfois tendance à uctuer dans l'évaluation de leurs actions et donc à ne pas choisir
toujours la même alternative. Comme le remarque Tversky, quand les individus sont
confrontés à un choix parmi plusieurs alternatives, ils font souvent preuve d'inconstance
2 traduction
personnelle si nécessaire pour les citations de ce dossier
6
et d'incohérence. Fréquemment, les individus hésitent quant à l'alternative à sélectionner
et ne font pas toujours le même choix sous des conditions apparemment identiques. (1972a, p 281).
Ce constat a intrigué les économistes, puisque la théorie standard adopte une vision
déterministe des choix : on suppose qu'un individu face à un ensemble d'opportunités de
choix retiendra systématiquement une alternative qu'il préfère.
Ce paradoxe peut s'expliquer de 2 façons : soit les choix des individus sont intrinsèquement déterministes (auquel cas il convient d'améliorer la théorie an d'expliquer leur
inconstance), soit les choix des individus sont intrinsèquement probabilistes.
2.1 Fluctuation des choix et comportement intrinsèquement déterministe
Si les choix des individus sont intrinsèquement déterministes, deux démarches semblent
possibles an d'expliquer leur comportement :
- tenter d'identier les facteurs responsables de ces changements de choix et les incorporer dans le programme de maximisation du consommateur en conservant une démarche
déterministe.
- reconnaître que le modélisateur est incapable d'appréhender les comportements individuels et incorporer les changements de choix dans une approche probabiliste. Il faut
alors ex post tenter d'identier, parmi les interprétations possibles des probabilités, lesquelles sont les plus pertinentes. C'est la voie suivie par certains modèles de choix discret.
Nous allons maintenant étudier les mérites et limites respectifs de ces deux démarches.
2.1.1 Un approfondissement de l'approche déterministe
Becker et Stigler (1977) ont essayé d'identier les contextes pouvant conduire à un
changement de choix et d'inclure systématiquement les variables correspondantes dans
des modèles déterministes. Ils arment que les changements de choix ne proviennent pas
en général de changements de préférences :
- dans certains cas, les changements de choix proviendraient d'une réactivité des individus à un nouvel environnement décroissante avec leur âge. La consommation est vue
comme un investissement de long terme, impliquant un apprentissage, comme dans le cas
de la musique. Ainsi, selon notre interprétation les jeunes et les personnes âgées ré-
agissent diéremment, même si elles ont les mêmes préférences et les mêmes motivations.
Pour changer leurs comportements de manière radicale, les personnes âgées doivent soit
7
désinvestir le capital qui correspondait à leur environnement précédent, soit investir dans
du capital en accord avec leur nouvel environnement. Leur incitation à le faire doit être
faible parce que relativement peu d'années leur restent à vivre pour recueillir les fruits
de ces investissements nouveaux et que le désinvestissement du capital humain ne peut
être que lent. Les jeunes, d'un autre côté ne sont pas si encombrés par un amoncellement
de capital accumulé dans un environnement ancien. Par conséquent, ils n'ont pas besoin
d'avoir des préférences ou des motivations spéciques qui les rendent intrinsèquement plus
souples à l'environnement de telle façon qu'ils seraient moins touchés par sa modication ;
ils sont tout simplement plus stimulés pour investir dans la connaissance et dans les compétences liées au nouvel environnement. (Becker et Stigler, 1977, p 83). Ils défendent que
cette explication est plus convaincante qu'un changement de goûts pour expliquer la perte
d'habitudes.
- dans d'autres cas, les auteurs avancent que la fonction d'utilité est mal spéciée ce qui
donne une fausse illusion d'instabilité des préférences. En général, les fonctions d'utilité
ne prennent pas en compte la possibilité de dépendance à un produit donné (cigarette,
alcool...), le rôle de la publicité ou de la mode, ces derniers facteurs pouvant entraîner
des changements de choix. An d'intégrer ces facteurs, Becker et Stigler construisent des
fonctions d'utilité stables comportant par exemple un facteur de dépendance, ou un facteur correspondant à la réputation sociale dans le cas de la mode.
Si l'explication en terme d'apprentissage de consommation peut paraître séduisante,
elle n'explique assurément qu'une petite partie des changements de choix. Pour les autres
facteurs, la démarche de "sophistication" croissante des fonctions d'utilité paraît peu
prometteuse : outre les problèmes de révélation de cette utilité, De Palma et Thisse (1989)
soulignent que l'approche revient à considérer un nombre très élevé d'états au point de
devenir ingérable.
2.1.2 L'adoption d'une approche probabiliste
La voie déterministe ayant trouvé ses limites, on peut reconnaître l'incapacité du modélisateur à appréhender tous les critères de choix des individus, dont le comportement est
pourtant supposé intrinsèquement déterministe. Ainsi, le manque d'information conduit
le modélisateur à utiliser des règles de choix probabilistes (par la suite on qualiera cette
interprétation d'"économétrique"). Autrement dit, le modélisateur peut au mieux prédire
le comportement d'un individu à une fonction de probabilité près.
L'approche des choix discrets a cependant à la fois les avantages et inconvénients inverses de l'approche déterministe. En eet, puisqu'il semble dicile d'obtenir une structure
formelle pertinente en "ajoutant" au modèle les facteurs contextuels un par un (démarche
8
déterministe), il est préférable d'utiliser un modèle incorporant globalement tous les facteurs (démarche probabiliste) mais il devient alors délicat de mettre en évidence les plus
signicatifs alors que cette identication pourrait fournir des renseignements précieux.
Cette interprétation économétrique peut être soutenue par les modèles RUM. L'utilité
aléatoire d'une action se décompose en une utilité déterministe correspondant aux caractéristiques observables de l'action et un facteur aléatoire correspondant à l'incertitude
subie par le modélisateur. Plus précisément Manski (1977), identie 4 sources possibles
d'incertitude, classiques dans la tradition économétrique :
- les caractéristiques inobservables d'une action
- des variations non observables des utilités individuelles
- des erreurs de mesure
- la nécessité d'utiliser des variables instrumentales pour estimer l'utilité, qui n'est pas
connue avec certitude.
En revanche, seule une partie des modèles RDRM est compatible avec cette interprétation économétrique. Les modèles RDRM substantiels ne spécient pas de procédure de
décision et l'équivalence de leur structure de probabilité avec certains modèles RUM (point
qui sera développé plus loin) peut justier une telle interprétation. Par contre, les modèles
RDRM procéduraux dénissent une procédure de décision, généralement caractérisée par
une forme de rationalité limitée : l'origine des probabilités découle alors explicitement de
la procédure de décision spéciée et ne peut donc être liée à cette interprétation économétrique.
On a donc vu comment interpréter les uctuations de choix si le comportement des
agents est supposé intrinsèquement déterministe. Mais une autre voie consiste à supposer
que leur comportement est intrinsèquement probabiliste.
2.2 Le comportement intrinsèquement probabiliste, une source
possible des changements de choix.
On suppose cette fois que les probabilités observées, exprimant un aléa dans les choix,
trouvent leur origine dans les états mentaux des individus. On qualiera donc cette interprétation de "cognitive". On peut noter que cette interprétation pose le même problème d'identication des facteurs contextuels signicatifs que celui abordé dans la section
(2.1.2).
Une façon de voir le problème consiste à décrire une action comme un ensemble ni
de caractéristiques non-décomposables pour l'individu. On peut alors supposer que l'indi9
vidu oublie à l'occasion de prendre en compte certaines caractéristiques d'une action ou
se trompe en évaluant l'importance d'une des caractéristiques associée à cette action. Les
circonstances dans lesquelles le choix est eectué sont susceptibles de perturber la perception et la désirabilité d'une action. A noter que le comportement d'un individu peut
changer en fonction des facteurs extérieurs sans pour autant que ses préférences relatives
aux caractéristiques soient modiées.
Comme le notent Billot et Thisse (1995, pp 922-923), diérentes explications peuvent
soutenir cette interprétation cognitive :
- l'état d'esprit des individus varie au cours du temps : ainsi, l'individu uctue lors
du processus d'évaluation des attributs associés aux actions (interprétation de Thurstone,
1927). Par exemple, le même enseignant ne note pas de la même manière les mêmes
copies d'examen selon le moment où elles lui sont soumises. Les états d'esprits peuvent
aussi traduire une focalisation aléatoire sur certains aspects d'une alternative, suite à un
phénomène de mode, à l'action de la publicité ou de la force de vente.
- l'individu ne connaît qu'imparfaitement ses préférences (ou ses préférences sont
oues) et l'imprécision ne permet pas à l'individu de désigner sans ambiguïté ce qu'il
veut. En moyenne, il a cependant tendance à sélectionner une action proche de son comportement implicite.
- plus fondamentalement, on peut supposer que l'individu se trompe lors de son processus d'évaluation des actions possibles. Les capacités cognitives (de mémorisation, de
calcul...) limitées des individus ne leurs permettent pas de s'acquitter de cette tâche complexe de façon optimale. On rejoint alors le concept de rationalité limitée cher à Simon
(1957). Cela peut notamment provenir de la diculté éprouvée par les individus à traiter
de grands ensembles d'information.
Cette interprétation cognitive peut être soutenue par les RDRM, ces derniers exprimant alors plutôt l'idée de rationalité limitée proposée par Simon, puisque les individus
ne choisissent pas toujours l'alternative qui leur procure la satisfaction la plus élevée.
L'interprétation cognitive peut aussi être soutenue par certains modèles RUM (comme le
modèle de Thurstone).
2.3 Les enjeux de l'interprétation des modèles de choix discrets
Il y a donc 2 interprétations possibles des modèles de choix discrets. Les modèles RUM
et RDRM substantiels sont compatibles avec les 2 interprétations (d'ailleurs les modèles
de Thurstone et McFadden conduisent aux mêmes probabilités de choix) alors que les
modèles RDRM procéduraux ne s'inscrivent que dans l'interprétation cognitive.
10
L'interprétation cognitive est souvent adoptée par les psychologues qui s'intéressent
aux choix pour eux-mêmes alors que les économistes se sont jusque-là intéressés presque
exclusivement à l'interprétation économétrique (et donc aux seuls modèles RUM). Cela
a conduit McFadden (1981, p 205) à déclarer que les diérences d'interprétation des modèles RUM n'étaient pas d'une réelle importance, les économistes utilisant avant tout les
probabilités pour formuler des demandes agrégées, sans s'intéresser au processus ayant
conduit à la formulation des probabilités.
Cette vision semble pourtant restrictive par rapport aux multiples possibilités qu'orent
les diérents modèles de choix discrets et qui pourraient conduire à des enseignements
intéressants en économie. Ainsi, l'équivalence des interprétations cesse d'être vraie si
l'on utilise les modèles de choix discrets pour analyser des problèmes de bien-être ou
d'interaction sociale. De plus, s'il est possible de certier l'origine cognitive des probabilités, ces probabilités peuvent, par exemple, être utilisées pour l'étude de la substituabilité des produits et surtout des caractéristiques des produits (comme dans le modèle
de Tversky que nous verrons plus loin) sur les marchés. En revanche, ce type d'enseignement ne peut être tiré si l'on ignore quelle interprétation retenir pour un ensemble de
probabilités de choix donné. En outre, l'interprétation cognitive est la seule qui légitime
pleinement l'utilisation des modèles de choix discret en écartant la tentation déterministe,
exprimée par Stigler et Becker (1977).
Or seuls les RDRM procéduraux s'appuient sans ambiguïté sur l'interprétation cognitive. Autrement dit, on ne peut analyser avec nesse les problèmes de substituabilité des
caractéristiques des produits sur un marché que si les probabilités de choix découlent d'un
RDRM procédural (nous donnerons un exemple de ce type plus loin). Cela ne signie pas
qu'il ne peut y avoir d'erreurs économétriques dans ce type de modèles, mais cela signie
que ces erreurs peuvent seulement aecter l'estimation des paramètres du modèle mais
pas la formule de calcul des probabilités. La tâche de calcul des probabilités est alors plus
fastidieuse mais moins sujette à erreur et comporte moins de dicultés d'interprétation
(sans toutefois les éliminer totalement).
Pour cette raison, il paraît donc utile pour les économistes de s'intéresser et de développer cette famille de RDRM procéduraux jusque là peu étudiée.
11
3
Le modèle fondateur de Luce à règle de décision aléatoire : présentation, extension et lien avec les modèles
à utilité aléatoire
3.1 Présentation du modèle de Luce
Le premier modèle RDRM a été proposé par Luce en 1959. Ce dernier pose au départ
un "axiome de choix" permettant de relier entre elles les probabilités de choix dénies sur
des ensembles quelconques d'actions appartenant à A, l'ensemble des alternatives disponibles. Puis, il montre que cet axiome est vérié s'il existe une fonction d'utilité dénie
sur A et permettant de calculer les probabilités. Le processus sous-jacent de choix n'est
pas explicité 3 .
Appelons T l'ensemble des alternatives, A l'ensemble des alternatives accessibles au
choix et |S| = n le cardinal d'un ensemble S. On note PkS la probabilité de choisir l'alternative k parmi l'ensemble S, ∀S ∈ ϕ ≡ {S ⊆ A et |S| ≥ 2}, P (a, b) la probabilité de
choisir a plutôt que b dans l'ensemble à 2 alternatives et PSA la probabilité
X de choisir une
alternative parmi le sous-ensemble S de A. On a donc ∀S ⊂ A, PSA =
PkA .
k∈S
L'AXIOME DE CHOIX s'énonce ainsi : ∀S, T ∈ ϕ tels que S ⊆ T , on a :
(i) Si ∀a ∈ S , P (a, b) 6= 0, 1 ∀b ∈ T alors :
PaT = PST .PaS .
Cela signie que la probabilité que k soit choisie dans T est indépendante du sousensemble S contenant a, dans le cas où l'individu doive d'abord choisir un sous-ensemble
S avant de choisir une alternative de S.
(ii) Si ∃a, b ∈ T /P (a, b) = 0 alors :
T −{a}
PST = PS−{a} .
Cela signie que si certaines actions b sont toujours choisies de préférence à a, on peut
éliminer a de T sans aecter les probabilités de choix au sein de S.
Une conséquence de cet axiome de choix est le théorème suivant énoncé par Luce
(1959)4 :
3à
l'inverse du modèle de Tversky que nous présenterons plus loin
une preuve de ce théorème, cf. Anderson, De Palma et Thisse, 1992, p 22
4 pour
12
THÉORÈME : Supposons que P (a, b) 6= 0, 1 ∀a, b ∈ A. La partie (i) de l'axiome de
choix est satisfaite ssi il existe une fonction positive v dénie sur A telle que :
v(a)
PaA = X
v(b)
(1)
b∈A
Cette fonction est unique à un facteur positif près.
Ainsi v(a) peut être interprétée comme une utilité déterministe (ou échelle) de l'action
a. Par ailleurs, la formule (1) de calcul des probabilités implique que la probabilité que k
soit choisie augmente avec son utilité et diminue lorsque l'utilité d'une autre action dans
A augmente. Avec cette démarche, on voit bien que le modèle de Luce est un RDRM
substantiel.
3.2 Principales conséquences et limites du modèle de Luce
Le "choice axiom" de Luce implique un certain nombre de conséquences, dont beaucoup
ne sont malheureusement pas vériées empiriquement ou donnent lieu à des "paradoxes".
Plusieurs points font donc débat :
- tout d'abord, la régularité est une propriété très faible sur les probabilités de choix
qui semble généralement vériée empiriquement. Elle s'énonce ainsi :
Régularité : ∀k ∈ A ⊆ B , PkA ≥ PkB .
Or il peut arriver que cette propriété soit violée dans le modèle de Luce, ce qui est
problématique.
- une autre conséquence, concernant seulement les probabilités de choix binaires, découle du "choice axiom" : c'est la transitivité stochastique forte (TSF). La transitivité
stochastique généralise la notion algébrique de transitivité. La TSF correspond à :
Transitivité stochastique forte :
∀x, y, z ∈ A, P (x; y) ≥ 1/2 et P (y; z) ≥ 1/2 ⇒ P (x; z) ≥ max[P (x; y), P (y; z)].
Le problème est que la TSF est très souvent violée dans les études empiriques (cf. Luce
(1977) p 226 pour plus de précisions).
13
- enn, le "choice axiom" de Luce implique une version de la propriété d'indépendance
par rapport aux choix extérieurs (IIA). Cette propriété s'énonce :
Indépendance par rapport aux choix extérieurs :
PaS
PaT
∀S, T ∈ ϕ tels que S ⊆ T et ∀a, b ∈ S , S = T .
Pb
Pb
Cette propriété, également connue en psychologie sous le nom de "simple scalability"5
stipule que le rapport des probabilités de choix de a et b est indépendant de l'ensemble
qui les contient, c'est-à-dire des choix extérieurs.
Cependant, Debreu (1960) dans son "paradoxe du bus bleu-bus rouge" a montré
que cette séparabilité pouvait conduire à des résultats contre-intuitifs. Nous reprendrons
l'énoncé du paradoxe donné par De Palma et Thisse (1989, p 161-162). On suppose que
l'individu doit se rendre à une destination donnée et qu'il lui est indiérent de prendre la
voiture ou le bus (P (voiture) = P (bus)).
Supposons que 2 bus puissent être utilisés, de couleur rouge ou bleue et que l'individu
n'accorde aucune importance à la couleur.
Par conséquent, l'ensemble A des actions est donné par {voiture, busrouge, busbleu}
et les relations suivantes doivent être satisfaites :
P (voiture, busrouge) = P (voiture, busbleu) = 1/2 et PA (busrouge) = PA (busbleu).
Intuitivement, on s'attend à ce que les probabilités de choix soient égales à :
PA (voiture) = 1/2 et PA (busbleu) = PA (busrouge) = 1/4.
Or l'axiome de choix implique6 que PA (voiture) = PA (busbleu) = PA (busrouge) =
1/3. Cela signie que l'ajout d'une alternative supplémentaire aecte de la même façon
les alternatives très similaires et les alternatives peu similaires, ce qui n'est guère conforme
à l'intuition. L'axiome de choix n'est donc valable que sur des ensembles de choix avec des
alternatives susamment distinctes, ce qui n'est pas le cas ici où les bus bleus et rouges
auraient pu être assimilés à une seule et unique alternative. Ainsi, comme le note Tversky,
les probabilités de choisir des alternatives à partir d'un ensemble donné A ne peuvent
être déduites en général des probabilités de choisir ces alternatives dans les sous-ensembles
de A ou les ensembles incluant A. (1972a, p 283)
5 cf.
Tversky (1972a), p 282 sur ce point
la démonstration, cf. De Palma et Thisse (1989, pp. 161-162)
6 pour
14
Un exemple attribué à Savage par Luce et Suppes (1965, pp 334-335) illustre une autre
diculté liée à cette propriété d'IIA. On suppose que l'individu doit choisir un voyage et
qu'il lui est indiérent de partir à Rome ou à Paris de telle sorte que P (P aris, Rome) =
1/2. Supposons que l'on ajoute 2 nouvelles alternatives correspondant à chacun des
voyages auxquels on ajoute 1$ : ces alternatives sont notées (Paris+) et (Rome+). Le
bonus étant peu signicatif, on s'attend à ce que l'individu reste indiérent entre Paris
et Rome avec ou sans bonus. Or le modèle de Luce implique7 que P (P aris+, Rome) =
P (Rome+, P aris) = 1 ce qui est contre-intuitif.
Après avoir vu que les conséquences du modèle de Luce étaient sujettes à certaines
limites, nous allons voir qu'une équivalence a été établie entre ce modèle et les RUM
couramment utilisés. Cette équivalence peut sembler séduisante car elle tend à montrer
que l'origine de l'aléa est un problème secondaire. Le revers de la médaille est pourtant
que les limites du modèle de Luce se retrouvent dans la plupart des modèles RUM, ce qui
soulève des dicultés.
3.3 L'équivalence entre le "choice axiom" et les RUM classiques
Bien que le modèle de Luce n'appartienne pas à la même famille que les modèles
RUM, une équivalence a été établie. Avant d'énoncer le théorème d'équivalence, nous
présenterons brièvement les modèles à utilité aléatoire (pour une présentation formelle et
plus complète, cf. De Palma et Thisse, 1989, pp 167-179)
3.3.1 Présentation des RUM
Dans les modèles RUM on décompose l'utilité Uk associée à une action k en une utilité
déterministe observable (échelle) uk et une variable aléatoire εk . L'existence de l'aléa sur
l'utilité peut s'interpréter comme l'existence d'un état d'esprit changeant (interprétation
cognitive, défendue par Thurstone, 1927) mais aussi comme une incapacité à observer
toutes les caractéristiques des actions inuençant le choix de l'individu (on retrouve l'interprétation "économétrique", soutenue par McFadden, 1981). On suppose que les sujets
sont indépendants les uns des autres et statistiquement identiques : on peut ainsi représenter chacun d'eux par la même variable aléatoire.
Les modèles à utilité aléatoire supposent alors que la probabilité de choix est égale à
la fonction de distribution cumulée de ε suivant une certaine loi. Plusieurs lois sont alors
possibles.
7 pour
plus de précisions, cf. Tversky (1972a, p 284)
15
Tout d'abord, on peut supposer que ε est distribuée selon une loi uniforme mais cela
oblige à dénir des bornes nies dans l'intervalle de dénition. Si le comportement d'un
sujet est le résultat d'un grand nombre de facteurs indépendants, le théorème central limite permet alors l'emploi d'une loi normale qui semble plus pertinente. Ce modèle appelé
"probit" correspond à la forme proposée par Thurstone (1927).
Toutefois, le problème de la fonction normale cumulée est qu'elle ne peut être exprimée à l'aide d'une forme fonctionnelle explicite. On est donc tenté de chercher une
forme plus compacte qui donne des valeurs approchées. C'est pourquoi McFadden (1974)
a proposé d'utiliser une fonction de distribution logistique car elle conduit à des résultats
très proches de ceux obtenus en utilisant la loi normale pour des valeurs susamment
diérentes de 0 ou de 1. Cette loi a donné son nom au modèle "logit". Les formules des
probabilités sont données par le théorème suivant8 , attribué à Holman et Marley :
THÉORÈME : Supposons que les εk soient i.i.d selon la distribution double expo-
nentielle :
x
+γ
F (x) = P (εk ≤ x) = exp − exp −
µ
où γ est la constante d'Euler (γ ≈ 0.5772) et µ une constante positive.
Alors ∀k ∈ A, les probabilités de choix qui en résultent sont données par :
PkA =
exp(uk /µ)
n
X
.
(2)
exp(uj /µ)
j=1
Ce théorème montre que si la distribution de εk est double exponentielle (proposition
P1) alors les probabilités de choix sont données par le modèle logit multinomial (proposition P2). On a donc P 1 ⇒ P 2. Yellott (1977) a ensuite prouvé l'équivalence entre les 2
propositions (P 1 ⇔ P 2).
Après avoir exposé ces modèles, nous allons nous intéresser au paramètre µ qui pourrait
orir un moyen de discriminer entre l'interprétation cognitive et l'interprétation économétrique.
3.3.2 Le rôle du paramètre µ
π 2 µ2
Le paramètre µ est intrinsèquement lié à la variance de la distribution (V (ε) =
).
3
Si µ → 0 alors PkA = 1 ssi l'utilité de k est la plus forte parmi toutes les alternatives de
8 pour
une preuve de ce théorème, cf. Anderson, De Palma et Thisse, 1992, pp 39-40
16
A. On retrouve alors le modèle néoclassique de choix.
A l'inverse, si µ → ∞, l'incertitude est totale et PkA = 1/|A|, ∀k ∈ A.
L'interprétation du paramètre µ est pourtant relativement oue dans la littérature.
Nous pensons que sa signication dière selon que l'on retient l'interprétation économétrique du RUM (modèle de McFadden) ou l'interprétation cognitive (modèle de Thurstone) :
- dans le premier cas, µ s'interprète comme un critère d'inobservabilité de l'action.
Si µ → 0 alors les caractéristiques de l'action sont parfaitement observables alors que si
µ → ∞ l'ignorance du modélisateur est totale.
- dans le second cas, µ s'interprète comme un indicateur des limites à la rationalité du
décideur. Si µ → 0, il n'y a pas de limite à la rationalité du décideur et son comportement
est déterministe alors que si µ → ∞, l'individu décide de façon totalement aléatoire.
Il est intéressant de remarquer que, dans le second cas, cette interprétation est assez
semblable à celle proposée par Chen, Friedman et Thisse (1997, p 36), dans un modèle
logit plus complexe appliqué à la théorie des jeux. Ces auteurs suggèrent que les probabilités de choix en stratégie pure sont données par :
i
pij (P i )
[Uji (P i )]µ
= m
X
i
[Uki (P i )]µ
(3)
k=1
où P est une distribution de probabilité du joueur i sur les choix des autres joueurs,
pij (P i ) la probabilité pour i de choisir la stratégie pure j étant donnée P i , Uji (P i ) l'utilité
pour i de choisir la stratégie pure j étant donnée P i et µi un paramètre de rationalité du
joueur i. Si µ → 0, le choix de l'individu est parfaitement aléatoire (probabilités égales)
et si µ → ∞ l'individu est parfaitement rationnel.
i
Les interprétations se rejoignent donc, à la diérence que, dans le modèle multinomial
logit standard, la rationalité décroît avec µ alors qu'elle croît avec µ dans le modèle proposé par Chen, Friedman et Thisse. Au vu de la position du paramètre µ dans chacun des
modèles, cette diérence paraît logique.
La diérence de sens de µ entre l'interprétation cognitive et l'interprétation économétrique ore des perspectives de recherches futures intéressantes. En eet, si µ est un
paramètre de limite à la rationalité exprimant la diculté à traiter les grands ensembles
d'information, ce dernier devrait logiquement croître quand le nombre d'alternatives de
choix (|A|) augmente. En particulier, une étude de Miller (1956) avait montré la diculté
17
pour les individus à traiter des ensembles d'information comportant plus de 7 éléments. En
revanche, si µ est un paramètre exprimant un état d'esprit ou un degré d'inobservabilité,
il ne devrait pas varier quand |A| augmente. On pourrait donc eectuer un test an de
déterminer si µ est ou non croissant avec |A| an de discriminer entre les interprétations.
3.3.3 Equivalence entre le modèle de Luce et le logit et forme évoluée du
logit
Si on compare cette expression du logit multinomial (3) avec les probabilités du modèle
de Luce (21), on voit qu'il sut de poser v(k) = exp(uk /µ) pour obtenir une équivalence.
L'avantage du modèle logit multinomial par rapport à la formulation de Luce est donc
qu'il se rattache directement à la théorie de l'utilité et qu'il est relié au modèle néoclassique
via µ. Cependant, le modèle logit multinomial comporte les mêmes limitations que le
modèle de Luce :
- l'interprétation reste très ouverte
- il ne peut traiter que les situations dans lesquelles la propriété IIA est vériée.
Pour surmonter cette seconde limite, Ben-Akiva (1973) a proposé de modéliser le processus de choix selon une procédure emboîtée à deux ou plusieurs étapes9 . On suppose
que l'individu choisit d'abord un certain sous ensemble Ai de A regroupant des actions
ayant le plus grand nombre possible de caractéristiques communes. Puis l'individu choisit
une action particulière selon la probabilité dépendant de l'utilité de l'action. Ben-Akiva a
utilisé le modèle logit multinomial aux 2 étapes d'où le nom de "nested logit".
Avec ce modèle la propriété IIA est vériée à la fois entre les alternatives d'un sousensemble Ai et entre les sous-ensembles Ai , ∀i (par contre, elle ne l'est pas entre des
alternatives appartenant à des sous-ensembles diérents). Le modèle permet donc d'englober un plus grand nombre de situations de choix avec des congurations de substitutions
variées entre les actions.
Cependant, il faut rappeler que l'interprétation du nested logit tout comme celle du
modèle de Luce restent indécises. Nous allons désormais montrer que la généralisation du
modèle de Luce en spéciant une procédure de décision permet d'aboutir à un RDRM
procédural, le modèle de Tversky, qui comporte moins de dicultés d'interprétation et
peut être utilisé pour analyser la substituabilité entre caractéristiques.
9 pour
une présentation détaillée, cf. Anderson, De Palma et Thisse (1992, p46-48)
18
Deuxième partie
Le modèle de Tversky, fondateur des
modèles procéduraux à règle de
décision aléatoire
Nous présenterons ici la version standard du modèle de Tversky (1972a,b), puis une
version plus abstraite permettant d'inférer des conséquences testables. Nous verrons le lien
entre ce modèle et le modèle de Luce puis nous montrerons que ses conséquences obtiennent
de meilleurs résultats aux tests que celles du modèle de Luce. Nous détaillerons également
une méthode proposée par Batsell et al (2003) pour éliciter facilement les paramètres du
modèle de Tversky. Nous terminerons en évoquant les limites du modèle de Tversky.
1
Présentation classique du modèle de Tversky
1.1 Concepts et procédure du modèle de Tversky
L'idée principale du modèle de Tversky est que le choix d'une alternative peut être vu
comme le résultat d'un processus stochastique d'élimination des alternatives.
Tversky (1972a,b) décrit une action par un ensemble de caractéristiques. Cette démarche peut être rapprochée des caractéristiques utilisées dans la nouvelle théorie du
consommateur par Lancaster (1966).
On distingue traditionnellement entre les caractéristiques discrètes (comme la couleur ou la présence d'une certain équipement dans une automobile) et les caractéristiques
continues (comme la puissance de l'automobile). Parmi les caractéristiques discrètes, on
peut aussi distinguer entre les caractéristiques indépendantes (qui peuvent être seulement
absentes ou présentes, comme l'équipement dans la voiture) et les caractéristiques dépendantes qui sont reliées à d'autres caractéristiques par une contrainte, souvent d'exclusion
mutuelle (par exemple, une couleur donnée de véhicule est une caractéristique contrainte
car sa présence est liée au fait que le véhicule n'a aucune des autres couleurs). La prise en
compte ou non de la contrainte relève d'un choix du modélisateur : ainsi, si la contrainte
n'est pas prise en compte, un ensemble de caractéristiques dépendantes peut être décomposé en n caractéristiques indépendantes distinctes.
Or, Tversky suppose que toutes les caractéristiques sont indépendantes (elles peuvent
19
seulement être présentes ou absentes)10 : les ensembles de caractéristiques discrètes dépendantes sont donc décomposés en n caractéristiques indépendantes. Cette représentation est adaptée aux caractéristiques discrètes mais pour les caractéristiques continues,
Tversky fait l'hypothèse de l'existence d'un seuil au delà duquel la caractéristique peut
être considérée comme présente (il transforme chaque caractéristique continue en une caractéristique indépendante). A chaque caractéristique est associée une "échelle", utilité
positive exprimant l'importance de la caractéristique pour l'individu.
A partir de cette dénition des actions, Tversky spécie une procédure de décision :
on voit ainsi que son RDRM est procédural. La procédure de sélection d'une alternative
fonctionne ainsi (à la manière d'un algorithme, comme le remarquent Anderson, De Palma
et Thisse, 1992, p 27) :
- tout d'abord, les caractéristiques communes de l'ensemble des choix restants sont
éliminées car elles ne peuvent servir à discriminer entre les actions.
- ensuite, une caractéristique est sélectionnée et toutes les alternatives ne possédant
pas cette caractéristique sont éliminées. La probabilité de sélectionner une alternative est
d'autant plus forte que l'utilité de l'alternative est élevée.
- enn, on arrête si les alternatives restantes ont les mêmes caractéristiques et dans
le cas contraire on retourne à la première étape. Si on termine à cet étape, on regarde
le nombre d'alternatives restantes : s'il n'y en a qu'une, elle est sélectionnée. Dans le cas
contraire, les alternatives restantes ont une probabilité égale d'être sélectionnée.
Plusieurs séquences d'élimination peuvent donc conduire à la sélection d'une alternative.
Cette approche rappelle la relation de préférence lexicographique. Elle s'en distingue
par l'ordre de sélection des caractéristiques qui est ici aléatoire alors qu'il est déni a
priori dans le modèle lexicographique.
Chez les psychologues (cf. Reed, 1999, pp 507-514 par exemple), le modèle de Tversky
est vu comme un modèle non-compensatoire, c'est-à-dire qui n'eectue pas de compensations entre les caractéristiques des alternatives. Cette classe de modèles11 présente l'avantage de décrire des procédures simples souvent utilisées par les individus an de réduire
la taille de leur ensemble d'informations en cas de problème compliqué.
Nous allons maintenant présenter la formulation de base du modèle de Tversky.
10 cette
hypothèse sera discutée en section 4
opposer aux modèles compensatoires, qui incluent des compensations et supposent donc un raisonnement plus élaboré.
11 à
20
1.2 Version standard du modèle de Tversky
Nous reprendrons une version du modèle de Tversky très proche de celle adoptée par
Batsell et al (2003).
Soit T = {i, j, k...} un ensemble d'alternative de choix. Soit T 0 = {α, β, γ...} l'ensemble
des caractéristiques (ou aspects12 ) des alternatives de T. Ces caractéristiques peuvent
appartenir à une ou plusieurs alternatives.
On dénit enn une fonction d'échelle (ou d'utilité) u : T 0 → R telle que ∀α ∈ T 0 ,
u(α) est l'échelle de α. On se réfère à un tel modèle par le triplet {T,T',u}.
Un individu qui choisit au sein de l'ensemble A ⊂ T d'alternatives choisit une des
caractéristiques dans A' et élimine toutes les alternatives ne possédant pas cette caractéristique.
On prend alors les dénitions suivantes :
- L'ensemble des caractéristiques d'une alternative k donnée est :
k 0 = {α ∈ T 0 /k a la caracteristique α}
- L'ensemble des alternatives de T possédant une caractéristique α donnée est :
Tα = {k ∈ T /α ∈ k 0 }
- L'ensemble des caractéristiques de l'ensemble A des alternatives disponibles au choix
est :
A0 = {α ∈ T 0 /∃k ∈ A/α ∈ k 0 } =
[
k0
k∈A
- L'ensemble des caractéristiques partagées par toutes les alternatives de A est noté :
A0 = {α ∈ T 0 /α ∈ k 0 ∀k ∈ A} =
\
k0
k∈A
- L'ensemble des alternatives de A possédant une caractéristique α donnée est :
Aα = {k ∈ A/α ∈ k 0 } = Tα ∩ A
12 c'est
le terme "aspect" qui avait été utilisé par Tversky : pour notre part, nous utiliserons invariablement chacun des termes.
21
- L'ensemble des caractéristiques partagées par toutes les alternatives de A, mais pas
par au moins une autre alternative hors de A, est noté :
A = {α ∈ T 0 /α ∈ k 0 ∀k ∈ A et @l ∈
/ A/α ∈ l0 }
On vérie que A ⊆ A0 .
Les caractéristiques discriminantes pour l'ensemble A sont celles qui appartiennent au
moins à une alternative de A mais qui n'appartiennent pas à toutes les alternatives de A,
c'est-à-dire celles comprises dans A0 \A0 .
On suppose ensuite que parmi l'ensemble des caractéristiques discriminantes possibles,
la probabilité de sélectionner les alternatives selon la présence d'une caractéristique α
donnée est égale au rapport de l'utilité de l'aspect considéré sur la somme totale des utilités
des caractéristiques discriminantes. Mathématiquement, cette probabilité est donnée par :
P (α) =
u(α)
X
u(β)
(4)
β∈A0 \A0
Pour calculer la probabilité de choix d'une alternative k parmi A, on calcule pour
chaque caractéristique la probabilité de sélection de cette caractéristique comme critère
discriminant (donnée par la formule précédente) multipliée par la probabilité de choisir
l'alternative considérée parmi toutes celles qui possèdent cette caractéristique (qui s'écrit
PkAα ). Mathématiquement, si k 0 \A0 6= ∅ cela s'écrit :

PkA =
X
α∈k0 \A0
P (α).PkAα =


X 
u(α)

 Aα
 X
 .Pk .


u(β)
0
α∈k \A0
(5)
β∈A0 \A0
On remarque que cette formule est récursive. Dans le cas où les alternatives restantes
en A partagent toutes les mêmes caractéristiques (k 0 \A0 = ∅), on a :
PkA = 1/|A|.
22
(6)
/ k 0 , on peut réécrire (5) sous la forme :
Comme PkAα = 0 si α ∈

PkA


X 
u(α)

 Aα
=
 X
 .Pk .

u(β) 
α∈T 0 \A0
(7)
β∈A0 \A0
On peut appeler "échelle de A" l'expression
VA =
u(β)
(8)
u(α).PkAα .
(9)
X
β∈A0 \A0
et "échelle de k dans A" l'expression
VkA =
X
α∈T 0 \A0
(on note que V A =
X
.VkA ).
k∈A
On peut alors vérier que
PkA =
VkA
VA
(10)
Nous allons maintenant montrer que le modèle de Tversky correspond à une généralisation de modèles à règle de décision aléatoire existants.
1.3 Une généralisation des modèles de Luce et Restle
1.3.1 La généralisation du modèle de Luce
Considérons un cas particulier dans lequel les caractéristiques sont toutes disjointes
entre les alternatives ou appartiennent toutes à A0 . Dans ce cas, si une caractéristique est
sélectionnée, alors ∀α ∈ T 0 , PkAα = 1. On peut alors réécrire (7) ainsi :

PkA =


X 
u(α)


X

.


u(β)
α∈T 0 \A0
β∈A0 \A0
23
(11)
Si on pose v(k) =
X
u(α), on retrouve :
α∈k0 \A0
v(k)
PkA = X
v(l)
l∈S
qui correspond à l'expression du modèle de Luce. Le modèle de Tversky est donc une
généralisation du modèle de Luce.
1.3.2 La généralisation du modèle de Restle
De même, le modèle de Tversky généralise un autre modèle à règle de décision aléatoire,
proposé par Restle (1961), dans lequel on ne considère que les probabilités de choix binaires
dans l'ensemble (A = {k, l}). Selon Restle, les probabilités sont alors calculées avec la
formule :
P (k, l) =
u(k 0 − l0 )
u(k 0 − l0 ) + u(l0 − k 0 )
(12)
On peut prouver cette généralisation en constatant que k 0 \A0 = k 0 −l0 pour l'alternative
k et l0 \A0 = l0 − k 0 pour l'alternative l. En conséquence, les caractéristiques sont disjointes
et comme dans le cas précédent, on a ∀α ∈ T 0 , PkAα = 1. La formule (7) prend la forme :

PkA




X 
X 

u(α)
u(α)


 X
.
X
=
 X
=




u(β)
u(α) +
u(β)
α∈k0 −l0
α∈k0 −l0
α∈k0 −l0
β∈A0 \A0
(13)
β∈l0 −k0
Il sut alors de poser que :
X
u(k 0 − l0 ) =
u(α)
α∈k0 −l0
pour retrouver la formule (12) du modèle de Restle.
Nous allons maintenant voir comment le modèle de Tversky traite le "paradoxe bus
bleu-bus rouge" et le paradoxe du voyage à Rome-Paris, ce qui fera aussi oce d'exemples.
1.4 La résolution des paradoxes du modèle de Luce
1.4.1 La résolution du paradoxe bus bleu-bus rouge
On reformule d'abord le problème posé par Debreu (1960) en lien avec les caractéristiques. Posons α1 = voiture, α2 = bus, α3 = bleu, α4 = rouge.
24
Dans les conditions xées par Debreu, l'individu doit choisir entre une voiture k1 =
{α1 }, un bus bleu k2 = {α2 , α3 } et un bus rouge k3 = {α2 , α4 }.
L'individu est indiérent aux couleurs, ce qui impose de vérier PkA2 = PkA3 = 1/2 si
A = {k2 , k3 } (condition 1). L'individu est également indiérent entre utiliser la voiture
et le bus d'une certaine couleur pour son trajet, ce qui suppose que PkA1 = PkA2 = 1/2 si
A = {k1 , k2 } (condition 2) et PkA1 = PkA3 = 1/2 si A = {k1 , k3 } (condition 3).
Or, selon Debreu, la caractéristique "couleur" supplémentaire ne devrait pas modier
le choix entre voiture et bus car l'utilité de la couleur semble relativement négligeable par
rapport à celle du type de véhicule. Dans le cas où A = {k1 , k2 , k3 }, on devrait donc avoir
PkA1 ≈ 1/2 et PkA2 = PkA3 ≈ 1/4.
Dans la démarche de Tversky, on commence à attribuer des utilités aux caractéristiques. Posons u(α2 ) = β et u(α3 ) = u(α4 ) = γ : l'utilité des couleurs est égale pour
vérier la condition 1. De plus les conditions 2 et 3 sont vériées ssi u(k2 ) = u(k3 ) = u(k1 ).
On sait que u(k2 ) = u(α2 )+u(α3 ) = β +γ et que u(k3 ) = u(α2 )+u(α4 ) = β +γ . On en déduit qu'il faut poser u(k1 ) = u(α1 ) = β+γ pour vérier les conditions de départ de Debreu.
Que se passe-t-il maintenant si A = {k1 , k2 , k3 } ? En appliquant la formule (7), on
trouve :
PkA1 =
β+γ
2β + 3γ
et
PkA2 = PkA3 =
γ
β
γ
γ + 1/2β
.1 +
.
=
2β + 3γ
2β + 3γ 2γ
2β + 3γ
On peut détailler le calcul de ces probabilités.
Tout d'abord, k1 ne possède que la caractéristique α1 et la probabilité de choisir cette
caractéristique est donnée par le rapport des utilités. Or seule k1 possède la caractéristique
A
α1 : si α1 est sélectionnée, alors seule k1 sera retenue (en d'autre termes Pk1α1 = 1). On
retrouve alors l'expression de PkA1 .
Intéressons nous maintenant aux 2 autres alternatives. k2 possède deux caractéristiques, la probabilité de sélectionner chacune des caractéristiques étant donnée par le
rapport des utilités. Si la couleur bleue α3 est sélectionnée (première partie de l'équation),
25
alors k2 sera sélectionnée à coup sûr car elle est la seule à posséder cette couleur. Si la
caractéristique "bus" α2 est sélectionnée (seconde partie de l'équation), la situation est
diérente puisque cette caractéristique est aussi partagée par k3 . Il faut alors calculer la
A
probabilité Pk1α2 de sélectionner k2 par rapport à k3 une fois α2 éliminée. La seule caractéristique discriminante restante est alors la couleur : la probabilité de sélectionner k2 est
γ
égale à la probabilité de sélectionner bleu parmi {rouge, bleu}, soit . On retrouve ainsi
l'expression de PkA2 . Le calcul de PkA3 obéit à une logique similaire.
2γ
Analysons désormais les résultats obtenus.
1
1
1
1
On constate que ≤ PkA1 ≤ et ≤ PkA2 (ou 3) ≤ . Or si γ → 0 (utilité de la couleur
3
2
4
2
assez négligeable, comme le suppose Debreu), PkA1 → 21 et PkA2 (ou 3) → 14 . On voit donc que
le modèle de Tversky permet de résoudre le paradoxe du bus-bleu/rouge.
1.4.2 La résolution du paradoxe du voyage à Paris-Rome
Dans le problème énoncé par Savage, les choix possibles sont k1 =(Paris), k2 =(Paris+),
k3 =(Rome) et k4 =(Rome+). Supposons que le voyage à Paris soit doté d'une caractéristique spécique α1 (cela peut aussi correspondre à un ensemble de caractéristiques spéciques, ce qui revient au même) et le voyage à Rome d'une caractéristique spécique α2 .
Le dollar supplémentaire est vu comme une caractéristique supplémentaire α3 . On a donc
k1 = {α1 },k2 = {α1 , α3 }, k3 = {α2 } et k4 = {α2 , α3 }.
Posons u(α1 ) = β et u(α3 ) = γ .
PkA1
L'individu est indiérent entre les voyages à Paris et à Rome ce qui impose de vérier
= PkA3 si A = {k1 , k3 }.
Cette condition est vériée si u(α1 ) = u(α2 ) = β . On peut vérier que l'individu est
indiérent entre les 2 voyages, Rome et Paris, sans bonus.
Voyons maintenant quels résultats nous obtenons selon les ensembles A retenus :
- Si A = {k1 , k2 }, PkA2 = 1 et si A = {k3 , k4 }, PkA4 = 1. Cela signie que le voyage avec
un bonus de 1$ est toujours préféré au même voyage sans le bonus, ce qui est conforme à
l'intuition.
β+γ
1
- Si A = {k2 , k4 }, PkA4 =
= ce qui paraît logique : l'individu n'a toujours
2β + 2γ
2
pas de préférence entre les deux voyages auxquels on ajoute le bonus
- Le cas le plus intéressant est celui où A = {k1 , k4 } (le cas où A = {k2 , k3 } est symétrique. Dans ce cas, PkA4 =
β+γ
. Analysons ce résultat : on constate que
2β + γ
26
1
2
≤ PkA4 ≤ 1.
Or si γ → 0 (utilité du bonus assez négligeable par rapport à celle du voyage, comme le
suppose Savage), PkA4 → 1/2 ce qui est bien conforme à l'intuition.
On voit donc que le modèle de Tversky est un moyen alternatif au modèle Nested
logit de résoudre les paradoxes liés à l'IIA. Cela nous fournit un exemple de démarche
procédurale fructueuse.
2
La version abstraite du modèle de Tversky et ses
conséquences
2.1 Les diérentes formulations du modèle de Tversky
A l'origine, le modèle EBA a été formulé en terme d'une échelle d'utilité u dénie sur
l'ensemble des aspects pertinents. On pourrait croire que l'application du modèle nécessite
une dénition a priori des alternatives en terme d'aspects. Ce n'est pourtant pas le cas
car le modèle EBA peut être formulé dans les seuls termes d'élimination d'alternatives.
L'idée de base est que les ensembles T et T' étant superposables, la sélection d'une caractéristique revient à sélectionner un ensemble d'alternatives dans T. Le modèle EBA peut
donc être formulé en terme de sous-ensembles de T.
Cette version abstraite du modèle de Tversky peut également être vue comme le résultat d'un processus Markovien et les probabilités comme des probabilités de transition
entre les états (voir Tversky 1972b, p 347).
Dans la version abstraite, l'ensemble des aspects devient donc 2T , l'ensemble des sousensembles de T. On dénit alors un modèle EBA "abstrait" par {T,2T ,U }. On retrouve
les ensembles dénis précédemment par les formules suivantes :
k 0 = {A ⊂ T /k ∈ A}
- Ici B représente un ensemble d'alternative qui possèdent toutes une caractéristique
α donnée.
TB = B
- Si l'intersection entre B et A est non-vide, cela signie qu'au moins une alternative
de A possède la caractéristique α.
A0 = {B ⊂ T /B ∩ A 6= ∅}
27
- Si B inclut A alors cela signie que toutes les alternatives de A ont la caractéristique
α
A0 = {B ⊂ T /B ⊃ A}
AB = A ∩ B
- Si B est diérent de T, au moins une alternative de T ne possède pas α. Par contre
comme A est inclus dans B, toutes les alternatives de A possèdent α.
A = {B/A ⊂ B 6= T }
Les probabilités sont toujours données par l'équation (10) mais la dénition de B évolue
et pour tous les sous-ensembles quelconques C de T, les formules d'échelle deviennent :
X
VkA =
PkA∩C .U (C)
{C⊂T /C∩A6=A}
=
X
X
PkB .
.U (C)
(14)
{C⊂T /C∩A=B}
B⊂A,B6=A
avec
U (C) =
X
u(α)
(15)
α∈C
et
VA =
X
U (C)
(16)
{C⊂T /C∩A6=A,∅}
L'interprétation de U(C) mérite quelques précisions : elle n'est pas une mesure de la
valeur des alternatives de A mais plutôt une mesure de l'utilité procurée par les seules
caractéristiques spéciques à A.
L'équivalence entre la version standard et la version abstraite peut être établie rigoureusement par un théorème (Batsell et al, pp 539-540) :
THÉORÈME : Pour chaque modèle EBA {T, T 0 , u}, il existe un modèle EBA abstrait
{T, 2T , U } qui est équivalent à {T, T 0 , u} dans le sens où il conduit aux mêmes probabilités
de choix.
28
Quelques éléments de preuve13 :
La conversion est basée sur l'expression de (9) dans le langage de l'abstract model. De
façon strictement équivalente, on peut écrire (9) sous la forme :
VkA =
X
X
PkAα .
Aα
α∈T 0 /Aα ⊂A
u(α)
et
(17)
Aα 6=A
(Rappelons que l'on considère tous les α ∈ T et que l'on peut donc avoir Aα = ∅
auquel cas PkAα = 0)
0
On pose alors B = Aα et donc B = Tα ∩ A (cf. dénition de Aα ) et on obtient :
X
VkA =
X
PkB .
B⊂A,B6=A
On cherche maintenant à simplier
u(α)
(18)
α∈T 0 /Tα ∩A=B
u(α). Pour cela on prouve que :
X
α∈T 0 /Tα ∩A=B
∀C ( T, α ∈ C ⇔ C = Tα
Sans détailler ce point, l'idée principale est la suivante : si α ∈
/ C0 alors C 6= Tα (immédiat avec les dénitions) et si α ∈ C0 \C alors C=T.
En conséquence, on a :
X
X
u(α) =
α∈T 0 /Tα ∩A=B
X
u(α)
{C⊂T /C∩A=B} Tα =C
X
=
X
u(α)
{C⊂T /C∩A=B} α∈C
X
=
U (C)
(19)
{C⊂T /C∩A=B}
En remplaçant dans (18), on retrouve bien (14). Nous allons maintenant voir quelles
conséquences découlent de cette formulation abstraite.
13 pour
plus de précisions, cf. Batsell et al (2003), p 539-540 et Tversky (1972a), p 287-288
29
2.2 Les conséquences testables issues de la version abstraite du
modèle
Comme le reconnaît Luce (1977, p 228), la principale force du modèle de Tversky tient
au nombre de conséquences intéressantes qu'il implique 14 . Nous avons déjà vu en section
(II.1.4) que le modèle de Tversky résolvait des paradoxes dont était victime le modèle de
Luce. Nous allons maintenant montrer que la version abstraite implique des conséquences
dont la portée empirique semble meilleure que celles du modèle de Luce. Les preuves de
ces implications sont détaillées dans Tversky (1972b, pp 353-357) :
- le modèle de Tversky implique la régularité alors qu'elle n'était pas toujours vériée
dans le modèle de Luce.
- le modèle de Tversky implique une transitivité stochastique modérée (TSM) qui
semble vériée dans la plupart des études empiriques, alors que la transitivité stochastique forte du modèle de Luce n'était pas vériée. Cette TSM s'exprime ainsi :
Transitivité stochastique modérée :
P (x; y) ≥ 1/2 et P (y; z) ≥ 1/2 ⇒ P (x; z) ≥ min[P (x; y), P (y; z)].
- enn, le modèle de Tversky implique une nouvelle conséquence reliant les probabilités
de choix binaires et ternaires. Cette propriété est appelée "inégalité multiplicative" par
Tversky :
Inégalité multiplicative : Si A = {x, y, z}, PxA ≥ P (x; y).P (x; z).
Comme le note Tversky (1972a, p 290), cela signie que la probabilité de choisir x
parmi A est au moins aussi large que celle de choisir x plutôt qu'y et x plutôt que z
dans deux choix indépendants. Le modèle EBA implique une version plus forte de cette
inégalité donnée par PxA∪B ≥ PxA .PxB , ∀A, B ⊆ T .
Cette inégalité multiplicative dénit ainsi une borne supérieure aux probabilités de
choix ternaires. Une borne inférieure peut être trouvée en appliquant la propriété de
régularité aux sous-ensembles de A. Ainsi, on a :
min[P (x; y).P (x; z)] ≥ PxA ≥ P (x; y).P (x; z).
On peut donc souligner que le modèle de Tversky est à la fois théoriquement progressif15
14 voir
15 plus
la discussion sur les conséquences du modèle de Luce en section (I.3.2)
grand nombre de conséquences testables
30
et empiriquement progressif16 au sens de Popper, par rapport au modèle de Luce. Ces tests
devraient constituer des signaux positifs incitant à appliquer ce modèle à diérents niveaux
en économie.
3
Une méthode d'estimation des paramètres du modèle
de Tversky
3.1 La méthode des diérences de probabilité
L'un des problèmes du modèle de Tversky est le grand nombre de paramètres du
modèle (l'utilité des diérents ensembles d'alternatives) à éliciter. A l'origine, Tversky
(1972a, p 290) estimait leur nombre à 2t − 3 où t = |T | (2t correspond au nombre de
sous-ensembles de T auquel on soustrait une unité arbitraire de mesure). Mais Batsell et
al (2003, pp 543-544) ont montré que ce nombre était surestimé et qu'il se réduisait en
fait à 2t − t − 1.
Ces auteurs ont aussi proposé une méthode ecace pour éliciter les paramètres du
modèle, que nous allons détailler ici.
Cette méthode est basée sur les diérences de probabilité. On compare les variations
des probabilités de choix quand un objet est ajouté ou retiré de l'ensemble de choix.
Si A est l'ensemble des alternatives de choix, on dénit ∀k ∈ A ⊂ T une diérence de
probabilité comme :
CkA = PkA − PkT
(20)
Cette diérence montre comment la probabilité de choisir k varie quand on retire de
T les alternatives dans B (ou quant on ajoute les alternatives de B à T \B ). En utilisant
les probabilités de transition révélées par le décideur suite à l'ajout ou au retrait d'une
alternative, on peut ainsi calculer les diérences de probabilités.
Or les auteurs montrent que ces diérences peuvent également être formulées en fonction de l'ensemble des sous-ensembles B de T. On distingue alors trois interactions possibles entre B ⊂ T et A, B ∩ A = ∅, B ∩ A = A et ∅ =
6 B ∩ A 6= A.
16 succès
des tests sur les conséquences
31
Cela permet de décomposer la formule en :
CkA =
X
(PkA − PkB )u(B)
B∩A=∅
+
X
(PkA − PkB )u(B)
B∩A=A
+
X
(PkB∩A − PkB )u(B)
(21)
∅6=B∩A6=A
On obtient alors un système d'équations linéaires dont les échelles d'utilité sont les
inconnues et pouvant être résolu avec les moindres carrés pondérés.
3.2 Un exemple d'utilisation des diérences de probabilité
Reprenons un exemple ctif donné par Batsell et al (2003) dans lequel l'individu a le
choix entre 3 alternatives notées {1, 2, 3}. Dans ce cas, 4 sous-ensembles de choix peuvent
être construits et l'observation du décideur va conduire à révéler 9 probabilités à partir
desquelles on peut construire 6 diérences de probabilité. Par ailleurs, le nombre de diérence à calculer n'est en fait que de 5 car la somme des probabilités est égale à 1. On voit
ici que les diérences de probabilités sont plus compactes que les probabilités dont elles
découlent : c'est donc un moyen plus ecace de capturer l'information. Les probabilités
de l'exemple sont données par :
Fig.
1 Probabilités et diérences de probabilités de l'exemple de Batsell et al (2003, p
541)
On peut noter que cet exemple ne peut être analysé par le modèle de Luce car l'indépendance par rapport aux choix extérieurs (IIA) est violée.
32
En eet, l'ajout de {2} à l'ensemble {1,3} ne conserve pas les proportions entre 1 et
3:
P1123
P113
2
4
=
6
=
=
P313
3
P3123
3
Par contre, il peut être analysé par le modèle de Tversky.
Posons u(B) = αijk... où i,j,k... correspondent aux alternatives dans B. Rappelons que
l'utilité d'un ensemble correspond à celle des caractéristiques spéciques qui le composent.
Ainsi, α12 correspond à l'utilité des caractéristiques partagées par les alternatives 1 et 2
et que les autres alternatives ne possèdent pas.
A titre d'exemple, déterminons l'équation associée à C212 . A partir de (20), on trouve
P212 − P2123 = 0.3. On calcule ensuite la formule (21) :
- il n'y a qu'un ensemble B tel que B ∩ A = ∅, c'est B = {3}. D'où :
X
(PkA − PkB )u(B) = (P212 − P23 )α3
B∩A=∅
= (0.6 − 0)α3
= 0.6α3
- il existe également un seul ensemble B tel que B ∩ A = A, c'est B = {1, 2}. D'où :
X
(PkA − PkB )u(B) = (P212 − P212 )α12
B∩A=A
= 0
(22)
- il existe par contre 4 ensembles tels que ∅ =
6 B ∩ A 6= A : {1}, {2}, {1, 3} et {2, 3}.
D'où
X
(PkB∩A − PkB )u(B) = (P21 − P21 )α1 + (P22 − P22 )α2 + (P21 − P213 )α13 + (P22 − P223 )α23
∅6=B∩A6=A
= 0 + 0 + (0 − 0)α13 + (1 − 0.5)α23
= 0.5α23
En reprenant la formule (21), on aboutit à l'équation suivante :
0.6α3 + 0.5α23 = 0.3
33
En appliquant la même méthode pour chacune des diérences de probabilités, on obtient le système suivant :

0.5α1 + 0.4α12





0.5α1 + 0.4α13



 0.4α + 0.6α
2
12

0.6α2 + 0.5α23





0.4α3 + 0.6α13



0.6α3 + 0.5α23
= 0.2
= 0.2
=0
= 0.3
=0
= 0.3
La résolution donne α2 = α3 = α12 = α13 = 0,α1 = 0.4 et α23 = 0.6.
Cela signie que les alternatives 2 et 3 sont similaires car seules leurs caractéristiques
communes sont valorisées : elles sont donc parfaitement substituables.
Les auteurs ont aussi appliqué cette méthode à un exemple de la vie réelle et ils
montrent sur cet exemple que le modèle de Tversky est plus pertinent que le modèle de
Luce. La pertinence de l'utilisation de paramètres supplémentaires (par rapport à Luce)
est validée empiriquement.
Nous allons maintenant voir un exemple d'application de la méthode des diérences de
probabilité où la spécicité du modèle de Tversky en tant que RDRM procédural prend
toute son importance.
3.3 Une application du modèle de Tversky à la politique de la
santé
Il paraît réducteur de n'utiliser les modèles de choix discret que pour formuler des
demandes agrégées, comme le laisse entendre McFadden (1981). Ces modèles, et en particulier les RDRM procéduraux, peuvent fournir des conseils utiles en terme de politique
économique.
Imaginons que l'état s'interroge quant à la pertinence d'interdire un certain médicament, noté "médicament 1". Ce dernier est soupçonné d'être consommé davantage
parce qu'il contient une substance chimique proche de certains stupéants (qui lui est
spécique) plutôt que pour ses vertus curatives. Une évaluation économétrique montre
que la consommation du médicament 1 parmi un ensemble de médicaments donnés est
plus importante chez un groupe d'individus consommant habituellement des stupéants
que chez un groupe témoin (de façon équivalente, on peut considérer un RUM qui montre
que la probabilité de consommer ce médicament est plus forte dans le groupe de "dro34
gués"). Le problème est alors d'identier si cette sur-consommation du médicament 1
s'explique par ses propriétés curatives, le groupe de "drogués" nécessitant des soins plus
importants que le groupe témoin, ou par la recherche de la substance chimique incriminée.
Le modèle de Tversky permet de mieux répondre à cette question que les modèles
RUM car 1) il précise explicitement que les diérences de probabilités de choix découlent
des comportements individuels et 2) il stipule que ces choix sont fondés sur les caractéristiques des produits.
Un moyen de discerner laquelle des interprétations est la bonne est de calculer les
paramètres du modèle de Tversky. L'utilité du médicament 1 correspond à l'utilité de ses
caractéristiques spéciques et donc de la substance chimique suspectée : elle est notée
α1 . Supposons qu'il existe un autre médicament, le médicament 2 ayant exactement les
mêmes propriétés curatives que le médicament étudié sans posséder la substance chimique
suspecte. L'utilité des caractéristiques spéciques aux deux médicaments est alors notée
α12 . Après avoir calculé ces deux utilités avec la méthode des diérences de probabilités,
il sut alors de les comparer. Si α1 est beaucoup plus élevée que α12 pour le groupe de
drogués que pour le groupe témoin, alors le médicament 1 est bien consommé pour sa
substance chimique.
Cette conclusion n'aurait pu être tirée avec d'autres modèles de choix discrets car elle
aurait posé des problèmes d'interprétation. Nous allons maintenant voir que le modèle de
Tversky est pourtant sujet à quelques limites signicatives.
4
Les limites du modèle de Tversky
Une première limite du modèle de Tversky tient à la diculté de concevoir toutes les
séquences d'élimination possibles. Cela a conduit Tversky et Sattath (1979) à proposer
une procédure heuristique qui permettrait d'éviter l'énumération complète des possibilités. Cependant, si l'ensemble de choix n'est pas trop élevé, cette tâche reste réalisable.
Une critique plus sévère concerne la prise en compte des caractéristiques continues
ou des caractéristiques discrètes dépendantes. Rappelons que les caractéristiques dépendantes, comme la couleur (cas où l'ensemble comporte n éléments : {bleu, rouge, vert,
bleu marine...}), sont décomposées en un ensemble de n caractéristiques indépendantes.
Chaque caractéristique continue (comme la puissance d'un véhicule, mesurée par le nombre
de ch...) est également transformée en une unique caractéristique indépendante par le recours à un seuil d'aspiration.
35
Comme le notent De Palma et Thisse (1989, p 166), cette représentation des caractéristiques continues peut poser problème car les montants absolus des caractéristiques
n'importent pas. Ainsi si toutes les alternatives possèdent les mêmes caractéristiques,
elles ont une probabilité égale d'être sélectionnées alors qu'une alternative peut dominer
toutes les autres en terme des montants absolus de caractéristiques. Il semble donc que
cette manière de prendre en compte les caractéristiques continues soit infructueuse et on
peut reprocher au modèle de Tversky de ne pas supposer assez de rationalité. Voici une
critique qui a pu paraître rédhibitoire à de nombreux économistes...
Une autre façon de prendre en compte une caractéristique continue pourrait être de la
décomposer en n caractéristiques indépendantes. Cependant, le choix de n serait nécessairement arbitraire. Une voie plus prometteuse, explorée dans la section III.2.5.2, consiste
à remplacer la fonction d'utilité u dénie sur T' par un ensemble de fonctions d'utilités,
discrètes ou continues, selon la nature de l'aspect considéré.
Une troisième critique, liée à la dépendance, concerne la probabilité de sélectionner
une certaine caractéristique discriminante. Prenons un exemple pour préciser ce point.
Supposons que l'individu ait le choix entre 3 automobiles, pouvant comporter les aspects
suivants : α ="airbag", β ="bleu turquoise", γ ="bleu roi", δ ="bleu marine" avec :



u

α
β
γ
δ


 
 
=
 
4
4
3
4



.

Supposons que les 3 alternatives soient k1 = (α, β), k2 = (γ) et k3 = (δ). Dans ce cas,
la probabilité de sélectionner les choix selon l'une des couleurs est 11/15 alors que celle de
sélectionner les choix selon la présence de l'airbag est seulement de 4/15. Ce résultat peut
sembler paradoxal. En eet, les diérentes couleurs sont très proches en terme d'utilité
et on pourrait s'attendre à ce que la couleur de la voiture soit une caractéristique peu
discriminante pour l'individu. En revanche, l'airbag apporte un supplément d'utilité signicatif : on peut supposer que la probabilité de sélectionner les options en fonction de
la présence (ou non) de l'airbag soit nettement plus élevée.
Cela suppose que la structure des caractéristiques (et en particulier le fait que les
caractéristiques soient dépendantes) importe sur le choix des individus, alors que cette
dernière n'est pas prise en compte par Tversky. On peut alors se demander si le rapport
36
des utilités est un critère pertinent pour sélectionner une caractéristique.
Ces remarques suggèrent que le modèle de Tversky pourrait être amélioré en prenant
mieux en compte à la fois les caractéristiques continues et les caractéristiques dépendantes.
37
Troisième partie
Extensions du modèle de Tversky et
perspectives d'amélioration des modèles
à règle de décision aléatoire.
Dans cette partie, nous étudierons d'abord le modèle proposé par Billot et Thisse
et les interprétations sur lesquelles il s'appuie. Puis nous proposerons un modèle visant
à prendre en compte la dépendance entre les caractéristiques tout en conservant une
séquence d'élimination à la Tversky.
1
Le modèle de Billot et Thisse : une prise en compte
du contexte
1.1 Les idées fondamentales du modèle
Le modèle de Billot et Thisse peut être vu comme une amélioration de la version
abstraite du modèle de Tversky. Il fournit également des interprétations alternatives à la
procédure EBA pouvant conduire à ce type de structure formelle.
Comme l'a montré Simon (1957), l'individu face à un grand nombre d'alternatives va
se concentrer sur un petit nombre d'entre elles, eectuer une focalisation. Pourtant, l'individu n'est jamais parfaitement sûr de l'alternative qu'il va sélectionner et répugne donc à
éliminer un trop grand nombre d'alternatives. Ce comportement s'interprète comme une
préférence pour la exibilité (Kreps, 1979). Il y a donc un conit entre la nécessité de
focalisation et la préférence pour la exibilité.
Or ce conit peut être représenté en considérant que l'individu valorise la possibilité
de choisir ou à l'inverse sanctionne l'absence de possibilité de choix. Cela revient à mettre
l'accent sur le contexte dans lequel le choix est eectué. L'utilité d'un ensemble d'actions
peut alors diérer de la somme des utilités des actions et l'individu peut attribuer des
pondérations diérentes aux ensembles de choix.
La prise en compte du contexte impose de relâcher la contrainte d'additivité des probabilités, ce qui peut être eectué grâce aux capacités de Choquet. Avec comme seule
contrainte la monotonicité, les capacités permettent plus de liberté dans l'évaluation des
38
poids associés aux sous-ensembles d'alternatives. En particulier, la somme des capacités
de choix sur l'ensemble total des alternatives peut être diérente de 1 et peut varier selon
la taille de l'ensemble de choix. Le problème de cette représentation est que les capacités
ne sont pas observables mais les auteurs surmontent cette diculté en montrant que les
capacités peuvent être converties en probabilités à l'issue d'une procédure.
1.2 Formulation du modèle de Billot et Thisse et mise en perspective
On dénit d'abord les notions d'utilité et de capacité avant d'exposer la formule de
calcul des capacités. Puis on détaille le concept d'utilité conceptuelle. Enn, on étudie les
liens entre le modèle de Billot et Thisse et d'autres modèles classiques.
1.2.1 Utilité et capacité de Choquet
Soit u(.) : 2A → R+ où u(S) exprime la satisfaction de l'individu de choisir dans l'ensemble d'opportunité S. L'utilité satisfait :
(U1) : u(∅) = 0.
(U2) : u(A) < ∞.
(U3) : Si A ⊇ T ⊇ S alors u(A) ≥ u(T ) ≥ u(S).
Les deux premiers axiomes sont des normalisations alors que le troisième exprime la
préférence pour la exibilité. Avec cette formulation, l'utilité de T peut être plus petite
ou plus grande que la somme de ses éléments.
On s'intéresse ensuite aux capacités. Considérons deux ensembles d'opportunités, S et
T tels que S ⊆ T ⊆ A : alors T constitue le contexte du choix de S. La propension à
choisir S dans T est donnée par cT (S) de 2A dans [0,1]. La capacité satisfait :
(C1) : cT (∅) = 0.
(C2) : cT (T ) = 1.
(C3) : Si T ⊇ S ⊇ R alors cT (T ) ≥ cT (S) ≥ cT (R).
Le troisième axiome précise que la capacité d'un ensemble de choix ne peut décroître
39
si on y ajoute une alternative.
L'utilisation de capacités non-additives peut se justier de 2 façons :
- l'existence de capacités peut être une conséquence de la dépendance de l'utilité par
rapport au contexte. Dans la théorie standard, l'utilité est libre de contexte dans le sens où
la contribution d'une alternative à l'utilité d'un ensemble d'opportunités est indépendante
de l'utilité des autres alternatives dans cet ensemble. Ainsi, la somme des probabilités est
égale à 1 alors que cette égalité peut être brisée si l'utilité dépend du contexte. L'incertitude est ici intrinsèque car elle est dans le contexte même.
- on peut aussi considérer l'interprétation habituelle en la théorie de la décision selon
laquelle l'individu face à l'incertitude ne dispose pas d'une distribution de probabilité a
priori. Il possède en fait plusieurs distributions de probabilités qu'il combine selon son
attitude par rapport au risque. L'incertitude est ici extrinsèque car elle se situe dans la
formation des probabilités.
Billot et Thisse proposent alors une généralisation du "choice axiom" de Luce :
(GCA) : Les capacités de choix sont telles que ∀R ⊆ S ⊆ T,
cT (R) = cT (S).cS (R)
Ils en déduisent un lien entre les capacités de Choquet et l'utilité des ensembles de
choix.
PROPOSITION : Supposons que
cT (S) 6= 0, 1 ∀S ⊆ T . Alors (GCA) est vrai ssi
il existe une fonction u(.) positive satisfaisant U1 à U3 dénie sur 2T telle que cS (R) =
u(R)/u(S), ∀R ⊆ S ⊆ T . Cette fonction est unique à une transformation linéaire près.17
La capacité de choisir une alternative dans un ensemble d'opportunités est donc fonction de l'utilité de cette alternative mais aussi des autres alternatives de l'ensemble de
choix. Le ratio obtenu incorpore de façon simple le conit entre exibilité et focalisation.
Il implique que :
- la propension à choisir un sous-ensemble augmente avec son utilité.
- la propension de l'individu à se restreindre à S n'augmente pas quand l'utilité de T
s'accroît.
Après avoir présenté la formulation de base, on décompose l'utilité des ensembles de
choix an de faire apparaître une utilité contextuelle qui sera utile pour la conversion des
capacités en probabilités.
17 pour
une preuve de cette proposition, cf. Billot et Thisse (1999, p 524)
40
1.2.2 Le concept d'utilité contextuelle
Si l'utilité est dépendante du contexte alors on peut exprimer l'utilité contextuelle
d'un ensemble S = a, b par µ(S) = u(a, b) − [u(a) + u(b)].
En désignant par |S-R| la cardinalité de S-R, on peut alors généraliser cette formule :
µ(.) : 2A → R
X
S → µ(S) =
(−1)|S−R| (u(R) −
X
u(a))
a∈R
R⊆S;|R|≥2
L'utilité contextuelle de S peut s'interpréter comme la (dis)satisfaction que l'individu
obtient en choisissant dans S indépendamment des propres sous-ensembles de S. Elle peut
être positive si le contexte est bon ou négative dans le cas contraire.
Par ailleurs, cette utilité contextuelle correspond à l'inverse de Möbius de l'utilité :
µ(S) = M [u(S)] si |S| ≥ 2.
Billot et Thisse identient une condition pour que µ(S) = 0 (avec |S| ≥ 2) : il faut
que u(.) soit modulaire (ou libre de contexte) c'est-à-dire qu'elle vérie :
u(S ∪ S 0 ) + u(S ∩ S 0 ) = u(S) + u(S 0 )
L'utilité µ(.) d'un ensemble d'alternatives est toujours non-négative quand l'utilité u(.)
est k-monotone avec k = 2n (c'est le cas de l'utilité de Luce) ce qui implique l'inégalité :
u(
k
[
i=1
Si ) ≥
X
i
u(Si ) −
X
k+1
u(Si ∩ Sj ) + ... + (−1)
i<j
u(
k
\
Si ).
i=1
Si k=1, on retrouve (U3) alors que la 2-monotonicité correspond à la propriété de
sur-modularité (dénie plus loin). Si k ≥ 3, l'intuition n'est pas claire.
Appliquons désormais l'inverse de Möbius aux capacités. Si (GCA) est vérié alors :
M [cT (S)] = µ(S)/u(T ).
Ainsi, l'inverse de Möbius d'une capacité de choix conserve la même forme que cette
capacité de choix quand l'utilité de S est remplacée par son utilité contextuelle. Contrairement à la capacité de choix, son inverse de Möbius peut pourtant être négatif. Cependant,
41
si u(.) est 2n -monotone, il n'est pas négatif et correspond à une probabilité de base.
Après avoir déni tous les concepts de base, nous allons maintenant voir le lien entre
le modèle de Billot et Thisse et des modèles connus.
1.2.3 Capacités et lien avec d'autres modèles
Tout d'abord, Billot et Thisse proposent un axiome puis une proposition permettant
de retrouver le modèle néoclassique. Cet axiome s'écrit :
(N) : Si ∀S ∈ 2A , ∃T
∈ 2A tel que u(S) = u(S ∪ T ) alors
∀T 0 ∈ 2A , u(S ∪ T 0 ) = u(S ∪ T 0 ∪ T ).
d'où
PROPOSITION : Si u(.) est une utilité satisfaisant U1 à U3 alors (N) est équivalent
à poser
u(S) = max[u(a)].
a∈S
On peut donc par (N) se ramener au cas standard où l'individu ne valorise pas la
possibilité de choisir dans un plus grand ensemble. Il reste que les capacités dièrent des
probabilités : ainsi la capacité de choisir l'alternative préférée est 1 mais les autres capacités peuvent être non nulles.
Ensuite, les auteurs énoncent un axiome (L) qui, couplé au GCA, implique l'axiome
de choix proposé par Luce en 1959. Cet axiome s'écrit :
(L) : ∀S,
S 0 , T ∈ 2A tel que S ∩ S 0 = ∅ et u(T ) > 0, cT (S ∪ S 0 ) = cT (S) + cT (S 0 ).
Cela signie qu'on imposeX
aux capacités les mêmes contraintes que des probabilités.
[u(a)] possède la propriété de modularité. Ainsi, la capaDans ce cas, l'utilité u(S) =
a∈S
cité de choix est une probabilité ssi l'utilité est modulaire (ou libre de contexte). Rappelons
que, dans le cas d'une utilité modulaire, le supplément d'utilité généré par une nouvelle
alternative dépend seulement des caractéristiques de cette alternative.
Nous allons maintenant voir comment transformer les capacités, qui sont inobservables,
en probabilités qui, elles, sont observables.
42
1.3 Le théorème de conversion des capacités aux probabilités
Après avoir étudié la procédure de conversion, nous évoquerons une comparaison entre
les probabilités et les capacités puis nous mettrons en perspective les probabilités converties par rapport à d'autres modèles.
1.3.1 La méthode de conversion
On considère une mesure de probabilité λ et un opérateur ψ(.) de l'utilité u(.) basé
sur l'utilité contextuelle µ(.).
ψ λ (.) : 2A → R
X
S → ψ λ [u(S)] =
λ(R ∩ S|R)µ(R)
R⊆A;R∩S6=∅
Ici ψ λ [u(S)] est une combinaison des utilités contextuelles pondérées par les ensembles
d'opportunités dont l'intersection avec S est non vide. Les poids correspondent aux probabilités conditionnelles λ(.|R) que l'individu choisisse dans S lorsqu'il est confronté à R.
Si u est modulaire, ψ λ [u(S)] = u(S).
Dans le cas particulier de singletons, si (GCA) est vérié, alors
pλT (.) : 2T → [0, 1]
X
a → pλT (a) =
λ(a|R).M [cT (R)]
(23)
a∈R⊆T
Si l'individu a une préférence pour la exibilité, on peut donc convertir les capacités
en probabilités cohérentes avec les utilités dépendantes du contexte18 . Le raisonnement
sous-jacent au modèle est le suivant : quand l'individu détermine la possibilité de sélectionner l'alternative a ∈ T , il s'intéresse à tous les contextes possibles dénis par les
sous-ensembles R ⊆ T contenant a. Dans chaque contexte R, mauvais ou bon, il a une
probabilité λ(a|R) de choisir a. Cependant l'individu est conscient que certains contextes
sont bons et d'autres mauvais, avec une intensité variable mesurée par M [cT (R)]. Ainsi
pλT (a) est augmentée à chaque fois que le concept est bon (et vice versa). On peut noter
que l'individu a une attitude symétrique entre les bons et les mauvais contextes.
En général, les probabilités converties ne satisfont pas (L). De plus, comme la distribution de probabilités λ est arbitraire, plusieurs probabilités de conversion peuvent être
construites. Il est donc nécessaire de lever l'indétermination en observant les fréquences
qui émergent des choix répétés de l'individu.
18 pour
une preuve, cf. Billot et Thisse (1999, p 530)
43
1.3.2 Comparaison entre probabilités et capacités
On peut comparer les capacités et les probabilités de conversion mais cela dépend de
la forme de la fonction d'utilité.
Rappelons que l'utilité est :
- modulaire si u(S ∪ S 0 ) = u(S) + u(S 0 ) − u(S ∩ S 0 ) (cas de Luce)
- sous-modulaire (ou concave) si u(S ∪ S 0 ) + u(S ∩ S 0 ) ≤ u(S) + u(S 0 ) (cas de l'utilité
néoclassique).
- sur-modulaire (ou convexe) si -u est sous-modulaire, c'est-à-dire si u(S ∪S 0 )+u(S ∩
S 0 ) ≥ u(S) + u(S 0 )
On peut voir une utilité sur-modulaire comme traduisant un "bon contexte" et une
utilité sous-modulaire comme traduisant un "mauvais contexte".
On peut ensuite dénir l'utilité marginale discrète d'une alternative a comme le supplément d'utilité résultant de l'ajout de l'alternative dans l'ensemble d'opportunités S ⊆
A−a :
dmu(a, S) = u(S ∪ a) − u(S).
Si l'individu a une préférence pour la exibilité, l'utilité marginale discrète d'une alternative est toujours non-négative (c'est un indicateur de la préférence pour la exibilité).
On peut alors montrer qu'une utilité u(.) satisfaisant (U1) à (U3) est sous-modulaire
ssi ∀S ⊆ T ⊆ A − A on a dmu(a, S) ≥ dmu(a, T ). L'inverse s'applique pour une utilité
sur-modulaire. Ainsi une utilité sous-modulaire a une utilité marginale discrète (une préférence pour la exibilité) décroissante et vice versa.
Si (GCA) s'applique, alors pλT (S) ≤ cT (S) ssi u(.) est sous-modulaire (et vice versa).
Ainsi, si l'individu a une préférence pour la exibilité croissante (utilité sur-modulaire),
alors les probabilités converties sont supérieures ou égales aux capacités correspondantes.
Pour un ensemble de choix donné, cela revient à armer que si le contexte est mauvais,
les probabilités converties sont plus élevées que les capacités alors que c'est l'inverse si le
contexte est bon. On peut souligner que l'utilité d'un individu peut être sur-modulaire
pour certains ensembles de choix et sous-modulaire pour d'autres (tout comme l'utilité
44
dans le risque peut être convexe sur certaines parties et concave sur d'autres...).
1.3.3 Probabilités converties et lien avec les autres modèles
On peut tout d'abord relier ces probabilités à celles du modèle néoclassique. Si l'on
suppose que λ est donnée par les probabilités de Luce et que u(a) = u ∀a ∈ T alors on
obtient une distribution uniforme :
pλT (a) = 1/|T |
C'est un cas extrême où l'individu ne prête attention qu'au nombre d'alternatives présentes dans l'ensemble d'opportunités.
On peut ensuite rappeler que les probabilités de conversions satisfont le "choice axiom"
de Luce ssi l'utilité est modulaire, l'inverse n'étant pas vrai en général.
Enn, si on pose M [cT (R)] = PkR dans (23) alors on obtient une généralisation de la
version abstraite du modèle EBA de Tversky à la diérence que PkR peut être négatif et
que sa somme peut être diérente de 1. En plus de cette contrainte, l'utilité contextuelle
doit toujours être positive, ce qui impose que l'utilité soit 2n − monotone. En eet, dans
le modèle de Tversky cette utilité contextuelle s'interprète comme l'utilité des caractéristiques communes aux alternatives de l'ensemble mais spéciques par rapport aux autres
alternatives. Elle ne peut donc être négative.
Autrement dit, pour Tversky, l'utilité spécique d'un ensemble de choix pouvait être
supérieure de la somme des utilités spéciques des choix à cause de l'existence de caractéristiques communes. Pour Billot et Thisse, l'utilité d'un ensemble de choix peut être
inférieure ou supérieure à la somme des utilités des choix à cause de la prise en compte
des contextes.
Notons qu'il devrait être possible de cumuler les 2 interprétations en dénissant l'utilité
contextuelle dans le modèle de Tversky comme µ(S) = u(S) − u(a, b) − u(a) − u(b)
dans le cas où S = a, b. Ici u(S) s'interprète comme l'utilité de l'ensemble S alors que
u(a,b) s'interprète comme l'utilité des caractéristiques communes à a et à b. Dans ce
cas, un contexte négatif pourrait traduire une insatisfaction de l'individu concernant sa
préférence pour la diversité (au niveau des caractéristiques) ou concernant sa préférence
pour la exibilité.
45
1.4 La résolution du paradoxe bus bleu-bus rouge
Le modèle proposé par Billot et Thisse permet un mode de résolution du paradoxe de
Debreu alternatif à celui de Tversky.
Notons c=voiture, bb=bus bleu, rb=bus rouge. Pour reprendre les conditions xées
par Debreu, les auteurs supposent que u(c) = u(bb) = u(rb) = u(bb ∪ rb) = α et
u(c ∪ bb) = u(c ∪ rb) = u(c ∪ rb ∪ bb) = β . On suppose alors que l'individu a une
préférence pour la exibilité dans le sens où il valorise la possibilité de choisir entre une
voiture et un bus (quelle que soit sa couleur) mais pas de choisir entre 2 bus au lieu d'un
seul, d'où β > α.
De plus, l'utilité marginale discrète d'ajouter la voiture ou le premier bus à l'ensemble
des opportunités est positive alors que celle de l'ajout du second bus est nulle. D'où
cA (c) = cA (bb) = cA (rb) = cA (bb ∪ rb) = α/β Ces probabilités de choix ne sont pas additives.
Si T = {c, bb} alors cT (c) = cT (bb) = α/β . Si λ est donnée par les probabilités de Luce
alors pλT (c) = pλT (bb) = 1/2 à chaque fois que β > α.
Si T = c, bb, rb, on trouve pλT (c) = (2β − α)/3β et pλT (bb) = pλT (rb) = (β + α)/6β . Ainsi
si β > α, la probabilité de choisir la voiture est toujours strictement plus grande que la
probabilité de choisir un des bus.
On a donc présenté le modèle de Billot et Thisse qui améliore directement la version
abstraite du modèle de Tversky en fournissant une interprétation contextuelle de l'utilité
d'un ensemble de choix. Cependant, une autre méthode pour dépasser les limites du
modèle de Tversky est d'en améliorer la version standard, par exemple en modiant la
prise en compte des caractéristiques dans la procédure de sélection des alternatives, puis
de voir en quoi cela inue sur la version abstraite. C'est cette méthode, plus indirecte,
que nous allons esquisser dans les sections suivantes.
2
Quelques propositions pour améliorer la modélisation
des caractéristiques
Nous proposerons d'abord une formalisation regroupant les caractéristiques dépendantes au sein de familles de caractéristiques. Puis nous discuterons des modalités de
dénition d'une structure de familles et nous verrons le lien avec d'autres modèles de
46
choix discrets. Enn, nous étudierons comment ce modèle traite du paradoxe de Debreu
ainsi que les limites et les perspectives d'une telle formalisation.
2.1 Idées principales du modèle
Plutôt que de transformer les caractéristiques liées en caractéristiques indépendantes
(comme dans le cas de Tversky), nous proposons un modèle permettant de prendre en
compte les ensembles de caractéristiques discrètes dépendantes, ces ensembles étant qualiés de "familles". Les caractéristiques continues sont décomposées en n caractéristiques
discrètes appartenant à une même famille, ce qui peut permettre une meilleure prise en
compte du niveau absolu (mais ne constitue pas une panacée).
L'idée est que l'individu sélectionne de façon aléatoire une famille de caractéristiques
(et non plus une caractéristique comme dans le modèle de Tversky), la probabilité de
sélectionner une famille étant égale au rapport des utilités des meilleures caractéristiques
des familles.
Deux versions du modèle sont alors possibles : dans l'une d'elle, on élimine toutes les
alternatives ne possédant pas l'une des meilleures caractéristiques de la famille discriminante retenue. Dans l'autre, on calcule la probabilité de sélectionner une caractéristique
donnée au sein de la famille (cette dernière étant égale au rapport des utilités) puis on
élimine toutes les alternatives ne possédant pas cette caractéristique. La première version
suppose plus de rationalité que la seconde mais ore moins de liberté dans l'interprétation
et peut sembler inadaptée à certains types de préférences.
2.2 Dénitions et formulation de l'EBA en présence de familles
2.2.1 Familles de caractéristiques et sélection en leur sein
Tout d'abord, nous ré-utiliserons ici les mêmes dénitions que celles de Batsell et al
(2003), pour la version standard du modèle de Tversky présentée en section 1.2. On a ainsi
un ensemble d'alternatives T et un ensemble de caractéristiques T' sur lequel on dénit
une utilité u. On reprend les dénitions de k 0 , Tα , A0 , A0 , Aα et A.
On introduit ensuite de nouvelles dénitions.
On dénit une famille de caractéristiques comme un ensemble de caractéristiques
mutuellement exclusives : ainsi, si une caractéristique d'une famille appartient à une alternative, aucune autre caractéristique de cette famille n'appartient à cette alternative.
47
F = {α ∈ T 0 /α ∈ k 0 ⇒ β ∈
/ k 0 , ∀β 6= α ∈ F }
La famille d'une caractéristique α donnée est :
Fα = {σ ∈ F/α ∈ F }
De plus, l'ensemble des caractéristiques d'une même famille procurant la même utilité et qui sont partagées par toutes les alternatives de A est donné par (nous verrons
l'interprétation de cet ensemble plus loin) :
F0 = {σ ∈ F/∀k ∈ A, ∃β 6= σ ∈ F ∩ k 0 /u(σ) = u(β)}
On doit également faire l'hypothèse qu'il existe une structure de famille (cette hypothèse sera discutée dans la section 2.2.5) :
= = {F ∈ T 0 /
[
F = T 0 et
\
F = ∅}
(24)
Ce modèle peut alors être décrit par le quadruplet {T,T',=,u}.
Certaines familles peuvent se composer d'une seule caractéristique, d'autres de plusieurs. Pour un ensemble T' donné, il existe en général plusieurs structures de familles
possibles. On est donc contraint de supposer que la structure de familles est connue ex
ante par le modélisateur.
L'ensemble des caractéristiques de toutes les familles qui procurent le plus haut niveau
d'utilité au sein de leur famille (par abus de langage, on peut le nommer ensemble des
caractéristiques "optimales") est noté :
T ∗ = {σ ∈ T 0 /u(σ) ≥ u(β), ∀β 6= σ ∈ Fσ }
Au sein d'une famille F donnée, cet ensemble est noté :
F ∗ = {σ ∈ F/u(σ) ≥ u(β), ∀β 6= σ ∈ Fσ }
F ∗ peut comporter une ou plusieurs caractéristiques optimales. Il sera noté Fα∗ si on
fait référence à la famille d'une caractéristique α donnée.
On notera :
u(F ∗ ) = u(σ/σ ∈ F ∗ )
comme le plus haut niveau d'utilité pouvant être obtenu au sein de la famille F retenue.
48
Pour une famille donnée, l'ensemble des alternatives possédant une caractéristique
optimale de cette famille est :
AF ∗ = {k ∈ A/k 0 ∩ F ∗ 6= ∅}
Nous allons maintenant voir comment utiliser ces diérents ensembles an de calculer la
probabilité de choisir une famille discriminante donnée. Puis à partir de cette probabilité,
nous montrerons qu'il existe 2 façons de calculer la probabilité de choix d'une alternative
dans A.
2.2.2 Caractéristiques éligibles et famille discriminante
Nous allons tout d'abord préciser à quoi correspond l'ensemble des caractéristiques
discriminantes (dans le modèle de Tversky, il correspond à A0 \A0 ). Pour un ensemble A
donné, l'ensemble des caractéristiques discriminantes est :
A0D = {α ∈ A0 \(A0 ∪ F0 )}
On élimine ici les caractéristiques communes de A0 qui ne peuvent servir à discriminer
entre les alternatives. Mais on doit également éliminer les caractéristiques contenues dans
F0 : cela correspond au cas où chaque alternative restante possède une caractéristique
appartenant à une famille donnée et que l'utilité de chacune de ces caractéristiques est
égale. En conséquence, bien que les caractéristiques soient diérentes (sinon, elles auraient
été éliminées dans A0 ), il est impossible de discriminer entre les alternatives sur la base
de cette famille.
Les caractéristiques discriminantes pour une alternative k donnée sont :
0
kD
= {α ∈ k 0 ∩ A0D }
Après avoir éliminé les caractéristiques non discriminantes, on sélectionne une certaine
famille de caractéristiques. La probabilité de sélectionner une famille F donnée est égale
au rapport entre la plus haute utilité au sein de F et la somme de toutes les plus fortes
utilités de toutes les familles. Formellement, cette probabilité est donnée par :
P (F ) =
u(F ∗ )
X
u(G∗ )
(25)
G∈=/G∩A0D 6=∅
On remarque que cette formulation permet de répondre à la critique de sur-pondération
des caractéristiques dépendantes : l'utilité de la famille n'est pas croissante avec le nombre
de membres, qui n'est pas un critère pertinent pour discriminer. Ainsi, dans l'exemple de
la section II.4, la probabilité de discriminer selon une couleur serait de 4/8 alors que celle
49
de discriminer selon la présence d'airbag serait aussi de 4/8.
En revanche, cette probabilité est carrément indépendante du niveau d'utilité des
caractéristiques "sous-optimales", ce qui peut sembler une hypothèse forte (que nous discuterons plus loin). Par exemple, dans le cas du choix entre les automobiles, on s'attend
même à ce que la probabilité de sélectionner l'airbag comme caractéristique discriminante
soit supérieure à celle de choisir une couleur.
Nous allons maintenant voir deux moyens d'utiliser cette famille discriminante an
d'éliminer des alternatives.
2.2.3 Elimination parmi les meilleurs aspects
Nous allons nous intéresser à une première formulation du modèle, que l'on pourrait
qualier d'"elimination among best aspects" (EBFA).
Dans cette version, on élimine toutes les alternatives 1) qui ne possèdent aucune caractéristique de la famille sélectionnée et 2) qui ne possèdent pas la caractéristique préférée
au sein de la famille. Autrement dit, cela revient à ne sélectionner que les alternatives possédant la caractéristique de la famille retenue avec le plus haut niveau d'utilité. Comme
dans le cas de Tversky, cette formule est récursive : on arrête si les alternatives restantes
ont les mêmes caractéristiques et dans le cas contraire on retourne à l'étape précédente.
Si plusieurs caractéristiques ont une utilité maximale dans la famille, les alternatives
ne possédant aucune de ces caractéristiques sont éliminées. Par la suite, les alternatives
restantes ne sont plus discriminées selon cette famille de caractéristiques, qui est écartée
à travers F0 . Formellement, la probabilité de choix d'une alternative k parmi A s'écrit :
X
PkA =
P (F ).PkAF ∗
(26)
0 6=∅
F ∈=/F ∩kD
Enn, s'il reste plusieurs alternatives mais plus de caractéristiques pour les discriminer,
on adopte une loi de probabilité uniforme. La formulation complète est donnée par :
PkA =























X
0 6=∅
F ∈=/F ∩kD
u(F ∗ )
X





 AF ∗
0
si kD
6= ∅
 .Pk
∗ 
u(G )
G∈=/G∩A0D 6=∅
1
|A|
sinon
50
Cette version suppose plus de rationalité (ou des préférences moins "uctuantes") que
le modèle de Tversky. Cet auteur suppose une double incertitude : à la fois sur le type de
caractéristique sélectionné et sur la caractéristique choisie. Dans cette version "EABA",
nous considérons que le contexte peut eectivement rendre aléatoire la sélection d'un type
de caractéristique mais que la sélection d'une des caractéristiques à l'intérieur de la famille
n'est pas aléatoire (pas de préférences oues ou dépendantes du contexte à l'intérieur des
familles).
Par exemple, la couleur peut être un attribut relativement secondaire dans l'achat
d'un sèche-cheveux et un attribut essentiel dans l'achat d'un papier-peint. Par contre, la
possibilité qu'une couleur donnée soit valorisée diéremment selon les contextes ne peut
être prise en compte dans ce cadre. Ainsi, les préférences d'un individu qui déteste les
automobiles de couleur bleue mais apprécie la couleur bleue dans les yeux de sa compagne
ne sont pas prises en compte de façon satisfaisante dans cette version.
Cette formulation est plus proche du modèle déterministe que de celui de Tversky : le
comportement des individus est supposé déterministe à l'intérieur des familles et probabiliste entre les familles. Le modèle est aussi plus proche du modèle lexicographique que de
celui de Tversky. En eet, la structure par familles revient nalement à assigner un ordre
partiel sur certains groupes de caractéristiques.
2.2.4 Elimination par familles d'aspects
Il peut être utile de conserver la probabilité de choix d'une famille donnée en (25)
tout en intégrant la possibilité de uctuation des préférences à l'intérieur des familles de
caractéristiques. C'est pourquoi une seconde formulation est envisageable.
Dans cette version, on élimine toujours les alternatives qui ne possèdent aucune caractéristique de la famille sélectionnée mais on suppose ensuite que l'individu sélectionne
une caractéristique discriminante au sein de la famille discriminante retenue en première
étape de la décision. La probabilité de sélectionner une caractéristique donnée est égale
au rapport d'utilité avec toutes les autres caractéristiques de la famille. On la note :
u(α)
PαFα = X
u(β)
β∈Fα
Par la suite, comme dans le modèle de Tversky, on élimine les alternatives ne possédant
51
pas cette caractéristique.
Dans ce cadre, que l'on peut qualier d'"elimination by families of aspects", la probabilité de choix d'une alternative k parmi A s'écrit :
PkA =
X
P (Fα ).PαFα .PkAα
(27)
0
α∈kD
En intégrant la possibilité qu'il n'y ait plus de caractéristiques discriminantes pour
l'ensemble A, la formule complète est :
PkA =







X u(α)




X
.



 α∈k0
u(β) 

u(F ∗ )
X α
D
G∈=/G∩A0D 6=∅
β∈Fα











 Aα
0
6= ∅
 .Pk si kD
∗ 
u(G )
1
|A|
sinon
Ces deux formulations sont fondées sur l'hypothèse d'existence d'une structure de
familles bien dénie, ce que nous allons discuter dans la section suivante.
2.2.5 La dénition d'une structure de familles
Tversky suppose que l'identication des caractéristiques de chaque alternative peut
être réalisée sans diculté. Cependant, l'identication des familles de caractéristiques
peut paraître plus dicile : la structure de familles dépend du critère de similarité retenu
par le modélisateur lors de la construction des familles. Parfois, la similitude est évidente
(même unité de mesure...), d'autres fois moins.
De plus, même si des "grappes" de caractéristiques similaires sont identiées, il est
possible que plusieurs structures de familles restent possibles. Sans résoudre totalement
ce problème, certaines précisions peuvent être apportées sur la "bonne" manière de dénir
une structure de familles.
Il convient de suivre 2 règles heuristiques lors de la dénition :
- il faut prendre en compte les caractéristiques les plus élémentaires possibles :
α ∈ F → @β ∈ T 0 /β ⊂ α.
- il faut prendre en compte le maximum de contraintes possibles entre les caractéristiques.
52
Un exemple peut illustrer la portée de ces règles. Imaginons que l'individu doive choisir
une automobile, cette dernière pouvant ou non être équipé d'un autoradio. L'autoradio
comporte 4 ou 6 haut-parleurs (HP) et inclut ou non un lecteur CD.
Dans ce problème, plusieurs structures de familles de caractéristiques peuvent être
dénies :
- une structure comportant une seule famille avec 4 caractéristiques correspondant aux
4 variétés possibles d'autoradio.
- une structure avec 2 familles, la première (2 caractéristiques) concernant le nombre
de HP et la seconde (1 caractéristique) concernant la présence d'un lecteur CD.
- une structure avec 3 familles, l'une avec la présence de l'autoradio (1 caractéristique),
une autre avec le nombre de HP (2 caractéristiques) et une autre avec la présence du lecteur CD (1 caractéristique).
Une autre voie aurait pu consister à considérer une famille concernant la présence de
l'autoradio puis à incorporer au sein de cette familles deux "sous-familles" avec le nombre
de haut-parleurs et la présence du lecteur CD : cependant cette représentation est impossible car elle contredit (24).
Quelle est la meilleure structure ?
La première structure correspond à l'adoption de caractéristiques "sophistiquées" combinant plusieurs éléments. Cette forme présente pourtant 2 inconvénients :
- L'énumération de caractéristiques complexes composées de beaucoup d'éléments peut
devenir rapidement fastidieuse. De plus, la contrainte selon laquelle l'autoradio a un et
un seul nombre d'HP n'apparaît pas dans la structure.
- elle suppose que l'individu discrimine sur l'autoradio pris dans son ensemble alors
qu'il pourrait choisir de discriminer sur la présence ou non d'un autoradio, ou sur la présence d'un autoradio 6HP seulement ou sur la présence d'un autoradio CD seulement.
La seconde structure prend en compte la contrainte sur le nombre d'HP mais ne permet toujours pas à l'individu de discriminer sur la présence ou non d'un autoradio.
La structure avec 3 familles semble donc la meilleure. On peut en déduire un principe
de décomposition maximum et avancer que de petites familles simples sont préférables à
de grandes familles complexes.
53
2.3 Une mise en perspective du modèle avec familles d'aspects
Nous allons maintenant étudier les relations entre le modèle avec familles d'aspects et
les modèles de Tversky et de Luce.
2.3.1 Le lien avec le modèle de Tversky
Nous avons déjà en partie discuté des liens existant avec le modèle de Tversky dans la
section précédente mais quelques précisions peuvent toujours être apportées.
Tout d'abord, on peut noter que les deux modèles sont non-compensatoires, puisqu'il
n'y a aucune forme de compensation entre les caractéristiques.
Ensuite, le modèle de Tversky {T,T,u} peut être vu comme un modèle avec familles
d'aspects {T,T',=,u} comportant une structure de familles = particulière, composée uniquement de singletons : ∀α ∈ T 0 , |Fα | = 1 ce qui implique d'ailleurs que Fα = F ∗ . Cela
revient à décomposer les ensembles de caractéristiques dépendantes en n caractéristiques
indépendantes. Cette équivalence est valable pour les 2 versions que nous avons présentées.
Enn, on remarque que la formulation "EBFA" revient à décomposer la procédure de
sélection d'une caractéristique discriminante du modèle de Tversky en 2 étapes :
- sélection d'une famille de caractéristiques (la couleur...)
- sélection d'une des caractéristiques du type choisi. (ex : bleu)
Nous allons maintenant voir que le modèle avec familles d'aspects, dans sa version
EBFA comme EABA, est une généralisation du modèle de Luce (1959).
2.3.2 Une généralisation du modèle de Luce
Comme dans le modèle de Tversky, il faut que les alternatives aient des caractéristiques
disjointes ou que leurs caractéristiques communes appartiennent à A0 ∪ F0 pour pouvoir
retrouver le modèle de Luce à partir du modèle avec familles d'aspects.
Voyons d'abord le lien avec la version "EABA" du modèle avec famille d'aspects. Dans
ce cas, deux contraintes supplémentaires doivent être ajoutées pour pouvoir considérer que
∗
PkF = 1, ∀α ∈ A0 :
- α ∈ Fα∗ . Si cette contrainte n'est pas respectée, l'alternative n'est pas optimale pour
cette caractéristique et est donc éliminée.
- |Fα∗ | = 1. C'est une condition nécessaire, car sinon, les caractéristiques optimales au
sein de la famille jouent le même rôle que des caractéristiques communes dans des sous-
54
ensembles de T' et la simplication n'est pas possible. Une condition susante (mais pas
indispensable) correspond bien sûr au cas où toutes les familles sont des singletons.
Dans la version EABA, on retrouve alors le modèle de Luce en posant :
X
u(k) =
u(F ∗ ).
0 6=∅
F ∈=/F ∩kD
Par ailleurs, on peut vérier que dans ces conditions :
X
G∈=/G∩A0D 6=∅
u(G∗ ) =
X
X
u(F ∗ ) =
0 6=∅
k∈A F ∈=/F ∩kD
X
u(k)
k∈A
.
Le lien avec la version "EBFA" est plus complexe 19 . Il semble que la structure de
familles doive être composée seulement de singletons, notamment pour que PαFα = 1.
Dans ce cas, on retrouve le modèle de Luce par la même transition que celle du modèle
de Tversky vers le modèle de Luce :
u(k) =
X
u(α).
α∈k0 \A0
Dans les deux versions, on retrouve bien alors :
v(k)
PkA = X
v(l)
l∈A
2.4 Le traitement des paradoxes de l'IIA
2.4.1 La résolution du paradoxe de Debreu
Nous allons maintenant voir comment le modèle avec familles traite du paradoxe du
bus rouge-bleu, ce qui constituera également un exemple d'application des règles de dénition des structures de familles.
Rappelons que les caractéristiques dans l'exemple de Debreu sont : α1 = voiture,
α2 = bus, α3 = bleu, α4 = rouge et les alternatives : k1 = {α1 }, un bus bleu k2 = {α2 , α3 }
et un bus rouge k3 = {α2 , α4 }.
Par ailleurs, les utilités doivent vérier les 4 conditions permettant de retrouver le
cadre de Debreu (cf. section II.1.4 pour plus de précisions) :
- PkA2 = PkA3 = 1/2 si A = {k2 , k3 }
19 ce
point reste à approfondir...
55
- PkA1 = PkA2 = 1/2 si A = {k1 , k2 }
- PkA1 = PkA3 = 1/2 si A = {k1 , k3 }
- u(α2 ) et u(α1 ) sont plus élevées que u(α3 ) = u(α4 ).
On s'attend par la suite à trouver PkA1 ≈ 1/2 et PkA2 = PkA3 ≈ 1/4 si A = {k1 , k2 , k3 }
an que les résultats du modèle soient conformes à l'intuition.
Avant de traiter cet exemple en utilisant le modèle avec familles d'aspects, il faut
dénir une structure de familles. Dans ce cas :
- soit on considère que toutes les familles sont des singletons, auquel cas la résolution
est identique à celle de Tversky.
- soit on considère que certaines familles ne sont pas des singletons, auquel cas, il
convient de les identier.
Il paraît clair qu'il est possible de constituer une famille de couleurs F1 = {α3 , α4 } car
ce sont des caractéristiques élémentaires. . Il y a 2 caractéristiques optimales dans cette
famille : on a alors u(F1∗ ) = u(α3 ) = u(α4 )
On peut alors se demander s'il est pertinent de créer une famille "type de véhicule".
F2 = {α1 , α2 }. On peut montrer que ce n'est pas le cas parce qu'il devient alors impossible
de recréer avec ce modèle les conditions de bases de l'exemple de Debreu (1960). On est
typiquement dans une situation où la structure à deux familles peut être rejetée d'emblée,
sans qu'il soit nécessaire de passer par des tests ex-post, parce qu'elle ne "colle" pas aux
données du problème.
Considérons le cas où A = {k1 , k2 } :
- si u(α2 ) ≥ u(α1 ) alors, si on applique notre modèle, k2 est choisie à coup sûr ce qui
viole la condition 2.
- il est donc nécessaire que u(α1 ) > u(α2 ) d'où u(F2∗ ) = u(α1 ) Or si cette hypothèse est
u(F2∗ )
u(F1∗ )
et
P
=
. Pour que Pk1 = Pk2 = 1/2
k2
u(F1∗ ) + u(F2∗ )
u(F1∗ ) + u(F2∗ )
(condition 2), il faut que u(F1∗ ) = u(F2∗ ), ce qui revient à u(α1 ) = u(α3 ). Or cette égalité
vériée, alors Pk1 =
contredit la condition 4 (la couleur est négligeable par rapport au type de véhicule).
Il n'est donc pas pertinent de prendre en compte une famille "type de véhicule" ce
qui peut s'expliquer ainsi : au sein d'une famille, tout supplément d'utilité d'une caractéristique conduit à l'élimination des alternatives avec d'autres caractéristiques de la famille.
Or l'hypothèse de Tversky selon laquelle u(α1 ) > u(α2 ) revient à considérer :
- soit que la voiture est strictement préférée au bus auquel cas notre représentation se
56
justie mais on ne peut retrouver les conditions initiales de Debreu.
- soit que le supplément d'utilité aecté à la voiture découle de l'hypothèse implicite
qu'elle est dotée d'une couleur quelconque (et pas le bus), sans qu'il soit utile de préciser
cette dernière. De ce fait, la caractéristique "voiture" n'est pas une caractéristique élémentaire. Il est donc préférable de ne pas adopter de famille "type de véhicule" car la
caractéristique "voiture" incorpore plus d'éléments que la caractéristique "bus" et pourrait donc être plus "précise".
La structure de familles retenue est donc F1 = {α1 }, F2 = {α2 } et F3 = {α3 , α4 }. On
a u(F1∗ ) = u(α1 ), u(F2∗ ) = u(α2 ) et u(F3∗ ) = u(α3 ) = u(α4 ).
Dans ce cas, l'application du modèle avec familles d'aspects (quelle que soit la version
EBFA ou EABA ici) donne :
- si A = {k1 , k2 }, Pk1 =
u(F2∗ ) + u(F3∗ )
u(F1∗ )
et
P
=
k2
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
- si A = {k1 , k3 }, Pk1 =
u(F1∗ )
u(F2∗ ) + u(F3∗ )
et
P
=
k3
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
- si A = {k2 , k3 }, Pk2 = Pk3 =
1
2
On déduit alors des cas précédents que :
u(F1∗ ) = u(F2∗ ) + u(F3∗ ).
(28)
Soulignons bien que cette égalité découle simplement des conditions qui forment le
cadre initial du paradoxe de Debreu. Voyons maintenant le cas le plus intéressant :
- si A = {k1 , k2 , k3 }, alors
Pk1 =
u(F1∗ )
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
Pk2 =
1
u(F2∗ ) + 12 u(F3∗ )
2
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
Pk3 =
1
u(F2∗ ) + 12 u(F3∗ )
2
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
et
et enn
57
En simpliant les formules ci-dessus avec la relation établie en (28), on trouve alors
un résultat surprenant :
Pk 1 =
1
u(F1∗ )
=
∗
2u(F1 )
2
Pk 2 =
1
u(F1∗ )
2
2u(F1∗ )
=
1
4
Pk 3 =
1
u(F1∗ )
2
2u(F1∗ )
=
1
4
et
et enn :
En appliquant simplement le modèle avec famille d'aspects au cadre d'hypothèses
de Debreu, on résout le paradoxe du bus bleu-bus rouge par construction, c'est-àdire que les probabilités attendues (1/2, 1/4 et 1/4) s'obtiennent indépendamment des
niveaux d'utilités des caractéristiques. On peut noter qu'il est impossible de retrouver les
probabilités du modèle de Luce pour cet exemple : en eet, l'une des conditions de la
généralisation est violée car il y a 2 caractéristiques optimales dans la famille F3 .
2.4.2 La résolution du paradoxe de Savage
Les données du problème {P aris, Rome} attribué à Savage par Luce et Suppes (1965)
permettent une plus grande liberté dans le choix d'une structure de familles. Les choix
possibles sont k1 =(Paris), k2 =(Paris+), k3 =(Rome) et k4 =(Rome+).
Supposons ici que l'on désigne 3 familles de caractéristiques : le coût donné par
F1 = {α1 , α2 }, la qualité du voyage donnée par F2 = {β1 , β2 } et le dollar supplémentaire qui correspond à un singleton F3 = {γ} (avec u(F3∗ ) = u(γ)).
Les voyages pour une même destination ont un même coût et une même qualité et si
A = {k1 , k3 }, ces caractéristiques se compensent de telle sorte que PkA1 = PkA3 (condition 1).
Dans ce cas, on a k1 = {α1 , β1 }, k2 = {α1 , β1 , γ}, k3 = {α2 , β2 }, k4 = {α2 , β2 , γ}. On
vérie immédiatement que PkA4 = 1 si A = {k3 , k4 } et PkA2 = 1 si A = {k1 , k2 }.
Si A = {k1 , k2 }, pour que les probabilités de choisir Paris ou Rome soient non nulles,
il faut dans notre modèle :
- soit que u(α1 ) > u(α2 ) et u(β1 ) < u(β2 )
58
- soit que u(α1 ) < u(α2 ) et u(β1 ) > u(β2 )
Supposons que l'on retienne la première possibilité, auquel cas u(F1∗ ) = u(α1 ) et
u(F2∗ ) = u(β2 ).
Si A = {k1 , k3 } alors :
Pk 1 =
u(F2∗ )
u(F1∗ )
et
P
=
k
3
u(F1∗ ) + u(F2∗ )
u(F1∗ ) + u(F2∗ )
On doit donc également retenir que u(F1∗ ) = u(F2∗ ) pour que la condition 1 soit vériée, ce qui équivaut à u(α1 ) = u(β2 ).
Si toutes ces conditions sont vériées, alors si A = {k2 , k3 }, on trouve les probabilités
Pk 2 =
u(F2∗ )
u(F1∗ ) + u(F3∗ )
,
P
=
k
3
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
u(F1∗ ) + u(F2∗ ) + u(F3∗ )
On en déduit que Pk2 est légèrement supérieure à Pk3 mais plus u(γ) est faible, plus
Pk2 et Pk3 sont proches et tendent vers 1/2. Des résultats similaires peuvent être obtenus
pour A = {k1 , k4 }.
2.5 Perspectives et limites de cette formalisation
2.5.1 Les limites du modèle avec familles d'aspects
On peut tout d'abord reprocher à la formalisation avec familles d'aspects d'être encore
inachevée. Le principal travail restant à accomplir est d'étudier comment le modèle standard que nous avons présenté pourrait être transformé en modèle abstrait, à la manière de
Tversky, et si ce modèle abstrait pourrait conduire à des conséquences testables nouvelles
ou diérentes. Cette transformation devrait pouvoir être prochainement réalisée : par
exemple, cela revient à considérer un modèle abstrait comportant certains sous-ensembles
de T dans lesquels une alternative est directement sélectionnée. Nous avons l'intention de
poursuivre cette voie dans le futur.
Ensuite, une critique peut être formulée à l'égard du modèle avec familles d'aspects
dans sa formule actuelle : dans un tel modèle, la probabilité de sélectionner une famille
pour discriminer entre les alternatives devrait être d'autant plus forte que cette famille,
justement, est discriminante. Or, dans la formalisation que nous avons proposée, la probabilité de sélectionner une famille dépend du plus haut niveau d'utilité d'une caractéristique
au sein de cette famille. Mais si les préférences sont oues ou uctuantes, cette meilleure
caractéristique peut, elle aussi, changer, ce qui provoque des dicultés.
Enn, la prise en compte des caractéristiques continues est toujours discutable puis-
59
qu'on est contraint de les décomposer en caractéristiques discrètes. Un moyen de résoudre
ce problème est de remplacer la fonction d'utilité dénie sur 2T en un ensemble de fonctions, chacune étant dénie sur une famille et pouvant être discrète ou continue selon la
nature des caractéristiques au sein de la famille. C'est cette perspective que nous allons
évoquer brièvement dans la section suivante.
2.5.2 Représentation ensembliste ou matricielle des caractéristiques : quelques
perspectives
Dans le modèle de Tversky, comme dans celui avec familles d'aspects, les caractéristiques sont représentées par un ensemble T'. Cette représentation n'est pourtant pas celle
que l'on rencontre le plus fréquemment en économie (Lancaster, 1966) comme en psychologie (Reed, 1999). En eet, une représentation sous forme de matrice est bien souvent
privilégiée. On suppose qu'il existe des familles de caractéristiques et que chaque alternative possède, pour chaque famille, une caractéristique appartenant à cette famille, ce qui
permet de représenter l'ensemble des caractéristiques dans une matrice avec en colonne
les alternatives et en ligne les familles de caractéristiques.
On peut noter d'emblée que cette représentation est plus exigeante que celle adoptée
dans le modèle avec familles d'aspects vu précédemment car elle impose qu'une famille
possède une de ses caractéristiques présente dans chaque alternative : ∀α ∈ T 0 , ∀k ∈
A, α ∈
/ k 0 ⇒ ∃!β 6= α ∈ Fα ∩ k 0 . Cette condition n'est cependant pas si contraignante : il
est toujours possible de dénir une caractéristique correspondant à l'absence de caractéristique de la famille considérée.
Cette représentation présente certains avantages. Tout d'abord, comme dans le modèle
de départ avec familles d'aspects, elle peut prendre en compte la dépendance entre des
caractéristiques. Ensuite, elle permet de dénir une fonction d'utilité sur chaque famille
de caractéristiques (plutôt que sur 2T ). Ainsi, si la famille comporte des caractéristiques
continues, il est possible de dénir une fonction d'utilité continue, ce qui est préférable.
Précisons la dénomination "matricielle" retenue. Soit un ensemble de choix A comportant N alternatives indiciées i (i=1...N). Soit un ensemble de familles de caractéristiques =
comportant K familles Fj (j=1...K). Soit xij la caractéristique appartenant à l'alternative
i et la famille de caractéristique j. Par exemple, si i désigne une automobile et j une famille
de couleur alors xij = bleu si l'automobile est de couleur bleue. Soit uj : j → R l'utilité
de la famille j qui associe à toute caractéristique xij de j une utilité uj (xij ).
60
On peut alors dénir une matrice U décrivant les utilités de toutes les caractéristiques :

u1 (x11 )

..

.


U =  uj (x1j )

..

.

uK (x1K )
···
...
···
...
u1 (xi1 )
..
.
uj (xij )
..
.
· · · u1 (xN 1 )
...
···
...
· · · uK (xiK ) · · ·

..
.




uj (xN j ) 

..

.

uj (xN j )
A partir de ce cadre, on peut proposer une séquence d'élimination par aspects, dont
la formulation devra encore être approfondie à l'avenir. Un bon critère pour dénir une
famille discriminante peut être de considérer la variance au sein de cette famille de caractéristiques. En eet, l'individu est d'autant plus prêt à discriminer selon la couleur si
l'écart entre la couleur qu'il préfère et la couleur qu'il n'apprécie pas est élevé. De plus, la
variance prend en compte l'ensemble des caractéristiques d'une famille et pas seulement
la meilleure.
Cette variance est calculée sur toutes les caractéristiques diérentes appartenant à
une famille, sans prendre en compte le nombre de fois où elles reviennent dans les alternatives. Il faut y ajouter une caractéristique ctive avec un niveau d'utilité xé à 0 dans
le cas où au moins une alternative n'incorpore aucune caractéristique de cette famille.
Certaines familles comportent donc une caractéristique ctive et pas d'autres.
Dans le cas de caractéristiques discrètes, on note αjl la l-ième caractéristique de la
famille j comportant Cj caractéristiques avec l = 1...Cj et αj0 la caractéristique ctive de
la famille j si elle en possède une. Dans ce cas, la variance se calcule ainsi :

2
Cj
Cj
X
X
1
1
uj (αjl )2 − 
uj (αjl )
V ar(uj ) =
Cj l=0
Cj l=1
Dans le cas de caractéristiques continues, la variance est calculée de façon habituelle :
V ar(uj ) = E(u2j ) − E(uj )2
La probabilité de sélectionner une famille j comme critère discriminant serait alors de :
P (Fj ) =
V ar(uj )
K
X
V ar(uk )
k=1
Il reste maintenant à construite de façon explicite une formule récursive modélisant
la procédure EBA et permettant le calcul de probabilités. Cette perspective de recherche
61
pourrait permettre de remédier aux défauts des versions précédentes du modèle avec
familles d'aspects.
62
Conclusion
Nous avons donc montré que les modèles à règle de décision aléatoire, peu utilisés
en économie, présentaient pourtant de multiples avantages. Ainsi, le modèle de Tversky,
célèbre chez les psychologues, peut désormais être aisément appliqué grâce à une méthode
ecace de révélation de ses paramètres. Il pourrait permettre de nouvelles analyses des
comportements de consommation, en lien avec les caractéristiques des produits et déboucher sur de nouveaux enseignements en économie industrielle, à propos des marchés de
produits diérenciés.
Des avancées récentes ont été réalisées, notamment en permettant la prise en compte
du contexte par l'introduction des capacités de Choquet. Pourtant, des progrès restent à
accomplir, à la fois au niveau théorique, pour remédier à certaines limites inhérentes à ces
modèles (prise en compte des diérents types de caractéristiques) et au niveau empirique,
pour essayer d'en préciser les interprétations.
63
Références bibliographiques
ANDERSON S.J., DE PALMA A. et THISSE J-F. (1992), Discrete choice theory of
product dierentiation, Cambridge, MIT Press.
BATSELL R.R., POLKING J.C., CRAMER R.D., MILLER C.M. (2003), "Useful mathematical relationships embedded in Tversky's elimination by aspects model", Journal
od Mathematical Psychology, 47, p. 538-544.
BEN-AKIVA M. (1973), "Structure of Passager Travel Demand Models", Ph.D. Dissertation, Department of Civil Engineering, MIT, Cambridge.
BILLOT A. et THISSE J-F. (1995), "Modèles de choix individuels discrets : théorie
et applications à la microéconomie", Revue Économique, 46, p. 921-930.
BILLOT A. et THISSE J-F. (1999), "A Discrete Choice Model When Context Matters", Journal of Mathematical Psychology, 43, p. 518-538.
BLOCK H.D. et MARSCHAK J. (1960), "Random Ordering and Stochastic Theories
of Response" dans I. OLKIN (ed.), Contributions to Probability and Statistics, Stanford
University Press, p. 97-132.
CHEN H-C., FRIEDMAN J.W. et THISSE J-F. (1997), "Boundedly Rational Nash
Equilibrium : A Probabilistic Choice Approach", Games and Economic Behavior, 18, p.
32-54.
DEBREU G. (1960), "Review of R.D.Luce, Individual Choice Behavior : a Theoretical
Analysis", American Economic Review, 50, p. 186-188.
DE PALMA A. et THISSE J-F. (1989), "Les modèles de choix discrets", Annales
d'économie et de statistique, 14, p. 151-190.
KREPS D.M. (1979), "A representation theorem for preference for exibility", Econometrica, 47, p. 565-578.
LANCASTER K.J. (1966), "A New Approach to Consumer Theory", Journal of Political Economy, 74, p. 132-157.
64
LUCE R.D. (1959), Individual Choice Behavior : A Theoretical Analysis, New York,
Wiley.
LUCE R.D. (1977), "The Choice Axiom after Twenty Years", Journal of mathematical
psychology, 15, p. 215-233.
LUCE R.D. et SUPPES P. (1965), "Preference, Utility, and Subjective Probability"
dans R.D. Luce, R.R. Bush et E. Galander ed., Handbook of Mathematical Psychology,
New York : Wiley, p. 249-410.
MANSKI C. (1977), "The structure of Random Utility Models", Theory and Decision,
8, p. 229-254.
MCFADDEN D. (1974), "Conditional Logit Analysis of Qualitative Choice Behavior"
dans P. ZAREMBKA (ed), Frontiers in Econometrics, New York : Academic Press, p.
105-142.
MCFADDEN D. (1981), "Econometric models of probabilistic choice". Dans C. MANSKI
et D. MCFADDEN (Eds), Structural analysis of discrete data with econometric applications, p. 198-272, Cambridge MIT Press.
MILLER G.A. (1956), "The magical number seven, plus or minus two : some limits
on our capacity for processing information", Psychological review, 63, p. 81-97.
REED S. (1999), Cognition, théories et applications, De Boeck Université.
RESTLE F. (1961), Psychology of judgement and choice, New York, Wiley.
SIMON H.A. (1957), Models of Man, New York, Wiley.
SIMON H.A. (1976), "From substantive to procedural rationality". Dans S.J. LATSIS,
Method and Appraisal in Economics, Cambridge University Press.
SIMON H.A. (1997), Models of bounded rationality, Vol. 3, MIT Press.
STIGLER G.J. et BECKER G.S. (1977), "De Gustibus Non Est Disputandum", American Economic Review, 67, p. 76-90.
65
THURSTONE L.L. (1927), "A Law of Comparative Judgement", Psychological Review, 34, p. 273-286.
TVERSKY A. (1972a), "Elimination by aspects : A Theory of Choice.", Psychological
Review, 79, p. 281-299.
TVERSKY A. (1972b), "Choice by Elimination", Journal of mathematical psychology,
9, p. 341-367.
TVERSKY A. et SATTATH S. (1979), "Preference Trees", Psychological Review, 86,
p. 542-573.
YELLOTT J.I. (1977), "The Relationship between Luce's Choice Axiom, Thurstone's
Theory of Comparative Judgement, and the Double Exponential Distribution", Journal
of Mathematical Psychology, 5, p. 109-144.
66
Téléchargement