FIN6053 Théories avancées de portefeuille COMPLÉMENTS DE NOTES DE COURS PRÉLIMINAIRE ET INCOMPLET Sébastien Blais Département des sciences administratives, UQO [email protected] www.sebastienblais.com/FIN6053 Cette version : 15 avril 2014 1 Table des matières 1 Introduction 6 1.1 Rendement et risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Choix en environnement risqué . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Approche moyenne-variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2 Rendement et risque 2.1 2.2 2.3 9 Rappels de probabilité et statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.1 Fonction de répartition et fonction de densité . . . . . . . . . . . . . . . . . . . . . . 9 2.1.2 Moments théoriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.1.3 Moments empiriques et estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.1.4 Quelques distributions utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Rendements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.1 Rendements simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.2 Rendements logarithmiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Mesures de risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3.1 Mesures de risque classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3.2 Dominance stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.3 Mesures de risque cohérentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.4 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3 Choix en environnement risqué 3.1 3.2 20 Espérance d’utilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.1 Espérance d’utilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.2 Validité empirique de l’espérance d’utilité . . . . . . . . . . . . . . . . . . . . . . . . 22 Finance comportementale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.1 Irrationalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.2 Croyances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.3 Source d’utilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2 3.2.4 3.3 3.4 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Mesures d’aversion pour le risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.1 Aversion absolue au risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.3.2 Aversion relative au risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.3 Prudence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.3.4 Utilité linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.3.5 Utilité quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.3.6 Aversion absolue pour le risque hyperbolique . . . . . . . . . . . . . . . . . . . . . . 28 Relation entre espérance d’utilité et moments partiels . . . . . . . . . . . . . . . . . . . . . . 29 4 Approche moyenne-variance 4.1 4.2 4.3 30 Espérance et variance d’un portefeuille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 4.1.1 Corrélation positive parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.1.2 Corrélation négative parfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 4.1.3 Corrélation imparfaite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1.4 Actif sans risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.1.5 N actifs risqués . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 Choix de portefeuille classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.1 Utilité quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.2 Maximisation de l’espérance, variance fixée . . . . . . . . . . . . . . . . . . . . . . . 33 4.2.3 Minimisation de la variance, espérance fixée . . . . . . . . . . . . . . . . . . . . . . 34 4.2.4 Portefeuilles efficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Choix de portefeuille sous contrainte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3.1 Restrictions sur les ventes à découvert . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4.3.2 Portefeuilles auto-financés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.3.3 Portefeuilles diversifiés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 4.3.4 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.3.5 Gestion indicielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.3.6 Frais de rebalancement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3 4.4 Approche moyenne-risque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Évaluation d’une stratégie 5.1 40 41 Applicabilité pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.1.1 Évaluation d’une stratégie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.1.2 Influence de l’estimation des paramètres sur la performance des portefeuilles . . . . . 42 6 Modèles d’évaluation d’actif 46 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.2 Modèle d’évaluation d’actifs financiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.3 Diversification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 6.4 Modèle d’évaluation par arbitrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 7 Modèles factoriels 49 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 7.2 Facteur observés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 7.2.1 Facteurs négociables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 7.2.2 Facteurs non négociables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 Facteur non observés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 7.3.1 Analyse par composantes principales . . . . . . . . . . . . . . . . . . . . . . . . . . 60 7.3.2 Application : Structure à terme des taux d’intérêts . . . . . . . . . . . . . . . . . . . . 60 7.3.3 Analyse factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 7.3 7.4 8 Estimateurs ajustés 64 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 8.2 Estimateur James-Stein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 8.3 Estimateur Bayes-Stein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 8.4 Choix de portefeuille sous contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 8.5 Sommaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4 9 Épilogue 66 10 Exercices de révision 67 Annexes 74 A Rappels de calcul différentiel 74 A.1 Série de Taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 A.2 Règles de calcul . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 B Rappels d’algèbre 76 B.1 Matrices et vecteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 B.2 Opérations sur les matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 B.3 Espérance et variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 B.4 Calcul différentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 C Rappels d’optimisation 81 C.1 Optimisation sans contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 C.1.1 Conditions nécessaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 C.1.2 Conditions suffisantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 C.1.3 Problème multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 C.2 Optimisation sous contraintes d’égalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 C.3 Optimisation sous contraintes d’inégalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 C.4 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 D Choix en environnement certain 88 D.1 Préférences et utilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Références 89 Index 91 5 1 Introduction On s’intéresse au problème de choix de portefeuille, qui consiste à choisir les actifs financiers qui composeront un portefeuille. Comparativement à d’autres cours portant sur ce sujet, nous adopterons un point de vue essentiellement normatif et appliqué. On s’intéressera donc plus à la manière dont on devrait construire un portefeuille qu’au comportement des investisseurs et aux conséquences de ces comportements pour les prix des actifs financiers. On modélise le rendement d’un actif risqué par une variable aléatoire, qui est caractérisée par sa distribution. Le rendement d’un portefeuille, étant une fonction de variables aléatoires, est lui-même une variable aléatoire. Le problème consiste donc à choisir une variable aléatoire parmi l’ensemble des portefeuilles pouvant être construits à partir des actifs disponibles. La gestion de portefeuille est un problème de décision en incertitude. Pour aborder ce problème rigoureusement, on doit d’abord le formuler mathématiquement comme un problème d’optimisation : choisir un portefeuille qui maximise “quelque chose”. Un portefeuille, de manière générale, est un vecteur de montants investis dans des actifs. On normalise souvent le problème en considérant la proportion de la valeur initiale investie dans chaque actif. Ainsi, on représente un portefeuille constitué de 30% d’un actif A, 50% d’un actifs B et de 20% d’un actif C par le vecteur w′ = [0.3 0.5 0.2] . Supposons qu’on considère un investissement pour une période et que N actifs sont disponibles. Notons V0 la valeur de l’investissement initial, Rn le rendement l’actif n dans une période, et R le vecteur de ces rendements. Le portefeuille vaudra donc V0 w′ (1 + R) dans une période. Supposons donc qu’on cherche w∗ qui maximise une certaine fonction de la valeur du portefeuille dans une période f (V0 w′ (1 + R)) : w∗ = arg max f V0 w′ (1 + R) (1.1) w sous la contrainte que la somme des éléments de w est 1. Ce problème n’est pas suffisamment précis pour être utile. Ce cours s’intéresse au choix de la fonction f (·), à la solution du problème (1.1) et aux propriétés de cette solution. 1.1 Rendement et risque Dans un premier temps, on décrira les propriétés des rendements des actifs et on introduira quelques mesures du risque qui peuvent permettre d’ordonner les actifs selon leur risque. On verra que certaines mesures de risque peuvent représenter les préférences de tous les investisseurs, mais celles-ci ne permettent pas d’ordonner tous les actifs financier selon leur risque. Pour ordonner tous les actifs, on doit considérer les préférences d’un seul investisseur. 6 1.2 Choix en environnement risqué On formalisera le problème de choix de portefeuille comme un problème d’optimisation, qui requiert la spécification d’une fonction objective. On verra que la fonction objective d’un investisseur dont les préférences satisfont certains axiomes de rationalité prend la forme d’une espérance d’utilité et on étudiera quelques cas particuliers. On présentera des mesures de l’aversion pour le risque et de prudence qui permettent de comparer ces fonctions objectives. La maximisation d’une espérance d’utilité comme cadre d’analyse comporte certaines difficultés : – Elles décrivent mal, en pratique, le comportement observé des investisseurs. Bien que cette lacune ne soit pas a priori centrale à notre objectif, il importe de comprendre son origine. – Le cadre d’analyse requiert qu’on spécifie une fonction d’utilité représentant nos préférences, ce qui peut être difficile en pratique. – Seule la fonction d’utilité quadratique permet une analyse algébrique et intuitive de la composition des portefeuilles optimaux sans qu’on ait à la spécifier complètement. Les autres fonctions ne permettent d’identifier un portefeuille optimal que si elles sont complètement spécifiées et reposent sur des méthodes d’optimisation numériques. 1.3 Approche moyenne-variance Que l’on adopte une fonction d’utilité quadratique (ou une approximation du deuxième ordre d’une autre fonction d’utilité) ou que l’on postule que les rendements des actifs sont normaux, le risque d’un actif est quantifiable par sa variance, ce qui simplifie grandement le problème de choix de portefeuille. Ce cadre d’analyse permet ainsi de comprendre l’effet de la diversification et comment le rendement attendu d’un portefeuille est relié à sa variance. Si le risque d’un portefeuille est mesurable par sa variance, à espérances de rendement égales, un portefeuille de variance inférieure sera préférable à un portefeuille de variance supérieure. De même, à variances égales, un portefeuille d’espérance de rendement supérieure sera préférable à un portefeuille d’espérance de rendement inférieure. Il existe donc des portefeuilles dominants, qu’on appelle portefeuilles efficients. Cet ensemble prend la forme d’une hyperbole dans le plan écart-type – espérance. Pour choisir un portefeuille, l’investisseur n’a pas à spécifier ses préférences relatives pour l’espérance de rendement et la variance, il n’a qu’à fixer (de manière équivalente) l’un des moments et choisir le portefeuille efficient correspondant. Si un actif sans risque est disponible, il est optimal de combiner actif avec un portefeuille efficient particulier. L’ensemble des portefeuilles efficients prend alors la forme d’une droite. Outre les problèmes liés au fait qu’elle constitue un cas particulier de maximisation d’espérance d’utilité, cette approche est critiquable sous trois aspects 1. la variance n’est pas une mesure idéale du risque (en particulier, elle est symétrique) 2. elle suppose que le rendement espéré et la variance sont connus 3. elle se limite à une seule période Par contre, ce cadre simplifié permet d’étudier des problèmes pratiques tels que – contraintes sur les ventes à découvert – portefeuilles auto-financés – gestion indicielle 7 – frais de transaction L’approche moyenne-variance est un cas particulier d’approche moyenne-risque. C’est cette décomposition du problème en deux dimensions intuitives qui simplifie (conceptuellement) le choix de portefeuille. En pratique, certains gestionnaires de portefeuille utilisent des fonctions objectives rendement-risque en utilisant une mesure alternative du risque. L’optimisation est alors réalisée numériquement. Nous verrons quelques exemples. Nous étudierons trois approches pour aborder le deuxième point (voir Brandt (2010) pour un sommaire) : 1. Utiliser un modèle factoriel pour réduire le nombre de paramètres à estimer et ainsi réduire l’influence de l’estimation des paramètres (chapitre 7) 2. Utiliser des estimateurs des paramètres qui tiennent compte de l’incertitude (chapitre 8) 3. Considérer le problème conjoint de choix de portefeuille et d’estimation des paramètres La généralisation du choix de portefeuille à plusieurs périodes est possible, mais demande des outils que nous ne présenterons pas dans ce cours. 8 2 Rendement et risque La valeur d’un actif est modélisé par une variable aléatoire. Toute fonction de variables aléatoires est aussi une variables aléatoire. Le rendement d’un actif et celui d’un portefeuille d’actifs sont donc aussi des variables aléatoires. 2.1 Rappels de probabilité et statistiques 2.1.1 Fonction de répartition et fonction de densité Une variable aléatoire X est caractérisée par sa fonction de répartition FX (x) = Prob (X ≤ x) . (2.1) La fonction de répartition existe toujours, mais on ne peut pas toujours l’exprimer analytiquement. On dit qu’une variable aléatoire est discrète si les valeurs qu’elle peut prendre sont discrètes. Le résultat du lancé d’un dé peut être modélisé par une variable discrète. Une variable aléatoire continue prend une valeur continue : temps nécessaire pour se déplacer sur une certaine distance peut être modélisé par une variable aléatoire continue. Certaines variables sont partiellement discrètes et continues à la fois. On dit qu’elles sont mixtes. On modélise parfois la valeur d’une obligation corporative par une variable mixte dont valeur est discrète si l’entreprise ne fait pas défaut et continue dans le cas contraire (la valeur recouvrée est modélisée par une variables aléatoire). Lorsqu’une variable aléatoire est continue, elle a une fonction de densité fX (x) telle que FX (x) = Zx fX (s) d s. (2.2) −∞ On omet l’indice X lorsqu’il n’y a pas de risque de confusion. Bien qu’on s’intéressent principalement aux variables continues par la suite, la plupart des concepts présentés s’appliquent aux variables discrètes. 2.1.2 Moments théoriques On peut décrire la forme de la fonction de densité par l’intermédiaire de ces moments (théoriques) standardisés 1. l’espérance : µ = E [X] = Z xf (x) d x (2.3) 2. la variance : i h σ 2 = Var [X] = E (X − µ)2 9 (2.4) 3. l’asymétrie (skewness) : γ=E " X −µ σ 3 # (2.5) 4. l’aplatissement (kurtosis) : # X −µ 4 (2.6) κ=E σ 4 X−µ − 3, soit en excédant de l’aplatissement d’une On définit l’aplatissement excédentaire comme E σ " variable normale. Une variable dont l’aplatissement exécendaire est positif est dite leptokurtique, ou on dit plus simplement que ses queues sont épaisses. On omet parfois le qualificatif “excédentaire”. L’espérance d’une combinaison linéaire de variables aléatoire s’exprime aisément en termes des espérances de ces variables. Si wx et wy sont des constantes, E [wx X + wy Y ] = wx E [X] + wy E [Y ] . De même, la variance d’une combinaison linéaire de variables aléatoires s’exprime en termes des variances et de la corrélation entre ces variables p Var [wx X + wy Y ] = wx2 Var [X] + wy2 Var [Y ] + 2ρxy Var [X] Var [Y ] = wx2 Var [X] + wy2 Var [Y ] + 2Cov [X, Y ] = wx2 σx2 + wy2 σy2 + 2σxy . 2.1.3 Moments empiriques et estimation On peut estimer ces moments théoriques à l’aide d’un échantillon x1 , . . . , xT : 1. la moyenne : T 1X xn x̄ ≡ T (2.7) t=1 2. la variance échantillonale : T s2 ≡ 1 X (xt − x̄)2 T −1 t=1 3. l’asymétrie échantillonale (skewness) : T (T − 1)2 X (xt − x̄)3 γ̂ ≡ T (T − 1) s3 t=1 4. l’aplatissement échantillonal (kurtosis) : T −1 κ̂ = (T − 2) (T − 3) ! T (T + 1) (T − 1)2 X 4 (xt − x̄) − 3 (T − 1) + 3 T 2 s4 t=1 On parle alors de moments empiriques ou échantillonaux. 10 (2.8) 2.1.4 Quelques distributions utiles Deux lois de probabilités sont particulièrement utiles en finance. La densité de la loi normale est √ f (x| µ, σ) = 1 2 1 2πσ 2 e− 2σ2 (x−µ) . Elle est complètement spécifiée par deux paramètres, µ et σ 2 , qui sont aussi sa moyenne et sa variances. L’asymétrie est nulle et l’aplatissement est 3 (l’aplatissement excédentaire est nul). Si x est un vecteur de N éléments normalement distribués, sa densité est f (x| µ, Σ) = 1 p 1 2π N |Σ| ′ e− 2 (x−µ) Σ −1 (x−µ) . Si x est un vecteur de N éléments normalement distribués, sa moyenne (x̄) et sa covariance empirique (Σ̂) sont indépendantes. Cette propriété implique que h i h i E Σ̂−1 x̄ = E Σ̂−1 E [x̄] , par exemple. Si x est normale, y = ex > 0 est log-normale. Sa densité est f (y| µ, σ) = √ 1 y 2πσ 2 1 2 e− 2σ2 (ln(y)−µ) . Elle est aussi complètement spécifiée par deux paramètres. Son espérance est E [y] = eµ+ et sa variance est σ2 2 2 2 Var (y) = eσ − 1 e2µ+σ . p 2 2 2 L’asymétrie, eσ + 2 eσ2 − 1 , est positive et de même que son aplatissement excédentaire, e4σ +2e3σ + 2 3e2σ − 6. 2.2 Rendements 2.2.1 Rendements simples Si Pt est le prix d’un actif à la période t et que Pt−1 est le prix de cet actif à la période t − 1, son rendement simple entre t − 1 et t est Rt = Pt − Pt−1 . Pt−1 Remarque : l’indice t identifie la période où le rendement est connu. 11 F IGURE 1 – Densités normale et log-normales, espérances et variances égales. 12 Les rendements simples sont utiles pour les données en coupe transversale puisque le rendement d’un portefeuille est la moyenne pondérée des rendements des actifs qui le constituent. Supposons deux actifs dont les prix à la période t − 1 sont P1,t−1 et P2,t−1 . Si les prix de ces actifs à la période t sont P1,t et P1,t , le rendement d’un portefeuille p constitué de w1 unités du premier actif et w2 unités du second est P2,t − P2,t−1 P1,t − P1,t−1 + w2 P2,t−1 P1,t−1 P2,t−1 w1 P1,t + w2 P2,t − (w1 P1,t−1 + w2 P2,t−1 ) w1 P1,t + w2 P2,t − (w1 P1,t−1 + w2 P2,t−1 ) (w1 P1,t−1 + w2 P2,t−1 ) w1 P1,t−1 + w2 P2,t−1 (w1 P1,t−1 + w2 P2,t−1 ) Rp,t w2 P2,t−1 w1 P1,t−1 R1,t + R2,t w1 P1,t−1 + w2 P2,t−1 w1 P1,t−1 + w2 P2,t−1 w1 P1,t−1 R1,t + w2 P2,t−1 R2,t = w1 P1,t−1 = = = Rp,t = Plusieurs actifs financiers génèrent des flux monétaires. Les actions, par exemple, paient parfois un dividende à une fréquence plus ou moins régulière. Si un actif paie un dividende Dt à la période t, sont rendement simple est Rt = Pt + Dt − Pt−1 . Pt−1 Certains analysts négligent les dividendes. Ils sous-estimes donc le rendement des titres qui paient des dividendes. Dans des analyses comparatives, les titres qui paient de gros dividendes sont désavantagés. Certaines sources de données (Yahoo ! Finance, par exemple) ajustent les prix des actions historiques. Lorsqu’un dividende est payé, les prix historiques sont réduits du montant du dividende. ajust Pt−1 = Pt−1 − Dt−1 D’autres événements de marché (fusions, acquisition, divisions, dividendes en actions, etc.) peuvent affecter l’interprétation du prix d’un actif financier. La composition de rendements simples est multiplicative. Le rendement sur douze périodes, par exemple, est donné par Pt − Pt−12 Pt−12 Pt −1 Pt−12 Pt Pt−1 Pt−11 = × × ... × −1 Pt−1 Pt−2 Pt−12 = (Rt − 1) × (Rt−1 − 1) × . . . × (Rt−11 − 1) − 1. = On utilise donc les rendements simple lorsqu’on considère plusieurs actifs et une seule période. 13 2.2.2 Rendements logarithmiques Lorsqu’on utilise des séries temporelles, on préfère souvent calculer des rendements continus. Le rendement continu entre t − 1 et t est défini par Pt = Pt−1 ert Pt rt = ln Pt−1 = pt − pt−1 où pt = ln (Pt ). Ici encore, on prendra soin d’utiliser des prix ajustés pour les paiements de dividendes. Les rendements continus présentent un avantage important : la composition des rendements est additive r a = pt − pt−12 = (pt − pt−1 ) + (pt−1 − pt−2 ) + . . . + (pt−11 − pt−12 ) = rt + rt−1 + . . . + rt−11 On utilise donc les rendements simple lorsqu’on considère un seul actif et plusieurs périodes. 2.3 Mesures de risque Si le risque d’un investissement est complètement caractérisé par sa fonction de répartition, comment peut-on comparer le risque de deux actifs ? Dans quel sens un actifs est-il plus risqué d’un autre ? En d’autres termes, comment peut-on définir le risque ? Quelles propriétés une mesure de risque devrait-elle satisfaire ? 2.3.1 Mesures de risque classiques On s’intéresse d’abord aux mesures de risque qui permettent de comparer des actifs ayant le même rendement espéré. Évidemment, un actif dont le rendement est certain n’est pas risqué. On voudra donc que notre définition du risque implique que le risque d’un tel actif soit nul. Si on utilise la fonction ρ (R) pour mesure le risque d’un actif de rendement R, on voudra minimalement que ρ (a) = 0 si a est une constante. En particulier, ρ (0) = 0. Écart-type La variance satisfait cette condition. Dans le cas où un actif est normalement distribué, elle décrit complètement son risque. Pour obtenir une mesure dans les mêmes unités que l’actifs, on considère plutôt l’écart-type, v u T u1 X 2 s = t Rt − R̄ . T t=1 14 Remarquons qu’on peut calculer l’écart-type de n’importe quel actif, ce qui permet d’ordonner tous les actifs selon leur risque. Écart absolu moyen La variance échantillonnale est la moyenne du carré des écarts à la moyenne. Une alternative consiste à considérer la moyenne de la valeur absolue des écarts à la moyenne, eam = T 1 X Rt − R̄. T t=1 Intuitivement, le risque est une propriété qu’un investisseur veut éviter, c’est quelque chose de “mauvais”. Si deux actifs on le même rendement espéré, on voudrait celui qui est le moins risqué. Différents investisseurs pourraient donc avoir des définitions différentes du risque. Semi-écart-type L’écart-type est parfois critiqué comme étant une mesure symétrique, qui accorde autant d’importance aux écarts positifs qu’aux écarts négatifs. Certains investisseurs définissent le risque par le semi-écart-type v u T− u 1 X 2 − t s = 1(Rt <R̄) Rt − R̄ − T t=1 où T − = T P 1(Rt <R̄) , soit le nombre de rendements inférieurs à la moyenne. Ainsi, la semi-variance est un estimateur de l’espérance conditionnelle h 2 i σ 2− = E R − R̄ R < R̄ . t=1 Remarquons que l’utilisation de T − n’est pas uniforme dans a littérature. On utilise parfois T , surtout dans les ouvrages plus techniques. C’est ce que nous ferons dès maintenant. Semi-écart-type cible Pour certains investisseurs, le rendement moyenne n’est pas nécessairement le rendement de référence. On peut définir le semi-écart-type cible par v u T u1 X − (Rt − τ )2 sτ = t 1 T t=1 (Rt <τ ) où τ est une performance minimale cible (le rendement d’un indice de référence ou le rendement sans risque, par exemple). Moments partiels inférieurs (Références : Aftalion (2008), pages 163-164) 15 La notion de semi-écart-type cible (la racine carrée de la semi-variance cible) peut être généralisée. Un moment partiel inférieur (lower partial moments) prend la forme Zτ LP Mα,τ (R) = −∞ (R − τ )α f (R) d R = E [(Rt − τ )α | R < τ ] Prob (R < τ ) , qu’on estime par \ LP M α,τ (R) = T 1X (Rt − τ )α . 1 T t=1 (Rt <τ ) Cette notion est aussi appelée downside risk dans la littérature. Le semi-écart-type cible peut dont s’écrire q s− = τ \ LP M 2,τ . Le paramètre α permet donc de calibrer l’aversion pour les écarts négatifs à la cible. Plus α est grand, plus l’aversion est grande. Pour référence future, définissons les moments partiels supérieurs (upper partial moments) de manière analogue, U P Mβ,τ (R) = Z∞ τ (R − τ )β f (R) d R h i = E (Rt − τ )β R > τ Prob (R > τ ) . Cette notion est aussi appelée upside potential dans la littérature (voir Cumova and Nawrocki (2014)). Risque de sous-performance Une autre manière d’introduire une performance cible est le risque de sous-performance (aussi appelé donwside risk, malheureusement), πτ = Prob (R ≤ τ ) . Valeur à risque (Références : Fabozzi et al. (2012), section 12.4.1) La valeur à risque est une mesure populaire V aRα = inf {FY (y) ≥ α} y (2.9) où y = x0 − x, où x0 est la valeur initiale de l’actif : y est donc une perte. Elle mesure la perte associée à un actif lorsque que le scénario correspondant au quantile α se réalise. Si la variable est continue, on peut aussi l’exprimer comme la solution de Prob (Y ≤ V aRα ) = α. 16 Si la variable n’est pas continue, la définition (2.9) doit être utilisée. Supposons un actif au coût initial de 100 paie 30 avec probabilité 0, 04 et 100 avec probabilité 0, 96 (une obligation avec une probabilité de défaut de 4% et une perte en cas de défaut de 70%), x 100 30 y = 100 − 1 0 70 F (y) 0, 96 1 La VaR à 95% de cet actif est 0 puisque la plus petite valeur de y telle que F (y) est supérieure ou égale à 0, 95 est 0. Méthode Morningstar (Références : Aftalion (2008), pages 165-168) Les mesures précédentes ne permettent que de comparer des actifs d’espérance de rendement égales. La société Morningstar à adopté une méthode qu’elle a appelée Morningstar Risk-Adjusted Return pour classer les actifs qui repose sur l’estimation de i−1/2 h M RAR = E (1 + Rt )2 − 1. On verra plus tard comment on peut interpréter cette mesure. 2.3.2 Dominance stochastique (Références : Fabozzi et al. (2012), section 12.3 ; Danthine and Donaldson (2002), section 3.6) Les mesures classiques de risque sont quelque peu arbitraires. Peut-on définir une mesure du risque qui soit valide pour tous les investisseurs averses au risque et qui tiennent compte de l’espérance de rendement ? Oui, mais elles ne permettent généralement pas d’ordonner tous les actifs. Dominance stochastique du premier ordre On dit qu’un actif x domine un actif y au sens de la dominance stochastique du premier ordre si FX (z) ≤ FY (z) , pour tout z. En termes de variables aléatoires, x domine un actif y au sens de la dominance stochastique du premier ordre si il existe une variable aléatoire δ non positive telle que y = x + δ. Cette définition du risque permet d’ordonner peu d’actifs financiers. Tout investisseur pour qui plus de rendement est préférable sera d’accord avec cet ordre. Dominance stochastique du second ordre On dit qu’un actif x domine un actif y au sens de la dominance stochastique du second ordre si Zz −∞ FX (s) − FY (s) d s ≤ 0, 17 pour tout z. En termes de variables aléatoires, x domine un actif y au sens de la dominance stochastique du deuxième ordre si il existe une variable aléatoire δ non positive et une variable aléatoire ǫ d’espérance nulle telles que y = x + δ + ǫ. Cette définition du risque permet d’ordonner plus d’actifs financiers que la dominance stochastique du premier ordre, mais pas tous. Tout investisseur averse au risque sera d’accord avec cet ordre. 2.3.3 Mesures de risque cohérentes (Références : Fabozzi et al. (2012), section 12.4) Une mesure risque est cohérente si 1. Normalisée ρ (0) = 0 2. Monotonicité (dominance stochastique du premier ordre) 3. Homogénéité positive ρ (aX) = aρ (X) , pour une constante a > 0 4. Invariance aux translations (investir une somme a dans un actif sans risque réduit le risque d’autant) ρ (X + a) = ρ (X) − a, pour une constante a 5. Sous-additivité ρ (X + Y ) ≤ ρ (X) + ρ (Y ) La condition de sous-additivité requière que la mesure de risque tienne compte des effets de diversification. Pour qu’elle soit satisfaite, le risque d’un portefeuille doit être inférieure ou égal à la somme des risques de ses composantes. La VaR ne satisfait pas la condition de sous-additivité. Supposons un portefeuille de deux actifs indépendants qui paient chacun 30 avec probabilité 0, 04 et 100 avec probabilité 0, 96, en proportions égales (50 dans chacun). Ce portefeuille paient 15 + 15 = 30 avec probabilité 0, 042 = 0, 016, 15 + 50 = 65 avec probabilité 1 − 0, 042 − 0, 962 = 0, 0768 et 50 + 50 = 100 avec probabilité 0, 962 = 0, 9216, x 100 65 30 y = 100 − x 0 35 70 F (y) 0, 9216 0, 9984 1 La VaR à 95% de ce portefeuille est 35 puisque la plus petite valeur de y telle que F (y) est supérieure ou égale à 0, 95 est 35. La VaR à 95% de chacun des actifs est 0, de sorte que la moyenne des VaR (0) est inférieure à la VaR de la moyenne (la VaR du portefeuille, 35). VaR conditionnelle 18 Une mesure de risque cohérente est la VaR conditionnelle 1 : ET Lα = 1 α Zα V aRδ d δ 0 = E [X| X ≤ V aRα ] . Remarquons que l’ordre des actifs peut dépendre de α. 2.3.4 Sommaire Remarquons d’abord que toutes ces mesures génèrent le même ordonnancement si les actifs sont normaux. En effet, puisque la densité des rendements n’est une fonction que de deux paramètres, la moyenne et la variance, toute propriété de cette densité peut être exprimée comme une fonction de ces paramètres. Ensuite, il n’est pas possible d’ordonner tous les actifs pour tous les investisseurs, ce qui n’est pas surprenant puisque chaque investisseur peut avoir des préférences différentes. Par ailleurs, si on aime bien résumer le risque d’un actif par un scalaire, résumer une fonction de répartition par une mesure de risque scalaire entraîne une perte d’information. Si considérer une mesure de risque dans un problème de choix de portefeuille peut simplifier les calculs, cette perte d’information implique que ce choix sera généralement sous-optimal. Les mesures de risques classiques sont définies arbitrairement, mais peuvent néanmoins être utiles pour fins de communication ou pour simplifier certains calculs. Elles ont notamment l’avantage d’ordonner tous les actifs. Par ailleurs, on verra plus tard que certaines mesures peuvent être interprétées en termes de préférences. Finalement, il est possible de retreindre le choix d’une mesure de risque selon des critères de cohérence. Ces critères nous incitent à retenir la VaR conditionnelle, par exemple. 1. Autres termes utilisés : Conditional VaR (CVaR), Average VaR (AVaR), Expected tail loss (ETL), Expected shortfall (ES) 19 3 Choix en environnement risqué Au chapitre 2, nous avons considéré la possibilité d’ordonner des actifs sans tenir compte des préférences d’un investisseur particulier. Dans cette section, on s’intéresse à la modélisation des préférences des investisseurs pour les actifs financiers. Les probabilités permettent de modéliser l’inconnu et/ou l’incompris. Pour représenter le fait que la valeur future d’un actif n’est pas connue, on la modélise par une variable aléatoire. On cherche donc à exprimer des préférences sur des distributions. Pour des fins pédagogiques, on considère souvent des variables aléatoire discrètes pour illustrer les concepts et simplifier certaines preuves. Nous ne seront pas très rigoureux, pour simplifier l’exposition, mais l’ensemble des résultats présentés s’applique aux variables aléatoires continues. De manière abstraite, on utilise le terme loterie pour représenter un investissement dont la valeur est aléatoire. On note x = (a, b, p) la loterie qui donne le gain a avec probabilité p et le gain b avec probabilité 1 − p. 3.1 Espérance d’utilité Paradoxe de Saint-Pétersbourg (Références : Fabozzi et al. (2012), section 9.1.1.1 ; Aftalion (2008), page 51) Remarque : Nous verrons plusieurs faits empiriques, connus sous le nom de paradoxes Ce ne sont pas des paradoxes au sens propre du terme. Ce sont plutôt des comportements incompatibles avec une théorie donnée. C’est en 1738 que Bernoulli aurait posé le problème, en remarquant que personne n’était prêt à payer un somme importante pour obtenir l’opportunité de gagne 2N $ lorsqu’une pièce de monnaie tombe du côté pile au N ième lancé, alors que l’espérance de gain ∞ n X 1 2n v= 2 n=1 =∞ est infinie. Il proposa que la valeur d’une loterie est égale à l’espérance d’une fonction u croissante (non satiété) u′ > 0 et concave u′′ < 0 (aversion au risque) des gains, ∞ n X 1 v= u (2n ) , 2 n=1 dont la fonction logarithmique est un exemple. 3.1.1 Espérance d’utilité (Références : Fabozzi et al. (2012), section 9.1.1.2 ; Aftalion (2008), pages 26-29 ; Danthine and Donaldson (2002), sections 2.4-2.5) Si les préférences d’un investisseur satisfont certaines conditions, il cherche à maximiser son espérance d’utilité. On note par x y la préférence faible d’un investisseur pour la loterie x par rapport à y. Si les préférences d’un investisseur satisfont les conditions 20 1. comparabilité Pour toute loteries x, y, ou bien x y, ou bien y x. 2. transitivité Si x y et y z, alors x z. 3. monotonicité Pour tout loteries x et y telles que x ≻ y, et toutes probabilités p et q, (x, y, p) ≻ (x, y, q) si et seulement si p > q. 4. indépendance forte Pour tout loteries x, y, et z, et toute probabilité p, si x y, alors (x, z, p) (y, z, p) . 5. valeur intermédiaire Pour tout loteries x, y, et z, si x y ≻ z ou si x ≻ y z, alors il existe une probabilité p telle que y ∼ (x, z, p) . alors il existe une fonction réelle continue u (W ) de la richesse W , dite utilité de Bernoulli, telle que la fonction d’utilité de von Neumann-Morgenstern (von Neumann and Morgenstern (1953)) U (W ) = EW [u (W )] (3.1) représente ses préférences. Remarque : La fonction u est définie à une transformation affine près. Les fonctions u et v permettent de représenter les préférences d’un investisseur si et seulement si il existe existe deux constantes, a > 0 et b telles que u (x) = av (x) + b. (3.2) C’est un résultat fort, qui repose essentiellement sur l’axiome d’indépendance forte. Plusieurs faits empiriques suggèrent que cet axiome n’est pas satisfait par les préférences des consommateurs/investisseurs. Remarque : En économie financière, l’utilité d’un investisseur est habituellement une fonction de sa richesse, et non du rendement de sa richesse, ou encore de la valeur d’un portefeuille dans lequel serait investie une partie de celle-ci. Cette formulation permet de bien représenter les choix auxquels font face les consommateurs. Cependant, on se doit de remarquer qu’un investisseur institutionnel, ayant sous sa responsabilité les actifs de tiers, ne peut pas formuler son problème de choix de portefeuille comme celui d’une maximisation de l’espérance d’une fonction de la richesse. Même pour un investisseur particulier, ce problème requiert qu’il considère l’ensemble des sources de risque qui peuvent influencer sa richesse. D’un point de vue pratique, exprimer l’utilité comme une fonction du rendement d’un portefeuille est un compromis souvent acceptable. Par ailleurs, pour de nombreuses fonctions d’utilité (celles de la famille HARA), la composition de la portion risquée d’un portefeuille ne dépend pas de la richesse (Cass and Stiglitz (1970) ; Danthine and Donaldson (2002), section 4.5). Autrement dit, dans ces cas, la richesse d’un individu influencera la proportion de celle-ci qu’il investira dans l’actif sans risque, mais pas la manière dont sera investie la portion risquée de sa richesse. 21 3.1.2 Validité empirique de l’espérance d’utilité Paradoxe d’Allais (Références : Aftalion (2008), pages 37-38 ; Danthine and Donaldson (2002), sections 2.6) L’expérience (Allais (1953)) est la suivante. On propose deux paires de loteries à des individus et on leur demande d’identifier la loterie qu’ils préfèrent dans chaque paire. La première paire est constituée d’un gain certain de 1 000 000$ et d’une loterie qui paie 5 000 000$ avec une probabilité de 10%, 1 000 000$ avec une probabilité de 89% et 0$ avec une probabilité de 1%. Le gain certain est généralement préféré. La deuxième paire est constituée d’une loterie qui paie 5 000 000$ avec une probabilité de 10% et 0$ avec une probabilité de 90%, et d’une loterie qui paie 1 000 000$ avec une probabilité de 11% et 0$ avec une probabilité de 89%. La première loterie est généralement préférée. Or, ces choix violent l’axiome d’indépendance forte. Définissons p la loterie qui paie 1 000 000$ de manière certaine et q la loterie qui paie 5 000 000$ avec une probabilité de 10/11 et qui paie 0$ avec probabilité 1/11. La première paire de loteries s’écrit (p, 1000000, 11/100) et (q, 1000000, 11/100), alors que la seconde paire s’écrit (q, 0, 11/100) et (p, 0, 11/100). Il semble donc que l’espérance d’utilité ne soit pas compatible avec le comportement observé des consommateurs/investisseurs. Paradoxe d’Ellsberg - risque et incertitude (Références : Aftalion (2008), page 38 ; Danthine and Donaldson (2002), sections 11.1) On présente (Ellsberg (1961)) deux paires de loteries, et on demande de choix une loterie dans chaque paire. La première loterie prend la forme de deux sacs de 100 billes. Le premier sac contient 50 billes rouges et 50 billes noires. Le second sac contient 100 billes rouges ou noires, sans que les proportions soient connues. L’individu choisit un sac, tire une bille, et gagne une certaine somme si la bille est rouge. On préfère généralement le premier sac, ce qui suggère qu’on estime que la proportion des billes rouges dans le second sac est inférieure à 50%. Pour la seconde paire de loteries, on conserve les mêmes sacs, mais l’individu gagne si la bille tirée est noire. On préfère généralement le premier sac, ce qui suggère qu’on estime que la proportion des billes noires dans le second sac est inférieure à 50%. Ce “paradoxe” est résolu si on introduit la distinction entre risque et incertitude (Fabozzi et al. (2012), section 9.1.2.4, utilisent le terme ambiguïté, tout comme Ellsberg (1961)). On parle de risque lorsque les probabilités sont connues, et d’incertitude lorsqu’elles ne le sont pas (comme dans l’expérience d’Ellsberg). En présence d’incertitude, on peut toujours modéliser les choix d’un investisseurs comme un problème de maximisation d’espérance d’utilité, mais les probabilités utilisées pour calculer l’espérance sont des probabilités subjectives. L’introduction de probabilités subjectives (Savage (1954)) étend donc quelque peu la portée de la théorie de von Neumann et Morgenstern, mais ne la soustrait pas à l’axiome d’indépendance forte. Machina (1982) parvient à lui substituer un autre axiome, mais la théorie résultante présente des lacunes descriptives similaires. 22 3.2 Finance comportementale (Références : Fabozzi et al. (2012), section 9.1.2 ; Aftalion (2008), pages 39-50 ; Danthine and Donaldson (2002), sections 2.7) Une vaste littérature, toujours active par ailleurs, tente de développer d’autres théories offrant une meilleure description du comportement des investisseurs. 3.2.1 Irrationalité Certains faits empiriques montrent que certains investisseurs ne parviennent pas à résoudre des problèmes mathématiques simples. 3.2.2 Croyances Dès qu’on introduit la notion d’incertitude, les décisions des investisseurs s’appuient sur une estimation du risque. On a identifié plusieurs situations dans lesquelles les investisseurs estiment mal le risque : – sur-confiance – on surestime généralement la probabilité des événements probables – on est généralement plus certain de nos estimations que ce que les données disponibles permettent – sur-optimisme – le conducteur moyen considère ses habiletés de conduites supérieures à la moyenne – on sous-estime généralement le temps requis pour accomplir une tâche – non représentativité – on généralise trop souvent à partir d’un cas particulier – on extrapole trop souvent une tendance historique – on ne tient pas compte adéquatement du petit nombre d’observations dont on dispose – conservatisme – il est difficile de se défaire d’une évaluation a priori – on ne remet par suffisamment souvent en question la méthode qu’on utilise pour accomplir une tâche – ancrage – on se laisse trop facilement influencer par des informations sans lien direct avec un problème 3.2.3 Source d’utilité (Références : Fabozzi et al. (2012), section 9.1.2 ; Aftalion (2008), pages 39-50 ; Danthine and Donaldson (2002), sections 2.7.1 et 2.7.3) Jusqu’ici, nous avons considérer l’utilité comme une fonction de la richesse finale. Voici deux façons de généraliser la fonction d’utilité. Moment de résolution de l’incertitude Dans un contexte (plus représentatif de la réalité) multi-période, certains investisseurs préfèrent connaître 23 plus tôt que tard le gain qu’ils toucheront. Krep and Porteus (1978) propose une la première fonction d’utilité permettant de représenter de telles préférences. Epstein and Zin (1989) ont proposé la formulation suivante, relativement populaire, θ h i 1−γ 1−γ 1−γ θ + δEt Ut+1 Ut = (1 − δ) Wt . Elle permet de paramétrer séparément le taux marginal de substitution inter-temporel et l’aversion pour le risque. Aucune des fonctions d’utilité permettant de représenter les préférences pour le moment de résolution de l’incertitude ne prend la forme (3.1). Utilité cible La fonction d’utilité de von Neumann Morgenstern est une fonction de la richesse. Or, on a remarqué qu’on accorde généralement plus de valeur à un bien qu’on détient qu’à un bien qu’on ne détient pas. Par ailleurs, Kahnemann and Tversky (1979) et Tversky and Kahnemann (1992) ont présenté deux paires de loteries à des individus. Dans le premier cas, on débute avec une fortune initiale de 1 000$. On doit ensuite choisir entre une loterie qui paie 1 000$ avec une probabilité de 50% et un gain nul avec la même probabilité, et une loterie qui offre un gain certain de 500$. On préfère généralement le gain certain. Dans le deuxième cas, on débute avec une fortune initiale de 2 000$. On doit ensuite choisir entre une loterie qui paie -1 000$ (une perte) avec une probabilité de 50% et un gain nul avec la même probabilité, et une loterie qui offre une perte certaine de 500$. On préfère généralement la première loterie. Pour modéliser ce type de comportement (et d’autres), ils ont proposé une fonction d’utilité de la forme ( |W −τ |1−γ1 si W ≥ τ 1−γ1 , (3.3) u (W ) = |W −τ |1−γ2 −λ 1−γ2 si W ≤ τ avec λ > 0, et γ1 , γ2 < 0. Cette fonction prend la forme d’un “S” dans le plan W -U (W ). Elle permet de représenter les préférences d’un investisseur averse au risque au-dessus d’une cible de référence τ et de rechercher le risque au-dessous de cette cible. Bien que les expériences de Kahnemann and Tversky (1979) suggèrent que les préférences de certains individus puissent être ainsi caractérisées, d’autres expériences suggèrent complètement le contraire (voir Fishburn and Kochenberger (1979)) ! On reviendra sur une famille de fonctions d’utilité permettant de modéliser l’aversion au risque sous une cible et la recherche de risque au-dessus, qui prend la forme d’un “S” inversé dans le plan W -U (W ). Remarquons qu’une fonction d’utilité de cette forme est bien une fonction d’utilité de von Neumann-Morgenstern. C’est l’hypothèse d’aversion au risque qui est remise en question : on permet la recherche de risque sur certaines portions de la fonction d’utilité. Kahnemann and Tversky (1979) propose aussi l’utilisation d’une fonction de pondération π (·) des probabilités pour représenter la tendance des consommateurs à sur-(sous-)estimer les événements très (peu) probables. Autrement dit, au lieu de maximiser U (W ) = E [u (W )] Z = u (W ) f (W ) d W, 24 les consommateurs maximiseraient U (W ) = Z u (W ) π (f (W )) d W pour une certaine fonction de pondération π. Cette approche, jumelée à la fonctions d’utilité (3.3) est appelée propect theory. Si les probabilités ainsi transformées sont interprétées comme des probabilités subjectives, on peut interpréter cette formulation comme un problème de choix en incertitude. 3.2.4 Sommaire Bien qu’il y ait suffisamment de preuves empiriques pour qu’on puisse remettre sérieusement en question la validité de l’espérance d’utilité comme description adéquate des choix des investisseurs, un investisseur qui adhère aux conditions de validité du théorème n’a pas de raison de considérer autre chose pour la construction de son portefeuille. Dès lors, il suffit 2 d’identifier une fonction d’utilité qui représente nos préférence et de résoudre un problème d’optimisation. Résoudre ce problème requiert qu’on calcule une espérance, ce qui nécessite l’utilisation de probabilités, estimées ou subjectives. 3.3 Mesures d’aversion pour le risque (Références : Fabozzi et al. (2012), sections 9.1.1 et 11.5 ; Aftalion (2008), pages 29-36 ; Danthine and Donaldson (2002), sections 3.1-3.4) Un investisseur est averse au risque (ou riscophobe) dès qu’il préfère l’espérance d’une loterie à celle-ci, u (E [W ]) > E [u (W )] , c’est à dire, dès que sa fonction d’utilité est concave, u′′ < 0. La différence entre l’utilité de l’espérance d’une loterie et l’utilité de cette loterie est appelée prime de risque additive π ≡ u (E [W ]) − E [u (W )] . Le montant certain dont l’utilité est égale à l’utilité d’une loterie est appelé équivalent certain. 3.3.1 Aversion absolue au risque On considère un risque additif. Supposons qu’un investisseur de richesse initiale W0 considère une loterie x d’espérance nulle et de variance σ 2 . Si définit une prime de risque multiplicative, on a E [u (Wo + x)] = u (W0 − π) . Considérons un développement de Taylor du deuxième ordre de u (Wo + x) autour de W0 , 1 u (Wo + x) ≈ u (Wo ) + xu′ (Wo ) + x2 u′′ (Wo ) . 2 2. Choisir une fonction d’utilité n’est pas si simple. Nous y reviendrons plus tard dans ce chapitre. 25 (3.4) L’espérance de cette relation est 1 2 ′′ ′ E [u (Wo + x)] ≈ E u (Wo ) + xu (Wo ) + x u (Wo ) 2 1 2 ′′ ≈ u (Wo ) + σ u (Wo ) . 2 (3.5) De la même manière, si on considère un développement de Taylor du premier ordre du membre de droite de (3.4) autour de W0 u (W0 − π) = u (W0 ) − πu′ (W0 ) . (3.6) En combinant (3.5) et (3.6), on a 1 u′′ (W0 ) π = − σ2 ′ 2 u (W0 ) 1 2 σ ARA (W0 ) = 2 avec ARA (W0 ) = − u′′ (W0 ) . u′ (W0 ) La prime de risque additive est donc approximativement proportionnelle au coefficient d’aversion absolue au risque. Si l’aversion absolue au risque d’un investisseur est constante, sa fonction d’utilité est de forme 1 u (W ) = − e−aW . a Cette fonction est connue sous le nom de fonction exponentielle négative, ou CARA (constant absolute risk aversion). 3.3.2 Aversion relative au risque On considère un risque multiplicatif. Supposons qu’un investisseur de richesse initiale W0 considère une loterie x d’espérance nulle et de variance σ 2 . On a E [u (Wo (1 + x))] = u (W0 (1 − π)) . (3.7) Considérons un développement de Taylor du deuxième ordre de u (Wo (1 + x)) autour de W0 , 1 u (Wo (1 + x)) ≈ u (Wo ) + xW0 u′ (Wo ) + x2 W02 u′′ (Wo ) . 2 L’espérance de cette relation est 1 E [u (Wo (1 + x))] ≈ u (Wo ) + σ 2 Wo2 u′′ (Wo ) . 2 26 (3.8) De la même manière, si on considère un développement de Taylor du premier ordre du membre de droite de (3.7) autour de W0 u (W0 (1 − π)) = u (W0 ) − πWo u′ (W0 ) . (3.9) En combinant (3.8) et (3.9), on a 1 u′′ (W0 ) π = − W0 σ 2 ′ 2 u (W0 ) 1 = − σ 2 RRA (W0 ) 2 avec RRA (W0 ) = −W0 u′′ (W0 ) . u′ (W0 ) La prime de risque multiplicative est donc approximativement proportionnelle au coefficient d’aversion relative au risque. Une fonction dont le coefficient d’aversion relative au risque est constant prend la forme Wγ . γ u (W ) = Cette fonction est connue sous le nom de fonction iso-élastique, puissance ou CRRA (constant relative risk aversion). En effet, d u (W ) = W γ−1 dW d2 u (W ) = (γ − 1) W γ−2 dW2 u′′ (W0 ) RRA (W0 ) = −W0 ′ u (W0 ) = −W0 (γ − 1) W0γ−2 W0γ−1 =1−γ Cette fonction est souvent utilisée parce qu’elle est simple (un seul paramètre) et parce que l’aversion absolue pour de risque décroît si γ < 1 (c’est une propriété générale de la classse HARA). Remarquons que la méthode Morningstar (voir section 2.3.1) repose sur la fonction CRRA avec γ = −2. On exprime souvent la fonction CRRA de manière à ce que son paramètre soit strictement positif, u (W ) = W 1−γ , 1−γ γ > 0, et qu’il soit directement interpretable comme une coefficient d’aversion au risque relatif. 27 3.3.3 Prudence On s’attend généralement à ce que le coefficient d’aversion absolue au risque diminue avec la richesse, ce qui est associé à la troisième dérivée de la fonction d’utilité, ou à une préférence pour l’asymétrie positive des loteries. Par exemple, on définit le coefficient de prudence absolue par AP (W ) ≡ − u′′′ (W ) . u′′ (W ) cette quantité est positive pour les fonctions CRRA et CARA. 3.3.4 Utilité linéaire Une fonction d’utilité linéaire prend la forme u (W ) = aW Puisque u′′ = 0, un investisseur dont les préférences sont caractérisée par cette fonction ne présente aucune aversion au risque et est dit neutre au risque. 3.3.5 Utilité quadratique Un fonction d’utilité populaire, pour sa simplicité, est la fonction quadratique u (W ) = − (W − τ )2 . Elle présente cependant deux inconvénients importants : 1. elle comporte un point de satiété, τ : l’utilité est décroissante au delà de ce point ; 2. l’aversion au risque est croissante en la richesse. On peut la considérer comme une approximation au deuxième ordre d’une fonction d’utilité générale. Si les préférences d’un investisseur sont représentables par une fonction d’utilité quadratique, la variance d’un loterie caractérise complète son risque à ses yeux, puisque i h E [u (W )] = E − (W − τ )2 i h = −E (W − µ + µ − τ )2 = (µ − τ )2 − σ 2 . 3.3.6 Aversion absolue pour le risque hyperbolique On peut généraliser les fonctions d’utilité considérées jusqu’ici par la fonction HARA γ ax 1−γ + b , a > 0, b ≥ 0, γ 6= 1. u (x) = γ 1−γ 28 On peut vérifier que ARA (x) = a . +b ax 1−γ Le coefficient d’aversion absolue pour le risque décroît avec la richesse et le coefficient de prudence absolue est positif si γ < 1. – La fonction linéaire correspond au cas γ → 1 u (x) = ax – La fonction quadratique correspond au cas γ = 2 et b > 0, ce qui implique que l’ARA croît avec la richesse. 1 u (x) = − (b − ax)2 2 – La fonction CARA correspond au cas b = 1 et γ → −∞. – La fonction CRRA correspond au cas b = 0 et γ < 1. – La fonction logarithmique correspond au cas b = 0 et γ → 0. Son RRA est 1. 3.4 Relation entre espérance d’utilité et moments partiels Holthausen (1981) montre qu’il existe une constante λ telle que le problème w∗ = arg max U P Mβ,τ w′ (1 + R) w∈S N est équivalent au problème sous contrainte LP Mα,τ w′ (1 + R) = c w∗ = arg max E u w′ (1 + R) w∈S N où ( |W − τ |β u (W ) = −λ |W − τ |α si W ≥ τ . si W ≤ τ Comme la première formulation est plus simple à résoudre, c’est cette dernière qu’on adopte (voir Cumova and Nawrocki (2014) pour une application récente). 29 4 Approche moyenne-variance Comme son nom le suggère, l’approche moyenne-variance consiste à analyser les portefeuilles en termes d’espérance et de variance. Cette approche serait optimale pour un investisseur dont les préférences sont représentables par une fonction d’utilité quadratique ou si les rendements étaient normaux. Ces deux scénarios ne sont pas réalistes. On devrait plutôt considérer cette approche comme une approximation. En effet, si on considère une approximation de Taylor du second ordre d’une fonction d’utilité arbitraire autour de E [x], 1 u (x) ≈ u (E [x]) + u′ (E [x]) (x − E [x]) + u′′ (E [x]) (x − E [x])2 2 1 ′′ E [u (x)] = u (E [x]) + 0 + u (E [x]) Var [x] , 2 ce qui est une fonction de l’espérance et de la variance. Par ailleurs, les fonctions d’utilités présentées au chapitre 3 sont paramétriques. Les paramètres de ces fonctions doivent être spécifiés de manière à représenter nos préférences. Il ne s’agit pas d’un exercice simple. Danthine and Donaldson (2002) (section 4.5) illustre une manière de procéder. Dans le plan µ − σ 2 (espérance - variance), on considère l’ensemble des portefeuilles qu’il est possible de construire avec les actifs disponibles, et plus particulièrement la frontière de cet ensemble. Ceux qui minimisent la variance pour différentes espérances est appelée frontière de variance minimale. Ceux qui maximisent l’espérance pour différentes variances est appelée frontière efficiente. Lorsqu’il y a un actif sans risque de rendement Rf , un investisseur préfère un actif risqué dont le ratio de Sharpe, Sh (R) ≡ E [R] − Rf , σR (4.1) est supérieur. Dans le plan µ − σ, le ratio de Sharpe correspond à la pente de la droite reliant l’actif sans risque et l’actif risqué. 4.1 Espérance et variance d’un portefeuille Considérons d’abord le cas de deux actifs d’espérance µ = [µ1 , µ2 ] et de covariance ρσ1 σ2 σ12 . Σ= ρσ1 σ2 σ22 Sans perte de généralité, supposons µ1 < µ2 et σ12 < σ22 . L’espérance de rendement d’un portefeuille constitué de ces actifs en proportions w1 et w2 = 1 − w1 est µp = w′ µ = w1 µ1 + w2 µ2 , 30 où w′ = [w1 , w2 ]. Remarquons que cette relation est linéaire en w1 et qu’elle ne dépend pas de la corrélation entre les rendements des actifs, ρ. La variance du rendement du portefeuille est σp2 = w′ Σw = w1 σ12 + w2 σ22 + 2w1 w2 ρσ1 σ2 . Si on calcule la dérivée première par rapport à ρ, ∂ 2 σ = 2w1 w2 σ1 σ2 > 0 ∂ρ p si w1 , w2 > 0. Puisque −1 ≤ ρ ≤ 1, la variance est maximale pour ρ = 1 et minimale pour ρ = −1. Nous débuterons l’analyse par ces cas limites. 4.1.1 Corrélation positive parfaite Si ρ = 1, σp2 = w1 σ12 + w2 σ22 + 2w1 w2 σ1 σ2 = (w1 σ1 + w2 σ2 )2 σp = |w1 σ1 + w2 σ2 | . Dans le plan µ − σ, puisque µp (w1 ) et σp (w1 ) sont linéaires en w1 , µp (σp ) est linéaire en σp . De plus, la variance du portefeuille est nulle pour σ2 w1 = . σ2 − σ1 L’espérance de rendement de ce portefeuille est σ1 σ2 µ1 − µ2 σ2 − σ1 σ2 − σ1 σ2 σ1 < µ1 − µ1 σ2 − σ1 σ2 − σ1 = µ1 . µp (0) = Remarquons que la variance diminue avec ρ lorsque les proportions sont positives et qu’elle augmente lorsque l’une des proportions est négative. 4.1.2 Corrélation négative parfaite Si ρ = −1, σp2 = w1 σ12 + w2 σ22 − 2w1 w2 σ1 σ2 = (w1 σ1 − w2 σ2 )2 σp = |w1 σ1 − w2 σ2 | . 31 Dans le plan µ − σ, puisque µp (w1 ) et σp (w1 ) sont linéaires en w1 , µp (σp ) est linéaire en σp . De plus, la variance du portefeuille est nulle pour σ2 . w1 = σ1 + σ2 L’espérance de rendement de ce portefeuille est µp (0) = σ1 σ2 µ1 + µ2 , σ2 + σ1 σ2 + σ1 de sorte que µ1 < µ (0) < µ2 . 4.1.3 Corrélation imparfaite Si −1 < ρ < 1, σp2 = w1 σ12 + w2 σ22 − 2w1 w2 σ1 σ2 ρ q σp = w1 σ12 + w2 σ22 − 2w1 w2 σ1 σ2 ρ. Cette relation admet un minimum non nul, qu’on appelle portefeuille (risqué) de variance minimale. La relation µp (σp ) est alors une hyperbole, caractérisée par ses asymptotes. 4.1.4 Actif sans risque Si σ1 = 0, σp2 = w2 σ22 . La relation µp (σ) est linéaire en σp et le portefeuille de variance nulle est donné par w1 = 1. Son espérance est µ1 = 1 + Rf . Tous les portefeuilles combinant l’actif sans risque et l’actif risqué sont donc sur une droite dont la pente est le ratio de Sharpe de l’actif risqué. Tous les portefeuilles sur cette droite ont évidemment le même ratio de Sharpe. 4.1.5 N actifs risqués Un portefeuille de N actifs risqués peut être vu comme un portefeuille de deux actifs : un actif et un portefeuille de N − 1 actifs. Tous les résultats précédents s’appliquent donc directement. En particulier, la frontière efficiente prend la forme d’une hyperbole dans le plan µ−σ. Comme on le verra à la section 4.2, cette frontière peut être construite à l’aide de n’importe quelle paire de portefeuilles efficients. De plus, chaque portefeuille sur cette frontière peut être combiné à un actif sans risque. Si un tel actif sans risque existe, la solution du problème de choix de portefeuille est d’investir une portion du portefeuille dans cet actif et l’autre dans le portefeuille tangent à la droite qui passe par le point (0, 1 + Rf ). Ce portefeuille tangent existe si le rendement de l’actif sans risque est inférieur à l’espérance du rendement du portefeuille (risqué) de variance minimale globale. 32 4.2 Choix de portefeuille classique Puisque que la solution est explicite dans le cas de N actifs, il est utile de la présenter. Remarquons d’abord qu’il y a trois manières équivalentes de formuler le problème, dans le sens où les conditions de premier ordre prennent la même forme. Pour la suite, notons µ ≡ E [1 + R] = 1 + E [R] Σ ≡ Var [1 + R] = Var [R] . 4.2.1 Utilité quadratique On considère une fonction d’utilité de Bernoulli telle que U (x) = E [x] − a2 Var [x], avec a > 0. Ce paramètre s’interprète comme un taux marginal de substitution entre l’espérance, w′ µ, et la variance, w′ Σw, du rendement du portefeuille et variera d’un investisseur à l’autre, selon ses préférences. a w∗ = arg max w′ µ − w′ Σw − λ w′ 1 − 1 2 w dont une condition de premier ordre est µ − aΣw∗ − λ1 = 0. En faisant varier a, on peut obtenir tous les portefeuilles de la frontière efficiente. 4.2.2 Maximisation de l’espérance, variance fixée Supposons que les préférences d’un investisseur soient telles qu’il désire un portefeuille de variance τ . Le problème s’écrit alors 1 ′ ∗ ′ w Σw − τ − λ2 w′ 1 − 1 w = arg max w µ − λ1 2 w et l’une des conditions de premier ordre est µ − λ1 Σw∗ − λ2 1 = 0. Remarquons la similitude avec la condition de premier ordre du problème précédent. En particulier, elle ne dépend pas de τ . Ici, λ1 n’est pas un paramètre de la fonction d’utilité. Par contre, il s’interprète de la même manière, comme un taux marginal de substitution, défini implicitement par le niveau de variance τ choisi. En faisant varier τ , on peut obtenir tous les portefeuilles de la frontière efficiente. On appelle λ1 le prix ombre (shadow price) de la contrainte. 33 4.2.3 Minimisation de la variance, espérance fixée Supposons que les préférences d’un investisseur soient telles qu’il désire un portefeuille d’espérance τ . Le problème s’écrit alors 1 w∗ = arg max − w′ Σw − λ1 w′ µ − τ − λ2 w′ 1 − 1 2 w et l’une des conditions de premier ordre est Σw∗ − λ1 µ − λ2 1 = 0. Ici encore, la condition de premier ordre prend la même forme. Ici, λ1 s’interprète toujours comme un taux marginal de substitution, défini implicitement par le niveau d’espérance τ choisi. En faisant varier τ , on peut obtenir tous les portefeuilles de la frontière efficiente. La convention mathématique est d’utiliser cette dernière formulation, qui est la forme usuelle d’un problème de programmation quadratique, qu’on écrit génériquement w∗ = arg min w 1 ′ w Qw − w′ P 2 s.c. (4.2) Aw = b Cw ≥ d Remarquons que la contrainte Cw ≤ D est une contrainte d’inégalité. La solution d’un problème sujet à des contraintes d’inégalité est donné par les conditions de Kuhn-Tucker (voir annexe C.3). Le lagrangien du problème classique s’écrit w∗ = arg min w Les conditions de premier ordre sont 1 ′ w Σw − λ1 w′ µ − τ − λ2 w′ 1 − 1 . 2 Σw∗ − λ1 µ − λ2 1 = 0 (4.3) ∗′ w µ−τ = 0 w∗ ′ 1 − 1 = 0. De (4.3), on déduit w∗ = Σ−1 (λ1 µ + λ2 1) = λ1 Σ−1 µ + λ2 Σ−1 1, (4.4) qu’on pré-multiplie par 1′ . 1′ w∗ = 1 = λ1 1′ Σ−1 µ + λ2 1′ Σ−1 1 = λ1 a + λ2 b, 34 (4.5) où on a défini les scalaires a ≡ 1′ Σ−1 µ et b ≡ 1′ Σ−1 1. De manière similaire, on pré-multiplie (4.4) par µ′ . µ′ w ∗ = τ = λ1 µ′ Σ−1 µ + λ2 µ′ Σ−1 1 = λ1 c + λ2 a, (4.6) où on a défini le scalaire c ≡ µ′ Σ−1 µ. Si on multiplie (4.6) par a c et qu’on soustrait (4.5), on obtient a a τ − 1 = (λ1 c + λ2 a) − (λ1 a + λ2 b) c c a2 − b λ2 = c 1 a τ −1 λ2 = a2 c c −b aτ − c = 2 . a − bc De la même manière, on multiplie (4.5) par a b (4.7) et on soustrait (4.6) pour obtenir a a 1 − τ = (λ1 a + λ2 b) − (λ1 c + λ2 a) b b a2 − c λ1 = b 1 a 1−τ λ1 = a2 −c b b a − bτ = 2 . a − bc (4.8) Finalement, on substitue (4.7) et (4.8) dans (4.4) pour obtenir w∗ = a − bτ −1 aτ − c −1 Σ µ+ 2 Σ 1, 2 a − bc a − bc (4.9) qui est une fonction des paramètres du problème, soit µ, Σ et τ . 4.2.4 Portefeuilles efficients Trois propriétés de la frontières efficiente sont parfois utiles : 1. Une combinaison de portefeuilles efficients est un portefeuille efficient ; 2. On peut construire toute la frontière avec 2 portefeuilles efficients ; 3. Pour chaque portefeuille efficient, il existe un autre portefeuille efficient avec lequel il n’est pas corrélé. 35 Deux portefeuilles sont particulièrement utiles. Lorsqu’il y a un actif sans risque de rendement Rf , le portefeuille tangent est donné par wT (µ, Σ) = 1 Σ−1 (µ − Rf 1) . a − bRf (4.10) Le portefeuille tangent est le portefeuille efficient dont le ratio de Sharpe est le plus élevé. Le portefeuille de variance minimale globale est donné par 1 wV M G (Σ) = Σ−1 1. b (4.11) Remarquons qu’il ne dépend pas de µ. 4.3 Choix de portefeuille sous contrainte Dans cette section, on s’intéresse la formulation de différents problèmes pratiques. 4.3.1 Restrictions sur les ventes à découvert Certaines politiques d’investissement ne permettent pas les ventes à découvert. Mathématiquement, les poids des actifs doivent être positifs. Le problème s’écrit alors w∗ = arg min w 1 ′ w Σw 2 sous contrainte que µ′ w = τ 1′ w = 1 w ≥ 0. Les paramètres du problème (4.2) sont donc ′ µ A= ′ 1 τ b= 1 C=I d = 0. 36 4.3.2 Portefeuilles auto-financés On portefeuille auto-financé est un portefeuille dont la valeur initiale est nulle. Mathématiquement, la somme des “poids” des actifs doit être nulle. Le problème s’écrit alors w∗ = arg min w 1 ′ w Σw 2 sous contrainte que µ′ w = τ 1′ w = 0. Les paramètres du problème (4.2) sont donc ′ µ A= ′ 1 τ b= . 0 4.3.3 Portefeuilles diversifiés Il arrive que la solution d’un des problèmes considérés jusqu’ici implique qu’une proportion importante du portefeuille soit investie dans un seul actif, ce qui ne semble pas souhaitable 3 . Par ailleurs, certaines politiques d’investissement imposent explicitement des contraintes de diversification. Mathématiquement, ces contraintes prennent la forme de bornes supérieures sur les poids. Lorsque les ventes à découvert sont permises, on impose aussi une borne (inférieure) sur les poids négatifs. Le problème s’écrit alors w∗ = arg min w 1 ′ w Σw 2 sous contrainte que µ′ w = τ 1′ w = 1 w ≤ wsup w ≥ winf . 3. On verra comment ce problème est lié à celui de l’estimation de l’espérance et de la variance des rendements. 37 Les paramètres du problème (4.2) sont donc ′ µ 1′ τ b= 1 −I C= I −wsup 1 d= . winf 1 A= 4.3.4 Illustration Illustrons l’influence des différentes modifications au problème initial. J’utilise les rendements de dix secteurs industriels construits par Kenneth French (données disponibles ici). Il s’agit de rendements mensuels entre juillet 1926 et décembre 2013 (1050 observations). Je fais comme si ces rendements étaient des rendements excédentaires, par paresse... −3 Frontière efficient x 10 16 Actifs/Secteurs MV MV, sans v−à−d. MV, [−0.1, 0.4] 4 actifs CRRA −1 CRRA −2 CRRA −3 14 espérance 12 10 8 6 4 2 0 0.01 0.02 0.03 0.04 0.05 écart−type 0.06 0.07 0.08 On constate qu’imposer des contraintes sur les poids influence beaucoup la frontière. 38 0.09 Le graphique illustre aussi qu’on peut obtenir une frontière presqu’aussi bonne que celle du modèle sans contrainte en ne considérant que 4 des 10 actifs. Cette frontière est obtenue de manière itérative. Je commence par trouver le portefeuille de variance minimale avec 10 actifs, puis j’exclus l’actif dont le poids (absolu) est le plus faible. Je trouve alors le portefeuille de variance minimale avec ces 9 actifs, puis j’exclus l’actif dont le poids est le plus faible. Et ainsi de suite, jusqu’à ce que j’obtienne un portefeuille de 4 actifs. Pour montrer que l’approche approxime bien d’autres fonctions d’utilité, je présente aussi les frontières efficientes correspondant à une fonction CRRA avec différents coefficient d’aversion au risque relatif. On ne peut voir la différence que pour des niveaux de risque très élévés. Ce résultat n’est pas général et est lié à la distribution des rendements : on s’attend à aucune différence si les rendements sont normaux, par exemple. 4.3.5 Gestion indicielle Plusieurs politiques d’investissement spécifient un indice de référence. On s’intéresse alors naturellement à l’écart entre le rendement du portefeuille et celui de l’indice. Si on note b le poids des titres dans l’indice, le problème s’écrit 1 (w − b)′ Σ (w − b) 2 w 1 1 = arg min w′ Σw − w′ Σb + b′ Σb 2 2 w 1 ′ = arg min w Σw − w′ Σb 2 w w∗ = arg min sous contrainte que µ′ (w − b) = τ 1′ w = 1. où τ est la cible de sur-performance. Les paramètres du problème (4.2) sont donc ′ µ A= ′ 1 τ + µ′ b b= . 1 4.3.6 Frais de rebalancement Il est rare qu’on construise un portefeuille à partir de zéro : on considère généralement des modifications d’un portefeuille existant. De plus, on voudra tenir compte des frais de transactions. Si on note w0 , le portefeuille initial ; a ≥ 0, le vecteur d’achats ; v ≥ 0, le vecteur de ventes ; ca et cv , les frais d’achat et de vente, en pourcentage ; 39 le problème s’écrit (w∗ , a∗ , v∗ ) = arg min w,a,v 1 ′ w Σw 2 sous contrainte que ′ ′ w − a + v = w0 µ w − ca a − cv v = τ (contrainte sur les positions) (rendement net) ′ −1 a (1 + ca ) + 1 v (1 − cv ) = 0 (contrainte sur l’encaisse) a≥0 v ≥ 0. Les paramètres du problème (4.2) sont donc Σ 0 0 Q = 0 0 0 0 0 0 I −I I −ca 1′ −cv 1′ A = µ′ 0′ − (1 + ca ) 1′ (1 − cv ) 1′ w0 b= τ 0 0 I 0 C= 0 0 I 0 d= . 0 4.4 Approche moyenne-risque Nous avons déjà remarqué que la variance n’était que mesure de risque parmi d’autres, et pas nécessairement la meilleure. Quelles sont les conséquences de l’utilisation d’une autre mesure de risque dans les problèmes de choix de portefeuilles considérés dans cette section ? D’abord, dans plusieurs cas, le problème n’a plus la forme (4.2), ce qui implique de la solution doit être obtenue numériquement. Ensuite, il importe de réfléchir aux préférences implicites au choix de la mesure de risque. En particulier, l’utilisation d’un moment partiel inférieur (dont la semi-variance) implique que l’investisseur est neutre au risque au-dessus de la cible de rendement. Un moment partiel inférieur d’un portefeuille n’est calculable que si le portefeuille est connu. On peut approximer un moment partiel d’un portefeuille en considérant les moments partiels inférieurs des actifs considérés (Voir Cumova and Nawrocki (2014) et les références citées). 40 5 Évaluation d’une stratégie 5.1 Applicabilité pratique Nous avons déjà mentionné qu’une hypothèse centrale au problème de choix de portefeuille tel que considéré jusqu’ici est que les paramètres de la distribution des rendements, µ et Σ, sont supposés connus. Ce n’est évidemment pas le cas et on doit plutôt les estimer, ce qui implique la frontière efficiente est une variable aléatoire (puisqu’elle est une fonction de variables aléatoires, les estimateurs de µ et Σ). Pour tenter de quantifier l’influence de l’estimation des paramètres, Jobson and Korkie (1980, 1981) ont présenté une analyse par simulation simple, dont je reprends ici l’esprit. 5.1.1 Évaluation d’une stratégie Définissions d’abord ce qu’on entend par stratégie. Dans ces notes, une stratégie est une procédure pour construire un portefeuille. L’approche moyenne variance décrite dans ce chapitre n’est donc pas une stratégie, pour deux raisons : 1. elle spécifie une frontière efficient complète plutôt qu’un portefeuille unique ; 2. cette frontière est fonction de paramètres, µ et σ, qui ne sont pas connus. Un exemple de stratégie reposant sur l’approche moyenne variance est : 1. investir 100% de l’avoir dans le portefeuille tangent pendant un mois ; 2. estimer µ et σ par la moyenne et la covariance échantillonale des rendements excédentaires ; mensuels en utilisant les 120 derniers mois observés ; 3. utiliser le rendement des bons du Trésor à 30 jours comme rendement sans risque. Supposons qu’on ait une stratégie et qu’on veuille évaluer si il s’agit d’une bonne stratégie. On doit évidemment définir ce qu’on entend par bonne. Dans un cadre moyenne-variance, le ratio de Sharpe est une mesure naturelle, puisque qu’elle mesure le rendement attendu du portefeuille par unité de risque. On doit aussi remarqué que cette évaluation ne peut être que relative : il n’y a pas de bonnes stratégies en absolu, il n’y a que des stratégies supérieures à d’autres. En d’autres termes, on considère une ensemble de stratégies (parfois seulement deux) et on tente d’identifier, si elle existe, la meilleure stratégies dans cet ensemble. Supposons donc que nous avons deux stratégies et qu’on tente d’identifier la meilleure des deux. Comment peut-on procéder ? Une approche naïve serait de mesurer le rendement qu’aurait généré ces stratégies si on les avaient mise en oeuvre dans le passé 4 . On pourrait alors mesurer le rendement moyen et l’écart-type du rendement de chaque stratégie, puis calculer son ratio de Sharpe. On vérifierait si le ratio de Sharpe d’une stratégie est significativement supérieur à celui de l’autre. Il s’agit donc de faire un test statistique. Les résultats d’un tel test ne sont valides que si la distribution des rendements est stable dans le temps. Autrement dit, il faut que la distribution des rendements sur la période ayant servie à estimer la moyenne et l’écart-type du rendement des stratégies soit la même que sur la période où la stratégies serait mise en oeuvre. Dans le cas contraire, tout ce qu’un tel test nous permettrait d’affirmer c’est que, par exemple, la stratégie A aurait été préférable à la stratégie B si on l’avait mise en oeuvre entre 2001 et 2012. 4. On tiendrait alors idéalement compte des frais de transactions. 41 Évaluer la performance d’une stratégie est un exercice difficile. Tous les tests statistiques reposent sur des hypothèses. Il est essentiel de bien comprendre ces dernières pour bien interpréter les résultats des tests. 5.1.2 Influence de l’estimation des paramètres sur la performance des portefeuilles On cherche à quantifier l’importance de l’estimation des paramètres (µ et Σ) sur la frontière efficiente. Comme cette frontière contient une infinité de portefeuilles, il est utile de se concentrer sur quelques portefeuilles seulement. Puisque deux portefeuilles permettent de construire toute la frontière, on peut se concentrer sur deux portefeuilles bien choisis. Le portefeuille tangent et le portefeuille de variance minimale globale sont des candidats naturels. Quantifier l’importance de l’estimation des paramètres nécessite qu’on choisisse une mesure. Nous utiliserons le ratio de Sharpe, qui nous donne une mesure d’espérance de rendement ajustée pour le risque. Le ratio de Sharpe d’un portefeuille w est donnée par w′ (µ − Rf 1) . Sh w′ R = √ w′ Σw Considérons d’abord le portefeuille tangent, donné par (4.10). Si on connaissait µ et Σ, on pourrait construire le portefeuille wT(µ, Σ) dont le ratio de Sharpe est wT(µ, Σ)′ (µ − Rf 1) q . Sh w (µ, Σ) R = wT(µ, Σ)′ ΣwT(µ, Σ) T ′ Si on a dû estimer les paramètres par µ̂ ≡ T 1 X Rt N (5.1) t=1 et T Σ̂ ≡ 1 X (Rt − µ̂) (Rt − µ̂)′ , N −1 t=1 on a dû alors construire le portefeuille wT µ̂, Σ̂ dont le ratio de Sharpe est ′ ′ wT µ̂, Σ̂ (µ − Rf 1) Sh wT µ̂, Σ̂ R = r ′ . wT µ̂, Σ̂ ΣwT µ̂, Σ̂ Définissons la statistique tT comme la différence entre ces ratios : ′ T T t = Sh w µ̂, Σ̂ R − Sh wT(µ, Σ)′ R . On définit la statistique tV M G de manière analogue à l’aide de (4.11). 42 (5.2) Si tT est significativement inférieure à zéro, c’est que le ratio de Sharpe du portefeuille construit à l’aide des paramètres estimés est significativement inférieur au ratio de Sharpe du portefeuille qu’on aurait pu construire si on avait connu la vraie valeur des paramètres. Si c’est le cas, c’est que l’estimation des paramètres influence le ratio de Sharpe du portefeuille et il importe alors d’estimer ces paramètres avec le plus de précision possible. Si tT n’est pas significativement inférieure à zéro, l’estimation des paramètres n’a pas d’incidence sur le ratio de Sharpe du portefeuille et nous n’avons à nous soucier de la précision de cette estimation. Pour évaluer si tT est significativement inférieure à zéro, nous devons calculer sa distribution. La forme de cette distribution est complexe, mais il est relativement simple de l’approximer par simulations. On procède de la manière suivante. On se met dans des conditions idéales : les rendements sont normaux. Si l’estimation des paramètres influence le ratio de Sharpe du portefeuille lorsque les rendements sont normaux, on peut s’attendre à ce qu’elle influence aussi ce ratio lorsque les rendements ne sont pas normaux. On fixe µ et Σ et on considère que ce sont les vrais valeurs des paramètres. Tous les résultats obtenus dépendront donc potentiellement du choix de µ et Σ, mais on peut refaire l’expérience avec différentes valeurs pour évaluer la sensibilité des résultats à ce choix. Pour bien interpréter les résultats de notre test, rappelons explicitement les hypothèses : – On observe le rendement de N actifs pendant T périodes ; – Les rendements des actifs sont indépendants dans le temps ; – Les rendements des actifs pour une période donnée sont normalement distribués de moyenne µ et de covariance Σ et ces paramètres sont fixés à certaines valeurs choisies. On simule M échantillons de rendements de cette distribution. Pour chaque échantillon m = 1, . . . , M , 1. on estime la moyenne et la variance des rendements, µ̂m et Σ̂m ; 2. on calcule le portefeuille tangent wT µ̂m , Σ̂m et le portefeuille de variance minimale globale wV M G Σ̂m ; 3. on calcules les statistiques tT,m et tV M G,m . On obtient alors une approximation de la distribution des statistiques tT et tV M G . La figure suivante présente cette approximation (paramètres correspondant à la moyenne et la variance des 10 secteurs industriels, 1050 observations, M = 10 000). 43 Distribution des statistique tT et tVMG 4500 4000 Ptf tangent, tT Ptf variance minimale globale, tVMG 3500 3000 2500 2000 1500 1000 500 0 −0.2 −0.15 −0.1 −0.05 0 0.05 0.1 0.15 On remarque que tT est significativement inférieure à zéro, ce qui suggère que l’estimation des paramètres réduit significativement la performance du portefeuille tangent. Par contre, tV M G n’est pas significativement inférieure à zéro. L’estimation des paramètres ne semble donc pas avoir d’incidence sur la performance du portefeuille de variance minimale globale. De plus, puisque le portefeuille tangent dépend de µ et Σ alors que le portefeuille de variance minimale globale ne dépend que de Σ, ces résultats suggèrent que l’estimation de µ a plus d’influence sur la performance que l’estimation de µ. Insistons sur le fait que ces résultats ne sont pas généraux : ils ont été obtenus pour certaines valeurs de µ et Σ. ′ T Une autre manière de présenter l’information consiste à présenter la distribution des ratios Sh w µ̂, Σ̂ R ′ V M G µ̂, Σ̂ R . et Sh w 44 Distribution du ratio de Sharpe 4000 Ptf tangent, vraie valeur = 0.2632 Ptf variance minimale globale, vraie valeur = 0.2519 3500 3000 2500 2000 1500 1000 500 0 0.19 0.2 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 On remarque que le portefeuille de variance minimale globale a généralement un meilleur ratio de Sharpe que le portefeuille tangent. Ce résultat suggère que l’estimation de µ influence suffisamment la performance du portefeuille tangent pour qu’elle soit inférieure à la performance du portefeuille de variance minimale globale. Les prochaines sections aborderont ce problème et différentes solutions. Les solutions dépendent de la nature de l’échantillon utilisé pour estimer des paramètres. Nous ferons la distinction, grossière, entre les deux problèmes suivants : 1. Allocation d’actif On pense à l’allocation du portefeuille d’une institution en quelques grandes classes d’actifs : actions canadiennes, actions américaines, obligations gouvernementales, obligations corporatives, devises, matières premières, etc. Le nombre d’actifs est relativement petit et l’horizon est souvent long : rendements trimestriels, plusieurs décennies (par exemple). 2. Choix de titres On considère plutôt le choix des titres à inclure dans un portefeuille à l’intérieur d’une classe d’actifs. Il peut y avoir plusieurs milliers d’actifs disponibles dans certains cas. L’horizon est souvent relativement court : rendements quotidiens, pendant quelques années (par exemple). Grossièrement, (1) la précision de l’estimation des rendements espérés dépend de l’horizon (idéalement plusieurs décennies) alors que la précision de la covariance dépend de la fréquence d’observation (idéalement quotidienne). De plus, (2) alors qu’il n’y a qu’un rendement espéré à calculer pour chaque actif, la matrice de covariance de N actifs contient N (N + 1) /2 éléments. Pour 100 actifs, il y a donc 5050 covariances à estimer. Finalement, (3) la normalité des rendements dépend de la fréquence d’observation. 45 6 Modèles d’évaluation d’actif 6.1 Introduction Ce chapitre présente une courte introduction aux modèles d’évaluation d’actifs. Ces modèles existent sous différentes formes, selon les hypothèses qu’on formule. Nous ne présentons qu’une seule forme de chaque modèle, qui repose notamment sur l’hypothèse qu’il existe un actif sans risque que l’on peut acheter ou vendre sans restriction. Puisque le modèle d’évaluation par arbitrage repose sur la notion de portefeuille diversifié, nous présentons aussi ce concept important. 6.2 Modèle d’évaluation d’actifs financiers Le modèle d’évaluation d’actif financier (MÉDAF) est étroitement lié au problème de choix de portefeuille dans un cadre moyenne variance. Il nécessite notamment qu’on fasse l’hypothèse que les rendements sont normalement distribués ou que les investisseurs ont des préférences représentables par une fonction d’utilité quadratique. Comme nous l’avons vu, dans ces conditions, il est optimal de détenir une portion de son avoir dans l’actif sans risque et une portion dans le portefeuille tangent. Jusqu’ici, rien de neuf. L’argument central du MÉDAF est le suivant : si tous les investisseurs détiennent le portefeuille tangent, alors l’ensemble de leurs investissements constitue nécessairement le portefeuille tangent. Le MÉDAF est donc essentiellement un modèle qui permet d’identifier le portefeuille tangent : c’est le portefeuille constitué des investissements de l’ensemble des investisseurs. La définition d’investissement doit être comprise au sens large, incluant notamment les investissements immobiliers, en infrastructure (routes, ponts, écoles) et en capital humain (recherche, éducation). Le rendement de ce portefeuille étant impossible à mesurer, on l’approxime en souvent par le rendement d’un indice largement diversifié. 6.3 Diversification Supposons que le rendement d’un actif i est une fonction affine de facteurs de risque commun et d’un facteur idiosyncrasique, soit Ri = αi + βi1 f1 + . . . + βiK fK + ei = αi + βi′ f + ei , (6.1) où fK×1 est un vecteur de K facteurs expliquant la covariance entre toutes les paires (i, j) d’actifs, de sorte que la matrice Ω = Cov [e] soit diagonale, et βi est un vecteur de dimension K ×1. Remarquons d’abord que le rendement d’un portefeuille est aussi une fonction affine de ces facteurs de risques, 46 puisque w′ R = w′ α + β ′ f + e = w′ α + w′ β ′ f + w′ e = α̃ + β̃ ′ f + ẽ. Puisque les facteurs de risque communs ne sont pas corrélés aux facteurs idiosyncrasiques, la variance du rendement du portefeuille est donnée par h i Var w′ R = Var β̃ ′ f + Var [ẽ] . On s’intéresse à la variance de ẽ pour des portefeuilles de grande taille. Pour simplifier l’analyse, considérons un portefeuille équipondéré de N actifs, soit w′ = [1/N . . . 1/N ] . Pour ce portefeuille, on a # "N X 1 ei Var [ẽ] = Var N i=1 "N # X 1 ei = 2 Var N (les facteurs idiosyncrasiques ne sont pas corrélés) i=1 1 N Var [ei ] N2 σ2 = e. N = (les facteurs idiosyncrasiques ont la même variance) Sous ces conditions (qui peuvent être affaiblies), la variance de la composante idiosyncratique tend vers zéro lorsque le nombre d’actifs dans le portefeuille devient grand. C’est l’essence de la diversification : la construction d’un grand portefeuille permet d’éliminer la composante idiosyncrasique, de sorte qu’il ne reste que le risque systémique. 6.4 Modèle d’évaluation par arbitrage Le modèle d’évaluation par arbitrage proposé par Ross (1976) postule que le rendement d’un actif i est une fonction affine de facteurs de risque commun et d’un facteur idiosyncrasique tel que décrit par l’équation (6.1). Lorsque c’est le cas, le rendement d’un portefeuille diversifié (assez grand pour que la variance des facteurs idiosyncrasiques soit négligeable) i est donné par Ri = αi + βi′ f . Pour illustrer le résultat central du modèle, considérons un seul facteur et construisons un portefeuille de deux portefeuilles diversifiés, i et j, tels que l’exposition au facteur est nulle, c’est à dire tel que wβi + (1 − w) βj = 0, 47 β j soit w = βj −β . Puisque ce portefeuille ne dépend pas du facteur de risque commun, son rendement doit être i égale au rendement de l’actif sans risque, βj βi αi − αj = Rf βj − βi βj − βi βj βi Rf − Rf βj − βi βj − βi βi βj (αi − Rf ) = (αj − Rf ) βj − βi βj − βi αi − Rf αj − Rf = βi βj = = λ, (une constante) αi = Rf + βi λ. Dans le cas contraire, il y aurait opportunité d’arbitrage. Cette dernière relation doit être vérifiée par tous les actifs (puisque la valeur d’un portefeuille est égale à la somme de la valeur des actifs qu’il contient), dont le facteur. Puisque le rendement du facteur est donnée par f = αf + βf f = 0 + 1f, on a αi − Rf 0 − Rf = , βi 1 αi = Rf (1 − βi ) ce qui implique que E [Ri − Rf ] = E [f − Rf ] βi . Ce résultat ce généralise aux modèles avec plusieurs facteurs. Ainsi, lorsqu’il existe un actif sans risque et que le modèle factoriel décrit toutes les sources de risque systémique (facteurs communs), l’espérance de rendement excédentaire doit être proportionnelle à l’espérance de rendement excédentaire des facteurs. 48 7 Modèles factoriels 7.1 Introduction Une manière de tenir compte de la problématique entourant l’estimation des paramètres entrant dans la formulation du problème de choix de portefeuille consiste à postuler un modèle paramétrique pour le rendement des actifs de manière à réduire le nombre de paramètres à estimer. Dans ce chapitre, nous considérons plusieurs modèles factoriels qui permettent une telle réduction du nombre de paramètres à estimer. Un modèle factoriel (ou modèle à facteurs) postule une relation, souvent linéaire, entre le rendement des actifs et une (ou plusieurs) variables, appelées facteurs. On postule, par exemple, que le rendement d’un actif i satisfait Ri = αi + f1 βi1 + . . . + fK βiK + ei = αi + βi′ f + ei , (7.1) où f1×K est un vecteur de K facteurs expliquant la covariance entre toutes les paires (i, j) d’actifs, de sorte que Cov [Ri , Rj ] = βi′ Cov [f ] βi = βi′ Σf βi pour tout i 6= j. Autrement dit, la matrice Ω = Cov [e] est diagonale. Pour cette raison, on appelle parfois ce modèle le modèle diagonal. La matrice βK×N est la matrice des sensibilités, ou expositions, des actifs aux facteurs. La nature des facteurs définit une classe de modèles, telles que nous les présenterons dans ce chapitre. Voyons comment ces modèles permettent de réduire le nombre de paramètres à estimer. La matrice de covariance d’un vecteur de N rendements compte généralement N (N + 1) /2 élément distincts, alors que l’espérance en compte N , pour un total de N (N + 3) /2 élément distincts. Si N = 100, on doit donc estimer 5150 paramètres. Par contre, si les rendements satisfont (7.1) et que f est un scalaire (un seul facteur), on a ′ E [R1×N ] = α1×N + βN×1 E [f1×1 ] = α + β ′ µf Cov [R] = β ′ Var[f β + Cov [e] = β ′ σf2 β + ΩN×N . Puisque α, β et Ω comptent chacun N paramètres et que µf et σf2 sont des scalaires, ce modèle ne requière l’estimation que de 3N + 2 = 302 paramètres. Dans le cas multi-factoriel, la dernière équation est plutôt ′ Cov [R] = βN×K Σf β + Ω. Avec K facteurs, µf compte K paramètres et Σf en compte K(K + 1)/2. 49 Remarquons que (7.1) ne fait aucune référence au temps. Autrement dit, tous les éléments peuvent varier dans le temps, Ri,t = αi,t + ft βi,t + ei,t . Non seulement les facteurs évoluent dans le temps, mais les entreprises (leurs caractéristiques) aussi. Sans vouloir entrer dans les détails (encore une fois, nous ne nous intéressons pas à l’évaluation des actifs dans ce cours), un résultat de la théorie de l’évaluation par arbitrage est que la constante doit être commune à tous les actifs, soit Ri,t = αt + ft βi,t + ei,t . De plus, s’il existe un actif sans risque, on a le cas particulier Ri,t − Rf,t = (ft − Rf,t ) βi,t + ei,t ce qui peut être écrit Ri,t = Rf,t + ft βi,t − Rf,t βi,t + ei,t = (Rf,t − Rf,t βi,t ) + ft βi,t + ei,t . Une dernière remarque : l’échelle des facteurs n’a aucune importance. En effet, le modèle reste essentiellement le même lorsque la sensibilité au facteur est ajustée en conséquence : Ri,t = αt + ft βi,t + ei,t ft = αt + (2βi,t ) + ei,t 2 = αt + f̃t β̃i,t + ei,t . Cette propriété est utile pour faciliter l’interprétation des facteurs et des sensibilités. Nous verrons des exemples. Si le modèle inclut une constante, la moyenne des facteurs n’a pas d’importance non plus. Cette propriété des modèles factoriels permet aussi de normaliser les facteurs pour les rendre plus facilement interprétables. La suite de ce chapitre présente différentes classes de modèles. Le premiers sont des modèles où les facteurs sont des variables observés et dont les paramètres sont estimables par régression linéaire. Les seconds sont des modèles où les facteurs ne sont pas observés, mais sont plutôt extraits, statistiquement, des rendements. 7.2 Facteur observés Lorsque les facteurs sont des quantités observables, les paramètres du modèles peuvent être estimés par moindres carrés. Pour fins de présentation, on distingue le cas où les facteurs sont des actifs financiers (ou des portefeuilles d’actifs financiers) du cas contraire. De manière générale, lorsque les facteurs sont observés, on peut estimer les paramètres du modèle factoriel (7.1), soit αi , βi et Ωi par moindres carrés ordinaires, pour chaque actif. Notons que βi est une matrice de dimension K par 1. Ces N régressions linéaires permettent d’obtenir le vecteur α̂ ≡ [α̂1 , . . . , α̂i , . . . , α̂N ]′ , 50 (7.2) (7.3) et les matrices i′ h ′ β̂K×N ≡ β̂1′ , . . . , β̂i′ , . . . , β̂N , et Ω̂ ≡ Ω̂1 0 .. . .. . 0 0 .. . .. . ··· ··· .. . ··· Ω̂i .. . ··· .. .. . . 0 0 .. . .. . (7.4) . 0 Ω̂N (7.5) L’espérance du facteur est estimée par f¯ (équation (2.7)) et sa variance par s2f (équation (2.8)). L’espérance des rendements est alors estimée par α̂ + β̂ ′ f¯ (7.6) β̂ ′ s2f β̂ + Ω̂. (7.7) et leur covariance par 7.2.1 Facteurs négociables On parle de facteurs négociables lorsque les facteurs sont des actifs (ou des portefeuilles) qui peuvent être achetés et vendus sur les marchés. Le modèle d’évaluation d’actifs financiers (MÉDAF), lorsque le portefeuille de marché est représenté par un indice boursier, est l’exemple le plus simple et le plus connu. Selon ce modèle, l’espérance de rendement excédentaire d’un actif est proportionnel au rendement excédentaire du portefeuille de marché, une notion abstraite de l’ensemble des investissements de l’ensemble des individus. Il devrait, par exemple, inclure les investissements en capital humain. En pratique, on approxime le portefeuille de marché par un indice boursier diversifié. Si Rm désigne le rendement d’un tel indice, le MÉDAF postule que l’espérance de rendement d’un actif n satisfait E [Rn − Rf ] = βn E [Rm − Rf ] , ce qui implique que Rn − Rf = βn (Rm − Rf ) + en avec E [e| Rm − Rf ] = 0 et Cov [en , em ] = 0 pour n 6= m. On dit que βn est le béta du titre, ou sa sensibilité au risque de marché, et que E [Rm − Rf ] est la prime de risque de marché. Comme son nom l’indique, ce modèle est un modèle d’évaluation d’actifs. Nous ne nous s’intéresserons pas à sa validité empirique. Remarquons cependant que si l’unique source commune de risque est le rendement excédentaire du portefeuille de marché, alors la constante αn dans la régression linéaire Rn − Rf = αn + βn (Rm − Rf ) + en ne devrait pas être significativement différente de zéro, pour aucun actif. 51 Cette dernière remarque se généralise au cas multivarié : si un vecteur de rendements excédentaires est l’unique source commune de risque, alors la constante devrait être zéro. Remarquons aussi au passage que le rendement d’un portefeuille auto-financé (i.e. de valeur initiale nulle) peut être considéré directement comme un rendement excédentaire. Influence de l’utilisation d’un modèle factoriel sur la performance des portefeuilles Reprenons l’exercice de simulation réalisé à la section 5.1 pour tenter de quantifier l’utilité potentielle des modèles factoriels pour augmenter la précision de l’estimation des paramètres et éventuellement la performance du portefeuille construit. Considérons d’abord un modèle à un facteur, tel que celui présenté par l’équation (7.1). En fonction des paramètres de ce modèle, l’espérance est estimée par α̂ + β̂ ′ f¯ et la covariance est estimée par β̂ ′ β̂s2f + Ω̂. On tente de répondre à la question suivante : Si les rendements sont effectivement caractérisés par un modèle à un facteur, est-ce l’utilisation de ce modèle pour estimer l’espérance et la covariance des rendements des actifs permet de construire des portefeuilles dont le ratio de Sharpe est significativement supérieur aux portefeuilles qu’on aurait construits en utilisant la moyenne et la covariance échantillonale des rendements ? Pour répondre à cette question, considère la statistique ′ ′ T T T ′¯ ′ 2 t = Sh w µ̂, Σ̂ R − Sh w α̂ + β̂ f , β̂ sf β̂ + Ω̂ R , pour le portefeuille tangent et une statistique tV M G définie de manière similaire pour le portefeuille de variance minimale globale. Si cette statistique est significativement inférieure à zéro, c’est que le ratio de Sharpe d’un portefeuille obtenu à l’aide du modèle factoriel est significativement supérieur au ratio de Sharpe d’un portefeuille obtenu sans l’aide du modèle factoriel. Pour approximer la distribution de ces statistiques, on choisit d’abord des valeurs µf , σf2 , α, β et Ω. Ici encore, les résultats qu’on obtiendra dépendront nécessairement des valeurs choisies et on pourra reprendre l’exercice avec différentes valeurs. On veut générer M valeurs de la statistique tT . Pour générer une valeur, on procède de la manière suivante : 1. on génère un échantillon du facteur f qui suit une loi normale d’espérance µf et de variance σf2 2. on génère un échantillon de rendements R qui suit une loi normale d’espérance α + f β et de variance Ω 3. on estime la moyenne f¯ et la variance s2 du facteur f 4. on estime la régression R = α + f β + u pour obtenir α̂, β̂ et Ω̂. 5. on calcule le portefeuille tangent obtenu à l’aide du modèle factoriel, wT α̂ + β̂ ′ f¯f , β̂ ′ s2f β̂ + Ω̂ 6. on estime la moyenne µ̂ et la covariance Σ̂ des rendements 7. on calcule le portefeuille tangent obtenu sans le modèle factoriel, wT µ̂, Σ̂ La figure suivante présente cette approximation pour la statistique tT (paramètres correspondant à l’estimation d’un modèle à un facteur pour nos 10 secteurs industriels où le facteur est l’indice S&P500, 1050 observations, M = 5 000). 52 Distribution du ratio de Sharpe: MV−1F − Ptf tangent 400 350 Ptf MV, vraie valeur = 0.3275 300 250 200 150 100 50 0 −0.1 −0.08 −0.06 −0.04 −0.02 0 0.02 0.04 0.06 La statistique tT n’est pas significativement différente de zéro, ce qui suggère qu’utiliser un modèle factoriel n’apporte aucune amélioration du ratio de Sharpe du portefeuille tangent par rapport à une estimation classique de la moyenne et de la variance des rendements, même si les rendements sont effectivement caractérisés par un modèle à un facteur. La figure suivante présente une approximation de la distribution de tV M G . Distribution du ratio de Sharpe − Ptf VMG − MV−1F 400 Ptf MV, vraie valeur = 0.3167 350 300 250 200 150 100 50 0 −0.06 −0.05 −0.04 −0.03 −0.02 −0.01 0 0.01 0.02 La statistique tV M G n’est pas significativement différente de zéro. Un modèle à facteur n’améliore donc pas le ratio Sharpe du portefeuille de variance minimale globale. 53 Insistons sur le fait que ces résultats dépendent des valeurs des paramètres que nous avons choisies. Remarquons que la réduction du nombre de paramètres à estimer est d’autant plus grande que le nombre d’actif est grand, passant de N (N + 3) /2 à 3N + 2. Pour 10 actifs, la réduction est de 32/65 = 0, 49. Pour 100 actifs, la réduction est de 302/5150 = 0, 06. Si on reprend l’exercice précédent avec 49 secteurs (534 mois), on obtient les figure suivantes. Distribution du ratio de Sharpe: MV−1F − Ptf tangent 500 450 Ptf MV, vraie valeur = 0.4693 400 350 300 250 200 150 100 50 0 −0.4 −0.3 −0.2 −0.1 0 0.1 Distribution du ratio de Sharpe − Ptf VMG − MV−1F 300 Ptf MV, vraie valeur = 0.3945 250 200 150 100 50 0 −0.2 −0.15 −0.1 −0.05 0 0.05 L’augmentation du ratio de Sharpe apportée par l’utilisation du modèle factoriel est alors évidente, tant pour le 54 portefeuille tangent que le portefeuille de variance minimale globale. Si on considérait un plus grand nombre d’actifs, l’augmentation du ratio de Sharpe serait encore plus importante. Influence de l’utilisation du MÉDAF sur la performance des portefeuilles Intéressons-nous maintenant au MÉDAF. C’est un cas particulier de modèle à un facteur pour lequel α = 0, comme conséquence des hypothèses sous-jacentes au modèle. Puisque cette condition réduit le nombre de paramètres spécifiant l’espérance des rendements, qui est alors donnée par f β, on peut s’attendre à ce qu’elle bénéficie davantage au portefeuille tangent (qui dépend de l’espérance des rendements) qu’au portefeuille de variance minimale globale (qui ne dépend pas de l’espérance des rendements). On peut modifier légèrement l’expérience précédente pour vérifier cette intuition : il suffit de fixer α = 0. Les figures suivantes présentent la distribution de tT et tV M G pour le cas de nos 10 secteurs : Distribution du ratio de Sharpe: MV−1F − Ptf tangent 900 800 700 600 500 400 300 200 100 0 −0.35 −0.3 −0.25 −0.2 −0.15 55 −0.1 −0.05 0 Distribution du ratio de Sharpe: MV−1F − Ptf VMG 300 250 200 150 100 50 0 −10 −8 −6 −4 −2 0 2 4 6 8 −3 x 10 On constate que l’amélioration du ratio de Sharpe est significative pour le portefeuille tangent, mais qu’elle n’est pas significative pour le portefeuille de variance minimale globale. Ceci est conforme à nos attentes. Rappelons que ce résultat n’est valide que si le MÉDAF est valide. Modèle à trois facteurs de Fama et French La validité empirique du MÉDAF a été sérieusement remise en question. Certaines de ces critiques ont mené à considérer des facteurs supplémentaires pour expliquer les rendements. Par exemple, Fama and French (1993) (voir Estrada (2010) pour une présentation simplifiée) proposent des facteurs correspondant à des portefeuilles auto-financés. 1. Long petites capitalisations, court grandes capitalisations (facteur SMB - Small Minus Big) 2. Long ratio valeur comptable/valeur au marché élevé, court ratio valeur comptable/valeur au marché faible (facteur HML - High Minus Low) Pour construire ces portefeuilles, les actifs sont ordonnés selon le critère pertinent (capitalisation, ratio valeur comptable/valeur au marché), puis on construit un portefeuille long avec les actifs du premier décile et un portefeuille court (où les actifs sont vendus à découvert) avec les actifs du dernier décile. Le modèle est alors R − Rf = βm (Rm − Rf ) + βSM B SM B + βHM L HM L + en . 7.2.2 Facteurs non négociables Caractéristiques des entreprises Dans ce cas, on identifie directement des sensibilités. Elles serviront à estimer des facteurs (voir Bender and Nielsen (2010)). Quelques exemples sont : 56 – secteurs industriels ou géographiques (variables binaires) – ratios financiers (historiques et prévisions des analystes), taille – rendements historiques (momentum), bénéfices historiques (croissance), volatilité (historique et implicite, rendements et bénéfices), volumes (liquidité) On regroupe parfois facteurs ayant une interprétation similaire. Procédure type : 1. Les caractéristiques sont considérées comme des sensibilités à des facteurs (non observés) 2. Chaque caractéristique est normalisée (exprimée en nombre d’écarts-types à la moyenne) 3. Pour chaque période, on estime les facteurs par régression linéaire (rendement sur caractéristiques) 4. Une fois ces facteurs connus (pour chaque période), on peut en estimer leur espérance (µ̂f ) et leur matrice de covariance (Σ̂f ). Illustrons cette procédure dans le cas d’une seule caractéristique, soit la capitalisation boursière de l’entreprise i à la période t, qu’on notera Ci,t . Supposons que la capitalisation moyenne des entreprises à la période t soit C −µ µC,t et que l’écart-type soit σC,t . On définit alors une nouvelle variable, ci,t ≡ i,tσC,tC,t . Pour chaque période, t = 1, . . . , T , on estime une régression linéaire Rt − Rf 1 = βt,0 1 + ct βt,c + u = [1 ct ] [βt,0 βt,c ]′ + u = Xt βt + u, où 1 est un vecteur de 1 de dimension N ×1, Rt ≡ [R1,t , . . . , Ri,t , . . . , RN,t ]′ , et ct ≡ [c1,t , . . . , ci,t , . . . , cN,t ]′ , Xt ≡ [1 ct ] . L’estimateur des MCO de βt est β̂t = (Xt′ Xt )−1 Xt′ (Rt − Rf 1). On obtient ainsi T valeurs de β̂t . Notons fc,t ≡ β̂t,c , soit le deuxième élément du vecteur β̂t . Remarquons que 1. fc,t a l’interprétation usuelle d’un coefficient dans une régression linéaire : il indique de combien le rendement espéré d’un actif varie avec la capitalisation boursière, à la période t. Autrement dit, étant donné la normalisation de la variable, l’espérance de rendement d’une entreprise dont la capitalisation est un écart-type supérieure à la capitalisation moyenne est de fc,t supérieure à l’espérance de rendement d’une entreprise de capitalisation moyenne. 2. fc,t est une combinaison linéaire des rendements, c’est à dire que fc,t = wt′ (Rt − Rf 1) où wt′ est la deuxième ligne de (Xt′ Xt )−1 Xt′ . C’est donc le rendement d’un certain portefeuille de rendements excédentaires. Une fois ces T facteurs estimés, on peut estimer les paramètres du modèle factoriel par moindres carrés ordinaires. Pour chaque titre i = 1, . . . , N , on estime la régression linéaire (le modèle factoriel) Ri − Rf = αi + fc βc,i + ui , 57 où Ri ≡ [Ri,1 , . . . , Ri,t , . . . , Ri,T ]′ , Rf ≡ [Rf,1 , . . . , Rf,t , . . . , Rf,T ]′ et fc ≡ [fc,1 , . . . , fc,t , . . . , fc,T ]′ , et où la variance de ui est Ωi . Ces N régressions linéaires permettent d’obtenir les vecteurs (7.2) et (7.4) et la matrice (7.5). Nous avons mentionné qu’on regroupe parfois facteurs ayant une interprétation similaire. Nous verrons plus tard dans ce chapitre comment certains outils statistiques peuvent permettre de construire de tels groupes. À ce momentci, présentons une approche simple 5 . Supposons, qu’en plus de la capitalisation boursière, ou veuille utiliser les ventes de l’entreprise comme mesure de sa taille. On aura alors défini une variable normalisée vi,t et on aura obtenu un facteur fv,t comme précédemment. On peut alors estimer, pour chaque titre i = 1, . . . , N , la régression linéaire (le modèle factoriel) Ri,t − Rf,t = αi + fc,t βc,i + fv,t βv,i + ui,t . On peut ensuite calculer β̄c,i = 1 N PN i=1 β̂c,i ft = et β̄v,i = 1 N PN i=1 β̂v,i , puis définir un nouveau facteur β̄c,i β̄v,i fc,t + fv,t . β̄c,i + β̄v,i β̄c,i + β̄v,i Ce facteur sera un moyenne pondérée des deux facteurs représentant la taille de l’entreprise et sera donc interprétable comme tel. Variables macroéconomiques Il s’agit ici d’identifier des facteurs macroéconomiques qui influencent les rendements des actifs. Quelques exemples : (voir Burmeister et al. (2003)) – taux d’intérêt (écart de terme) – inflation (non anticipée, par rapport à un modèle) – commodités (or, pétrole, etc.) – taux de change – production (non anticipée, par rapport à un modèle) – confiance (écart des obligations corporatives) – portefeuille de marché (orthogonalisé) On voudra souvent traiter ces facteurs pour qu’ils prennent la forme de portefeuilles, comme dans le cas des caractéristiques des entreprises. La difficulté supplémentaire est que les sensibilités ne sont pas observées et doivent être estimées. Procédure type (e.g. Chen et al. (1986)) : 1. Pour une certaine période d’observation (e.g. t = 1, . . . , 60 mois), estimer les sensibilités par régression linéaire. Ces sensibilités seront traitées comme les caractéristiques (maintenant observées) des entreprises. 2. Pour la période suivante (e.g. t = 61), procéder comme dans le cas des caractéristiques d’entreprises : on estime les facteurs par régression linéaire (rendements sur caractéristiques) 5. La suite de cette sous-section n’est pas centrale au cours. 58 3. Répéter les étapes 1 et 2 jusqu’à la fin de l’échantillon. Prenons un exemple concret, l’écart de terme, soit la différence entre le rendement des obligations à 10 ans et celles à 2 ans, par exemple. Notons cette différence par πt . En utilisant les 60 premiers mois d’observation, on estime d’abord les N régressions linéaires Ri − Rf = αi + πβi,60 + ui , où et Ri ≡ [Ri,1 , . . . , Ri,60 ]′ π ≡ [π1 , . . . , π60 ]′ . On obtient ainsi N valeurs β̂i,60 , i = 1, . . . , N . Ensuite, pour t = 61, on estime la régression R61 − Rf 1 = 1α + β̂60 β61,π + u, où R61 ≡ [R1,61 , . . . , Ri,61 , . . . , RN,61 ]′ i′ h et β̂60 ≡ β̂1,60 , . . . , β̂i,60 , . . . , β̂N,60 . L’estimateur des MCO de β61 dans cette dernière régression nous donne la valeur du facteur fπ,t en t = 61 : on fixe fπ,61 = β̂61 . On reprend ensuite l’estimation des N régressions linéaires en utilisant les mois d’observation 2 à 61, ce qui nous permettra d’estimer la régression pour t = 62 et obtenir la valeur du facteur en t = 62. On continue ainsi jusqu’à ce qu’on ait la valeur du facteur en t = T . On pourra finalement estimer, pour chaque titre i = 1, . . . , N , la régression linéaire (le modèle factoriel) Ri − Rf = αi + fπ βπ,i + ui , avec Ri ≡ [Ri,61 , . . . , RN,T ]′ et fπ ≡ [fπ,61 , . . . , fπ,T ]′ . 7.3 Facteur non observés On utilise l’expression non observés, ou latents, pour référer à des facteurs qui sont extraits, ou encore filtrés, à l’aide d’un algorithme statistique. C’est la procédure d’extraction qui définit les facteurs. On en verra deux, l’analyse par composantes principales et l’analyse factorielle. 59 7.3.1 Analyse par composantes principales Tout comme dans le cas des facteurs observés, les facteurs non observés sont des portefeuilles de rendements excédentaires. Pour un facteur k, on a donc fk = wk (R − Rf ) . L’analyse par composantes principales est un algorithme qui permet de choisir les vecteurs wk . Puisque l’échelle des facteurs n’a pas d’importance, on impose une contrainte sur ces portefeuilles. Plutôt que d’imposer wk′ 1 = 1 comme nous l’avons fait dans le contexte de choix de portefeuille, on impose wk′ wk = 1. L’approche consiste 6 en les étapes suivantes : 1. Pour k = 1, trouver le vecteur w1 qui maximise la variance de f1 , soit i h Var [f1 ] = Var w1 Σ̂R w1 , où Σ̂R est la matrice de covariance des rendements ; 2. Pour k = 2, trouver le vecteur w2 qui maximise la variance de f2 , soit i h Var [f2 ] = Var w2 Σ̂R w2 , de sorte que f1 et f2 ne soient pas corrélés, soit h i Cov [f1 , f2 ] = Var w1 Σ̂R w2 = 0; 3. Pour k = 3, trouver le vecteur w3 qui maximise la variance de f3 de sorte que f1 , f2 et f3 ne soient pas corrélés ; 4. ... Il existe des tests statistiques pour guider le choix de K, le nombre de facteur à utiliser. En pratique, simplement, on calcule le pourcentage de la somme des variances des rendements qui est expliquée par la somme des variances des facteurs, K P Var [fk ] k=1 γk = N . P Var [Ri ] i=1 7.3.2 Application : Structure à terme des taux d’intérêts On s’intéresse à la structure à terme des taux d’intérêt, soit la relation entre le taux d’intérêt zéro-coupon et l’échéance. Dans cet exemple, on observe 30 taux, correspondant aux échéances 1 an à 30 ans. On observe se vecteur de taux pendant 311 semaines. Par exemple, à la semaine 200, on observait : 6. Les procédures mises en oeuvre dans les logiciels statistiques procèdent de manière différente, mais plus efficace, pour arriver à la même solution. 60 0.07 0.06 taux zéro−coupon 0.05 0.04 0.03 0.02 0.01 0 0 5 10 15 échéance 20 25 30 Pour un modèle à un facteur, on a γ1 = 0.8656. Avec deux facteurs, on a γ2 = 0.9901. Avec trois, γ3 = 0.9981. Trois facteurs semblent amplement suffisants. La figure suivante présente les vecteurs de sensibilités estimées : 0.7 f 1 0.6 f 2 f 0.5 3 sensibilité 0.4 0.3 0.2 0.1 0 −0.1 −0.2 −0.3 0 5 10 15 échéance 61 20 25 30 7.3.3 Analyse factorielle L’analyse factorielle consiste en l’estimation, par la méthode du maximum de vraisemblance 7 , des paramètres d’un modèle factoriel de la forme RN×1 = αN×1 + βN×K fK×1 + eN×1 , où 1. e est un vecteur de variables aléatoires normalement distribuées d’espérance nulle est de covariance Cov [e] = D diagonale (les corrélations sont nulles) ; 2. f est un vecteur de variables aléatoires normalement distribuées d’espérance nulle est de covariance Cov [e] = I égale à une matrice identité (les variances sont égales à 1 et les corrélations sont nulles) ; 3. e et f ne sont pas corrélés. Sous ces conditions, la matrice de covariance des rendements est Σ = ββ ′ + D et l’espérance est donnée par µ = α. 7.4 Sommaire Les modèles factoriels permettent de réduire le nombre de paramètres à estimer en imposant une relation linéaire entre l’espérance des rendements et un petit nombre de variables, appelées facteurs. Dans tous les cas que nous avons considérés, ces facteurs sont des portefeuilles de rendements excédentaires. L’espérance de ces facteurs d’interprète alors comme une prime de risque. La réduction du nombre de paramètres, dans le cas général, ne bénéficie qu’à l’estimation de la covariance des rendements. Par exemple, lorsqu’il n’y a qu’un facteur, le nombre de paramètres à estimer passe de N (N + 1) /2 à 2N + 1. Cette réduction sera d’autant plus grande que N est grand. Pour améliorer l’estimation de l’espérance des rendements, on doit imposer des conditions pour assurer l’absence d’opportunités d’arbitrage. En effet, dans le modèle général avec un facteur, l’espérance compte N + 1 paramètres distincts. Si les facteurs sont choisis pour éliminer les opportunités d’arbitrage, l’espérance ne compte qu’un seul paramètre (s’il existe un actif sans risque) ou deux (s’il n’existe pas d’actif sans risque). Autrement dit, les modèles d’évaluation par absence d’opportunités d’arbitrage sont un cas particulier de modèles factoriels qui permettent de réduire le nombre de paramètres à estimer pour l’espérance des rendements. Puisque (1) le portefeuille tangent (en fait, tout portefeuille autre que le portefeuille de variance minimale globale) dépend de l’espérance et de la covariance des rendements et (2) c’est l’imprécision de l’estimation de l’espérance de rendements qui réduit la performance de ce portefeuille, les modèles factoriels généraux apportent peu de valeur ajoutée. Un modèle d’évaluation par absence d’arbitrage, par contre, si son utilisation est justifiée, permet de grandement améliorer la performance du portefeuille. 7. Brièvement, cette méthode consiste à trouver la valeur des paramètres qui maximisent la probabilité d’observer l’échantillon. Cette méthode est souvent utilisée, par exemple, pour estimer les paramètres d’un processus GARCH et d’un modèle probit. 62 Le portefeuille de variance minimale globale, quant à lui, ne dépendant que de la covariance des rendement, bénéficie de l’utilisation d’un modèle factoriel, peu importe qu’il s’agisse d’un modèle d’évaluation par absence d’arbitrage ou non. Tous les modèles que nous avons considérés utilisent des portefeuilles de rendements excédentaires comme facteurs. Seules les méthodes d’estimation diffèrent : 1. Facteurs négociables : indice du portefeuille de marché (MÉDAF : observé directement) ou portefeuilles auto-financés (à la Fama-French : construits à partir de déciles de l’échantillon) ; 2. Facteurs non négociables : caractéristiques d’entreprises et/ou variables macroéconomiques (séquences de régressions linéaires) ; 3. Facteur non observés : extraction statistique (analyse par composantes principales ou factorielle). Le choix de l’une ou l’autre de ces méthodes dépend de nombreux facteurs qu’il est difficile de résumer adéquatement ici. Remarquons cependant que : 1. L’interprétation des facteurs non observés n’est pas toujours aisée, sauf dans le cas de la structure à terme des taux d’intérêt. Si l’objectif est d’obtenir un modèle descriptif, l’extraction statistique de facteurs n’est souvent pas la meilleure approche. 2. L’extraction statistique de facteurs ne permet d’améliorer que l’estimation de la matrice de covariance des rendements. 3. De manière générale, en économétrie, si on sait qu’un facteur observé est pertinent dans un modèle, il est préférable l’utiliser directement que de l’extraire statistiquement (comme si on ne l’observait pas). Comme toujours en économétrie, imposer un modèle n’offre des avantages que lorsque ce modèle donne une description adéquate des données. Dans le cas contraire, l’utilisation du modèle ne peut mener qu’à de mauvaises décisions. La validité empirique d’un modèle factoriel devrait donc être évaluée statistiquement. La présentation des tests permettant cette évaluation sont hors de la portée de ce cours. 63 8 Estimateurs ajustés 8.1 Introduction Dans ce chapitre, on considère une famille d’estimateurs qui s’appuient sur la notion de shrinkage (réduction). L’origine de cette approche est attribuée à Stein (1955) et développée par James and Stein (1961). L’idée centrale est que, lorsqu’il y a plus de deux variables, la moyenne (µ̄) n’est pas le meilleur estimateur (en termes d’erreur quadratique) de l’espérance. Le meilleur estimateur est plutôt de la forme µ̂ = δµ0 + (1 − δ) µ̄, où µ0 est un vecteur à spécifier et δ (on reviendra sur sa valeur) est un scalaire entre 0 et 1. Il s’agit donc d’une moyenne pondérée de µ0 et de µ̄. Lorsque δ < 1, l’estimation est réduite (shrinked) vers µ0 . Il existe un estimateur similaire pour la matrice de covariance. Les sections suivantes présentent différentes mises en oeuvre de cette idée. 8.2 Estimateur James-Stein James and Stein (1961) ont montré que µ̂ = δ∗ µ0 1 + (1 − δ∗ ) µ̄, avec (N − 2) /T (µ̄ − µ0 )′ δ = min 1, (µ̄ − µ0 ) Σ−1 ∗ est optimal, pour un µ0 donné. Comment choisir µ0 ? C’est un peu arbitraire. On peut prendre 0. Jorion (1986) propose d’utiliser la moyenne des rendements moyens, ce qu’il appelle l’estimateur Bayes-Stein. 8.3 Estimateur Bayes-Stein Jorion (1986) propose d’utiliser la moyenne des rendements moyens, soit µ0 = N T 1 XX Ri,t . NT i=1 t=1 Il montre que le choix optimal de la pondération est alors δ∗ = (N + 2) (N + 2) + T (µ̄ − µ0 1) Σ−1 (µ̄ − µ0 1)′ et que la matrice de covariance des rendements est alors donnée par 1 λ Σ̂ = Σ 1 + + T +λ T (T + λ + 1) 1′ Σ−1 1 N +2 . où λ = (µ̄ − µ0 1) Σ−1 (µ̄ − µ0 1)′ 64 Ledoit and Wolf (2003) propose une approche similaire pour l’estimation de la matrice de covariance, soit une moyenne pondérée d’une matrice de covariance spécifiées (Σ0 ) et de la matrice de covariance estimée (S), Σ̂ = δ∗ Σ0 + (1 − δ∗ ) S, et propose une approximation de δ∗ . Un exemple de choix de Σ0 est une matrice diagonale dont les éléments sont ceux de S. 8.4 Choix de portefeuille sous contraintes Il a été observé dans la littérature que l’imposition de contraintes sur les ventes à découvert ou des contraintes de diversifications comme celles que nous avons présentées aux sections 4.3.1 et 4.3.3 permettaient d’améliorer la performance des portefeuilles. Ce résultat contre-intuitif, puisqu’on imagine mal que la solution d’un problème contraint puisse être supérieure à la solution du problème non contraint, est expliqué par Jagannathan and Ma (2003). Ces auteurs montrent que de telles contraintes, imposées fréquemment en pratique dans l’industrie, produisent implicitement des estimateurs de l’espérance et de la covariance qui ressemblent aux estimateurs James-Stein. 8.5 Sommaire Les estimateurs présentés dans cette section permettent généralement de construire de meilleurs portefeuilles que les estimateurs classique (moyenne et covariance empirique). Contrairement aux modèles factoriels, ils ont l’avantage de ne pas reposer sur aucune hypothèse sur la distribution des rendements. Cependant, ils reposent sur le choix de paramètres (µ0 et Σ0 ) qui peuvent être difficiles à choisir en pratique. De plus, les bénéfices tirés de leur utilisation, bien qu’ils soient statistiquement significatifs, sont parfois économiquement négligeables. Finalement, notons que l’approche générale utilisée pour obtenir ces estimateurs peut être appliquées à d’autres paramètres, dont ceux des modèles factoriels. Il est donc possible de combiner ces deux approches. 65 9 Épilogue Dans ce cours nous avons tenté de démontrer que le problème de choix de portefeuille est un problème complexe, pour au moins quatre raisons : 1. Formuler le problème lui-même est un exercice difficile, qui requiert notamment qu’on exprime, mathématiquement, des préférences sur des distributions de rendements aléatoires ; 2. La solution du problème, une fois adéquatement formulé, dépendra des hypothèses qu’on fera (parfois très faibles, mais qui peuvent être parfois plus fortes) sur la distribution des rendements ; 3. Les hypothèses formulées sur la distribution des rendements prennent souvent une forme paramétrique et ces paramètres doivent être estimés, ce dont on devrait tenir compte explicitement dans la recherche d’une solution au problème ; 4. Étant donné l’historique limité de données financières, évaluer rigoureusement (statistiquement) la performance réelle d’un solution est pratiquement impossible. On voudrait bien dire que devant l’impossible, nul n’est tenu. Par contre, en pratique, puisque les gens épargnent (pour diverses raisons), des actifs doivent être gérés. Bien comprendre la difficulté du problème est essentiel pour éviter les erreurs les plus grossières. 66 10 Exercices de révision Question 1 Quelles propriétés empiriques des rendements des actifs financiers nous indiquent qu’ils ne sont pas normalement distribués ? Question 2 Résumez, en vos mots, le résultat principal de la théorie de l’espérance d’utilité. Question 3 Allais a proposé deux paires de loteries à des individus et leur a demandé d’identifier la loterie qu’ils préfèrent dans chaque paire. La première paire est constituée d’un gain certain de 1 000 000$ et d’une loterie qui paie 5 000 000$ avec une probabilité de 10%, 1 000 000$ avec une probabilité de 89% et 0$ avec une probabilité de 1%. La deuxième paire est constituée d’une loterie qui paie 5 000 000$ avec une probabilité de 10% et 0$ avec une probabilité de 90%, et d’une loterie qui paie 1 000 000$ avec une probabilité de 11% et 0$ avec une probabilité de 89%. Expliquez comment les choix observés par Allais violent l’axiome d’indépendance forte suivant : Pour tout loteries x, y, et z, et toute probabilité p, si x y, alors (x, z, p) (y, z, p). Question 4 Lorsqu’on fait la distinction entre risque et incertitude, qu’entend-on par ces concepts. Donnez un exemple concret pour chacun. Est-ce que cette distinction est pertinent pour un gestionnaire de portefeuille ? Justifiez. Question 5 Le coefficient d’aversion absolue au risque est donné par ARA (W0 ) = − u′′ (W0 ) . u′ (W0 ) a)Calculer ce coefficient pour les fonctions d’utilité suivantes : i) linéaire : u (x) = ax + b. ii) quadratique : u (x) = ax2 + bx + c. −ax iii) CARA : u (x) = − e a . iv) CRRA : u (x) = xa a . v) Pourquoi considère-t-on généralement que la fonction CRRA représente bien les préférences des consommateurs ? Question 6 67 Quelles sont les lacunes de la fonction d’utilité quadratiques ?Comment peut-on alors justifier son utilisation ? Question 7 Plusieurs fonctions d’utilités considérées dans ce cours sont des cas particuliers de fonctions HARA. Quelle propriété de cette fonction la rend intéressante pour la gestion de portefeuille ? Question 8 On a remarqué qu’il pouvait être raisonnable d’avoir des préférences pour les actifs dont la distribution présente de l’asymétrie positive. Expliquez ce qu’on entend par là. Quelles fonctions d’utilité permettent de représenter de telles préférences ? Question 9 La VaR est souvent critiquée parce qu’elle n’est pas une mesure de risque sous-additive. Expliquez, en vots mots, ce que cela veut dire. Identifiez une autre lacune de cette mesure de risque. Question 10 Un investisseur dont les préférences peuvent être représentées par une fonction CRRA désire investir 1 000$. Deux actifs sont disponibles. Le premier est un actif sans risque de rendement Rf et le second est une actif risqué dont le rendement, R, est d’espérance µ et de variance σ 2 . Cet investisseur ne peut ni emprunter, ni vendre à découvert. Formuler mathématique son problème de choix de portefeuille en notation matricielle. Prenez soin de définir chaque vecteur et matrice utilisé. Question 11 Quelles conditions une mesure de risque cohérente devrait-elle satisfaire ? Décrivez ces conditions en termes économiques. Question 12 Pourquoi toutes les mesures de risques sont-elles équivalentes lorsque les rendements des actifs sont normaux ? Question 13 Dans le plan µ-σ, représentez graphiquement les portefeuilles pouvant être construits en combinant chacune des paires d’actifs suivantes : a) deux actifs risqués avec une corrélation de ρ = 1 b) deux actifs risqués avec une corrélation de ρ = −1 c) deux actifs risqués avec une corrélation de −1 < ρ < 1 d) un actif risqué et un actif sans risque Question 14 Cette question porte sur la distribution du rendement d’un actif risqué et sur les préférences d’investisseur. a) La distribution d’une variable aléatoire normalement distribuée est caractérisée par deux paramètres. Quels sont-ils ? 68 b) En général, comment peut-on décrire les préférences des investisseurs pour les actifs risqués en termes de ces deux paramètres (préfère-t-on des valeurs plus grandes ou plus petites) ? c) Quel est le coefficient d’asymétrie d’une variable aléatoire normalement distribuée ? d) Empiriquement, le coefficient d’asymétrie du rendement d’un actif risqué est-il plus grand ou plus petit que le coefficient d’asymétrie d’une variable aléatoire normalement distribuée ? e) En général, comment peut-on décrire les préférences des investisseurs pour les actifs risqués en termes d’asymétrie ? f) Quel est le coefficient d’aplatissement d’une variable aléatoire normalement distribuée ? g) Empiriquement, le coefficient d’aplatissement du rendement d’un actif risqué est-il plus grand ou plus petit que le coefficient d’aplatissement d’une variable aléatoire normalement distribuée ? h) En général, comment peut-on décrire les préférences des investisseurs pour les actifs risqués en termes d’aplatissement ? i) Lorsque les préférences d’un investisseur satisfont un certain nombre d’axiomes de rationalité, elles peuvent être représentées par une fonction U (x) = E [u (x)] . Quelles propriétés la fonction u (x) doit-elle satisfaire pour représenter les préférences que vous avez décrites en b) ? j) Donnez un exemple de fonction u (x) pouvant représenter les préférences que vous avez décrites en e). Soyez précis et indiquez toute contrainte pertinente sur les paramètres de cette fonction. Question 15 Cette question porte sur les mesures de risque. a) Quelle est la principale lacune de l’écart-type comme mesure de risque ? b) L’écart-type est-il une mesure de risque sous-additive ? Justifiez. c) Décrivez, en vos mots, ce qu’est un moment partiel inférieur (indice : identifiez les deux paramètres qui la caractérisent). En quoi cette mesure est-elle intéressante ? d) Toutes les mesures de risque ont une même lacune en commun. Quelle est-elle ? Utilisez la mesure de risque de votre choix pour illustrer cette lacune. Question 16 Ce question porte sur le problème de choix de portefeuille dans un cadre moyenne-variance. Supposez qu’un investisseur désire investir 1 000$ et que deux actifs risqués, A et B, sont disponibles, dont les rendements 69 sont notés RA et RB . Les rendements de ces actifs sont tels que E [1 + RA ] = µA E [1 + RB ] = µB 2 Var [1 + RA ] = σA 2 Var [1 + RB ] = σB Cov [1 + RA , 1 + RB ] = σAB . a) Si les rendements des actifs de sont pas normalement distribués et que les préférences de l’investisseur ne sont pas représentables par une fonction d’utilité quadratique, comment peut-on justifier la formulation du problème en termes d’espérance et de variance ? b) Considérez le vecteur de rendements de ces deux actifs, soit x′ = [1 + RA , 1 + RB ]. Écrivez l’espérance, µ = E [x], et la matrice de covariance, Σ = Cov [x], du vecteur x en termes des paramètres définis ci-dessus. c) Considérez un portefeuille caractérisé par un vecteur de poids w. Écrivez l’espérance et la variance du rendement de ce portefeuille en termes des variables µ, Σ et w. d) Écrivez le problème de choix de portefeuille d’un investisseur désirant minimiser la variance du rendement de son portefeuille de sorte son espérance de rendement soit τ et sans investir plus de 70% de son avoir dans l’un ou l’autre des actifs. De plus, cet investisseur n’a pas la possibilité de vendre à découvert l’actif A. e) Supposez maintenant que l’investisseur ne connaît pas les paramètres µ et Σ et qu’il doive les estimer à partir de l’observation des rendements historiques des actifs A et B. De quelle manière l’estimation des paramètres µ et Σ influence-t-elle le problème de choix de portefeuille ? Question 17 Cette question porte sur la représentation graphique de portefeuilles dans le plan µ-σ. On considère des portefeuilles composés d’un actif sans risque et de deux actifs risqués caractérisés de la manière suivante : – le rendement de l’actif sans risque est de Rf = 0, 02 ; 2 = 0, 152 ; – l’espérance de rendement de l’actif A est µA = 0, 05 et sa variance est σA 2 – l’espérance de rendement de l’actif B est µB = 0, 10 et sa variance est σB = 0, 202 ; – la corrélation entre le rendement des actifs A et B est de ρAB = 0, 5. Représentez graphiquement (prenez soin de bien identifier les axes de votre graphique) : a) les actifs A et B ; b) un portefeuille équipondéré des actifs A et B ; c) l’ensemble des portefeuilles pouvant être construits en combinant l’actif A et l’actif sans risque lorsqu’il est possible d’emprunter au taux Rf ; d) l’ensemble des portefeuilles pouvant être construits en combinant l’actif B et l’actif sans risque lorsqu’il n’est pas possible d’emprunter au taux Rf . e) Quel est le ratio de Sharpe de l’actif A ? À quoi correspond-t-il graphiquement ? 70 Question 18 Cette question porte sur l’influence de l’estimation de µ et Σ sur l’optimalité du portefeuille construit selon l’approche moyenne-variance. a) Nous avons considéré la statistique suivante pour le portefeuille tangent : ′ T T t = Sh w µ̂, Σ̂ R − Sh wT(µ, Σ)′ R , où la fonction Sh(·) est donnée par l’équation (4.1) et le portefeuille tangent est donné par l’équation (4.10). Expliquez comment interpréter tT . En particulier, comment interpréter une valeur négative, nulle et positive ? b) Pourquoi utilise-t-on le ratio de Sharpe pour construire la statistique tT ? Pourrions-nous utiliser une autre mesure de performance ? Justifiez. c) On se propose de tester l’hypothèse nulle H0 : tT = 0 contre l’alternative H1 : tT < 0. Supposer qu’on rejette la nulle. Interprétez ce rejet. d) Décrivez comment on peut approximer la distribution de la statistique tT par simulations. Identifiez les limites de votre approche. e) On constate souvent que le ratio de Sharpe du portefeuille tangent est significativement influencé par l’estimation des paramètres alors que le ratio de Sharpe du portefeuille de variance minimale globale (donné par l’équation (4.11)) est plus robuste à l’estimation des paramètres. Comment interprète-t-on ce constat ? Question 19 Cette question porte sur les modèles factoriels. a) Vous disposez d’un échantillon de rendements pour N actifs risqués. Vous estimez la moyenne (équation (5.1)) et la covariance échantillonnale (équation (5.2)) du rendement de ces actifs. i) Combien de paramètres distincts comptent µ̂ ? ii) Combien de paramètres distincts comptent Σ̂ ? b) Vous postulez un modèle à un facteur pour le rendement de chaque actif i = 1, . . . , N , soit Ri = αi + f βi + ei , avec Var [ei ] = Ωi , Cov [ei , ej ] = 0 lorsque i 6= j, E [f ] = µf et Var [f ] = σf2 . Pour un vecteur de N rendements d’actifs, cette dernière équation s’écrit RN×1 = αN×1 + βN×1 f + eN×1 . Vous estimez les αi , βi et Ωi par moindres carrés ordinaires, l’espérance du facteur par f¯ (équation (2.7)) et sa variance par s2f (équation (2.8)). i) Quelle est la matrice de covariance des rendements (en termes des paramètres α, β, Ω, µf et σf2 ) selon ce modèle ? 71 ii) Combien de paramètres distincts compte-elle ? iii) Quelle est l’espérance de rendement (en termes des paramètres α, β, Ω, µf et σf2 ) selon ce modèle ? iv) Combien de paramètres supplémentaires compte-elle ? v) La réduction du nombre de paramètres est-elle plus importante lorsque le nombre d’actifs (N ) est grand ou petit ? Justifiez. c) Un modèle d’évaluation par arbitrage est un cas particulier de modèle factoriel dans lequel la constante est commune à tous les actifs, soit αi = α, pour tout i = 1, . . . , N . Si un tel modèle offre une bonne description de l’espérance des rendements, il permet de réduire le nombre de paramètres à estimer pour décrire cette espérance. i) L’utilisation d’un modèle d’arbitrage influence-t-elle l’optimalité (en termes de ratio de Sharpe) d’un portefeuille de variance minimale globale ? Justifiez. ii) L’utilisation d’un modèle d’arbitrage influence-t-elle l’optimalité (en termes de ratio de Sharpe) d’un portefeuille tangent ? Justifiez. Question 20 Le problème de choix de portefeuille est un problème complexe auquel il n’existe aucune solution parfaite. Cette question porte sur trois sources de cette complexité. a) La première difficulté est de formuler l’objectif du problème. i) Quel est l’avantage principal de formuler l’object en termes de maximisation d’une espérance d’utilité ? ii) Pourquoi considère-t-on généralement que les préférences d’un investisseur ne peuvent pas être représentées par une fonction d’utilité quadratique ? iii) Comment peut-on alors justifier la formulation du problème en termes d’espérance et de variance du rendement du portefeuille ? b) Quelque soit la formulation de l’objectif, la solution dépendra de la distribution des rendements. Comment un hypothèse de normalité influence-t-elle la solution du problème ? c) On choisit souvent un modèle paramétrique pour spécifier la distribution des rendements. Les paramètres de ce modèle ne sont pas connus et doivent plutôt être estimés à partir d’un échantillon historique. i) Un modèle factoriel peut-il améliorer la précision de l’estimation de l’espérance des rendements ? De la variance ? Justifiez. ii) Qu’est-ce que l’analyse par composantes principale ? iii) On a observé qu’imposer des contraintes sur la composition d’un portefeuille, notamment en ne permettant pas les ventes à découvert, augmente généralement sa performance. Pourquoi est-ce le cas ? Question 21 Supposez que vous avez estimé le modèle de Fama et French (1993) à trois facteurs pour chacun des actifs de 72 votre portefeuille et que le rendement de votre portefeuille (Rp,t ) satisfait, selon votre estimation, l’équation suivante : Rp,t − Rf,t = 0, 9 (Rm,t − Rf,t ) + 0, 3SM Bt + 0, 2HM Lt . a) Cette équation n’inclut de constante parce qu’on a imposé une hypothèse d’absence d’opportunités d’arbitrage. Que’est-ce que cette hypothèse implique quant à la relation entre les rendements des actifs, les rendements de facteurs systémiques et les rendements de facteurs idiosyncratiques ? b) Que représente le facteur HM L ? c) Que représente le facteur SM B ? d) Supposez que le rendement de votre portefeuille au cours de la dernière année a été de 15%, alors que le rendement de l’actif dans risque, celui du portefeuille de marché, du facteur SM B et du facteur HM L ont été de 3%, 12%, 5% et 6% respectivement. i) Quelle portion du rendement de votre portefeuille est expliquée par son exposition au risque de marché ? ii) Quelle portion du rendement de votre portefeuille est expliquée par son exposition au facteur SM B ? iii) Quelle portion du rendement de votre portefeuille est expliquée par son exposition au facteur HM L ? iv) Quelle portion du rendement de votre portefeuille n’est pas expliquée ce modèle ? v) À quoi peut-on attribuer la portion du rendement de votre portefeuille qui n’est pas expliquée ce modèle ? 73 A Rappels de calcul différentiel A.1 Série de Taylor Toute fonction f (x) lisse (infiniment différentiable) peut s’exprimer f (x) = f (a) + 1 1 1 ′ f (a) (x − a) + f ′′ (a) (x − a)2 + f ′′′ (a) (x − a)3 + . . . 1! 2! 3! Une approximation de Taylor du premier ordre autour d’un point a ne considère que les deux premiers termes de cette somme infinie f (x) ≈ f (a) + 1 ′ f (a) (x − a) . 1! Si la fonction f (x) est linéaire, cette approximation est exacte. Une approximation du second ordre considère les trois premiers termes, f (x) ≈ f (a) + 1 1 ′ f (a) (x − a) + f ′′ (a) (x − a)2 . 1! 2! Si la fonction f (x) est quadratique, cette approximation est exacte. A.2 Règles de calcul Voici une liste de règles de calcul différentiel. a est une constante ; g (x), h (x) et q (x, y) sont des fonctions. 74 d a=0 dx d ax = a dx d a x = axa−1 dx d 1 1 = − a+1 a dxx x d √ 1 x= √ dx 2 x d 1 ln (x) = dx x d x a = ax ln (a) dx d x e = ex dx dg d ag (x) = a dx dx d dg dh g (x) + h (x) = + dx dx dx dg dh d g (x) + h (x) = h (x) + g (x) dx dx dx h (x) dd xg − g (x) dd hx d g (x) = d x h (x) h (x)2 d dh h (x)a = ah (x)a−1 dx dx dh dg d h (g (x)) = dx dg dx dq dg dq dh d q (g (x) , h (x)) = + dx dg dx dh dx Zx d g (s) d s = g (x) dx a 75 (A.1) (A.2) (A.3) (A.4) (A.5) (A.6) (A.7) (A.8) (A.9) (A.10) (A.11) (A.12) (A.13) (A.14) (A.15) (A.16) B Rappels d’algèbre Utilité : simplifier la notation pour manipuler des équations linéaires. Exemple Le système d’équations y1 = β0 + x1 1 β1 + . . . + x1 K βK + u1 y2 = β0 + x2 1 β1 + . . . + x2 K βK + u2 .. . yN = β0 + xN 1 β1 + . . . + xN K βK + uN peut s’écrire y = Xβ + u. B.1 Matrices et vecteurs Une matrice est un tableau dont chaque élément est un nombre. Exemple La matrice a11 a12 A = a21 a22 a31 a32 compte 3 lignes et 2 colonnes. On indique parfois les dimensions d’une matrice à l’aide d’indices, par exemple, A3×2 . Une matrice ne comptant qu’une seule colonne est un vecteur colonne ; une matrice ne comptant qu’une ligne est un vecteur ligne. 76 Exemple La vecteur colonne a11 a = a21 a31 compte 3 éléments. On utilise habituellement des caractères gras pour noter les matrices et vecteurs. On note souvent les matrices par des majuscules et les vecteurs par des minuscules. Une matrice comptant autant de lignes que de colonnes est dite carrée. Exemple La matrice B = b11 b12 b21 b22 est carrée. B.2 Opérations sur les matrices Transposition La transposée d’une matrice est obtenue en permutant ses colonnes et ses lignes. On note A′ la transposée de A Exemple A ′ = a11 a21 a31 a12 a22 a32 Une matrice carrée est symétrique si elle est égale à sa transposée. Exemple La matrice B est symétrique si B = B′ . Dans cet exemple, si b21 = b12 . 77 Addition d’un scalaire Pour additionner une matrice et un scalaire, on additionne ce scalaire à chaque élément de la matrice. Exemple α+B = α + b11 α + b12 α + b21 α + b22 Addition de matrices On ne peut additionner que des matrices de même dimension. On fait l’addition élément par élément. Exemple c c B + 11 12 c21 c22 = b11 + c11 b12 + c12 b21 + c21 b22 + c22 Multiplication par un scalaire Pour multiplier une matrice et un scalaire, on multiplie chaque élément de la matrice par ce scalaire. Exemple αB = αb11 αb12 αb21 αb22 Multiplication de matrices On ne peut multiplier ensemble que des matrices dont les dimensions sont conformes : la matrice de droite doit avoir autant de colonnes que la matrice de gauche a de lignes. L’élément de la i-ème ligne et de la j-ème colonne de la matrice produit est donné par le produit de la i-ème ligne de la matrice de gauche et de la j-ème colonne de la matrice de droite. Remarque : la multiplication de matrices est associative, (XY) Z = X (YZ) , mais elle n’est pas commutative XY 6= YX. 78 Exemple A3×2 B2×2 a11 a12 b = a21 a22 11 b21 a31 a32 a11 b11 + a12 b21 = a21 b11 + a22 b21 a31 b11 + a32 b21 b12 b22 a11 b12 + a12 b22 a21 b12 + a22 b22 a31 b12 + a32 b22 3×2 Exemple XN×2 β2×1 + uN×1 1 1 = . .. x1 u1 x2 α u2 .. β + .. . . 1 1 xN uN α + x1 β1 u1 α + x2 β1 u2 = + .. .. . . α + xN β1 α + x1 β1 + u1 α + x2 β1 + u2 = .. . α + xN β1 + uN uN N×1 Une matrice identité est une matrice carrée dont les éléments de la diagonale principale sont tous égaux à 1 et dont les autres éléments sont nuls. Exemple La matrice 1 0 0 I = 0 1 0 0 0 1 est une matrice identité de dimension 3 (par 3). Lorsque les dimensions sont conformes pour la multiplication, IA = A BI = B. 79 Inverse d’une matrice Lorsqu’elle existe, l’inverse d’une matrice carrée est définie par la relation B−1 B = BB−1 = I. B.3 Espérance et variance Si E [x] = µ, alors E [w′ x] = w′ µ. Aussi, si Var [x] = Σ, alors Var [w′ x] = w′ Σw. En particulier, si x ∼ N (µ, Σ), alors w′ x ∼ N w′ µ, w′ Σw . B.4 Calcul différentiel d ′ dxx A =A d ′ d x x Ax = 2 (A + A′ ) x 80 C Rappels d’optimisation C.1 Optimisation sans contraintes Considérons d’abord le problème de minimisation d’une fonction objective l (·) par rapport à son argument l∗ = min l (x) . x On note par l∗ la valeur minimale de la fonction l (·). La variable x sous l’opérateur min indique que la fonction doit être minimisée en choisissant x. On note par x∗ la valeur de x qui permet d’atteindre le minimum. La formulation suivante permet de définir x∗ directement : x∗ = arg min l (x) . x Exemple Considérons l∗ = min x2 + 3, x ou, de manière équivalente, x∗ = arg min x2 + 3. x La solution de ce problème est l∗ = 3 et x∗ = 0. Remarquons qu’on problème de minimisation peut être exprimé comme un problème de maximisation, et vice versa, puisque min l (x) = max −l (x) x x = max u (x) x avec u (x) ≡ −l (x). On parle, plus généralement, d’un problème d’optimisation. Cette dernière remarque est particulièrement important pour les problèmes devant être solutionnés numériquement puisque les outils d’optimisation numérique sont toujours mis en oeuvre pour des problèmes de minimisation : si devrez minimiser −u si vous cherchez à maximiser u. C.1.1 Conditions nécessaires À l’optimum, la dérivée première de la fonction doit être nulle. C’est la condition de premier ordre. 81 Exemple Considérons x∗ = arg max 3 − x2 . x Puisque d 3 − x2 = −2x, dx on doit avoir −2x∗ = 0. La solution de ce problème est donc bien x∗ = 0. C.1.2 Conditions suffisantes Pour un maximum (minimum), la dérivée seconde doit être strictement négative (positive). C’est la condition de deuxième ordre. Exemple d2 d 3 − x2 = − 2x 2 dx dx = −2, la dérivée seconde est négative (peu importe la valeur de x, dans ce cas particulier), la solution x∗ = 0 est donc bien un minimum. C.1.3 Problème multivarié Considérons le problème à deux variables (x∗ , y ∗ ) = arg max u (x, y) . x,y Les problèmes multivariés seront abordés de manière plus détaillée à l’annexe B. Les conditions du premier ordre doivent être satisfaites pour chaque variable à l’optimum. La condition du deuxième ordre est plus difficile à exprimer : la matrice hessienne (la matrice des dérivées secondes, voir annexe B) de la fonction objective doit être définie négative (positive) pour que l’optimum soit un maximum (minimum). 82 C.2 Optimisation sous contraintes d’égalité Considérons un exemple à deux variables (x, ∗ y ∗ ) = arg max u (x, y) , x,y sous la contrainte ax + by = c. Exemple Supposons un investisseur qui a une dotation de v0 à la période 0 et de v1 à la période 1. Il peut épargner w à la période 0, ce qui lui permet de consommer c0 = v0 − w à la période 0 et c1 = v1 + (1 + rf ) w à la période 1. Il cherche à maximiser son utilité (c∗0 , c∗1 ) = arg max u (c0 , c1 ) c0 ,c1 sous la contrainte c0 = v0 − w c1 = v1 + (1 + rf ) w, qui s’écrit aussi c0 + c1 1 + rf = v0 + v1 , 1 + rf qui s’interprète en termes de valeurs présentes. Une manière alternative de formuler ce problème est la suivante : (x∗ , y ∗ ) = arg max u (x, y) x,y ax+by=c En notation matricielle, on peut exprimer un problème multivarié de la manière suivante : x∗ = arg max u (x) , x sous la contrainte Ax = b. Il existe deux manières de résoudre un problème d’optimisation sous contrainte d’égalité. La première consiste à tenter de substituer la contrainte dans la fonction objective. 83 Exemple En substituant la contrainte, le problème devient w∗ = arg max u (v0 − w, v1 + (1 + rf ) w) w Puisque d ∂ ∂ u (w) = − u (c0 , c1 ) + (1 + rf ) u (c0 , c1 ) , dw ∂ c0 ∂ c1 le choix d’épargne est donné par la condition de premier ordre − ∂ ∂ u v0 − w∗ , v1 + (1 + rf ) w0 + (1 + rf ) u (v0 − w∗ , v1 + (1 + rf ) w∗ ) = 0, ∂ c0 ∂ c1 et donc ∂ u(c∗0 ,c∗1 ) ∂ c0 ∂ u(c∗0 ,c∗1 ) ∂ c1 = 1 + rf . La deuxième approche consiste à introduire une nouvelle variable, le multiplicateur de Lagrange λ, et de définir le lagrangien L (x, λ) = u (x) + λ (Ax − b) . Le problème s’écrit alors (x∗ , λ∗ ) = arg max u (x) + λ (Ax − b) x,λ = arg max L (x, λ) . x,λ 84 Exemple Il n’est pas toujours possible, ou même souhaitable, de substituer la contrainte. Une approche alternative consiste à formuler le lagrangien c1 v1 L (c0 , c1 , λ) = u (c0 , c1 ) + λ c0 + − v0 − , 1 + rf 1 + rf qu’on maximise par rapport à (c0 , c1 , λ), (c∗0 , c∗1 , λ∗ ) = arg max L (c0 , c1 , λ) . c0 ,c1 ,λ Les conditions de premier ordre sont ∂L ∂ c0 ∂L ∂ c1 ∂L ∂λ ∂u +λ=0 ∂ c0 ∂u λ =0 = + ∂ c1 1 + rf c1 v1 = c0 + − v0 − = 0, 1 + rf 1 + rf = desquelles on tire ∂ u(c∗0 ,c∗1 ) ∂ c0 ∂ u(c∗0 ,c∗1 ) ∂ c1 = 1 + rf . C.3 Optimisation sous contraintes d’inégalité On peut exprimer un problème multivarié de la manière suivante : x∗ = arg max u (x) , x sous la contrainte Cx ≥ d. Comme dans le cas de contraintes d’égalité, on définit une nouvelle fonction φ (x, λ) = u (x) + λ (Cx) . Cependant, les conditions de premier ordre (de Kuhn-Tucker) sont différentes. Pour simplifier l’intuition, considérons le cas univarié. Remarquons que le maximum correspond à l’une des situations suivantes : 1. Le maximum est atteint pour x∗ > 0 et φx (x∗ ) = 0 2. Le maximum est atteint pour x∗ = 0 et φx (x∗ ) = 0 3. Le maximum serait atteint pour x∗ < 0, qu’on fixe donc à x∗ = 0 et φx (x∗ ) < 0 Ces trois situations satisfont les conditions suivantes 85 1. φx (x∗ ) ≤ 0 2. x∗ ≥ 0 3. x∗ φx (x∗ ) = 0 Pour un problème multivarié, les conditions de Kuhn-Tucker sont 1. φx (x∗ , λ∗ ) ≤ 0 et φλ (x∗ , λ∗ ) ≥ 0 2. x∗ ≥ 0 et λ∗ ≤ 0 3. x∗ φx (x∗ , λ∗ ) = 0 et λ∗ φλ (x∗ , λ∗ ) = 0 Ce sont des conditions suffisantes que plusieurs couples (x, λ) peuvent satisfaire. L’un de ces couples est la solution recherchée, mais on doit travailler davantage pour l’identifier. C.4 Généralités L’optimisation est une vaste discipline. Dans cette sous-section, je présente quelques notions importantes, simplement pour illustrer certaines difficultés : trop souvent en pratique, on optimise sans se poser toutes les questions nécessaires. Comme la discussion qui précède le suggère, la nature de la fonction objective est des contraintes a une grande influence sur la difficulté du problème. Exception faite des problèmes les plus simples, on doit généralement recourir à des méthodes numériques pour résoudre un problème d’optimisation. On peut d’abord distinguer les problèmes convexes des problèmes non convexes. Dans le premier cas, des algorithmes itératifs permettent généralement de trouver la solution. Dans le second cas, on peut utiliser des algorithmes stochastiques, dont la solution peut dépendre de l’algorithme et de ses paramètres. Les algorithmes itératifs peuvent être catégorisés grossièrement selon qu’ils utilisent la hessienne et le gradient, le gradient seulement, ou aucun des deux. Évidemment, on ne peut utiliser la hessienne que si la fonction objective est deux fois différenciable (une fois pour le gradient) . Lorsque c’est possible, on peut calculer la hessienne et/ou le gradient analytiquement. Dans le cas contraire, l’algorithme devra les approximer numériquement, ce qui augmente beaucoup le temps de calcul. Il est très avantageux de calculer le gradient et la hessienne à la main. Un algorithme d’optimisation, itératif ou stochastique, doit débuter avec une valeur initiale de la solution, bien que certains algorithmes sont en mesure de choisir une telle valeur. Si le problème est convexe, la valeur initiale n’a pas d’incidence sur la solution, mais peut influencer le temps de calcul. Si le problème n’est pas convexe, il peut admettre des solutions locales. Un algorithme itératif peut alors trouver l’une de ses solutions locales. On initiant un algorithme itératif avec différentes valeurs, on peut espérer que l’une d’elles permettra d’identifier la solution globale. Un algorithme stochastique est généralement plus performant, mais ne garantit pas que la solution globale sera trouvée. De plus, ces algorithmes sont souvent complexes est requièrent une certaine expérience pour être utilisés adéquatement. Bref, on s’épargne beaucoup d’ennuis en vérifiant que le problème est convexe. Un classe particulière de problème non convexes est celle des problèmes à valeurs entières, pour lesquelles la solution ne peut prendre qu’une valeur entière. Des algorithmes spécialisés doivent être utilisés pour résoudre ces problèmes. 86 Tous les algorithmes sont plus ou moins paramétrisables. Il est tentant, lorsqu’un algorithme le permet pas de trouver une solution, de modifier rapidement ses paramètres en espérant résoudre la difficulté. En pratique, les paramètres “par défaut” de la plupart des algorithmes sont bien choisis et la difficulté rencontrée est plus souvent liée à la formulation de la fonction objective et/ou des contraintes. 87 D Choix en environnement certain D.1 Préférences et utilité On représente les préférences d’un consommateur de la manière suivante : – x ≻ y si il préfère x à y ; – x y si il ne préfère pas y à x ; – x ∼ y si il est indifférent entre x à y. Cette représentation n’est pas idéale pour aborder les problèmes qui nous intéressent. Par contre, si les préférences du consommateurs satisfont les axiomes de 1. comparabilité (tous les biens sont comparables) Soit x ≻ y, soit x y, soit x ∼ y. 2. transitivité : Si x ≻ y et y ≻ z, alors x ≻ z. alors les préférence d’un consommateur sont représentables par une fonction d’utilité : il existe une fonction d’utilité u () telle que u (x) > u (y) ⇔ x ≻ y. Si, de plus, ses préférences sont continues, la fonction d’utilité est aussi continue. Si, du plus, ses préférences sont monotones (non satiété), – x + y ≻ x, la fonction d’utilité est monotone, u (x + y) > u (x). Si les préférences sont convexes Si, du plus, ses préférences sont strictement convexes, – Pout tout 0 < α < 1, y x, z x ⇒ αz + (1 − α) y ≻ x, alors la fonction d’utilité est concave, si x y alors u (αx + (1 − α) y) > u (y). 88 Références Florin Aftalion. La nouvelle finance et la gestion de portefeuille. Economica, 3 edition, 2008. 15, 17, 20, 22, 23, 25 Maurice Allais. Le comportement de l’homme rationnel devant le risque, critique des postulats et axiomes de l’école américaine. Econometrica, 21 :503–546, 1953. 22 Jennifer Bender and Frank Nielsen. The fundamentals of fundamental factor models. MSCI Research Insight, June 2010. 56 Michael W. Brandt. Handbook of Financial Econometrics, Volume 1 : Tools and Techniques, chapter 5 : Portfolio choice problems, pages 269–336. North Holland, 2010. URL http://faculty.fuqua.duke.edu/~mbrandt/papers/published/portreview.pdf. 8 Edwin Burmeister, Richard Roll, and Stephen A. Ross. Using macroeconomic factors to control portfolio risk. Working Paper, BIRR Portfolio Analytics Inc., March 2003. 58 D. Cass and J. E. Stiglitz. The structure of investor preferences and asset returns and separability in portfolio allocation : A contribution to the pure theory of mutual funds. Journal of Economic Theory, 2 :122–160, 1970. 21 Nai-Fu Chen, Richard Roll, and Stephen A. Ross. Economic forces and the stock market. The Journal of Business, 59(3) :383–403, 1986. 58 Denisa Cumova and David Nawrocki. Portfolio optimization in an upsiade potential and downside risk framework. Journal of Economics and Business, 71 :68–89, 2014. 16, 29, 40 J. P. Danthine and J. B. Donaldson. Intermediate Financial Theory. Prentice Hall, 2 edition, 2002. 17, 20, 21, 22, 23, 25, 30 D. Ellsberg. Risk, ambiguity and the Savage axioms. Quarterly journal of Economics, 75 :643–669, 1961. 22 L. Epstein and S. Zin. Substitution, risk aversion, and the temporal behavior of consumption and asset returns : a theoretical framework. Econometrica, 57 :937–969, 1989. 24 Javier Estrada. The three-factor model : A practitioner’s guide. Journal of Applied Corporate Finance, 23(2) : 77–84, 2010. 56 F. J. Fabozzi, H. N. Neave, and G. Zhou. Financial Economics. Wiley, 2012. 16, 17, 18, 20, 22, 23, 25 Eugene F. Fama and Kenneth R. French. Common risk factors in the returns on stocks and bonds. Journal of Financial Economics, 33 :3–56, 1993. 56 P. C. Fishburn and G. A. Kochenberger. Two-piece von Neumann-Morgenstern utility functions. Decision sciences, 10 :503–518, 1979. 24 D. M. Holthausen. A risk-return model with risk and return measured as deviations from target return. American economic review, 71(1) :182–188, 1981. 29 89 R. Jagannathan and T. Ma. Risk reduction in large portfolios : Why imposing the wrong constaints helps. Journal of Finance, 58(4) :1651–1683, 2003. 65 W. James and C. Stein. Estimation with quadratic loss. Proceedings of the Forth Berkeley Symposium on Probability and Statistics, pages 361–379, 1961. 64 J. D. Jobson and B. Korkie. Estimation for markowitz efficient portfolios. Journal of the American Statistical Association, 75(371) :544–554, 1980. 41 J. D. Jobson and B. Korkie. Putting markowitz theory to work. Journal of Portfolio Management, 7(4) :70–74, 1981. 41 Philippe Jorion. Base-stein estimation for portfolio analysis. Journal of Financial and Quantitative Analysis, 21(3) :279–292, 1986. 64 D. Kahnemann and A. Tversky. Prospect theory : An analysis of decision under risk. Econometrica, 47 : 263–291, 1979. 24 D. Krep and E. Porteus. Temporal resolution of uncertainty and dynamic choice theory. Econometrica, 41 : 185–200, 1978. 24 O. Ledoit and M. Wolf. Improved estimation of the covariance matrix of returns with an application to portfolio selection. Journal of Empirical Finance, 10 :603–621, 2003. 65 M. Machina. Expected utility analysis without the independence axiom. Econometrica, 50 :277–323, 1982. 22 S.A. Ross. The arbitrage theory of capital asset pricing. Journal of Economic Theory, pages 341–360, 1976. 47 L. Savage. The Foundations of Statistics. Wiley, 1954. 22 C. Stein. Inadmissibility of the usual estimator of the mean of a multivariate normal distribution. Proceedings of the Third Berkeley Symposium on Probability and Statistics, pages 197–206, 1955. 64 A. Tversky and D. Kahnemann. Advances in prospect theory : Cumulative representation of uncertainty. Journal of Risk and Uncertainty, pages 297–323, 1992. 24 J. von Neumann and O. Morgenstern. Theory of Games and Economic Behavior. Princeton University Press, 1953. 21 90 Index écart absolu moyen, 15 écart-type, voir aussi variance, 14 équivalent certain, 25 événement de marché, 13 ambiguïté, voir incertitude aplatissement, 10 asymétrie, 10 downside risk, voir Moments partiels inférieurs espérance, 9 facteurs négociables, 51 fonction de densité, 9 fonction de répartition, 9 fonction objective, 81 incertitude versus risque, 22 kurtosis, voir aplatissement d’Allais, 22 d’Ellsberg, 22 de Saint-Pétersbourg, 20 paradoxes, 20 prime de risque, 51, 62 prime de risque additive, 25 prime de risque multiplicative, 25 propect theory, 25 risque versus incertitude, 22 risque de sous-performance, 16 semi-écart-type, 15 semi-écart-type cible, 15 Sharpe, ratio de, 30 skewness, voir asymétrie stratégie, 41 upper partial moments (UPC), voir Moments partiels supérieurs upside potential, voir Moments partiels supérieurs leptokurtique, 10 valeur à risque, 16 loterie, 20 lower partial moments (LPC), voir Moments partiels Valeur à risque conditionnelle, 18 VaR, voir valeur à risque inférieurs variable aléatoire, 9 méthode Morningstar, 17, 27 continue, 9 matrice discrète, 9 carrée, 77 mixte, 9 identité, 79 variance, 9 inverse, 80 symétrique, 77 modèle diagonal, 49 moment échantillonal, 10 empirique, 9, 10 standardisés, 9 moments partiels inférieurs, 15 moments partiels supérieurs, 16 Morningstar Risk-Adjusted Return :seeméthode Morningstar, 17 paradoxe 91