Modélisation des distributions de sinistres Exercices et solutions Modélisation des distributions de sinistres Exercices et solutions Hélène Cossette Vincent Goulet Michel Jacques Mathieu Pigeon École d’actuariat, Université Laval © 2009 Hélène Cossette, Vincent Goulet, Michel Jacques, Mathieu Pigeon Cette création est mise à disposition selon le contrat Paternité-Partage à l’identique 2.5 Canada disponible en ligne http://creativecommons.org/licenses/by-sa/ 2.5/ca/ ou par courrier postal à Creative Commons, 171 Second Street, Suite 300, San Francisco, California 94105, USA. Historique de publication Septembre 2009 : Première édition Septembre 2008 : Première version préliminaire Code source Le code source LATEX de ce document est disponible à l’adresse http://vgoulet.act.ulaval.ca/distributions_sinistres/ ou en communiquant directement avec les auteurs. ISBN 978-2-9811416-1-3 Dépôt légal – Bibliothèque et Archives nationales du Québec, 2009 Dépôt légal – Bibliothèque et Archives Canada, 2009 Introduction Ce document est le fruit de la mise en commun d’exercices colligés au fil du temps pour nos cours de modélisation des distributions de sinistres à l’Université Laval et à l’Université Concordia. Nous ne sommes toutefois pas les uniques auteurs des exercices ; certains ont, en effet, été rédigés par les Docteurs José Garrido et Jacques Rioux, entre autres. Quelques exercices proviennent également d’anciens examens de la Society of Actuaries et de la Casualty Actuarial Society. C’est d’ailleurs afin de ne pas usurper de droits d’auteur que ce document est publié selon les termes du contrat Paternité-Partage des conditions initiales à l’identique 2.5 Canada de Creative Commons. Il s’agit donc d’un document «libre» que quiconque peut réutiliser et modifier à sa guise, à condition que le nouveau document soit publié avec le même contrat. Les exercices sont divisés en six chapitres qui correspondent aux chapitres de notre cours. Le chapitre 1 porte sur des rappels de notions de base en analyse, probabilité et statistique. Le chapitre 2 traite des fondements de la modélisation en assurance de dommages, en particulier le traitement mathématique des franchises, limite supérieure et coassurance ainsi que de l’effet de l’inflation sur la fréquence et la sévérité des sinistres. Les aspects plus statistiques apparaissent au chapitre 3 avec la modélisation non paramétrique. Le chapitre 4 étudie les principales distributions utilisées en assurance de dommages et la création de nouvelles distributions à partir des lois usuelles. Les chapitres 5 et 6 portent quant à eux sur l’estimation paramétrique et les tests d’adéquation des modèles. Enfin, le chapitre 7 propose une brève incursion dans la modélisation des distributions de fréquence des sinistres. Les termes anglais ordinary deductible et franchise deductible nous ont posé quelques soucis de traduction. Pour le premier, nous utilisons l’expression «franchise forfaitaire» recommandée par Béguin (1990). Pour le second terme, beaucoup moins répandu, nous avons opté pour l’expression «franchise atteinte» suggérée, entre autres, dans Charbonnier (2004). Les réponses des exercices se trouvent à la fin de chacun des chapitres, alors que les solutions complètes sont regroupées à l’annexe E. De plus, on trouvera à la fin de chaque chapitre (sauf le premier) une liste non exhaustive d’exercices proposés dans Klugman et collab. (2008a). Des solutions de ces exercices sont offertes dans Klugman et collab. (2008b). L’annexe A présente la paramétrisation des lois de probabilité continues v vi Introduction et discrètes utilisée dans les exercices. L’information qui s’y trouve est en plusieurs points similaire à celle des annexes A et B de Klugman et collab. (1998, 2004, 2008a), mais la paramétrisation des lois est dans certains cas différente. Le lecteur est donc fortement invité à la consulter. Plusieurs exercices de ce recueil requièrent l’utilisation de R (R Development Core Team, 2009) et du package actuar (Dutang et collab., 2008). L’annexe B explique comment configurer R pour faciliter l’installation et l’administration de packages externes. Enfin, les annexes C et D contiennent des tableaux de quantiles des lois normale et khi carré. Nous remercions d’avance les lecteurs qui voudront bien nous faire part de toute erreur ou omission dans les exercices ou leurs solutions. Hélène Cossette <[email protected]> Vincent Goulet <[email protected]> Michel Jacques <[email protected]> Mathieu Pigeon <[email protected]> Québec, septembre 2009 Table des matières Introduction v 1 Rappels d’analyse, de probabilité et de statistique 1 2 Modélisation en assurance de dommages 7 3 Modélisation non paramétrique 13 4 Modèles paramétriques potentiels 21 5 Modélisation paramétrique 27 6 Tests d’adéquation 35 7 Modèles de fréquence 39 A Paramétrisation des lois de probabilité A.1 Famille bêta transformée . . . . . . . . . . . A.2 Famille gamma transformée . . . . . . . . . A.3 Autres distributions continues . . . . . . . A.4 Distributions discrètes de la famille ( a, b, 0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 44 47 49 52 B Installation de packages dans R 55 C Table de quantiles de la loi normale 57 D Table de quantiles de la loi khi carré 59 E Solutions Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 61 73 85 103 114 131 137 145 vii 1 Rappels d’analyse, de probabilité et de statistique 1.1 On a l’inégalité x2 1 − cos( x ) 1 1 − < < 2 2 24 2 x vraie pour toutes valeurs de x près de 0. Calculer lim x →0 1 − cos( x ) x2 et faire le graphique de la fonction et des deux bornes pour −2 ≤ x ≤ 2. 1.2 Calculer lim x →0 x . ln( x + 1) 1.3 Calculer limx→0 (1 + x )1/x . 1.4 a) Déterminer laquelle des expressions, x ou ln( x ), tend la plus rapidement vers l’infini lorsque x tend vers l’infini. b) Répéter la partie a) avec x et e x . 1.5 Il faut parfois élargir l’ensemble des nombres réels à celui des nombres complexes. Un nombre complexe z se présente souvent sous la forme d’une somme z = a + bi où a et b sont des nombres réels et i est un nombre imaginaire particulier tel que i2 = −1. 1 2 Rappels d’analyse, de probabilité et de statistique De là, il découle que i3 = (i2 )(i ) = (−1)(i ) = −i i4 = (i2 )(i2 ) = (−1)(−1) =1 i5 = i i 6 = −1 et ainsi de suite. À partir du développement connu de e x , ex = 1 + x + x2 x3 x4 + + + ..., 2! 3! 4! démontrer l’identité d’Euler eiπ = −1 en suivant les étapes suivantes. a) Développer autour de c = 0 la fonction f ( x ) = cos( x ). b) Développer autour de c = 0 la fonction f ( x ) = sin( x ). c) Développer, en remplaçant x par ix la fonction f ( x ) = eix . d) Démontrer l’identité eix = cos( x ) + i sin( x ). e) Démontrer l’identité eiπ = −1. 1.6 Soit la fonction 1 − ∞ < x < ∞. 1 + e− x Démontrer qu’il s’agit d’une fonction de répartition. F(x) = 1.7 Soit X, une variable aléatoire continue avec fonction de densité f ( x ) et fonction de répartition F ( x ). On choisit une valeur quelconque x0 et on définit la fonction ( f (x) , x ≥ x0 g ( x ) = 1− F ( x0 ) 0, x < x0 . On suppose que F ( x0 ) < 1. Démontrer que g( x ) est une densité de probabilité. 1.8 Soit X, une variable aléatoire avec une distribution de Pareto(α, λ) : f (x) = αλα , ( x + λ ) α +1 x > 0, α > 0, λ > 0. Calculer la fonction de survie S( x ) = 1 − F ( x ) et en faire le graphique pour α = 2 et λ = 3 000. Rappels d’analyse, de probabilité et de statistique 1.9 Soit X, une variable aléatoire avec une distribution Binomiale(n, p), c’està-dire que n x Pr( X = x ) = p (1 − p)n− x , x = 0, 1, . . . . x Déterminer la distribution de la variable aléatoire Y = n − X. 1.10 Soit X ∼ N (µ, σ2 ). La variable aléatoire Y = e X est distribuée selon la loi log-normale. a) Exprimer la fonction de densité de probabilité et la fonction de répartition de Y en fonction de celles de X. b) Calculer Var[Y ]. 1.11 La distribution de Cauchy a comme fonction de densité de probabilité f (x) = 1 1 , π 1 + x2 −∞ < x < ∞. Démontrer que l’espérance de cette distribution n’existe pas, c’est-à-dire que E[| X |] = ∞. 1.12 Soit X, une variable aléatoire avec densité Poisson(λ) et soit g( x ), une fonction telle que −∞ < E[ g( X )] < ∞ et −∞ < g(−1) < ∞. Démontrer que E[λg( X )] = E[ Xg( X − 1)]. 1.13 Soient X et Y, deux variables aléatoires continues. On définit M = max( X, Y ) m = min( X, Y ). Démontrer que E[ M] = E[ X ] + E[Y ] − E[m]. 1.14 Soit X, une variable aléatoire avec densité f X ( x ) = 7e−7x , 0 < x < ∞, et soit Y = 4X + 3. Calculer la densité de Y en utilisant la technique de la fonction de répartition. 1.15 Soit X, une variable aléatoire avec densité f X ( x ) = x2 /9, 0 < x < 3. Trouver la fonction de densité de probabilité de Y = X 3 . 1.16 Soit X, une variable aléatoire avec distribution N (0, σ2 ). Trouver la distribution de Y = X 2 . 1.17 Pour une densité quelconque, démontrer que si la densité est symétrique par rapport à un point a, alors le coefficient d’asymétrie est 0. 3 4 Rappels d’analyse, de probabilité et de statistique 1.18 Soit X, une variable aléatoire avec densité f ( x ) = e− x , x > 0. Calculer son coefficient d’asymétrie. 1.19 Soit X, une variable aléatoire avec densité 1 f (x) = , 2 −1 < x < 1. Calculer son coefficient d’aplatissement et commenter. 1.20 Déterminer la fonction génératrice des moments de la densité f (x) = 2x , c2 0 < x < c. 1.21 Soit X̄1 et X̄2 les moyennes de deux échantillons aléatoires indépendants de taille n d’une population avec variance σ2 , trouver une valeur de n telle que σ Pr | X̄1 − X̄2 | < ≈ 0,99. 5 1.22 Soit X̄ la moyenne d’un échantillon de taille 100 issu d’une loi χ2 (50). a) Trouver la distribution exacte de X̄. b) Calculer à l’aide d’un logiciel statistique la valeur exacte de Pr[49 < X̄ < 51]. c) Calculer une valeur approximative de la probabilité en b). 1.23 Soit Θ̂, un estimateur de la variance d’une loi de Pareto(3, 1 000). Sachant que E[Θ̂] = 749 500 et que Var[Θ̂] = 750, trouver le biais et l’erreur quadratique moyenne de Θ̂. 1.24 Soit X1 , . . . , Xn , un échantillon aléatoire d’une population avec moyenne µ et variance σ2 . a) Démontrer que l’estimateur T ( X ) = ∑in=1 ai Xi est un estimateur sans biais de µ si ∑in=1 ai = 1. b) On nomme les estimateurs de la forme en a) des estimateurs sans biais linéaires. Parmi ceux-ci, trouver celui avec la plus petite variance. 1.25 Soit X1 , . . . , Xn un échantillon aléatoire d’une distribution avec moyenne µ et variance σ2 . Démontrer que n−1 ∑in=1 ( Xi − µ)2 est un estimateur sans biais de σ2 . 1.26 Soit X, une observation d’une population dont la densité est f ( x; θ ) = | x| θ (1 − θ )1−| x| , 2 x = −1, 0, 1; 0 ≤ θ ≤ 1. Rappels d’analyse, de probabilité et de statistique Soit l’estimateur ( T(X) = x=1 ailleurs. 2, 0, Démontrer que T ( X ) est un estimateur sans biais pour θ. 1.27 Soit X ∼ Binomiale(n, p). Démontrer que X X n 1− n n est un estimateur biaisé de la variance de X. Calculer le biais de l’estimateur ci-dessus. 1.28 Calculer l’efficacité de X̄ comme estimateur du paramètre λ d’une distribution de Poisson. 1.29 Deux experts tentent d’évaluer le montant des dommages causés par un ouragan. La variable aléatoire X représente l’évaluation du premier expert et la variable aléatoire Y représente l’évaluation faite par le second expert. On suppose que les deux experts travaillent de façon indépendante. Les données suivantes sont connues : E[ X ] = 0,8z, E[Y ] = z, Var[ X ] = z2 , et Var[Y ] = 1,5z2 , où z représente le vrai montant des dommages. On considère une classe d’estimateurs pour z de la forme Ẑ = αX + βY. Déterminer les valeurs de α et β qui feront de X̂ l’estimateur sans biais à variance uniformément minimale de z. 1.30 Soit 1 (1−θ )/θ x , θ a) Identifier cette distribution. f ( x; θ ) = 0 < x < 1, θ > 0. b) Démontrer que l’estimateur du maximum de vraisemblance de θ est θ̂ = − 1 n ln Xi . n i∑ =1 c) Démontrer que θ̂ est un estimateur sans biais de θ. Réponses 1.1 1 2 1.2 1 5 6 Rappels d’analyse, de probabilité et de statistique 1.3 e 1.4 a) x plus rapide que ln( x ) b) e x plus rapide que x α 1.8 S( x ) = x+x λ 1.9 Binomiale(n, 1 − p) 2 2 1.10 a) FY ( x ) = FX (ln x ), f Y ( x ) = x −1 f X (ln x ) b) e2µ+σ (eσ − 1) 7 1.14 f Y (y) = 74 e− 4 (y−3) , 1.15 f Y (y) = 1 27 , y>3 0 < y < 27 1.16 Gamma( 21 , 12 σ−2 ) 1.18 2 1.19 9/5 1.20 2(ct)−2 (ct2tc − etc + 1) 1.21 332 1.22 a) Gamma(2 500, 50) b) 0,682722 c) 0,6826 1.23 Biais : −500 ; MSE : 250 750 1.24 b) X̄ 1.28 1 1.29 α = 0,6122, β = 0,5102. 1.30 a) Bêta(1/θ, 1) 2 Modélisation en assurance de dommages Rappelons que l’expression «franchise forfaitaire» correspond au terme anglais ordinary deductible, alors que l’expression «franchise atteinte» correspond au terme franchise deductible. 2.1 Les montants suivants représentent les coûts associés aux réparations automobiles de 12 contrats : {579, 110, 842, 213, 98, 445, 1 332, 162, 131, 276, 312, 482}. Les contrats présentent une franchise forfaitaire de 250 $. Calculer le rapport d’élimination de perte (LER) de l’assureur. 2.2 Les montants suivants représentent les coûts associés à des accidents automobiles pour huit contrats : {86 000, 123 000, 423 000, 43 000, 213 000, 28 000, 52 000, 178 000}. Les contrats présentent une limite supérieure de 100 000 $. Calculer le rapport d’élimination de perte de l’assureur. 2.3 Pour un portefeuille dont le montant d’un sinistre obéit à une loi exponentielle de paramètre 0,02, trouver le rapport d’élimination de perte découlant de l’introduction des limites de couvertures suivantes. a) Une franchise atteinte de 10. b) Une franchise forfaitaire de 10. 2.4 On suppose que le montant d’un sinistre obéit à une distribution gamma de paramètres α = 4 et λ = 0,1. Un assureur a signé un traité avec un réassureur où ce dernier s’engage à payer l’excédent de 100 sur chacun des sinistres. Trouver le rapport d’élimination de perte de l’assureur. 2.5 Dans un groupe d’assurés, les sinistres suivants sont survenus : {20, 50, 80, 80, 80, 85, 90, 110, 150, 240, 360, 400}. Trouver le rapport d’élimination de perte de l’assureur si celui-ci a instauré une franchise forfaitaire de 70 et s’il limite ses paiements à 200. 7 8 Modélisation en assurance de dommages 2.6 Soit X, la variable aléatoire représentant le montant d’un sinistre. On sait que E[ X ] = 2 000, que E[ X; 30 000] = 1 640,79 et que le rapport d’élimination de perte de l’assureur pour un contrat avec une franchise forfaitaire de 100 est de 0,0465. Trouver le rapport d’élimination de perte de l’assureur pour un contrat avec une franchise forfaitaire de 100 et une limite supérieure de 30 000. 2.7 Soit X, une variable aléatoire représentant le montant d’un sinistre tel que e− x , x > 0. f X ( x ) = e−2x + 2 a) Trouver E[ X; d]. b) Soit N, une variable aléatoire représentant la fréquence des sinistres. Calculer la prime pure (fréquence moyenne multipliée par la sévérité moyenne) pour une franchise de d = 0,25 et une fréquence moyenne de un sinistre tous les 10 ans. c) Si on observe un taux d’inflation de 5 %, que devient la prime pure ? 2.8 On suppose que le montant d’un sinistre obéit à une loi Pareto de paramètres α = 1,5 et λ = 2 500. a) Calculer le montant moyen des sinistres payé par un assureur pour un contrat de réassurance avec une rétention de 50 000. b) Trouver le rapport d’élimination de perte pour le réassureur si la rétention est de 100 000. 2.9 Soit Y P la variable aléatoire du montant payé par paiement pour un contrat d’assurance avec une franchise forfaitaire de d et X est la variable aléatoire du montant d’un sinistre. Démontrer que E [Y P ] = E[ X ] − E[ X; d] , 1 − FX (d) où E[ X; d] = E[min( X, d)] est l’espérance limitée de X à d. Interpréter le résultat. 2.10 Un assureur décide de modéliser X, la variable aléatoire du montant d’un sinistre, par une distribution Weibull de paramètres τ = 3 et λ = 1/15. Tracer (idéalement de manière informatique, à l’aide du package actuar) les graphiques des variables aléatoires suivantes. a) La variable aléatoire du montant payé par sinistre pour un contrat avec une franchise forfaitaire de 10. b) La variable aléatoire du montant payé par paiement pour une franchise atteinte de 10 et une limite supérieure de 40. c) La variable aléatoire du montant du sinistre avec une coassurance de 80 %. Modélisation en assurance de dommages 9 2.11 Un assureur dispose des informations suivantes : – le montant d’un sinistre pour l’année 1990 obéit à une loi Pareto de paramètres α = 1,5 et λ = 1 500 ; – un taux d’inflation de 5 % par année a été observé entre 1990 et 1992 et de 6 % par année entre 1992 et 1995 ; et – une franchise de 500 est introduite en 1995. a) Calculer le rapport d’élimination de perte pour l’assureur en 1995. b) L’assureur paie un sinistre en 1995. Déterminer la probabilité qu’il paie plus de 2 000 $ c) Déterminer la charge espérée par sinistre de l’assureur s’il avait décidé en 1995 de ne pas payer plus de 3 500 $ par sinistre (en plus de la franchise de 500 $). 2.12 Le tableau ci-dessous présente, sous forme groupée, les montants payés par sinistre pour des sinistres en assurance habitation couverts par des contrats ayant une limite supérieure de 300 000 $. Montant payé Nombre Montant moyen 0 – 2 500 2 500 – 7 500 7 500 – 12 500 12 500 – 17 500 17 500 – 22 500 22 500 – 32 500 32 500 – 47 500 47 500 – 67 500 67 500 – 87 500 87 500 – 125 000 125 000 – 225 000 225 000 – 300 000 300 000 41 48 24 18 15 14 16 12 6 11 5 4 3 1 389 4 661 9 991 15 482 20 232 26 616 40 278 56 414 74 985 106 851 184 735 264 025 300 000 Pour modéliser les données, on utilise une distribution log-normale de paramètres µ et σ2 . À l’aide d’une technique d’estimation quelconque, on trouve que µ̂ = 9,356 et σ̂ = 1,596. a) Estimer le montant payé espéré. b) Estimer le pourcentage de changement dans le montant payé par paiement espéré si l’on observe une inflation de 10 % des sinistres. c) Estimer le pourcentage de réduction dans le montant payé espéré si l’on décide d’ajouter une franchise de 1 000 $ au contrat de base (on ne tient plus compte de l’inflation). 2.13 Soit X, la variable aléatoire représentant le montant d’un sinistre en responsabilité professionnelle pour un médecin. On suppose que la compagnie d’assurance achète un traité de réassurance de rétention δ par 10 Modélisation en assurance de dommages réclamation, c’est-à-dire que le réassureur paie l’excédent des pertes audessus de δ pour chaque réclamation. Si l’on suppose que X a une distribution de Pareto(α, λ), démontrer que la distribution du montant payé par paiement du réassureur a une distribution de Pareto de paramètres α et λ + δ. 2.14 On suppose que le montant d’un sinistre obéit à une loi exponentielle de paramètre 3, c’est-à-dire que f ( x ) = 3−3x , x > 0. On introduit une franchise forfaitaire de 0,2. Lorsque l’assureur effectue un paiement, quelle est la probabilité qu’il soit de plus de 0,50 ? 2.15 Une compagnie décide d’acheter deux contrats d’assurance pour l’année à venir. Le montant moyen des sinistres pour une année est de 11 100 $. La police A a une franchise forfaitaire de 5 000 $ et ne présente pas de limite, alors que la police B a une limite de 5 000 $ et ne présente pas de franchise. Pour la police A, l’espérance de la variable aléatoire du montant payé par sinistre, Y S , est de 6 500 $ et l’espérance de la variable aléatoire du montant payé par paiement, Y P , est de 10 000 $. Sachant qu’un sinistre d’un montant plus petit ou égal à 5 000 $ s’est produit, calculer l’espérance de la variable aléatoire du montant payé par paiement pour le contrat B. 2.16 Un assureur utilise une distribution binomiale négative de paramètres r = 3 et θ = 1/6 pour modéliser la fréquence des sinistres par année et une distribution de Weibull de paramètres τ = 0,3 et λ = 1/1 000 pour modéliser la sévérité des sinistres. Il décide également d’appliquer une franchise forfaitaire de 200. Déterminer le nombre espéré de paiements que fera l’assureur par année. 2.17 Pour un contrat comportant une franchise forfaitaire de d, une limite supérieure de u et une coassurance de α, la variable aléatoire du montant payé par sinistre, Y S , est donnée à partir de la variable aléatoire du montant d’un sinistre, X, par X<d 0, S Y = α( X − d), d ≤ X < u α(u − d), X ≥ u. a) Démontrer que E[Y S ] = α( E[ X; u] − E[ X; d]). b) Trouver Var[Y S ]. c) Trouver l’expression générale de l’espérance du montant payé par sinistre à la suite d’une inflation de 100r %. 2.18 Soient Y S , la variable aléatoire du montant payé par sinistre, X, la variable aléatoire du montant d’un sinistre, d une franchise forfaitaire et Modélisation en assurance de dommages u, une limite supérieure. Démontrer la relation E[Y S ] = E[ X; u] − E[ X; d] à l’aide d’intégrales, et non par une définition astucieuse de la variable aléatoire Y S . 2.19 Le ratio de perte (loss ratio) R est défini comme étant le montant total des sinistres payés pendant l’année, S, divisé par le montant total des primes reçues pendant l’année, π. Une compagnie d’assurance souhaite bien entendu conserver ce ratio sous un certain niveau pour ne pas être en difficulté financière. Pour ce faire, elle offre un bonus B à ses agents à la fin de l’année si le ratio de perte pour l’année est inférieur à 75 %. Le montant du bonus est calculé comme suit : 0,75 − R . B = max 0, π 3 Calculer le montant espéré du bonus si π = 600 000 et que la distribution de la variable aléatoire S est une Pareto avec paramètres α = 3 et λ = 700 000. 2.20 Soit X, une variable aléatoire représentant le montant d’un sinistre. Un assureur souhaite connaître les paiements à sa charge pour un contrat d’assurance incluant une franchise décroissante (disappearing deductible). Dans ce type de contrat, l’assuré assume en entier tout sinistre inférieur à d et l’assureur assume en entier tout sinistre supérieur à d∗ . Entre d et d∗ , le paiement effectué par l’assureur est une fonction linéaire du montant d’un sinistre. a) Définir la variable aléatoire Y P représentant le montant payé par paiement pour un contrat avec une franchise décroissante. b) Trouver l’expression générale en termes de E[ X ], E[ X; x ] et FX ( x ) du montant payé par paiement espéré. Exercices proposés dans Loss Models 3.5, 3.7, 3.8, 3.9, 3.11, 3.15, 8.1 8.2, 8.3, 8.5 8.7 8.8 8.11, 8.12, 8.14, 8.16, 8.17, 8.18, 8.19, 8.23, 8.24, 8.25, 8.26, 8.27. 8.28 Réponses 2.1 0,4946 2.2 0,4686 2.3 a) 0,0175 b) 0,1813 2.4 0,0034 2.5 0,567 11 12 Modélisation en assurance de dommages 2.6 0,226 2.7 a) (3 − e−2d − 2e−d )/4 b) 0,0541 c) 0,0576 2.8 a) 1 091,09 b) 0,8438 2.11 a) 0,1069 b) 0,4107 c) 1 255,23 2.12 a) 33 962 b) +8,04 % c) −2,87 % 2.14 0,22 2.15 3 857 2.16 8,0925 2.17 b) α2 ( E[ X 2 ; u2 ] − E[ X 2 ; d2 ] − 2dE[ X; u] + 2dE[ X; d]) − α2 ( E[ X; u] − E[ X; d])2 c) α(1 + r )( E[ X; u/(1 + r )] − E[ X; d/(1 + r )]) 2.19 76 559,55 2.20 b) ( E[ X ] + d/(d∗ − d) E[ X; d∗ ] − d∗ /(d∗ − d) E[ X; d])/(1 − FX (d)) 3 Modélisation non paramétrique 3.1 Un assureur présente les coûts (en millions de $) créés par les écrasements de météorites : {3, 5, 5, 6, 8, 8, 8, 8, 9, 10, 10, 11, 11, 11, 16, 21, 23, 26, 29, 36}. a) Faire des graphiques de la fonction de répartition empirique et de la fonction de masse de probabilité empirique du coût des écrasements. b) À partir des bornes c0 = 2, c1 = 7, c2 = 12, c3 = 22 et c4 = 38, écrire l’équation de l’ogive. c) En utilisant les mêmes bornes qu’en b), écrire l’équation de l’histogramme. 3.2 Le tableau ci-dessous présente les sinistres enregistrés par un assureur. Classe Nombre de sinistres (0, 50] (50, 150] (150, 250] (250, 500] (500, 1 000] (1 000, ∞) 36 x y 84 80 0 Total n Soit F̃n (·) l’ogive correspondant à ces données. Sachant que F̃n (90) = 0,21 et F̃n (210) = 0,51, déterminer la valeur de x. 3.3 Pour 500 sinistres, un assureur a enregistré la distribution présentée au tableau ci-dessous. Classe Nombre de sinistres (0, 500] (500, 1 000] (1 000, 2 000] (2 000, 5 000] (5 000, 10 000] (10 000, 25 000] (25 000, ∞) 200 110 x y 13 14 Modélisation non paramétrique Soit F̃n (·) l’ogive correspondant à ces données. Sachant que F̃500 (1 500) = 0,689 et F̃500 (3 500) = 0,839, calculer la valeur de y. 3.4 Au cours de la dernière année, la compagnie d’assurance Big Company a remboursé les sinistres présentés dans le tableau ci-dessous. Classe Nombre de sinistres 0 – 1 000 1 000 – 3 000 3 000 – 5 000 5 000 – 10 000 10 000 – 25 000 25 000 – 50 000 50 000 – 100 000 100 000 et plus 16 22 25 18 10 5 3 1 Tracer l’ogive de ces données et calculer, à la main et avec R, la probabilité que le montant d’une réclamation soit compris entre 2 000 $ et 6 000 $. Expliquer le traitement réservé à la dernière classe. 3.5 Un assureur a enregistré les montants de sinistres suivants au cours de la dernière année : {80, 153, 162, 267, 410}. Soit F̆ ( x ) l’estimateur avec noyaux uniformes de bande 50 de la fonction de répartition et soit F5 ( x ) la fonction de répartition empirique. Calculer | F5 (150) − F̆ (150)|. 3.6 Un assureur estime la densité des données {150, 210, 240, 300} à l’aide d’un estimateur avec noyaux triangulaires de largeur de bande 50. a) Calculer la moyenne de f˘( x ). b) Tracer le graphique de f˘( x ). 3.7 Un échantillon est composé des valeurs {5, 7, 4, 5, 9, 8, 3, 5, 4, 10}. Évaluer au point 6,2 un estimateur de la densité avec a) noyaux uniformes et largeur de bande 0,5. b) noyaux uniformes et largeur de bande 1. c) noyaux uniformes et largeur de bande 2. d) noyaux uniformes et largeur de bande 3. e) noyaux triangulaires et largeur de bande 0,5. f) noyaux triangulaires et largeur de bande 1. g) noyaux triangulaires et largeur de bande 2. 3.8 Pour l’échantillon {2, 4, 6, 8, 10}, on construit un estimateur lissé de la densité de probabilité avec noyaux triangulaires. Quelle est la plus petite largeur de bande qui assure que f˘(5) = 0,01 ? Modélisation non paramétrique 15 3.9 Un assureur a enregistré les montants suivants (en 1 000 000 $) liés à des catastrophes naturelles : {2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 8, 8, 9, 15, 17, 22, 23, 24, 24, 25, 27, 32, 43}. a) Tracer le graphique de la fonction de répartition empirique F40 . b) En utilisant les bornes c0 = 1,5, c1 = 2,5, c2 = 6,5, c3 = 29,5, et c4 = 49,5, tracer l’ogive des données sur le même graphique que pour la sousquestion précédente. L’ajustement semble-t-il bon ? Détailler. Le choix des bornes semble-il correct ? c) Tracer l’histogramme des données en utilisant les mêmes classes qu’en b). d) Calculer la moyenne et l’écart type empiriques. 3.10 Un assureur a enregistré les montants de sinistres suivants (en millions) : {1, 2, 2, 4, 6, 6, 6, 8, 8, 10}. Construire un intervalle de confiance de niveau 0,95 pour F (4). 3.11 Le tableau ci-dessous présente les sinistres censurés à droite enregistrés par un assureur pendant l’année 2002. Montant 500 800 1 200 1 700 Nombre de sinistres Groupe-risque 3 10 11 2 52 40 19 6 Calculer l’estimateur de F (1 200) basé sur l’estimateur de Nelson-Aalen Hn (1 200). 3.12 Le tableau ci-dessous présente les sinistres enregistrés par un assureur pendant l’année 2006. Montant 1 000 3 400 4 500 7 500 15 000 17 500 Nombre de sinistres Groupe-risque 1 1 1 1 1 1 20 19 18 17 16 15 a) Déterminer l’estimateur de Nelson-Aalen, Hn ( x ), pour les six valeurs du tableau. 16 Modélisation non paramétrique b) On va maintenant tenter d’appliquer la méthode d’estimation par noyaux au taux d’incidence. Pour une fonction de densité, l’estimateur par noyaux est f˘( x ) = s ∑ f n (y j )k j ( x ), j =1 que l’on peut aussi écrire sous la forme 1 s f˘( x ) = ∑ f n (y j )k j b j =1 x − yj b en définissant k j sur l’intervalle [−1, 1]. Par analogie, pour le taux d’incidence, on va utiliser x − yj 1 s h̆( x ) = ∑ hn (y j )k j , b j =1 b en estimant hn (y j ) par ∆Hn (y j ). En utilisant un noyau uniforme, c’est-à-dire ( 1/2, −1 ≤ x ≤ 1 k( x) = 0, ailleurs et une largeur de bande de 6 000, calculer h̆(10 000). 3.13 Un assureur a enregistré les 30 réclamations suivantes : deux réclamations de 2 000 $, six réclamations de 4 000 $, 12 réclamations de 6 000 $ et 10 réclamations de 8 000 $. Donner la valeur de l’estimateur empirique du coefficient d’asymétrie et son interprétation. 3.14 Le tableau ci-dessous présente les réclamations enregistrées par un petit assureur automobile pendant une année. Montant enregistré Fréquence 100 200 300 400 500 1 4 10 4 1 Calculer les estimateurs empiriques du coefficient d’asymétrie et du coefficient d’aplatissement. 3.15 Soit l’échantillon suivant {12, 16, 20, 23, 26, 28, 30, 32, 33, 35, 36, 38, 39, 40, 41, 43, 45, 47, 50, 57}. Modélisation non paramétrique 17 a) Calculer l’estimateur lissé du soixantième centile. b) Calculer l’estimateur lissé du troisième quartile. 3.16 On a les données groupées présentées dans le tableau ci-dessous. En supposant que les données sont distribuées uniformément sur chacun des intervalles, calculer une estimation empirique de E[min( X, 320)]. Classe Nombre de données (0, 50] (50, 100] (100, 200] (200, 500] 20 34 22 24 3.17 On dispose d’un échantillon de cinq données d’une distribution continue. À partir de cet échantillon, un intervalle de confiance non paramétrique pour la médiane est construit, dont les bornes sont les 2e et 4e statistiques d’ordre de l’échantillon. Quel est le niveau de confiance de cet intervalle ? 3.18 On dispose d’un échantillon de taille 500 d’une distribution continue. À partir de cet échantillon, un intervalle de confiance non paramétrique pour la médiane est construit, dont les bornes sont les statistiques d’ordre X(240) et X(260) de l’échantillon. Quel est le niveau de confiance de cet intervalle ? 3.19 Un assureur a enregistré les montants de sinistres suivants (en milliers) : {1, 1, 1, 2, 2, 3, 5, 6, 9, 10, 12, 15, 15, 20, 30, 32, 33, 33, 35, 40}. Déterminer le niveau de confiance de l’intervalle [10, 20) pour π0,55 . 3.20 Soit Y ∼ Gamma(α, λ) et X = eY . On a f Y (y) = λα α−1 −λy y e , Γ(α) y > 0. a) Déterminer la distribution de X. b) Soit α = 1 et l’estimateur λ̂ = X̄ . X̄ − 1 Évaluer empiriquement le biais de cet estimateur de la façon suivante : 1. Choisir une valeur de λ plus grande que 1 (la solution est construite avec λ = 5). ( j) ( j) 2. Simuler des observations x1 , . . . , xn de la variable X dont la distribution a été déterminée en a). 18 Modélisation non paramétrique 3. Répéter les étapes 2 et 3 pour j = 1, 2, . . . , r. 4. Calculer le biais moyen 5. Estimer le biais comme suit : b̂λ̂ (λ) = 1 r ( j) λ̂ − λ. r j∑ =1 Faire cette estimation pour i) n = 10 et r = 1 000 ; ii) n = 1 000 et r = 100 ; et iii) n = 1 000 et r = 1 000. Discuter de l’impact du nombre d’observations dans l’échantillon et du nombre de répétitions dans la simulation. c) En utilisant les estimateurs de la partie b) ii), tracer la fonction de répartition empirique de λ̂. d) En utilisant les estimateurs de la partie c) et les classes calculées automatiquement par la fonction hist, tracer l’histogramme et l’ogive de la distribution de λ̂. e) Calculer les 45e et 70e quantiles lissés des données de la partie c). Exercices proposés dans Loss Models 13.2, 13.3, 13.4, 13.6, 13.7, 13.8, 13.9, 14.2, 14.3, 14.6, 14.7, 14.8, 14.11, 14.12, 14.14, 14.18, 14.19, 14.22, 14.25, 14.28, 14.29, 14.31, 14.34, 14.35, 3.1, 3.2, 3.4, 3.13, 3.14, 3.16, 15.9, 15.10 Réponses 3.1 b) 0, ( x − 2)/25, ( x − 5)/10, F̃20 ( x ) = ( x + 58)/100, ( x + 42)/80, 1, x≤2 2<x≤7 7 < x ≤ 12 12 < x ≤ 22 22 < x ≤ 38 x > 38 Modélisation non paramétrique 19 c) 0, 1/25, 1/10, f˜20 ( x ) = 1/100, 1/80, 0, x≤2 2<x≤7 7 < x ≤ 12 12 < x ≤ 22 22 < x ≤ 38 x > 38. 3.2 120 3.3 81 3.4 0,396 3.5 0,17 3.6 a) 225 3.7 a) 0 b) 0,05 c) 0,125 d) 0,1333 e) 0 f) 0,02 g) 0,095 3.8 1,0264 3.9 d) 9,225 et 10,2369 3.10 (0,0964, 0,7036) 3.11 0,5880 3.12 a) 0,05, 0,1026, 0,1582, 0,2170, 0,2795, 0,3462 b) 0,00001449 3.13 −0,559 3.14 γ1 = 0, γ2 = 3,125 3.15 a) 38,6 b) 42,5 3.16 134,54 3.17 0,625 3.18 0,6287 3.19 0,6208 3.20 a) Log-gamma(α, λ) 4 Modèles paramétriques potentiels 4.1 Soit X, une variable aléatoire avec densité Pareto(α, λ) représentant le montant d’un sinistre et c > 0, une constante. Démontrer que la distribution de Y = cX est une distribution Pareto(α, cλ). 4.2 Soit X, une variable aléatoire avec fonction de densité f (x) = 1 −| x/θ | e , 2θ −∞ < x < ∞. Trouver la fonction de répartition de Y = e X . 4.3 Il existe une relation intéressante entre les fonctions de répartition des lois gamma et Poisson. Soit X, une variable aléatoire avec densité Gamma(α, β) et α un entier. Démontrer que Pr( X ≤ x ) = Pr(Y ≥ α), où Y ∼ Poisson( x/β). Utiliser la paramétrisation de la loi gamma où le second paramètre est un paramètre d’échelle. 4.4 Soit X, une variable aléatoire avec densité de Pareto généralisée(α, τ, λ). Démontrer que la distribution de Y= X X+λ est une distribution bêta et identifier les paramètres de cette loi. 4.5 Soit X, une variable aléatoire telle que X ∼ Pareto(α, 1). Trouver la fonction de répartition de la variable aléatoire Y = 5X −1/4 et identifier cette distribution ainsi que ses paramètres. 4.6 Soit X, une variable aléatoire avec densité Gamma(α, λ). a) Trouver la fonction de densité de Y = e X . b) Trouver E[Y ] et Var[Y ]. c) Est-ce que tous les moments existent ? 21 22 Modèles paramétriques potentiels 4.7 Soit X, une variable aléatoire et i (0 ≤ i ≤ 1), le taux d’inflation pour l’année 2006. Pour chacune des lois ci-dessous, trouver la distribution de Y = (1 + i ) X : a) X ∼ Pareto(α, λ). b) X ∼ Burr(α, γ, θ ). c) X ∼ Log-gamma(α, λ). 4.8 Soit X, une variable aléatoire avec densité Pareto(α, λ). Trouver la fonction de densité de Y = X 1/τ , τ > 0. 4.9 Un assureur modélise des données à l’aide de la variable aléatoire X qui a une distribution de Pareto de paramètres α et θ. On pose Y = ln(1 + X/θ ). Déterminer la distribution de Y. 4.10 Un assureur automobile a dans sa base de données les montants des sinistres de 2004. Il estime que les sinistres obéissaient alors à une loi Burr(α = 0,5, γ = 2, θ = 3). Pour s’en servir le premier janvier 2007, il se doit de les mettre à jour selon les considérations suivantes : – 2005 : inflation de 4 % ; – 2006 : inflation de 4,5 % ; et – nouvelles taxes de 16 %. Quelle est la probabilité d’avoir un sinistre supérieur à 4 en 2007 ? 4.11 Soit X, la variable aléatoire représentant le montant d’un sinistre (en millions) pour l’année 2006. Sa fonction de densité de probabilité est f ( x ) = 3x −4 , x ≥ 1. On observe qu’une inflation de 10 % affecte uniformément tous les sinistres de 2006 à 2007. a) Trouver la fonction de répartition du montant des sinistres en 2007. b) Trouver la probabilité que le montant d’un sinistre en 2007 soit supérieur à 2 200 000 $. 4.12 Pour un assuré d’un certain groupe, le nombre de sinistres suit une loi Binomiale(10, θ ). Sachant que, dans ce groupe, le paramètre θ est tiré d’une distribution uniforme sur l’intervalle (0, 1), trouver la probabilité qu’un assuré pris au hasard ait plus de six sinistres au cours d’une période. 4.13 Soit X, une variable aléatoire telle que la distribution conditionnelle de X étant donné le paramètre Θ = θ est une distribution Gamma(τ, θ ), où Θ obéit à une loi gamma de paramètres α et λ. Trouver la distribution de X. Modèles paramétriques potentiels 23 4.14 On suppose que X a une distribution conditionnelle géométrique telle que Pr( X = x |Θ = θ ) = θ (1 − θ ) x−1 , x = 1, 2, . . . et θ est une réalisation de la variable aléatoire Θ de loi Bêta(α, β). Démontrer que la fonction de masse de probabilité de X est Pr( X = x ) = Γ ( α + β ) Γ ( α + 1) Γ ( β + x − 1) . Γ(α)Γ( β)Γ(α + β + x ) 4.15 On suppose que X a une distribution conditionnelle de Weibull(τ, θ 1/τ ) telle que τ f ( x |Θ = θ ) = τθx τ −1 e−θx , x > 0. Aussi, on suppose que Θ ∼ Gamma(α, λ). Démontrer que la distribution marginale de X est une Burr(α, τ, λ1/τ ). 4.16 On suppose que le montant d’un sinistre pour un groupe d’assurés a une distribution Burr(5, 1, λ). Si λ est une réalisation de la variable aléatoire Λ pour ce groupe d’assurés et que l’on suppose que Λ ∼ Gamma(10, 2), trouver l’espérance et la variance du montant d’un sinistre pour un assuré pris au hasard. 4.17 Soit le taux d’échec suivant pour le montant d’un sinistre pour une valeur donnée de θ, 3 λ( x |θ ) = , x+θ où x est la réalisation de la variable aléatoire X représentant le montant d’un sinistre et θ est la réalisation de la variable aléatoire Θ où Θ ∼ Gamma(10, 0,01). Trouver l’espérance et la variance du montant d’un sinistre pris au hasard. 4.18 Comparer les queues des lois Gamma(α, λ) et Log-normale(µ, σ2 ). 4.19 Soit X, une variable aléatoire représentant le montant d’un sinistre et l’espérance de vie résiduelle suivante e( x ) = 2 000 + 2x. Pour un contrat d’assurance comportant une limite supérieure de 10 000, trouver le ratio d’élimination de perte (LER) de l’assureur. 4.20 Le tableau ci-dessous présente l’espérance de vie résiduelle pour certaines valeurs de x. x e( x ) 0 4 9 14 4 7 10,75 14,5 24 Modèles paramétriques potentiels a) À quelle distribution peut-on associer ces données et quelles sont les valeurs de ses paramètres ? b) Trouver E[ X; 10]. 4.21 On construit une distribution raccordée sur les sous-intervalles (0, 2), (2, 8) et (8, 16) avec les poids respectifs 0,5, 0,20 et 0,30. Dans chacun des sous-intervalles, on utilise une distribution gamma, de moyenne égale au point milieu du sous-intervalle et de variance égale à 1. Écrire la densité de probabilité obtenue sur (0, 16). La réponse sera en fonction de la gamma incomplète. 4.22 On construit un modèle raccordé avec une distribution uniforme sur l’intervalle (0, 10) et une loi de Pareto de paramètres α = 3 et λ = 100 sur le reste des valeurs positives. Quels poids doivent être accordés aux distributions pour que la densité obtenue soit continue ? 4.23 a) Comparer les queues d’une distribution Weibull(λ, τ ) et d’une distribution Weibull inverse(θ, α) en utilisant les critères suivants : i) l’existence des moments ; et ii) la comparaison des fonctions de survie. b) En utilisant une distribution Weibull et une distribution Weibull inverse dont les moyennes et variances sont égales, comparer graphiquement les queues des distributions. 4.24 Soit Y, une variable aléatoire telle que f Y (y) = SX (y) E[ X ] pour une variable aléatoire X quelconque. On dit qu’une telle distribution est équilibrée. Démontrer que MY (t) = MX (t ) − 1 tE[ X ] lorsque MX (t) existe. Astuce 1 : intégrer par parties. Astuce 2 : l’existence de MX (t) signifie que l’intégrale MX (t ) = Z ∞ 0 etx f X ( x ) dx converge. 4.25 Un assureur modélise ses sinistres par une variable aléatoire X avec densité f ( x ) = (1 + 2x2 )e−2x , x ≥ 0. a) Calculer la fonction de survie SX ( x ). b) Calculer le taux d’incidence h( x ). Modèles paramétriques potentiels c) Calculer la fonction d’espérance résiduelle e( x ). d) Calculer limx→∞ h( x ). e) Calculer limx→∞ e( x ). f) Démontrer que e( x ) est une fonction strictement décroissante, mais que h( x ) n’est pas une fonction strictement croissante. Exercices proposés dans Loss Models 5.1, 5.3, 5.4, 5.5, 5.7, 5.9, 5.13, 5.17, 5.18, 5.19, 5.20, 5.21, 5.22, 5.23, 3.25, 3.26, 3.27 Réponses 4.2 FY (y) = 12 eln(y)/θ I{0<y<1} + (1 − 12 eln(y)/θ ) I{y≥1} 4.4 Bêta(τ, α) 4.5 Burr inverse(α, 4, 5) 4.6 a) Log-gamma(α, λ) b) E[Y ] = (λ/(λ − 1))α , Var[Y ] = (λ/(λ − 2))α − (λ(λ − 1))2α c) Non 4.7 a) Pareto(α, (1 + i )λ) b) Burr(α, γ, (1 + i )θ ) c) f Y (y) = λα (1 + i )λ (ln(y) − ln(1 + i ))α−1 y−λ−1 /Γ(α) 4.8 Burr(α, τ, λ1/τ ) 4.9 Exponentielle(α) 4.10 0,6870 4.11 a) F ( x ) = 1 − 1,331x −3 , x ≥ 1,1 b) 0,125 4.12 4/11 4.13 X ∼ Pareto généralisée(α, τ, λ) 4.16 5/4 et 145/48 4.17 500, 850 000 4.18 La distribution log-normale a une queue plus lourde que la distribution gamma. 4.19 0,30 4.20 a) Pareto(7/3, 16/3) b) 3,0215 25 26 Modèles paramétriques potentiels 4.21 f X (x) = 0,5e− x , Γ(1; 2) 0,2 525 x25−1 e−5x , Γ(25; 40) − Γ(25; 10) Γ(25) 144 144 − 1 e−12x 0,3 12 x , Γ(144; 192) − Γ(144; 96) Γ(144) 4.22 3/14 4.25 a) (1 + x + x2 )e−2x b) 2 − (1 + 2x )/(1 + x + x2 ) c) (1 + x + 0,5x2 )/(1 + x + x2 ) 0<x≤2 2<x≤8 8 < x ≤ 16 5 Modélisation paramétrique 5.1 Soit X, une variable aléatoire représentant le montant d’un sinistre. On suppose X |Λ = λ ∼ Exponentielle(λ) Λ ∼ Gamma(α, β). Les sinistres suivants ont été observés : {1, 10, 200, 1 000, 5 000}. Estimer α et β par la méthode des moments. 5.2 On dispose d’un échantillon aléatoire avec deux données inférieures à 2 000 et quatre données entre 2 000 et 5 000. Les données supérieures à 5 000 n’ont pas été enregistrées. Écrire la fonction de vraisemblance pour un modèle de loi exponentielle. 5.3 Un assureur automobile a enregistré les montants de sinistres suivants : {1 000, 850, 750, 1 100, 1 250, 900}. Il souhaite utiliser une distribution Gamma(α, 1/θ ) pour les représenter. Estimer les paramètres de cette distribution à l’aide de la méthode des moments. 5.4 Un actuaire dispose d’un échantillon aléatoire tiré d’une distribution loglogistique. Dans cet échantillon, 80 % des données sont supérieures à 100 et 20 % des données sont supérieures à 400. Calculer les estimateurs des paramètres de la distribution à l’aide de la méthode des quantiles. 5.5 Soit x1 , . . . , xn un échantillon aléatoire d’une population dont la fonction de répartition est FX ( x ) = x p , 0 < x < 1. Déterminer l’estimateur de p par la méthode des moments. 5.6 Pendant une année, un assureur a enregistré les montants de sinistres suivants : {500, 1 000, 1 500, 2 500, 4 500}. Il décide de modéliser ces données par une loi Log-normale(µ, σ ). En utilisant la méthode des moments, estimer les paramètres µ et σ. Calculer ensuite la probabilité d’avoir un sinistre supérieur à 4 500. 27 28 Modélisation paramétrique 5.7 Soit X, une variable aléatoire avec densité f ( x ) = β−2 xe − 12 ( βx )2 , x > 0, β > 0. √ L’espérance de cette variable aléatoire est donnée par β 2π/2. On a observé les cinq valeurs suivantes : {4,9, 1,8, 3,4, 6,9, 4,0}. Déterminer l’estimateur de β à l’aide de la méthode des moments. 5.8 On suppose que la distribution du montant des sinistres obéit à une loi Weibull(τ, λ) de paramètres inconnus. a) Sachant que 50 % des sinistres sont supérieurs à 1 000 $ et que 75 % des sinistres sont supérieurs à 500 $, estimer τ et λ par la méthode des quantiles. b) À partir des estimations obtenues en a), estimer le 80e centile. 5.9 Soit X, la variable aléatoire représentant le montant d’un sinistre. On suppose que le montant d’un sinistre pour un λ fixé obéit à une distribution Exponentielle(λ) et que λ est une réalisation de la variable aléatoire Λ, où Λ ∼ Gamma(α, β). À la suite d’une expérience, on observe que 0,1 % des sinistres sont supérieurs à 450 et que 87,5 % des sinistres sont inférieurs à 50. Trouver l’équation, uniquement fonction de β, que l’on doit résoudre pour estimer β et qui, après avoir été résolue, permet d’estimer le paramètre α. 5.10 Pour des contrats en assurance automobile avec les modalités suivantes, on a observé pour l’année 1999 : – un rapport d’élimination de perte de 0,56 avec une franchise forfaitaire de d = 200 ; – un rapport d’élimination de perte de 0,32 avec une franchise atteinte de d = 200 ; – un rapport d’élimination de perte de 0,79 avec une franchise forfaitaire de d = 500 ; – un rapport d’élimination de perte de 0,52 avec une franchise atteinte de d = 500. On a aussi observé que le montant moyen d’un sinistre est de 200 $. Si on suppose une loi de Weibull(τ, λ) pour modéliser le montant d’un sinistre, estimer les paramètres τ et λ par la méthode des quantiles. 5.11 Un assureur a déterminé que 20 % des sinistres de son portefeuille sont supérieurs à 50 $ et que 10 % des sinistres sont supérieurs à 55 $. D’après ces données, estimer A et B (à l’aide de la méthode des quantiles) pour 1 , a<x<b f X (x) = b − a 0, ailleurs. Modélisation paramétrique 29 5.12 On a enregistré n essais indépendants X1 , . . . , Xn de la variable aléatoire X ∼ Bernoulli( p). Trouver l’estimateur du maximum de vraisemblance pour p. 5.13 Soit X1 , . . . , Xn , un échantillon aléatoire provenant d’une loi normale de paramètres µ et σ2 inconnus. a) Trouver les estimateurs du maximum de vraisemblance de µ et σ2 . b) Démontrer que µ̂ et σ̂2 ont approximativement une distribution normale conjointe avec moyennes µ et σ2 et variances σ2 /n et 2σ4 /n. c) Trouver l’approximation de la distribution de l’estimateur h(µ̂, σ̂2 ) de c−µ . h(µ, σ2 ) = Pr( X ≤ c) = Φ σ 5.14 Soit X, une variable aléatoire représentant les montants de sinistres dont on possède un échantillon de taille n. La fonction de densité de probabilité de X est 2 f ( x ) = 2θxe−θx , x > 0. Déterminer l’estimateur du maximum de vraisemblance de θ. 5.15 Un assureur possède un échantillon aléatoire x1 , . . . , xn et il souhaite modéliser la variable aléatoire sous-jacente à l’aide de la fonction F(x) = x p , 0 < x < 1. a) Déterminer l’estimateur du maximum de vraisemblance de p. b) Quelle est la variance asymptotique de l’estimateur du maximum de vraisemblance de p ? c) À partir de la réponse obtenue en b), déterminer un intervalle de confiance de niveau 95 % pour p. d) Déterminer l’estimateur du maximum de vraisemblance de E[ X ]. e) À partir de la réponse obtenue en d), déterminer un intervalle de confiance de niveau 95 % pour E[ X ]. 5.16 La variable aléatoire X a la densité suivante : f ( x ) = αλα (λ + x )−α−1 , x > 0. On sait que λ = 1 000. À partir de l’échantillon {43, 145, 233, 396, 777}, déterminer l’estimation du maximum de vraisemblance de α. 5.17 Quatre observations sont faites d’une variable aléatoire dont la densité est 2 f ( x ) = 2λxe−λx , x > 0. La seule information dont on dispose est qu’une des quatre observations est inférieure à 2. Calculer une estimation du maximum de vraisemblance de λ. 30 Modélisation paramétrique 5.18 Un échantillon de taille 40 a été tiré d’une population dont la densité est f ( x ) = (2πθ )−1/2 e− x 2 / (2θ ) −∞ < x < ∞. , À partir de cet échantillon, on détermine une estimation du maximum de vraisemblance de θ : θ̂ = 2. Déterminer une approximation de l’erreur quadratique de θ̂. 5.19 On suppose que X obéit à une distribution log-gamma : f (x) = λ2 ln( x ) , x λ +1 x > 1. a) Trouver l’estimateur des moments de λ. b) Trouver l’estimateur du maximum de vraisemblance de λ. 5.20 Soit l’échantillon suivant provenant d’une distribution Gamma(5, λ) : {2, 20, 5, 4, 19}. a) Trouver l’estimateur du maximum de vraisemblance de λ et en calculer la valeur. b) Trouver la variance de λ̂ si λ = 58 . 5.21 Le tableau ci-dessous présente les sinistres payés en 1999. On pose l’hypothèse que la sévérité d’un sinistre est distribuée selon une loi de Pareto de paramètres α et 1. Déterminer l’équation finale permettant de trouver l’estimateur du maximum de vraisemblance de α. Montant (0, 2] (2, 5] (5, 11] (11, ∞) Nombre de sinistres 2 0 1 1 5.22 Le tableau ci-dessous présente les sinistres payés par un assureur. On pose que la distribution de X est une exponentielle de paramètre β inconnu. Quel est l’estimateur du maximum de vraisemblance de β ? Montant (0, 1] (1, 2] (2, ∞) Nombre de sinistres 1 0 1 5.23 Soit X1 , . . . , Xn un échantillon aléatoire provenant d’une loi Weibull de densité 2 f ( x ) = 2λxe−λx , x > 0. On estime Pk = Pr( X ≤ k) par la méthode du maximum de vraisemblance. Modélisation paramétrique a) Déterminer P̂k . b) Déterminer la variance de l’estimateur trouvé en a). c) Si X1 = X2 = 10 et X3 = 15, calculer Pr( P̂10 ≤ 12 ). 5.24 Sachant qu’un échantillon aléatoire X1 , . . . , X50 provenant d’une distribution de Pareto(α, λ) a conduit aux estimations α̂ = 1,5 et λ̂ = 1 500 par la méthode du maximum de vraisemblance, estimer les variances des estimateurs α̂ et λ̂ ainsi que leur covariance. 5.25 On suppose que le montant d’un sinistre obéit à une loi de Pareto(α, λ). Pendant une année, on observe 50 sinistres. À l’aide des montants des 50 sinistres, on obtient α̂ = 2, λ̂ = 4, Var[α̂] = 24 et Var[λ̂] = 40. Si la covariance entre les estimateurs α̂ et λ̂ est 10, trouver un intervalle de confiance de niveau α = 0,15 pour Pr( X > 10). 5.26 Soit X la variable aléatoire représentant le montant d’un sinistre. On observe les sinistres suivants en assurance automobile : {25, 88, 33, 62, 44, 75, 47, 53}. On suppose que X ∼ Exponentielle(λ). a) Estimer la variance de la distribution de l’estimateur du maximum de vraisemblance de E[ X; 50]. b) Estimer la variance de la distribution de l’estimateur du maximum de vraisemblance de π0,95 . 5.27 Soit X, une variable aléatoire indiquant si une expérience est un succès (1) ou un échec (0) et dont la distribution est une loi de Bernoulli de paramètre α. On sait que la distribution a priori du paramètre α est une loi U (0, 1). On a observé un succès en trois essais. a) Calculer l’estimateur bayesien α̂ si la fonction de perte choisie est l’erreur quadratique. b) Trouver l’estimation bayesienne de la probabilité que α se retrouve entre 0,2 et 0,4. 5.28 On suppose que X |Θ = θ obéit à une loi de Poisson(θ ) et que la distribution a priori de Θ est une loi Gamma(α, λ). Pour un échantillon de taille n, trouver l’estimateur bayesien θ̂ si la fonction de perte choisie est l’erreur quadratique. 5.29 On suppose que X | A = α ∼ Pareto(α, 1) et que la distribution a priori de A est une Exponentielle(3). a) Trouver la distribution a posteriori de A. b) Calculer α̂ à partir de l’échantillon {2, 1, 2, 3, 3, 4} si la fonction de perte choisie est l’erreur quadratique. 31 32 Modélisation paramétrique 5.30 On suppose que X | B = β ∼ Exponentielle( β) et que la distribution a priori de B est une Gamma(2, 3). On a l’échantillon aléatoire suivant : {6, 11, 8, 13, 9} a) Calculer l’estimateur bayesien du paramètre β si la fonction de perte est l’erreur quadratique. b) Répéter la partie a) avec la fonction de perte valeur absolue de l’erreur. On fournit les valeurs Γ(7; 4,734) = 0,2 Γ(7; 5,411) = 0,3 Γ(7; 6,670) = 0,5 Γ(7; 7,343) = 0,6. Γ(7; 6,039) = 0,4 5.31 Au cours d’une session, les étudiants en actuariat font des devoirs informatiques. En faisant ces devoirs, il leur arrive de rester bloqués. Le nombre de fois où un étudiant reste bloqué dans un devoir suit une distribution Binomiale(3, θ ), où l’on suppose que θ est uniformément distribué sur l’intervalle (0,25, 0,75). Deux étudiants sont restés bloqués chacun deux fois pendant un certain devoir. a) Trouver l’estimateur bayesien de θ avec une fonction de perte quadratique. b) Déterminer la probabilité a posteriori que θ se retrouve dans l’intervalle (0,6, 0,7). 5.32 Pour des contrats d’assurance comportant une rétention de 1,5 millions, 40 catastrophes ont été déclarées au réassureur. Le réassureur suppose que les montants de sinistres obéissent à une loi de Pareto(α, λ). Soit W la variable aléatoire représentant un montant de sinistre déclaré au réassureur (en millions). À l’aide des montants qui lui ont été déclarés, le réassureur a estimé les paramètres α et λ par la méthode du maximum de vraisemblance. Il a obtenu α̂ = 5,084 et λ̂ = 28,998. a) Trouver, par la méthode du maximum de vraisemblance, l’estimation de Pr(W > 29,5). b) Si la matrice variance-covariance de (α̂, λ̂) est 23,92 167,07 , 167,07 1 199,32 estimer la variance de l’estimateur de Pr(W > 29,5) utilisé en a). 5.33 Soit X la variable aléatoire représentant le montant d’un sinistre. On suppose X ∼ Exponentielle(λ). Pour des contrats d’assurance comportant une franchise forfaitaire de 100 $ et une limite supérieure de 3 000 $, les montants de sinistres suivants ont été payés par l’assureur : {100, 200, 250, 425, 515, 630, 1 000, 1 500, 2 900, 2 900}. Estimer le montant espéré d’un sinistre par la méthode du maximum de vraisemblance. Modélisation paramétrique 5.34 Un assureur signe un traité de réassurance excess-of-loss de plein 150, c’est-à-dire que l’assureur ne paie que les 150 premiers dollars de chaque sinistre et le réassureur se charge de l’excédent. Cet assureur veut calculer combien lui coûterait la hausse du plein à 200, mais il ignore la distribution du coût des sinistres. L’assureur a payé les montants suivants : {10, 70, 100, 105, 110, 150, 150, 150} et il suppose que le coût des sinistres est distribué comme suit : ( λe−λx , x > 0 f (x) = 0, ailleurs. Quel est l’estimateur du maximum de vraisemblance de λ en supposant que les trois montants de 150 de l’échantillon proviennent d’un montant payé supérieur à 150 $ ? 5.35 On dispose d’un échantillon tiré d’une loi exponentielle présentant deux observations entre 0 et 2, quatre observations entre 2 et 5 et trois observations entre 5 et 8. Estimer le paramètre de la loi par la méthode de Cramér–von Mises avec poids unitaires. Exercices proposés dans Loss Models 15.1, 15.2, 15.3, 15.4, 15.6, 15.8, 15.11, 15.12, 15.15, 15.20, 15.22, 15.23, 15.24, 15.25, 15.26, 15.29, 15.33, 15.37, 15.38, 15.39, 15.40, 15.46, 15.47, 15.48, 15.51, 15.52, 15.53, 15.57, 15.58, 15.59, 15.60, 15.62, 15.64, 15.65, 15.66, 15.68, 15.70, 15.71, 15.72, 15.73, 15.75 Réponses 5.1 α̂ = 3,45, β̂ = 3 048,87 5.2 L(λ) = [(1 − e−2 000λ )2 (e−2 000λ − e−5 000λ )4 ]/(1 − e−5 000λ )6 5.3 α̂ = 34,83, θ̂ = 27,99 5.4 γ̂ = 2, θ̂ = 200 5.5 x̄/(1 − x̄ ) 5.6 µ̂ = 7,40, σ̂ = 0,6368 et 0,056 5.7 3,3511 5.8 a) τ̂ = 1,2687, λ̂ = 0,000747 b) 1 947 5.9 β( β + 450)0,3010 = β0,3010 ( β + 50) 33 34 Modélisation paramétrique 5.10 τ̂ = 0,48, λ̂ = 0,01, 5.11 a = 10, b = 60 5.12 p̂ = X̄ 5.13 a) µ̂ = X̄, σ̂2 = S2 c) h(µ̂, σ̂2 ) ∼ N (h(µ, σ2 ), V ), V = φ2 ((c − µ̂)/σ̂ )(1/n + (c − µ̂)2 /(2nσ̂2 )) 5.14 n/ ∑in=1 xi2 √ 5.15 a) −n/ ∑in=1 ln xi√b) p2 /n c) p̂ ± 1,96p/ n d) p̂/(1 + p̂) e) p̂/(1 + p̂) ± 1,96 p̂(1 + p̂)−2 / n 5.16 3,8629 5.17 1 4 ln 43 5.18 0,20 √ √ 5.19 a) X̄/( X̄ − 1) b) 2n/ ∑in=1 ln( Xi ) 5.20 a) 1/2 b) 1/64 5.21 L(α) = (1 − (1/3)α )2 ((1/6)α − (1/12)α )(1/12)α 5.22 ln(1,5) 2 2 5.23 a) 1 − e−λ̂k , λ̂ = n/ ∑in=1 Xi2 b) k4 λ2 e−2λk /n c) 0,4875 d (α̂, λ̂) = 393,75 d [α̂] = 0,28133, Var d [λ̂] = 656 250, Cov 5.24 Var 5.25 (0, 0,7653) 5.26 a) 20,68 b) 3 196 5.27 a) 0,4 b) 0,3432 5.28 (α + ∑in=1 Xi )/(λ + n) 5.29 a) Gamma(n + 1, 3 + ∑in=1 ln(1 + xi )) b) 0,68 5.30 a) 0,14 b) 0,1334 5.31 a) 0,5668 b) 0,3055 5.32 a) 0,0365 b) 0,00057 5.33 1 302,50 5.34 0,0059 5.35 0,2286 6 Tests d’adéquation 6.1 On suppose que la variable aléatoire représentant le montant d’un sinistre a une distribution de Pareto avec paramètres α = 2 et λ = 1 000. Un échantillon de taille 10 présente trois données entre 0 et 250, deux données entre 250 et 500, trois données entre 500 et 1 000 et deux données supérieures à 1 000. Appliquer le test du khi carré à un seuil de signification de 10 % même si les nombres de sinistres attendus dans chaque classe ne sont pas supérieurs à cinq. 6.2 Le tableau ci-dessous présente un échantillon de 1 000 données groupées. Intervalle Nombre de données (0, 3] (3, 7,5] (7,5, 15] (15, 40] (40, ∞) 180 180 235 255 150 Une loi de Pareto a été ajustée à ces données et les estimateurs obtenus sont α̂ = 3,5 et λ̂ = 50. Quel est le seuil de signification le plus élevé (parmi 5 %, 2,5 %, 1 % et 0,5 %) auquel on ne rejette pas ce modèle avec le test du khi carré ? 6.3 On dispose de l’échantillon aléatoire {0,1, 0,4, 0,8, 0,8, 0,9} et on veut y ajuster la distribution avec fonction de densité de probabilité f (x) = 1 + 2x , 2 0 ≤ x ≤ 1. Calculer la statistique de Kolmogorov–Smirnov et réaliser un test avec un seuil de signification de 5 %. 6.4 La compagnie d’assurance Great Company a obtenu les montants de sinistres suivants : {1, 1, 2, 2, 2, 2, 3, 3, 4, 8}. a) Trouver la distribution empirique. b) Si le montant d’un sinistre obéit à une loi de Pareto(2, 2), calculer la distance de Cramér–von Mises avec poids unitaires. 35 36 Tests d’adéquation c) Un compétiteur sujet aux mêmes sinistres, Greater Company, a perdu toutes les données sur ses sinistres. Dans un élan de sollicitude, Great Company lui fournit ses données, mais sous la forme restreinte cidessous. Montants des sinistres Nombre de sinistres (0, 2] (0, 4] (0, 8] 6 9 10 Calculer la distance de Cramér–von Mises avec poids unitaires. 6.5 Soit la distribution avec fonction de densité de probabilité f (x) = x , 2 0 ≤ x ≤ 2, et soit l’échantillon tiré de cette densité {0,5, 1, 1,25, 1,5}. Calculer la statistique de Kolmogorov–Smirnov. 6.6 On veut tester si ( f X (x) = x 50 , 0 < x < 10 ailleurs 0, est un bon modèle pour les données suivantes : {1, 4, 6, 9, 8, 7, 9,5}. Utiliser la statistique de Kolmogorov–Smirnov avec √ un seuil de signification de 5 %. (Utiliser la valeur critique c = 1,36/ n même si n < 15.) 6.7 En supposant que les données du tableau ci-dessous sont associées à une loi de Pareto(1, 8), calculer la statistique de Pearson. Intervalle Fréquence (0, 5] (5, 20] (20, ∞) 10 5 5 6.8 On a observé les sinistres suivants en assurance habitation : {125, 550, 550, 700}. On hésite entre les distributions Gamma(3, 0,01) et Gamma(3,5, 0,01) pour modéliser le montant d’un sinistre. Utiliser la statistique de Kolmogorov– Smirnov pour guider le choix de la distribution. Voici quelques valeurs de la Gamma incomplète : Γ(3,5; 1,25) = 0,0729, Γ(3,5; 5,51) = 0,8614, Γ(3,5; 7) = 0,9488. De plus, pour α entier, on a Γ(α; x ) = 1 − α −1 ∑ j =0 x j e− x . j! Tests d’adéquation 37 6.9 On a observé les sinistres du tableau ci-dessous en assurance médicaments. Déterminer, à l’aide de la statistique de Pearson, si l’hypothèse d’une distribution avec taux d’échec constant λ( x ) = 0,01, x>0 est appropriée à un niveau de confiance de 95 %. Montants des sinistres Nombre de sinistres [0, 25) [25, 40) [40, 60) [60, 80) [80, ∞) 10 5 10 5 20 6.10 On détient les informations du tableau ci-dessous sur l’expérience de sinistres d’un portefeuille d’assurance. Montants de sinistres Fréquence [0, 25) [25, 50) [50, 100) [100, 200) [200, ∞) 10 12 12 11 5 On hésite entre une loi de Pareto(1,5, 50) et une loi de Weibull(0,01, 1) pour la distribution du montant d’un sinistre. a) Quel modèle privilégier si on utilise la distance de Cramér–von Mises avec poids unitaires pour guider le choix ? b) Si la statistique de Pearson avait été utilisée au lieu de la distance de Cramér–von Mises, l’hypothèse de la loi Pareto(1,5, 50) aurait-elle été rejetée à un niveau de confiance α = 0,05 ? c) Si l’on obtient une distance de Cramér–von Mises de 0,01 lorsque l’on suppose X ∼ Log-normale(µ = 65, σ2 = 5 500), est-ce que, selon cette statistique, le choix de cette distribution est meilleur que le choix de la distribution de Pareto(1,5, 50) ? 6.11 Au départ d’une course de chevaux, il y a habituellement huit positions de départ et la position numéro 1 est la plus proche de la palissade. On soupçonne qu’un cheval a plus de chances de gagner quand il porte un numéro faible, c’est-à-dire lorsqu’il est plus proche de la palissade intérieure. Le tableau ci-dessous présente les résultats pour 144 courses. Numéro 1 2 3 4 5 6 7 8 Gains 29 19 18 25 17 10 15 11 38 Tests d’adéquation a) Poser les hypothèses à tester (hypothèse nulle et hypothèse alternative). b) La comparaison de la distribution observée à la distribution théorique s’effectue par un test de Kolmogorov–Smirnov. Que peut-on en conclure ? 6.12 À partir d’un échantillon contenant 100 données, un assureur obtient les résultats présentés dans le tableau ci-dessous pour cinq modèles postulés. Déterminer le meilleur modèle selon le critère bayesien de Schwarz. Modèle Pareto généralisée Burr Pareto Log-normale Exponentielle inverse Nombre de paramètres Log-vraisemblance 3 3 2 2 1 −219,1 −219,2 −221,2 −221,4 −224,4 Exercices proposés dans Loss Models 16.1, 16.2, 16.3, 16.4, 16.5, 16.8, 16.9, 16.11, 16.12, 16.15, 16.16 Réponses 6.1 Q = 0,7740 6.2 0,5 % 6.3 D = 0,32 6.4 b) 0,3478 c) 0,0242 6.5 0,4375 6.6 D = 0,1329 6.7 1,1667 6.8 Gamma(3,5, 0,01) 6.9 Q = 1,8179 6.10 a) Weibull b) oui c) oui 6.11 b) D = 0,132 6.12 Pareto 7 Modèles de fréquence 7.1 Un assureur décide de modéliser la fréquence des sinistres par une distribution N ∼ Binomiale(m, θ ) dont le paramètre m est connu. a) Démontrer que l’estimateur du maximum de vraisemblance de θ est sans biais. b) Déterminer directement la variance de cet estimateur. c) Déterminer la variance de cet estimateur en calculant l’information de Fisher. d) Déterminer un intervalle de confiance approximatif de niveau 1 − α pour la paramètre θ. 7.2 Un portefeuille de la compagnie Even Greater Company comptant 10 000 risques a produit les fréquences de sinistres présentées dans le tableau cidessous. Fréquence Nombre de risques 0 1 2 3 4+ 9 048 905 45 2 0 a) Déterminer l’estimateur du maximum de vraisemblance du paramètre λ d’une loi de Poisson ainsi qu’un intervalle de confiance de niveau 95 % pour ce paramètre. b) Soit une distribution géométrique de paramètre β = (1 − θ )/θ, c’està-dire que βk Pr( N = k) = , k = 0, 1, . . . ( β + 1 ) k +1 Déterminer l’estimateur du maximum de vraisemblance du paramètre β ainsi qu’un intervalle de confiance de niveau 95 % pour ce paramètre. c) Déterminer les estimateurs de la méthode des moments des paramètres d’une distribution binomiale négative avec fonction de masse 39 40 Modèles de fréquence de probabilité Pr( N = k) = βk k+r−1 , r−1 ( β + 1) k +r k = 0, 1, . . . d) Répéter la partie c) pour les estimateurs du maximum de vraisemblance en utilisant une procédure numérique. 7.3 Un assureur offre un contrat couvrant les accidents automobiles causés par des hommes et par des femmes. L’information pour 1 000 polices est présentée dans le tableau ci-dessous. Fréquence Hommes Femmes 0 1 2 3 4 5+ 901 92 5 1 1 0 947 50 2 1 0 0 a) Déterminer l’estimateur du maximum de vraisemblance du paramètre λ d’une loi de Poisson pour la variable N1 , le nombre de sinistres causés par des hommes, et la variable N2 , le nombre de sinistres causés par des femmes. b) En supposant que N1 et N2 sont des variables indépendantes, déterminer un modèle pour N = N1 + N2 . 7.4 Le tableau ci-dessous présente des données de fréquence annuelle d’accidents pour un portefeuille d’assurance automobile. Fréquence Nombre de risques 0 1 2 3 4 5 6 7+ 861 121 13 3 1 0 1 0 a) Ajuster une distribution Binomiale(7, θ ) à ces données en estimant le paramètre θ par la méthode du maximum de vraisemblance. b) Ajuster plutôt une distribution binomiale négative aux données par la méthode des moments. Utiliser la paramétrisation de l’exercice 7.2 c). c) Répéter la partie b) en estimant plutôt par la méthode du maximum de vraisemblance. Modèles de fréquence 41 7.5 Démontrer que la distribution Binomiale négative(r, β( β + 1)−1 ) est le résultat du mélange continu de distributions de Poisson suivant N |Λ = λ ∼ Poisson(λ) Λ ∼ Gamma(r, β). 7.6 Un assureur modélise la fréquence des sinistres par une distribution Binomiale négative(3, 1/6). La sévérité des sinistres est modélisée par une distribution Exponentielle(0,01). Si une franchise de 20 $ est ajoutée au contrat, calculer E[ N ∗ ], l’espérance de la fréquence modifiée. 7.7 Un portefeuille d’assurance compte 1 000 contrats. Le tableau ci-dessous résume l’information connue à propos de la fréquence des sinistres. Nombre de sinistres Nombre de contrats 0 1 2 3 4 5 6 7+ 100 267 311 208 87 23 4 0 Parmi les distributions binomiale, Poisson, binomiale négative, normale et gamma, laquelle semble la plus appropriée pour modéliser ces données ? 7.8 Un assureur enregistre tous les jours d’une année (365 jours) le nombre de réclamations qu’il reçoit. Les données recueillies sont présentées dans le tableau ci-dessous. L’assureur utilise une distribution de Poisson de moyenne 0,6 pour modéliser la variable aléatoire du nombre quotidien de sinistres. Déterminer la statistique de Pearson. Nombre de sinistres Nombre de jours 0 1 2 3 4 5 209 111 33 7 3 2 Exercices proposés dans Loss Models 6.1, 6.2, 6.3, 15.18, 15.19, 15.4, 15.104, 15.105, 15.106, 15.109, 15.110, 8.29, 8.32, 8.33, 8.34 42 Modèles de fréquence Réponses q 7.1 b) θ (1 − θ )/(nm) c) θ (1 − θ )/(nm) d) θ̂ ± zα/2 θ̂ (1 − θ̂ )/(mn) p √ 7.2 a) 0,1001 ± 1,96 0,1001/10 000 b) 0,1001 ± 1,96 0,1001(1,1001)/10 000 c) r̂ = 55,67, β̂ = 0,0018 d) r̂ = 52,73, µ̂ = 0,1001 7.3 a) λ̂1 = 0,109 et λ̂2 = 0,057 b) N ∼ Poisson(0,166) 7.4 a) 0,0237 b) r̂ = 0,4715, β̂ = 0,3521 c) r̂ = 0,656, µ̂ = 0,166 7.6 12,28 7.7 Binomiale 7.8 2,85 A Paramétrisation des lois de probabilité Cette annexe précise la paramétrisation des lois de probabilité continues et discrètes utilisée dans les énoncés des exercices. Dans certains cas, elle est différente de celle présentée dans les annexes A et B de Klugman et collab. (2008a). En particulier, nous utilisons toutes les distributions de la famille gamma transformée avec un paramètre de taux (λ) plutôt qu’un paramètre d’échelle (θ). De plus, l’ordre des paramètres est différent. En plus de la fonction de densité de probabilité et de la fonction de répartition, l’annexe fournit les éléments suivants pour chaque loi : la racine foo des fonctions dfoo, pfoo, qfoo, rfoo, mfoo et levfoo telles que définies dans R et actuar ; les noms des arguments de ces fonctions correspondant à chacun des paramètres de la loi ; le ke moment (ainsi que l’espérance et la variance pour les cas les plus usuels) ; l’espérance limitée (lois continues seulement) ; la fonction génératrice des moments M (t), lorsqu’elle existe ; la fonction génératrice des probabilités P(z) (lois discrètes seulement). Dans les formules ci-dessous, 1 Γ(α) Γ(α; x ) = Z x 0 avec Γ(α) = tα−1 e−t dt, Z ∞ 0 α > 0, x > 0 tα−1 e−t dt est la fonction gamma incomplète, alors que β( a, b; x ) = 1 β( a, b) Z x 0 t a−1 (1 − t)b−1 dt, a > 0, b > 0, 0 < x < 1 avec β( a, b) = Z 1 0 t a−1 (1 − t)b−1 dt = Γ( a)Γ(b) Γ( a + b) est la fonction bêta incomplète régularisée. Sauf avis contraire, les paramètres sont strictement positifs et les fonctions sont définies pour x > 0. 43 44 Paramétrisation des lois de probabilité A.1 Famille bêta transformée A.1.1 Bêta transformée (α, γ, τ, θ ) Racine : trbeta, pearson6 Paramètres : shape1 (α), shape2 (γ), shape3 (τ), rate (λ = 1/θ), scale (θ) f (x) = γuτ (1 − u)α , xβ(α, τ ) u= v , 1+v v= x γ θ F ( x ) = β(τ, α; u) θ k Γ(τ + k/γ)Γ(α − k/γ) , −τγ < k < αγ Γ(α)Γ(τ ) θΓ(τ + 1/γ)Γ(α − 1/γ) β(τ + 1/γ, α − 1/γ; u) + x (1 − F ( x )) E[ X; x ] = Γ(α)Γ(τ ) E[ X k ] = A.1.2 Burr (α, γ, θ ) Racine : burr Paramètres : shape1 (α), shape2 (γ), rate (λ = 1/θ), scale (θ) αγuα (1 − u) , x F ( x ) = 1 − uα f (x) = u= 1 , 1+v v= x γ θ θ k Γ(1 + k/γ)Γ(α − k/γ) , −γ < k < αγ Γ(α) θΓ(1 + 1/γ)Γ(α − 1/γ) E[ X; x ] = β(1 + 1/γ, α − 1/γ; u) + xuα Γ(α) E[ X k ] = A.1.3 Burr inverse (τ, γ, θ ) Racine : invburr Paramètres : shape1 (τ), shape2 (γ), rate (λ = 1/θ), scale (θ) τγuτ (1 − u) , x F ( x ) = uτ f (x) = u= v , 1+v v= x γ θ θ k Γ(τ + k/γ)Γ(1 − k/γ) , −τγ < k < γ Γ(τ ) θΓ(τ + 1/γ)Γ(1 − 1/γ) E[ X; x ] = β(τ + 1/γ, 1 − 1/γ; u) + x (1 − uτ ) Γ(α) E[ X k ] = A.1. Famille bêta transformée A.1.4 45 Pareto généralisée (α, τ, θ ) Racine : genpareto Paramètres : shape1 (α), shape2 (τ), rate (λ = 1/θ), scale (θ) f (x) = u τ (1 − u ) α , xβ(α, τ ) u= v , 1+v v= x θ F ( x ) = β(τ, α; u) θ k Γ(τ + k)Γ(α − k) , −τ < k < α Γ(α)Γ(τ ) θτ , α>1 E[ X ] = α−1 θ 2 τ ( τ + α − 1) Var[ X ] = , α>2 ( α − 1)2 ( α − 2) θτ E[ X; x ] = β(τ + 1, α − 1; u) + x (1 − F ( x )) α−1 E[ X k ] = A.1.5 Pareto (α, θ ) Racine : pareto, pareto2 Paramètres : shape (α), scale (θ) αuα (1 − u) , x F ( x ) = 1 − uα f (x) = u= 1 , 1+v v= x θ θ k Γ ( k + 1) Γ ( α − k ) , −1 < k < α Γ(α) θ E[ X ] = , α>1 α−1 θ2 α Var[ X ] = , α>2 ( α − 1)2 ( α − 2) " α −1 # θ θ , α≠1 1− α−1 x+θ E[ X; x ] = θ −θ ln , α=1 x+θ E[ X k ] = A.1.6 Pareto inverse (τ, θ ) Racine : invpareto Paramètres : shape (τ), scale (θ) τuτ (1 − u) , x F ( x ) = uτ f (x) = u= v , 1+v v= x θ 46 Paramétrisation des lois de probabilité θ k Γ ( τ + k ) Γ (1 − k ) , −τ < k < 1 Γ(τ ) Z u yτ E[ X; x ] = θ k τ dy + x (1 − uτ ) 0 1−y E[ X k ] = A.1.7 Log-logistique (γ, θ ) Racine : llogis Paramètres : shape (γ), rate (λ = 1/θ), scale (θ) γu(1 − u) , x F(x) = u f (x) = u= v , 1+v v= x γ θ E[ X k ] = θ k Γ(1 + k/γ)Γ(1 − k/γ), −γ < k < γ E[ X; x ] = θΓ(1 + 1/γ)Γ(1 − 1/γ) β(1 + 1/γ, 1 − 1/γ; u) + x (1 − u) A.1.8 Paralogistique (α, θ ) Racine : paralogis Paramètres : shape (α), rate (λ = 1/θ), scale (θ) α2 u α (1 − u ) , x F ( x ) = 1 − uα f (x) = u= 1 , 1+v v= x α θ θ k Γ(1 + k/α)Γ(α − k/α) , − γ2 < k < α2 Γ(α) θΓ(1 + 1/α)Γ(α − 1/α) E[ X; x ] = β(1 + 1/α, α − 1/α; u) + xuα Γ(α) E[ X k ] = A.1.9 Paralogistique inverse (τ, θ ) Racine : invparalogis Paramètres : shape (τ), rate (λ = 1/θ), scale (θ) τ 2 u τ (1 − u ) , x F ( x ) = uτ f (x) = u= v , 1+v v= x τ θ θ k Γ(τ + k/τ )Γ(1 − k/τ ) , −τ 2 < k < τ Γ(τ ) θΓ(τ + 1/τ )Γ(1 − 1/τ ) E[ X; x ] = β(τ + 1/τ, 1 − 1/τ; u) + x (1 − uτ ) Γ(τ ) E[ X k ] = A.2. Famille gamma transformée A.2 A.2.1 47 Famille gamma transformée Gamma transformée (α, τ, λ) Racine : trgamma Paramètres : shape1 (α), shape2 (τ), rate (λ), scale (θ = 1/λ) f (x) = τuα e−u , xΓ(α) u = (λx )τ F ( x ) = Γ(α; u) Γ(α + k/τ ) , k > −ατ λk Γ(α) Γ(α + 1/τ ) E[ X; x ] = Γ(α + 1/τ; u) + x (1 − Γ(α; u)) λΓ(α) E[ X k ] = A.2.2 Gamma transformée inverse (α, τ, λ) Racine : invtrgamma Paramètres : shape1 (α), shape2 (τ), rate (λ), scale (θ = 1/λ) f (x) = τuα e−u , xΓ(α) u = (λx )−τ F ( x ) = 1 − Γ(α; u) Γ(α − k/τ ) , k < ατ λk Γ(α) Γ(α − 1/τ ) E[ X; x ] = (1 − Γ(α − 1/τ; u)) + xΓ(α; u) λΓ(α) E[ X k ] = A.2.3 Gamma (α, λ) Racine : gamma Paramètres : shape (α), rate (λ), scale (θ = 1/λ) f (x) = uα e−u , xΓ(α) u = λx F ( x ) = Γ(α; u) Γ(α + k) , λk Γ(α) α E[ X ] = λ α Var[ X ] = 2 λ E[ X k ] = k > −α 48 Paramétrisation des lois de probabilité Γ ( α + 1) Γ(α + 1; u) + x (1 − Γ(α; u)) λΓ(α) α λ M(t) = λ−t E[ X; x ] = A.2.4 Gamma inverse (α, λ) Racine : invgamma Paramètres : shape (α), rate (λ), scale (θ = 1/λ) f (x) = uα e−u , xΓ(α) u = (λx )−1 F ( x ) = 1 − Γ(α; u) Γ(α − k) , k<α λk Γ(α) Γ ( α − 1) E[ X; x ] = (1 − Γ(α + 1; u)) + xΓ(α; u) λΓ(α) E[ X k ] = A.2.5 Weibull (τ, λ) Racine : weibull Paramètres : shape (τ), scale (θ = 1/λ) τue−u , x F ( x ) = 1 − e−u f (x) = u = (λx )τ Γ(1 + k/τ ) , k > −τ λk Γ(1 + 1/τ ) Γ(1 + 1/τ; u) + xe−u E[ X; x ] = λ E[ X k ] = A.2.6 Weibull inverse (τ, λ) Racine : invweibull, lgompertz Paramètres : shape (τ), rate (λ), scale (θ = 1/λ) τue−u , x F ( x ) = e−u f (x) = u = (λx )−τ Γ(1 − k/τ ) , k<τ λk Γ(1 − 1/τ ) E[ X; x ] = (1 − Γ(1 − 1/τ; u)) + x (1 − e−u ) λ E[ X k ] = A.3. Autres distributions continues A.2.7 49 Exponentielle (λ) Racine : exp Paramètre : rate (λ) ue−u , x −u F(x) = 1 − e f (x) = E[ X k ] = E[ X ] = Var[ X ] = E[ X; x ] = M(t) = A.2.8 u = λx Γ ( k + 1) , λk 1 λ 1 λ2 1 − e−u λ λ λ−t k > −1 Exponentielle inverse (λ) Racine : invexp Paramètres : rate (λ), scale (θ = 1/λ) ue−u , x −u F(x) = e f (x) = E[ X k ] = A.3 A.3.1 Γ (1 − k ) , λk u = (λx )−1 k<1 Autres distributions continues Normale (µ, σ2 ) Racine : norm Paramètres : mean (−∞ < µ < ∞), sd (σ) 1 1 x−µ 2 exp − , −∞ < x < ∞ f (x) = √ 2 σ 2πσ Z x 2 x−µ 1 F(x) = Φ , Φ( x ) = √ e−y dy σ 2π −∞ E[ X ] = µ Var[ X ] = σ2 M (t) = eµt+σ 2 t2 /2 50 Paramétrisation des lois de probabilité A.3.2 Log-normale (µ, σ2 ) Racine : lnorm Paramètres : meanlog (α), sdlog (σ) 1 ln x − µ 2 1 1 exp − f (x) = √ 2 σ 2πσ x ln x − µ F(x) = Φ σ E[ X k ] = ekµ+k E [ X ] = eµ+σ 2 σ2 /2 2 /2 2 2 Var[ X ] = e2µ+σ (eσ − 1) A.3.3 Log-gamma (α, λ) Racine : lgamma Paramètres : shapelog (α), ratelog (λ) f (x) = λα (ln x )α−1 , x λ +1 Γ ( α ) x>1 F ( x ) = Γ(α; λ ln x ), x>1 α λ E[ X k ] = λ−k α λ E[ X ] = λ−1 α 2α λ λ Var[ X ] = − λ−2 λ−1 α λ Γ(α; (λ − 1) ln x ) + x (1 − Γ(α; λ ln x )) E[ X; x ] = λ−1 A.3.4 Pareto translatée (α, θ ) Racine : pareto1 Paramètres : shape (α), min (θ) αθ α , x>θ x α +1 α θ F(x) = 1 − , x>θ x f (x) = αθ k , k<α α−k αθ θ E[ X; x ] = − α − 1 ( α − 1 ) x α −1 E[ X k ] = A.3. Autres distributions continues 51 Cette loi est également appelée Pareto à un paramètre. Seul α est considéré comme un véritable paramètre de la distribution. Le paramètre θ est la borne inférieure du support de la distribution et est en général considéré connu. A.3.5 Bêta généralisée (α, β, τ, θ ) Racine : genbeta Paramètres : shape1 (α), shape2 (β), shape3 (τ), rate (λ = 1/θ), scale (θ) f (x) = τuα (1 − u) β−1 , xβ(α, β) u= x τ θ , 0<x<θ F ( x ) = β(α, β; u) θ k Γ(α + β)Γ(α + k/τ ) , k > −ατ Γ(α)Γ(α + β + k/τ ) θΓ(α + β)Γ(α + 1/τ ) E[ X; x ] = β(α + 1/τ, β; u) + x (1 − β(α, β; u)) Γ(α)Γ(α + β + 1/τ ) E[ X k ] = A.3.6 Bêta (α, β) Racine : beta Paramètres : shape1 (α), shape2 (β) f (x) = Γ ( α + β ) α −1 x (1 − x ) β −1 , Γ(α)Γ( β) 0<x<1 F ( x ) = β(α, β; x ) Γ(α + β)Γ(α + k) , k > −α Γ(α)Γ(α + β + k) α E[ X ] = α+β αβ Var[ X ] = 2 ( α + β ) ( α + β + 1) Γ ( α + β ) Γ ( α + 1) E[ X; x ] = β(α + 1, β; u) + x (1 − β(α, β; x )) Γ ( α ) Γ ( α + β + 1) E[ X k ] = 52 Paramétrisation des lois de probabilité A.4 A.4.1 Distributions discrètes de la famille ( a, b, 0) Binomiale (n, θ ) Racine : binom Paramètres : size (n), prob (θ) n x Pr( X = x ) = θ (1 − θ ) n − x , x n entier, 0 < θ < 1, x = 0, 1, . . . E[ X ] = nθ Var[ X ] = nθ (1 − θ ) M(t) = (1 − θ + θet )n P(z) = (1 − θ (z − 1))n A.4.2 Binomiale négative (r, θ ) Racine : nbinom Paramètres : size (r), prob (θ), mu (µ = r (1 − θ )/θ) x+r−1 r θ (1 − θ ) x , r−1 r (1 − θ ) E[ X ] = θ r (1 − θ ) Var[ X ] = θ2 r θ M(t) = 1 − (1 − θ ) e t Pr( X = x ) = 0 < θ < 1, x = 0, 1, . . . P ( z ) = (1 − (1 − θ ) z ) −r A.4.3 Géométrique (θ ) Racine : nbinom Paramètre : prob (θ) Pr( X = x ) = θ (1 − θ ) x , 0 < θ < 1, x = 0, 1, . . . 1−θ E[ X ] = θ 1−θ Var[ X ] = 2 θ θ M(t) = 1 − (1 − θ ) e t P ( z ) = (1 − (1 − θ ) z ) −1 A.4. Distributions discrètes de la famille ( a, b, 0) A.4.4 Poisson (λ) Racine : pois Paramètre : lambda (λ) λ x e−λ , x! E[ X ] = λ Pr( X = x ) = Var[ X ] = λ t M ( t ) = e λ ( e −1) P ( z ) = e λ ( z −1) x = 0, 1, . . . 53 B Installation de packages dans R Plusieurs exercices de ce recueil requièrent l’utilisation du package actuar (Dutang et collab., 2008). Le package doit être installé depuis le site Comprehensive R Archive Network (CRAN ; http://cran.r-project.org). Cette annexe explique comment configurer R pour faciliter l’installation et l’administration de packages externes. Les instructions ci-dessous sont centrées autour de la création d’une bibliothèque personnelle où seront installés les packages R téléchargés de CRAN. Il est fortement recommandé de créer une telle bibliothèque. Cela permet d’éviter d’éventuels problèmes d’accès en écriture dans la bibliothèque principale et de conserver les packages intacts lors des mises à jour de R. Nous montrons également comment spécifier le site miroir de CRAN pour éviter d’avoir à le répéter à chaque installation de package. 1. Identifier le dossier de départ de l’utilisateur. En cas d’incertitude, examiner la valeur de la variable d’environnement HOME 1 , soit depuis R avec la commande > Sys.getenv("HOME") ou encore directement depuis Emacs avec M-x getenv RET HOME RET Tout comme R et Emacs, nous référerons à ce dossier par le symbole ~. 2. Créer un dossier qui servira de bibliothèque de packages personnelle. Dans la suite, nous utiliserons ~/R/library. 3. Dans un fichier nommé ~/.Renviron (donc situé dans le dossier de départ), enregistrer la ligne appropriée ci-dessous selon votre système d’exploitation : R_LIBS="~/R/library;${R_LIBS}" (Windows) R_LIBS="~/R/library:${R_LIBS}" (OS X, Linux, Unix) Au besoin, remplacer le chemin ~/R/library par celui du dossier créé à l’étape précédente. Utiliser la barre oblique avant (/) dans le chemin pour séparer les dossiers. 1. Dans Windows, la variable est créée par l’assistant d’installation de GNU Emacs lorsqu’elle n’existe pas déjà. 55 56 Installation de packages dans R 4. Dans un fichier nommé ~/.Rprofile, enregistrer les options suivantes : options(repos = "http://cran.ca.r-project.org", menu.graphics = FALSE) Si désiré, remplacer la valeur de l’option repos par l’URL d’un autre site miroir de CRAN. Consulter la rubriques d’aide de Startup pour les détails sur la syntaxe et l’emplacement des fichiers de configuration, celles de library et .libPaths pour la gestion des bibliothèques et celle de options pour les différentes options reconnues par R. Après un redémarrage de R, la bibliothèque personnelle aura préséance sur la bibliothèque principale et il ne sera plus nécessaire de préciser le site miroir de CRAN lors de l’installation de packages. Ainsi, la simple commande > install.packages("actuar") téléchargera le package actuar depuis de le miroir canadien de CRAN et l’installera dans le dossier ~/R/library. Pour charger le package en mémoire, on fera > library("actuar") On peut arriver au même résultat sans utiliser les fichiers de configuration .Renviron et .Rprofile. Il faut cependant recourir aux arguments lib et repos de la fonction install.packages et à l’argument lib.loc de la fonction library. Consulter les rubriques d’aide de ces deux fonctions pour de plus amples informations. C Table de quantiles de la loi normale Pr[ X ≤ x ] = Φ( x ) = Z x 2 1 √ e−y /2 dy −∞ 2π Φ(− x ) = 1 − Φ( x ) x Φ( x ) x Φ( x ) x Φ( x ) 0,00 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1,00 1,05 0,500 0,520 0,540 0,560 0,579 0,599 0,618 0,637 0,655 0,674 0,691 0,709 0,726 0,742 0,758 0,773 0,788 0,802 0,816 0,829 0,841 0,853 1,10 1,15 1,20 1,25 1,282 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,645 1,65 1,70 1,75 1,80 1,85 1,90 1,95 1,96 2,00 0,864 0,875 0,885 0,894 0,900 0,903 0,911 0,919 0,926 0,933 0,939 0,945 0,950 0,951 0,955 0,960 0,964 0,968 0,971 0,974 0,975 0,977 2,05 2,10 2,15 2,20 2,25 2,30 2,326 2,35 2,40 2,45 2,50 2,55 2,576 2,60 2,65 2,70 2,75 2,80 2,85 2,90 2,95 3,00 0,980 0,982 0,984 0,986 0,988 0,989 0,990 0,991 0,992 0,993 0,994 0,995 0,995 0,995 0,996 0,997 0,997 0,997 0,998 0,998 0,998 0,999 57 D Table de quantiles de la loi khi carré Pr[ X ≤ x ] = Z x 0 1 yr/2−1 e−r/2 dx Γ(r/2)2r/2 59 60 Table de quantiles de la loi khi carré Pr[ X ≤ x ] r 0,01 0,025 0,05 0,95 0,975 0,99 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0,000 0,020 0,115 0,297 0,554 0,872 1,239 1,646 2,088 2,558 3,053 3,571 4,107 4,660 5,229 5,812 6,408 7,015 7,633 8,260 8,897 9,542 10,196 10,856 11,524 12,198 12,879 13,565 14,256 14,953 0,001 0,051 0,216 0,484 0,831 1,237 1,690 2,180 2,700 3,247 3,816 4,404 5,009 5,629 6,262 6,908 7,564 8,231 8,907 9,591 10,283 10,982 11,689 12,401 13,120 13,844 14,573 15,308 16,047 16,791 0,004 0,103 0,352 0,711 1,145 1,635 2,167 2,733 3,325 3,940 4,575 5,226 5,892 6,571 7,261 7,962 8,672 9,390 10,117 10,851 11,591 12,338 13,091 13,848 14,611 15,379 16,151 16,928 17,708 18,493 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 5,024 7,378 9,348 11,143 12,833 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 E Solutions Plusieurs solutions faisant appel à R utilisent des fonctions des packages actuar (Dutang et collab., 2008) et MASS (Venables et Ripley, 2002). On suppose donc que les packages ont été chargés en mémoire avec > library("actuar") > library("MASS") Chapitre 1 1.1 On a 1 1 = 2 2 x →0 lim et x2 1 1 − = . 24 2 x →0 2 lim En utilisant le théorème «sandwich», on obtient donc directement lim x →0 1 − cos( x ) 1 = . 2 x2 La figure E.1 présente le graphique de la fonction et des deux bornes, ainsi que le code R pour créer ce graphique. 1.2 Il suffit d’appliquer la règle de l’Hôpital : lim x →0 x dx/dx = lim ln( x + 1) x→0 d ln( x + 1)/dx 1 = lim x →0 1/ ( x + 1) = 1. 61 62 Solutions f <- function(x) (1 - cos(x))/(x^2) g <- function(x) 0.5 - x^2/24 curve(f, from = -2, to = 2, lwd = 2) curve(g, add = TRUE, lty = 2) abline(h = 0.5, lty = 2) 0.35 0.40 f (x) 0.45 0.50 > > > > > −2 −1 0 1 2 x Figure E.1: Fonction f ( x ) = (1 − cos( x ))/x2 (trait plein) et les bornes y = 1 1 2 2 − x /24 et y = 2 (traits brisés) 1.3 Il faut faire quelques modifications avant de pouvoir utiliser la règle de l’Hôpital. On passe d’abord à la forme logarithmique y = (1 + x )1/x ln(y) = ln(1 + x )1/x = ln(1 + x ) , x Solutions 63 pour ensuite calculer la limite à l’aide de la règle de l’Hôpital d ln(1 + x )/dx dx/dx x →0 ln(1 + x ) = lim x x →0 1/(1 + x ) = lim 1 x →0 =1 lim ln(y) = lim x →0 et enfin revenir à la forme exponentielle lim y = lim (1 + x )1/x x →0 x →0 1 =e = e. 1.4 a) On utilise la règle de l’Hôpital pour évaluer lim x →∞ x dx/dx = lim ln( x ) x→∞ d ln( x )/dx 1 = lim x →∞ 1/x = lim x x →∞ = ∞. Il est donc possible de conclure que le numérateur tend plus rapidement vers l’infini que le dénominateur, c’est-à-dire que x tend plus rapidement vers l’infini que ln( x ). b) De manière similaire, lim x x →∞ e x dx/dx de x /dx 1 = lim x x →∞ e = 0, = lim x →∞ d’où e x tend plus rapidement vers l’infini que x. 1.5 a) On a f ( x ) = cos( x ), f (0) = 1, f 0 ( x ) = − sin( x ), f 0 (0) = 0, f 00 ( x ) = − cos( x ), f 00 (0) = −1, f 000 ( x ) = sin( x ), f 000 (0) = 0, et ainsi de suite. On obtient donc x2 x4 cos( x ) = 1 − + − ... 2! 4! 64 Solutions b) On a f ( x ) = sin( x ), f (0) = 0, f 0 ( x ) = cos( x ), f 0 (0) = 1, f 00 ( x ) = − sin( x ), f 00 (0) = 0, f 000 ( x ) = − cos( x ), f 000 (0) = −1, et ainsi de suite. On obtient donc x5 x3 + − ... sin( x ) = x − 3! 5! c) On obtient i2 x2 i3 x3 i4 x4 i5 x5 + + + + ... 2! 3! 4! 5! x2 x3 x4 x5 = 1 + ix − −i + + i − .... 2! 3! 4! 5! eix = 1 + ix + En regroupant les termes, on obtient x4 x3 x5 x2 ix + − ... + i x − + − ... e = 1− 2! 4! 3! 5! d) Des résultats obtenus en a), b) et c), on a directement eix = cos( x ) + i sin( x ). e) En posant x = π dans le résultat en d), on obtient eiπ = cos(π ) + i sin(π ) = −1 + i (0) = −1. 1.6 Il faut démontrer que la fonction F ( x ) est non décroissante, que sa limite à droite est 1, que sa limite à gauche est 0 et qu’elle est continue (à droite). Clairement, on a limx→−∞ F ( x ) = 0, et limx→∞ F ( x ) = 1. De plus, F0 (x) = e− x > 0, (1 + e − x )2 qui implique que la fonction est non décroissante. 1.7 La fonction g( x ) est clairement positive. Il faut démontrer que l’intégrale sur la totalité du domaine de cette fonction est 1 : Z ∞ x0 g( x ) dx = = Z ∞ x0 R∞ x0 f (x) dx 1 − F ( x0 ) f ( x ) dx 1 − F ( x0 ) 1 − F ( x0 ) = 1 − F ( x0 ) = 1. Solutions 65 0.6 0.2 0.4 S(x) 0.8 1.0 > library(actuar) > curve(ppareto(x, shape = 2, scale = 3000, + lower.tail = FALSE), from = 0, to = 5000, + ylab = "S(x)", lwd = 2) 0 1000 2000 3000 4000 5000 x Figure E.2: Fonction de survie d’une distribution Pareto(2, 3 000) 1.8 On a S( x ) = Pr( X > x ) Z ∞ αλα = dt x ( t + λ ) α +1 α λ = . x+λ La figure E.2 présente le graphique de cette fonction. 66 Solutions 1.9 On a que Y = n − X si, et seulement si, X = n − Y. Ainsi, Pr(Y = y) = Pr( X = n − y) n = pn−y (1 − p)n−(n−y) n−y n = (1 − p)y pn−y , y = 0, 1, . . . , y d’où Y ∼ Binomiale(n, 1 − p). 1.10 a) On a Y = e X où X ∼ N (µ, σ2 ). Par conséquent, FY ( x ) = Pr[Y ≤ x ] = Pr[e X ≤ x ] = Pr[ X ≤ ln x ] = FX (ln x ) et f Y ( x ) = FY0 ( x ) 1 = f X (ln x ). x b) La fonction génératrice des moments de X est MX (t) = eµt+σ a Var[Y ] = E[Y 2 ] − E[Y ]2 = E[e2X ] − E[e X ]2 = MX (2) − M2X (1) 2 = e2µ+2σ − e2µ+σ 2 2 2 = e2µ+σ (eσ − 1). 1.11 On a Z ∞ |x| 1 dx π 1 + x2 −∞ Z ∞ Z 0 x 1 −x 1 = dx + dx −∞ π 1 + x2 0 π 1 + x2 Z 2 ∞ x = dx π 0 1 + x2 Z a 2 x = lim dx a→∞ π 0 1 + x2 = lim ln(1 + a2 ) E[| X |] = a→∞ = ∞. 2 t2 /2 . On Solutions 67 1.12 On utilise la définition de l’espérance : ∞ e−λ λ x x! x =0 − λ x +1 ∞ e λ x+1 = ∑ g( x ) x! x+1 x =0 E[λg( X )] = ∑ λg(x) ∞ = e − λ λ x +1 ∑ ( x + 1) g ( x ) ( x + 1) ! . x =0 Il faut maintenant faire un glissement d’indice et ajouter un terme pour obtenir ∞ E[λg( X )] = ∑ xg(x − 1) e−λ λ x x! ∑ xg(x − 1) e−λ λ x x! x =1 ∞ = x =0 = E[ Xg( X − 1)]. 1.13 Il suffit de remarquer que M + m = X + Y. Le résultat découle ensuite directement par linéarité de l’espérance : E[ M] + E[m] = E[ X ] + E[Y ]. 1.14 On utilise la technique de la fonction de répartition : FY (y) = Pr(Y ≤ y) = Pr(4X + 3 ≤ y) y−3 = Pr X ≤ 4 y−3 = FX 4 =1−e 7 y −3 4 . La densité est alors 7 − 7 ( y −3) e 4 , y > 3. 4 1.15 On utilise la technique de la fonction de répartition : f Y (y) = FY0 (y) = FY (y) = Pr(Y ≤ y) = Pr X 3 ≤ y 1 = Pr X ≤ y 3 1 1 y3 2 = x dx 9 0 y = . 27 Z 68 Solutions On trouve donc que f Y (y) = FY0 (y) = 1 , 27 0 ≤ y ≤ 27. 1.16 Selon l’énoncé, X ∼ N (0,σ2 ) et Y = X 2 . Il faut voir que Y = X 2 n’est pas une transformation bijective (à une valeur de Y correspond plus d’une valeur de X). On pose W = | X | et on trouve la densité de W à l’aide de la technique de la fonction de répartition : FW (w) = Pr(| X | ≤ w) = Pr(−w ≤ X ≤ w) = FX (w) − FX (−w) et donc f W (w) = f X (w) + f X (−w) 2 2 2 = √ e− x /(2σ ) . σ 2π On pose maintenant Y = W 2 = | X |2 = X 2 et on trouve la densité de Y par la technique du changement de variable : d f Y (y) = f W (y1/2 ) y1/2 dy 1 = f W (y1/2 ) √ 2 y 2 1 − y/(2σ2 ) = √ e √ 2 y σ 2π = (2σ2 )−1/2 −1/2 −y/(2σ2 ) y e Γ( 12 ) √ puisque π ≡ Γ( 21 ). On a donc que Y ∼ Gamma( 12 , 12 σ−2 ). De manière équivalente, on peut aussi poser X = σZ, où Z ∼ N (0, 1), et utiliser le résultat connu que Z2 ∼ χ2 (1) ≡ Gamma( 21 , 12 ). 1.17 Si X est une variable aléatoire dont la distribution est symétrique autour du point a, alors E[ X ] = a. On a donc µ3 = E[( X − a)3 ] = = Z ∞ −∞ Z a −∞ ( x − a)3 f ( x ) dx ( x − a)3 f ( x ) dx + Z ∞ a ( x − a)3 f ( x ) dx. Solutions 69 En faisant le changement de variable y = x − a, on obtient µ3 = = Z 0 −∞ Z ∞ 0 y3 f (y + a) dy + Z ∞ 0 3 −y f (−y + a) dy + y3 f (y + a) dy Z ∞ 0 y3 f (y + a) dy = 0, puisque f (−y + a) = f (y + a) par symétrie autour du point a. Par conséquent, γ1 = µ3 /µ3/2 = 0. 2 1.18 La distribution de la variable aléatoire X est en fait une Exponentielle(1). Par conséquent, E[ X ] = Var[ X ] = 1 et µ3 = E[( X − 1)3 ] = Z ∞ 0 = Z ∞ 0 ( x − 1)3 e− x dx ( x3 − 3x2 + 3x − 1)e− x dx = Γ(4) − 3Γ(3) + 3Γ(2) − Γ(1) = 3! − 3! + 3 − 1 =2 = 2. en reconnaissant des lois gamma. Ainsi, on obtient γ1 = µ3 /µ3/2 2 1.19 On trouve que µ2 = 1/3, µ4 = 1/5 et donc γ2 = µ4 /µ22 = 9/5. Comme γ2 < 3, la distribution a des queues moins lourdes que la distribution normale. 1.20 Par définition, MX (t) = E[etX ] Z c 2x tx e dx = 0 c2 2 = 2 2 (ctect − ect + 1). c t 1.21 Par le théorème central limite, on sait que X̄1 ∼ N (µ, σ2 /n) et X̄2 ∼ N (µ, σ2 /n). Comme les deux variables aléatoires sont indépendantes, X̄1 − X̄2 ∼ N (0, 2σ2 /n). Ainsi, σ −σ/5 X̄ − X̄ σ/5 √ √ Pr | X̄1 − X̄2 | < = Pr < 1√ 2 < 5 σ/ n/2 σ/ n/2 σ/ n/2 r r 1 n 1 n <Z< , = Pr 5 2 5 2 où Z ∼√N (0, 1). On doit donc trouver une valeur de n tel que Pr( Z ≥ √ n/(5 2)) ≈ 0,005.√On trouve dans une table de quantiles de la loi √ normale que n/(5 2) = 2,576, et donc que n ≈ 332. 70 Solutions 1.22 a) On a Xi ∼ Gamma(25, 12 ). Or, une somme de n lois gamma indépendantes de paramètres αi et λ est une loi gamma de paramètres ∑in=1 αi et λ. Par conséquent, ∑in=1 Xi ∼ Gamma(2 500, 12 ) et X̄ ∼ Gamma(2 500, 50). b) On obtient avec R > diff(pgamma(c(49, 51), 2500, 50)) [1] 0.6827218 c) Pour obtenir une approximation de la probabilité en b), on peut utiliser le Théorème central limite. On a que E[ X̄ ] = 2 500/50 = 50 et Var[ X̄ ] = 2 500502 = 1. Par conséquent, 49 − 50 X̄ − 50 51 − 50 Pr[49 < X̄ < 51] = Pr < < 1 1 1 ≈ Pr[−1 < Z < 1] = Φ(1) − Φ(−1) = 2Φ(1) − 1 = 0,6826, où Z ∼ N (0, 1). 1.23 Par définition, le biais est bΘ̂ (θ ) = E[Θ̂] − θ = 749 500 − 2(1 000)2 − (2)(1) 1 000 2 = −500. L’erreur quadratique moyenne est MSE(Θ̂) = Var[Θ̂] + bΘ̂ (θ )2 = 750 + (−500)2 = 250 750. 1.24 a) Par linéarité de l’espérance, " n E ∑ a i Xi # n = i =1 ∑ a i E [ Xi ] i =1 n = ∑ ai µ i =1 n = µ ∑ ai i =1 = µ. 2 ! Solutions 71 b) Étant donné que les variables sont indépendantes, on a " Var n ∑ a i Xi # n = i =1 ∑ a2i Var[Xi ] i =1 n = σ2 ∑ a2i . i =1 Il faut donc minimiser ∑in=1 a2i sous la contrainte ∑in=1 ai = 1. Or, n 1 2 1 + ∑ n n i =1 n 1 2 1 = ∑ ai − + , n n i =1 ∑ a2i = i =1 n ai − étant donné que le produit croisé vaut 0. Ainsi, l’expression ∑in=1 a2i est minimisée en choisissant ai = 1/n pour tout i. Par conséquent, n X̄ = 1 ∑ n Xi i =1 possède la plus petite variance parmi tous les estimateurs sans biais linéaires. 1.25 On a " # 1 n 1 n 2 E ( X − µ ) = i ∑ E[(Xi − µ)2 ] n i∑ n =1 i =1 = 1 n 2 σ n i∑ =1 = σ2 . 1.26 En utilisant la définition de l’espérance, on obtient E[ T ( X )] = 0 + 0 + (2) 1 θ = θ. 2 1.27 Soit Var[ X ] = θ et θ̂ = n X n 1− X n . 72 Solutions On a E[ X 2 ] n np(1 − p) + (np)2 = np − n = np − p(1 − p) − np2 E[θ̂ ] = E[ X ] − = np(1 − p) − p(1 − p) = θ − p (1 − p ). Par conséquent, θ̂ est un estimateur de θ avec un biais de − p(1 − p). 1.28 On sait que Var[ X̄ ] = Var[ X ] λ = . n n De plus, " E ∂ ln f ( X; λ) ∂λ 2 # " =E X−λ λ 2 # 1 Var[ X ] λ2 1 = . λ = La borne de Rao–Cramér est donc λ = Var[ X̄ ] . n Comme la variance de l’estimateur est égale à la borne de Rao–Cramér, son efficacité vaut 1 et de X̄ est un estimateur sans biais à variance minimale du paramètre λ d’une loi de Poisson. 1.29 D’abord, on cherche un estimateur sans biais : E[ Ẑ ] = αE[ X ] + βE[Y ] = α0,8z + βz = z, d’où β = 1 − 0,8α. Ensuite, on cherche un estimateur avec une variance minimale : Var[ Ẑ ] = α2 Var[ X ] + β2 Var[Y ] = α2 z2 + β2 (1,5)z2 = (α2 + 1,5(1 − 0,8α)2 )z2 . Cette dernière expression est minimisée lorsque α2 + 1,5(1 − 0,8α)2 est minimisé, c’est-à-dire, lorsque α = 0,6122. On trouve ensuite que β = 0,5102. Solutions 73 1.30 a) On a 1 1/θ −1 x (1 − x )1−1 , 0 < x < 1, θ > 0, θ soit une distribution bêta de paramètres α = 1/θ et β = 1. b) On a ln f ( xi ; θ ) = (θ −1 − 1) ln xi − ln θ et, donc, n 1 `(θ ) = − 1 ∑ ln xi − n ln θ. θ i =1 f ( x; θ ) = Par conséquent, n d ∑n ln x `(θ ) = − i=12 i − dθ θ θ et θ̂ = −n−1 ∑in=1 ln xi . c) On a E[θ̂ ] = − 1 n n i∑ =1 Z 1 1 0 θ (ln xi ) xi1/θ −1 dxi =− Z 1 1 n 1/θ −1 1/θ 1 − x dx x ln x | i 0 i n i∑ 0 =1 =− 1 n (−θ ) n i∑ =1 = θ. Chapitre 2 2.1 La franchise permet à l’assureur d’économiser au plus 250 $ par contrat. L’assureur économise donc, pour les 12 contrats de son portefeuille, 250, 110, 250, 213, 98, 250, 250, 162, 131, 250, 250, 250, pour un total de 2 464 $. Le montant total des sinistres sans la franchise est de 4 982 $. Le rapport d’élimination de perte est donc LER = 2 464 = 0,4946. 4 982 2.2 La limite permet à l’assureur d’économiser l’excédent de 100 000 $ par contrat. L’assureur économise donc, pour les huit contrats de son portefeuille, 0, 23 000, 323 000, 0, 113 000, 0, 0, 78 000, pour un total de 537 000 $. Le montant total des sinistres sans la limite est de 1 146 000 $. Le rapport d’élimination de perte est donc LER = 537 000 = 0,4686. 1 146 000 74 Solutions 2.3 a) Soit X ∼ Exponentielle(0,02) la variable aléatoire du montant d’un sinistre et soit Y, la variable aléatoire du montant économisé par l’assureur. On définit ( X, X ≤ 10 Y= 0, X > 10. Le rapport d’élimination de perte est E [Y ] E[ X ] R 10 x f X ( x ) dx = 0 50 0,87616 = 50 = 0,0175. LER = b) Avec une franchise forfaitaire, on a plutôt ( X, X ≤ 10 Y= 10, X > 10. Le rapport d’élimination de perte est E [Y ] E[ X ] R 10 R∞ 0 x f X ( x ) dx + 10 10 f X ( x ) dx = E[ X ] E[ X; 10] = E[ X ] 9,0634 = 50 = 0,1813. LER = Il est normal que ce ratio soit supérieur à celui en a) puisque l’assureur ne rembourse que la partie du montant du sinistre excédent la franchise forfaitaire, et non le montant au complet. 2.4 Soit X ∼ Gamma(4, 0,1), la variable aléatoire du montant d’un sinistre et soit Y, la variable aléatoire du montant économisé par l’assureur. On définit ( 0, X ≤ 100 Y= X − 100, X > 100. Solutions 75 Le rapport d’élimination de perte est E [Y ] E[ X ] R∞ ( x − 100) f X ( x ) dx = 100 E[ X ] 0,138 = 40 = 0,0034. LER = Il est également possible de réécrire la variable aléatoire comme étant ( X − X, X ≤ 100 Y= X − 100, X > 100. Il est alors aisé de calculer le rapport d’élimination de perte comme suit : E [Y ] E[ X ] E[ X ] − E[ X; 100] = E[ X ] (40)Γ(5; 10) + (100)(1 − Γ(4; 10)) = . 40 LER = Comme la valeur de α est entière, on peut utiliser Γ(α; y) = 1 − α −1 ∑ j =0 y j e−y j! pour obtenir 40 − 39,862 = 0,0034. 40 2.5 Il est dit dans la question que l’assureur «limite ses paiements à 200», la limite est donc de 270. En introduisant d’abord la limite, l’assureur économise, respectivement, LER = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 90, 130, pour un total de 220. En introduisant ensuite la franchise, l’assureur économise en plus, respectivement, 20, 50, 70, 70, 70, 70, 70, 70, 70, 70, 70, 70, pour un total de 770. Le montant total des sinistres sans la limite et la franchise est de 1 745. Le rapport d’élimination de perte est donc LER = 770 + 220 = 0,567. 1 745 76 Solutions 2.6 On trouve d’abord R∞ x f X ( x ) dx + 100 100 f X ( x ) dx LERd=100 = E[ X ] E[ X; 100] = E[ X ] E[ X; 100] = 2 000 = 0,0465 R 100 0 d’où l’on trouve que E[ X; 100] = 93. Soit Y, la variable aléatoire du montant épargné par l’assureur. On définit X, Y = 100, X − 30 000 + 100, X ≤ 100 100 < X ≤ 30 000 X > 30 000, ou, de manière équivalente, Y = X − min( X, 30 000) + min( X, 100) X ≤ 100 X − X + X, = X − X + 100, 100 < X ≤ 30 000 X − 30 000 + 100, X > 30 000. Ainsi, LER = E[ X ] − E[ X; 30 000] + E[ X; 100] = 0,226. E[ X ] 2.7 a) Il faut voir que la densité donnée peut s’écrire comme une combinaison linéaire de deux distributions exponentielles : f X ( x ) = e−2x + e− x 2 1 1 = (2e−2x ) + e− x . 2 2 L’espérance limitée est donc, en utilisant les formules pour l’espérance limitée d’une exponentielle, E[ X; d] = = 1 1 1 (1 − e−2d ) + (1)(1 − e−d ) 2 2 2 1 − e−2d 1 − e−d + . 4 2 Solutions 77 b) Il faut d’abord évaluer la sévérité moyenne. Soit Y, la variable aléatoire du montant payé par l’assureur, on a ( 0, X ≤ 0,25 Y= X − 0,25, X > 0,25, ou encore Y = max( X − 0,25, 0) = X − min( X, 0,25) ( X − X, X ≤ 0,25 = X − 0,25, X > 0,25. À partir de cette représentation, il est facile de voir que E[Y ] = E[ X ] − E[ X; 0,25] 1 1 3 − e−0,5 − 2e−0,25 = + − 4 2 4 = 0,541. L’espérance de la sévérité est de un sinistre tous les dix ans, donc de 0,1. Ainsi, la prime pure est π = (0,541)(0,1) = 0,0541. c) Soit Z = 1,05X, la variable aléatoire du montant de sinistre après inflation. On a FZ ( x ) = FX ( x/1,05) 1 1 = (1 − e−(2/1,05)x ) + (1 − e−1/1,05x ). 2 2 Le calcul de l’espérance de la sévérité est donc E[Y ] = E[ Z ] − E[ Z; 0,25] = 0,7875 − 0,2107 = 0,576. La prime pure est alors π = (0,576)(0,1) = 0,0576. 2.8 a) Pour le réassureur, il s’agit d’une franchise de 50 000. Soit Y, la variable aléatoire du montant payé par le réassureur. On a ( 0, X ≤ 50 000 Y= X − 50 000, X > 50 000, 78 Solutions ou encore Y = max( X − 50 000, 0) = X − min( X, 50 000) ( X − X, X ≤ 50 000 = X − 50 000, X > 50 000 À partir de cette représentation, il est facile de voir que E[Y ] = E[ X ] − E[ X; 50 000] = 1 091,09. b) Soit Y ∗ la variable aléatoire du montant économisé par le réassureur. On définit ( ∗ Y = X, 100 000, X ≤ 100 000 X > 100 000. On trouve alors que E[Y ∗ ] = E[ X; 100 000] = 4 219,13. De plus, on a λ α−1 2 500 = 1,5 − 1 = 5 000. E[ X ] = Le rapport d’élimination de perte est donc LER = 4 219,13 = 0,8438. 5 000 2.9 On sait que Y P = X − d| X > d et que fY P (x) = f X ( x + d) , 1 − FX (d) x > 0. Solutions 79 On a donc E [Y P ] = = = = = ∞ 1 x f X ( x + d) dx 1 − FX (d) 0 Z ∞ 1 (y − d) f X (y) dy 1 − FX (d) d Z ∞ 1 y f X (y) dy − d(1 − F (d)) 1 − FX (d) d Z ∞ Z d 1 y f X (y) dy − y f X (y) dy − d(1 − F (d)) 1 − FX (d) 0 0 E[ X ] − E[ X; d] 1 − FX (d) Z par définition de l’espérance limitée. Le numérateur représente le montant moyen des sinistres au-dessus de la franchise d, alors que la présence du dénominateur s’interprète comme la sélection des seuls sinistres dépassant la franchise. 2.10 Pour chaque cas, la fonction coverage du package actuar retourne une fonction pour calculer ou tracer la densité modifiée. Voir la figure E.3 pour les graphique demandés. On a superposé, sur chaque graphique, la densité de la distribution sans la modification à la densité modifiée. Le code R pour créer ces graphiques est le suivant : a) > f <- coverage(dweibull, pweibull, deductible = 10, + per.loss = TRUE) > curve(dweibull(x, 3, 15), from = 0, to = 50, + ylim = c(0, f(0, 3, 15))) > curve(f(x, 3, 15), from = 0.01, add = TRUE, + lwd = 3) > points(0, f(0, 3, 15), pch = 16, lwd = 3) b) > f <- coverage(dweibull, pweibull, deductible = 10, + limit = 40, franchise = TRUE) > curve(f(x, 3, 15), from = 10.01, to = 39.99, + xlim = c(0, 50), lwd = 3) > points(40, f(40, 3, 15), pch = 16, lwd = 3) > curve(dweibull(x, 3, 15), add = TRUE, lty = 2) c) > f <- coverage(dweibull, pweibull, coins = 0.8) > curve(f(x, 3, 15), from = 0, to = 50) > curve(dweibull(x, 3, 15), add = TRUE, lty = 2) 2.11 a) On a X ∼ Pareto(1,5, 1 500). En 1995, la variable aléatoire est, après inflation, X1995 = (1,05)2 (1,06)3 X1990 = (1,3131) X1990 , Solutions 0.00 0.02 0.04 0.06 0.08 0.10 80 0.00 0.00 0.04 0.10 0.08 0.20 ● 0 10 20 30 40 50 (a) Franchise forfaitaire de 10 ● 0 10 20 30 40 50 (b) Franchise atteinte de 10 et limite de 40 0 10 20 30 40 50 (c) Coassurance de 80 % Figure E.3: Graphiques de l’exercice 2.10. Le trait épais représente la variable aléatoire modifiée et le trait mince la variable aléatoire de base. et donc X1995 ∼ Pareto(1,5, 1 500 × 1,3131). L’espérance limitée est E[ X1995 ; 500] = 421,3. L’espérance du montant d’un sinistre en 1995 est donc, avant la franchise, E[ X1995 ] = 1 969,65 = 3 939,3 1,5 − 1 et après la franchise ∗ E[ X1995 ] = E[ X1995 ] − E[ X1995 ; 500] = 3 939,3 − 421,3 = 3 518. Enfin, le rapport d’élimination de perte est LER = 3 939,3 − 3 518 = 0,1069. 3 939,3 b) Soit N, la variable aléatoire représentant le nombre de paiements. On cherche, Pr( X1995 − 500 >2 000| N = 1) = Pr( X1995 − 500 > 2 000| X1995 > 500) Pr( X1995 − 500 > 2 000, X1995 > 500) = Pr( X1995 > 500) Pr( X1995 − 500 > 2 000) = Pr( X1995 > 500) = 0,4107. Solutions 81 c) La nouvelle variable aléatoire est 0, Y ∗ = X1995 − 500, 4 000 − 500, X1995 ≤ 500 500 < X1995 ≤ 4 000 X1995 > 4 000, ou encore, Y ∗ = max(min( X1995 , 4 000) − 500, 0) = min( X1995 , 4 000) − min( X1995 , 500) X1995 − X1995 , X1995 ≤ 500 = X1995 − 500, 500 < X1995 ≤ 4 000 4 000 − 500, X1995 > 4 000, d’où E[Y ∗ ] = E[ X1995 ; 4 000] − E[ X1995 ; 500] = 1 154,07. 2.12 a) On veut calculer E[ X; u] = e µ+σ2 /2 Φ ln(u) − µ − σ2 σ +u 1−Φ ln(u) − µ σ avec u = 300 000, µ = 9,356 et σ = 1,596. On obtient E[ X; 300 000] = (41 340,92)(0,671413) + (300 000)(1 − 0,9793) = 33 962. b) Soit Y, le montant payé par sinistre après inflation. On a d E[Y ] = (1 + r ) E X; 1+r = (1,1) E[ X; 272 727,272] = (1,1)(33 356) = 36 692. Puisque 36 692/33 962 = 1,0804, cela représente une augmentation des coûts de 8,04 %. c) Soit Y ∗ la variable aléatoire du montant payé par sinistre suite à l’introduction d’une franchise de 1 000 $. On a E[Y ∗ ] = E[ X; 300 000] − E[ X; 1 000] = 33 962 − 973,92 = 32 988,38. Puisque 32 988,38/33 962 = 0,9713, l’introduction de la franchise entraîne une baisse des coûts de 2,87 % par rapport à la situation en a). 82 Solutions 2.13 Soit Y P la variable aléatoire du montant payé par paiement par le réassureur. On a Y P = X − δ| X > δ, donc fY P (x) = f X ( x + δ) 1 − FX (δ) αλα /( x + δ + λ)α+1 λα /(δ + λ)α α(λ + δ)α = , x > 0, ( x + (λ + δ))α+1 = d’où Y P ∼ Pareto(α, λ + δ). 2.14 Soit X la variable aléatoire du montant d’un sinistre et Y P = X − d| X > d, la variable aléatoire du montant payé par paiement avec une franchise forfaitaire d. Or, la distribution exponentielle étant sans mémoire, on a, de manière générale, Pr(Y P > x ) = Pr( X > x + d) Pr( X > d) e−λ( x +d) e−λd −λx =e , = d’où Y P ∼ Exponentielle(λ). Ici, on a donc Pr(Y P > 0,5) = e−3(0,5) = 0,22. 2.15 On a E A [Y S ] = E[ X ] − E[ X; 5 000] = 11 100 − E[ X; 5 000] = 6 500, d’où E[ X; 5 000] = 4 600. De même, E[ X ] − E[ X; 5 000] 1 − F (5 000) 11 100 − 6 500 = 1 − F (5 000) E A [Y P ] = = 10 000, d’où F (5 000) = 0,35. Enfin, on cherche EB [Y P | X ≤ 5 000] = E[ X | X ≤ 5 000] R 5 000 x f ( x ) dx = 0 F (5 000) E[ X; 5 000] − (5 000)(1 − F (5 000)) = F (5 000) = 3 857. Solutions 83 2.16 L’espérance de la fréquence annuelle des sinistres est r (1 − θ )/θ = 15. Pour qu’il y ait un paiement, le montant du sinistre doit être supérieur à la franchise. Or Pr( X > 200) = e(200/1 000) 0,3 = 0,5395. Ainsi, 53,95 % des sinistres occasionneront un paiement, d’où le nombre espéré de paiements par années est (15)(0,5395) = 8,0925. 2.17 a) Le résultat découle directement de la redéfinition de la variable aléatoire Y S comme suit : Y S = α max(min( X, u) − d, 0) = α(min( X, u) − min( X, d)) X − X, X < d = α X − d, d ≤ X < u u − d, X ≥ u. b) Pour calculer le second moment de la variable aléatoire Y S , on écrit d’abord X≤d 0, S 2 2 2 2 (Y ) = α ( X − 2dX + d ), d < X < u 2 2 α (u − 2ud + d2 ), X ≥ u 2 2 2 α ( X − X − 2dX + 2dX ), X ≤ d 2 2 2 = α ( X − d − 2dX + 2dd), d < X < u 2 2 α (u − d2 − 2du + 2dd), X ≥ u. On a alors E[(Y S )2 ] = α2 ( E[ X 2 ; u2 ] − E[ X 2 ; d2 ] − 2dE[ X; u] + 2dE[ X; d]). La variance est donc Var[Y S ] = E[(Y S )2 ] − E[Y S ]2 = α2 ( E[ X 2 ; u2 ] − E[ X 2 ; d2 ] − 2dE[ X; u] + 2dE[ X; d]) − α2 ( E[ X; u] − E[ X; d])2 . c) Suite à une inflation de 100r %, la définition de la variable aléatoire Y S équivalente à celle utilisée en a) est d u Y S = α(1 + r ) min X, − min X, 1+r 1+r X < d/(1 + r ) X − X, = α(1 + r ) X − d/(1 + r ), d/(1 + r ) ≤ X < u/(1 + r ) u/(1 + r ) − d/(1 + r ), X ≥ u/(1 + r ). 84 Solutions On obtient donc directement E[Y S ] = α(1 + r ) E X; d u − E X; . 1+r 1+r 2.18 On remarquera que la relation est un cas spécial du résultat de l’exercice 2.17 avec α = 1 et r = 0. On a X<d 0, S Y = X − d, d ≤ X < u u − d, X ≥ u. Par conséquent, E[Y S ] = (0)Pr( X < d) + = Z u−d 0 Z u−d 0 y f Y S (y) dy + (u − d)(1 − FX (u)) y f Y S (y) dy + (u − d)(1 − FX (u)). En faisant le changement de variable x = y + d dans l’intégrale, on obtient E [Y S ] = = Z u d Z u 0 ( x − d) f X ( x ) dx + (u − d)(1 − FX (u)) ( x − d) f X ( x ) dx − Z d 0 ( x − d) f X ( x ) dx + (u − d)(1 − FX (u)) = Z u 0 x f X ( x ) dx − d FX (u) − Z d 0 x f X ( x ) dx + d FX (d) + (u − d)(1 − FX (u)) = Z u 0 x f X ( x ) dx + u(1 − FX (u)) − Z d 0 x f X ( x ) dx − d(1 − FX (d)) = E[ X; u] − E[ X; d]. 2.19 Lorsqu’il y a bonus, son montant est 0,75 − S/600 000 450 000 − S 600 000 = . 3 3 Il y aura donc un bonus si L < 450 000. On a donc 450 000 − S 1 B = max 0, = 150 000 − min(S, 450 000), 3 3 d’où 1 E[S; 450 000] 3 1 = 150 000 − (220 321,36) 3 = 76 559,55. E[ B] = 150 000 − Solutions 85 2.20 a) Lorsqu’un sinistre de montant d < x ≤ d∗ survient, l’assureur rembourse un montant d∗ ( x − d)/(d∗ − d). On a donc d∗ ( X − d), Y = −d X, P d∗ d < X ≤ d∗ X > d∗ . b) Pour pouvoir évaluer l’espérance, il est plus facile de réécrire la variable sous la forme d d∗ P ∗ Y = X+ min( X, d ) − min( X, d) X > d d∗ − d d∗ − d d d∗ X + X− d, d < X ≤ d∗ d∗ − d d∗ − d = d d∗ ∗ X + d − d, X > d∗ . d∗ − d d∗ − d Par la définition de l’espérance limitée ou en utilisant le résultat de l’exercice 2.9, on obtient directement E [Y P ] = E[ X ] + dE[ X; d∗ ]/(d∗ − d) − d∗ E[ X; d]/(d∗ − d) . 1 − FX (d) Chapitre 3 3.1 a) On peut calculer puis tracer la fonction de répartition empirique aisément avec la fonction ecdf de R ; voir la figure E.4. Quant à la fonction de masse de probabilité empirique, la façon la plus simple de la calculer est à partir de la fonction table ; voir la figure E.5. b) Il faut d’abord déterminer le nombre de données dans chacune des classes. On a n1 = 4, n2 = 10, n3 = 2 et n4 = 4. L’équation de l’ogive est alors 0, x≤2 ( x − 2)/25, 2<x≤7 ( x − 5)/10, 7 < x ≤ 12 F̃20 ( x ) = ( x + 58 ) /100, 12 < x ≤ 22 ( x + 42)/80, 22 < x ≤ 38 1, x > 38 Les fonctions grouped.data et ogive de actuar permettent, dans l’ordre, de définir un objet de données groupées et de calculer son ogive ; voir la figure E.6. 86 Solutions > x <- c(3, 5, 5, 6, 8, 8, 8, 8, 9, 10, 10, 11, + 11, 11, 16, 21, 23, 26, 29, 36) > Fn <- ecdf(x) > plot(Fn) 1.0 ecdf(x) ● ● ● 0.8 ● ● ● 0.6 ● Fn(x) ● 0.4 ● 0.2 ● ● ● 0.0 ● 0 10 20 30 40 x Figure E.4: Fonction de répartition empirique des données de l’exercice 3.1 c) L’équation de l’histogramme est, en dérivant l’ogive obtenue en b), 0, 1/25, 1/10, f˜20 ( x ) = 1/100, 1/80, 0, x≤2 2<x≤7 7 < x ≤ 12 12 < x ≤ 22 22 < x ≤ 38 x > 38. Le package actuar définit une méthode de la fonction hist pour les données groupées ; voir la figure E.7. Solutions 87 > table(x) x 3 1 5 2 6 1 8 4 9 10 11 16 21 23 26 29 36 1 2 3 1 1 1 1 1 1 0.05 0.10 fn 0.15 0.20 > fn <- table(x)/length(x) > plot(unique(x), fn, type = "h", lwd = 4) 5 10 15 20 25 30 35 unique(x) Figure E.5: Fonction de masse de probabilité empirique des données de l’exercice 3.1 3.2 À partir de l’information du tableau et de la définition de l’ogive, on a 36 0,40x + n n 36 x 0,60y 0,51 = + + n n n n = 200 + x + y. 0,21 = En résolvant, on obtient x = 120. 3.3 En utilisant les informations du tableau et la définition de l’ogive, on 88 Solutions > xg <- grouped.data(Group = c(2, 7, 12, 22, 38), + Frequency = c(4, 10, 2, 4)) > Gn <- ogive(xg) > plot(Gn) 1.0 ogive(xg) 0.8 ● ● 0.0 0.2 0.4 F(x) 0.6 ● ● ● 5 10 15 20 25 30 35 x Figure E.6: Ogive des données groupées de l’exercice 3.1 obtient 0,689 = (0,5) F̃500 (1 000) + (0,5) F̃500 (2 000) 200 + 110 310 + x = (0,5) + , 500 500 d’où l’on trouve que x = 69 et 0,839 = (0,5) F̃500 (2 000) + (0,5) F̃500 (5 000) 310 + 69 379 + y = (0,5) + , 500 500 d’où l’on trouve que y = 81. 3.4 Les données sont entrées dans R avec > (x <- grouped.data(Group = 1000 * c(0, 1, 3, 5, + 10, 25, 50, 100, Inf), Frequency = c(16, 22, + 25, 18, 10, 5, 3, 1))) Solutions 89 > hist(x) 4 0 2 Frequency 6 8 Histogram of x 0 10 20 30 40 x Figure E.7: Histogramme des données groupées de l’exercice 3.1 Group Frequency 1 (0, 1000] 16 2 (1000, 3000] 22 3 (3000, 5000] 25 4 (5000, 10000] 18 5 (10000, 25000] 10 6 (25000, 50000] 5 7 (50000, 100000] 3 8 (100000, Inf] 1 Pour calculer l’ogive de ces données, la borne infinie de la dernière classe doit être remplacée par une valeur très grande par rapport aux autres bornes. Il ne faut pas que cette valeur soit trop grande si on veut avoir un graphique intéressant. Il ne faut pas supprimer la dernière classe. La figure E.8 présente les ogives avec 200 000 et 2 000 000 comme dernière borne. On cherche Pr(2 000 ≤ X ≤ 6 000) = F100 (6 000) − F100 (2 000). Or, 90 Solutions > x[8, 1] <- c(1e+05, 2e+05) > Gn <- ogive(x) > plot(Gn) > x[8, 1] <- c(1e+05, 2e+06) > Gn <- ogive(x) > plot(Gn) 1.0 ● F(x) ● ● ● 0 ● ● 0.2 ● 50000 150000 ● ● ● ● 0.8 ● ● 0.6 ● 0.0 0.6 0.4 0.0 0.2 F(x) 0.8 ● ogive(x) 0.4 1.0 ogive(x) ● ● ● 0 x 500000 1500000 x (a) cr = 200 000 (b) cr = 2 000 000 Figure E.8: Ogive des données de l’exercice 3.4 avec différentes dernières bornes > Gn <- ogive(x) > Gn(c(2000, 6000)) [1] 0.270 0.666 d’où Pr(2 000 ≤ X ≤ 6 000) = 0,396. 3.5 Comme seulement une donnée est plus petite ou égale à 150, la fonction de répartition empirique est F5 (150) = 1/5 = 0,20. Pour l’estimateur lissé, on regarde la contribution de chacune des données au point 150, t j (150) : – le noyau autour de 80 va de 30 à 130, la donnée 80 contribue donc à 100 % ; – le noyau autour de 153 va de 103 à 203, la donnée 153 contribue donc à (150 − 103) % = 47 % ; – le noyau autour de 162 va de 112 à 212, la donnée 162 contribue donc à (150 − 112) % = 38 % ; – les deux autres données ne contribuent pas. L’estimateur lissé est donc 5 F̆ (150) = ∑ f5 (y j )t j (150) j =1 = (0,20)(1) + (0,20)(0,47) + (0,20)(0,38) + 0 + 0 = 0,37. Ainsi, | F5 (150) − F̆ (150)| = |0,20 − 0,37| = 0,17. Density 0.010 0.000 Density 0 100 200 300 400 0.000 0.002 0.004 0.006 91 0.020 Solutions 100 N = 1 Bandwidth = 20 150 200 250 300 350 N = 4 Bandwidth = 20 (a) Noyaux individuels (b) Somme pondérée Figure E.9: Estimation par noyaux triangulaires et largeur de bande de 50 des données de l’exercice 3.6 3.6 a) Étant donné que la distribution est symétrique, la moyenne sera le point central, c’est-à-dire 150 + 300 − 150 = 225. 2 b) La figure E.9(a) présente les quatre noyaux (quatre densités) sur le même graphique et la figure E.9(b) présente leur somme pondérée, c’est-à-dire f˘( x ). 3.7 La figure E.10 présente la distribution empirique des données. a) On voit que pour une largeur de bande de 0,5, aucune donnée ne va contribuer à la densité au point 6,2. b) Pour une largeur de bande de 1, il y a une valeur, 7, qui va contribuer à la densité au point 6,2 : f˘(6,2) = 0,1 = 0,05. (2)(1) c) Pour une largeur de bande de 2, il y a trois valeurs, 5, 7 et 8 qui vont contribuer à la densité au point 6,2 : f˘(6,2) = 0,1 0,1 0,3 + + = 0,125. (2)(2) (2)(2) (2)(2) d) Pour une largeur de bande de 3, il y a cinq valeurs, 4, 5, 7, 8 et 9 qui vont contribuer à la densité au point 6,2 : f˘(6,2) = 0,2 0,3 0,1 0,1 0,1 + + + + = 0,13333. (2)(3) (2)(3) (2)(3) (2)(3) (2)(3) Solutions 0.20 0.10 0.15 fn 0.25 0.30 92 3 4 5 6 7 8 9 10 unique(x) Figure E.10: Distribution empirique des données de l’exercice 3.7 e) On voit que pour une largeur de bande de 0,5, aucune donnée ne va contribuer à la densité au point 6,2. f) Pour une largeur de bande de 1, il y a une valeur, 7, qui va contribuer à la densité au point 6,2 : f˘(6,2) = 1 10 6,2 − 7 + 1 (1)2 = 0,02. g) Pour une largeur de bande de 2, il y a trois valeurs, 5, 7 et 8 qui vont contribuer à la densité au point 6,2 : 1 6,2 − 7 + 2 1 6,2 − 8 + 2 + 10 10 (2)2 (2)2 3 −6,2 + 5 + 2 + 10 (2)2 f˘(6,2) = = 0,095. Solutions 93 3.8 On utilise l’équation d’un estimateur avec noyaux triangulaires : 1/5 a2 = 0,01. f˘(5) = (5 − (6 − a)) + −1/5 (5 − (4 + a)) a2 En simplifiant, on trouve 0,05a2 − 2a + 2 = 0 et, en choisissant la bonne racine, a = 1,0263. 3.9 On entre les données individuelles de l’exercice dans R avec > x <- c(2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, + 3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, + 8, 8, 9, 15, 17, 22, 23, 24, 24, 25, 27, 32, + 43) et les données sous forme groupée avec > xg <- grouped.data(Group = c(1.5, 2.5, 6.5, 29.5, + 49.5), Frequency = c(12, 15, 11, 2)) a) La figure E.11 présente la fonction de répartition empirique des données, obtenue à l’aide de la fonction ecdf. b) La figure figure E.11 présente également l’ogive des données, obtenue avec la fonction ogive du package actuar. On voit que l’ogive et la fonction de répartition empirique correspondent généralement bien. Autour du point x = 22, l’ajustement pourrait être un peu meilleur, par exemple en ajoutant une classe. Pour les deux bornes extrêmes, 0 aurait peut-être été un peu plus intuitif comme choix de borne inférieure que 1,5. La borne supérieure est logique, car supérieure à la valeur maximale de l’échantillon, mais est totalement arbitraire sinon (on aurait pu choisir, par exemple, 50). c) La figure E.12 présente l’histogramme des données créé à partir de l’objet de données groupées. d) On a simplement > mean(x) [1] 9.225 > sd(x) [1] 10.23691 3.10 Tout d’abord, on a F10 (4) = 0,40, E[ F10 (4)] = F (4), et Var[ F10 (4)] = F (4)(1 − F (4))/10. En utilisant le Théorème central limite, on peut poser que F (4) − E[ F10 (4)] Pr −1,96 ≤ 10p ≤ 1,96 Var[ F10 (4)] ! ≈ 0,95, 94 Solutions > > > > + Fn <- ecdf(x) Gn <- ogive(xg) plot(Fn, pch = 16) lines(knots(Gn), Gn(knots(Gn)), type = "o", pch = 21, bg = "white", lty = 2) 1.0 ecdf(x) 0.8 ● ● ● ● ● ● ● ● ● ● ● ● ● 0.6 ●● Fn(x) ● 0.4 ● ● 0.0 0.2 ●● ● 0 10 20 30 40 x Figure E.11: Fonction de répartition empirique (lignes et points pleins) et ogive (lignes brisées et points vides) des données de l’exercice 3.9 soit ! √ 10( F10 (4) − F (4)) Pr −1,96 ≤ p ≤ 1,96 ≈ 0,95. F (4)(1 − F (4)) En estimant le dénominateur par p F10 (4)(1 − F10 (4)) = √ 0,24 puis en Solutions 95 > hist(xg) 0.15 0.00 0.05 0.10 Density 0.20 0.25 0.30 Histogram of xg 0 10 20 30 40 50 xg Figure E.12: Histogramme des données de l’exercice 3.9 isolant F (4), on trouve r F (4) ∈ ∈ F10 (4)(1 − F10 (4)) F10 (4) ± 1,96 10 ! r 0,24 0,4 ± (1,96) 10 ! ∈ (0,0964, 0,7036). 3.11 En utilisant l’équation de l’estimateur de Nelson-Aalen, on obtient 10 11 3 + + 52 40 19 = 0,8866. Hn (1 200) = On trouve maintenant la valeur de la fonction de survie évaluée au point 1 200, Ŝ(1 200) = e−0,8866 = 0,4120, 96 Solutions yi (10 000 − yi )/(6 000) k ∆Hn 1 000 3 400 4 500 7 500 15 000 17 500 1,5000 1,1000 0,9167 0,4167 −0,8333 −1,2500 0,0 0,0 0,5 0,5 0,5 0,0 0,0500 0,0526 0,0556 0,0588 0,0625 0,0667 Table E.1: Résultats intermédiaires du calcul de l’estimation par noyaux pour les données de l’exercice 3.12 et finalement la valeur de la fonction de répartition évaluée à ce même point : F̂ (1 200) = 1 − 0,4120 = 0,5880. 3.12 a) En utilisant l’équation de l’estimateur de Nelson-Aalen, on trouve 1 20 = 0,0500 1 1 Hn (3 400) = + 20 19 = 0,1026 1 1 Hn (4 500) = + 20 19 = 0,1582 1 1 Hn (7 500) = + 20 19 = 0,2170 1 1 Hn (15 000) = + 20 19 = 0,2795 1 1 Hn (17 500) = + 20 19 = 0,3462. Hn (1 000) = + 1 18 + 1 1 + 18 17 + 1 1 1 + + 18 17 16 + 1 1 1 1 + + + 18 17 16 15 b) Le tableau E.1 présente les résultats intermédiaires. L’estimation est donc 1 h̆(10 000) = (0,5)(0,0556 + 0,0588 + 0,0625) 6 000 = 0,00001449. Solutions 97 3.13 On a µ̂3 . σ̂3 En entrant les données dans R, on peut calculer les troisième et deuxième moment centraux facilement : γ̂1 = > x <- 1000 * c(rep(2, 2), rep(4, 6), rep(6, 12), + rep(8, 10)) > (m <- mean(x)) [1] 6000 > mean((x - m)^3) [1] -3.2e+09 > mean((x - m)^2) [1] 3200000 On a donc −3 200 000 000 3 200 0003/2 = −0,559. γ̂1 = La distribution des données est donc asymétrique vers la gauche ou, de manière équivalente, la bosse se trouve à droite. 3.14 Étant donné que la distribution empirique est symétrique, l’estimateur du coefficient d’asymétrie est 0. En entrant les données dans R, on peut calculer les quatrième et deuxième moment centraux facilement : > x <- c(100, rep(200, 4), rep(300, 10), rep(400, + 4), 500) > (m <- mean(x)) [1] 300 > mean((x - m)^4) [1] 2e+08 > mean((x - m)^2) [1] 8000 On a donc µ̂4 σ̂4 200 000 000 = 8 0002 = 3,125. γ̂2 = La distribution empirique des données s’approche donc de celle d’une loi normale. 98 Solutions 3.15 a) On a (n + 1) p = (20 + 1)(0,60) = 12,6, d’où π̃0,60 = 0,4x(12) + 0,6x(13) = (0,4)(38) + (0,6)(39) = 38,6. b) On a (n + 1) p = (20 + 1)(0,75) = 15,75, d’où π̃0,75 = 0,25x(15) + 0,75x(16) = (0,25)(41) + (0,75)(43) = 42,5. 3.16 Par définition, E[min( X, 320)] = Z 320 0 x f X ( x ) dx + 320(1 − FX (320)). En supposant que les données sont uniformément distribuées à l’intérieur des classes, la moyenne de celles-ci est affectée au point milieu. À la classe (200, 320], on attribue un nombre de données proportionnel à la longueur de leur classe par rapport à la classe (200, 500], soit (120/300)(24) = (0,4)(24) = 9,6 données. On a au total n = 100 données. On a donc 20 100 + 50 34 50 + 0 + E100 [min( X, 320)] = 2 100 2 100 22 320 + 200 9,6 200 + 100 + + 2 100 2 100 24 − 9,6 + 320 100 = 5 + 25,5 + 33 + 24,96 + 46,08 = 134,54. On peut vérifier ce résultat à l’aide de la fonction elev de actuar : > x <- grouped.data(Classe = c(0, 50, 100, 200, + 500), Frequence = c(20, 34, 22, 24)) > elev(x)(320) [1] 134.54 3.17 Étant donné que l’intervalle est petit, on peut en calculer le niveau de confiance exactement. En utilisant la loi binomiale avec paramètres n = 5 et p = 0,5, on obtient 3 5 Pr( X(2) ≤ π0,5 < X(4) ) = ∑ (0,5)k (0,5)5−k k k =2 = 0,625. Solutions 99 3.18 Étant donné que l’intervalle est grand, on va utiliser l’approximation normale avec correction pour la continuité pour déterminer le niveau de confiance. On a, avec Y ∼ N (250, 125), Pr(240 ≤ π0,50 < 260) ≈ Pr(239,5 ≤ K < 259,5) = Φ(0,85) − Φ(−0,94) = 0,6287. 3.19 La valeur 10 est la 10e statistique d’ordre et la valeur 20 est la 14e statistique d’ordre. Comme l’intervalle est petit, on peut en calculer le degré de confiance exactement. Soit N ∼ Binomiale(20, 0,55), Pr( X(10) ≤ π0,55 < X(14) ) = Pr( N = 10, 11, 12, 13) 13 20 = ∑ (0,55)k (0,45)20−k k k =10 = 0,1593 + 0,1771 + 0,1623 + 0,1221 = 0,6208. 3.20 a) On obtient aisément 1 f (ln( x )) x Y λα = (ln( x ))α−1 e−λ ln(x) , Γ(α) x f X (x) = x > 1. On remarque que comme Y est définie sur [0, ∞), X = eY est définie sur [1, ∞). Cette distribution est la log-gamma de paramètres α et λ. b) La fonction R de la figure E.13 calcule le biais empirique pour des valeurs de λ, n et r données. On remarquera que cette fonction définit une fonction interne qui se charge des étapes 2 et 3 de l’algorithme présenté dans l’exposé de l’exercice. Cette fonction est ensuite passée à replicate pour réaliser efficacement l’étape 4 de l’algorithme. i) Pour n = 10 et r = 1 000 on a > simul.1 <- sim(5, 10, 1000) > simul.1$bias [1] 0.6603609 ii) Pour n = 1 000 et r = 100 on a > simul.2 <- sim(5, 1000, 100) > simul.2$bias [1] 0.009779794 iii) Pour n = 1 000 et r = 1 000 on a 100 Solutions sim <- function(lambda, n, r) { ## Fonction interne pour simuler un échantillon ## et calculer l’estimateur. f <- function(lambda, n) { ## Simulation des données. On pourrait aussi ## utiliser la fonction rlgamma() du package ## actuar. x <- exp(rgamma(n, shape = 1, rate = lambda)) ## Estimateur de lambda 1 / (1 - 1/mean(x)) } ## Simulation de ’r’ échantillons lc <- replicate(r, f(lambda, n)) ## La fonction retourne une liste contenant le ## vecteur d’estimateurs et le biais empirique. list(estimates = lc, bias = mean(lc) - lambda) } Figure E.13: Fonction R permettant la création des échantillons et le calcul du biais empirique > simul.3 <- sim(5, 1000, 1000) > simul.3$bias [1] 0.005028595 La taille de l’échantillon a un impact sur le biais de l’estimateur. On voit qu’au passage d’un petit échantillon (partie i)) à un plus grand (partie ii)) le biais devient moins important et l’estimateur est donc plus proche de sa vraie valeur. En revanche, le nombre de simulation n’a un impact que sur la force de la conclusion. De la partie ii) à la partie iii), seul le nombre de simulations change. Or, le biais change assez peu. Nous ne sommes que confortés dans notre conclusion que l’estimateur λ̂ est probablement sans biais pour λ. c) On a un échantillon de 100 estimations. La figure E.14 présente le graphique de la fonction de répartition empirique de l’estimateur λ̂. d) La figure E.15 présente l’histogramme et l’ogive de l’estimateur λ̂. Tel que suggéré dans l’énoncé de l’exercice, on a utilisé les classes Solutions 101 > x <- simul.2$estimates > Fn <- ecdf(x) > plot(Fn, do.points = FALSE) 0.0 0.2 0.4 Fn(x) 0.6 0.8 1.0 ecdf(x) 4.6 4.8 5.0 5.2 5.4 5.6 x Figure E.14: Fonction de répartition empirique de l’estimateur λ̂ de l’exercice 3.20 calculées par la fonction hist pour construire l’ogive. On a procédé ainsi : > gn <- hist(x, plot = FALSE) > xg <- grouped.data(cj = gn$breaks, nj = gn$counts) > Gn <- ogive(xg) e) Comme il y a 100 données dans l’échantillon, on a (101)(0,45) = 45,45 et donc π̂0,45 = (0,55) x(45) + (0,45) x(46) . Pour le 70e centile, la procédure est la même. On a (101)(0,70) = 70,7 et donc π̂0,70 = (0,30) x(70) + (0,70) x(71) . Pour notre échantillon, on obtient > xs <- sort(x) > 0.55 * xs[44] + 0.45 * xs[45] 102 Solutions > hist(x, prob = TRUE) > plot(Gn) ogive(xg) 1.0 Histogram of x ● ● 0.8 ● 0.6 F(x) ● ● 0.4 2.0 ● 0.2 1.0 ● 0.0 ● 0.0 Density ● ● 4.6 4.8 5.0 5.2 5.4 5.6 x (a) Histogramme ● 4.6 ● 4.8 5.0 5.2 5.4 5.6 x (b) Ogive Figure E.15: Histogramme et ogive de l’estimateur λ̂ de l’exercice 3.20 [1] 4.968344 et > 0.3 * xs[70] + 0.7 * xs[71] [1] 5.084669 Plus simplement, on peut utiliser la méthode pour données groupées de la fonction quantile définie dans actuar pour calculer les quantiles lissés (soit l’inverse de l’ogive) : > quantile(xg, c(0.45, 0.7)) 45% 70% 4.970370 5.080952 Les résultats diffèrent légèrement parce que la technique de lissage utilisé par quantile n’est pas tout à fait la même que celle utilisée ci-dessus. Solutions 103 Chapitre 4 4.1 En utilisant la technique de la fonction de répartition, on a FY (y) = Pr(Y ≤ y) = Pr(cX ≤ y) = Pr( X ≤ y/c) = FX (y/c) α λ =1− λ + y/c α cλ =1− cλ + y et donc, Y ∼ Pareto(α, cλ). 4.2 En utilisant la technique de la fonction de répartition, on a FY (y) = Pr(Y ≤ y) = Pr( X ≤ ln(y)) = FX (ln(y)). Étant donné la présence de la valeur absolue dans la densité de X, il faut séparer le domaine. Pour −∞ < x ≤ 0, on a 0 < y < 1, et donc FX (ln(y)) = Z ln(y) 1 x −∞ 2θ 1 ln(y)/θ = e . 2 e θ dx Pour 0 < x < ∞, on a 1 < y < ∞, et donc Z 0 1 x/θ e dx + −∞ 2θ 1 − ln(y) =1− e θ . 2 FX (ln(y)) = Z ln(y) 1 0 2θ e− x/θ dx Par conséquent, ( F (y) = 1 ln(y)/θ , 2e 1 − 21 eln(y)/θ , 0<y<1 y ≥ 1. 104 Solutions 4.3 En utilisant le fait que, pour α entier, Γ(α) = (α − 1)!, on trouve x 1 tα−1 e−t/β dt α (α − 1)!β 0 x Z x 1 α−2 −t/β α−1 −t/β = + ( α − 1 ) t βe dt − t βe (α − 1)!βα 0 0 Pr( X ≤ x ) = Z x x α−1 e− x/β 1 tα−2 e−t/β dt + α − 1 α − 1 (α − 1)!β (α − 2)!β 0 Z x 1 = −Pr(Y = α − 1) + tα−2 e−t/β dt (α − 2)!βα−1 0 Z =− avec Y ∼ Poisson( x/β). La relation s’obtient en continuant à intégrer comme ci-dessus jusqu’à obtenir Pr( X ≤ x ) = 1 − Pr(Y = α − 1) − · · · − Pr(Y = 0) = Pr(Y ≥ α). 4.4 En utilisant la technique de la fonction de répartition, on a λy 1−y FY (y) = FX = β τ, α; λy/(1 − y) λy/(1 − y) + λ = β(τ, α; y), où β( a, b; x ) est la fonction de répartition d’une distribution Bêta( a, b) évaluée au point x. On a donc que Y ∼ Bêta(τ, α). 4.5 En utilisant la technique de la fonction de répartition, on obtient FY (y) = Pr(Y ≤ y) = Pr(5X −1/4 ≤ y) y −4 = Pr X > 5 y −4 = 1 − FX 5 α 1 = 1 + (5/y)4 qui est la fonction de répartition d’une variable aléatoire avec distribution Burr inverse de paramètres τ = α, γ = 4 et θ = 5. 4.6 a) Par définition, la distribution de Y est nommée log-gamma. On remarque que comme X est définie sur [0, ∞), Y = e X est définie sur Solutions 105 [1, ∞). On a donc 1 f X (ln(y)) y λα (ln(y))α−1 e−λ ln(y) , = Γ(α)y f Y (y) = y ≥ 1. b) En utilisant la fonction génératrice des moments de X, on trouve E [Y ] = E [ e X ] = M X (1) α λ = , λ−1 λ>1 E[Y 2 ] = E[e2X ] = M X (2) α λ , = λ−2 λ > 2, d’où Var[Y ] = E[Y 2 ] − E[Y ]2 α 2α λ λ = − , λ−2 λ−1 λ > 2. c) De la partie b), on voit que E [Y k ] = M X ( k ) α λ = , λ−k λ > k. Les moments de Y existent donc seulement pour k < λ. 4.7 a) Il suffit de poser c = 1 + i dans le résultat de l’exercice 4.1. b) En utilisant la technique de la fonction de répartition, on trouve y FY (y) = FX 1+i α θ γ (1 + i ) γ =1− θ γ (1 + i ) γ + y γ et donc, Y ∼ Burr(α, γ, (1 + i )θ ). 106 Solutions c) On a f Y (y) = 1 fX 1+i x 1+i = 1 λα (ln(y/(1 + i )))α−1 1 + i Γ(α) (y/(1 + i ))λ+1 = λα (1 + i ))λ (ln(y) − ln(1 + i ))α−1 . Γ ( α ) y λ +1 4.8 En utilisant la technique de la fonction de répartition, on a FY (y) = FX (yτ ) α λ =1− λ + yτ et donc, Y ∼ Burr(α, τ, λ1/τ ). 4.9 En utilisant la technique de la fonction de répartition, on a FY (y) = Pr(Y ≤ y) = Pr(ln(1 + X/θ ) ≤ y) = Pr( X ≤ θ (ey − 1)) = FX (θ (ey − 1)) α θ =1− θ + θ ( e y − 1) −αy = 1 − e , y ≥ 0. Ainsi, Y ∼ Exponentielle(α). 4.10 Soit Y, la variable aléatoire du montant des sinistres en 2007. On définit Y = (1,04)(1,045)(1,16) X = 1,260688X. En se reportant à l’exercice 4.7 b), on a que Y ∼ Burr(α = 0,5, γ = 2, θ = 3,7821) et donc que Pr(Y > 4) = 1 − FY (4) = 0,6870. 4.11 a) On observe que la variable aléatoire X obéit à une distribution Pareto translatée(3, 1). En utilisant la technique de la fonction de répartition, on trouve y FY (y) = FX 1,10 1,10 3 =1− . y b) On a Pr(Y > 2,2) = 1 − FY (2,2) = 0,125. Solutions 107 4.12 On a X |Θ ∼ Binomiale(10, Θ) et Θ ∼ Uniforme(0, 1). Par la loi des probabilités totales, Z 1 10 x Pr( X = x ) = θ (1 − θ )10− x dθ x 0 Z 1 10 = θ x (1 − θ )10− x dθ x 0 qui devient, en reconnaissant sous l’intégrale la forme fonctionnelle d’une distribution Bêta( x + 1, 11 − x ), 10 Γ( x + 1)Γ(11 − x ) Pr( X = x ) = x Γ(12) 10! x!(10 − x )! = (10 − x )!x! 11! 1 = . 11 Par conséquent, 10 Pr( X > 6) = ∑ Pr(X = i) i =7 = 4 . 11 4.13 Par la loi des probabilités totales, on trouve Z ∞ τ −θx τ −1 α −λθ α−1 λ e θ θ e x f X (x) = dθ Γ(τ ) Γ(α) 0 x τ −1 λ α = Γ(τ )Γ(α) Z ∞ 0 θ τ +α−1 e−( x+λ)θ dθ qui devient, en reconnaissant sous l’intégrale la forme fonctionnelle d’une distribution Gamma(τ + α, x + λ) f X (x) = x τ −1 λ α Γ ( τ + α ) Γ(α)Γ(τ )( x + λ)τ +α et donc, X ∼ Pareto Généralisée(α, τ, λ). 4.14 On a Pr( X = x ) = Z 1 0 θ (1 − θ ) x −1 Γ(α + β) = Γ(α)Γ( β) Z 1 0 Γ ( α + β ) α −1 θ (1 − θ ) β−1 dθ Γ(α)Γ( β) θ α (1 − θ ) x+ β−2 dθ 108 Solutions qui devient, en reconnaissant sous l’intégrale une distribution Bêta(α + 1, β + x − 1), Pr( X = x ) = Γ ( α + β ) Γ ( α + 1) Γ ( x + β − 1) . Γ(α)Γ( β)Γ(α + β + x ) 4.15 Par la loi des probabilités totales, on obtient f X (x) = = = Z ∞ 0 τθx τ −1 e−θx τx τ −1 λα Γ(α) Z ∞ 0 τ − 1 α ατx λ ( λ + x τ ) α +1 τ λα x α−1 e−λx dθ Γ(α) θ α e−( x τ +λ)θ dθ , en reconnaissant une distribution Gamma(α + 1, x τ + λ) sous l’intégrale. La densité obtenue est celle d’une loi Burr(α, τ, λ1/τ ). 4.16 On a X |Λ ∼ Burr(5, 1, Λ) et Λ ∼ Gamma(10, 2). On cherche E[ X ] et Var[ X ]. Il ne faut pas tenter de trouver la distribution marginale de X, mais plutôt conditionner : E[ X ] = E[ E[ X |Λ]] ΛΓ(4)Γ(2) =E Γ (5) 1 = E[Λ] 4 5 = 4 et Var[ X ] = E[Var[ X |Λ]] + Var[ E[ X |Λ]] " # ΛΓ(4)Γ(2) 2 ΛΓ(4)Γ(2) Λ2 Γ (3) Γ (3) − + Var =E Γ (5) Γ (5) Γ (5) 5 1 E [ Λ2 ] + Var[Λ] 48 16 145 . = 48 = 4.17 Pour commencer, on utilise le lien entre le taux d’échec et la fonction de Solutions 109 survie pour trouver S( x |θ ) = e− Rx 0 λ( x |θ ) dt Z x 3 dt = exp − 0 θ+t θ = exp −3 ln θ+x ( 3 ) θ = exp ln θ+x 3 θ . = θ+x La fonction de répartition est donc F ( x |θ ) = 1 − θ θ+x 3 , d’où X |Θ ∼ Pareto(3, Θ). Par conséquent, E[ X ] = E[ E[ X |Θ]] Θ =E 2 = 500 et Var[ X ] = E[Var[ X |Θ]] + Var[ E[ X |Θ]] 3Θ Θ =E + Var 4 2 = 850 000. 4.18 Soit f (·) la fonction de densité de probabilité d’une Log-normale(µ, σ2 ) et g(·) celle d’une Gamma(α, λ). Pour comparer les queues de ces deux distributions, il faut évaluer lim x →∞ f (x) . g( x ) En éliminant les termes qui ne dépendent pas de x, on obtient 2 2 2 2 x −1 e−(ln( x)−µ) /2σ lim = lim e−(ln(x)−µ) /2σ −α ln(x)+ x/θ . x →∞ x →∞ x α−1 e− x/θ Or, de l’exercice 1.4 on sait que x tend plus rapidement vers l’infini que ln( x ). L’exposant tend donc vers ∞, d’où la distribution log-normale a une queue plus épaisse que la distribution gamma. 110 Solutions 4.19 Une fonction d’espérance de vie résiduelle linéaire en x indique une distribution de Pareto telle que 1 λ e( x ) = x+ . α−1 α−1 À partir de e( x ) = 2 000 + 2x, on trouve que α = 1,5 et λ = 1 000. En utilisant les formules de l’annexe A pour l’espérance limitée d’une loi de Pareto, on a que le LER est LER = E[ X ] − E[ X; x ] 1 − FX ( x ) = 0,30115. 4.20 a) Il s’agit d’une fonction linéaire en x, on a donc que X ∼ Pareto. En utilisant la relation de l’exercice 4.19, on trouve que α = 7/3 et λ = 16/3. b) En utilisant la formule de l’annexe A, on trouve que E[ X; 10] = 3,0215. 4.21 Pour X ∼ Gamma(α, λ), on a E[ X ] = α/λ et Var[ X ] = α/λ2 . On trouve les paramètres suivants pour les trois sous-intervalles : α1 = 1, λ1 = 1, α2 = 25, λ2 = 5, α3 = 144 et λ3 = 12. Pour le premier sous-intervalle, on a A ∼ Gamma(1, 1) et Pr( A ≤ 2) = Γ(1; 2). Pour le second sous-intervalle, on a B ∼ Gamma(25, 5) et Pr(2 < B ≤ 8) = Γ(25; 40) − Γ(25; 10). Pour le troisième sous-intervalle, on a C ∼ Gamma(144, 12) et Pr(8 < C ≤ 16) = Γ(144, 192) − Γ(144; 96). La densité raccordée est donc 0,5e− x , Γ(1; 2) 0,2 525 x25−1 e−5x f X (x) = , Γ(25; 40) − Γ(25; 10) Γ(25) 0,3 12144 x144−1 e−12x , Γ(144; 192) − Γ(144; 96) Γ(144) 0<x≤2 2<x≤8 8 < x ≤ 16. 4.22 On a p/10, 0 < x < 10 (3)(1003 ) 1 (1 − p ) , x ≥ 10 (100 + x )4 (100/110)3 0 < x < 10 p/10, = (3)(1103 ) (1 − p), x ≥ 10. (100 + x )4 f X (x) = Solutions 111 Pour que la distribution soit continue au point x = 10, on doit avoir f X (10) = p , 10 soit 3 p (1 − p ) = . 110 10 En résolvant pour p, on trouve p = 3/14. 4.23 a) On pose X ∼ Weibull(λ1 , τ1 ) et Y = X −1 ∼ Weibull inverse(λ2 , τ2 ). On sait de l’annexe A que tous les moments positifs de la distribution Weibull existent, alors que ceux de la distribution Weibull inverse n’existent que pour k < τ2 . Par ce critère, on voit que la distribution Weibull Inverse possède une queue plus lourde. D’autre part, on a −τ2 τ2 λ2−τ2 x −τ2 −1 e−(λ2 x) fY (x) = τ τ f X (x) τ1 λ11 x τ1 −1 e−(λ1 x) 1 ∝ x −τ1 −τ2 e−(λ2 x) −τ2 +(λ τ 1 x) 1 , d’où ln fY (x) f X (x) ∝ (λ1 x )τ1 − (λ2 x )−τ2 − (τ1 + τ2 ) ln( x ). Lorsque x → ∞, le terme central tend vers 0. Comme x tend plus rapidement vers ∞ que ln( x ), on a que lim ln x →∞ fY (x) f X (x) = lim (λ1 x )τ1 − (λ2 x )−τ2 − (τ1 + τ2 ) ln( x ) x →∞ = ∞, d’où SY ( x ) f (x) = lim Y = ∞. x →∞ f X ( x ) x →∞ SX ( x ) lim Ainsi, en comparant les fonctions de survie on arrive aussi à la conclusion que la queue de la loi Weibull inverse est plus lourde que celle de la Weibull. b) On fixe τ1 et λ1 de manière arbitraire et on résoud numériquement pour τ2 et θ2 . La figure E.16 présente le graphique des deux distributions pour τ1 = 3, λ1 = 0,1, τ2 = 4,4744 et θ2 = 0,1335. Solutions 0.000 0.005 0.010 0.015 0.020 112 16 18 20 22 24 x Figure E.16: Comparaison des queues des distributions Weibull (trait mince) et Weibull inverse (trait épais) 4.24 On a Z ∞ SX (y) dy E[ X ] ∞ Z ∞ ty ty SX (y) f X (y) e e = + dy t E[ X ] t E[ X ] 0 MY (t) = 0 ety 0 1 M (t) =− + X tE[ X ] tE[ X ] MX (t ) − 1 = . tE[ X ] Ce résultat suppose que limy→∞ ety SX (y) = 0. En appliquant la règle de l’Hôpital, on voit qu’il s’agit de la même limite que −t−1 limy→∞ ety f X (y) qui doit être 0 sinon l’intégrale définissant MX (t) ne convergerait pas. Solutions 113 4.25 a) Par définition de la fonction de survie : S( x ) = Z ∞ x (1 + 2t2 )e2t dt = (1 + x + x2 )e−2x , x ≥ 0. b) Par définition du taux d’incidence : d ln S( x ) dx d d (2x ) − ln(1 + x + x2 ) = dx dx 1 + 2x . =2− 1 + x + x2 h( x ) = − c) On a d’abord Z ∞ x S(t) dt = Z ∞ x (1 + t + t2 )e−2t dt = (1 + x + 0,5x2 )e−2x et donc R∞ e( x ) = x S( x ) dx 1 + x + 0,5x2 = . S( x ) 1 + x + x2 d) On a lim h( x ) = lim x →∞ x →∞ 1 + 2x 2− 1 + x + x2 = 2. e) On a lim e( x ) = x →∞ 1 limx→∞ h( x ) 1 = . 2 f) À partir de c), on trouve d x + 0,5x2 e( x ) = − < 0, dx (1 + x + x 2 )2 pour x > 0, d’où e( x ) est une fonction strictement décroissante. Cependant, pour h( x ), on a h(0) = 1, h(0,5) = 6/7 et h(∞) = 2. On voit donc que le taux d’incidence n’est pas une fonction strictement croissante. 114 Solutions Chapitre 5 5.1 On a ∑5i=1 xi = 6 211 et ∑5i=1 xi2 = 26 040 101. Pour trouver les estimateurs des moments de α et β, on pose E[ X ] = E[ E[ X |Λ]] = E[Λ−1 ] = 6 211 β = α−1 5 et E[ X 2 ] = E[ E[ X |Λ]] = E[Λ−2 ] = 26 040 101 2β2 = . (α − 1)(α − 2) 5 En résolvant, on trouve α̂ = 3,45 et β̂ = 3 048,87. 5.2 Par définition, la fonction de vraisemblance donne la probabilité d’obtenir un échantillon tel que celui obtenu. On doit donc avoir deux données entre 0 et 2 000 et quatre données entre 2 000 et 5 000, le tout sachant que les six données sont plus petites que 5 000. On a alors L(λ) = (1 − e−2 000λ )2 (e−2 000λ − e−5 000λ )4 . (1 − e−5 000λ )6 5.3 On a ∑5i=1 xi = 5 850 et ∑5i=1 xi2 = 5 867 500. Pour trouver les estimateurs des moments de α et θ il suffit de poser égaux les deux premiers moments empiriques et théoriques : 5 850 αθ = 6 et 5 867 500 αθ 2 + α2 θ 2 = . 6 On trouve alors α̂ = 34,83 et θ̂ = 27,99. 5.4 La fonction de répartition de la log-logistique étant F(x) = ( x/θ )γ , 1 + ( x/θ )γ on trouve, après avoir égalisé les quantiles théoriques et empiriques, que γ̂ = 2 et θ̂ = 200. 5.5 La densité de la variable aléatoire sous-jacente est f X ( x ) = FX0 ( x ) = px p−1 . L’espérance est donc E[ X ] = = Z 1 0 xpx p−1 dx p . p+1 Solutions 115 En posant E[ X ] = x̄ pour trouver un estimateur des moments de p, on obtient x̄ p̂ = . 1 − x̄ 5.6 On a ∑5i=1 xi = 10 000 et ∑5i=1 xi2 = 30 000 000. On égalise les deux premiers moments théoriques et empiriques : eµ+ σ2 2 = 10 000 5 et 30 000 000 . 5 On trouve alors µ̂ = 7,40 et σ̂ = 0,6368. Par conséquent, ln(4 500) − 7,40 Pr( X > 4 500) = 1 − Φ 0,6368 2 e2µ+2σ = = 1 − Φ(1,5919) = 0,056. 5.7 On pose simplement √ β 2π = x̄ = 4,2, 2 d’où β̂ = 3,3511. 5.8 a) Posons λ̃ = λτ . On a Pr( X ≤ 500) = 1 − e−λ̃500 τ = 0,25 et Pr( X ≤ 1 000) = 1 − e−λ̃1 000 τ = 0,50 d’où on trouve que λ̃ˆ = 0,000108 et τ̂ = 1,2687. Ainsi, on a λ̂ = 0,000747. b) On cherche π̂0,80 tel que 1 − e−(λ̂π̂0,80 ) = 0,80. τ̂ On trouve π̂0,80 = (− ln 0,20)1/τ̂ /λ̂ = 1 947. 5.9 La distribution marginale de la variable X est une loi de Pareto(α, β). Ainsi, pour estimer les paramètres α et β par la méthode des quantiles, on pose α β SX (450) = = 0,001 β + 450 116 Solutions et SX (50) = β β + 50 α = 0,125. Il suffit maintenant de manipuler les termes pour obtenir β ln β+50 ln(0,125) = β ln(0,001) ln β+450 0,3010 β β ln = ln β + 450 β + 50 β0,3010 ( β + 50) = β( β + 450)0,3010 . 5.10 D’abord, le rapport d’élimination de perte avec une franchise forfaitaire est LER = E[ X; d] E[ X ] alors qu’avec une franchise atteinte il est LER = E[ X; d] − d(1 − F (d)) . E[ X ] Par conséquent, on a les équations suivantes : E[ X; 200] E[ X ] E[ X; 500] 0,79 = E[ X ] E[ X; 200] − 200(1 − F (200)) 0,32 = E[ X ] E[ X; 500] − 500(1 − F (500)) 0,52 = E[ X ] 0,56 = Puisque E[ X ] = 200, on trouve F (200) = 0,76 et F (500) = 0,892, d’où λ̂ ≈ 0,01 et τ̂ ≈ 0,48. 5.11 La fonction de répartition d’une loi U ( a, b) étant F(x) = x−a , b−a Solutions 117 on a 50 − a = 0,80 b−a 55 − a = 0,90, b−a d’où on obtient â = 10 et b̂ = 60. 5.12 Pour X ∼ Bernoulli( p), on a la fonction de vraisemblance n L( p; x1 , . . . , xn ) = ∏ p xi (1 − p)1− xi i =1 n n = p ∑ i =1 x i ( 1 − p ) n − ∑ i =1 x i et la fonction de log-vraisemblance n l ( p; x1 , . . . , xn ) = ∑ xi ln( p) + i =1 n ! n − ∑ xi ln(1 − p), i =1 d’où n − ∑in=1 xi ∑in=1 xi − p 1− p n x̄ n − n x̄ = − . p 1− p l 0 ( p; x1 , . . . , xn ) = On trouve donc p̂ = X̄. 5.13 a) On a la fonction de log-vraisemblance 1 1 n ( x − µ )2 l (µ, σ2 ) = n ln √ − ∑ i 2 2 i =1 σ 2πσ et les dérivées partielles n ∂ ( x − µ) l (µ, σ2 ) = ∑ i 2 ∂µ σ i =1 n ∂ ∑in=1 ( xi − µ)2 2 l ( µ,σ ) = − + . ∂σ2 2σ2 2σ4 En posant ces dérivées égales à 0 et en résolvant pour µ et σ2 , on obtient les estimateurs du maximum de vraisemblance µ̂ = σ̂2 = 1 n Xi = X̄ n i∑ =1 1 n ( Xi − X̄ )2 = S2 . n i∑ =1 118 Solutions b) À partir des calculs précédents, on trouve ∂2 n l (µ, σ2 ) = − 2 ∂µ2 σ ∂2 n ∑in=1 ( xi − µ)2 2 l ( µ, σ ) = − σ6 ∂σ4 2σ4 n 2 ∂ ∑ xi − µ l (µ, σ2 ) = − i=1 4 . ∂µ∂σ2 σ Or, h ni n E − 2 =− 2 σ σ ∑in=1 ( Xi − µ) E − =0 σ4 et E n n ∑in=1 ( Xi − µ)2 − =− 4 6 4 σ 2σ 2σ car E[ Xi − µ] = 0 et E[( Xi − µ)2 ] = σ2 . On obtient ainsi la matrice variance-covariance : 2 σ /n 0 Σ= . 0 2σ4 /n Or, on sait que la distribution asymptotique conjointe des estimateurs du maximum de vraisemblance est une normale multivariée sans biais et de matrice variance-covariance Σ. c) On rappelle que Φ(·) et φ(·) sont, dans l’ordre, les fonctions de répartition et de densité de probabilité d’une loi N (0, 1). Par conséquent, ∂ 1 c−µ 2 A= h(µ, σ ) = − φ ∂µ σ σ et ∂ 1 B = 2 h(µ, σ2 ) = − 2 ∂σ c−µ σ3 c−µ φ , σ d’où σ2 /n 0 A 0 2σ4 /n B 2 c−µ 1 ( c − µ )2 = φ + . σ n 2nσ2 Var[h(µ̂, σ̂2 )] = A B Enfin, on sait que, asymptotiquement, h(µ̂, σ̂2 ) ∼ N (h(µ, σ2 ), Var[h(µ̂, σ̂2 )]). Solutions 119 5.14 En utilisant la technique habituelle : ! n ∏ xi L ( θ ) = 2n θ n n 2 e − θ ∑ i =1 x i i =1 n n i =1 i =1 l (θ ) = n ln(2) + n ln(θ ) + ∑ ln xi − θ ∑ xi2 l 0 (θ ) = n n − xi2 . θ i∑ =1 On trouve alors θ̂ = n/ ∑in=1 xi2 . En calculant la dérivée seconde de la fonction de log-vraisemblance, on voit qu’il s’agit bien d’un maximum. 5.15 a) On a f ( x ) = px p−1 , d’où n p −1 L ( p ) = p n ∏ xi i =1 n l ( p) = n ln( p) + ( p − 1) ∑ ln( xi ) i =1 n n l 0 ( p) = + ∑ ln( xi ). p i =1 On trouve alors p̂ = −n/ ∑in=1 ln( xi ). En calculant la dérivée seconde, on voit qu’il s’agit bien d’un maximum. b) À partir de a), on calcule l 00 ( p; x1 , . . . , xn ) = − n p2 d’où I ( p) = nE[ p−2 ] = n p2 et Var[ p̂] = p2 1 = . I ( p) n c) On sait que p ∈ p̂ ± 1,96 De a) et b), on a donc q Var[ p̂]. p p ∈ p̂ ± 1,96 √ . n 120 Solutions d) On a E[ X ] = = Z 1 0 xpx p−1 dx p . p+1 Par la propriété d’invariance, l’estimateur du maximum de vraisemblance de E[ X ] est p̂ Ê[ X ] = , 1 + p̂ où p̂ est l’estimateur du maximum de vraisemblance de p déterminé en a). e) On pose E[ X ] = h( p) avec h( p) = p , 1+ p h0 ( p) = 1 . (1 + p )2 d’où Par la méthode delta, Var Ê[ X ] = h0 ( p)2 Var[ p̂] 4 2 1 p = 1+ p n et d Ê[ X ] = Var et donc E[ X ] ∈ 1 1 + p̂ p̂ ± 1,96 1 + p̂ 4 p̂2 n p̂ √ (1 + p̂)2 n . 5.16 On a 5 L(α) = α5 λ5α ∏(λ + xi )−α−1 i =1 5 l (α) = 5 ln(α) + 5α ln λ − (α + 1) ∑ ln(λ + xi ) i =1 l 0 (α) = 5 5 + 5 ln(λ) − ∑ ln(λ + xi ). α i =1 Solutions 121 On obtient alors α̂ = 5/(∑5i=1 ln(λ + xi ) − 5 ln λ) = 3,8629. En calculant la dérivée seconde de la fonction de log-vraisemblance, on vérifie qu’il s’agit bien d’un maximum. 5.17 La probabilité d’avoir une observation inférieure à 2 est F (2) = Z 2 0 2 2λxe−λx dx = 1 − e−4λ . On a ensuite, pour un échantillon aléatoire de taille 4, L(λ) = F (2)(1 − F (2))3 = (1 − e−4λ )e−12λ l (λ) = ln(1 − e−4λ ) − 12λ l 0 (λ) = 4(1 − e−4λ )−1 e−4λ − 12. On trouve alors λ̂ = 14 ln 34 . 5.18 On aura reconnu la densité d’une N (0, θ ). On sait que l’estimateur du maximum de vraisemblance de θ est sans biais. Ainsi, MSE(θ̂ ) = Var[θ̂ ]. Or, on a x2 1 ln f ( x ) = − ln(2πθ ) − 2 2θ d2 1 x2 ln f ( x ) = 2 − 3 dθ 2 2θ θ 1 X2 I (θ ) = nE − 3 2θ 2 θ 2n = 2 θ et Var[θ̂ ] = I −1 (θ ). Une approximation de l’erreur quadratique moyenne est donc d [θ̂ ] d (θ̂ ) = Var MSE 2θ̂ 2 n = 0,20. = 5.19 a) On a une distribution log-gamma de paramètres α = 2 et λ. De l’annexe A, on sait que 2 λ E[ X ] = . λ−1 En posant E[ X ] = X̄, on trouve que l’estimateur des moments de λ est √ ± X̄ λ̂ = √ . ± X̄ − 1 122 Solutions b) On a L(λ) = λ2n ∏in=1 ln( xi ) ∏in=1 xiλ+1 n n i =1 i =1 l (λ) = 2n ln(λ) + ∑ ln(ln( xi )) − (λ + 1) ∑ ln( xi ) l 0 (λ) = n 2n − ∑ ln( xi ). λ i =1 On trouve alors que λ̂ = 2n/ ∑in=1 ln( xi ). 5.20 a) On a 5 (λ5 )5 (∏5i=1 xi4 )e−λ ∑i=1 xi L(λ) = (Γ(5))5 5 5 i =1 i =1 l (λ) = 25 ln(λ) + 4 ∑ ln xi − λ ∑ xi − 5 ln Γ(5) l 0 (λ) = 5 25 − ∑ xi , λ i =1 d’où λ̂ = 25/ ∑5i=1 xi = 1/2. b) On a l 00 (λ) = − 25 λ2 et donc la matrice d’information de Fisher est 25 I (λ) = E 2 λ 25 = (5/8)2 = 64. Par conséquent, Var[λ̂] = 1 64 . 5.21 Par définition de la fonction de vraisemblance : L(α) = (Pr( X ≤ 2))2 Pr(5 ≤ X ≤ 11)Pr( X ≥ 11) α 2 α α α 1 1 1 1 = 1− − . 3 6 12 12 Étant donné qu’il faudra faire appel à des méthodes numériques pour résoudre ce problème, on peut tout aussi bien minimiser la fonction de vraisemblance au lieu de la fonction de log-vraisemblance. Solutions 123 5.22 On a L( β) = Pr(0 ≤ X ≤ 1)Pr( X ≥ 2) = (1 − e− β )e−2β l ( β) = ln(1 − e− β ) − 2β l 0 ( β) = e− β − 2. 1 − e− β On obtient β̂ = ln(1,5). 5.23 a) Par la méthode du maximum de vraisemblance habituelle, on trouve λ̂ = n . ∑in=1 xi2 2 Or, Pk = FX (k) = 1 − e−λk . Par la propriété d’invariance de l’estima2 teur du maximum de vraisemblance, on a donc P̂k = 1 − e−λ̂k . b) Par la méthode delta, on a que Var[ P̂k ] = ∂Pk ∂λ 2 Var[λ̂] 2 = (k2 e−λk )2 Var[λ̂]. Or, en laissant tomber les termes non fonction de λ, n l (λ) = n ln(λ) − λ ∑ xi2 + . . . i =1 n n − xi2 λ i∑ =1 n 00 l (λ) = − 2 λ l 0 (λ) = d’où h ni n E − 2 =− 2 λ λ et Var[λ̂] = λ2 . n Par conséquent, 2 Var[ P̂k ] = k4 λ2 e−2λk . n c) On sait que P̂k ∼ N ( Pk , Var[ P̂k ]). Or, si X1 = X2 = 10 et X3 = 15, alors λ̂ = 3/425, p̂10 = 0,5063 et d [ P̂10 ] = λ̂ = 0,0405. Var 3 124 Solutions Ainsi, approximativement, P̂10 ∼ N (0,5063, 0,0405), d’où Pr( P̂10 ≤ 0,5) ≈ Φ(−0,0313) = 0,4875. 5.24 En premier lieu, on a n l (α, λ; x) = n ln(α) + αn ln(λ) − (α + 1) ∑ ln(λ + xi ) i =1 et n ∂2 l (α, λ; x) = − 2 2 ∂α α 2 n ∂2 αn 1 l (α, λ; x) = − 2 + (α + 1) ∑ λ + xi ∂λ2 λ i =1 n ∂2 n 1 l (α, λ; x) = − ∑ . ∂α∂λ λ i =1 λ + x i Pour la suite, on aura besoin des résultats intermédiaires " E 2 # Z ∞ 1 αλα dx 0 ( λ + x )2 ( λ + x ) α +1 α = 2 λ ( α + 2) Z ∞ 1 1 αλα E dx = λ+X 0 λ + x ( x + λ ) α +1 α 1 = . α+1λ 1 λ+X = Ainsi, h ni ∂2 E l ( α, λ; X ) = E − 2 ∂α2 α n =− 2 "α 2 2 # n ∂ αn 1 E l (α, λ; X ) = E − 2 + (α + 1) ∑ λ + Xi ∂λ2 λ i =1 αn =− 2 λ ( α + 2) " 2 # n ∂ n 1 E l (α, λ; X ) = E − ∂α∂λ λ i∑ λ + Xi =1 n = λ ( α + 1) Solutions 125 et la matrice d’information de Fisher est n n − 2 λ ( α + 1) α I (α, λ) = . n αn − λ ( α + 1) λ2 ( α + 2) La matrice de variance-covariance est donc Σ = I −1 (α, λ) α2 ( α + 1)2 n = α(α + 1)(α + 2)λ n α(α + 1)(α + 2)λ n . 2 2 λ ( α + 1) ( α + 2) nα De là, on obtient 2 2 d [α̂] = α̂ (α̂ + 1) = 0,28125 Var 50 2 ( α̂ + 1)2 ( α̂ + 2) λ̂ d [λ̂] = Var = 656 250 50α̂ d (α̂, λ̂) = α̂(α̂ + 1)(α̂ + 2)λ̂ = 393,75. Cov 50 5.25 On a h(α, λ) = Pr( X > 10) α λ = λ + 10 α ∂h(α, λ) λ λ = ln ∂α λ + 10 λ + 10 α −1 ∂h(α, λ) λ 10 . =α ∂λ λ + 10 (λ + 10)2 Or, h(α̂, λ̂) = 0,0816 ∂h(α, λ) = −0,1023 ∂α (α̂,λ̂) ∂h(α, λ) = 0,0292 ∂λ (α̂,λ̂) et donc d [h(α̂, λ̂)] = −0,1023 Var = 0,2254. 0,0292 24 10 10 40 −0,1023 0,0292 126 Solutions √ L’intervalle de confiance est donc 0,0816 ± (1,44) 0,2254. Étant donné qu’il s’agit d’un intervalle pour une probabilité, la borne inférieure ne peut être plus petite que 0 (et la borne supérieure ne peut être plus grande que 1). L’intervalle de confiance est donc (0, 0,7653). 5.26 On sait que l’estimateur du maximum de vraisemblance de λ est λ̂ = X̄ −1 et il est simple d’établir que Var[λ̂] = λ2 /n. Ici, on a λ̂ = 0,0187. a) On a h(λ) = E[ X; 50] 1 − e−50λ λ − 50λ dh(λ) e (50λ + 1) − 1 , = dλ λ2 = d’où Var[h(λ̂)] = e−50λ (50λ + 1) − 1 λ2 2 λ2 n et d [h(λ̂)] = (−686,57)2 (0,000 043 88) Var = 20,68. b) On procède comme en a) avec h(λ) = π0,95 ln(0,05) λ ln(0,05) dh(λ) =− . dλ λ2 = d [h(λ̂)] = 3 196. On obtient Var 5.27 a) On a que X | A = α obéit à une loi de Bernoulli(α) et que A obéit à une loi U (0, 1). On cherche 3 3 f ( α | x 1 , x 2 , x 3 ) ∝ α ∑ i =1 x i ( 1 − α ) 3 − ∑ i =1 x i ( 1 ) = α (1 − α )2 . On reconnaît ici la forme fonctionnelle d’une distribution Bêta(2, 3). On sait que, si la fonction de perte choisie est l’erreur quadratique, l’estimateur bayesien est l’espérance de la distribution a posteriori. On a donc 2 2 α̂ = = = 0,4. 2+3 5 Solutions 127 b) On a Pr(0,2 < A < 0,4| X = x) = Z 0,4 0,2 Γ (5) α(1 − 2α + α2 ) dα Γ (2) Γ (3) = 0,3432. 5.28 On a que X |Θ = θ ∼ Poisson(θ ) et que Θ ∼ Gamma(α, λ). On a donc ! n e−θn θ ∑i=1 xi λα e−λθ θ α−1 f ( θ | x1 , . . . , x n ) ∝ Γ(α) ∏in=1 xi ! n = e−(λ+n)θ θ α+∑i=1 xi −1 . On reconnaît ici la forme fonctionnelle d’une distribution Gamma de paramètres α∗ = α + ∑in=1 xi et λ∗ = λ + n. On sait que, si la fonction de perte choisie est l’erreur quadratique, l’estimateur bayesien est l’espérance de la distribution a posteriori. Par conséquent θ̂ = α + ∑in=1 xi . n+λ 5.29 a) On a que X | A = α obéit à une loi de Pareto(α, 1) et que A obéit à une distribution Exponentielle(3). On a αn f (α| x1 , . . . , xn ) ∝ 3e−3α ∏in=1 (1 + xi )α+1 = = αn e−3α ∏in=1 (1 + xi )α+1 α e −3 αn ∏in=1 (1 + xi ) n −λ∗ α =α e avec λ∗ = 3 + ∑in=1 ln(1 + xi ). On reconnaît alors la forme fonctionnelle d’une loi Gamma. On a donc, comme densité a posteriori, une loi Gamma de paramètres α∗ = n + 1 et λ∗ . b) On sait que, si la fonction de perte choisie est l’erreur quadratique, l’estimateur bayesien est l’espérance de la distribution a posteriori. On a donc α̂ = n+1 3 + ∑in=1 ln(1 + xi ) = 7 = 0,68. 3 + 7,27 5.30 a) On a que X | B = β obéit à une loi Exponentielle( β) et que B obéit à une loi Gamma(2, 3). On a 5 f ( β | x 1 , . . . , x 5 ) ∝ β 6 e − β (3 + ∑ i =1 x i ) . 128 Solutions Puisque ∑5i=1 xi = 47, on reconnaît ici la forme fonctionnelle d’une loi Gamma(7, 50). Avec une fonction de perte quadratique, l’estimateur bayesien est l’espérance de la distribution a posteriori. On a donc β̂ = 7 = 0,14. 50 b) Avec une fonction de perte valeur absolue„ l’estimateur bayesien est la médiane de la distribution a posteriori. Il faut donc choisir β̂ tel que 1 Pr( B ≤ β̂| X = x) = Γ(7; 50 β̂) = . 2 Avec les informations données dans l’énoncé, on trouve β̂ = 6,670 = 0,1334. 50 5.31 a) Soit X la variable aléatoire du nombre de fois où un étudiant reste bloqué dans un devoir. On a X |Θ = θ ∼ Binomiale(3, p) et Θ ∼ U (0,25, 0,75). On a 2 (32)θ 2 (1 − θ )2 f (θ | x1 = 2, x2 = 2) = R 0,75 0,25 2 2 (32)θ 2 (1 − θ )2 2 dθ θ 4 (1 − θ )2 = R 0,75 4 2 0,25 θ (1 − θ ) dθ = 141,22θ 4 (1 − θ )2 . Avec une fonction de perte quadratique, l’estimateur bayesien est l’espérance de la distribution a posteriori. Ainsi, θ̂ = 141,22 Z 0,75 0,25 θ 5 (1 − θ )2 dθ = 0,5668. b) On a Pr(0,6 < Θ < 0,7| X1 = 2, X2 = 2) = 1441,22 Z 0,7 0,6 θ 4 (1 − θ )2 dp = 0,3055. 5.32 a) Soit X la variable aléatoire du montant d’un sinistre en millions. On a W = X − 1,5| X > 1,5. Par conséquent, Pr(W > 29,5) = FX (29,5) − FX (1,5) . 1 − FX (1,5) Solutions 129 Or, par la propriété d’invariance de l’estimateur du maximum de vraisemblance, on a α̂ α̂ λ̂ λ̂ − λ̂+29,5 b (W > 29,5) = 1 − λ̂+1,5 Pr α̂ = λ̂ + 1,5 λ̂ + 29,5 λ̂ λ̂+1,5 !α̂ = 0,0365. b) On a λ + 1,5 λ + 29,5 α λ + 1,5 λ + 29,5 α h(α, λ) = ∂h = ∂α ln λ + 1,5 λ + 29,5 (λ + 1,5)α−1 ∂h = 28α ∂λ (λ + 29,5)α+1 et ∂h(α, λ) = −0,0238 ∂α (α̂,λ̂) ∂h(α, λ) = 0,0029, ∂λ (α̂,λ̂) d’où d [h(α̂, λ̂)] = −0,0238 Var 23,92 0,0029 167,07 167,07 1 199,32 −0,0238 0,0029 = 0,00057. 5.33 Le montant payé par l’assureur est Y = min( X, 3 000) − 100| X > 100, d’où f (y + 100) X , 0 ≤ y < 2 900 1 − FX (100) SX (3 000) f Y (y) = , y = 2 900 1 − FX (100) 0, y > 2 900, − λy , 0 ≤ y < 2 900 λe − 2 900λ = e , y = 2 900 0, y > 2 900. 130 Solutions La fonction de vraisemblance est donc n L ( λ ) = ∏ f Y ( yi ) i =1 8 −λ(100+···+1 500) =λ e (e−2 900λ )2 = λ8 e−10 420λ . Par la méthode usuelle, on trouve λ̂ = 8/10 420. On cherche une estimation de E[ X ] = λ−1 . Par la propriété d’invariance de l’estimateur du maximum de vraisemblance, on a 1 10 420 = 1 302,50. = 8 λ̂ 5.34 Soit X la variable aléatoire du montant d’un sinistre et Y la variable aléatoire du montant payé par l’assureur. On a Y = min( X, 150), d’où y < 150 f X (y), f Y (y) = 1 − FX (150), y = 150 0, y > 150, −λy , y < 150 λe − 150λ = e , y = 150 0, y > 150. Ê[ X ] = On a donc la fonction de vraisemblance n L ( λ ) = ∏ f Y ( yi ) i =1 5 −λ(10+···+110) =λ e (e−150λ )3 = λ5 e−845λ . Par la technique usuelle, on trouve λ̂ = 0,0059. 5.35 On a la fonction de répartition empirique 0, x ≤ 0 2, 0 < x ≤ 2 F9 ( x ) = 96 , 2<x≤5 9 1, 5 < x ≤ 8. Il faut maintenant trouver la valeur de λ qui minimise ∑ Q(λ) = ( F ( x ) − F9 ( x ))2 x =2,5,8 = 1 − e−λ2 − 2 9 2 2 6 2 + 1 − e−λ5 − + 1 − e−λ8 − 1 . 9 On trouve numériquement que le minimum est atteint en λ̂ = 0,2286. Solutions 131 Chapitre 6 6.1 La fonction de répartition théorique est α 2 1 000 λ =1− . FX ( x ) = 1 − λ+x 1 000 + x Ainsi, le nombre espéré de sinistres dans chaque classe est E1 = 10( F (250) − F (0)) = 3,6 E2 = 10( F (500) − F (250)) = 1,9556 E3 = 10( F (1 000) − F (500)) = 1,9444 E4 = 10( F (∞) − F (1 000)) = 2,5. On a les nombres de sinistres observés n1 = 3, n2 = 2, n3 = 3 et n4 = 2. La valeur de la statistique du test du khi carré est donc ( n j − E j )2 ∑ Ej j =1 4 Q= (3 − 3,6)2 (2 − 1,9556)2 (3 − 1,9444)2 (2 − 2,5)2 + + + 3,6 1,9556 1,9444 2,5 = 0,7740. = Soit χ23, 0,10 = 6,2514 le 90e centile d’une distribution khi carré avec trois degrés de liberté. Puisque 0,7740 < 6,2514, on ne rejette pas le modèle. 6.2 La fonction de répartition du modèle est α 3,5 50 λ =1− . FX ( x ) = 1 − λ+x 50 + x On a les nombres espérés de sinistres par classe suivants : E1 = 1 000( F (3) − F (0)) = 184,49 E2 = 1 000( F (7,5) − F (3)) = 202,37 E3 = 1 000( F (15) − F (7,5)) = 213,93 E4 = 1 000( F (40) − F (15)) = 271,40 E5 = 1 000( F (∞) − F (40)) = 127,80. La valeur de la statistique est donc (180 − 184,49)2 (180 − 202,37)2 (235 − 213,93)2 + + 184,49 202,37 213,93 2 2 (255 − 271,40) (150 − 127,80) + + 271,40 127,80 = 9,5046. Q= 132 Solutions Or, Pr(χ22 > 9,5046) = 0,0086 (où χ22 est une variable aléatoire avec distribution khi carré avec deux degrés de liberté). Par conséquent, on ne rejette pas le modèle avec un seuil de signification de 0,86 %. Des seuils proposés, seul 0,5 % est donc valide. 6.3 La fonction de répartition empirique est 0, x < 0,1 0,2, 0,1 ≤ x < 0,4 F5 ( x ) = 0,4, 0,4 ≤ x < 0,8 0,8, 0,8 ≤ x < 0,9 1, x ≥ 0,9. La fonction de répartition théorique est F(x) = Z x 1 + 2y 0 2 dy = x (1 + x ) , 2 0 ≤ x ≤ 1. La statistique de Kolmogorov–Smirnov est donc D = max {| F ( xi ) − F5 ( xi )|, | F ( xi ) − F5 ( xi−1 )|} i =1,...,5 = max{| F (0,1) − F5 (0,1)|, | F (0,1) − F5 (0)|, | F (0,4) − F5 (0,4)|, | F (0,4) − F5 (0,1)|, | F (0,8) − F5 (0,8)|, | F (0,8) − F5 (0,4)|, | F (0,9) − F5 (0,9)|, | F (0,9) − F5 (0,8)|} = 0,32. La valeur critique du test de Kolmogorov–Smirnov avec un seuil de si√ gnification de 5 % est c = 1,36/ 5 = 0,6082. Puisque D < c, on ne rejette pas le modèle. 6.4 a) La fonction de répartition empirique est 0, 2 10 , 6, F10 ( x ) = 10 8 10 , 9 10 , 1, x<1 1≤x<2 2≤x<3 3≤x<4 4≤x<8 x ≥ 8. b) La fonction de répartition théorique est FX ( x ) = 1 − 2 2+x 2 .= Solutions 133 i | Fn ( xi ) − F ( xi )| | Fn ( xi−1 ) − F ( xi )| 1 2 3 4 3/16 1/4 0,359375 7/16 1/16 0 0,109375 3/16 Table E.2: Différences entre les fonctions de répartition théorique et empirique pour les données de l’exercice 6.5 On a donc F (1) = 59 , F (2) = 34 , F (3) = distance de Cramér–von Mises est QCvM = 21 25 , F (4) = 8 9 et F (8) = 24 25 La 10 ∑ ( F(xi ) − F10 (xi ))2 i =1 5 3 21 2 2 6 2 8 2 +4× +2× − − − 9 10 4 10 25 10 2 2 9 24 8 − + −1 + 9 10 25 =2× = 0,3478. c) On a cette fois une fonction de répartition empirique telle que F10 (2) = 6 9 10 , F10 (4) = 10 et F10 (8) = 1. La valeur de la distance est donc 2 3 6 2 8 9 2 24 QCvM = − + − + −1 4 10 9 10 25 = 0,0242. 6.5 On trouve d’abord la fonction de répartition théorique : F(x) = Z x y 0 2 dy = x2 , 4 0 ≤ x ≤ 2. On a ensuite F4 (0,5) = 1/4, F4 (1) = 2/4, F4 (1,25) = 3/4, et F4 (1,5) = 1. Le tableau E.2 présente les différences entre les fonctions de répartition. La statistique D4 est donc 7/16 = 0,4375. 6.6 On trouve d’abord la fonction de répartition théorique : F(x) = Z x y 0 50 dy = x2 , 100 0 ≤ x ≤ 10. On a ensuite F7 (1) = 1/7, F7 (4) = 2/7, F7 (6) = 3/7, F7 (7) = 4/7, F7 (8) = 5/7, F7 (9) = 6/7 et F7 (9,5) = 1. Le tableau E.3 présente les différences entre les fonctions de répartition. La statistique de Kolmogorov–Smirnov √ vaut donc D = 0,1329. Puisque la valeur critique du test est c = 1,36/ 7 = 0,5140 > D, on ne rejette pas le modèle. 134 Solutions xi | Fn ( xi ) − F ( xi )| | Fn ( xi−1 ) − F ( xi )| 1 4 6 7 8 9 9,5 0,1329 0,1257 0,0686 0,0814 0,0743 0,0471 0,0975 0,0100 0,0171 0,0743 0,0614 0,0686 0,0957 0,0454 Table E.3: Différences entre les fonctions de répartition théorique et empirique pour les données de l’exercice 6.6 6.7 On a FX ( x ) = 1 − λ λ+x α =1− 8 . 8+x On trouve ensuite que E1 = (20) ( F (5) − F (0)) = 7,6923 E2 = (20) ( F (20) − F (5)) = 6,5934 E3 = (20) ( F (∞) − F (20)) = 5,7143. Ainsi, la valeur de la statistique est (10 − 7,6923)2 (5 − 6,5934)2 (5 − 5,7143)2 + + 7,6923 6,5934 5,7143 = 1,1667. Q= 6.8 On rappelle que FX ( x; α, λ) = Γ(α; λx ), où Γ(α; x ) est la fonction de répartition de la distribution Gamma(α, 1). Le calcul de la statistique de Kolmogorov–Smirnov requiert donc les valeurs de Γ(α; 1,25), Γ(α; 5,5) et Γ(α; 7) pour α = 3 et α = 3,5. Or, avec la relation donnée dans l’énoncé, on obtient (1,25)2 −1,25 Γ(3; 1,25) = 1 − e 1 + 1,25 + = 0,1315 2 (5,5)2 Γ(3; 5,5) = 1 − e5,5 1 + 5,5 + = 0,9116 2 (7)2 = 0,9704. Γ(3; 7) = 1 − e−7 1 + 7 + 2 Solutions 135 | Fn ( xi ) − F ( xi )| | Fn ( xi−1 ) − F ( xi )| xi α=3 α = 3,5 α=3 α = 3,5 125 550 700 0,1185 0,1616 0,0296 0,1771 0,1114 0,0512 0,1315 0,6616 0,2204 0,0729 0,6114 0,1988 Table E.4: Différences entre les fonctions de répartition théorique et empirique pour les données de l’exercice 6.8 Le tableau E.4 présente les calculs pour les deux distributions postulées. Pour la Gamma(3, 0,01), la statistique de Kolmogorov–Smirnov est D = 0,6616 et pour la Gamma(3,5, 0,01), la statistique est D = 0,6114. On choisit donc la deuxième distribution pour la modélisation les données. 6.9 L’hypothèse de taux d’échec constant correspond à une distribution exponentielle de paramètre λ = 0,01. On a donc FX ( x ) = 1 − e− x/100 et E1 = 50 ( F (25) − F (0)) = 11,0600 E2 = 50 ( F (40) − F (25)) = 5,4240 E3 = 50 ( F (60) − F (40)) = 6,0754 E4 = 50 ( F (80) − F (60)) = 4,9741 E5 = 50 ( F (∞) − F (80)) = 22,4664. Étant donné que E4 < 5, on regroupe (arbitrairement) E3 et E4 pour obtenir E3,4 = 11,0495. On obtient ensuite (10 − 11,06)2 (5 − 5,4240)2 + 11,06 5,4240 2 (20 − 22,4664)2 (15 − 11,0495) + + 11,0495 22,4664 = 1,8179. Q= Puisque Pr(χ23 > 1,8179) = 0,61 > 0.05, on ne rejette pas l’hypothèse. 6.10 a) On les valeurs suivantes de la fonction de répartition empirique : F50 (25) = 0,20, F50 (50) = 0,44, F50 (100) = 0,68 et F50 (200) = 0,90. Pour la distribution de Pareto, on a F (25) = 0,4557, F (50) = 0,6464, F (100) = 0,8075 et F (200) = 0,9106. La distance de Cramér–von Mises est alors QCvM = (0,4557 − 0,2)2 + (0,6464 − 0,44)2 + (0,8075 − 0,68)2 + (0,9106 − 0,9)2 = 0,1244. 136 Solutions Pour la distribution de Weibull, on a F (25) = 0,2212, F (50) = 0,3935, F (100) = 0,6321 et F (200) = 0,8647. La distance est alors QCvM = (0,2212 − 0,2)2 + (0,3935 − 0,44)2 + (0,6321 − 0,68)2 + (0,8647 − 0,9)2 = 0,0062. Comme 0,0062 < 0,1244, la distribution de Weibull est un meilleur modèle. b) Pour la distribution de Pareto, on a E1 = 50 ( F (25) − F (0)) = 22,7834 E2 = 50 ( F (50) − F (25)) = 9,5389 E3 = 50 ( F (100) − F (50)) = 8,0552 E4 = 50 ( F (200) − F (100)) = 5,1504 E5 = 50 ( F (∞) − F (200)) = 4,4721. Étant donné que E5 < 5, on regroupe E4 et E5 pour obtenir E4,5 = 9,6225. On obtient alors (10 − 22,7834)2 (12 − 9,5389)2 + 22,7834 9,5389 2 (12 − 8,0552) (16 − 9,6225)2 + + 8,0552 9,6225 = 13,9662. Q= Or, χ23, 0,05 = 7,815 < Q. On rejette donc le modèle avec distribution de Pareto. c) Comme 0,10 < 0,1244, le choix de la distribution log-normale serait meilleur. 6.11 a) On a H0 : numéros de départ équiprobables H1 : numéros de départ non équiprobables. b) Pour un total de 144 courses et une probabilité uniforme de victoire de 18 , le nombre de victoires espéré pour chaque numéro est 144/8 = 18. Les résultats cumulés observés et espérés sont présentés dans le tableau suivant : Numéro 1 2 3 4 5 6 7 8 Gains observés Gains théoriques 29 18 48 36 66 54 91 72 108 90 118 108 133 126 144 144 Écart absolu 11 12 12 19 18 10 7 0 Solutions 137 La plus grande différence est observée pour le numéro 4. On a donc D = 19/144 = 0,132. La valeur critique du test de Kolmogorov–Smirnov pour une taille d’échantillon n = 144 est 1,36/12 = 0,1133 pour un seuil α = 0,05 et 1,63/12 = 0,1358 pour un seuil α = 0,01. On rejette donc l’hypothèse H0 à un niveau de confiance de 95 %, mais pas à un niveau de confiance de 99 %. 6.12 On a, dans l’ordre, 3 ln(100) = −226,01 2 3 −219,2 − ln(100) = −226,11 2 2 ln(100) = −225,81 −221,2 − 2 2 −221,4 − ln(100) = −226,01 2 1 −224,4 − ln(100) = −226,70. 2 −219,1 − Le meilleur modèle est donc la distribution de Pareto. Chapitre 7 7.1 a) On trouve d’abord l’estimateur du maximum de vraisemblance du paramètre θ. On a pk = Pr( N = k) = (mk)θ k (1 − θ )n−k , k = 0, . . . , m et donc m L(θ ) = ∏ ( pk )nk k =0 m l (θ ) = ∑ nk ln pk k =0 m m = ∑ nk ln + k ln(θ ) + (m − k) ln(1 − θ ) k k =0 m k m−k 0 l (θ ) = ∑ nk − . θ 1−θ k =0 En résolvant l’équation l 0 (θ ) = 0, on trouve θ̂ = = 1 ∑m k =0 kNk m ∑m k=0 Nk N̄ . m 138 Solutions Par conséquent, N̄ E[θ̂ ] = E m E[ N ] = m mθ = m = θ. b) On a N̄ m Var[ N ] = nm2 mθ (1 − θ ) = nm2 θ (1 − θ ) = . nm Var[θ̂ ] = Var c) De la partie a), on a k m−k d2 ln pk = − 2 − 2 dθ θ (1 − θ )2 d’où d2 ln p N ] dθ 2 n n(m − k) = 2 E[ N ] + E[m − N ] θ (1 − θ )2 nm mn(1 − θ ) = + θ (1 − θ )2 nm = θ (1 − θ ) I (θ̂ ) = E[−n et donc Var[θ̂ ] = I −1 (θ ) = θ (1 − θ ) . nm d) Un intervalle de confiance de niveau 1 − α pour θ est q θ̂ ± zα/2 Var[θ̂ ] Solutions 139 soit r θ̂ ± zα/2 θ (1 − θ ) . mn Or, comme le paramètre θ est inconnu, on utilise en pratique l’intervalle approximatif s θ̂ (1 − θ̂ ) . θ̂ ± zα/2 mn 7.2 a) On a Pr( N = k) = λk e−λ /k!, k = 0, 1, . . . , et donc les fonctions de vraisemblance !nk ∞ λk e−λ L(λ) = ∏ k! k =0 et de log-vraisemblance ∞ l (λ) = ∑ nk (k ln λ − λ − ln k!). k =0 Par les techniques habituelles, on trouve λ̂ = N̄ = ∑∞ k =0 knk = 0,1001 ∑∞ k =0 n k puis E[λ̂] = λ et Var[λ̂] = Var[ N̄ ] = λ/n. On a donc λ̂ ∼ N (λ, λ/n). Par conséquent, un intervalle de confiance approximatif à 95 % pour le paramètre λ est q d [λ̂], λ̂ ± 1,96 Var d [λ̂] = λ̂/n. L’intervalle de confiance est donc avec Var r 0,1001 ± 1,96 0,1001 . 10 000 b) Avec la paramétrisation donnée dans l’énoncé, E[ N ] = β et Var[ N ] = β( β + 1). De plus, ∞ L( β) = ∏ k =0 ∞ l ( β) = βk ( β + 1 ) k +1 !nk ∑ nk (k ln β − (k + 1) ln( β + 1)) k =0 140 Solutions et donc β̂ = N̄ = ∑∞ k =0 knk = 0,1001. ∑∞ k =0 n k On trouve ensuite que E[ β̂] = 0,1001 et que Var[ β̂] = β̂( β̂ + 1)/n, d’où d [ β̂] = 0,1001(1,1001)/10 000. L’intervalle de confiance est donc Var r 0,1001(1,1001) . 0,1001 ± 1,96 10 000 c) En posant θ = ( β + 1)−1 dans les formules de l’annexe A, on trouve E[ N ] = rβ et Var[ N ] = rβ( β + 1). Les estimateurs des moments de r et β sont donc les solutions des équations rβ = ∑∞ k =0 knk = 0,1001 ∑∞ k =0 n k et ∑∞ 0 k2 nk rβ(1 + β) = k= − ∑∞ k =0 n k ∑∞ k =0 knk ∑∞ k =0 n k 2 = 0,10028 d’où on trouve r̂ = 55,67 et β̂ = 0,0018. d) On peut utiliser la fonction fitdistr du package MASS dans sa forme la plus simple pour trouver les estimateurs du maximum de vraisemblance de r et µ = rβ : > x <- c(rep(0, 9048), rep(1, 905), rep(2, 45), + rep(3, 2)) > fitdistr(x, "negative binomial") size mu 5.273162e+01 1.001000e-01 (3.797344e+02) (3.166543e-03) 7.3 a) De l’exercice 7.2, on sait que l’estimateur du maximum de vraisemblance du paramètre d’une distribution de Poisson est la moyenne échantillonale. Pour la variable aléatoire N1 , on a λ̂1 = x̄ = 0,109. Pour la variable aléatoire N2 , on a λ̂2 = x̄ = 0,057. b) On sait que la distribution de la somme de n variables aléatoires indépendantes distribuées selon des lois de Poisson de paramètre λi , i = 1, . . . , n est une Poisson de paramètre λ = ∑in=1 λi . On obtient donc N ∼ Poisson(λ1 + λ2 = 0,166). 7.4 a) De l’exercice 7.1, on a θ̂ = n̄ ∑7 kn = k=0 k = 0,0237. 7 7n Solutions 141 b) Comme à l’exercice 7.2 c), on a rβ = ∑∞ k =0 knk = 0,166 ∑∞ k =0 n k et rβ(1 + β) = 2 ∑∞ k =0 k n k − ∞ ∑ k =0 n k ∑∞ k =0 knk ∑∞ k =0 n k 2 = 0,2244 On trouve alors r̂ = 0,4715 et β̂ = 0,3521. c) On utilise la fonction fitdistr du package MASS pour trouver les estimateurs du maximum de vraisemblance de r et µ = rβ : > x <- c(rep(0, 861), rep(1, 121), rep(2, 13), + rep(3, 3), 4, 6) > fitdistr(x, "negative binomial") size mu 0.65606189 0.16600239 (0.21012471) (0.01442188) 7.5 On a Pr( N = k ) = = Z ∞ 0 Pr( N = k|Λ = λ) f Λ (λ) dλ βr Γ(r )k! Z ∞ 0 λr+k−1 e−λ( β+1) dλ. Or, en reconnaissant sous l’intégrale la forme fonctionnelle d’une distribution Gamma(r + k, β + 1), on obtient Γ (r + k ) βr Γ(r )k!( β + 1)r+k r k Γ (r + k ) β 1 = Γ (r ) Γ ( k − 1) β + 1 β+1 Γ (r + k ) = θ r (1 − θ ) k , Γ (r ) Γ ( k − 1) Pr( N = k ) = avec θ = β( β + 1)−1 , soit la fonction de masse de probabilité d’une distribution binomiale négative de paramètres r et θ. 7.6 Sans la franchise, l’espérance de la fréquence serait E[ N ] = r (1 − θ )/θ = 15. De plus, on a SX (20) = e−(0,01)(20) = 0,8187. Cela signifie qu’environ 82 % des sinistres seront d’un montant supérieur à la franchise, c’est-à-dire qu’environ 82 % des sinistres vont produire une réclamation. On a donc E[ N ∗ ] = (0,8187)(15) = 12,28. 142 Solutions 2.5 ● 2.0 knk/nk−−1 ● ● 1.5 ● ● 1.0 ● 1 2 3 4 5 6 k Figure E.17: Graphique de knk /nk−1 en fonction de k pour les données de l’exercice 7.7 7.7 Tout d’abord, il est clair distributions continues normale et gamma ne sont pas appropriées pour modéliser la fréquence de sinistres. Pour choisir parmi les autres distributions possibles, on peut comparer la moyenne et la variance échantillonales. On a µ̂ = 2 et σ̂2 = 1,496. Comme µ̂ > σ̂2 , la loi binomiale est le meilleur choix. La figure E.17 montre le graphique de k p̂k / p̂k−1 = knk /nk−1 en fonction de k pour k = 1, . . . , 6. La pente est clairement négative. Ceci indique donc que le membre de la famille ( a, b, 0) avec a < 0, soit la binomiale, est le meilleur choix. 7.8 On regroupe les trois dernières classes pour obtenir une fréquence significative pour le calcul de la statistique. Si N ∼ Poisson(0,6), on a E0 = 365Pr( N = 0) = 200,32 E1 = 365Pr( N = 1) = 120,19 E2 = 365Pr( N = 2) = 36,06 E3+ = 365Pr( N ≥ 3) = 365 − E0 − E1 − E2 = 8,43. Solutions 143 On a les nombres de sinistres observés n0 = 209, n1 = 111, n2 = 33 et n3+ = 12. La valeur de la statistique de Pearson est donc ( n j − E j )2 Ej j =0 3 Q= ∑ (209 − 209.32)2 (111 − 120,19)2 + 209,32 120,19 (33 − 36,06)2 (12 − 8,43)2 + + 36,06 8,43 = 2,85. = Bibliographie Béguin, L.-P. 1990, Lexique général des assurances : lexique anglais-français et français-anglais, Cahiers de l’Office de langue française, Publications du Québec, ISBN 2-55114107-9. Charbonnier, J. 2004, Dictionnaire de la gestion des risques et des assurances, La Maison Du Dictionnaire, Paris, ISBN 978-2-85608178-5. Dutang, C., V. Goulet et M. Pigeon. 2008, «actuar: An R package for actuarial science», Journal of Statistical Software, vol. 25, no 7. URL http: //www.jstatsoft.org/v25/i07. Klugman, S. A., H. H. Panjer et G. Willmot. 1998, Loss Models: From data to Decisions, Wiley, New York, ISBN 0-4712388-4-8. Klugman, S. A., H. H. Panjer et G. Willmot. 2004, Loss Models: From Data to Decisions, 2e éd., Wiley, New York, ISBN 0-4712157-7-5. Klugman, S. A., H. H. Panjer et G. Willmot. 2008a, Loss Models: From Data to Decisions, 3e éd., Wiley, New York, ISBN 978-0-470-18781-4. Klugman, S. A., H. H. Panjer et G. Willmot. 2008b, Solutions Manual to Accompany Loss Models: From Data to Decisions, 3e éd., Wiley, New York, ISBN 978-0-470-38571-5. R Development Core Team. 2009, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. URL http://www.r-project.org. Venables, W. N. et B. D. Ripley. 2002, Modern Applied Statistics with S, 4e éd., Springer, New York, ISBN 0-3879545-7-0. 145 ISBN 978-2-9811416-1-3 9 782981 141613