Modélisation des distributions de sinistres

publicité
Modélisation
des
distributions
de
sinistres
Exercices et solutions
Modélisation
des
distributions
de
sinistres
Exercices et solutions
Hélène Cossette
Vincent Goulet
Michel Jacques
Mathieu Pigeon
École d’actuariat, Université Laval
© 2009 Hélène Cossette, Vincent Goulet, Michel Jacques, Mathieu Pigeon
Cette création est mise à disposition selon le contrat Paternité-Partage à l’identique 2.5 Canada disponible en ligne http://creativecommons.org/licenses/by-sa/
2.5/ca/ ou par courrier postal à Creative Commons, 171 Second Street, Suite 300, San
Francisco, California 94105, USA.
Historique de publication
Septembre 2009 : Première édition
Septembre 2008 : Première version préliminaire
Code source
Le code source LATEX de ce document est disponible à l’adresse
http://vgoulet.act.ulaval.ca/distributions_sinistres/
ou en communiquant directement avec les auteurs.
ISBN 978-2-9811416-1-3
Dépôt légal – Bibliothèque et Archives nationales du Québec, 2009
Dépôt légal – Bibliothèque et Archives Canada, 2009
Introduction
Ce document est le fruit de la mise en commun d’exercices colligés au
fil du temps pour nos cours de modélisation des distributions de sinistres
à l’Université Laval et à l’Université Concordia. Nous ne sommes toutefois
pas les uniques auteurs des exercices ; certains ont, en effet, été rédigés par
les Docteurs José Garrido et Jacques Rioux, entre autres. Quelques exercices
proviennent également d’anciens examens de la Society of Actuaries et de la
Casualty Actuarial Society.
C’est d’ailleurs afin de ne pas usurper de droits d’auteur que ce document est publié selon les termes du contrat Paternité-Partage des conditions
initiales à l’identique 2.5 Canada de Creative Commons. Il s’agit donc d’un
document «libre» que quiconque peut réutiliser et modifier à sa guise, à
condition que le nouveau document soit publié avec le même contrat.
Les exercices sont divisés en six chapitres qui correspondent aux chapitres de notre cours. Le chapitre 1 porte sur des rappels de notions de base
en analyse, probabilité et statistique. Le chapitre 2 traite des fondements de la
modélisation en assurance de dommages, en particulier le traitement mathématique des franchises, limite supérieure et coassurance ainsi que de l’effet
de l’inflation sur la fréquence et la sévérité des sinistres. Les aspects plus statistiques apparaissent au chapitre 3 avec la modélisation non paramétrique.
Le chapitre 4 étudie les principales distributions utilisées en assurance de
dommages et la création de nouvelles distributions à partir des lois usuelles.
Les chapitres 5 et 6 portent quant à eux sur l’estimation paramétrique et
les tests d’adéquation des modèles. Enfin, le chapitre 7 propose une brève
incursion dans la modélisation des distributions de fréquence des sinistres.
Les termes anglais ordinary deductible et franchise deductible nous ont posé
quelques soucis de traduction. Pour le premier, nous utilisons l’expression
«franchise forfaitaire» recommandée par Béguin (1990). Pour le second terme,
beaucoup moins répandu, nous avons opté pour l’expression «franchise atteinte» suggérée, entre autres, dans Charbonnier (2004).
Les réponses des exercices se trouvent à la fin de chacun des chapitres,
alors que les solutions complètes sont regroupées à l’annexe E. De plus, on
trouvera à la fin de chaque chapitre (sauf le premier) une liste non exhaustive
d’exercices proposés dans Klugman et collab. (2008a). Des solutions de ces
exercices sont offertes dans Klugman et collab. (2008b).
L’annexe A présente la paramétrisation des lois de probabilité continues
v
vi
Introduction
et discrètes utilisée dans les exercices. L’information qui s’y trouve est en
plusieurs points similaire à celle des annexes A et B de Klugman et collab.
(1998, 2004, 2008a), mais la paramétrisation des lois est dans certains cas
différente. Le lecteur est donc fortement invité à la consulter.
Plusieurs exercices de ce recueil requièrent l’utilisation de R (R Development Core Team, 2009) et du package actuar (Dutang et collab., 2008). L’annexe B explique comment configurer R pour faciliter l’installation et l’administration de packages externes. Enfin, les annexes C et D contiennent des
tableaux de quantiles des lois normale et khi carré.
Nous remercions d’avance les lecteurs qui voudront bien nous faire part
de toute erreur ou omission dans les exercices ou leurs solutions.
Hélène Cossette <[email protected]>
Vincent Goulet <[email protected]>
Michel Jacques <[email protected]>
Mathieu Pigeon <[email protected]>
Québec, septembre 2009
Table des matières
Introduction
v
1
Rappels d’analyse, de probabilité et de statistique
1
2
Modélisation en assurance de dommages
7
3
Modélisation non paramétrique
13
4
Modèles paramétriques potentiels
21
5
Modélisation paramétrique
27
6
Tests d’adéquation
35
7
Modèles de fréquence
39
A Paramétrisation des lois de probabilité
A.1 Famille bêta transformée . . . . . . . . . . .
A.2 Famille gamma transformée . . . . . . . . .
A.3 Autres distributions continues . . . . . . .
A.4 Distributions discrètes de la famille ( a, b, 0)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
43
44
47
49
52
B Installation de packages dans R
55
C Table de quantiles de la loi normale
57
D Table de quantiles de la loi khi carré
59
E Solutions
Chapitre 1
Chapitre 2
Chapitre 3
Chapitre 4
Chapitre 5
Chapitre 6
Chapitre 7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Bibliographie
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
61
61
73
85
103
114
131
137
145
vii
1
Rappels d’analyse, de probabilité
et de statistique
1.1 On a l’inégalité
x2
1 − cos( x )
1
1
−
<
<
2
2 24
2
x
vraie pour toutes valeurs de x près de 0. Calculer
lim
x →0
1 − cos( x )
x2
et faire le graphique de la fonction et des deux bornes pour −2 ≤ x ≤ 2.
1.2 Calculer
lim
x →0
x
.
ln( x + 1)
1.3 Calculer limx→0 (1 + x )1/x .
1.4 a) Déterminer laquelle des expressions, x ou ln( x ), tend la plus rapidement vers l’infini lorsque x tend vers l’infini.
b) Répéter la partie a) avec x et e x .
1.5 Il faut parfois élargir l’ensemble des nombres réels à celui des nombres
complexes. Un nombre complexe z se présente souvent sous la forme
d’une somme
z = a + bi
où a et b sont des nombres réels et i est un nombre imaginaire particulier
tel que
i2 = −1.
1
2
Rappels d’analyse, de probabilité et de statistique
De là, il découle que
i3 = (i2 )(i )
= (−1)(i )
= −i
i4 = (i2 )(i2 )
= (−1)(−1)
=1
i5 = i
i 6 = −1
et ainsi de suite. À partir du développement connu de e x ,
ex = 1 + x +
x2
x3
x4
+
+
+ ...,
2!
3!
4!
démontrer l’identité d’Euler eiπ = −1 en suivant les étapes suivantes.
a) Développer autour de c = 0 la fonction f ( x ) = cos( x ).
b) Développer autour de c = 0 la fonction f ( x ) = sin( x ).
c) Développer, en remplaçant x par ix la fonction f ( x ) = eix .
d) Démontrer l’identité eix = cos( x ) + i sin( x ).
e) Démontrer l’identité eiπ = −1.
1.6 Soit la fonction
1
− ∞ < x < ∞.
1 + e− x
Démontrer qu’il s’agit d’une fonction de répartition.
F(x) =
1.7 Soit X, une variable aléatoire continue avec fonction de densité f ( x ) et
fonction de répartition F ( x ). On choisit une valeur quelconque x0 et on
définit la fonction
( f (x)
,
x ≥ x0
g ( x ) = 1− F ( x0 )
0,
x < x0 .
On suppose que F ( x0 ) < 1. Démontrer que g( x ) est une densité de probabilité.
1.8 Soit X, une variable aléatoire avec une distribution de Pareto(α, λ) :
f (x) =
αλα
,
( x + λ ) α +1
x > 0, α > 0, λ > 0.
Calculer la fonction de survie S( x ) = 1 − F ( x ) et en faire le graphique
pour α = 2 et λ = 3 000.
Rappels d’analyse, de probabilité et de statistique
1.9 Soit X, une variable aléatoire avec une distribution Binomiale(n, p), c’està-dire que
n x
Pr( X = x ) =
p (1 − p)n− x , x = 0, 1, . . . .
x
Déterminer la distribution de la variable aléatoire Y = n − X.
1.10 Soit X ∼ N (µ, σ2 ). La variable aléatoire Y = e X est distribuée selon la loi
log-normale.
a) Exprimer la fonction de densité de probabilité et la fonction de répartition de Y en fonction de celles de X.
b) Calculer Var[Y ].
1.11 La distribution de Cauchy a comme fonction de densité de probabilité
f (x) =
1 1
,
π 1 + x2
−∞ < x < ∞.
Démontrer que l’espérance de cette distribution n’existe pas, c’est-à-dire
que E[| X |] = ∞.
1.12 Soit X, une variable aléatoire avec densité Poisson(λ) et soit g( x ), une
fonction telle que −∞ < E[ g( X )] < ∞ et −∞ < g(−1) < ∞. Démontrer
que E[λg( X )] = E[ Xg( X − 1)].
1.13 Soient X et Y, deux variables aléatoires continues. On définit
M = max( X, Y )
m = min( X, Y ).
Démontrer que E[ M] = E[ X ] + E[Y ] − E[m].
1.14 Soit X, une variable aléatoire avec densité
f X ( x ) = 7e−7x ,
0 < x < ∞,
et soit Y = 4X + 3. Calculer la densité de Y en utilisant la technique de
la fonction de répartition.
1.15 Soit X, une variable aléatoire avec densité
f X ( x ) = x2 /9,
0 < x < 3.
Trouver la fonction de densité de probabilité de Y = X 3 .
1.16 Soit X, une variable aléatoire avec distribution N (0, σ2 ). Trouver la distribution de Y = X 2 .
1.17 Pour une densité quelconque, démontrer que si la densité est symétrique par rapport à un point a, alors le coefficient d’asymétrie est 0.
3
4
Rappels d’analyse, de probabilité et de statistique
1.18 Soit X, une variable aléatoire avec densité
f ( x ) = e− x ,
x > 0.
Calculer son coefficient d’asymétrie.
1.19 Soit X, une variable aléatoire avec densité
1
f (x) = ,
2
−1 < x < 1.
Calculer son coefficient d’aplatissement et commenter.
1.20 Déterminer la fonction génératrice des moments de la densité
f (x) =
2x
,
c2
0 < x < c.
1.21 Soit X̄1 et X̄2 les moyennes de deux échantillons aléatoires indépendants
de taille n d’une population avec variance σ2 , trouver une valeur de n
telle que
σ
Pr | X̄1 − X̄2 | <
≈ 0,99.
5
1.22 Soit X̄ la moyenne d’un échantillon de taille 100 issu d’une loi χ2 (50).
a) Trouver la distribution exacte de X̄.
b) Calculer à l’aide d’un logiciel statistique la valeur exacte de Pr[49 <
X̄ < 51].
c) Calculer une valeur approximative de la probabilité en b).
1.23 Soit Θ̂, un estimateur de la variance d’une loi de Pareto(3, 1 000). Sachant que E[Θ̂] = 749 500 et que Var[Θ̂] = 750, trouver le biais et l’erreur
quadratique moyenne de Θ̂.
1.24 Soit X1 , . . . , Xn , un échantillon aléatoire d’une population avec moyenne
µ et variance σ2 .
a) Démontrer que l’estimateur T ( X ) = ∑in=1 ai Xi est un estimateur sans
biais de µ si ∑in=1 ai = 1.
b) On nomme les estimateurs de la forme en a) des estimateurs sans biais
linéaires. Parmi ceux-ci, trouver celui avec la plus petite variance.
1.25 Soit X1 , . . . , Xn un échantillon aléatoire d’une distribution avec moyenne
µ et variance σ2 . Démontrer que n−1 ∑in=1 ( Xi − µ)2 est un estimateur
sans biais de σ2 .
1.26 Soit X, une observation d’une population dont la densité est
f ( x; θ ) =
| x|
θ
(1 − θ )1−| x| ,
2
x = −1, 0, 1;
0 ≤ θ ≤ 1.
Rappels d’analyse, de probabilité et de statistique
Soit l’estimateur
(
T(X) =
x=1
ailleurs.
2,
0,
Démontrer que T ( X ) est un estimateur sans biais pour θ.
1.27 Soit X ∼ Binomiale(n, p). Démontrer que
X
X
n
1−
n
n
est un estimateur biaisé de la variance de X. Calculer le biais de l’estimateur ci-dessus.
1.28 Calculer l’efficacité de X̄ comme estimateur du paramètre λ d’une distribution de Poisson.
1.29 Deux experts tentent d’évaluer le montant des dommages causés par
un ouragan. La variable aléatoire X représente l’évaluation du premier
expert et la variable aléatoire Y représente l’évaluation faite par le second expert. On suppose que les deux experts travaillent de façon indépendante. Les données suivantes sont connues : E[ X ] = 0,8z, E[Y ] = z,
Var[ X ] = z2 , et Var[Y ] = 1,5z2 , où z représente le vrai montant des dommages. On considère une classe d’estimateurs pour z de la forme
Ẑ = αX + βY.
Déterminer les valeurs de α et β qui feront de X̂ l’estimateur sans biais
à variance uniformément minimale de z.
1.30 Soit
1 (1−θ )/θ
x
,
θ
a) Identifier cette distribution.
f ( x; θ ) =
0 < x < 1, θ > 0.
b) Démontrer que l’estimateur du maximum de vraisemblance de θ est
θ̂ = −
1 n
ln Xi .
n i∑
=1
c) Démontrer que θ̂ est un estimateur sans biais de θ.
Réponses
1.1
1
2
1.2 1
5
6
Rappels d’analyse, de probabilité et de statistique
1.3 e
1.4 a) x plus rapide que ln( x ) b) e x plus rapide que x
α
1.8 S( x ) = x+x λ
1.9 Binomiale(n, 1 − p)
2
2
1.10 a) FY ( x ) = FX (ln x ), f Y ( x ) = x −1 f X (ln x ) b) e2µ+σ (eσ − 1)
7
1.14 f Y (y) = 74 e− 4 (y−3) ,
1.15 f Y (y) =
1
27 ,
y>3
0 < y < 27
1.16 Gamma( 21 , 12 σ−2 )
1.18 2
1.19 9/5
1.20 2(ct)−2 (ct2tc − etc + 1)
1.21 332
1.22 a) Gamma(2 500, 50) b) 0,682722 c) 0,6826
1.23 Biais : −500 ; MSE : 250 750
1.24 b) X̄
1.28 1
1.29 α = 0,6122, β = 0,5102.
1.30 a) Bêta(1/θ, 1)
2
Modélisation en assurance de
dommages
Rappelons que l’expression «franchise forfaitaire» correspond au terme
anglais ordinary deductible, alors que l’expression «franchise atteinte» correspond au terme franchise deductible.
2.1 Les montants suivants représentent les coûts associés aux réparations
automobiles de 12 contrats :
{579, 110, 842, 213, 98, 445, 1 332, 162, 131, 276, 312, 482}.
Les contrats présentent une franchise forfaitaire de 250 $. Calculer le rapport d’élimination de perte (LER) de l’assureur.
2.2 Les montants suivants représentent les coûts associés à des accidents automobiles pour huit contrats :
{86 000, 123 000, 423 000, 43 000, 213 000, 28 000, 52 000, 178 000}.
Les contrats présentent une limite supérieure de 100 000 $. Calculer le
rapport d’élimination de perte de l’assureur.
2.3 Pour un portefeuille dont le montant d’un sinistre obéit à une loi exponentielle de paramètre 0,02, trouver le rapport d’élimination de perte
découlant de l’introduction des limites de couvertures suivantes.
a) Une franchise atteinte de 10.
b) Une franchise forfaitaire de 10.
2.4 On suppose que le montant d’un sinistre obéit à une distribution gamma
de paramètres α = 4 et λ = 0,1. Un assureur a signé un traité avec un
réassureur où ce dernier s’engage à payer l’excédent de 100 sur chacun
des sinistres. Trouver le rapport d’élimination de perte de l’assureur.
2.5 Dans un groupe d’assurés, les sinistres suivants sont survenus :
{20, 50, 80, 80, 80, 85, 90, 110, 150, 240, 360, 400}.
Trouver le rapport d’élimination de perte de l’assureur si celui-ci a instauré une franchise forfaitaire de 70 et s’il limite ses paiements à 200.
7
8
Modélisation en assurance de dommages
2.6 Soit X, la variable aléatoire représentant le montant d’un sinistre. On sait
que E[ X ] = 2 000, que E[ X; 30 000] = 1 640,79 et que le rapport d’élimination de perte de l’assureur pour un contrat avec une franchise forfaitaire
de 100 est de 0,0465. Trouver le rapport d’élimination de perte de l’assureur pour un contrat avec une franchise forfaitaire de 100 et une limite
supérieure de 30 000.
2.7 Soit X, une variable aléatoire représentant le montant d’un sinistre tel
que
e− x
, x > 0.
f X ( x ) = e−2x +
2
a) Trouver E[ X; d].
b) Soit N, une variable aléatoire représentant la fréquence des sinistres.
Calculer la prime pure (fréquence moyenne multipliée par la sévérité
moyenne) pour une franchise de d = 0,25 et une fréquence moyenne
de un sinistre tous les 10 ans.
c) Si on observe un taux d’inflation de 5 %, que devient la prime pure ?
2.8 On suppose que le montant d’un sinistre obéit à une loi Pareto de paramètres α = 1,5 et λ = 2 500.
a) Calculer le montant moyen des sinistres payé par un assureur pour
un contrat de réassurance avec une rétention de 50 000.
b) Trouver le rapport d’élimination de perte pour le réassureur si la rétention est de 100 000.
2.9 Soit Y P la variable aléatoire du montant payé par paiement pour un
contrat d’assurance avec une franchise forfaitaire de d et X est la variable
aléatoire du montant d’un sinistre. Démontrer que
E [Y P ] =
E[ X ] − E[ X; d]
,
1 − FX (d)
où E[ X; d] = E[min( X, d)] est l’espérance limitée de X à d. Interpréter le
résultat.
2.10 Un assureur décide de modéliser X, la variable aléatoire du montant
d’un sinistre, par une distribution Weibull de paramètres τ = 3 et λ =
1/15. Tracer (idéalement de manière informatique, à l’aide du package
actuar) les graphiques des variables aléatoires suivantes.
a) La variable aléatoire du montant payé par sinistre pour un contrat
avec une franchise forfaitaire de 10.
b) La variable aléatoire du montant payé par paiement pour une franchise atteinte de 10 et une limite supérieure de 40.
c) La variable aléatoire du montant du sinistre avec une coassurance de
80 %.
Modélisation en assurance de dommages
9
2.11 Un assureur dispose des informations suivantes :
– le montant d’un sinistre pour l’année 1990 obéit à une loi Pareto de
paramètres α = 1,5 et λ = 1 500 ;
– un taux d’inflation de 5 % par année a été observé entre 1990 et 1992
et de 6 % par année entre 1992 et 1995 ; et
– une franchise de 500 est introduite en 1995.
a) Calculer le rapport d’élimination de perte pour l’assureur en 1995.
b) L’assureur paie un sinistre en 1995. Déterminer la probabilité qu’il
paie plus de 2 000 $
c) Déterminer la charge espérée par sinistre de l’assureur s’il avait décidé en 1995 de ne pas payer plus de 3 500 $ par sinistre (en plus de
la franchise de 500 $).
2.12 Le tableau ci-dessous présente, sous forme groupée, les montants payés
par sinistre pour des sinistres en assurance habitation couverts par des
contrats ayant une limite supérieure de 300 000 $.
Montant payé
Nombre
Montant moyen
0 – 2 500
2 500 – 7 500
7 500 – 12 500
12 500 – 17 500
17 500 – 22 500
22 500 – 32 500
32 500 – 47 500
47 500 – 67 500
67 500 – 87 500
87 500 – 125 000
125 000 – 225 000
225 000 – 300 000
300 000
41
48
24
18
15
14
16
12
6
11
5
4
3
1 389
4 661
9 991
15 482
20 232
26 616
40 278
56 414
74 985
106 851
184 735
264 025
300 000
Pour modéliser les données, on utilise une distribution log-normale de
paramètres µ et σ2 . À l’aide d’une technique d’estimation quelconque,
on trouve que µ̂ = 9,356 et σ̂ = 1,596.
a) Estimer le montant payé espéré.
b) Estimer le pourcentage de changement dans le montant payé par
paiement espéré si l’on observe une inflation de 10 % des sinistres.
c) Estimer le pourcentage de réduction dans le montant payé espéré si
l’on décide d’ajouter une franchise de 1 000 $ au contrat de base (on
ne tient plus compte de l’inflation).
2.13 Soit X, la variable aléatoire représentant le montant d’un sinistre en responsabilité professionnelle pour un médecin. On suppose que la compagnie d’assurance achète un traité de réassurance de rétention δ par
10
Modélisation en assurance de dommages
réclamation, c’est-à-dire que le réassureur paie l’excédent des pertes audessus de δ pour chaque réclamation. Si l’on suppose que X a une distribution de Pareto(α, λ), démontrer que la distribution du montant payé
par paiement du réassureur a une distribution de Pareto de paramètres
α et λ + δ.
2.14 On suppose que le montant d’un sinistre obéit à une loi exponentielle
de paramètre 3, c’est-à-dire que
f ( x ) = 3−3x ,
x > 0.
On introduit une franchise forfaitaire de 0,2. Lorsque l’assureur effectue
un paiement, quelle est la probabilité qu’il soit de plus de 0,50 ?
2.15 Une compagnie décide d’acheter deux contrats d’assurance pour l’année
à venir. Le montant moyen des sinistres pour une année est de 11 100 $.
La police A a une franchise forfaitaire de 5 000 $ et ne présente pas
de limite, alors que la police B a une limite de 5 000 $ et ne présente
pas de franchise. Pour la police A, l’espérance de la variable aléatoire
du montant payé par sinistre, Y S , est de 6 500 $ et l’espérance de la
variable aléatoire du montant payé par paiement, Y P , est de 10 000 $.
Sachant qu’un sinistre d’un montant plus petit ou égal à 5 000 $ s’est
produit, calculer l’espérance de la variable aléatoire du montant payé
par paiement pour le contrat B.
2.16 Un assureur utilise une distribution binomiale négative de paramètres
r = 3 et θ = 1/6 pour modéliser la fréquence des sinistres par année et
une distribution de Weibull de paramètres τ = 0,3 et λ = 1/1 000 pour
modéliser la sévérité des sinistres. Il décide également d’appliquer une
franchise forfaitaire de 200. Déterminer le nombre espéré de paiements
que fera l’assureur par année.
2.17 Pour un contrat comportant une franchise forfaitaire de d, une limite
supérieure de u et une coassurance de α, la variable aléatoire du montant payé par sinistre, Y S , est donnée à partir de la variable aléatoire du
montant d’un sinistre, X, par


X<d
0,
S
Y = α( X − d), d ≤ X < u


α(u − d), X ≥ u.
a) Démontrer que E[Y S ] = α( E[ X; u] − E[ X; d]).
b) Trouver Var[Y S ].
c) Trouver l’expression générale de l’espérance du montant payé par
sinistre à la suite d’une inflation de 100r %.
2.18 Soient Y S , la variable aléatoire du montant payé par sinistre, X, la variable aléatoire du montant d’un sinistre, d une franchise forfaitaire et
Modélisation en assurance de dommages
u, une limite supérieure. Démontrer la relation E[Y S ] = E[ X; u] − E[ X; d]
à l’aide d’intégrales, et non par une définition astucieuse de la variable
aléatoire Y S .
2.19 Le ratio de perte (loss ratio) R est défini comme étant le montant total
des sinistres payés pendant l’année, S, divisé par le montant total des
primes reçues pendant l’année, π. Une compagnie d’assurance souhaite
bien entendu conserver ce ratio sous un certain niveau pour ne pas être
en difficulté financière. Pour ce faire, elle offre un bonus B à ses agents
à la fin de l’année si le ratio de perte pour l’année est inférieur à 75 %.
Le montant du bonus est calculé comme suit :
0,75 − R
.
B = max 0, π
3
Calculer le montant espéré du bonus si π = 600 000 et que la distribution
de la variable aléatoire S est une Pareto avec paramètres α = 3 et λ =
700 000.
2.20 Soit X, une variable aléatoire représentant le montant d’un sinistre. Un
assureur souhaite connaître les paiements à sa charge pour un contrat
d’assurance incluant une franchise décroissante (disappearing deductible).
Dans ce type de contrat, l’assuré assume en entier tout sinistre inférieur
à d et l’assureur assume en entier tout sinistre supérieur à d∗ . Entre d
et d∗ , le paiement effectué par l’assureur est une fonction linéaire du
montant d’un sinistre.
a) Définir la variable aléatoire Y P représentant le montant payé par
paiement pour un contrat avec une franchise décroissante.
b) Trouver l’expression générale en termes de E[ X ], E[ X; x ] et FX ( x ) du
montant payé par paiement espéré.
Exercices proposés dans Loss Models
3.5, 3.7, 3.8, 3.9, 3.11, 3.15, 8.1 8.2, 8.3, 8.5 8.7 8.8 8.11, 8.12, 8.14, 8.16, 8.17,
8.18, 8.19, 8.23, 8.24, 8.25, 8.26, 8.27. 8.28
Réponses
2.1 0,4946
2.2 0,4686
2.3 a) 0,0175 b) 0,1813
2.4 0,0034
2.5 0,567
11
12
Modélisation en assurance de dommages
2.6 0,226
2.7 a) (3 − e−2d − 2e−d )/4 b) 0,0541 c) 0,0576
2.8 a) 1 091,09 b) 0,8438
2.11 a) 0,1069 b) 0,4107 c) 1 255,23
2.12 a) 33 962 b) +8,04 % c) −2,87 %
2.14 0,22
2.15 3 857
2.16 8,0925
2.17 b) α2 ( E[ X 2 ; u2 ] − E[ X 2 ; d2 ] − 2dE[ X; u] + 2dE[ X; d]) − α2 ( E[ X; u] − E[ X; d])2
c) α(1 + r )( E[ X; u/(1 + r )] − E[ X; d/(1 + r )])
2.19 76 559,55
2.20 b) ( E[ X ] + d/(d∗ − d) E[ X; d∗ ] − d∗ /(d∗ − d) E[ X; d])/(1 − FX (d))
3
Modélisation non paramétrique
3.1 Un assureur présente les coûts (en millions de $) créés par les écrasements de météorites :
{3, 5, 5, 6, 8, 8, 8, 8, 9, 10, 10, 11, 11, 11, 16, 21, 23, 26, 29, 36}.
a) Faire des graphiques de la fonction de répartition empirique et de la
fonction de masse de probabilité empirique du coût des écrasements.
b) À partir des bornes c0 = 2, c1 = 7, c2 = 12, c3 = 22 et c4 = 38, écrire
l’équation de l’ogive.
c) En utilisant les mêmes bornes qu’en b), écrire l’équation de l’histogramme.
3.2 Le tableau ci-dessous présente les sinistres enregistrés par un assureur.
Classe
Nombre de sinistres
(0, 50]
(50, 150]
(150, 250]
(250, 500]
(500, 1 000]
(1 000, ∞)
36
x
y
84
80
0
Total
n
Soit F̃n (·) l’ogive correspondant à ces données. Sachant que F̃n (90) = 0,21
et F̃n (210) = 0,51, déterminer la valeur de x.
3.3 Pour 500 sinistres, un assureur a enregistré la distribution présentée au
tableau ci-dessous.
Classe
Nombre de sinistres
(0, 500]
(500, 1 000]
(1 000, 2 000]
(2 000, 5 000]
(5 000, 10 000]
(10 000, 25 000]
(25 000, ∞)
200
110
x
y
13
14
Modélisation non paramétrique
Soit F̃n (·) l’ogive correspondant à ces données. Sachant que F̃500 (1 500) =
0,689 et F̃500 (3 500) = 0,839, calculer la valeur de y.
3.4 Au cours de la dernière année, la compagnie d’assurance Big Company
a remboursé les sinistres présentés dans le tableau ci-dessous.
Classe
Nombre de sinistres
0 – 1 000
1 000 – 3 000
3 000 – 5 000
5 000 – 10 000
10 000 – 25 000
25 000 – 50 000
50 000 – 100 000
100 000 et plus
16
22
25
18
10
5
3
1
Tracer l’ogive de ces données et calculer, à la main et avec R, la probabilité
que le montant d’une réclamation soit compris entre 2 000 $ et 6 000 $.
Expliquer le traitement réservé à la dernière classe.
3.5 Un assureur a enregistré les montants de sinistres suivants au cours de
la dernière année :
{80, 153, 162, 267, 410}.
Soit F̆ ( x ) l’estimateur avec noyaux uniformes de bande 50 de la fonction
de répartition et soit F5 ( x ) la fonction de répartition empirique. Calculer
| F5 (150) − F̆ (150)|.
3.6 Un assureur estime la densité des données {150, 210, 240, 300} à l’aide
d’un estimateur avec noyaux triangulaires de largeur de bande 50.
a) Calculer la moyenne de f˘( x ).
b) Tracer le graphique de f˘( x ).
3.7 Un échantillon est composé des valeurs {5, 7, 4, 5, 9, 8, 3, 5, 4, 10}. Évaluer
au point 6,2 un estimateur de la densité avec
a) noyaux uniformes et largeur de bande 0,5.
b) noyaux uniformes et largeur de bande 1.
c) noyaux uniformes et largeur de bande 2.
d) noyaux uniformes et largeur de bande 3.
e) noyaux triangulaires et largeur de bande 0,5.
f) noyaux triangulaires et largeur de bande 1.
g) noyaux triangulaires et largeur de bande 2.
3.8 Pour l’échantillon {2, 4, 6, 8, 10}, on construit un estimateur lissé de la
densité de probabilité avec noyaux triangulaires. Quelle est la plus petite
largeur de bande qui assure que f˘(5) = 0,01 ?
Modélisation non paramétrique
15
3.9 Un assureur a enregistré les montants suivants (en 1 000 000 $) liés à des
catastrophes naturelles :
{2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5,
6, 6, 6, 6, 8, 8, 9, 15, 17, 22, 23, 24, 24, 25, 27, 32, 43}.
a) Tracer le graphique de la fonction de répartition empirique F40 .
b) En utilisant les bornes c0 = 1,5, c1 = 2,5, c2 = 6,5, c3 = 29,5, et c4 = 49,5,
tracer l’ogive des données sur le même graphique que pour la sousquestion précédente. L’ajustement semble-t-il bon ? Détailler. Le choix
des bornes semble-il correct ?
c) Tracer l’histogramme des données en utilisant les mêmes classes qu’en
b).
d) Calculer la moyenne et l’écart type empiriques.
3.10 Un assureur a enregistré les montants de sinistres suivants (en millions) :
{1, 2, 2, 4, 6, 6, 6, 8, 8, 10}.
Construire un intervalle de confiance de niveau 0,95 pour F (4).
3.11 Le tableau ci-dessous présente les sinistres censurés à droite enregistrés
par un assureur pendant l’année 2002.
Montant
500
800
1 200
1 700
Nombre de sinistres
Groupe-risque
3
10
11
2
52
40
19
6
Calculer l’estimateur de F (1 200) basé sur l’estimateur de Nelson-Aalen
Hn (1 200).
3.12 Le tableau ci-dessous présente les sinistres enregistrés par un assureur
pendant l’année 2006.
Montant
1 000
3 400
4 500
7 500
15 000
17 500
Nombre de sinistres
Groupe-risque
1
1
1
1
1
1
20
19
18
17
16
15
a) Déterminer l’estimateur de Nelson-Aalen, Hn ( x ), pour les six valeurs
du tableau.
16
Modélisation non paramétrique
b) On va maintenant tenter d’appliquer la méthode d’estimation par
noyaux au taux d’incidence. Pour une fonction de densité, l’estimateur par noyaux est
f˘( x ) =
s
∑ f n (y j )k j ( x ),
j =1
que l’on peut aussi écrire sous la forme
1 s
f˘( x ) = ∑ f n (y j )k j
b j =1
x − yj
b
en définissant k j sur l’intervalle [−1, 1]. Par analogie, pour le taux
d’incidence, on va utiliser
x − yj
1 s
h̆( x ) = ∑ hn (y j )k j
,
b j =1
b
en estimant hn (y j ) par ∆Hn (y j ). En utilisant un noyau uniforme,
c’est-à-dire
(
1/2, −1 ≤ x ≤ 1
k( x) =
0,
ailleurs
et une largeur de bande de 6 000, calculer h̆(10 000).
3.13 Un assureur a enregistré les 30 réclamations suivantes : deux réclamations de 2 000 $, six réclamations de 4 000 $, 12 réclamations de 6 000 $
et 10 réclamations de 8 000 $. Donner la valeur de l’estimateur empirique du coefficient d’asymétrie et son interprétation.
3.14 Le tableau ci-dessous présente les réclamations enregistrées par un petit
assureur automobile pendant une année.
Montant enregistré
Fréquence
100
200
300
400
500
1
4
10
4
1
Calculer les estimateurs empiriques du coefficient d’asymétrie et du coefficient d’aplatissement.
3.15 Soit l’échantillon suivant
{12, 16, 20, 23, 26, 28, 30, 32, 33, 35, 36, 38, 39, 40, 41, 43, 45, 47, 50, 57}.
Modélisation non paramétrique
17
a) Calculer l’estimateur lissé du soixantième centile.
b) Calculer l’estimateur lissé du troisième quartile.
3.16 On a les données groupées présentées dans le tableau ci-dessous. En
supposant que les données sont distribuées uniformément sur chacun
des intervalles, calculer une estimation empirique de E[min( X, 320)].
Classe
Nombre de données
(0, 50]
(50, 100]
(100, 200]
(200, 500]
20
34
22
24
3.17 On dispose d’un échantillon de cinq données d’une distribution continue. À partir de cet échantillon, un intervalle de confiance non paramétrique pour la médiane est construit, dont les bornes sont les 2e et 4e
statistiques d’ordre de l’échantillon. Quel est le niveau de confiance de
cet intervalle ?
3.18 On dispose d’un échantillon de taille 500 d’une distribution continue.
À partir de cet échantillon, un intervalle de confiance non paramétrique pour la médiane est construit, dont les bornes sont les statistiques
d’ordre X(240) et X(260) de l’échantillon. Quel est le niveau de confiance
de cet intervalle ?
3.19 Un assureur a enregistré les montants de sinistres suivants (en milliers) :
{1, 1, 1, 2, 2, 3, 5, 6, 9, 10, 12, 15, 15, 20, 30, 32, 33, 33, 35, 40}.
Déterminer le niveau de confiance de l’intervalle [10, 20) pour π0,55 .
3.20 Soit Y ∼ Gamma(α, λ) et X = eY . On a
f Y (y) =
λα α−1 −λy
y
e
,
Γ(α)
y > 0.
a) Déterminer la distribution de X.
b) Soit α = 1 et l’estimateur
λ̂ =
X̄
.
X̄ − 1
Évaluer empiriquement le biais de cet estimateur de la façon suivante :
1. Choisir une valeur de λ plus grande que 1 (la solution est construite
avec λ = 5).
( j)
( j)
2. Simuler des observations x1 , . . . , xn de la variable X dont la distribution a été déterminée en a).
18
Modélisation non paramétrique
3. Répéter les étapes 2 et 3 pour j = 1, 2, . . . , r.
4. Calculer le biais moyen
5. Estimer le biais comme suit :
b̂λ̂ (λ) =
1 r ( j)
λ̂ − λ.
r j∑
=1
Faire cette estimation pour
i) n = 10 et r = 1 000 ;
ii) n = 1 000 et r = 100 ; et
iii) n = 1 000 et r = 1 000.
Discuter de l’impact du nombre d’observations dans l’échantillon et
du nombre de répétitions dans la simulation.
c) En utilisant les estimateurs de la partie b) ii), tracer la fonction de
répartition empirique de λ̂.
d) En utilisant les estimateurs de la partie c) et les classes calculées automatiquement par la fonction hist, tracer l’histogramme et l’ogive
de la distribution de λ̂.
e) Calculer les 45e et 70e quantiles lissés des données de la partie c).
Exercices proposés dans Loss Models
13.2, 13.3, 13.4, 13.6, 13.7, 13.8, 13.9, 14.2, 14.3, 14.6, 14.7, 14.8, 14.11, 14.12,
14.14, 14.18, 14.19, 14.22, 14.25, 14.28, 14.29, 14.31, 14.34, 14.35, 3.1, 3.2, 3.4,
3.13, 3.14, 3.16, 15.9, 15.10
Réponses
3.1 b)

0,





( x − 2)/25,



( x − 5)/10,
F̃20 ( x ) =

( x + 58)/100,




( x + 42)/80,



1,
x≤2
2<x≤7
7 < x ≤ 12
12 < x ≤ 22
22 < x ≤ 38
x > 38
Modélisation non paramétrique
19
c)


0,



1/25,



1/10,
f˜20 ( x ) =

1/100,





1/80,



0,
x≤2
2<x≤7
7 < x ≤ 12
12 < x ≤ 22
22 < x ≤ 38
x > 38.
3.2 120
3.3 81
3.4 0,396
3.5 0,17
3.6 a) 225
3.7 a) 0 b) 0,05 c) 0,125 d) 0,1333 e) 0 f) 0,02 g) 0,095
3.8 1,0264
3.9 d) 9,225 et 10,2369
3.10 (0,0964, 0,7036)
3.11 0,5880
3.12 a) 0,05, 0,1026, 0,1582, 0,2170, 0,2795, 0,3462 b) 0,00001449
3.13 −0,559
3.14 γ1 = 0, γ2 = 3,125
3.15 a) 38,6 b) 42,5
3.16 134,54
3.17 0,625
3.18 0,6287
3.19 0,6208
3.20 a) Log-gamma(α, λ)
4
Modèles paramétriques potentiels
4.1 Soit X, une variable aléatoire avec densité Pareto(α, λ) représentant le
montant d’un sinistre et c > 0, une constante. Démontrer que la distribution de Y = cX est une distribution Pareto(α, cλ).
4.2 Soit X, une variable aléatoire avec fonction de densité
f (x) =
1 −| x/θ |
e
,
2θ
−∞ < x < ∞.
Trouver la fonction de répartition de Y = e X .
4.3 Il existe une relation intéressante entre les fonctions de répartition des lois
gamma et Poisson. Soit X, une variable aléatoire avec densité Gamma(α, β)
et α un entier. Démontrer que
Pr( X ≤ x ) = Pr(Y ≥ α),
où Y ∼ Poisson( x/β). Utiliser la paramétrisation de la loi gamma où le
second paramètre est un paramètre d’échelle.
4.4 Soit X, une variable aléatoire avec densité de Pareto généralisée(α, τ, λ).
Démontrer que la distribution de
Y=
X
X+λ
est une distribution bêta et identifier les paramètres de cette loi.
4.5 Soit X, une variable aléatoire telle que X ∼ Pareto(α, 1). Trouver la fonction de répartition de la variable aléatoire
Y = 5X −1/4
et identifier cette distribution ainsi que ses paramètres.
4.6 Soit X, une variable aléatoire avec densité Gamma(α, λ).
a) Trouver la fonction de densité de Y = e X .
b) Trouver E[Y ] et Var[Y ].
c) Est-ce que tous les moments existent ?
21
22
Modèles paramétriques potentiels
4.7 Soit X, une variable aléatoire et i (0 ≤ i ≤ 1), le taux d’inflation pour
l’année 2006. Pour chacune des lois ci-dessous, trouver la distribution de
Y = (1 + i ) X :
a) X ∼ Pareto(α, λ).
b) X ∼ Burr(α, γ, θ ).
c) X ∼ Log-gamma(α, λ).
4.8 Soit X, une variable aléatoire avec densité Pareto(α, λ). Trouver la fonction de densité de
Y = X 1/τ , τ > 0.
4.9 Un assureur modélise des données à l’aide de la variable aléatoire X qui
a une distribution de Pareto de paramètres α et θ. On pose
Y = ln(1 + X/θ ).
Déterminer la distribution de Y.
4.10 Un assureur automobile a dans sa base de données les montants des
sinistres de 2004. Il estime que les sinistres obéissaient alors à une loi
Burr(α = 0,5, γ = 2, θ = 3). Pour s’en servir le premier janvier 2007, il se
doit de les mettre à jour selon les considérations suivantes :
– 2005 : inflation de 4 % ;
– 2006 : inflation de 4,5 % ; et
– nouvelles taxes de 16 %.
Quelle est la probabilité d’avoir un sinistre supérieur à 4 en 2007 ?
4.11 Soit X, la variable aléatoire représentant le montant d’un sinistre (en
millions) pour l’année 2006. Sa fonction de densité de probabilité est
f ( x ) = 3x −4 ,
x ≥ 1.
On observe qu’une inflation de 10 % affecte uniformément tous les sinistres de 2006 à 2007.
a) Trouver la fonction de répartition du montant des sinistres en 2007.
b) Trouver la probabilité que le montant d’un sinistre en 2007 soit supérieur à 2 200 000 $.
4.12 Pour un assuré d’un certain groupe, le nombre de sinistres suit une loi
Binomiale(10, θ ). Sachant que, dans ce groupe, le paramètre θ est tiré
d’une distribution uniforme sur l’intervalle (0, 1), trouver la probabilité
qu’un assuré pris au hasard ait plus de six sinistres au cours d’une
période.
4.13 Soit X, une variable aléatoire telle que la distribution conditionnelle de
X étant donné le paramètre Θ = θ est une distribution Gamma(τ, θ ), où
Θ obéit à une loi gamma de paramètres α et λ. Trouver la distribution
de X.
Modèles paramétriques potentiels
23
4.14 On suppose que X a une distribution conditionnelle géométrique telle
que
Pr( X = x |Θ = θ ) = θ (1 − θ ) x−1 , x = 1, 2, . . .
et θ est une réalisation de la variable aléatoire Θ de loi Bêta(α, β). Démontrer que la fonction de masse de probabilité de X est
Pr( X = x ) =
Γ ( α + β ) Γ ( α + 1) Γ ( β + x − 1)
.
Γ(α)Γ( β)Γ(α + β + x )
4.15 On suppose que X a une distribution conditionnelle de Weibull(τ, θ 1/τ )
telle que
τ
f ( x |Θ = θ ) = τθx τ −1 e−θx , x > 0.
Aussi, on suppose que Θ ∼ Gamma(α, λ). Démontrer que la distribution
marginale de X est une Burr(α, τ, λ1/τ ).
4.16 On suppose que le montant d’un sinistre pour un groupe d’assurés
a une distribution Burr(5, 1, λ). Si λ est une réalisation de la variable
aléatoire Λ pour ce groupe d’assurés et que l’on suppose que Λ ∼
Gamma(10, 2), trouver l’espérance et la variance du montant d’un sinistre pour un assuré pris au hasard.
4.17 Soit le taux d’échec suivant pour le montant d’un sinistre pour une
valeur donnée de θ,
3
λ( x |θ ) =
,
x+θ
où x est la réalisation de la variable aléatoire X représentant le montant
d’un sinistre et θ est la réalisation de la variable aléatoire Θ où Θ ∼
Gamma(10, 0,01). Trouver l’espérance et la variance du montant d’un
sinistre pris au hasard.
4.18 Comparer les queues des lois Gamma(α, λ) et Log-normale(µ, σ2 ).
4.19 Soit X, une variable aléatoire représentant le montant d’un sinistre et
l’espérance de vie résiduelle suivante
e( x ) = 2 000 + 2x.
Pour un contrat d’assurance comportant une limite supérieure de 10 000,
trouver le ratio d’élimination de perte (LER) de l’assureur.
4.20 Le tableau ci-dessous présente l’espérance de vie résiduelle pour certaines valeurs de x.
x
e( x )
0
4
9
14
4
7
10,75
14,5
24
Modèles paramétriques potentiels
a) À quelle distribution peut-on associer ces données et quelles sont les
valeurs de ses paramètres ?
b) Trouver E[ X; 10].
4.21 On construit une distribution raccordée sur les sous-intervalles (0, 2),
(2, 8) et (8, 16) avec les poids respectifs 0,5, 0,20 et 0,30. Dans chacun
des sous-intervalles, on utilise une distribution gamma, de moyenne
égale au point milieu du sous-intervalle et de variance égale à 1. Écrire
la densité de probabilité obtenue sur (0, 16). La réponse sera en fonction
de la gamma incomplète.
4.22 On construit un modèle raccordé avec une distribution uniforme sur
l’intervalle (0, 10) et une loi de Pareto de paramètres α = 3 et λ = 100
sur le reste des valeurs positives. Quels poids doivent être accordés aux
distributions pour que la densité obtenue soit continue ?
4.23 a) Comparer les queues d’une distribution Weibull(λ, τ ) et d’une distribution Weibull inverse(θ, α) en utilisant les critères suivants :
i) l’existence des moments ; et
ii) la comparaison des fonctions de survie.
b) En utilisant une distribution Weibull et une distribution Weibull inverse dont les moyennes et variances sont égales, comparer graphiquement les queues des distributions.
4.24 Soit Y, une variable aléatoire telle que
f Y (y) =
SX (y)
E[ X ]
pour une variable aléatoire X quelconque. On dit qu’une telle distribution est équilibrée. Démontrer que
MY (t) =
MX (t ) − 1
tE[ X ]
lorsque MX (t) existe. Astuce 1 : intégrer par parties. Astuce 2 : l’existence
de MX (t) signifie que l’intégrale
MX (t ) =
Z ∞
0
etx f X ( x ) dx
converge.
4.25 Un assureur modélise ses sinistres par une variable aléatoire X avec
densité
f ( x ) = (1 + 2x2 )e−2x , x ≥ 0.
a) Calculer la fonction de survie SX ( x ).
b) Calculer le taux d’incidence h( x ).
Modèles paramétriques potentiels
c) Calculer la fonction d’espérance résiduelle e( x ).
d) Calculer limx→∞ h( x ).
e) Calculer limx→∞ e( x ).
f) Démontrer que e( x ) est une fonction strictement décroissante, mais
que h( x ) n’est pas une fonction strictement croissante.
Exercices proposés dans Loss Models
5.1, 5.3, 5.4, 5.5, 5.7, 5.9, 5.13, 5.17, 5.18, 5.19, 5.20, 5.21, 5.22, 5.23, 3.25, 3.26,
3.27
Réponses
4.2 FY (y) = 12 eln(y)/θ I{0<y<1} + (1 − 12 eln(y)/θ ) I{y≥1}
4.4 Bêta(τ, α)
4.5 Burr inverse(α, 4, 5)
4.6 a) Log-gamma(α, λ) b) E[Y ] = (λ/(λ − 1))α , Var[Y ] = (λ/(λ − 2))α −
(λ(λ − 1))2α c) Non
4.7 a) Pareto(α, (1 + i )λ) b) Burr(α, γ, (1 + i )θ ) c) f Y (y) = λα (1 + i )λ (ln(y) −
ln(1 + i ))α−1 y−λ−1 /Γ(α)
4.8 Burr(α, τ, λ1/τ )
4.9 Exponentielle(α)
4.10 0,6870
4.11 a) F ( x ) = 1 − 1,331x −3 , x ≥ 1,1 b) 0,125
4.12 4/11
4.13 X ∼ Pareto généralisée(α, τ, λ)
4.16 5/4 et 145/48
4.17 500, 850 000
4.18 La distribution log-normale a une queue plus lourde que la distribution
gamma.
4.19 0,30
4.20 a) Pareto(7/3, 16/3) b) 3,0215
25
26
Modèles paramétriques potentiels
4.21
f X (x) =

0,5e− x


,


Γ(1; 2)



0,2
525 x25−1 e−5x
,

Γ(25; 40) − Γ(25; 10)
Γ(25)


144
144
−
1 e−12x


0,3
12 x


,
Γ(144; 192) − Γ(144; 96)
Γ(144)
4.22 3/14
4.25 a) (1 + x + x2 )e−2x
b) 2 − (1 + 2x )/(1 + x + x2 )
c) (1 + x + 0,5x2 )/(1 + x + x2 )
0<x≤2
2<x≤8
8 < x ≤ 16
5
Modélisation paramétrique
5.1 Soit X, une variable aléatoire représentant le montant d’un sinistre. On
suppose
X |Λ = λ ∼ Exponentielle(λ)
Λ ∼ Gamma(α, β).
Les sinistres suivants ont été observés :
{1, 10, 200, 1 000, 5 000}.
Estimer α et β par la méthode des moments.
5.2 On dispose d’un échantillon aléatoire avec deux données inférieures à
2 000 et quatre données entre 2 000 et 5 000. Les données supérieures à
5 000 n’ont pas été enregistrées. Écrire la fonction de vraisemblance pour
un modèle de loi exponentielle.
5.3 Un assureur automobile a enregistré les montants de sinistres suivants :
{1 000, 850, 750, 1 100, 1 250, 900}.
Il souhaite utiliser une distribution Gamma(α, 1/θ ) pour les représenter.
Estimer les paramètres de cette distribution à l’aide de la méthode des
moments.
5.4 Un actuaire dispose d’un échantillon aléatoire tiré d’une distribution loglogistique. Dans cet échantillon, 80 % des données sont supérieures à 100
et 20 % des données sont supérieures à 400. Calculer les estimateurs des
paramètres de la distribution à l’aide de la méthode des quantiles.
5.5 Soit x1 , . . . , xn un échantillon aléatoire d’une population dont la fonction
de répartition est
FX ( x ) = x p , 0 < x < 1.
Déterminer l’estimateur de p par la méthode des moments.
5.6 Pendant une année, un assureur a enregistré les montants de sinistres
suivants :
{500, 1 000, 1 500, 2 500, 4 500}.
Il décide de modéliser ces données par une loi Log-normale(µ, σ ). En
utilisant la méthode des moments, estimer les paramètres µ et σ. Calculer
ensuite la probabilité d’avoir un sinistre supérieur à 4 500.
27
28
Modélisation paramétrique
5.7 Soit X, une variable aléatoire avec densité
f ( x ) = β−2 xe
− 12 ( βx )2
,
x > 0, β > 0.
√
L’espérance de cette variable aléatoire est donnée par β 2π/2. On a observé les cinq valeurs suivantes :
{4,9, 1,8, 3,4, 6,9, 4,0}.
Déterminer l’estimateur de β à l’aide de la méthode des moments.
5.8 On suppose que la distribution du montant des sinistres obéit à une loi
Weibull(τ, λ) de paramètres inconnus.
a) Sachant que 50 % des sinistres sont supérieurs à 1 000 $ et que 75 %
des sinistres sont supérieurs à 500 $, estimer τ et λ par la méthode
des quantiles.
b) À partir des estimations obtenues en a), estimer le 80e centile.
5.9 Soit X, la variable aléatoire représentant le montant d’un sinistre. On suppose que le montant d’un sinistre pour un λ fixé obéit à une distribution
Exponentielle(λ) et que λ est une réalisation de la variable aléatoire Λ,
où Λ ∼ Gamma(α, β). À la suite d’une expérience, on observe que 0,1 %
des sinistres sont supérieurs à 450 et que 87,5 % des sinistres sont inférieurs à 50. Trouver l’équation, uniquement fonction de β, que l’on doit
résoudre pour estimer β et qui, après avoir été résolue, permet d’estimer
le paramètre α.
5.10 Pour des contrats en assurance automobile avec les modalités suivantes,
on a observé pour l’année 1999 :
– un rapport d’élimination de perte de 0,56 avec une franchise forfaitaire de d = 200 ;
– un rapport d’élimination de perte de 0,32 avec une franchise atteinte
de d = 200 ;
– un rapport d’élimination de perte de 0,79 avec une franchise forfaitaire de d = 500 ;
– un rapport d’élimination de perte de 0,52 avec une franchise atteinte
de d = 500.
On a aussi observé que le montant moyen d’un sinistre est de 200 $.
Si on suppose une loi de Weibull(τ, λ) pour modéliser le montant d’un
sinistre, estimer les paramètres τ et λ par la méthode des quantiles.
5.11 Un assureur a déterminé que 20 % des sinistres de son portefeuille sont
supérieurs à 50 $ et que 10 % des sinistres sont supérieurs à 55 $. D’après
ces données, estimer A et B (à l’aide de la méthode des quantiles) pour

 1 , a<x<b
f X (x) = b − a
0,
ailleurs.
Modélisation paramétrique
29
5.12 On a enregistré n essais indépendants X1 , . . . , Xn de la variable aléatoire
X ∼ Bernoulli( p). Trouver l’estimateur du maximum de vraisemblance
pour p.
5.13 Soit X1 , . . . , Xn , un échantillon aléatoire provenant d’une loi normale de
paramètres µ et σ2 inconnus.
a) Trouver les estimateurs du maximum de vraisemblance de µ et σ2 .
b) Démontrer que µ̂ et σ̂2 ont approximativement une distribution normale conjointe avec moyennes µ et σ2 et variances σ2 /n et 2σ4 /n.
c) Trouver l’approximation de la distribution de l’estimateur h(µ̂, σ̂2 )
de
c−µ
.
h(µ, σ2 ) = Pr( X ≤ c) = Φ
σ
5.14 Soit X, une variable aléatoire représentant les montants de sinistres dont
on possède un échantillon de taille n. La fonction de densité de probabilité de X est
2
f ( x ) = 2θxe−θx , x > 0.
Déterminer l’estimateur du maximum de vraisemblance de θ.
5.15 Un assureur possède un échantillon aléatoire x1 , . . . , xn et il souhaite
modéliser la variable aléatoire sous-jacente à l’aide de la fonction
F(x) = x p ,
0 < x < 1.
a) Déterminer l’estimateur du maximum de vraisemblance de p.
b) Quelle est la variance asymptotique de l’estimateur du maximum de
vraisemblance de p ?
c) À partir de la réponse obtenue en b), déterminer un intervalle de
confiance de niveau 95 % pour p.
d) Déterminer l’estimateur du maximum de vraisemblance de E[ X ].
e) À partir de la réponse obtenue en d), déterminer un intervalle de
confiance de niveau 95 % pour E[ X ].
5.16 La variable aléatoire X a la densité suivante :
f ( x ) = αλα (λ + x )−α−1 ,
x > 0.
On sait que λ = 1 000. À partir de l’échantillon
{43, 145, 233, 396, 777},
déterminer l’estimation du maximum de vraisemblance de α.
5.17 Quatre observations sont faites d’une variable aléatoire dont la densité
est
2
f ( x ) = 2λxe−λx , x > 0.
La seule information dont on dispose est qu’une des quatre observations est inférieure à 2. Calculer une estimation du maximum de vraisemblance de λ.
30
Modélisation paramétrique
5.18 Un échantillon de taille 40 a été tiré d’une population dont la densité est
f ( x ) = (2πθ )−1/2 e− x
2 / (2θ )
−∞ < x < ∞.
,
À partir de cet échantillon, on détermine une estimation du maximum
de vraisemblance de θ : θ̂ = 2. Déterminer une approximation de l’erreur
quadratique de θ̂.
5.19 On suppose que X obéit à une distribution log-gamma :
f (x) =
λ2 ln( x )
,
x λ +1
x > 1.
a) Trouver l’estimateur des moments de λ.
b) Trouver l’estimateur du maximum de vraisemblance de λ.
5.20 Soit l’échantillon suivant provenant d’une distribution Gamma(5, λ) :
{2, 20, 5, 4, 19}.
a) Trouver l’estimateur du maximum de vraisemblance de λ et en calculer la valeur.
b) Trouver la variance de λ̂ si λ = 58 .
5.21 Le tableau ci-dessous présente les sinistres payés en 1999. On pose l’hypothèse que la sévérité d’un sinistre est distribuée selon une loi de Pareto de paramètres α et 1. Déterminer l’équation finale permettant de
trouver l’estimateur du maximum de vraisemblance de α.
Montant
(0, 2]
(2, 5]
(5, 11]
(11, ∞)
Nombre de sinistres
2
0
1
1
5.22 Le tableau ci-dessous présente les sinistres payés par un assureur. On
pose que la distribution de X est une exponentielle de paramètre β inconnu. Quel est l’estimateur du maximum de vraisemblance de β ?
Montant
(0, 1]
(1, 2]
(2, ∞)
Nombre de sinistres
1
0
1
5.23 Soit X1 , . . . , Xn un échantillon aléatoire provenant d’une loi Weibull de
densité
2
f ( x ) = 2λxe−λx , x > 0.
On estime Pk = Pr( X ≤ k) par la méthode du maximum de vraisemblance.
Modélisation paramétrique
a) Déterminer P̂k .
b) Déterminer la variance de l’estimateur trouvé en a).
c) Si X1 = X2 = 10 et X3 = 15, calculer Pr( P̂10 ≤ 12 ).
5.24 Sachant qu’un échantillon aléatoire X1 , . . . , X50 provenant d’une distribution de Pareto(α, λ) a conduit aux estimations α̂ = 1,5 et λ̂ = 1 500
par la méthode du maximum de vraisemblance, estimer les variances
des estimateurs α̂ et λ̂ ainsi que leur covariance.
5.25 On suppose que le montant d’un sinistre obéit à une loi de Pareto(α, λ).
Pendant une année, on observe 50 sinistres. À l’aide des montants des
50 sinistres, on obtient α̂ = 2, λ̂ = 4, Var[α̂] = 24 et Var[λ̂] = 40. Si la
covariance entre les estimateurs α̂ et λ̂ est 10, trouver un intervalle de
confiance de niveau α = 0,15 pour Pr( X > 10).
5.26 Soit X la variable aléatoire représentant le montant d’un sinistre. On
observe les sinistres suivants en assurance automobile :
{25, 88, 33, 62, 44, 75, 47, 53}.
On suppose que X ∼ Exponentielle(λ).
a) Estimer la variance de la distribution de l’estimateur du maximum
de vraisemblance de E[ X; 50].
b) Estimer la variance de la distribution de l’estimateur du maximum
de vraisemblance de π0,95 .
5.27 Soit X, une variable aléatoire indiquant si une expérience est un succès
(1) ou un échec (0) et dont la distribution est une loi de Bernoulli de
paramètre α. On sait que la distribution a priori du paramètre α est une
loi U (0, 1). On a observé un succès en trois essais.
a) Calculer l’estimateur bayesien α̂ si la fonction de perte choisie est
l’erreur quadratique.
b) Trouver l’estimation bayesienne de la probabilité que α se retrouve
entre 0,2 et 0,4.
5.28 On suppose que X |Θ = θ obéit à une loi de Poisson(θ ) et que la distribution a priori de Θ est une loi Gamma(α, λ). Pour un échantillon de
taille n, trouver l’estimateur bayesien θ̂ si la fonction de perte choisie est
l’erreur quadratique.
5.29 On suppose que X | A = α ∼ Pareto(α, 1) et que la distribution a priori
de A est une Exponentielle(3).
a) Trouver la distribution a posteriori de A.
b) Calculer α̂ à partir de l’échantillon {2, 1, 2, 3, 3, 4} si la fonction de
perte choisie est l’erreur quadratique.
31
32
Modélisation paramétrique
5.30 On suppose que X | B = β ∼ Exponentielle( β) et que la distribution a
priori de B est une Gamma(2, 3). On a l’échantillon aléatoire suivant :
{6, 11, 8, 13, 9}
a) Calculer l’estimateur bayesien du paramètre β si la fonction de perte
est l’erreur quadratique.
b) Répéter la partie a) avec la fonction de perte valeur absolue de l’erreur. On fournit les valeurs
Γ(7; 4,734) = 0,2
Γ(7; 5,411) = 0,3
Γ(7; 6,670) = 0,5
Γ(7; 7,343) = 0,6.
Γ(7; 6,039) = 0,4
5.31 Au cours d’une session, les étudiants en actuariat font des devoirs informatiques. En faisant ces devoirs, il leur arrive de rester bloqués. Le
nombre de fois où un étudiant reste bloqué dans un devoir suit une
distribution Binomiale(3, θ ), où l’on suppose que θ est uniformément
distribué sur l’intervalle (0,25, 0,75). Deux étudiants sont restés bloqués
chacun deux fois pendant un certain devoir.
a) Trouver l’estimateur bayesien de θ avec une fonction de perte quadratique.
b) Déterminer la probabilité a posteriori que θ se retrouve dans l’intervalle (0,6, 0,7).
5.32 Pour des contrats d’assurance comportant une rétention de 1,5 millions,
40 catastrophes ont été déclarées au réassureur. Le réassureur suppose
que les montants de sinistres obéissent à une loi de Pareto(α, λ). Soit
W la variable aléatoire représentant un montant de sinistre déclaré au
réassureur (en millions). À l’aide des montants qui lui ont été déclarés,
le réassureur a estimé les paramètres α et λ par la méthode du maximum
de vraisemblance. Il a obtenu α̂ = 5,084 et λ̂ = 28,998.
a) Trouver, par la méthode du maximum de vraisemblance, l’estimation
de Pr(W > 29,5).
b) Si la matrice variance-covariance de (α̂, λ̂) est
23,92
167,07
,
167,07 1 199,32
estimer la variance de l’estimateur de Pr(W > 29,5) utilisé en a).
5.33 Soit X la variable aléatoire représentant le montant d’un sinistre. On
suppose X ∼ Exponentielle(λ). Pour des contrats d’assurance comportant une franchise forfaitaire de 100 $ et une limite supérieure de 3 000 $,
les montants de sinistres suivants ont été payés par l’assureur :
{100, 200, 250, 425, 515, 630, 1 000, 1 500, 2 900, 2 900}.
Estimer le montant espéré d’un sinistre par la méthode du maximum
de vraisemblance.
Modélisation paramétrique
5.34 Un assureur signe un traité de réassurance excess-of-loss de plein 150,
c’est-à-dire que l’assureur ne paie que les 150 premiers dollars de chaque
sinistre et le réassureur se charge de l’excédent. Cet assureur veut calculer combien lui coûterait la hausse du plein à 200, mais il ignore la
distribution du coût des sinistres. L’assureur a payé les montants suivants :
{10, 70, 100, 105, 110, 150, 150, 150}
et il suppose que le coût des sinistres est distribué comme suit :
(
λe−λx , x > 0
f (x) =
0,
ailleurs.
Quel est l’estimateur du maximum de vraisemblance de λ en supposant
que les trois montants de 150 de l’échantillon proviennent d’un montant
payé supérieur à 150 $ ?
5.35 On dispose d’un échantillon tiré d’une loi exponentielle présentant deux
observations entre 0 et 2, quatre observations entre 2 et 5 et trois observations entre 5 et 8. Estimer le paramètre de la loi par la méthode de
Cramér–von Mises avec poids unitaires.
Exercices proposés dans Loss Models
15.1, 15.2, 15.3, 15.4, 15.6, 15.8, 15.11, 15.12, 15.15, 15.20, 15.22, 15.23, 15.24,
15.25, 15.26, 15.29, 15.33, 15.37, 15.38, 15.39, 15.40, 15.46, 15.47, 15.48, 15.51,
15.52, 15.53, 15.57, 15.58, 15.59, 15.60, 15.62, 15.64, 15.65, 15.66, 15.68, 15.70,
15.71, 15.72, 15.73, 15.75
Réponses
5.1 α̂ = 3,45, β̂ = 3 048,87
5.2 L(λ) = [(1 − e−2 000λ )2 (e−2 000λ − e−5 000λ )4 ]/(1 − e−5 000λ )6
5.3 α̂ = 34,83, θ̂ = 27,99
5.4 γ̂ = 2, θ̂ = 200
5.5 x̄/(1 − x̄ )
5.6 µ̂ = 7,40, σ̂ = 0,6368 et 0,056
5.7 3,3511
5.8 a) τ̂ = 1,2687, λ̂ = 0,000747 b) 1 947
5.9 β( β + 450)0,3010 = β0,3010 ( β + 50)
33
34
Modélisation paramétrique
5.10 τ̂ = 0,48, λ̂ = 0,01,
5.11 a = 10, b = 60
5.12 p̂ = X̄
5.13 a) µ̂ = X̄, σ̂2 = S2 c) h(µ̂, σ̂2 ) ∼ N (h(µ, σ2 ), V ), V = φ2 ((c − µ̂)/σ̂ )(1/n +
(c − µ̂)2 /(2nσ̂2 ))
5.14 n/ ∑in=1 xi2
√
5.15 a) −n/ ∑in=1 ln xi√b) p2 /n c) p̂ ± 1,96p/ n d) p̂/(1 + p̂) e) p̂/(1 + p̂) ±
1,96 p̂(1 + p̂)−2 / n
5.16 3,8629
5.17
1
4
ln 43
5.18 0,20
√
√
5.19 a) X̄/( X̄ − 1) b) 2n/ ∑in=1 ln( Xi )
5.20 a) 1/2 b) 1/64
5.21 L(α) = (1 − (1/3)α )2 ((1/6)α − (1/12)α )(1/12)α
5.22 ln(1,5)
2
2
5.23 a) 1 − e−λ̂k , λ̂ = n/ ∑in=1 Xi2 b) k4 λ2 e−2λk /n c) 0,4875
d (α̂, λ̂) = 393,75
d [α̂] = 0,28133, Var
d [λ̂] = 656 250, Cov
5.24 Var
5.25 (0, 0,7653)
5.26 a) 20,68 b) 3 196
5.27 a) 0,4 b) 0,3432
5.28 (α + ∑in=1 Xi )/(λ + n)
5.29 a) Gamma(n + 1, 3 + ∑in=1 ln(1 + xi )) b) 0,68
5.30 a) 0,14 b) 0,1334
5.31 a) 0,5668 b) 0,3055
5.32 a) 0,0365 b) 0,00057
5.33 1 302,50
5.34 0,0059
5.35 0,2286
6
Tests d’adéquation
6.1 On suppose que la variable aléatoire représentant le montant d’un sinistre a une distribution de Pareto avec paramètres α = 2 et λ = 1 000.
Un échantillon de taille 10 présente trois données entre 0 et 250, deux
données entre 250 et 500, trois données entre 500 et 1 000 et deux données supérieures à 1 000. Appliquer le test du khi carré à un seuil de
signification de 10 % même si les nombres de sinistres attendus dans
chaque classe ne sont pas supérieurs à cinq.
6.2 Le tableau ci-dessous présente un échantillon de 1 000 données groupées.
Intervalle
Nombre de données
(0, 3]
(3, 7,5]
(7,5, 15]
(15, 40]
(40, ∞)
180
180
235
255
150
Une loi de Pareto a été ajustée à ces données et les estimateurs obtenus
sont α̂ = 3,5 et λ̂ = 50. Quel est le seuil de signification le plus élevé
(parmi 5 %, 2,5 %, 1 % et 0,5 %) auquel on ne rejette pas ce modèle avec
le test du khi carré ?
6.3 On dispose de l’échantillon aléatoire {0,1, 0,4, 0,8, 0,8, 0,9} et on veut y
ajuster la distribution avec fonction de densité de probabilité
f (x) =
1 + 2x
,
2
0 ≤ x ≤ 1.
Calculer la statistique de Kolmogorov–Smirnov et réaliser un test avec un
seuil de signification de 5 %.
6.4 La compagnie d’assurance Great Company a obtenu les montants de sinistres suivants :
{1, 1, 2, 2, 2, 2, 3, 3, 4, 8}.
a) Trouver la distribution empirique.
b) Si le montant d’un sinistre obéit à une loi de Pareto(2, 2), calculer la
distance de Cramér–von Mises avec poids unitaires.
35
36
Tests d’adéquation
c) Un compétiteur sujet aux mêmes sinistres, Greater Company, a perdu
toutes les données sur ses sinistres. Dans un élan de sollicitude, Great
Company lui fournit ses données, mais sous la forme restreinte cidessous.
Montants des sinistres
Nombre de sinistres
(0, 2]
(0, 4]
(0, 8]
6
9
10
Calculer la distance de Cramér–von Mises avec poids unitaires.
6.5 Soit la distribution avec fonction de densité de probabilité
f (x) =
x
,
2
0 ≤ x ≤ 2,
et soit l’échantillon tiré de cette densité {0,5, 1, 1,25, 1,5}. Calculer la statistique de Kolmogorov–Smirnov.
6.6 On veut tester si
(
f X (x) =
x
50 ,
0 < x < 10
ailleurs
0,
est un bon modèle pour les données suivantes :
{1, 4, 6, 9, 8, 7, 9,5}.
Utiliser la statistique de Kolmogorov–Smirnov avec
√ un seuil de signification de 5 %. (Utiliser la valeur critique c = 1,36/ n même si n < 15.)
6.7 En supposant que les données du tableau ci-dessous sont associées à une
loi de Pareto(1, 8), calculer la statistique de Pearson.
Intervalle
Fréquence
(0, 5]
(5, 20]
(20, ∞)
10
5
5
6.8 On a observé les sinistres suivants en assurance habitation :
{125, 550, 550, 700}.
On hésite entre les distributions Gamma(3, 0,01) et Gamma(3,5, 0,01) pour
modéliser le montant d’un sinistre. Utiliser la statistique de Kolmogorov–
Smirnov pour guider le choix de la distribution. Voici quelques valeurs
de la Gamma incomplète : Γ(3,5; 1,25) = 0,0729, Γ(3,5; 5,51) = 0,8614,
Γ(3,5; 7) = 0,9488. De plus, pour α entier, on a
Γ(α; x ) = 1 −
α −1
∑
j =0
x j e− x
.
j!
Tests d’adéquation
37
6.9 On a observé les sinistres du tableau ci-dessous en assurance médicaments. Déterminer, à l’aide de la statistique de Pearson, si l’hypothèse
d’une distribution avec taux d’échec constant
λ( x ) = 0,01,
x>0
est appropriée à un niveau de confiance de 95 %.
Montants des sinistres
Nombre de sinistres
[0, 25)
[25, 40)
[40, 60)
[60, 80)
[80, ∞)
10
5
10
5
20
6.10 On détient les informations du tableau ci-dessous sur l’expérience de
sinistres d’un portefeuille d’assurance.
Montants de sinistres
Fréquence
[0, 25)
[25, 50)
[50, 100)
[100, 200)
[200, ∞)
10
12
12
11
5
On hésite entre une loi de Pareto(1,5, 50) et une loi de Weibull(0,01, 1)
pour la distribution du montant d’un sinistre.
a) Quel modèle privilégier si on utilise la distance de Cramér–von Mises
avec poids unitaires pour guider le choix ?
b) Si la statistique de Pearson avait été utilisée au lieu de la distance
de Cramér–von Mises, l’hypothèse de la loi Pareto(1,5, 50) aurait-elle
été rejetée à un niveau de confiance α = 0,05 ?
c) Si l’on obtient une distance de Cramér–von Mises de 0,01 lorsque l’on
suppose X ∼ Log-normale(µ = 65, σ2 = 5 500), est-ce que, selon cette
statistique, le choix de cette distribution est meilleur que le choix de
la distribution de Pareto(1,5, 50) ?
6.11 Au départ d’une course de chevaux, il y a habituellement huit positions
de départ et la position numéro 1 est la plus proche de la palissade.
On soupçonne qu’un cheval a plus de chances de gagner quand il porte
un numéro faible, c’est-à-dire lorsqu’il est plus proche de la palissade
intérieure. Le tableau ci-dessous présente les résultats pour 144 courses.
Numéro
1
2
3
4
5
6
7
8
Gains
29
19
18
25
17
10
15
11
38
Tests d’adéquation
a) Poser les hypothèses à tester (hypothèse nulle et hypothèse alternative).
b) La comparaison de la distribution observée à la distribution théorique s’effectue par un test de Kolmogorov–Smirnov. Que peut-on
en conclure ?
6.12 À partir d’un échantillon contenant 100 données, un assureur obtient les
résultats présentés dans le tableau ci-dessous pour cinq modèles postulés. Déterminer le meilleur modèle selon le critère bayesien de Schwarz.
Modèle
Pareto généralisée
Burr
Pareto
Log-normale
Exponentielle inverse
Nombre de paramètres
Log-vraisemblance
3
3
2
2
1
−219,1
−219,2
−221,2
−221,4
−224,4
Exercices proposés dans Loss Models
16.1, 16.2, 16.3, 16.4, 16.5, 16.8, 16.9, 16.11, 16.12, 16.15, 16.16
Réponses
6.1 Q = 0,7740
6.2 0,5 %
6.3 D = 0,32
6.4 b) 0,3478 c) 0,0242
6.5 0,4375
6.6 D = 0,1329
6.7 1,1667
6.8 Gamma(3,5, 0,01)
6.9 Q = 1,8179
6.10 a) Weibull b) oui c) oui
6.11 b) D = 0,132
6.12 Pareto
7
Modèles de fréquence
7.1 Un assureur décide de modéliser la fréquence des sinistres par une distribution N ∼ Binomiale(m, θ ) dont le paramètre m est connu.
a) Démontrer que l’estimateur du maximum de vraisemblance de θ est
sans biais.
b) Déterminer directement la variance de cet estimateur.
c) Déterminer la variance de cet estimateur en calculant l’information de
Fisher.
d) Déterminer un intervalle de confiance approximatif de niveau 1 − α
pour la paramètre θ.
7.2 Un portefeuille de la compagnie Even Greater Company comptant 10 000
risques a produit les fréquences de sinistres présentées dans le tableau cidessous.
Fréquence
Nombre de risques
0
1
2
3
4+
9 048
905
45
2
0
a) Déterminer l’estimateur du maximum de vraisemblance du paramètre
λ d’une loi de Poisson ainsi qu’un intervalle de confiance de niveau
95 % pour ce paramètre.
b) Soit une distribution géométrique de paramètre β = (1 − θ )/θ, c’està-dire que
βk
Pr( N = k) =
, k = 0, 1, . . .
( β + 1 ) k +1
Déterminer l’estimateur du maximum de vraisemblance du paramètre
β ainsi qu’un intervalle de confiance de niveau 95 % pour ce paramètre.
c) Déterminer les estimateurs de la méthode des moments des paramètres d’une distribution binomiale négative avec fonction de masse
39
40
Modèles de fréquence
de probabilité
Pr( N = k) =
βk
k+r−1
,
r−1
( β + 1) k +r
k = 0, 1, . . .
d) Répéter la partie c) pour les estimateurs du maximum de vraisemblance en utilisant une procédure numérique.
7.3 Un assureur offre un contrat couvrant les accidents automobiles causés
par des hommes et par des femmes. L’information pour 1 000 polices est
présentée dans le tableau ci-dessous.
Fréquence
Hommes
Femmes
0
1
2
3
4
5+
901
92
5
1
1
0
947
50
2
1
0
0
a) Déterminer l’estimateur du maximum de vraisemblance du paramètre
λ d’une loi de Poisson pour la variable N1 , le nombre de sinistres causés par des hommes, et la variable N2 , le nombre de sinistres causés
par des femmes.
b) En supposant que N1 et N2 sont des variables indépendantes, déterminer un modèle pour N = N1 + N2 .
7.4 Le tableau ci-dessous présente des données de fréquence annuelle d’accidents pour un portefeuille d’assurance automobile.
Fréquence
Nombre de risques
0
1
2
3
4
5
6
7+
861
121
13
3
1
0
1
0
a) Ajuster une distribution Binomiale(7, θ ) à ces données en estimant le
paramètre θ par la méthode du maximum de vraisemblance.
b) Ajuster plutôt une distribution binomiale négative aux données par la
méthode des moments. Utiliser la paramétrisation de l’exercice 7.2 c).
c) Répéter la partie b) en estimant plutôt par la méthode du maximum
de vraisemblance.
Modèles de fréquence
41
7.5 Démontrer que la distribution Binomiale négative(r, β( β + 1)−1 ) est le
résultat du mélange continu de distributions de Poisson suivant
N |Λ = λ ∼ Poisson(λ)
Λ ∼ Gamma(r, β).
7.6 Un assureur modélise la fréquence des sinistres par une distribution Binomiale négative(3, 1/6). La sévérité des sinistres est modélisée par une
distribution Exponentielle(0,01). Si une franchise de 20 $ est ajoutée au
contrat, calculer E[ N ∗ ], l’espérance de la fréquence modifiée.
7.7 Un portefeuille d’assurance compte 1 000 contrats. Le tableau ci-dessous
résume l’information connue à propos de la fréquence des sinistres.
Nombre de sinistres
Nombre de contrats
0
1
2
3
4
5
6
7+
100
267
311
208
87
23
4
0
Parmi les distributions binomiale, Poisson, binomiale négative, normale
et gamma, laquelle semble la plus appropriée pour modéliser ces données ?
7.8 Un assureur enregistre tous les jours d’une année (365 jours) le nombre
de réclamations qu’il reçoit. Les données recueillies sont présentées dans
le tableau ci-dessous. L’assureur utilise une distribution de Poisson de
moyenne 0,6 pour modéliser la variable aléatoire du nombre quotidien
de sinistres. Déterminer la statistique de Pearson.
Nombre de sinistres
Nombre de jours
0
1
2
3
4
5
209
111
33
7
3
2
Exercices proposés dans Loss Models
6.1, 6.2, 6.3, 15.18, 15.19, 15.4, 15.104, 15.105, 15.106, 15.109, 15.110, 8.29, 8.32,
8.33, 8.34
42
Modèles de fréquence
Réponses
q
7.1 b) θ (1 − θ )/(nm) c) θ (1 − θ )/(nm) d) θ̂ ± zα/2 θ̂ (1 − θ̂ )/(mn)
p
√
7.2 a) 0,1001 ± 1,96 0,1001/10 000 b) 0,1001 ± 1,96 0,1001(1,1001)/10 000
c) r̂ = 55,67, β̂ = 0,0018 d) r̂ = 52,73, µ̂ = 0,1001
7.3 a) λ̂1 = 0,109 et λ̂2 = 0,057 b) N ∼ Poisson(0,166)
7.4 a) 0,0237 b) r̂ = 0,4715, β̂ = 0,3521 c) r̂ = 0,656, µ̂ = 0,166
7.6 12,28
7.7 Binomiale
7.8 2,85
A Paramétrisation des lois de
probabilité
Cette annexe précise la paramétrisation des lois de probabilité continues
et discrètes utilisée dans les énoncés des exercices. Dans certains cas, elle est
différente de celle présentée dans les annexes A et B de Klugman et collab.
(2008a). En particulier, nous utilisons toutes les distributions de la famille
gamma transformée avec un paramètre de taux (λ) plutôt qu’un paramètre
d’échelle (θ). De plus, l’ordre des paramètres est différent.
En plus de la fonction de densité de probabilité et de la fonction de répartition, l’annexe fournit les éléments suivants pour chaque loi : la racine foo
des fonctions dfoo, pfoo, qfoo, rfoo, mfoo et levfoo telles que définies
dans R et actuar ; les noms des arguments de ces fonctions correspondant
à chacun des paramètres de la loi ; le ke moment (ainsi que l’espérance et
la variance pour les cas les plus usuels) ; l’espérance limitée (lois continues
seulement) ; la fonction génératrice des moments M (t), lorsqu’elle existe ; la
fonction génératrice des probabilités P(z) (lois discrètes seulement).
Dans les formules ci-dessous,
1
Γ(α)
Γ(α; x ) =
Z x
0
avec
Γ(α) =
tα−1 e−t dt,
Z ∞
0
α > 0, x > 0
tα−1 e−t dt
est la fonction gamma incomplète, alors que
β( a, b; x ) =
1
β( a, b)
Z x
0
t a−1 (1 − t)b−1 dt,
a > 0, b > 0, 0 < x < 1
avec
β( a, b) =
Z 1
0
t a−1 (1 − t)b−1 dt =
Γ( a)Γ(b)
Γ( a + b)
est la fonction bêta incomplète régularisée.
Sauf avis contraire, les paramètres sont strictement positifs et les fonctions
sont définies pour x > 0.
43
44
Paramétrisation des lois de probabilité
A.1
Famille bêta transformée
A.1.1
Bêta transformée (α, γ, τ, θ )
Racine : trbeta, pearson6
Paramètres : shape1 (α), shape2 (γ), shape3 (τ), rate (λ = 1/θ),
scale (θ)
f (x) =
γuτ (1 − u)α
,
xβ(α, τ )
u=
v
,
1+v
v=
x γ
θ
F ( x ) = β(τ, α; u)
θ k Γ(τ + k/γ)Γ(α − k/γ)
, −τγ < k < αγ
Γ(α)Γ(τ )
θΓ(τ + 1/γ)Γ(α − 1/γ)
β(τ + 1/γ, α − 1/γ; u) + x (1 − F ( x ))
E[ X; x ] =
Γ(α)Γ(τ )
E[ X k ] =
A.1.2
Burr (α, γ, θ )
Racine : burr
Paramètres : shape1 (α), shape2 (γ), rate (λ = 1/θ), scale (θ)
αγuα (1 − u)
,
x
F ( x ) = 1 − uα
f (x) =
u=
1
,
1+v
v=
x γ
θ
θ k Γ(1 + k/γ)Γ(α − k/γ)
, −γ < k < αγ
Γ(α)
θΓ(1 + 1/γ)Γ(α − 1/γ)
E[ X; x ] =
β(1 + 1/γ, α − 1/γ; u) + xuα
Γ(α)
E[ X k ] =
A.1.3
Burr inverse (τ, γ, θ )
Racine : invburr
Paramètres : shape1 (τ), shape2 (γ), rate (λ = 1/θ), scale (θ)
τγuτ (1 − u)
,
x
F ( x ) = uτ
f (x) =
u=
v
,
1+v
v=
x γ
θ
θ k Γ(τ + k/γ)Γ(1 − k/γ)
, −τγ < k < γ
Γ(τ )
θΓ(τ + 1/γ)Γ(1 − 1/γ)
E[ X; x ] =
β(τ + 1/γ, 1 − 1/γ; u) + x (1 − uτ )
Γ(α)
E[ X k ] =
A.1. Famille bêta transformée
A.1.4
45
Pareto généralisée (α, τ, θ )
Racine : genpareto
Paramètres : shape1 (α), shape2 (τ), rate (λ = 1/θ), scale (θ)
f (x) =
u τ (1 − u ) α
,
xβ(α, τ )
u=
v
,
1+v
v=
x
θ
F ( x ) = β(τ, α; u)
θ k Γ(τ + k)Γ(α − k)
, −τ < k < α
Γ(α)Γ(τ )
θτ
, α>1
E[ X ] =
α−1
θ 2 τ ( τ + α − 1)
Var[ X ] =
, α>2
( α − 1)2 ( α − 2)
θτ
E[ X; x ] =
β(τ + 1, α − 1; u) + x (1 − F ( x ))
α−1
E[ X k ] =
A.1.5
Pareto (α, θ )
Racine : pareto, pareto2
Paramètres : shape (α), scale (θ)
αuα (1 − u)
,
x
F ( x ) = 1 − uα
f (x) =
u=
1
,
1+v
v=
x
θ
θ k Γ ( k + 1) Γ ( α − k )
, −1 < k < α
Γ(α)
θ
E[ X ] =
, α>1
α−1
θ2 α
Var[ X ] =
, α>2
( α − 1)2 ( α − 2)
"

α −1 #

θ
θ


, α≠1
1−

α−1
x+θ
E[ X; x ] =

θ


−θ ln
,
α=1
x+θ
E[ X k ] =
A.1.6
Pareto inverse (τ, θ )
Racine : invpareto
Paramètres : shape (τ), scale (θ)
τuτ (1 − u)
,
x
F ( x ) = uτ
f (x) =
u=
v
,
1+v
v=
x
θ
46
Paramétrisation des lois de probabilité
θ k Γ ( τ + k ) Γ (1 − k )
, −τ < k < 1
Γ(τ )
Z u
yτ
E[ X; x ] = θ k τ
dy + x (1 − uτ )
0 1−y
E[ X k ] =
A.1.7
Log-logistique (γ, θ )
Racine : llogis
Paramètres : shape (γ), rate (λ = 1/θ), scale (θ)
γu(1 − u)
,
x
F(x) = u
f (x) =
u=
v
,
1+v
v=
x γ
θ
E[ X k ] = θ k Γ(1 + k/γ)Γ(1 − k/γ),
−γ < k < γ
E[ X; x ] = θΓ(1 + 1/γ)Γ(1 − 1/γ) β(1 + 1/γ, 1 − 1/γ; u) + x (1 − u)
A.1.8
Paralogistique (α, θ )
Racine : paralogis
Paramètres : shape (α), rate (λ = 1/θ), scale (θ)
α2 u α (1 − u )
,
x
F ( x ) = 1 − uα
f (x) =
u=
1
,
1+v
v=
x α
θ
θ k Γ(1 + k/α)Γ(α − k/α)
, − γ2 < k < α2
Γ(α)
θΓ(1 + 1/α)Γ(α − 1/α)
E[ X; x ] =
β(1 + 1/α, α − 1/α; u) + xuα
Γ(α)
E[ X k ] =
A.1.9
Paralogistique inverse (τ, θ )
Racine : invparalogis
Paramètres : shape (τ), rate (λ = 1/θ), scale (θ)
τ 2 u τ (1 − u )
,
x
F ( x ) = uτ
f (x) =
u=
v
,
1+v
v=
x τ
θ
θ k Γ(τ + k/τ )Γ(1 − k/τ )
, −τ 2 < k < τ
Γ(τ )
θΓ(τ + 1/τ )Γ(1 − 1/τ )
E[ X; x ] =
β(τ + 1/τ, 1 − 1/τ; u) + x (1 − uτ )
Γ(τ )
E[ X k ] =
A.2. Famille gamma transformée
A.2
A.2.1
47
Famille gamma transformée
Gamma transformée (α, τ, λ)
Racine : trgamma
Paramètres : shape1 (α), shape2 (τ), rate (λ), scale (θ = 1/λ)
f (x) =
τuα e−u
,
xΓ(α)
u = (λx )τ
F ( x ) = Γ(α; u)
Γ(α + k/τ )
, k > −ατ
λk Γ(α)
Γ(α + 1/τ )
E[ X; x ] =
Γ(α + 1/τ; u) + x (1 − Γ(α; u))
λΓ(α)
E[ X k ] =
A.2.2
Gamma transformée inverse (α, τ, λ)
Racine : invtrgamma
Paramètres : shape1 (α), shape2 (τ), rate (λ), scale (θ = 1/λ)
f (x) =
τuα e−u
,
xΓ(α)
u = (λx )−τ
F ( x ) = 1 − Γ(α; u)
Γ(α − k/τ )
, k < ατ
λk Γ(α)
Γ(α − 1/τ )
E[ X; x ] =
(1 − Γ(α − 1/τ; u)) + xΓ(α; u)
λΓ(α)
E[ X k ] =
A.2.3
Gamma (α, λ)
Racine : gamma
Paramètres : shape (α), rate (λ), scale (θ = 1/λ)
f (x) =
uα e−u
,
xΓ(α)
u = λx
F ( x ) = Γ(α; u)
Γ(α + k)
,
λk Γ(α)
α
E[ X ] =
λ
α
Var[ X ] = 2
λ
E[ X k ] =
k > −α
48
Paramétrisation des lois de probabilité
Γ ( α + 1)
Γ(α + 1; u) + x (1 − Γ(α; u))
λΓ(α)
α
λ
M(t) =
λ−t
E[ X; x ] =
A.2.4
Gamma inverse (α, λ)
Racine : invgamma
Paramètres : shape (α), rate (λ), scale (θ = 1/λ)
f (x) =
uα e−u
,
xΓ(α)
u = (λx )−1
F ( x ) = 1 − Γ(α; u)
Γ(α − k)
, k<α
λk Γ(α)
Γ ( α − 1)
E[ X; x ] =
(1 − Γ(α + 1; u)) + xΓ(α; u)
λΓ(α)
E[ X k ] =
A.2.5
Weibull (τ, λ)
Racine : weibull
Paramètres : shape (τ), scale (θ = 1/λ)
τue−u
,
x
F ( x ) = 1 − e−u
f (x) =
u = (λx )τ
Γ(1 + k/τ )
, k > −τ
λk
Γ(1 + 1/τ )
Γ(1 + 1/τ; u) + xe−u
E[ X; x ] =
λ
E[ X k ] =
A.2.6
Weibull inverse (τ, λ)
Racine : invweibull, lgompertz
Paramètres : shape (τ), rate (λ), scale (θ = 1/λ)
τue−u
,
x
F ( x ) = e−u
f (x) =
u = (λx )−τ
Γ(1 − k/τ )
, k<τ
λk
Γ(1 − 1/τ )
E[ X; x ] =
(1 − Γ(1 − 1/τ; u)) + x (1 − e−u )
λ
E[ X k ] =
A.3. Autres distributions continues
A.2.7
49
Exponentielle (λ)
Racine : exp
Paramètre : rate (λ)
ue−u
,
x
−u
F(x) = 1 − e
f (x) =
E[ X k ] =
E[ X ] =
Var[ X ] =
E[ X; x ] =
M(t) =
A.2.8
u = λx
Γ ( k + 1)
,
λk
1
λ
1
λ2
1 − e−u
λ
λ
λ−t
k > −1
Exponentielle inverse (λ)
Racine : invexp
Paramètres : rate (λ), scale (θ = 1/λ)
ue−u
,
x
−u
F(x) = e
f (x) =
E[ X k ] =
A.3
A.3.1
Γ (1 − k )
,
λk
u = (λx )−1
k<1
Autres distributions continues
Normale (µ, σ2 )
Racine : norm
Paramètres : mean (−∞ < µ < ∞), sd (σ)
1
1 x−µ 2
exp −
, −∞ < x < ∞
f (x) = √
2
σ
2πσ
Z x
2
x−µ
1
F(x) = Φ
, Φ( x ) = √
e−y dy
σ
2π −∞
E[ X ] = µ
Var[ X ] = σ2
M (t) = eµt+σ
2 t2 /2
50
Paramétrisation des lois de probabilité
A.3.2
Log-normale (µ, σ2 )
Racine : lnorm
Paramètres : meanlog (α), sdlog (σ)
1 ln x − µ 2
1 1
exp −
f (x) = √
2
σ
2πσ x
ln x − µ
F(x) = Φ
σ
E[ X k ] = ekµ+k
E [ X ] = eµ+σ
2 σ2 /2
2 /2
2
2
Var[ X ] = e2µ+σ (eσ − 1)
A.3.3
Log-gamma (α, λ)
Racine : lgamma
Paramètres : shapelog (α), ratelog (λ)
f (x) =
λα (ln x )α−1
,
x λ +1 Γ ( α )
x>1
F ( x ) = Γ(α; λ ln x ),
x>1
α
λ
E[ X k ] =
λ−k
α
λ
E[ X ] =
λ−1
α 2α
λ
λ
Var[ X ] =
−
λ−2
λ−1
α
λ
Γ(α; (λ − 1) ln x ) + x (1 − Γ(α; λ ln x ))
E[ X; x ] =
λ−1
A.3.4
Pareto translatée (α, θ )
Racine : pareto1
Paramètres : shape (α), min (θ)
αθ α
,
x>θ
x α +1
α
θ
F(x) = 1 −
,
x>θ
x
f (x) =
αθ k
, k<α
α−k
αθ
θ
E[ X; x ] =
−
α − 1 ( α − 1 ) x α −1
E[ X k ] =
A.3. Autres distributions continues
51
Cette loi est également appelée Pareto à un paramètre. Seul α est considéré
comme un véritable paramètre de la distribution. Le paramètre θ est la borne
inférieure du support de la distribution et est en général considéré connu.
A.3.5
Bêta généralisée (α, β, τ, θ )
Racine : genbeta
Paramètres : shape1 (α), shape2 (β), shape3 (τ), rate (λ = 1/θ),
scale (θ)
f (x) =
τuα (1 − u) β−1
,
xβ(α, β)
u=
x τ
θ
,
0<x<θ
F ( x ) = β(α, β; u)
θ k Γ(α + β)Γ(α + k/τ )
, k > −ατ
Γ(α)Γ(α + β + k/τ )
θΓ(α + β)Γ(α + 1/τ )
E[ X; x ] =
β(α + 1/τ, β; u) + x (1 − β(α, β; u))
Γ(α)Γ(α + β + 1/τ )
E[ X k ] =
A.3.6
Bêta (α, β)
Racine : beta
Paramètres : shape1 (α), shape2 (β)
f (x) =
Γ ( α + β ) α −1
x
(1 − x ) β −1 ,
Γ(α)Γ( β)
0<x<1
F ( x ) = β(α, β; x )
Γ(α + β)Γ(α + k)
, k > −α
Γ(α)Γ(α + β + k)
α
E[ X ] =
α+β
αβ
Var[ X ] =
2
( α + β ) ( α + β + 1)
Γ ( α + β ) Γ ( α + 1)
E[ X; x ] =
β(α + 1, β; u) + x (1 − β(α, β; x ))
Γ ( α ) Γ ( α + β + 1)
E[ X k ] =
52
Paramétrisation des lois de probabilité
A.4
A.4.1
Distributions discrètes de la famille ( a, b, 0)
Binomiale (n, θ )
Racine : binom
Paramètres : size (n), prob (θ)
n x
Pr( X = x ) =
θ (1 − θ ) n − x ,
x
n entier, 0 < θ < 1, x = 0, 1, . . .
E[ X ] = nθ
Var[ X ] = nθ (1 − θ )
M(t) = (1 − θ + θet )n
P(z) = (1 − θ (z − 1))n
A.4.2
Binomiale négative (r, θ )
Racine : nbinom
Paramètres : size (r), prob (θ), mu (µ = r (1 − θ )/θ)
x+r−1 r
θ (1 − θ ) x ,
r−1
r (1 − θ )
E[ X ] =
θ
r (1 − θ )
Var[ X ] =
θ2
r
θ
M(t) =
1 − (1 − θ ) e t
Pr( X = x ) =
0 < θ < 1, x = 0, 1, . . .
P ( z ) = (1 − (1 − θ ) z ) −r
A.4.3
Géométrique (θ )
Racine : nbinom
Paramètre : prob (θ)
Pr( X = x ) = θ (1 − θ ) x , 0 < θ < 1, x = 0, 1, . . .
1−θ
E[ X ] =
θ
1−θ
Var[ X ] = 2
θ
θ
M(t) =
1 − (1 − θ ) e t
P ( z ) = (1 − (1 − θ ) z ) −1
A.4. Distributions discrètes de la famille ( a, b, 0)
A.4.4
Poisson (λ)
Racine : pois
Paramètre : lambda (λ)
λ x e−λ
,
x!
E[ X ] = λ
Pr( X = x ) =
Var[ X ] = λ
t
M ( t ) = e λ ( e −1)
P ( z ) = e λ ( z −1)
x = 0, 1, . . .
53
B Installation de packages dans R
Plusieurs exercices de ce recueil requièrent l’utilisation du package actuar
(Dutang et collab., 2008). Le package doit être installé depuis le site Comprehensive R Archive Network (CRAN ; http://cran.r-project.org). Cette annexe explique comment configurer R pour faciliter l’installation et l’administration de packages externes.
Les instructions ci-dessous sont centrées autour de la création d’une bibliothèque personnelle où seront installés les packages R téléchargés de CRAN.
Il est fortement recommandé de créer une telle bibliothèque. Cela permet
d’éviter d’éventuels problèmes d’accès en écriture dans la bibliothèque principale et de conserver les packages intacts lors des mises à jour de R. Nous
montrons également comment spécifier le site miroir de CRAN pour éviter
d’avoir à le répéter à chaque installation de package.
1. Identifier le dossier de départ de l’utilisateur. En cas d’incertitude, examiner la valeur de la variable d’environnement HOME 1 , soit depuis R avec la
commande
> Sys.getenv("HOME")
ou encore directement depuis Emacs avec
M-x getenv RET HOME RET
Tout comme R et Emacs, nous référerons à ce dossier par le symbole ~.
2. Créer un dossier qui servira de bibliothèque de packages personnelle.
Dans la suite, nous utiliserons ~/R/library.
3. Dans un fichier nommé ~/.Renviron (donc situé dans le dossier de départ), enregistrer la ligne appropriée ci-dessous selon votre système d’exploitation :
R_LIBS="~/R/library;${R_LIBS}"
(Windows)
R_LIBS="~/R/library:${R_LIBS}"
(OS X, Linux, Unix)
Au besoin, remplacer le chemin ~/R/library par celui du dossier créé à
l’étape précédente. Utiliser la barre oblique avant (/) dans le chemin pour
séparer les dossiers.
1. Dans Windows, la variable est créée par l’assistant d’installation de GNU Emacs lorsqu’elle
n’existe pas déjà.
55
56
Installation de packages dans R
4. Dans un fichier nommé ~/.Rprofile, enregistrer les options suivantes :
options(repos = "http://cran.ca.r-project.org",
menu.graphics = FALSE)
Si désiré, remplacer la valeur de l’option repos par l’URL d’un autre site
miroir de CRAN.
Consulter la rubriques d’aide de Startup pour les détails sur la syntaxe et
l’emplacement des fichiers de configuration, celles de library et .libPaths
pour la gestion des bibliothèques et celle de options pour les différentes
options reconnues par R.
Après un redémarrage de R, la bibliothèque personnelle aura préséance
sur la bibliothèque principale et il ne sera plus nécessaire de préciser le site
miroir de CRAN lors de l’installation de packages. Ainsi, la simple commande
> install.packages("actuar")
téléchargera le package actuar depuis de le miroir canadien de CRAN et
l’installera dans le dossier ~/R/library. Pour charger le package en mémoire,
on fera
> library("actuar")
On peut arriver au même résultat sans utiliser les fichiers de configuration
.Renviron et .Rprofile. Il faut cependant recourir aux arguments lib et
repos de la fonction install.packages et à l’argument lib.loc de la fonction
library. Consulter les rubriques d’aide de ces deux fonctions pour de plus
amples informations.
C Table de quantiles de la loi
normale
Pr[ X ≤ x ] = Φ( x ) =
Z x
2
1
√ e−y /2 dy
−∞ 2π
Φ(− x ) = 1 − Φ( x )
x
Φ( x )
x
Φ( x )
x
Φ( x )
0,00
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
1,05
0,500
0,520
0,540
0,560
0,579
0,599
0,618
0,637
0,655
0,674
0,691
0,709
0,726
0,742
0,758
0,773
0,788
0,802
0,816
0,829
0,841
0,853
1,10
1,15
1,20
1,25
1,282
1,30
1,35
1,40
1,45
1,50
1,55
1,60
1,645
1,65
1,70
1,75
1,80
1,85
1,90
1,95
1,96
2,00
0,864
0,875
0,885
0,894
0,900
0,903
0,911
0,919
0,926
0,933
0,939
0,945
0,950
0,951
0,955
0,960
0,964
0,968
0,971
0,974
0,975
0,977
2,05
2,10
2,15
2,20
2,25
2,30
2,326
2,35
2,40
2,45
2,50
2,55
2,576
2,60
2,65
2,70
2,75
2,80
2,85
2,90
2,95
3,00
0,980
0,982
0,984
0,986
0,988
0,989
0,990
0,991
0,992
0,993
0,994
0,995
0,995
0,995
0,996
0,997
0,997
0,997
0,998
0,998
0,998
0,999
57
D Table de quantiles de la loi khi
carré
Pr[ X ≤ x ] =
Z x
0
1
yr/2−1 e−r/2 dx
Γ(r/2)2r/2
59
60
Table de quantiles de la loi khi carré
Pr[ X ≤ x ]
r
0,01
0,025
0,05
0,95
0,975
0,99
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0,000
0,020
0,115
0,297
0,554
0,872
1,239
1,646
2,088
2,558
3,053
3,571
4,107
4,660
5,229
5,812
6,408
7,015
7,633
8,260
8,897
9,542
10,196
10,856
11,524
12,198
12,879
13,565
14,256
14,953
0,001
0,051
0,216
0,484
0,831
1,237
1,690
2,180
2,700
3,247
3,816
4,404
5,009
5,629
6,262
6,908
7,564
8,231
8,907
9,591
10,283
10,982
11,689
12,401
13,120
13,844
14,573
15,308
16,047
16,791
0,004
0,103
0,352
0,711
1,145
1,635
2,167
2,733
3,325
3,940
4,575
5,226
5,892
6,571
7,261
7,962
8,672
9,390
10,117
10,851
11,591
12,338
13,091
13,848
14,611
15,379
16,151
16,928
17,708
18,493
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
5,024
7,378
9,348
11,143
12,833
14,449
16,013
17,535
19,023
20,483
21,920
23,337
24,736
26,119
27,488
28,845
30,191
31,526
32,852
34,170
35,479
36,781
38,076
39,364
40,646
41,923
43,195
44,461
45,722
46,979
6,635
9,210
11,345
13,277
15,086
16,812
18,475
20,090
21,666
23,209
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
E Solutions
Plusieurs solutions faisant appel à R utilisent des fonctions des packages
actuar (Dutang et collab., 2008) et MASS (Venables et Ripley, 2002). On suppose donc que les packages ont été chargés en mémoire avec
> library("actuar")
> library("MASS")
Chapitre 1
1.1 On a
1
1
=
2
2
x →0
lim
et
x2
1
1
−
= .
24
2
x →0 2
lim
En utilisant le théorème «sandwich», on obtient donc directement
lim
x →0
1 − cos( x )
1
= .
2
x2
La figure E.1 présente le graphique de la fonction et des deux bornes,
ainsi que le code R pour créer ce graphique.
1.2 Il suffit d’appliquer la règle de l’Hôpital :
lim
x →0
x
dx/dx
= lim
ln( x + 1) x→0 d ln( x + 1)/dx
1
= lim
x →0 1/ ( x + 1)
= 1.
61
62
Solutions
f <- function(x) (1 - cos(x))/(x^2)
g <- function(x) 0.5 - x^2/24
curve(f, from = -2, to = 2, lwd = 2)
curve(g, add = TRUE, lty = 2)
abline(h = 0.5, lty = 2)
0.35
0.40
f (x)
0.45
0.50
>
>
>
>
>
−2
−1
0
1
2
x
Figure E.1: Fonction f ( x ) = (1 − cos( x ))/x2 (trait plein) et les bornes y =
1
1
2
2 − x /24 et y = 2 (traits brisés)
1.3 Il faut faire quelques modifications avant de pouvoir utiliser la règle de
l’Hôpital. On passe d’abord à la forme logarithmique
y = (1 + x )1/x
ln(y) = ln(1 + x )1/x
=
ln(1 + x )
,
x
Solutions
63
pour ensuite calculer la limite à l’aide de la règle de l’Hôpital
d ln(1 + x )/dx
dx/dx
x →0
ln(1 + x )
= lim
x
x →0
1/(1 + x )
= lim
1
x →0
=1
lim ln(y) = lim
x →0
et enfin revenir à la forme exponentielle
lim y = lim (1 + x )1/x
x →0
x →0
1
=e
= e.
1.4 a) On utilise la règle de l’Hôpital pour évaluer
lim
x →∞
x
dx/dx
= lim
ln( x ) x→∞ d ln( x )/dx
1
= lim
x →∞ 1/x
= lim x
x →∞
= ∞.
Il est donc possible de conclure que le numérateur tend plus rapidement vers l’infini que le dénominateur, c’est-à-dire que x tend plus
rapidement vers l’infini que ln( x ).
b) De manière similaire,
lim
x
x →∞ e x
dx/dx
de x /dx
1
= lim x
x →∞ e
= 0,
= lim
x →∞
d’où e x tend plus rapidement vers l’infini que x.
1.5 a) On a f ( x ) = cos( x ), f (0) = 1, f 0 ( x ) = − sin( x ), f 0 (0) = 0, f 00 ( x ) =
− cos( x ), f 00 (0) = −1, f 000 ( x ) = sin( x ), f 000 (0) = 0, et ainsi de suite.
On obtient donc
x2
x4
cos( x ) = 1 −
+
− ...
2!
4!
64
Solutions
b) On a f ( x ) = sin( x ), f (0) = 0, f 0 ( x ) = cos( x ), f 0 (0) = 1, f 00 ( x ) = − sin( x ),
f 00 (0) = 0, f 000 ( x ) = − cos( x ), f 000 (0) = −1, et ainsi de suite. On obtient
donc
x5
x3
+
− ...
sin( x ) = x −
3!
5!
c) On obtient
i2 x2
i3 x3
i4 x4
i5 x5
+
+
+
+ ...
2!
3!
4!
5!
x2
x3
x4
x5
= 1 + ix −
−i +
+ i − ....
2!
3!
4!
5!
eix = 1 + ix +
En regroupant les termes, on obtient
x4
x3
x5
x2
ix
+
− ... + i x −
+
− ...
e = 1−
2!
4!
3!
5!
d) Des résultats obtenus en a), b) et c), on a directement
eix = cos( x ) + i sin( x ).
e) En posant x = π dans le résultat en d), on obtient
eiπ = cos(π ) + i sin(π )
= −1 + i (0)
= −1.
1.6 Il faut démontrer que la fonction F ( x ) est non décroissante, que sa limite
à droite est 1, que sa limite à gauche est 0 et qu’elle est continue (à droite).
Clairement, on a limx→−∞ F ( x ) = 0, et limx→∞ F ( x ) = 1. De plus,
F0 (x) =
e− x
> 0,
(1 + e − x )2
qui implique que la fonction est non décroissante.
1.7 La fonction g( x ) est clairement positive. Il faut démontrer que l’intégrale
sur la totalité du domaine de cette fonction est 1 :
Z ∞
x0
g( x ) dx =
=
Z ∞
x0
R∞
x0
f (x)
dx
1 − F ( x0 )
f ( x ) dx
1 − F ( x0 )
1 − F ( x0 )
=
1 − F ( x0 )
= 1.
Solutions
65
0.6
0.2
0.4
S(x)
0.8
1.0
> library(actuar)
> curve(ppareto(x, shape = 2, scale = 3000,
+
lower.tail = FALSE), from = 0, to = 5000,
+
ylab = "S(x)", lwd = 2)
0
1000
2000
3000
4000
5000
x
Figure E.2: Fonction de survie d’une distribution Pareto(2, 3 000)
1.8 On a
S( x ) = Pr( X > x )
Z ∞
αλα
=
dt
x ( t + λ ) α +1
α
λ
=
.
x+λ
La figure E.2 présente le graphique de cette fonction.
66
Solutions
1.9 On a que Y = n − X si, et seulement si, X = n − Y. Ainsi,
Pr(Y = y) = Pr( X = n − y)
n
=
pn−y (1 − p)n−(n−y)
n−y
n
=
(1 − p)y pn−y , y = 0, 1, . . . ,
y
d’où Y ∼ Binomiale(n, 1 − p).
1.10 a) On a Y = e X où X ∼ N (µ, σ2 ). Par conséquent,
FY ( x ) = Pr[Y ≤ x ]
= Pr[e X ≤ x ]
= Pr[ X ≤ ln x ]
= FX (ln x )
et
f Y ( x ) = FY0 ( x )
1
= f X (ln x ).
x
b) La fonction génératrice des moments de X est MX (t) = eµt+σ
a
Var[Y ] = E[Y 2 ] − E[Y ]2
= E[e2X ] − E[e X ]2
= MX (2) − M2X (1)
2
= e2µ+2σ − e2µ+σ
2
2
2
= e2µ+σ (eσ − 1).
1.11 On a
Z ∞
|x|
1
dx
π
1
+
x2
−∞
Z ∞
Z 0
x 1
−x 1
=
dx
+
dx
−∞ π 1 + x2
0 π 1 + x2
Z
2 ∞ x
=
dx
π 0 1 + x2
Z a
2
x
= lim
dx
a→∞ π 0 1 + x2
= lim ln(1 + a2 )
E[| X |] =
a→∞
= ∞.
2 t2 /2
. On
Solutions
67
1.12 On utilise la définition de l’espérance :
∞
e−λ λ x
x!
x =0
− λ x +1 ∞
e λ
x+1
= ∑ g( x )
x!
x+1
x =0
E[λg( X )] =
∑ λg(x)
∞
=
e − λ λ x +1
∑ ( x + 1) g ( x ) ( x + 1) ! .
x =0
Il faut maintenant faire un glissement d’indice et ajouter un terme pour
obtenir
∞
E[λg( X )] =
∑ xg(x − 1)
e−λ λ x
x!
∑ xg(x − 1)
e−λ λ x
x!
x =1
∞
=
x =0
= E[ Xg( X − 1)].
1.13 Il suffit de remarquer que M + m = X + Y. Le résultat découle ensuite
directement par linéarité de l’espérance : E[ M] + E[m] = E[ X ] + E[Y ].
1.14 On utilise la technique de la fonction de répartition :
FY (y) = Pr(Y ≤ y)
= Pr(4X + 3 ≤ y)
y−3
= Pr X ≤
4
y−3
= FX
4
=1−e
7
y −3
4
.
La densité est alors
7 − 7 ( y −3)
e 4
, y > 3.
4
1.15 On utilise la technique de la fonction de répartition :
f Y (y) = FY0 (y) =
FY (y) = Pr(Y ≤ y)
= Pr X 3 ≤ y
1
= Pr X ≤ y 3
1
1 y3 2
=
x dx
9 0
y
= .
27
Z
68
Solutions
On trouve donc que
f Y (y) = FY0 (y) =
1
,
27
0 ≤ y ≤ 27.
1.16 Selon l’énoncé, X ∼ N (0,σ2 ) et Y = X 2 . Il faut voir que Y = X 2 n’est pas
une transformation bijective (à une valeur de Y correspond plus d’une
valeur de X). On pose W = | X | et on trouve la densité de W à l’aide de
la technique de la fonction de répartition :
FW (w) = Pr(| X | ≤ w)
= Pr(−w ≤ X ≤ w)
= FX (w) − FX (−w)
et donc
f W (w) = f X (w) + f X (−w)
2
2
2
= √ e− x /(2σ ) .
σ 2π
On pose maintenant Y = W 2 = | X |2 = X 2 et on trouve la densité de Y
par la technique du changement de variable :
d
f Y (y) = f W (y1/2 ) y1/2 dy
1 = f W (y1/2 ) √ 2 y
2
1
−
y/(2σ2 )
= √ e
√
2 y
σ 2π
=
(2σ2 )−1/2 −1/2 −y/(2σ2 )
y
e
Γ( 12 )
√
puisque π ≡ Γ( 21 ). On a donc que Y ∼ Gamma( 12 , 12 σ−2 ). De manière
équivalente, on peut aussi poser X = σZ, où Z ∼ N (0, 1), et utiliser le
résultat connu que Z2 ∼ χ2 (1) ≡ Gamma( 21 , 12 ).
1.17 Si X est une variable aléatoire dont la distribution est symétrique autour
du point a, alors E[ X ] = a. On a donc
µ3 = E[( X − a)3 ]
=
=
Z ∞
−∞
Z a
−∞
( x − a)3 f ( x ) dx
( x − a)3 f ( x ) dx +
Z ∞
a
( x − a)3 f ( x ) dx.
Solutions
69
En faisant le changement de variable y = x − a, on obtient
µ3 =
=
Z 0
−∞
Z ∞
0
y3 f (y + a) dy +
Z ∞
0
3
−y f (−y + a) dy +
y3 f (y + a) dy
Z ∞
0
y3 f (y + a) dy
= 0,
puisque f (−y + a) = f (y + a) par symétrie autour du point a. Par conséquent, γ1 = µ3 /µ3/2
= 0.
2
1.18 La distribution de la variable aléatoire X est en fait une Exponentielle(1).
Par conséquent, E[ X ] = Var[ X ] = 1 et
µ3 = E[( X − 1)3 ]
=
Z ∞
0
=
Z ∞
0
( x − 1)3 e− x dx
( x3 − 3x2 + 3x − 1)e− x dx
= Γ(4) − 3Γ(3) + 3Γ(2) − Γ(1)
= 3! − 3! + 3 − 1
=2
= 2.
en reconnaissant des lois gamma. Ainsi, on obtient γ1 = µ3 /µ3/2
2
1.19 On trouve que µ2 = 1/3, µ4 = 1/5 et donc γ2 = µ4 /µ22 = 9/5. Comme
γ2 < 3, la distribution a des queues moins lourdes que la distribution
normale.
1.20 Par définition,
MX (t) = E[etX ]
Z c
2x tx
e dx
=
0 c2
2
= 2 2 (ctect − ect + 1).
c t
1.21 Par le théorème central limite, on sait que X̄1 ∼ N (µ, σ2 /n) et X̄2 ∼
N (µ, σ2 /n). Comme les deux variables aléatoires sont indépendantes,
X̄1 − X̄2 ∼ N (0, 2σ2 /n). Ainsi,
σ
−σ/5
X̄ − X̄
σ/5
√
√
Pr | X̄1 − X̄2 | <
= Pr
< 1√ 2 <
5
σ/ n/2
σ/ n/2
σ/ n/2
r r
1 n
1 n
<Z<
,
= Pr
5 2
5 2
où Z ∼√N (0, 1). On doit donc trouver une valeur de n tel que Pr( Z ≥
√
n/(5 2)) ≈ 0,005.√On trouve dans une table de quantiles de la loi
√
normale que n/(5 2) = 2,576, et donc que n ≈ 332.
70
Solutions
1.22 a) On a Xi ∼ Gamma(25, 12 ). Or, une somme de n lois gamma indépendantes de paramètres αi et λ est une loi gamma de paramètres ∑in=1 αi
et λ. Par conséquent, ∑in=1 Xi ∼ Gamma(2 500, 12 ) et X̄ ∼ Gamma(2 500, 50).
b) On obtient avec R
> diff(pgamma(c(49, 51), 2500, 50))
[1] 0.6827218
c) Pour obtenir une approximation de la probabilité en b), on peut utiliser le Théorème central limite. On a que E[ X̄ ] = 2 500/50 = 50 et
Var[ X̄ ] = 2 500502 = 1. Par conséquent,
49 − 50
X̄ − 50
51 − 50
Pr[49 < X̄ < 51] = Pr
<
<
1
1
1
≈ Pr[−1 < Z < 1]
= Φ(1) − Φ(−1)
= 2Φ(1) − 1
= 0,6826,
où Z ∼ N (0, 1).
1.23 Par définition, le biais est
bΘ̂ (θ ) = E[Θ̂] − θ
= 749 500 −
2(1 000)2
−
(2)(1)
1 000
2
= −500.
L’erreur quadratique moyenne est
MSE(Θ̂) = Var[Θ̂] + bΘ̂ (θ )2
= 750 + (−500)2
= 250 750.
1.24 a) Par linéarité de l’espérance,
"
n
E
∑ a i Xi
#
n
=
i =1
∑ a i E [ Xi ]
i =1
n
=
∑ ai µ
i =1
n
= µ ∑ ai
i =1
= µ.
2 !
Solutions
71
b) Étant donné que les variables sont indépendantes, on a
"
Var
n
∑ a i Xi
#
n
=
i =1
∑ a2i Var[Xi ]
i =1
n
= σ2 ∑ a2i .
i =1
Il faut donc minimiser ∑in=1 a2i sous la contrainte ∑in=1 ai = 1. Or,
n
1 2
1
+
∑
n
n
i =1
n
1 2 1
= ∑ ai −
+ ,
n
n
i =1
∑ a2i =
i =1
n
ai −
étant donné que le produit croisé vaut 0. Ainsi, l’expression ∑in=1 a2i
est minimisée en choisissant ai = 1/n pour tout i. Par conséquent,
n
X̄ =
1
∑ n Xi
i =1
possède la plus petite variance parmi tous les estimateurs sans biais
linéaires.
1.25 On a
"
#
1 n
1 n
2
E
(
X
−
µ
)
=
i
∑ E[(Xi − µ)2 ]
n i∑
n
=1
i =1
=
1 n 2
σ
n i∑
=1
= σ2 .
1.26 En utilisant la définition de l’espérance, on obtient
E[ T ( X )] = 0 + 0 + (2)
1
θ
= θ.
2
1.27 Soit Var[ X ] = θ et
θ̂ = n
X
n
1−
X
n
.
72
Solutions
On a
E[ X 2 ]
n
np(1 − p) + (np)2
= np −
n
= np − p(1 − p) − np2
E[θ̂ ] = E[ X ] −
= np(1 − p) − p(1 − p)
= θ − p (1 − p ).
Par conséquent, θ̂ est un estimateur de θ avec un biais de − p(1 − p).
1.28 On sait que
Var[ X̄ ] =
Var[ X ]
λ
= .
n
n
De plus,
"
E
∂
ln f ( X; λ)
∂λ
2 #
"
=E
X−λ
λ
2 #
1
Var[ X ]
λ2
1
= .
λ
=
La borne de Rao–Cramér est donc
λ
= Var[ X̄ ] .
n
Comme la variance de l’estimateur est égale à la borne de Rao–Cramér,
son efficacité vaut 1 et de X̄ est un estimateur sans biais à variance
minimale du paramètre λ d’une loi de Poisson.
1.29 D’abord, on cherche un estimateur sans biais :
E[ Ẑ ] = αE[ X ] + βE[Y ]
= α0,8z + βz
= z,
d’où β = 1 − 0,8α. Ensuite, on cherche un estimateur avec une variance
minimale :
Var[ Ẑ ] = α2 Var[ X ] + β2 Var[Y ]
= α2 z2 + β2 (1,5)z2
= (α2 + 1,5(1 − 0,8α)2 )z2 .
Cette dernière expression est minimisée lorsque α2 + 1,5(1 − 0,8α)2 est
minimisé, c’est-à-dire, lorsque α = 0,6122. On trouve ensuite que β =
0,5102.
Solutions
73
1.30 a) On a
1 1/θ −1
x
(1 − x )1−1 , 0 < x < 1, θ > 0,
θ
soit une distribution bêta de paramètres α = 1/θ et β = 1.
b) On a ln f ( xi ; θ ) = (θ −1 − 1) ln xi − ln θ et, donc,
n
1
`(θ ) =
− 1 ∑ ln xi − n ln θ.
θ
i =1
f ( x; θ ) =
Par conséquent,
n
d
∑n ln x
`(θ ) = − i=12 i −
dθ
θ
θ
et θ̂ = −n−1 ∑in=1 ln xi .
c) On a
E[θ̂ ] = −
1 n
n i∑
=1
Z 1
1
0
θ
(ln xi ) xi1/θ −1 dxi
=−
Z 1
1 n
1/θ −1
1/θ
1
−
x
dx
x
ln
x
|
i
0
i
n i∑
0
=1
=−
1 n
(−θ )
n i∑
=1
= θ.
Chapitre 2
2.1 La franchise permet à l’assureur d’économiser au plus 250 $ par contrat.
L’assureur économise donc, pour les 12 contrats de son portefeuille,
250, 110, 250, 213, 98, 250, 250, 162, 131, 250, 250, 250,
pour un total de 2 464 $. Le montant total des sinistres sans la franchise
est de 4 982 $. Le rapport d’élimination de perte est donc
LER =
2 464
= 0,4946.
4 982
2.2 La limite permet à l’assureur d’économiser l’excédent de 100 000 $ par
contrat. L’assureur économise donc, pour les huit contrats de son portefeuille,
0, 23 000, 323 000, 0, 113 000, 0, 0, 78 000,
pour un total de 537 000 $. Le montant total des sinistres sans la limite
est de 1 146 000 $. Le rapport d’élimination de perte est donc
LER =
537 000
= 0,4686.
1 146 000
74
Solutions
2.3 a) Soit X ∼ Exponentielle(0,02) la variable aléatoire du montant d’un
sinistre et soit Y, la variable aléatoire du montant économisé par l’assureur. On définit
(
X, X ≤ 10
Y=
0, X > 10.
Le rapport d’élimination de perte est
E [Y ]
E[ X ]
R 10
x f X ( x ) dx
= 0
50
0,87616
=
50
= 0,0175.
LER =
b) Avec une franchise forfaitaire, on a plutôt
(
X, X ≤ 10
Y=
10, X > 10.
Le rapport d’élimination de perte est
E [Y ]
E[ X ]
R 10
R∞
0 x f X ( x ) dx + 10 10 f X ( x ) dx
=
E[ X ]
E[ X; 10]
=
E[ X ]
9,0634
=
50
= 0,1813.
LER =
Il est normal que ce ratio soit supérieur à celui en a) puisque l’assureur ne rembourse que la partie du montant du sinistre excédent la
franchise forfaitaire, et non le montant au complet.
2.4 Soit X ∼ Gamma(4, 0,1), la variable aléatoire du montant d’un sinistre
et soit Y, la variable aléatoire du montant économisé par l’assureur. On
définit
(
0,
X ≤ 100
Y=
X − 100, X > 100.
Solutions
75
Le rapport d’élimination de perte est
E [Y ]
E[ X ]
R∞
( x − 100) f X ( x ) dx
= 100
E[ X ]
0,138
=
40
= 0,0034.
LER =
Il est également possible de réécrire la variable aléatoire comme étant
(
X − X,
X ≤ 100
Y=
X − 100, X > 100.
Il est alors aisé de calculer le rapport d’élimination de perte comme suit :
E [Y ]
E[ X ]
E[ X ] − E[ X; 100]
=
E[ X ]
(40)Γ(5; 10) + (100)(1 − Γ(4; 10))
=
.
40
LER =
Comme la valeur de α est entière, on peut utiliser
Γ(α; y) = 1 −
α −1
∑
j =0
y j e−y
j!
pour obtenir
40 − 39,862
= 0,0034.
40
2.5 Il est dit dans la question que l’assureur «limite ses paiements à 200»,
la limite est donc de 270. En introduisant d’abord la limite, l’assureur
économise, respectivement,
LER =
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 90, 130,
pour un total de 220. En introduisant ensuite la franchise, l’assureur économise en plus, respectivement,
20, 50, 70, 70, 70, 70, 70, 70, 70, 70, 70, 70,
pour un total de 770. Le montant total des sinistres sans la limite et la
franchise est de 1 745. Le rapport d’élimination de perte est donc
LER =
770 + 220
= 0,567.
1 745
76
Solutions
2.6 On trouve d’abord
R∞
x f X ( x ) dx + 100 100 f X ( x ) dx
LERd=100 =
E[ X ]
E[ X; 100]
=
E[ X ]
E[ X; 100]
=
2 000
= 0,0465
R 100
0
d’où l’on trouve que E[ X; 100] = 93. Soit Y, la variable aléatoire du montant épargné par l’assureur. On définit


 X,
Y = 100,


X − 30 000 + 100,
X ≤ 100
100 < X ≤ 30 000
X > 30 000,
ou, de manière équivalente,
Y = X − min( X, 30 000) + min( X, 100)


X ≤ 100
 X − X + X,
= X − X + 100,
100 < X ≤ 30 000


X − 30 000 + 100, X > 30 000.
Ainsi,
LER =
E[ X ] − E[ X; 30 000] + E[ X; 100]
= 0,226.
E[ X ]
2.7 a) Il faut voir que la densité donnée peut s’écrire comme une combinaison linéaire de deux distributions exponentielles :
f X ( x ) = e−2x +
e− x
2
1
1
= (2e−2x ) + e− x .
2
2
L’espérance limitée est donc, en utilisant les formules pour l’espérance
limitée d’une exponentielle,
E[ X; d] =
=
1
1
1
(1 − e−2d ) +
(1)(1 − e−d )
2
2
2
1 − e−2d
1 − e−d
+
.
4
2
Solutions
77
b) Il faut d’abord évaluer la sévérité moyenne. Soit Y, la variable aléatoire
du montant payé par l’assureur, on a
(
0,
X ≤ 0,25
Y=
X − 0,25, X > 0,25,
ou encore
Y = max( X − 0,25, 0)
= X − min( X, 0,25)
(
X − X,
X ≤ 0,25
=
X − 0,25, X > 0,25.
À partir de cette représentation, il est facile de voir que
E[Y ] = E[ X ] − E[ X; 0,25]
1 1
3 − e−0,5 − 2e−0,25
=
+
−
4 2
4
= 0,541.
L’espérance de la sévérité est de un sinistre tous les dix ans, donc de
0,1. Ainsi, la prime pure est
π = (0,541)(0,1) = 0,0541.
c) Soit Z = 1,05X, la variable aléatoire du montant de sinistre après inflation. On a
FZ ( x ) = FX ( x/1,05)
1
1
= (1 − e−(2/1,05)x ) + (1 − e−1/1,05x ).
2
2
Le calcul de l’espérance de la sévérité est donc
E[Y ] = E[ Z ] − E[ Z; 0,25]
= 0,7875 − 0,2107
= 0,576.
La prime pure est alors
π = (0,576)(0,1) = 0,0576.
2.8 a) Pour le réassureur, il s’agit d’une franchise de 50 000. Soit Y, la variable aléatoire du montant payé par le réassureur. On a
(
0,
X ≤ 50 000
Y=
X − 50 000, X > 50 000,
78
Solutions
ou encore
Y = max( X − 50 000, 0)
= X − min( X, 50 000)
(
X − X,
X ≤ 50 000
=
X − 50 000, X > 50 000
À partir de cette représentation, il est facile de voir que
E[Y ] = E[ X ] − E[ X; 50 000]
= 1 091,09.
b) Soit Y ∗ la variable aléatoire du montant économisé par le réassureur.
On définit
(
∗
Y =
X,
100 000,
X ≤ 100 000
X > 100 000.
On trouve alors que
E[Y ∗ ] = E[ X; 100 000]
= 4 219,13.
De plus, on a
λ
α−1
2 500
=
1,5 − 1
= 5 000.
E[ X ] =
Le rapport d’élimination de perte est donc
LER =
4 219,13
= 0,8438.
5 000
2.9 On sait que Y P = X − d| X > d et que
fY P (x) =
f X ( x + d)
,
1 − FX (d)
x > 0.
Solutions
79
On a donc
E [Y P ] =
=
=
=
=
∞
1
x f X ( x + d) dx
1 − FX (d) 0
Z ∞
1
(y − d) f X (y) dy
1 − FX (d) d
Z ∞
1
y f X (y) dy − d(1 − F (d))
1 − FX (d)
d
Z ∞
Z d
1
y f X (y) dy −
y f X (y) dy − d(1 − F (d))
1 − FX (d)
0
0
E[ X ] − E[ X; d]
1 − FX (d)
Z
par définition de l’espérance limitée. Le numérateur représente le montant moyen des sinistres au-dessus de la franchise d, alors que la présence
du dénominateur s’interprète comme la sélection des seuls sinistres dépassant la franchise.
2.10 Pour chaque cas, la fonction coverage du package actuar retourne une
fonction pour calculer ou tracer la densité modifiée. Voir la figure E.3
pour les graphique demandés. On a superposé, sur chaque graphique,
la densité de la distribution sans la modification à la densité modifiée.
Le code R pour créer ces graphiques est le suivant :
a) > f <- coverage(dweibull, pweibull, deductible = 10,
+
per.loss = TRUE)
> curve(dweibull(x, 3, 15), from = 0, to = 50,
+
ylim = c(0, f(0, 3, 15)))
> curve(f(x, 3, 15), from = 0.01, add = TRUE,
+
lwd = 3)
> points(0, f(0, 3, 15), pch = 16, lwd = 3)
b) > f <- coverage(dweibull, pweibull, deductible = 10,
+
limit = 40, franchise = TRUE)
> curve(f(x, 3, 15), from = 10.01, to = 39.99,
+
xlim = c(0, 50), lwd = 3)
> points(40, f(40, 3, 15), pch = 16, lwd = 3)
> curve(dweibull(x, 3, 15), add = TRUE, lty = 2)
c) > f <- coverage(dweibull, pweibull, coins = 0.8)
> curve(f(x, 3, 15), from = 0, to = 50)
> curve(dweibull(x, 3, 15), add = TRUE, lty = 2)
2.11 a) On a X ∼ Pareto(1,5, 1 500). En 1995, la variable aléatoire est, après
inflation,
X1995 = (1,05)2 (1,06)3 X1990
= (1,3131) X1990 ,
Solutions
0.00 0.02 0.04 0.06 0.08 0.10
80
0.00
0.00
0.04
0.10
0.08
0.20
●
0
10
20
30
40
50
(a) Franchise forfaitaire de
10
●
0
10
20
30
40
50
(b) Franchise atteinte de 10
et limite de 40
0
10
20
30
40
50
(c) Coassurance de 80 %
Figure E.3: Graphiques de l’exercice 2.10. Le trait épais représente la variable
aléatoire modifiée et le trait mince la variable aléatoire de base.
et donc X1995 ∼ Pareto(1,5, 1 500 × 1,3131). L’espérance limitée est
E[ X1995 ; 500] = 421,3. L’espérance du montant d’un sinistre en 1995
est donc, avant la franchise,
E[ X1995 ] =
1 969,65
= 3 939,3
1,5 − 1
et après la franchise
∗
E[ X1995
] = E[ X1995 ] − E[ X1995 ; 500]
= 3 939,3 − 421,3
= 3 518.
Enfin, le rapport d’élimination de perte est
LER =
3 939,3 − 3 518
= 0,1069.
3 939,3
b) Soit N, la variable aléatoire représentant le nombre de paiements. On
cherche,
Pr( X1995 − 500 >2 000| N = 1)
= Pr( X1995 − 500 > 2 000| X1995 > 500)
Pr( X1995 − 500 > 2 000, X1995 > 500)
=
Pr( X1995 > 500)
Pr( X1995 − 500 > 2 000)
=
Pr( X1995 > 500)
= 0,4107.
Solutions
81
c) La nouvelle variable aléatoire est


0,
Y ∗ = X1995 − 500,


4 000 − 500,
X1995 ≤ 500
500 < X1995 ≤ 4 000
X1995 > 4 000,
ou encore,
Y ∗ = max(min( X1995 , 4 000) − 500, 0)
= min( X1995 , 4 000) − min( X1995 , 500)


 X1995 − X1995 , X1995 ≤ 500
= X1995 − 500,
500 < X1995 ≤ 4 000


4 000 − 500,
X1995 > 4 000,
d’où
E[Y ∗ ] = E[ X1995 ; 4 000] − E[ X1995 ; 500]
= 1 154,07.
2.12 a) On veut calculer
E[ X; u] = e
µ+σ2 /2
Φ
ln(u) − µ − σ2
σ
+u 1−Φ
ln(u) − µ
σ
avec u = 300 000, µ = 9,356 et σ = 1,596. On obtient
E[ X; 300 000] = (41 340,92)(0,671413) + (300 000)(1 − 0,9793)
= 33 962.
b) Soit Y, le montant payé par sinistre après inflation. On a
d
E[Y ] = (1 + r ) E X;
1+r
= (1,1) E[ X; 272 727,272]
= (1,1)(33 356)
= 36 692.
Puisque 36 692/33 962 = 1,0804, cela représente une augmentation
des coûts de 8,04 %.
c) Soit Y ∗ la variable aléatoire du montant payé par sinistre suite à
l’introduction d’une franchise de 1 000 $. On a
E[Y ∗ ] = E[ X; 300 000] − E[ X; 1 000]
= 33 962 − 973,92
= 32 988,38.
Puisque 32 988,38/33 962 = 0,9713, l’introduction de la franchise entraîne une baisse des coûts de 2,87 % par rapport à la situation en
a).
82
Solutions
2.13 Soit Y P la variable aléatoire du montant payé par paiement par le réassureur. On a Y P = X − δ| X > δ, donc
fY P (x) =
f X ( x + δ)
1 − FX (δ)
αλα /( x + δ + λ)α+1
λα /(δ + λ)α
α(λ + δ)α
=
, x > 0,
( x + (λ + δ))α+1
=
d’où Y P ∼ Pareto(α, λ + δ).
2.14 Soit X la variable aléatoire du montant d’un sinistre et Y P = X − d| X > d,
la variable aléatoire du montant payé par paiement avec une franchise
forfaitaire d. Or, la distribution exponentielle étant sans mémoire, on a,
de manière générale,
Pr(Y P > x ) =
Pr( X > x + d)
Pr( X > d)
e−λ( x +d)
e−λd
−λx
=e
,
=
d’où Y P ∼ Exponentielle(λ). Ici, on a donc Pr(Y P > 0,5) = e−3(0,5) = 0,22.
2.15 On a
E A [Y S ] = E[ X ] − E[ X; 5 000]
= 11 100 − E[ X; 5 000]
= 6 500,
d’où E[ X; 5 000] = 4 600. De même,
E[ X ] − E[ X; 5 000]
1 − F (5 000)
11 100 − 6 500
=
1 − F (5 000)
E A [Y P ] =
= 10 000,
d’où F (5 000) = 0,35. Enfin, on cherche
EB [Y P | X ≤ 5 000] = E[ X | X ≤ 5 000]
R 5 000
x f ( x ) dx
= 0
F (5 000)
E[ X; 5 000] − (5 000)(1 − F (5 000))
=
F (5 000)
= 3 857.
Solutions
83
2.16 L’espérance de la fréquence annuelle des sinistres est r (1 − θ )/θ = 15.
Pour qu’il y ait un paiement, le montant du sinistre doit être supérieur
à la franchise. Or
Pr( X > 200) = e(200/1 000)
0,3
= 0,5395.
Ainsi, 53,95 % des sinistres occasionneront un paiement, d’où le nombre
espéré de paiements par années est (15)(0,5395) = 8,0925.
2.17 a) Le résultat découle directement de la redéfinition de la variable aléatoire Y S comme suit :
Y S = α max(min( X, u) − d, 0)
= α(min( X, u) − min( X, d))


 X − X, X < d
= α X − d, d ≤ X < u


u − d,
X ≥ u.
b) Pour calculer le second moment de la variable aléatoire Y S , on écrit
d’abord


X≤d
0,
S 2
2
2
2
(Y ) = α ( X − 2dX + d ), d < X < u

 2 2
α (u − 2ud + d2 ), X ≥ u

2
2
2

α ( X − X − 2dX + 2dX ), X ≤ d
2
2
2
= α ( X − d − 2dX + 2dd), d < X < u

 2 2
α (u − d2 − 2du + 2dd),
X ≥ u.
On a alors
E[(Y S )2 ] = α2 ( E[ X 2 ; u2 ] − E[ X 2 ; d2 ] − 2dE[ X; u] + 2dE[ X; d]).
La variance est donc
Var[Y S ] = E[(Y S )2 ] − E[Y S ]2
= α2 ( E[ X 2 ; u2 ] − E[ X 2 ; d2 ] − 2dE[ X; u] + 2dE[ X; d])
− α2 ( E[ X; u] − E[ X; d])2 .
c) Suite à une inflation de 100r %, la définition de la variable aléatoire
Y S équivalente à celle utilisée en a) est
d
u
Y S = α(1 + r ) min X,
− min X,
1+r
1+r


X < d/(1 + r )
 X − X,
= α(1 + r ) X − d/(1 + r ),
d/(1 + r ) ≤ X < u/(1 + r )


u/(1 + r ) − d/(1 + r ), X ≥ u/(1 + r ).
84
Solutions
On obtient donc directement
E[Y S ] = α(1 + r ) E X;
d
u
− E X;
.
1+r
1+r
2.18 On remarquera que la relation est un cas spécial du résultat de l’exercice
2.17 avec α = 1 et r = 0. On a


X<d
0,
S
Y = X − d, d ≤ X < u


u − d, X ≥ u.
Par conséquent,
E[Y S ] = (0)Pr( X < d) +
=
Z u−d
0
Z u−d
0
y f Y S (y) dy + (u − d)(1 − FX (u))
y f Y S (y) dy + (u − d)(1 − FX (u)).
En faisant le changement de variable x = y + d dans l’intégrale, on obtient
E [Y S ] =
=
Z u
d
Z u
0
( x − d) f X ( x ) dx + (u − d)(1 − FX (u))
( x − d) f X ( x ) dx −
Z d
0
( x − d) f X ( x ) dx
+ (u − d)(1 − FX (u))
=
Z u
0
x f X ( x ) dx − d FX (u) −
Z d
0
x f X ( x ) dx + d FX (d)
+ (u − d)(1 − FX (u))
=
Z u
0
x f X ( x ) dx + u(1 − FX (u)) −
Z d
0
x f X ( x ) dx − d(1 − FX (d))
= E[ X; u] − E[ X; d].
2.19 Lorsqu’il y a bonus, son montant est
0,75 − S/600 000
450 000 − S
600 000
=
.
3
3
Il y aura donc un bonus si L < 450 000. On a donc
450 000 − S
1
B = max 0,
= 150 000 − min(S, 450 000),
3
3
d’où
1
E[S; 450 000]
3
1
= 150 000 − (220 321,36)
3
= 76 559,55.
E[ B] = 150 000 −
Solutions
85
2.20 a) Lorsqu’un sinistre de montant d < x ≤ d∗ survient, l’assureur rembourse un montant d∗ ( x − d)/(d∗ − d). On a donc
d∗
( X − d),
Y =
−d
 X,
P


d∗
d < X ≤ d∗
X > d∗ .
b) Pour pouvoir évaluer l’espérance, il est plus facile de réécrire la variable sous la forme
d
d∗
P
∗
Y = X+
min( X, d ) −
min( X, d) X > d
d∗ − d
d∗ − d

d
d∗

X +
X−
d, d < X ≤ d∗

d∗ − d
d∗ − d
=

d
d∗

∗
X +
d −
d, X > d∗ .
d∗ − d
d∗ − d
Par la définition de l’espérance limitée ou en utilisant le résultat de
l’exercice 2.9, on obtient directement
E [Y P ] =
E[ X ] + dE[ X; d∗ ]/(d∗ − d) − d∗ E[ X; d]/(d∗ − d)
.
1 − FX (d)
Chapitre 3
3.1 a) On peut calculer puis tracer la fonction de répartition empirique aisément avec la fonction ecdf de R ; voir la figure E.4. Quant à la fonction
de masse de probabilité empirique, la façon la plus simple de la calculer est à partir de la fonction table ; voir la figure E.5.
b) Il faut d’abord déterminer le nombre de données dans chacune des
classes. On a n1 = 4, n2 = 10, n3 = 2 et n4 = 4. L’équation de l’ogive
est alors

0,
x≤2





( x − 2)/25,
2<x≤7



( x − 5)/10,
7 < x ≤ 12
F̃20 ( x ) =

(
x
+
58
)
/100,
12
< x ≤ 22




( x + 42)/80,
22 < x ≤ 38



1,
x > 38
Les fonctions grouped.data et ogive de actuar permettent, dans l’ordre,
de définir un objet de données groupées et de calculer son ogive ; voir
la figure E.6.
86
Solutions
> x <- c(3, 5, 5, 6, 8, 8, 8, 8, 9, 10, 10, 11,
+
11, 11, 16, 21, 23, 26, 29, 36)
> Fn <- ecdf(x)
> plot(Fn)
1.0
ecdf(x)
●
●
●
0.8
●
●
●
0.6
●
Fn(x)
●
0.4
●
0.2
●
●
●
0.0
●
0
10
20
30
40
x
Figure E.4: Fonction de répartition empirique des données de l’exercice 3.1
c) L’équation de l’histogramme est, en dérivant l’ogive obtenue en b),

0,





1/25,



1/10,
f˜20 ( x ) =

1/100,





1/80,



0,
x≤2
2<x≤7
7 < x ≤ 12
12 < x ≤ 22
22 < x ≤ 38
x > 38.
Le package actuar définit une méthode de la fonction hist pour les
données groupées ; voir la figure E.7.
Solutions
87
> table(x)
x
3
1
5
2
6
1
8
4
9 10 11 16 21 23 26 29 36
1 2 3 1 1 1 1 1 1
0.05
0.10
fn
0.15
0.20
> fn <- table(x)/length(x)
> plot(unique(x), fn, type = "h", lwd = 4)
5
10
15
20
25
30
35
unique(x)
Figure E.5: Fonction de masse de probabilité empirique des données de
l’exercice 3.1
3.2 À partir de l’information du tableau et de la définition de l’ogive, on a
36 0,40x
+
n
n
36
x
0,60y
0,51 =
+ +
n
n
n
n = 200 + x + y.
0,21 =
En résolvant, on obtient x = 120.
3.3 En utilisant les informations du tableau et la définition de l’ogive, on
88
Solutions
> xg <- grouped.data(Group = c(2, 7, 12, 22, 38),
+
Frequency = c(4, 10, 2, 4))
> Gn <- ogive(xg)
> plot(Gn)
1.0
ogive(xg)
0.8
●
●
0.0
0.2
0.4
F(x)
0.6
●
●
●
5
10
15
20
25
30
35
x
Figure E.6: Ogive des données groupées de l’exercice 3.1
obtient
0,689 = (0,5) F̃500 (1 000) + (0,5) F̃500 (2 000)
200 + 110 310 + x
= (0,5)
+
,
500
500
d’où l’on trouve que x = 69 et
0,839 = (0,5) F̃500 (2 000) + (0,5) F̃500 (5 000)
310 + 69 379 + y
= (0,5)
+
,
500
500
d’où l’on trouve que y = 81.
3.4 Les données sont entrées dans R avec
> (x <- grouped.data(Group = 1000 * c(0, 1, 3, 5,
+
10, 25, 50, 100, Inf), Frequency = c(16, 22,
+
25, 18, 10, 5, 3, 1)))
Solutions
89
> hist(x)
4
0
2
Frequency
6
8
Histogram of x
0
10
20
30
40
x
Figure E.7: Histogramme des données groupées de l’exercice 3.1
Group Frequency
1
(0, 1000]
16
2
(1000, 3000]
22
3
(3000, 5000]
25
4
(5000, 10000]
18
5 (10000, 25000]
10
6 (25000, 50000]
5
7 (50000, 100000]
3
8 (100000,
Inf]
1
Pour calculer l’ogive de ces données, la borne infinie de la dernière classe
doit être remplacée par une valeur très grande par rapport aux autres
bornes. Il ne faut pas que cette valeur soit trop grande si on veut avoir
un graphique intéressant. Il ne faut pas supprimer la dernière classe. La
figure E.8 présente les ogives avec 200 000 et 2 000 000 comme dernière
borne. On cherche
Pr(2 000 ≤ X ≤ 6 000) = F100 (6 000) − F100 (2 000).
Or,
90
Solutions
> x[8, 1] <- c(1e+05, 2e+05)
> Gn <- ogive(x)
> plot(Gn)
> x[8, 1] <- c(1e+05, 2e+06)
> Gn <- ogive(x)
> plot(Gn)
1.0
●
F(x)
●
●
●
0
●
●
0.2
●
50000
150000
●
●
●
●
0.8
●
●
0.6
●
0.0
0.6
0.4
0.0
0.2
F(x)
0.8
●
ogive(x)
0.4
1.0
ogive(x)
●
●
●
0
x
500000
1500000
x
(a) cr = 200 000
(b) cr = 2 000 000
Figure E.8: Ogive des données de l’exercice 3.4 avec différentes dernières
bornes
> Gn <- ogive(x)
> Gn(c(2000, 6000))
[1] 0.270 0.666
d’où Pr(2 000 ≤ X ≤ 6 000) = 0,396.
3.5 Comme seulement une donnée est plus petite ou égale à 150, la fonction
de répartition empirique est F5 (150) = 1/5 = 0,20. Pour l’estimateur lissé,
on regarde la contribution de chacune des données au point 150, t j (150) :
– le noyau autour de 80 va de 30 à 130, la donnée 80 contribue donc à
100 % ;
– le noyau autour de 153 va de 103 à 203, la donnée 153 contribue donc
à (150 − 103) % = 47 % ;
– le noyau autour de 162 va de 112 à 212, la donnée 162 contribue donc
à (150 − 112) % = 38 % ;
– les deux autres données ne contribuent pas.
L’estimateur lissé est donc
5
F̆ (150) =
∑ f5 (y j )t j (150)
j =1
= (0,20)(1) + (0,20)(0,47) + (0,20)(0,38) + 0 + 0
= 0,37.
Ainsi, | F5 (150) − F̆ (150)| = |0,20 − 0,37| = 0,17.
Density
0.010
0.000
Density
0
100
200
300
400
0.000 0.002 0.004 0.006
91
0.020
Solutions
100
N = 1 Bandwidth = 20
150
200
250
300
350
N = 4 Bandwidth = 20
(a) Noyaux individuels
(b) Somme pondérée
Figure E.9: Estimation par noyaux triangulaires et largeur de bande de 50
des données de l’exercice 3.6
3.6 a) Étant donné que la distribution est symétrique, la moyenne sera le
point central, c’est-à-dire
150 +
300 − 150
= 225.
2
b) La figure E.9(a) présente les quatre noyaux (quatre densités) sur le
même graphique et la figure E.9(b) présente leur somme pondérée,
c’est-à-dire f˘( x ).
3.7 La figure E.10 présente la distribution empirique des données.
a) On voit que pour une largeur de bande de 0,5, aucune donnée ne va
contribuer à la densité au point 6,2.
b) Pour une largeur de bande de 1, il y a une valeur, 7, qui va contribuer
à la densité au point 6,2 :
f˘(6,2) =
0,1
= 0,05.
(2)(1)
c) Pour une largeur de bande de 2, il y a trois valeurs, 5, 7 et 8 qui vont
contribuer à la densité au point 6,2 :
f˘(6,2) =
0,1
0,1
0,3
+
+
= 0,125.
(2)(2) (2)(2) (2)(2)
d) Pour une largeur de bande de 3, il y a cinq valeurs, 4, 5, 7, 8 et 9 qui
vont contribuer à la densité au point 6,2 :
f˘(6,2) =
0,2
0,3
0,1
0,1
0,1
+
+
+
+
= 0,13333.
(2)(3) (2)(3) (2)(3) (2)(3) (2)(3)
Solutions
0.20
0.10
0.15
fn
0.25
0.30
92
3
4
5
6
7
8
9
10
unique(x)
Figure E.10: Distribution empirique des données de l’exercice 3.7
e) On voit que pour une largeur de bande de 0,5, aucune donnée ne va
contribuer à la densité au point 6,2.
f) Pour une largeur de bande de 1, il y a une valeur, 7, qui va contribuer
à la densité au point 6,2 :
f˘(6,2) =
1
10
6,2 − 7 + 1
(1)2
= 0,02.
g) Pour une largeur de bande de 2, il y a trois valeurs, 5, 7 et 8 qui vont
contribuer à la densité au point 6,2 :
1
6,2 − 7 + 2
1
6,2 − 8 + 2
+
10
10
(2)2
(2)2
3
−6,2 + 5 + 2
+
10
(2)2
f˘(6,2) =
= 0,095.
Solutions
93
3.8 On utilise l’équation d’un estimateur avec noyaux triangulaires :
1/5
a2
= 0,01.
f˘(5) =
(5 − (6 − a)) +
−1/5
(5 − (4 + a))
a2
En simplifiant, on trouve 0,05a2 − 2a + 2 = 0 et, en choisissant la bonne
racine, a = 1,0263.
3.9 On entre les données individuelles de l’exercice dans R avec
> x <- c(2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3,
+
3, 3, 3, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6,
+
8, 8, 9, 15, 17, 22, 23, 24, 24, 25, 27, 32,
+
43)
et les données sous forme groupée avec
> xg <- grouped.data(Group = c(1.5, 2.5, 6.5, 29.5,
+
49.5), Frequency = c(12, 15, 11, 2))
a) La figure E.11 présente la fonction de répartition empirique des données, obtenue à l’aide de la fonction ecdf.
b) La figure figure E.11 présente également l’ogive des données, obtenue
avec la fonction ogive du package actuar. On voit que l’ogive et la
fonction de répartition empirique correspondent généralement bien.
Autour du point x = 22, l’ajustement pourrait être un peu meilleur,
par exemple en ajoutant une classe. Pour les deux bornes extrêmes,
0 aurait peut-être été un peu plus intuitif comme choix de borne inférieure que 1,5. La borne supérieure est logique, car supérieure à la
valeur maximale de l’échantillon, mais est totalement arbitraire sinon
(on aurait pu choisir, par exemple, 50).
c) La figure E.12 présente l’histogramme des données créé à partir de
l’objet de données groupées.
d) On a simplement
> mean(x)
[1] 9.225
> sd(x)
[1] 10.23691
3.10 Tout d’abord, on a F10 (4) = 0,40, E[ F10 (4)] = F (4), et Var[ F10 (4)] = F (4)(1 −
F (4))/10. En utilisant le Théorème central limite, on peut poser que
F (4) − E[ F10 (4)]
Pr −1,96 ≤ 10p
≤ 1,96
Var[ F10 (4)]
!
≈ 0,95,
94
Solutions
>
>
>
>
+
Fn <- ecdf(x)
Gn <- ogive(xg)
plot(Fn, pch = 16)
lines(knots(Gn), Gn(knots(Gn)), type = "o", pch = 21,
bg = "white", lty = 2)
1.0
ecdf(x)
0.8
●
●
●
●
●
●
●
●
●
●
●
●
●
0.6
●●
Fn(x)
●
0.4
●
●
0.0
0.2
●●
●
0
10
20
30
40
x
Figure E.11: Fonction de répartition empirique (lignes et points pleins) et
ogive (lignes brisées et points vides) des données de l’exercice 3.9
soit
!
√
10( F10 (4) − F (4))
Pr −1,96 ≤ p
≤ 1,96 ≈ 0,95.
F (4)(1 − F (4))
En estimant le dénominateur par
p
F10 (4)(1 − F10 (4)) =
√
0,24 puis en
Solutions
95
> hist(xg)
0.15
0.00
0.05
0.10
Density
0.20
0.25
0.30
Histogram of xg
0
10
20
30
40
50
xg
Figure E.12: Histogramme des données de l’exercice 3.9
isolant F (4), on trouve
r
F (4) ∈
∈
F10 (4)(1 − F10 (4))
F10 (4) ± 1,96
10
!
r
0,24
0,4 ± (1,96)
10
!
∈ (0,0964, 0,7036).
3.11 En utilisant l’équation de l’estimateur de Nelson-Aalen, on obtient
10 11
3
+
+
52 40 19
= 0,8866.
Hn (1 200) =
On trouve maintenant la valeur de la fonction de survie évaluée au point
1 200,
Ŝ(1 200) = e−0,8866 = 0,4120,
96
Solutions
yi
(10 000 − yi )/(6 000)
k
∆Hn
1 000
3 400
4 500
7 500
15 000
17 500
1,5000
1,1000
0,9167
0,4167
−0,8333
−1,2500
0,0
0,0
0,5
0,5
0,5
0,0
0,0500
0,0526
0,0556
0,0588
0,0625
0,0667
Table E.1: Résultats intermédiaires du calcul de l’estimation par noyaux pour
les données de l’exercice 3.12
et finalement la valeur de la fonction de répartition évaluée à ce même
point :
F̂ (1 200) = 1 − 0,4120 = 0,5880.
3.12 a) En utilisant l’équation de l’estimateur de Nelson-Aalen, on trouve
1
20
= 0,0500
1
1
Hn (3 400) =
+
20 19
= 0,1026
1
1
Hn (4 500) =
+
20 19
= 0,1582
1
1
Hn (7 500) =
+
20 19
= 0,2170
1
1
Hn (15 000) =
+
20 19
= 0,2795
1
1
Hn (17 500) =
+
20 19
= 0,3462.
Hn (1 000) =
+
1
18
+
1
1
+
18 17
+
1
1
1
+
+
18 17 16
+
1
1
1
1
+
+
+
18 17 16 15
b) Le tableau E.1 présente les résultats intermédiaires. L’estimation est
donc
1
h̆(10 000) =
(0,5)(0,0556 + 0,0588 + 0,0625)
6 000
= 0,00001449.
Solutions
97
3.13 On a
µ̂3
.
σ̂3
En entrant les données dans R, on peut calculer les troisième et deuxième
moment centraux facilement :
γ̂1 =
> x <- 1000 * c(rep(2, 2), rep(4, 6), rep(6, 12),
+
rep(8, 10))
> (m <- mean(x))
[1] 6000
> mean((x - m)^3)
[1] -3.2e+09
> mean((x - m)^2)
[1] 3200000
On a donc
−3 200 000 000
3 200 0003/2
= −0,559.
γ̂1 =
La distribution des données est donc asymétrique vers la gauche ou, de
manière équivalente, la bosse se trouve à droite.
3.14 Étant donné que la distribution empirique est symétrique, l’estimateur
du coefficient d’asymétrie est 0. En entrant les données dans R, on peut
calculer les quatrième et deuxième moment centraux facilement :
> x <- c(100, rep(200, 4), rep(300, 10), rep(400,
+
4), 500)
> (m <- mean(x))
[1] 300
> mean((x - m)^4)
[1] 2e+08
> mean((x - m)^2)
[1] 8000
On a donc
µ̂4
σ̂4
200 000 000
=
8 0002
= 3,125.
γ̂2 =
La distribution empirique des données s’approche donc de celle d’une
loi normale.
98
Solutions
3.15 a) On a (n + 1) p = (20 + 1)(0,60) = 12,6, d’où
π̃0,60 = 0,4x(12) + 0,6x(13)
= (0,4)(38) + (0,6)(39)
= 38,6.
b) On a (n + 1) p = (20 + 1)(0,75) = 15,75, d’où
π̃0,75 = 0,25x(15) + 0,75x(16)
= (0,25)(41) + (0,75)(43)
= 42,5.
3.16 Par définition,
E[min( X, 320)] =
Z 320
0
x f X ( x ) dx + 320(1 − FX (320)).
En supposant que les données sont uniformément distribuées à l’intérieur des classes, la moyenne de celles-ci est affectée au point milieu.
À la classe (200, 320], on attribue un nombre de données proportionnel à la longueur de leur classe par rapport à la classe (200, 500], soit
(120/300)(24) = (0,4)(24) = 9,6 données. On a au total n = 100 données. On a donc
20
100 + 50
34
50 + 0
+
E100 [min( X, 320)] =
2
100
2
100
22
320 + 200
9,6
200 + 100
+
+
2
100
2
100
24 − 9,6
+ 320
100
= 5 + 25,5 + 33 + 24,96 + 46,08
= 134,54.
On peut vérifier ce résultat à l’aide de la fonction elev de actuar :
> x <- grouped.data(Classe = c(0, 50, 100, 200,
+
500), Frequence = c(20, 34, 22, 24))
> elev(x)(320)
[1] 134.54
3.17 Étant donné que l’intervalle est petit, on peut en calculer le niveau de
confiance exactement. En utilisant la loi binomiale avec paramètres n = 5
et p = 0,5, on obtient
3 5
Pr( X(2) ≤ π0,5 < X(4) ) = ∑
(0,5)k (0,5)5−k
k
k =2
= 0,625.
Solutions
99
3.18 Étant donné que l’intervalle est grand, on va utiliser l’approximation
normale avec correction pour la continuité pour déterminer le niveau
de confiance. On a, avec Y ∼ N (250, 125),
Pr(240 ≤ π0,50 < 260) ≈ Pr(239,5 ≤ K < 259,5)
= Φ(0,85) − Φ(−0,94)
= 0,6287.
3.19 La valeur 10 est la 10e statistique d’ordre et la valeur 20 est la 14e statistique d’ordre. Comme l’intervalle est petit, on peut en calculer le degré
de confiance exactement. Soit N ∼ Binomiale(20, 0,55),
Pr( X(10) ≤ π0,55 < X(14) ) = Pr( N = 10, 11, 12, 13)
13 20
= ∑
(0,55)k (0,45)20−k
k
k =10
= 0,1593 + 0,1771 + 0,1623 + 0,1221
= 0,6208.
3.20 a) On obtient aisément
1
f (ln( x ))
x Y
λα
=
(ln( x ))α−1 e−λ ln(x) ,
Γ(α) x
f X (x) =
x > 1.
On remarque que comme Y est définie sur [0, ∞), X = eY est définie
sur [1, ∞). Cette distribution est la log-gamma de paramètres α et λ.
b) La fonction R de la figure E.13 calcule le biais empirique pour des
valeurs de λ, n et r données. On remarquera que cette fonction définit
une fonction interne qui se charge des étapes 2 et 3 de l’algorithme
présenté dans l’exposé de l’exercice. Cette fonction est ensuite passée
à replicate pour réaliser efficacement l’étape 4 de l’algorithme.
i) Pour n = 10 et r = 1 000 on a
> simul.1 <- sim(5, 10, 1000)
> simul.1$bias
[1] 0.6603609
ii) Pour n = 1 000 et r = 100 on a
> simul.2 <- sim(5, 1000, 100)
> simul.2$bias
[1] 0.009779794
iii) Pour n = 1 000 et r = 1 000 on a
100
Solutions
sim <- function(lambda, n, r)
{
## Fonction interne pour simuler un échantillon
## et calculer l’estimateur.
f <- function(lambda, n)
{
## Simulation des données. On pourrait aussi
## utiliser la fonction rlgamma() du package
## actuar.
x <- exp(rgamma(n, shape = 1, rate = lambda))
## Estimateur de lambda
1 / (1 - 1/mean(x))
}
## Simulation de ’r’ échantillons
lc <- replicate(r, f(lambda, n))
## La fonction retourne une liste contenant le
## vecteur d’estimateurs et le biais empirique.
list(estimates = lc,
bias = mean(lc) - lambda)
}
Figure E.13: Fonction R permettant la création des échantillons et le calcul
du biais empirique
> simul.3 <- sim(5, 1000, 1000)
> simul.3$bias
[1] 0.005028595
La taille de l’échantillon a un impact sur le biais de l’estimateur. On
voit qu’au passage d’un petit échantillon (partie i)) à un plus grand
(partie ii)) le biais devient moins important et l’estimateur est donc
plus proche de sa vraie valeur. En revanche, le nombre de simulation
n’a un impact que sur la force de la conclusion. De la partie ii) à la
partie iii), seul le nombre de simulations change. Or, le biais change
assez peu. Nous ne sommes que confortés dans notre conclusion que
l’estimateur λ̂ est probablement sans biais pour λ.
c) On a un échantillon de 100 estimations. La figure E.14 présente le
graphique de la fonction de répartition empirique de l’estimateur λ̂.
d) La figure E.15 présente l’histogramme et l’ogive de l’estimateur λ̂.
Tel que suggéré dans l’énoncé de l’exercice, on a utilisé les classes
Solutions
101
> x <- simul.2$estimates
> Fn <- ecdf(x)
> plot(Fn, do.points = FALSE)
0.0
0.2
0.4
Fn(x)
0.6
0.8
1.0
ecdf(x)
4.6
4.8
5.0
5.2
5.4
5.6
x
Figure E.14: Fonction de répartition empirique de l’estimateur λ̂ de l’exercice 3.20
calculées par la fonction hist pour construire l’ogive. On a procédé
ainsi :
> gn <- hist(x, plot = FALSE)
> xg <- grouped.data(cj = gn$breaks, nj = gn$counts)
> Gn <- ogive(xg)
e) Comme il y a 100 données dans l’échantillon, on a (101)(0,45) =
45,45 et donc
π̂0,45 = (0,55) x(45) + (0,45) x(46) .
Pour le 70e centile, la procédure est la même. On a (101)(0,70) = 70,7
et donc
π̂0,70 = (0,30) x(70) + (0,70) x(71) .
Pour notre échantillon, on obtient
> xs <- sort(x)
> 0.55 * xs[44] + 0.45 * xs[45]
102
Solutions
> hist(x, prob = TRUE)
> plot(Gn)
ogive(xg)
1.0
Histogram of x
●
●
0.8
●
0.6
F(x)
●
●
0.4
2.0
●
0.2
1.0
●
0.0
●
0.0
Density
●
●
4.6
4.8
5.0
5.2
5.4
5.6
x
(a) Histogramme
●
4.6
●
4.8
5.0
5.2
5.4
5.6
x
(b) Ogive
Figure E.15: Histogramme et ogive de l’estimateur λ̂ de l’exercice 3.20
[1] 4.968344
et
> 0.3 * xs[70] + 0.7 * xs[71]
[1] 5.084669
Plus simplement, on peut utiliser la méthode pour données groupées de la fonction quantile définie dans actuar pour calculer les
quantiles lissés (soit l’inverse de l’ogive) :
> quantile(xg, c(0.45, 0.7))
45%
70%
4.970370 5.080952
Les résultats diffèrent légèrement parce que la technique de lissage
utilisé par quantile n’est pas tout à fait la même que celle utilisée
ci-dessus.
Solutions
103
Chapitre 4
4.1 En utilisant la technique de la fonction de répartition, on a
FY (y) = Pr(Y ≤ y)
= Pr(cX ≤ y)
= Pr( X ≤ y/c)
= FX (y/c)
α
λ
=1−
λ + y/c
α
cλ
=1−
cλ + y
et donc, Y ∼ Pareto(α, cλ).
4.2 En utilisant la technique de la fonction de répartition, on a
FY (y) = Pr(Y ≤ y)
= Pr( X ≤ ln(y))
= FX (ln(y)).
Étant donné la présence de la valeur absolue dans la densité de X, il faut
séparer le domaine. Pour −∞ < x ≤ 0, on a 0 < y < 1, et donc
FX (ln(y)) =
Z ln(y)
1
x
−∞ 2θ
1 ln(y)/θ
= e
.
2
e θ dx
Pour 0 < x < ∞, on a 1 < y < ∞, et donc
Z 0
1 x/θ
e dx +
−∞ 2θ
1 − ln(y)
=1− e θ .
2
FX (ln(y)) =
Z ln(y)
1
0
2θ
e− x/θ dx
Par conséquent,
(
F (y) =
1 ln(y)/θ
,
2e
1 − 21 eln(y)/θ ,
0<y<1
y ≥ 1.
104
Solutions
4.3 En utilisant le fait que, pour α entier, Γ(α) = (α − 1)!, on trouve
x
1
tα−1 e−t/β dt
α
(α − 1)!β 0
x Z x
1
α−2 −t/β
α−1 −t/β =
+
(
α
−
1
)
t
βe
dt
−
t
βe
(α − 1)!βα
0
0
Pr( X ≤ x ) =
Z
x
x α−1 e− x/β
1
tα−2 e−t/β dt
+
α
−
1
α
−
1
(α − 1)!β
(α − 2)!β
0
Z x
1
= −Pr(Y = α − 1) +
tα−2 e−t/β dt
(α − 2)!βα−1 0
Z
=−
avec Y ∼ Poisson( x/β). La relation s’obtient en continuant à intégrer
comme ci-dessus jusqu’à obtenir
Pr( X ≤ x ) = 1 − Pr(Y = α − 1) − · · · − Pr(Y = 0)
= Pr(Y ≥ α).
4.4 En utilisant la technique de la fonction de répartition, on a
λy
1−y
FY (y) = FX
= β τ, α;
λy/(1 − y)
λy/(1 − y) + λ
= β(τ, α; y),
où β( a, b; x ) est la fonction de répartition d’une distribution Bêta( a, b)
évaluée au point x. On a donc que Y ∼ Bêta(τ, α).
4.5 En utilisant la technique de la fonction de répartition, on obtient
FY (y) = Pr(Y ≤ y)
= Pr(5X −1/4 ≤ y)
y −4 = Pr X >
5
y −4 = 1 − FX
5
α
1
=
1 + (5/y)4
qui est la fonction de répartition d’une variable aléatoire avec distribution
Burr inverse de paramètres τ = α, γ = 4 et θ = 5.
4.6 a) Par définition, la distribution de Y est nommée log-gamma. On remarque que comme X est définie sur [0, ∞), Y = e X est définie sur
Solutions
105
[1, ∞). On a donc
1
f X (ln(y))
y
λα
(ln(y))α−1 e−λ ln(y) ,
=
Γ(α)y
f Y (y) =
y ≥ 1.
b) En utilisant la fonction génératrice des moments de X, on trouve
E [Y ] = E [ e X ]
= M X (1)
α
λ
=
,
λ−1
λ>1
E[Y 2 ] = E[e2X ]
= M X (2)
α
λ
,
=
λ−2
λ > 2,
d’où
Var[Y ] = E[Y 2 ] − E[Y ]2
α 2α
λ
λ
=
−
,
λ−2
λ−1
λ > 2.
c) De la partie b), on voit que
E [Y k ] = M X ( k )
α
λ
=
,
λ−k
λ > k.
Les moments de Y existent donc seulement pour k < λ.
4.7 a) Il suffit de poser c = 1 + i dans le résultat de l’exercice 4.1.
b) En utilisant la technique de la fonction de répartition, on trouve
y
FY (y) = FX
1+i
α
θ γ (1 + i ) γ
=1−
θ γ (1 + i ) γ + y γ
et donc, Y ∼ Burr(α, γ, (1 + i )θ ).
106
Solutions
c) On a
f Y (y) =
1
fX
1+i
x
1+i
=
1 λα (ln(y/(1 + i )))α−1
1 + i Γ(α) (y/(1 + i ))λ+1
=
λα (1 + i ))λ (ln(y) − ln(1 + i ))α−1
.
Γ ( α ) y λ +1
4.8 En utilisant la technique de la fonction de répartition, on a
FY (y) = FX (yτ )
α
λ
=1−
λ + yτ
et donc, Y ∼ Burr(α, τ, λ1/τ ).
4.9 En utilisant la technique de la fonction de répartition, on a
FY (y) = Pr(Y ≤ y)
= Pr(ln(1 + X/θ ) ≤ y)
= Pr( X ≤ θ (ey − 1))
= FX (θ (ey − 1))
α
θ
=1−
θ + θ ( e y − 1)
−αy
= 1 − e , y ≥ 0.
Ainsi, Y ∼ Exponentielle(α).
4.10 Soit Y, la variable aléatoire du montant des sinistres en 2007. On définit
Y = (1,04)(1,045)(1,16) X
= 1,260688X.
En se reportant à l’exercice 4.7 b), on a que Y ∼ Burr(α = 0,5, γ = 2, θ =
3,7821) et donc que
Pr(Y > 4) = 1 − FY (4) = 0,6870.
4.11 a) On observe que la variable aléatoire X obéit à une distribution Pareto
translatée(3, 1). En utilisant la technique de la fonction de répartition,
on trouve
y
FY (y) = FX
1,10
1,10 3
=1−
.
y
b) On a Pr(Y > 2,2) = 1 − FY (2,2) = 0,125.
Solutions
107
4.12 On a X |Θ ∼ Binomiale(10, Θ) et Θ ∼ Uniforme(0, 1). Par la loi des probabilités totales,
Z 1 10 x
Pr( X = x ) =
θ (1 − θ )10− x dθ
x
0
Z 1
10
=
θ x (1 − θ )10− x dθ
x
0
qui devient, en reconnaissant sous l’intégrale la forme fonctionnelle
d’une distribution Bêta( x + 1, 11 − x ),
10 Γ( x + 1)Γ(11 − x )
Pr( X = x ) =
x
Γ(12)
10!
x!(10 − x )!
=
(10 − x )!x!
11!
1
= .
11
Par conséquent,
10
Pr( X > 6) =
∑ Pr(X = i)
i =7
=
4
.
11
4.13 Par la loi des probabilités totales, on trouve
Z ∞ τ −θx τ −1 α −λθ α−1 λ e
θ
θ e
x
f X (x) =
dθ
Γ(τ )
Γ(α)
0
x τ −1 λ α
=
Γ(τ )Γ(α)
Z ∞
0
θ τ +α−1 e−( x+λ)θ dθ
qui devient, en reconnaissant sous l’intégrale la forme fonctionnelle
d’une distribution Gamma(τ + α, x + λ)
f X (x) =
x τ −1 λ α Γ ( τ + α )
Γ(α)Γ(τ )( x + λ)τ +α
et donc, X ∼ Pareto Généralisée(α, τ, λ).
4.14 On a
Pr( X = x ) =
Z 1
0
θ (1 − θ ) x −1
Γ(α + β)
=
Γ(α)Γ( β)
Z 1
0
Γ ( α + β ) α −1
θ
(1 − θ ) β−1 dθ
Γ(α)Γ( β)
θ α (1 − θ ) x+ β−2 dθ
108
Solutions
qui devient, en reconnaissant sous l’intégrale une distribution Bêta(α +
1, β + x − 1),
Pr( X = x ) =
Γ ( α + β ) Γ ( α + 1) Γ ( x + β − 1)
.
Γ(α)Γ( β)Γ(α + β + x )
4.15 Par la loi des probabilités totales, on obtient
f X (x) =
=
=
Z ∞
0
τθx τ −1 e−θx
τx τ −1 λα
Γ(α)
Z ∞
0
τ
−
1
α
ατx
λ
( λ + x τ ) α +1
τ
λα x α−1 e−λx
dθ
Γ(α)
θ α e−( x
τ +λ)θ
dθ
,
en reconnaissant une distribution Gamma(α + 1, x τ + λ) sous l’intégrale.
La densité obtenue est celle d’une loi Burr(α, τ, λ1/τ ).
4.16 On a X |Λ ∼ Burr(5, 1, Λ) et Λ ∼ Gamma(10, 2). On cherche E[ X ] et
Var[ X ]. Il ne faut pas tenter de trouver la distribution marginale de X,
mais plutôt conditionner :
E[ X ] = E[ E[ X |Λ]]
ΛΓ(4)Γ(2)
=E
Γ (5)
1
= E[Λ]
4
5
=
4
et
Var[ X ] = E[Var[ X |Λ]] + Var[ E[ X |Λ]]
"
#
ΛΓ(4)Γ(2) 2
ΛΓ(4)Γ(2)
Λ2 Γ (3) Γ (3)
−
+ Var
=E
Γ (5)
Γ (5)
Γ (5)
5
1
E [ Λ2 ] +
Var[Λ]
48
16
145
.
=
48
=
4.17 Pour commencer, on utilise le lien entre le taux d’échec et la fonction de
Solutions
109
survie pour trouver
S( x |θ ) = e−
Rx
0
λ( x |θ ) dt
Z x
3
dt
= exp −
0 θ+t
θ
= exp −3 ln
θ+x
( 3 )
θ
= exp ln
θ+x
3
θ
.
=
θ+x
La fonction de répartition est donc
F ( x |θ ) = 1 −
θ
θ+x
3
,
d’où X |Θ ∼ Pareto(3, Θ). Par conséquent,
E[ X ] = E[ E[ X |Θ]]
Θ
=E
2
= 500
et
Var[ X ] = E[Var[ X |Θ]] + Var[ E[ X |Θ]]
3Θ
Θ
=E
+ Var
4
2
= 850 000.
4.18 Soit f (·) la fonction de densité de probabilité d’une Log-normale(µ, σ2 )
et g(·) celle d’une Gamma(α, λ). Pour comparer les queues de ces deux
distributions, il faut évaluer
lim
x →∞
f (x)
.
g( x )
En éliminant les termes qui ne dépendent pas de x, on obtient
2
2
2
2
x −1 e−(ln( x)−µ) /2σ
lim
= lim e−(ln(x)−µ) /2σ −α ln(x)+ x/θ .
x →∞
x →∞
x α−1 e− x/θ
Or, de l’exercice 1.4 on sait que x tend plus rapidement vers l’infini que
ln( x ). L’exposant tend donc vers ∞, d’où la distribution log-normale a
une queue plus épaisse que la distribution gamma.
110
Solutions
4.19 Une fonction d’espérance de vie résiduelle linéaire en x indique une
distribution de Pareto telle que
1
λ
e( x ) =
x+
.
α−1
α−1
À partir de e( x ) = 2 000 + 2x, on trouve que α = 1,5 et λ = 1 000. En
utilisant les formules de l’annexe A pour l’espérance limitée d’une loi
de Pareto, on a que le LER est
LER =
E[ X ] − E[ X; x ]
1 − FX ( x )
= 0,30115.
4.20 a) Il s’agit d’une fonction linéaire en x, on a donc que X ∼ Pareto. En
utilisant la relation de l’exercice 4.19, on trouve que α = 7/3 et λ =
16/3.
b) En utilisant la formule de l’annexe A, on trouve que E[ X; 10] = 3,0215.
4.21 Pour X ∼ Gamma(α, λ), on a E[ X ] = α/λ et Var[ X ] = α/λ2 . On trouve
les paramètres suivants pour les trois sous-intervalles : α1 = 1, λ1 = 1,
α2 = 25, λ2 = 5, α3 = 144 et λ3 = 12. Pour le premier sous-intervalle, on
a A ∼ Gamma(1, 1) et
Pr( A ≤ 2) = Γ(1; 2).
Pour le second sous-intervalle, on a B ∼ Gamma(25, 5) et
Pr(2 < B ≤ 8) = Γ(25; 40) − Γ(25; 10).
Pour le troisième sous-intervalle, on a C ∼ Gamma(144, 12) et
Pr(8 < C ≤ 16) = Γ(144, 192) − Γ(144; 96).
La densité raccordée est donc

0,5e− x


,


Γ(1; 2)



0,2
525 x25−1 e−5x
f X (x) =
,

Γ(25; 40) − Γ(25; 10)
Γ(25)




0,3
12144 x144−1 e−12x


,
Γ(144; 192) − Γ(144; 96)
Γ(144)
0<x≤2
2<x≤8
8 < x ≤ 16.
4.22 On a

 p/10,
0 < x < 10
(3)(1003 )
1
 (1 − p )
, x ≥ 10
(100 + x )4 (100/110)3

0 < x < 10
 p/10,
= (3)(1103 )

(1 − p), x ≥ 10.
(100 + x )4
f X (x) =
Solutions
111
Pour que la distribution soit continue au point x = 10, on doit avoir
f X (10) =
p
,
10
soit
3
p
(1 − p ) = .
110
10
En résolvant pour p, on trouve p = 3/14.
4.23 a) On pose X ∼ Weibull(λ1 , τ1 ) et Y = X −1 ∼ Weibull inverse(λ2 , τ2 ).
On sait de l’annexe A que tous les moments positifs de la distribution
Weibull existent, alors que ceux de la distribution Weibull inverse
n’existent que pour k < τ2 . Par ce critère, on voit que la distribution
Weibull Inverse possède une queue plus lourde.
D’autre part, on a
−τ2
τ2 λ2−τ2 x −τ2 −1 e−(λ2 x)
fY (x)
=
τ
τ
f X (x)
τ1 λ11 x τ1 −1 e−(λ1 x) 1
∝ x −τ1 −τ2 e−(λ2 x)
−τ2 +(λ
τ
1 x) 1
,
d’où
ln
fY (x)
f X (x)
∝ (λ1 x )τ1 − (λ2 x )−τ2 − (τ1 + τ2 ) ln( x ).
Lorsque x → ∞, le terme central tend vers 0. Comme x tend plus
rapidement vers ∞ que ln( x ), on a que
lim ln
x →∞
fY (x)
f X (x)
= lim (λ1 x )τ1 − (λ2 x )−τ2 − (τ1 + τ2 ) ln( x )
x →∞
= ∞,
d’où
SY ( x )
f (x)
= lim Y
= ∞.
x →∞ f X ( x )
x →∞ SX ( x )
lim
Ainsi, en comparant les fonctions de survie on arrive aussi à la
conclusion que la queue de la loi Weibull inverse est plus lourde
que celle de la Weibull.
b) On fixe τ1 et λ1 de manière arbitraire et on résoud numériquement
pour τ2 et θ2 . La figure E.16 présente le graphique des deux distributions pour τ1 = 3, λ1 = 0,1, τ2 = 4,4744 et θ2 = 0,1335.
Solutions
0.000
0.005
0.010
0.015
0.020
112
16
18
20
22
24
x
Figure E.16: Comparaison des queues des distributions Weibull (trait mince)
et Weibull inverse (trait épais)
4.24 On a
Z ∞
SX (y)
dy
E[ X ]
∞ Z ∞ ty ty SX (y) f X (y)
e
e
=
+
dy
t
E[ X ] t
E[ X ]
0
MY (t) =
0
ety
0
1
M (t)
=−
+ X
tE[ X ]
tE[ X ]
MX (t ) − 1
=
.
tE[ X ]
Ce résultat suppose que limy→∞ ety SX (y) = 0. En appliquant la règle de
l’Hôpital, on voit qu’il s’agit de la même limite que −t−1 limy→∞ ety f X (y)
qui doit être 0 sinon l’intégrale définissant MX (t) ne convergerait pas.
Solutions
113
4.25 a) Par définition de la fonction de survie :
S( x ) =
Z ∞
x
(1 + 2t2 )e2t dt
= (1 + x + x2 )e−2x ,
x ≥ 0.
b) Par définition du taux d’incidence :
d
ln S( x )
dx
d
d
(2x ) −
ln(1 + x + x2 )
=
dx
dx
1 + 2x
.
=2−
1 + x + x2
h( x ) = −
c) On a d’abord
Z ∞
x
S(t) dt =
Z ∞
x
(1 + t + t2 )e−2t dt
= (1 + x + 0,5x2 )e−2x
et donc
R∞
e( x ) =
x
S( x ) dx
1 + x + 0,5x2
=
.
S( x )
1 + x + x2
d) On a
lim h( x ) = lim
x →∞
x →∞
1 + 2x
2−
1 + x + x2
= 2.
e) On a
lim e( x ) =
x →∞
1
limx→∞ h( x )
1
= .
2
f) À partir de c), on trouve
d
x + 0,5x2
e( x ) = −
< 0,
dx
(1 + x + x 2 )2
pour x > 0, d’où e( x ) est une fonction strictement décroissante. Cependant, pour h( x ), on a h(0) = 1, h(0,5) = 6/7 et h(∞) = 2. On voit
donc que le taux d’incidence n’est pas une fonction strictement croissante.
114
Solutions
Chapitre 5
5.1 On a ∑5i=1 xi = 6 211 et ∑5i=1 xi2 = 26 040 101. Pour trouver les estimateurs
des moments de α et β, on pose
E[ X ] = E[ E[ X |Λ]] = E[Λ−1 ] =
6 211
β
=
α−1
5
et
E[ X 2 ] = E[ E[ X |Λ]] = E[Λ−2 ] =
26 040 101
2β2
=
.
(α − 1)(α − 2)
5
En résolvant, on trouve α̂ = 3,45 et β̂ = 3 048,87.
5.2 Par définition, la fonction de vraisemblance donne la probabilité d’obtenir un échantillon tel que celui obtenu. On doit donc avoir deux données
entre 0 et 2 000 et quatre données entre 2 000 et 5 000, le tout sachant que
les six données sont plus petites que 5 000. On a alors
L(λ) =
(1 − e−2 000λ )2 (e−2 000λ − e−5 000λ )4
.
(1 − e−5 000λ )6
5.3 On a ∑5i=1 xi = 5 850 et ∑5i=1 xi2 = 5 867 500. Pour trouver les estimateurs
des moments de α et θ il suffit de poser égaux les deux premiers moments
empiriques et théoriques :
5 850
αθ =
6
et
5 867 500
αθ 2 + α2 θ 2 =
.
6
On trouve alors α̂ = 34,83 et θ̂ = 27,99.
5.4 La fonction de répartition de la log-logistique étant
F(x) =
( x/θ )γ
,
1 + ( x/θ )γ
on trouve, après avoir égalisé les quantiles théoriques et empiriques, que
γ̂ = 2 et θ̂ = 200.
5.5 La densité de la variable aléatoire sous-jacente est
f X ( x ) = FX0 ( x ) = px p−1 .
L’espérance est donc
E[ X ] =
=
Z 1
0
xpx p−1 dx
p
.
p+1
Solutions
115
En posant E[ X ] = x̄ pour trouver un estimateur des moments de p, on
obtient
x̄
p̂ =
.
1 − x̄
5.6 On a ∑5i=1 xi = 10 000 et ∑5i=1 xi2 = 30 000 000. On égalise les deux premiers moments théoriques et empiriques :
eµ+
σ2
2
=
10 000
5
et
30 000 000
.
5
On trouve alors µ̂ = 7,40 et σ̂ = 0,6368. Par conséquent,
ln(4 500) − 7,40
Pr( X > 4 500) = 1 − Φ
0,6368
2
e2µ+2σ =
= 1 − Φ(1,5919)
= 0,056.
5.7 On pose simplement
√
β 2π
= x̄ = 4,2,
2
d’où β̂ = 3,3511.
5.8 a) Posons λ̃ = λτ . On a
Pr( X ≤ 500) = 1 − e−λ̃500
τ
= 0,25
et
Pr( X ≤ 1 000) = 1 − e−λ̃1 000
τ
= 0,50
d’où on trouve que λ̃ˆ = 0,000108 et τ̂ = 1,2687. Ainsi, on a λ̂ = 0,000747.
b) On cherche π̂0,80 tel que
1 − e−(λ̂π̂0,80 ) = 0,80.
τ̂
On trouve π̂0,80 = (− ln 0,20)1/τ̂ /λ̂ = 1 947.
5.9 La distribution marginale de la variable X est une loi de Pareto(α, β).
Ainsi, pour estimer les paramètres α et β par la méthode des quantiles,
on pose
α
β
SX (450) =
= 0,001
β + 450
116
Solutions
et
SX (50) =
β
β + 50
α
= 0,125.
Il suffit maintenant de manipuler les termes pour obtenir
β
ln
β+50
ln(0,125)
= β ln(0,001)
ln β+450
0,3010
β
β
ln
= ln
β + 450
β + 50
β0,3010 ( β + 50) = β( β + 450)0,3010 .
5.10 D’abord, le rapport d’élimination de perte avec une franchise forfaitaire
est
LER =
E[ X; d]
E[ X ]
alors qu’avec une franchise atteinte il est
LER =
E[ X; d] − d(1 − F (d))
.
E[ X ]
Par conséquent, on a les équations suivantes :
E[ X; 200]
E[ X ]
E[ X; 500]
0,79 =
E[ X ]
E[ X; 200] − 200(1 − F (200))
0,32 =
E[ X ]
E[ X; 500] − 500(1 − F (500))
0,52 =
E[ X ]
0,56 =
Puisque E[ X ] = 200, on trouve F (200) = 0,76 et F (500) = 0,892, d’où
λ̂ ≈ 0,01 et τ̂ ≈ 0,48.
5.11 La fonction de répartition d’une loi U ( a, b) étant
F(x) =
x−a
,
b−a
Solutions
117
on a
50 − a
= 0,80
b−a
55 − a
= 0,90,
b−a
d’où on obtient â = 10 et b̂ = 60.
5.12 Pour X ∼ Bernoulli( p), on a la fonction de vraisemblance
n
L( p; x1 , . . . , xn ) = ∏ p xi (1 − p)1− xi
i =1
n
n
= p ∑ i =1 x i ( 1 − p ) n − ∑ i =1 x i
et la fonction de log-vraisemblance
n
l ( p; x1 , . . . , xn ) =
∑ xi ln( p) +
i =1
n
!
n − ∑ xi ln(1 − p),
i =1
d’où
n − ∑in=1 xi
∑in=1 xi
−
p
1− p
n x̄ n − n x̄
=
−
.
p
1− p
l 0 ( p; x1 , . . . , xn ) =
On trouve donc p̂ = X̄.
5.13 a) On a la fonction de log-vraisemblance
1
1 n ( x − µ )2
l (µ, σ2 ) = n ln √
− ∑ i 2
2 i =1
σ
2πσ
et les dérivées partielles
n
∂
( x − µ)
l (µ, σ2 ) = ∑ i 2
∂µ
σ
i =1
n
∂
∑in=1 ( xi − µ)2
2
l
(
µ,σ
)
=
−
+
.
∂σ2
2σ2
2σ4
En posant ces dérivées égales à 0 et en résolvant pour µ et σ2 , on
obtient les estimateurs du maximum de vraisemblance
µ̂ =
σ̂2 =
1 n
Xi = X̄
n i∑
=1
1 n
( Xi − X̄ )2 = S2 .
n i∑
=1
118
Solutions
b) À partir des calculs précédents, on trouve
∂2
n
l (µ, σ2 ) = − 2
∂µ2
σ
∂2
n
∑in=1 ( xi − µ)2
2
l
(
µ,
σ
)
=
−
σ6
∂σ4
2σ4
n
2
∂
∑ xi − µ
l (µ, σ2 ) = − i=1 4
.
∂µ∂σ2
σ
Or,
h ni
n
E − 2 =− 2
σ
σ
∑in=1 ( Xi − µ)
E −
=0
σ4
et
E
n
n
∑in=1 ( Xi − µ)2
−
=− 4
6
4
σ
2σ
2σ
car E[ Xi − µ] = 0 et E[( Xi − µ)2 ] = σ2 . On obtient ainsi la matrice
variance-covariance :
2
σ /n
0
Σ=
.
0
2σ4 /n
Or, on sait que la distribution asymptotique conjointe des estimateurs
du maximum de vraisemblance est une normale multivariée sans
biais et de matrice variance-covariance Σ.
c) On rappelle que Φ(·) et φ(·) sont, dans l’ordre, les fonctions de répartition et de densité de probabilité d’une loi N (0, 1). Par conséquent,
∂
1
c−µ
2
A=
h(µ, σ ) = − φ
∂µ
σ
σ
et
∂
1
B = 2 h(µ, σ2 ) = −
2
∂σ
c−µ
σ3
c−µ
φ
,
σ
d’où
σ2 /n
0
A
0
2σ4 /n B
2 c−µ
1
( c − µ )2
= φ
+
.
σ
n
2nσ2
Var[h(µ̂, σ̂2 )] = A
B
Enfin, on sait que, asymptotiquement,
h(µ̂, σ̂2 ) ∼ N (h(µ, σ2 ), Var[h(µ̂, σ̂2 )]).
Solutions
119
5.14 En utilisant la technique habituelle :
!
n
∏ xi
L ( θ ) = 2n θ n
n
2
e − θ ∑ i =1 x i
i =1
n
n
i =1
i =1
l (θ ) = n ln(2) + n ln(θ ) + ∑ ln xi − θ ∑ xi2
l 0 (θ ) =
n
n
−
xi2 .
θ i∑
=1
On trouve alors θ̂ = n/ ∑in=1 xi2 . En calculant la dérivée seconde de la
fonction de log-vraisemblance, on voit qu’il s’agit bien d’un maximum.
5.15 a) On a f ( x ) = px p−1 , d’où
n
p −1
L ( p ) = p n ∏ xi
i =1
n
l ( p) = n ln( p) + ( p − 1) ∑ ln( xi )
i =1
n
n
l 0 ( p) = + ∑ ln( xi ).
p i =1
On trouve alors p̂ = −n/ ∑in=1 ln( xi ). En calculant la dérivée seconde,
on voit qu’il s’agit bien d’un maximum.
b) À partir de a), on calcule
l 00 ( p; x1 , . . . , xn ) = −
n
p2
d’où
I ( p) = nE[ p−2 ] =
n
p2
et
Var[ p̂] =
p2
1
= .
I ( p)
n
c) On sait que
p ∈ p̂ ± 1,96
De a) et b), on a donc
q
Var[ p̂].
p
p ∈ p̂ ± 1,96 √ .
n
120
Solutions
d) On a
E[ X ] =
=
Z 1
0
xpx p−1 dx
p
.
p+1
Par la propriété d’invariance, l’estimateur du maximum de vraisemblance de E[ X ] est
p̂
Ê[ X ] =
,
1 + p̂
où p̂ est l’estimateur du maximum de vraisemblance de p déterminé
en a).
e) On pose E[ X ] = h( p) avec
h( p) =
p
,
1+ p
h0 ( p) =
1
.
(1 + p )2
d’où
Par la méthode delta,
Var Ê[ X ] = h0 ( p)2 Var[ p̂]
4 2 1
p
=
1+ p
n
et
d Ê[ X ] =
Var
et donc
E[ X ] ∈
1
1 + p̂
p̂
± 1,96
1 + p̂
4 p̂2
n
p̂
√
(1 + p̂)2 n
.
5.16 On a
5
L(α) = α5 λ5α ∏(λ + xi )−α−1
i =1
5
l (α) = 5 ln(α) + 5α ln λ − (α + 1) ∑ ln(λ + xi )
i =1
l 0 (α) =
5
5
+ 5 ln(λ) − ∑ ln(λ + xi ).
α
i =1
Solutions
121
On obtient alors α̂ = 5/(∑5i=1 ln(λ + xi ) − 5 ln λ) = 3,8629. En calculant
la dérivée seconde de la fonction de log-vraisemblance, on vérifie qu’il
s’agit bien d’un maximum.
5.17 La probabilité d’avoir une observation inférieure à 2 est
F (2) =
Z 2
0
2
2λxe−λx dx = 1 − e−4λ .
On a ensuite, pour un échantillon aléatoire de taille 4,
L(λ) = F (2)(1 − F (2))3
= (1 − e−4λ )e−12λ
l (λ) = ln(1 − e−4λ ) − 12λ
l 0 (λ) = 4(1 − e−4λ )−1 e−4λ − 12.
On trouve alors λ̂ = 14 ln 34 .
5.18 On aura reconnu la densité d’une N (0, θ ). On sait que l’estimateur du
maximum de vraisemblance de θ est sans biais. Ainsi, MSE(θ̂ ) = Var[θ̂ ].
Or, on a
x2
1
ln f ( x ) = − ln(2πθ ) −
2
2θ
d2
1
x2
ln f ( x ) = 2 − 3
dθ 2
2θ
θ
1
X2
I (θ ) = nE
− 3
2θ 2
θ
2n
= 2
θ
et Var[θ̂ ] = I −1 (θ ). Une approximation de l’erreur quadratique moyenne
est donc
d [θ̂ ]
d (θ̂ ) = Var
MSE
2θ̂ 2
n
= 0,20.
=
5.19 a) On a une distribution log-gamma de paramètres α = 2 et λ. De l’annexe A, on sait que
2
λ
E[ X ] =
.
λ−1
En posant E[ X ] = X̄, on trouve que l’estimateur des moments de λ
est
√
± X̄
λ̂ = √
.
± X̄ − 1
122
Solutions
b) On a
L(λ) =
λ2n ∏in=1 ln( xi )
∏in=1 xiλ+1
n
n
i =1
i =1
l (λ) = 2n ln(λ) + ∑ ln(ln( xi )) − (λ + 1) ∑ ln( xi )
l 0 (λ) =
n
2n
− ∑ ln( xi ).
λ
i =1
On trouve alors que λ̂ = 2n/ ∑in=1 ln( xi ).
5.20 a) On a
5
(λ5 )5 (∏5i=1 xi4 )e−λ ∑i=1 xi
L(λ) =
(Γ(5))5
5
5
i =1
i =1
l (λ) = 25 ln(λ) + 4 ∑ ln xi − λ ∑ xi − 5 ln Γ(5)
l 0 (λ) =
5
25
− ∑ xi ,
λ
i =1
d’où λ̂ = 25/ ∑5i=1 xi = 1/2.
b) On a
l 00 (λ) = −
25
λ2
et donc la matrice d’information de Fisher est
25
I (λ) = E 2
λ
25
=
(5/8)2
= 64.
Par conséquent, Var[λ̂] =
1
64 .
5.21 Par définition de la fonction de vraisemblance :
L(α) = (Pr( X ≤ 2))2 Pr(5 ≤ X ≤ 11)Pr( X ≥ 11)
α 2 α α α
1
1
1
1
= 1−
−
.
3
6
12
12
Étant donné qu’il faudra faire appel à des méthodes numériques pour
résoudre ce problème, on peut tout aussi bien minimiser la fonction de
vraisemblance au lieu de la fonction de log-vraisemblance.
Solutions
123
5.22 On a
L( β) = Pr(0 ≤ X ≤ 1)Pr( X ≥ 2)
= (1 − e− β )e−2β
l ( β) = ln(1 − e− β ) − 2β
l 0 ( β) =
e− β
− 2.
1 − e− β
On obtient β̂ = ln(1,5).
5.23 a) Par la méthode du maximum de vraisemblance habituelle, on trouve
λ̂ =
n
.
∑in=1 xi2
2
Or, Pk = FX (k) = 1 − e−λk . Par la propriété d’invariance de l’estima2
teur du maximum de vraisemblance, on a donc P̂k = 1 − e−λ̂k .
b) Par la méthode delta, on a que
Var[ P̂k ] =
∂Pk
∂λ
2
Var[λ̂]
2
= (k2 e−λk )2 Var[λ̂].
Or, en laissant tomber les termes non fonction de λ,
n
l (λ) = n ln(λ) − λ ∑ xi2 + . . .
i =1
n
n
−
xi2
λ i∑
=1
n
00
l (λ) = − 2
λ
l 0 (λ) =
d’où
h ni
n
E − 2 =− 2
λ
λ
et
Var[λ̂] =
λ2
.
n
Par conséquent,
2
Var[ P̂k ] =
k4 λ2 e−2λk
.
n
c) On sait que P̂k ∼ N ( Pk , Var[ P̂k ]). Or, si X1 = X2 = 10 et X3 = 15, alors
λ̂ = 3/425, p̂10 = 0,5063 et
d [ P̂10 ] = λ̂ = 0,0405.
Var
3
124
Solutions
Ainsi, approximativement, P̂10 ∼ N (0,5063, 0,0405), d’où Pr( P̂10 ≤ 0,5) ≈
Φ(−0,0313) = 0,4875.
5.24 En premier lieu, on a
n
l (α, λ; x) = n ln(α) + αn ln(λ) − (α + 1) ∑ ln(λ + xi )
i =1
et
n
∂2
l (α, λ; x) = − 2
2
∂α
α
2
n ∂2
αn
1
l (α, λ; x) = − 2 + (α + 1) ∑
λ + xi
∂λ2
λ
i =1
n
∂2
n
1
l (α, λ; x) = − ∑
.
∂α∂λ
λ i =1 λ + x i
Pour la suite, on aura besoin des résultats intermédiaires
"
E
2 #
Z ∞
1
αλα
dx
0 ( λ + x )2 ( λ + x ) α +1
α
= 2
λ ( α + 2)
Z ∞
1
1
αλα
E
dx
=
λ+X
0 λ + x ( x + λ ) α +1
α 1
=
.
α+1λ
1
λ+X
=
Ainsi,
h ni
∂2
E
l
(
α,
λ;
X
)
=
E
− 2
∂α2
α
n
=− 2
"α
2
2 #
n ∂
αn
1
E
l (α, λ; X ) = E − 2 + (α + 1) ∑
λ + Xi
∂λ2
λ
i =1
αn
=− 2
λ ( α + 2)
"
2
#
n ∂
n
1
E
l (α, λ; X ) = E
−
∂α∂λ
λ i∑
λ + Xi
=1
n
=
λ ( α + 1)
Solutions
125
et la matrice d’information de Fisher est


n
n
−
2
λ ( α + 1) 
α

I (α, λ) = 
.
n
αn
−
λ ( α + 1) λ2 ( α + 2)
La matrice de variance-covariance est donc
Σ = I −1 (α, λ)

α2 ( α + 1)2

n
=

α(α + 1)(α + 2)λ
n

α(α + 1)(α + 2)λ

n
.

2
2
λ ( α + 1) ( α + 2)
nα
De là, on obtient
2
2
d [α̂] = α̂ (α̂ + 1) = 0,28125
Var
50
2 ( α̂ + 1)2 ( α̂ + 2)
λ̂
d [λ̂] =
Var
= 656 250
50α̂
d (α̂, λ̂) = α̂(α̂ + 1)(α̂ + 2)λ̂ = 393,75.
Cov
50
5.25 On a
h(α, λ) = Pr( X > 10)
α
λ
=
λ + 10
α ∂h(α, λ)
λ
λ
=
ln
∂α
λ + 10
λ + 10
α −1 ∂h(α, λ)
λ
10
.
=α
∂λ
λ + 10
(λ + 10)2
Or,
h(α̂, λ̂) = 0,0816
∂h(α, λ) = −0,1023
∂α (α̂,λ̂)
∂h(α, λ) = 0,0292
∂λ (α̂,λ̂)
et donc
d [h(α̂, λ̂)] = −0,1023
Var
= 0,2254.
0,0292
24
10
10
40
−0,1023
0,0292
126
Solutions
√
L’intervalle de confiance est donc 0,0816 ± (1,44) 0,2254. Étant donné
qu’il s’agit d’un intervalle pour une probabilité, la borne inférieure ne
peut être plus petite que 0 (et la borne supérieure ne peut être plus
grande que 1). L’intervalle de confiance est donc (0, 0,7653).
5.26 On sait que l’estimateur du maximum de vraisemblance de λ est λ̂ =
X̄ −1 et il est simple d’établir que Var[λ̂] = λ2 /n. Ici, on a λ̂ = 0,0187.
a) On a
h(λ) = E[ X; 50]
1 − e−50λ
λ
−
50λ
dh(λ)
e
(50λ + 1) − 1
,
=
dλ
λ2
=
d’où
Var[h(λ̂)] =
e−50λ (50λ + 1) − 1
λ2
2
λ2
n
et
d [h(λ̂)] = (−686,57)2 (0,000 043 88)
Var
= 20,68.
b) On procède comme en a) avec
h(λ) = π0,95
ln(0,05)
λ
ln(0,05)
dh(λ)
=−
.
dλ
λ2
=
d [h(λ̂)] = 3 196.
On obtient Var
5.27 a) On a que X | A = α obéit à une loi de Bernoulli(α) et que A obéit à
une loi U (0, 1). On cherche
3
3
f ( α | x 1 , x 2 , x 3 ) ∝ α ∑ i =1 x i ( 1 − α ) 3 − ∑ i =1 x i ( 1 )
= α (1 − α )2 .
On reconnaît ici la forme fonctionnelle d’une distribution Bêta(2, 3).
On sait que, si la fonction de perte choisie est l’erreur quadratique,
l’estimateur bayesien est l’espérance de la distribution a posteriori.
On a donc
2
2
α̂ =
= = 0,4.
2+3
5
Solutions
127
b) On a
Pr(0,2 < A < 0,4| X = x) =
Z 0,4
0,2
Γ (5)
α(1 − 2α + α2 ) dα
Γ (2) Γ (3)
= 0,3432.
5.28 On a que X |Θ = θ ∼ Poisson(θ ) et que Θ ∼ Gamma(α, λ). On a donc
!
n
e−θn θ ∑i=1 xi
λα e−λθ θ α−1
f ( θ | x1 , . . . , x n ) ∝
Γ(α)
∏in=1 xi !
n
= e−(λ+n)θ θ α+∑i=1 xi −1 .
On reconnaît ici la forme fonctionnelle d’une distribution Gamma de
paramètres α∗ = α + ∑in=1 xi et λ∗ = λ + n. On sait que, si la fonction de
perte choisie est l’erreur quadratique, l’estimateur bayesien est l’espérance de la distribution a posteriori. Par conséquent
θ̂ =
α + ∑in=1 xi
.
n+λ
5.29 a) On a que X | A = α obéit à une loi de Pareto(α, 1) et que A obéit à une
distribution Exponentielle(3). On a
αn
f (α| x1 , . . . , xn ) ∝ 3e−3α
∏in=1 (1 + xi )α+1
=
=
αn e−3α
∏in=1 (1 + xi )α+1
α
e −3
αn
∏in=1 (1 + xi )
n −λ∗ α
=α e
avec λ∗ = 3 + ∑in=1 ln(1 + xi ). On reconnaît alors la forme fonctionnelle d’une loi Gamma. On a donc, comme densité a posteriori, une
loi Gamma de paramètres α∗ = n + 1 et λ∗ .
b) On sait que, si la fonction de perte choisie est l’erreur quadratique,
l’estimateur bayesien est l’espérance de la distribution a posteriori.
On a donc
α̂ =
n+1
3 + ∑in=1 ln(1 + xi )
=
7
= 0,68.
3 + 7,27
5.30 a) On a que X | B = β obéit à une loi Exponentielle( β) et que B obéit à
une loi Gamma(2, 3). On a
5
f ( β | x 1 , . . . , x 5 ) ∝ β 6 e − β (3 + ∑ i =1 x i ) .
128
Solutions
Puisque ∑5i=1 xi = 47, on reconnaît ici la forme fonctionnelle d’une loi
Gamma(7, 50). Avec une fonction de perte quadratique, l’estimateur
bayesien est l’espérance de la distribution a posteriori. On a donc
β̂ =
7
= 0,14.
50
b) Avec une fonction de perte valeur absolue„ l’estimateur bayesien est
la médiane de la distribution a posteriori. Il faut donc choisir β̂ tel
que
1
Pr( B ≤ β̂| X = x) = Γ(7; 50 β̂) = .
2
Avec les informations données dans l’énoncé, on trouve
β̂ =
6,670
= 0,1334.
50
5.31 a) Soit X la variable aléatoire du nombre de fois où un étudiant reste
bloqué dans un devoir. On a X |Θ = θ ∼ Binomiale(3, p) et Θ ∼ U (0,25, 0,75).
On a
2 (32)θ 2 (1 − θ )2
f (θ | x1 = 2, x2 = 2) = R 0,75
0,25
2
2 (32)θ 2 (1 − θ )2
2
dθ
θ 4 (1 − θ )2
= R 0,75
4
2
0,25 θ (1 − θ ) dθ
= 141,22θ 4 (1 − θ )2 .
Avec une fonction de perte quadratique, l’estimateur bayesien est
l’espérance de la distribution a posteriori. Ainsi,
θ̂ = 141,22
Z 0,75
0,25
θ 5 (1 − θ )2 dθ = 0,5668.
b) On a
Pr(0,6 < Θ < 0,7| X1 = 2, X2 = 2) = 1441,22
Z 0,7
0,6
θ 4 (1 − θ )2 dp
= 0,3055.
5.32 a) Soit X la variable aléatoire du montant d’un sinistre en millions. On
a W = X − 1,5| X > 1,5. Par conséquent,
Pr(W > 29,5) =
FX (29,5) − FX (1,5)
.
1 − FX (1,5)
Solutions
129
Or, par la propriété d’invariance de l’estimateur du maximum de
vraisemblance, on a
α̂ α̂
λ̂
λ̂
−
λ̂+29,5
b (W > 29,5) = 1 − λ̂+1,5
Pr
α̂
=
λ̂ + 1,5
λ̂ + 29,5
λ̂
λ̂+1,5
!α̂
= 0,0365.
b) On a
λ + 1,5
λ + 29,5
α
λ + 1,5
λ + 29,5
α
h(α, λ) =
∂h
=
∂α
ln
λ + 1,5
λ + 29,5
(λ + 1,5)α−1
∂h
= 28α
∂λ
(λ + 29,5)α+1
et
∂h(α, λ) = −0,0238
∂α (α̂,λ̂)
∂h(α, λ) = 0,0029,
∂λ (α̂,λ̂)
d’où
d [h(α̂, λ̂)] = −0,0238
Var
23,92
0,0029
167,07
167,07
1 199,32
−0,0238
0,0029
= 0,00057.
5.33 Le montant payé par l’assureur est Y = min( X, 3 000) − 100| X > 100,
d’où

f (y + 100)

 X
, 0 ≤ y < 2 900


1
− FX (100)


SX (3 000)
f Y (y) =
, y = 2 900


1
− FX (100)




0,
y > 2 900,

−
λy

,
0 ≤ y < 2 900
λe
−
2
900λ
= e
, y = 2 900


0,
y > 2 900.
130
Solutions
La fonction de vraisemblance est donc
n
L ( λ ) = ∏ f Y ( yi )
i =1
8 −λ(100+···+1 500)
=λ e
(e−2 900λ )2
= λ8 e−10 420λ .
Par la méthode usuelle, on trouve λ̂ = 8/10 420. On cherche une estimation de E[ X ] = λ−1 . Par la propriété d’invariance de l’estimateur du
maximum de vraisemblance, on a
1
10 420
= 1 302,50.
=
8
λ̂
5.34 Soit X la variable aléatoire du montant d’un sinistre et Y la variable
aléatoire du montant payé par l’assureur. On a Y = min( X, 150), d’où


y < 150
 f X (y),
f Y (y) = 1 − FX (150), y = 150


0,
y > 150,

−λy , y < 150

λe
−
150λ
= e
, y = 150


0,
y > 150.
Ê[ X ] =
On a donc la fonction de vraisemblance
n
L ( λ ) = ∏ f Y ( yi )
i =1
5 −λ(10+···+110)
=λ e
(e−150λ )3
= λ5 e−845λ .
Par la technique usuelle, on trouve λ̂ = 0,0059.
5.35 On a la fonction de répartition empirique

0, x ≤ 0



2, 0 < x ≤ 2
F9 ( x ) = 96

, 2<x≤5


9
1, 5 < x ≤ 8.
Il faut maintenant trouver la valeur de λ qui minimise
∑
Q(λ) =
( F ( x ) − F9 ( x ))2
x =2,5,8
= 1 − e−λ2 −
2
9
2
2
6 2 + 1 − e−λ5 −
+ 1 − e−λ8 − 1 .
9
On trouve numériquement que le minimum est atteint en λ̂ = 0,2286.
Solutions
131
Chapitre 6
6.1 La fonction de répartition théorique est
α
2
1 000
λ
=1−
.
FX ( x ) = 1 −
λ+x
1 000 + x
Ainsi, le nombre espéré de sinistres dans chaque classe est
E1 = 10( F (250) − F (0)) = 3,6
E2 = 10( F (500) − F (250)) = 1,9556
E3 = 10( F (1 000) − F (500)) = 1,9444
E4 = 10( F (∞) − F (1 000)) = 2,5.
On a les nombres de sinistres observés n1 = 3, n2 = 2, n3 = 3 et n4 = 2. La
valeur de la statistique du test du khi carré est donc
( n j − E j )2
∑ Ej
j =1
4
Q=
(3 − 3,6)2 (2 − 1,9556)2 (3 − 1,9444)2 (2 − 2,5)2
+
+
+
3,6
1,9556
1,9444
2,5
= 0,7740.
=
Soit χ23, 0,10 = 6,2514 le 90e centile d’une distribution khi carré avec trois
degrés de liberté. Puisque 0,7740 < 6,2514, on ne rejette pas le modèle.
6.2 La fonction de répartition du modèle est
α
3,5
50
λ
=1−
.
FX ( x ) = 1 −
λ+x
50 + x
On a les nombres espérés de sinistres par classe suivants :
E1 = 1 000( F (3) − F (0)) = 184,49
E2 = 1 000( F (7,5) − F (3)) = 202,37
E3 = 1 000( F (15) − F (7,5)) = 213,93
E4 = 1 000( F (40) − F (15)) = 271,40
E5 = 1 000( F (∞) − F (40)) = 127,80.
La valeur de la statistique est donc
(180 − 184,49)2 (180 − 202,37)2 (235 − 213,93)2
+
+
184,49
202,37
213,93
2
2
(255 − 271,40)
(150 − 127,80)
+
+
271,40
127,80
= 9,5046.
Q=
132
Solutions
Or, Pr(χ22 > 9,5046) = 0,0086 (où χ22 est une variable aléatoire avec distribution khi carré avec deux degrés de liberté). Par conséquent, on ne
rejette pas le modèle avec un seuil de signification de 0,86 %. Des seuils
proposés, seul 0,5 % est donc valide.
6.3 La fonction de répartition empirique est


0,
x < 0,1





0,2, 0,1 ≤ x < 0,4
F5 ( x ) = 0,4, 0,4 ≤ x < 0,8


0,8, 0,8 ≤ x < 0,9



1,
x ≥ 0,9.
La fonction de répartition théorique est
F(x) =
Z x
1 + 2y
0
2
dy =
x
(1 + x ) ,
2
0 ≤ x ≤ 1.
La statistique de Kolmogorov–Smirnov est donc
D = max {| F ( xi ) − F5 ( xi )|, | F ( xi ) − F5 ( xi−1 )|}
i =1,...,5
= max{| F (0,1) − F5 (0,1)|, | F (0,1) − F5 (0)|,
| F (0,4) − F5 (0,4)|, | F (0,4) − F5 (0,1)|,
| F (0,8) − F5 (0,8)|, | F (0,8) − F5 (0,4)|,
| F (0,9) − F5 (0,9)|, | F (0,9) − F5 (0,8)|}
= 0,32.
La valeur critique du test de Kolmogorov–Smirnov
avec un seuil de si√
gnification de 5 % est c = 1,36/ 5 = 0,6082. Puisque D < c, on ne rejette
pas le modèle.
6.4 a) La fonction de répartition empirique est

0,




2


10 ,


6,
F10 ( x ) = 10
8


10 ,


9

 10
,



1,
x<1
1≤x<2
2≤x<3
3≤x<4
4≤x<8
x ≥ 8.
b) La fonction de répartition théorique est
FX ( x ) = 1 −
2
2+x
2
.=
Solutions
133
i
| Fn ( xi ) − F ( xi )|
| Fn ( xi−1 ) − F ( xi )|
1
2
3
4
3/16
1/4
0,359375
7/16
1/16
0
0,109375
3/16
Table E.2: Différences entre les fonctions de répartition théorique et empirique pour les données de l’exercice 6.5
On a donc F (1) = 59 , F (2) = 34 , F (3) =
distance de Cramér–von Mises est
QCvM =
21
25 ,
F (4) =
8
9
et F (8) =
24
25
La
10
∑ ( F(xi ) − F10 (xi ))2
i =1
5
3
21
2 2
6 2
8 2
+4×
+2×
−
−
−
9 10
4 10
25 10
2 2
9
24
8
−
+
−1
+
9 10
25
=2×
= 0,3478.
c) On a cette fois une fonction de répartition empirique telle que F10 (2) =
6
9
10 , F10 (4) = 10 et F10 (8) = 1. La valeur de la distance est donc
2
3
6 2
8
9 2
24
QCvM =
−
+
−
+
−1
4 10
9 10
25
= 0,0242.
6.5 On trouve d’abord la fonction de répartition théorique :
F(x) =
Z x
y
0
2
dy =
x2
,
4
0 ≤ x ≤ 2.
On a ensuite F4 (0,5) = 1/4, F4 (1) = 2/4, F4 (1,25) = 3/4, et F4 (1,5) = 1. Le
tableau E.2 présente les différences entre les fonctions de répartition. La
statistique D4 est donc 7/16 = 0,4375.
6.6 On trouve d’abord la fonction de répartition théorique :
F(x) =
Z x
y
0
50
dy =
x2
,
100
0 ≤ x ≤ 10.
On a ensuite F7 (1) = 1/7, F7 (4) = 2/7, F7 (6) = 3/7, F7 (7) = 4/7, F7 (8) =
5/7, F7 (9) = 6/7 et F7 (9,5) = 1. Le tableau E.3 présente les différences
entre les fonctions de répartition. La statistique de Kolmogorov–Smirnov
√
vaut donc D = 0,1329. Puisque la valeur critique du test est c = 1,36/ 7 =
0,5140 > D, on ne rejette pas le modèle.
134
Solutions
xi
| Fn ( xi ) − F ( xi )|
| Fn ( xi−1 ) − F ( xi )|
1
4
6
7
8
9
9,5
0,1329
0,1257
0,0686
0,0814
0,0743
0,0471
0,0975
0,0100
0,0171
0,0743
0,0614
0,0686
0,0957
0,0454
Table E.3: Différences entre les fonctions de répartition théorique et empirique pour les données de l’exercice 6.6
6.7 On a
FX ( x ) = 1 −
λ
λ+x
α
=1−
8
.
8+x
On trouve ensuite que
E1 = (20) ( F (5) − F (0))
= 7,6923
E2 = (20) ( F (20) − F (5))
= 6,5934
E3 = (20) ( F (∞) − F (20))
= 5,7143.
Ainsi, la valeur de la statistique est
(10 − 7,6923)2 (5 − 6,5934)2 (5 − 5,7143)2
+
+
7,6923
6,5934
5,7143
= 1,1667.
Q=
6.8 On rappelle que FX ( x; α, λ) = Γ(α; λx ), où Γ(α; x ) est la fonction de répartition de la distribution Gamma(α, 1). Le calcul de la statistique de
Kolmogorov–Smirnov requiert donc les valeurs de Γ(α; 1,25), Γ(α; 5,5) et
Γ(α; 7) pour α = 3 et α = 3,5. Or, avec la relation donnée dans l’énoncé,
on obtient
(1,25)2
−1,25
Γ(3; 1,25) = 1 − e
1 + 1,25 +
= 0,1315
2
(5,5)2
Γ(3; 5,5) = 1 − e5,5 1 + 5,5 +
= 0,9116
2
(7)2
= 0,9704.
Γ(3; 7) = 1 − e−7 1 + 7 +
2
Solutions
135
| Fn ( xi ) − F ( xi )|
| Fn ( xi−1 ) − F ( xi )|
xi
α=3
α = 3,5
α=3
α = 3,5
125
550
700
0,1185
0,1616
0,0296
0,1771
0,1114
0,0512
0,1315
0,6616
0,2204
0,0729
0,6114
0,1988
Table E.4: Différences entre les fonctions de répartition théorique et empirique pour les données de l’exercice 6.8
Le tableau E.4 présente les calculs pour les deux distributions postulées. Pour la Gamma(3, 0,01), la statistique de Kolmogorov–Smirnov est
D = 0,6616 et pour la Gamma(3,5, 0,01), la statistique est D = 0,6114. On
choisit donc la deuxième distribution pour la modélisation les données.
6.9 L’hypothèse de taux d’échec constant correspond à une distribution exponentielle de paramètre λ = 0,01. On a donc FX ( x ) = 1 − e− x/100 et
E1 = 50 ( F (25) − F (0)) = 11,0600
E2 = 50 ( F (40) − F (25)) = 5,4240
E3 = 50 ( F (60) − F (40)) = 6,0754
E4 = 50 ( F (80) − F (60)) = 4,9741
E5 = 50 ( F (∞) − F (80)) = 22,4664.
Étant donné que E4 < 5, on regroupe (arbitrairement) E3 et E4 pour obtenir E3,4 = 11,0495. On obtient ensuite
(10 − 11,06)2 (5 − 5,4240)2
+
11,06
5,4240
2
(20 − 22,4664)2
(15 − 11,0495)
+
+
11,0495
22,4664
= 1,8179.
Q=
Puisque Pr(χ23 > 1,8179) = 0,61 > 0.05, on ne rejette pas l’hypothèse.
6.10 a) On les valeurs suivantes de la fonction de répartition empirique :
F50 (25) = 0,20, F50 (50) = 0,44, F50 (100) = 0,68 et F50 (200) = 0,90. Pour
la distribution de Pareto, on a F (25) = 0,4557, F (50) = 0,6464, F (100) =
0,8075 et F (200) = 0,9106. La distance de Cramér–von Mises est alors
QCvM = (0,4557 − 0,2)2 + (0,6464 − 0,44)2
+ (0,8075 − 0,68)2 + (0,9106 − 0,9)2
= 0,1244.
136
Solutions
Pour la distribution de Weibull, on a F (25) = 0,2212, F (50) = 0,3935,
F (100) = 0,6321 et F (200) = 0,8647. La distance est alors
QCvM = (0,2212 − 0,2)2 + (0,3935 − 0,44)2
+ (0,6321 − 0,68)2 + (0,8647 − 0,9)2
= 0,0062.
Comme 0,0062 < 0,1244, la distribution de Weibull est un meilleur
modèle.
b) Pour la distribution de Pareto, on a
E1 = 50 ( F (25) − F (0)) = 22,7834
E2 = 50 ( F (50) − F (25)) = 9,5389
E3 = 50 ( F (100) − F (50)) = 8,0552
E4 = 50 ( F (200) − F (100)) = 5,1504
E5 = 50 ( F (∞) − F (200)) = 4,4721.
Étant donné que E5 < 5, on regroupe E4 et E5 pour obtenir E4,5 =
9,6225. On obtient alors
(10 − 22,7834)2 (12 − 9,5389)2
+
22,7834
9,5389
2
(12 − 8,0552)
(16 − 9,6225)2
+
+
8,0552
9,6225
= 13,9662.
Q=
Or, χ23, 0,05 = 7,815 < Q. On rejette donc le modèle avec distribution
de Pareto.
c) Comme 0,10 < 0,1244, le choix de la distribution log-normale serait
meilleur.
6.11 a) On a
H0 : numéros de départ équiprobables
H1 : numéros de départ non équiprobables.
b) Pour un total de 144 courses et une probabilité uniforme de victoire
de 18 , le nombre de victoires espéré pour chaque numéro est 144/8 =
18. Les résultats cumulés observés et espérés sont présentés dans le
tableau suivant :
Numéro
1
2
3
4
5
6
7
8
Gains observés
Gains théoriques
29
18
48
36
66
54
91
72
108
90
118
108
133
126
144
144
Écart absolu
11
12
12
19
18
10
7
0
Solutions
137
La plus grande différence est observée pour le numéro 4. On a donc
D = 19/144 = 0,132. La valeur critique du test de Kolmogorov–Smirnov
pour une taille d’échantillon n = 144 est 1,36/12 = 0,1133 pour un
seuil α = 0,05 et 1,63/12 = 0,1358 pour un seuil α = 0,01. On rejette
donc l’hypothèse H0 à un niveau de confiance de 95 %, mais pas à
un niveau de confiance de 99 %.
6.12 On a, dans l’ordre,
3
ln(100) = −226,01
2
3
−219,2 −
ln(100) = −226,11
2
2
ln(100) = −225,81
−221,2 −
2
2
−221,4 −
ln(100) = −226,01
2
1
−224,4 −
ln(100) = −226,70.
2
−219,1 −
Le meilleur modèle est donc la distribution de Pareto.
Chapitre 7
7.1 a) On trouve d’abord l’estimateur du maximum de vraisemblance du
paramètre θ. On a pk = Pr( N = k) = (mk)θ k (1 − θ )n−k , k = 0, . . . , m et
donc
m
L(θ ) =
∏ ( pk )nk
k =0
m
l (θ ) =
∑ nk ln pk
k =0
m
m
= ∑ nk ln
+ k ln(θ ) + (m − k) ln(1 − θ )
k
k =0
m
k
m−k
0
l (θ ) = ∑ nk
−
.
θ
1−θ
k =0
En résolvant l’équation l 0 (θ ) = 0, on trouve
θ̂ =
=
1 ∑m
k =0 kNk
m ∑m
k=0 Nk
N̄
.
m
138
Solutions
Par conséquent,
N̄
E[θ̂ ] = E
m
E[ N ]
=
m
mθ
=
m
= θ.
b) On a
N̄
m
Var[ N ]
=
nm2
mθ (1 − θ )
=
nm2
θ (1 − θ )
=
.
nm
Var[θ̂ ] = Var
c) De la partie a), on a
k
m−k
d2
ln pk = − 2 −
2
dθ
θ
(1 − θ )2
d’où
d2
ln p N ]
dθ 2
n
n(m − k)
= 2 E[ N ] +
E[m − N ]
θ
(1 − θ )2
nm mn(1 − θ )
=
+
θ
(1 − θ )2
nm
=
θ (1 − θ )
I (θ̂ ) = E[−n
et donc
Var[θ̂ ] = I −1 (θ )
=
θ (1 − θ )
.
nm
d) Un intervalle de confiance de niveau 1 − α pour θ est
q
θ̂ ± zα/2 Var[θ̂ ]
Solutions
139
soit
r
θ̂ ± zα/2
θ (1 − θ )
.
mn
Or, comme le paramètre θ est inconnu, on utilise en pratique l’intervalle approximatif
s
θ̂ (1 − θ̂ )
.
θ̂ ± zα/2
mn
7.2 a) On a Pr( N = k) = λk e−λ /k!, k = 0, 1, . . . , et donc les fonctions de vraisemblance
!nk
∞
λk e−λ
L(λ) = ∏
k!
k =0
et de log-vraisemblance
∞
l (λ) =
∑ nk (k ln λ − λ − ln k!).
k =0
Par les techniques habituelles, on trouve
λ̂ = N̄ =
∑∞
k =0 knk
= 0,1001
∑∞
k =0 n k
puis E[λ̂] = λ et Var[λ̂] = Var[ N̄ ] = λ/n. On a donc λ̂ ∼ N (λ, λ/n).
Par conséquent, un intervalle de confiance approximatif à 95 % pour
le paramètre λ est
q
d [λ̂],
λ̂ ± 1,96 Var
d [λ̂] = λ̂/n. L’intervalle de confiance est donc
avec Var
r
0,1001 ± 1,96
0,1001
.
10 000
b) Avec la paramétrisation donnée dans l’énoncé, E[ N ] = β et Var[ N ] =
β( β + 1). De plus,
∞
L( β) =
∏
k =0
∞
l ( β) =
βk
( β + 1 ) k +1
!nk
∑ nk (k ln β − (k + 1) ln( β + 1))
k =0
140
Solutions
et donc
β̂ = N̄ =
∑∞
k =0 knk
= 0,1001.
∑∞
k =0 n k
On trouve ensuite que E[ β̂] = 0,1001 et que Var[ β̂] = β̂( β̂ + 1)/n, d’où
d [ β̂] = 0,1001(1,1001)/10 000. L’intervalle de confiance est donc
Var
r
0,1001(1,1001)
.
0,1001 ± 1,96
10 000
c) En posant θ = ( β + 1)−1 dans les formules de l’annexe A, on trouve
E[ N ] = rβ et Var[ N ] = rβ( β + 1). Les estimateurs des moments de r et
β sont donc les solutions des équations
rβ =
∑∞
k =0 knk
= 0,1001
∑∞
k =0 n k
et
∑∞ 0 k2 nk
rβ(1 + β) = k=
−
∑∞
k =0 n k
∑∞
k =0 knk
∑∞
k =0 n k
2
= 0,10028
d’où on trouve r̂ = 55,67 et β̂ = 0,0018.
d) On peut utiliser la fonction fitdistr du package MASS dans sa
forme la plus simple pour trouver les estimateurs du maximum de
vraisemblance de r et µ = rβ :
> x <- c(rep(0, 9048), rep(1, 905), rep(2, 45),
+
rep(3, 2))
> fitdistr(x, "negative binomial")
size
mu
5.273162e+01
1.001000e-01
(3.797344e+02) (3.166543e-03)
7.3 a) De l’exercice 7.2, on sait que l’estimateur du maximum de vraisemblance du paramètre d’une distribution de Poisson est la moyenne
échantillonale. Pour la variable aléatoire N1 , on a λ̂1 = x̄ = 0,109. Pour
la variable aléatoire N2 , on a λ̂2 = x̄ = 0,057.
b) On sait que la distribution de la somme de n variables aléatoires indépendantes distribuées selon des lois de Poisson de paramètre λi ,
i = 1, . . . , n est une Poisson de paramètre λ = ∑in=1 λi . On obtient donc
N ∼ Poisson(λ1 + λ2 = 0,166).
7.4 a) De l’exercice 7.1, on a
θ̂ =
n̄
∑7 kn
= k=0 k = 0,0237.
7
7n
Solutions
141
b) Comme à l’exercice 7.2 c), on a
rβ =
∑∞
k =0 knk
= 0,166
∑∞
k =0 n k
et
rβ(1 + β) =
2
∑∞
k =0 k n k
−
∞
∑ k =0 n k
∑∞
k =0 knk
∑∞
k =0 n k
2
= 0,2244
On trouve alors r̂ = 0,4715 et β̂ = 0,3521.
c) On utilise la fonction fitdistr du package MASS pour trouver les
estimateurs du maximum de vraisemblance de r et µ = rβ :
> x <- c(rep(0, 861), rep(1, 121), rep(2, 13),
+
rep(3, 3), 4, 6)
> fitdistr(x, "negative binomial")
size
mu
0.65606189
0.16600239
(0.21012471) (0.01442188)
7.5 On a
Pr( N = k ) =
=
Z ∞
0
Pr( N = k|Λ = λ) f Λ (λ) dλ
βr
Γ(r )k!
Z ∞
0
λr+k−1 e−λ( β+1) dλ.
Or, en reconnaissant sous l’intégrale la forme fonctionnelle d’une distribution Gamma(r + k, β + 1), on obtient
Γ (r + k ) βr
Γ(r )k!( β + 1)r+k
r k
Γ (r + k )
β
1
=
Γ (r ) Γ ( k − 1) β + 1
β+1
Γ (r + k )
=
θ r (1 − θ ) k ,
Γ (r ) Γ ( k − 1)
Pr( N = k ) =
avec θ = β( β + 1)−1 , soit la fonction de masse de probabilité d’une distribution binomiale négative de paramètres r et θ.
7.6 Sans la franchise, l’espérance de la fréquence serait E[ N ] = r (1 − θ )/θ =
15. De plus, on a
SX (20) = e−(0,01)(20) = 0,8187.
Cela signifie qu’environ 82 % des sinistres seront d’un montant supérieur
à la franchise, c’est-à-dire qu’environ 82 % des sinistres vont produire une
réclamation. On a donc E[ N ∗ ] = (0,8187)(15) = 12,28.
142
Solutions
2.5
●
2.0
knk/nk−−1
●
●
1.5
●
●
1.0
●
1
2
3
4
5
6
k
Figure E.17: Graphique de knk /nk−1 en fonction de k pour les données de
l’exercice 7.7
7.7 Tout d’abord, il est clair distributions continues normale et gamma ne
sont pas appropriées pour modéliser la fréquence de sinistres.
Pour choisir parmi les autres distributions possibles, on peut comparer la
moyenne et la variance échantillonales. On a µ̂ = 2 et σ̂2 = 1,496. Comme
µ̂ > σ̂2 , la loi binomiale est le meilleur choix.
La figure E.17 montre le graphique de k p̂k / p̂k−1 = knk /nk−1 en fonction
de k pour k = 1, . . . , 6. La pente est clairement négative. Ceci indique donc
que le membre de la famille ( a, b, 0) avec a < 0, soit la binomiale, est le
meilleur choix.
7.8 On regroupe les trois dernières classes pour obtenir une fréquence significative pour le calcul de la statistique. Si N ∼ Poisson(0,6), on a
E0 = 365Pr( N = 0) = 200,32
E1 = 365Pr( N = 1) = 120,19
E2 = 365Pr( N = 2) = 36,06
E3+ = 365Pr( N ≥ 3)
= 365 − E0 − E1 − E2 = 8,43.
Solutions
143
On a les nombres de sinistres observés n0 = 209, n1 = 111, n2 = 33 et
n3+ = 12. La valeur de la statistique de Pearson est donc
( n j − E j )2
Ej
j =0
3
Q=
∑
(209 − 209.32)2 (111 − 120,19)2
+
209,32
120,19
(33 − 36,06)2 (12 − 8,43)2
+
+
36,06
8,43
= 2,85.
=
Bibliographie
Béguin, L.-P. 1990, Lexique général des assurances : lexique anglais-français et
français-anglais, Cahiers de l’Office de langue française, Publications du
Québec, ISBN 2-55114107-9.
Charbonnier, J. 2004, Dictionnaire de la gestion des risques et des assurances, La
Maison Du Dictionnaire, Paris, ISBN 978-2-85608178-5.
Dutang, C., V. Goulet et M. Pigeon. 2008, «actuar: An R package for actuarial science», Journal of Statistical Software, vol. 25, no 7. URL http:
//www.jstatsoft.org/v25/i07.
Klugman, S. A., H. H. Panjer et G. Willmot. 1998, Loss Models: From data to
Decisions, Wiley, New York, ISBN 0-4712388-4-8.
Klugman, S. A., H. H. Panjer et G. Willmot. 2004, Loss Models: From Data to
Decisions, 2e éd., Wiley, New York, ISBN 0-4712157-7-5.
Klugman, S. A., H. H. Panjer et G. Willmot. 2008a, Loss Models: From Data to
Decisions, 3e éd., Wiley, New York, ISBN 978-0-470-18781-4.
Klugman, S. A., H. H. Panjer et G. Willmot. 2008b, Solutions Manual to Accompany Loss Models: From Data to Decisions, 3e éd., Wiley, New York, ISBN
978-0-470-38571-5.
R Development Core Team. 2009, R: A Language and Environment for Statistical
Computing, R Foundation for Statistical Computing, Vienna, Austria. URL
http://www.r-project.org.
Venables, W. N. et B. D. Ripley. 2002, Modern Applied Statistics with S, 4e éd.,
Springer, New York, ISBN 0-3879545-7-0.
145
ISBN 978-2-9811416-1-3
9 782981 141613
Téléchargement