Modélisation de la dépendance entre les

publicité
RICHARD VERMETTE
Modélisation de la dépendance entre les garanties
applicables en assurance automobile
Mémoire présenté
à la Faculté des études supérieures de l’Université Laval
dans le cadre du programme de maîtrise en statistique
pour l’obtention du grade de Maître ès sciences (M.Sc.)
FACULTÉ DES SCIENCES ET DE GÉNIE
UNIVERSITÉ LAVAL
QUÉBEC
2011
c
⃝Richard
Vermette, 2011
Résumé
Dans un portefeuille d’assurance automobile, différents types de réclamations peuvent survenir pour chaque police en vigueur. En cas de collision entre deux véhicules,
l’assuré peut déposer une réclamation pour dommages corporels et matériels à luimême et à autrui. Traditionnellement, ces types de risques ont été considérés comme
indépendants afin d’en faciliter la modélisation stochastique. Dans la pratique, on observe toutefois une dépendance entre les montants de ces réclamations dont il importe
de tenir compte pour mieux quantifier le risque global du portefeuille. Frees et Valdez
(2008) ont proposé un modèle permettant de considérer certaines dépendances entre les
fréquences et les sévérités des garanties impliquées dans les réclamations d’une même
police d’assurance. Dans ce mémoire, deux structures de modèles inspirées de celle de
Frees et Valdez (2008) sont proposées pour modéliser les sinistres d’un portefeuille d’assurance automobile de l’Ontario. L’ajustement des modèles est réalisé par la méthode
de vraisemblance maximale ainsi que par une approche bayésienne.
Avant-propos
Je tiens tout d’abord à remercier mon directeur de recherche, M. Thierry Duchesne,
professeur au Département de mathématiques et de statistique de l’Université Laval,
ainsi que mon co-directeur, M. Christian Genest, professeur au Département de mathématiques et de statistique de l’Université McGill, pour leur disponibilité, mais aussi
pour toute l’aide et le soutien qui ont été nécessaires à la réalisation de ce projet. Je
tiens spécialement à remercier M. Duchesne pour la qualité de ses conseils dans ce projet
et dans la rédaction de ce mémoire, mais aussi pour avoir partagé tant d’enrichissantes
discussions au cours de la dernière année.
J’aimerais aussi remercier mes superviseurs de la compagnie d’assurance, M. Étienne
Plante-Dubé et M. Danaïl Davidov, qui m’ont permis d’apprendre énormément dans
le domaine de l’assurance et qui m’ont aussi très bien guidé lors de la réalisation de
ce projet. Je tiens d’ailleurs à remercier Danaïl pour toutes les heures où nous avons
échangé des courriels afin de discuter du projet. Un merci spécial à M. Mathieu Francœur qui a contribué au projet en apportant des informations et des suggestions qui
furent très utiles dans sa conception et sa réalisation.
Mes remerciements vont aussi au Fonds québécois de la recherche sur la nature et
les technologies (FQRNT), au fonds de subvention MITACS Accélération, ainsi qu’à
l’Université Laval pour les fonds octroyés à la réalisation de ce projet.
Finalement, je suis reconnaissant envers ma fiancée Lucie et toute ma famille pour
leur soutien et leur amour qui ont été une motivation supplémentaire à la réussite de
ce projet et de mes études.
Table des matières
Résumé
ii
Avant-Propos
iii
Table des matières
vi
Liste des tableaux
ix
Liste des figures
xi
1 Introduction
1.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Objectifs du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
3
2 Revue de la littérature
2.1 Structure des données . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Composante 1 : Fréquence des demandes d’indemnisation . . . .
2.2.2 Composante 2 : Type de réclamations effectuées lors des demandes d’indemnisation . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Composante 3 : Sévérité des montants pour chaque type de réclamation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
5
7
7
11
3 Analyses préliminaires
3.1 Provenance des données . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Covariables préliminaires . . . . . . . . . . . . . . . . . .
3.1.2 Variables dépendantes d’intérêt . . . . . . . . . . . . . .
3.1.3 Utilisation de la fréquence des demandes d’indemnisation
3.1.4 Autres détails sur le jeu de données . . . . . . . . . . . .
3.1.5 Logiciel utilisé pour le projet . . . . . . . . . . . . . . . .
3.2 Analyses préliminaires de la dépendance . . . . . . . . . . . . .
3.2.1 Modélisation de la dépendance entre les sévérités . . . .
3.2.2 Modélisation de la dépendance entre les fréquences . . .
14
14
14
15
18
18
19
20
20
23
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
v
.
.
.
.
24
25
27
29
.
.
.
.
.
.
.
.
32
33
35
40
43
46
49
50
53
.
.
.
.
54
54
55
60
62
6 Analyses bayésiennes
6.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Résultats de l’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Reproduction d’un portefeuille . . . . . . . . . . . . . . . . . . . . . . .
63
64
68
69
7 Conclusion
73
Bibliographie
75
A Autres résultats des analyses préliminaires
A.1 Résultats de la régression logistique . . . . . . . . . . . . .
A.2 Résultats complémentaires de l’analyse de la variance . . .
A.3 Résultats complémentaires sur la dépendance des montants
A.4 Histogrammes des montants de sévérité . . . . . . . . . . .
78
78
79
80
83
3.3
3.4
3.2.3 Modélisation de la fréquence étant donné la sévérité
3.2.4 Modélisation de la sévérité étant donné la fréquence
Imputation de données . . . . . . . . . . . . . . . . . . . .
Résumé des analyses préliminaires . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Structure des modèles
4.1 Structure hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Choix de la loi pour les modèles de sévérité . . . . . . . . . . .
4.1.2 Loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.3 Sélection des covariables . . . . . . . . . . . . . . . . . . . . .
4.1.4 Utilisation du modèle hybride dans la pratique actuarielle . . .
4.2 Structure hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.1 Régression logistique . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Utilisation du modèle hiérarchique dans la pratique actuarielle
5 Résultats des analyses
5.1 Structure hybride . . . . . . . .
5.1.1 Modèle de tarification .
5.1.2 Modèle d’indemnisation
5.2 Structure hiérarchique . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . . . . .
. . . . . . .
de sévérité
. . . . . . .
B Théorie : Imputation multiple
87
C Résultats de l’ajustement des modèles
C.1 Résultats du choix des modèles de sévérité . . . . . . . . . . . . . . . .
C.2 Résultats pour les modèles logistiques . . . . . . . . . . . . . . . . . . .
89
89
91
D Résultats des analyses
92
vi
D.1 Structure hybride . . . . . . . .
D.1.1 Modèle de tarification .
D.1.2 Modèle d’indemnisation
D.2 Structure hiérarchique . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
94
94
99
104
E Échantillonneur de Gibbs
107
F Résultats de l’analyse bayésienne
109
Liste des tableaux
2.1
2.2
2.3
3.1
3.2
3.3
3.4
3.5
Covariables utilisées lors de l’ajustement des modèles pour la composante
de la fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Combinaison possible de chaque type de réclamation . . . . . . . . . .
Définition de chaque type de réclamation . . . . . . . . . . . . . . . . .
9
10
10
Covariables préliminaires à considérer dans le projet . . . . . . . . . . .
Explication des garanties considérées . . . . . . . . . . . . . . . . . . .
Mesures de dépendance entre les sévérités des garanties . . . . . . . . .
Tests sur les rapports de cotes . . . . . . . . . . . . . . . . . . . . . . .
Moyenne des montants de chaque garantie selon le type de garanties
réclamées lors d’un même accident . . . . . . . . . . . . . . . . . . . .
Estimation des paramètres de la régression logistique de la fréquence de
la garantie AB en fonction du montant de dommages matériels DOMM
Effets significatifs de la fréquence des garanties sur le montant de dommages AB par une analyse de la variance . . . . . . . . . . . . . . . . .
Combinaisons possibles des types de réclamation pour les analyses de ce
projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Moyenne des montants de chaque garantie selon le type de garanties
réclamées lors d’un même accident : Retrait de la garantie TPL-PD . .
15
16
22
24
4.1
Distributions considérés pour l’ajustement des modèles de sévérité . . .
36
5.1
Coefficients estimés pour le modèle de sévérité des dommages matériels
pour la covariable relative à l’âge du conducteur principal assuré . . . .
Variation des coefficients du modèle multinomial en considérant la probabilité de deux modalités fixées . . . . . . . . . . . . . . . . . . . . . .
3.6
3.7
3.8
3.9
5.2
6.1
6.2
6.3
Covariables utilisées lors de l’ajustement du modèle bayésien . . . . . .
Comparaison des valeurs prédites de la valeur totale des indemnités versées selon la première approche avec les valeurs observées des 1000 portefeuilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Comparaison des valeurs prédites de la valeur totale des indemnités versées selon la deuxième approche avec les valeurs observées des 1000 portefeuilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
25
26
30
30
57
59
67
71
72
viii
A.1 Estimation des paramètres de la régression logistique de la fréquence de
la garantie TPL-BI en fonction du montant de dommages matériels DOMM
A.2 Estimation des paramètres de la régression logistique de la fréquence
de la garantie TPL-PD en fonction du montant de dommages matériels
DOMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.3 Effets de la fréquence des garanties sur le montant de dommages DOMM
par une analyse de la variance . . . . . . . . . . . . . . . . . . . . . . .
A.4 Effets de la fréquence des garanties sur le montant de dommages BI par
une analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . .
C.1 Résultats de l’ajustement des distributions considérées
de sévérité des dommages matériels . . . . . . . . . . .
C.2 Résultats de l’ajustement des distributions considérées
de sévérité des blessures corporelles . . . . . . . . . . .
pour
. . .
pour
. . .
le modèle
. . . . . .
le modèle
. . . . . .
78
78
79
79
89
90
D.1 Explication des covariables utilisées dans les modèles présentés . . . . .
93
D.2 Résultats partiels de l’estimation des paramètres du modèle de sévérité
de dommages matériels du véhicule assuré (garantie DOMM) pour la
structure hybride de tarification selon la méthode du maximum de vrai94
semblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
D.3 Résultats partiels de l’estimation des paramètres du modèle multinomial
pour la structure hybride de tarification selon la méthode du maximum
de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
D.4 Résultats partiels de l’estimation des paramètres du modèle de sévérité
des blessures corporelles subies par l’assuré (garantie AB) pour la structure hybride de tarification selon la méthode du maximum de vraisemblance 96
D.5 Résultats partiels de l’estimation des paramètres du modèle de sévérité des dommages matériels du véhicule assuré (garantie DOMM) pour
la structure hybride d’indemnisation selon la méthode du maximum de
vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
99
D.6 Résultats partiels de l’estimation des paramètres du modèle multinomial
pour la structure hybride d’indemnisation selon la méthode du maximum
de vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
D.7 Résultats partiels de l’estimation des paramètres du modèle de sévérité pour les blessures corporelles subies par l’assuré (garantie AB) pour
la structure hybride d’indemnisation selon la méthode du maximum de
vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
D.8 Résultats partiels de l’estimation des paramètres du modèle logistique
expliquant la présence d’une réclamation pour les blessures corporelles
subies par l’assuré (garantie AB) pour la structure hiérarchique d’indemnisation selon la méthode du maximum de vraisemblance. . . . . . . . . 104
ix
D.9 Résultats partiels de l’estimation des paramètres du modèle de sévérité
pour les blessures corporelles subies par l’assuré (garantie AB) pour la
structure hiérarchique d’indemnisation selon la méthode du maximum
de vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
F.1 Estimation des paramètres par la méthode bayésienne et par la méthode
du maximum de vraisemblance pour le modèle de sévérité des dommages
matériels du véhicule assuré. . . . . . . . . . . . . . . . . . . . . . . . .
F.2 Estimation des paramètres par la méthode bayésienne et par la méthode
du maximum de vraisemblance pour la loi multinomiale. . . . . . . . .
105
109
110
Liste des figures
4.1
4.2
Structure du modèle hybride . . . . . . . . . . . . . . . . . . . . . . . .
Structure du modèle hiérarchique . . . . . . . . . . . . . . . . . . . . .
34
50
A.1
A.2
A.3
A.4
A.5
Graphique des rangs pour les sévérités des garanties AB et DOMM . .
Graphique des rangs pour les sévérités des garanties TPL-PD et DOMM
Graphique des rangs pour les sévérités des garanties TPL-BI et AB . .
Histogramme des montants de sévérité des dommages matériels . . . .
Histogramme des montants de sévérité des blessures à la personne assurée
sachant qu’il n’y a pas de réclamation pour des blessures à une tierce
personne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histogramme des montants de sévérité des blessures à la personne assurée
sachant qu’il y a aussi une réclamation pour des blessures à une tierce
personne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histogramme des montants de sévérité des blessures à une tierce personne
sachant qu’il n’y a pas de réclamation pour des blessures à la personne
assurée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histogramme des montants de sévérité des blessures à une tierce personne
sachant qu’il y a aussi une réclamation pour des blessures à la personne
assurée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Histogramme des montants de sévérité des dommages matériels avec la
densité estimée de la loi gamma . . . . . . . . . . . . . . . . . . . . . .
80
81
82
83
A.6
A.7
A.8
A.9
C.1 Courbe ROC obtenue pour le modèle logistique concernant la présence
d’une réclamation pour les blessures corporelles à l’assuré. . . . . . . .
84
84
85
85
86
91
D.1 Valeurs observées et prédites du montant de sévérité des dommages matériels par le modèle hybride de tarification pour la population classée
selon l’âge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
D.2 Différentiels du montant de sévérité des dommages matériels par le modèle hybride de tarification pour la population classée selon l’âge. . . .
97
D.3 Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI
par le modèle hybride de tarification pour la population classée selon l’âge. 98
xi
D.4 Différentiels de la probabilité de la présence d’une réclamation pour la
garantie AB et d’une réclamation pour la garantie BI par le modèle
hybride de tarification pour la population classée selon l’âge. . . . . . .
D.5 Valeurs observées et prédites du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de
responsabilité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
D.6 Différentiels du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de responsabilité. . .
D.7 Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par
le modèle hybride d’indemnisation selon le pourcentage de responsabilité.
D.8 Différentiels de la probabilité de la présence d’une réclamation pour la
garantie AB et d’une réclamation pour la garantie BI par le modèle
hybride d’indemnisation selon le pourcentage de responsabilité. . . . . .
D.9 Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB par le modèle hiérarchique d’indemnisation
selon le pourcentage de dommages matériels réclamés par rapport à la
valeur actuelle du véhicule. . . . . . . . . . . . . . . . . . . . . . . . . .
D.10 Différentiels de la probabilité de la présence d’une réclamation pour la
garantie AB par le modèle hiérarchique d’indemnisation selon le pourcentage de dommages matériels réclamés par rapport à la valeur actuelle
du véhicule. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
102
102
103
103
106
106
Chapitre 1
Introduction
Le domaine de l’assurance en est un où la recherche de nouvelles méthodes est
omniprésente afin d’améliorer et de peaufiner les pratiques actuelles dans le but d’attirer
de nouveaux clients, mais aussi de convaincre les anciens clients de renouveler leurs
assurances au sein de la même compagnie. En général, ce qui va attirer les clients à
demander une soumission d’une compagnie d’assurances, c’est sa renommée. Les clients
potentiels sont aussi attirés par les stratégies de marketing des compagnies, notamment
par le truchement de la télévision, de la radio ou d’Internet. Il y a aussi toutes les
nouvelles applications en ligne qui permettent de soumettre rapidement une demande
d’assurances, et depuis peu, les compagnies commencent à offrir ces applications sur
les cellulaires intelligents comme le iPhone et les BlackBerry afin de rejoindre une plus
vaste clientèle.
Toutefois, on oublie souvent que derrière toutes ces nouvelles publicités et applications, c’est la recherche actuarielle qui permet aux compagnies d’assurances d’être à
la fois compétitives avec des tarifs concurrentiels et à l’abri de la faillite. Ces efforts
constants permettent à chaque compagnie d’assurances d’améliorer sa compétitivité
dans un marché où il est difficile de faire sa place. La recherche permet aussi à la
compagnie d’assurances de s’assurer qu’elle prend les dispositions nécessaires pour faire
face aux imprévus et qu’elle dispose des réserves monétaires suffisantes pour pallier aux
différents problèmes qui peuvent se présenter.
Dans le cadre de ce projet, notre intérêt s’est porté vers l’assurance automobile.
Chaque compagnie connaît l’importance de bien cibler les personnes qui sont susceptibles d’avoir un accident et de déposer une réclamation auprès de l’assureur. De plus,
lorsqu’un accident se produit, il est important pour l’assureur de bien évaluer les coûts
qui seront associés à l’indemnisation de l’assuré. En ciblant les différents groupes à
Chapitre 1. Introduction
2
risque, la compagnie peut alors offrir des tarifs avantageux aux groupes de personnes
présentant un risque moins élevé. Aux personnes jugées plus à risque, l’assureur pourra
offrir un tarif plus élevé que la moyenne ou tout simplement refuser de les assurer.
L’objectif de ce projet est de cibler ces différents groupes de personnes afin que l’assureur puisse prendre connaissance des risques qui leur sont liés et instaurer les mesures
appropriées.
1.1
Problématique
Au Québec, l’assurance automobile est en partie gérée par les assureurs privés et par
le gouvernement via la Société d’assurance automobile du Québec (SAAQ). La SAAQ
s’occupe de l’indemnisation des blessures corporelles subies lors d’un accident, alors
que les compagnies d’assurances s’occupent de l’indemnisation des dommages matériels
aux véhicules assurés. Toutefois, dans le reste du Canada, la situation est différente. Par
exemple, en Ontario, il n’y a aucune indemnisation offerte par une société d’état pour
les blessures corporelles subies dans un accident de la route. Ce sont donc les compagnies d’assurances qui ont le mandat de régler le total de la facture pour les dommages
matériels et corporels. Pour ces derniers, on inclut les différents dédommagements relatifs aux blessures subies, soit le remplacement de salaire de l’assuré, une indemnisation
pour vices corporels (cicatrice ou toute marque apparente), le remboursement de frais
afférents à la blessure (location de béquilles ou d’un fauteuil roulant, etc.), ainsi que
toute autre réclamation relative aux blessures subies lors de l’accident.
Pour les compagnies d’assurances, il est donc primordial d’élaborer des modèles de
prévision fiables pour les différents types de réclamations qui peuvent se produire. Les
compagnies possèdent généralement des informations très détaillées pour les réclamations de dommages matériels, car on connaît les caractéristiques de l’assuré et de son
véhicule. L’indemnité ne peut d’ailleurs jamais dépasser un certain seuil qui est généralement la valeur actuelle du véhicule assuré. Pour ce qui est des dommages corporels, les
montants de réclamation sont plus difficiles à prédire. L’indemnité peut dépendre d’une
multitude de facteurs, surtout pour les cas où une personne est blessée grièvement lors
de l’accident. Par exemple, si l’assuré ne peut retourner travailler suite à l’accident, il
y aura notamment une indemnité de remplacement de salaire qui dépendra de la durée
de l’absence, du salaire de l’assuré, etc.
Chapitre 1. Introduction
1.2
3
Objectifs du projet
Ce mémoire résume les analyses effectuées dans le cadre d’un projet de recherche
subventionné par l’organisme MITACS et réalisé en collaboration avec une compagnie
d’assurances canadienne. Dans ce projet, plusieurs modèles ont été envisagés afin de
bien répondre à la problématique exposée. Ces modèles ont été construits à partir
d’une structure hiérarchique proposée par Frees et Valdez (2008) dont un résumé sera
présenté au chapitre 2. Ce modèle permet d’incorporer la corrélation qui peut exister
entre les sévérités et les fréquences des réclamations pour différentes garanties présentes
dans une police d’assurances.
Le premier objectif de ce mémoire est d’ajuster cette structure à la banque de
données d’assurance automobile de la compagnie en Ontario. Si la structure proposée
par Frees et Valdez s’avère inadéquate, quelques modifications y seront apportées afin
qu’elle soit la plus représentative possible. Afin de valider l’utilisation de la structure
de Frees et Valdez, certaines analyses préliminaires seront présentées au chapitre 3.
À partir de celles-ci, il sera alors plus facile de proposer des structures de modèles qui
sont appropriées à notre problématique. Les différentes structures utilisées dans le projet
sont décrites au chapitre 4, où la théorie sous-jacente aux différents modèles proposés
sera exposée. De plus, une liste des différentes applications actuarielles de ces modèles
sera présentée. Les résultats concrets obtenus à partir des modèles seront présentés au
chapitre 5.
Le deuxième objectif du mémoire consiste à appliquer une approche bayésienne
appropriée pour l’une des structures utilisées dans ce projet. Le but est de développer
un algorithme de simulation par chaîne de Markov afin d’obtenir les lois a posteriori et
prédictives applicables à la base de données de l’Ontario. Cette approche bayésienne,
ainsi que la théorie s’y rattachant, est expliquée au chapitre 6.
Chapitre 2
Revue de la littérature
Il existe une multitude de modèles actuariels permettant d’obtenir des prévisions
fiables des montants de futures réclamations à partir de différentes observations faites
sur un assuré. Parmi les informations utiles aux modèles actuariels, on retrouve notamment les caractéristiques de l’assuré (âge, sexe, etc.), les caractéristiques du véhicule
assuré (marque et modèle du véhicule, cylindrée du moteur, etc.), le type d’assurance,
ainsi que les réclamations effectuées dans le passé. Ces différentes observations sont
souvent connues pour chaque année de validité du contrat d’assurance.
Le modèle qui sert de base à l’élaboration de ce projet est celui proposé par Frees
et Valdez (2008). Ces auteurs se sont intéressés aux trois types de réclamations qui
peuvent être effectuées dans le cadre d’une demande d’indemnisation, soient :
– les blessures à une tierce partie ;
– les dommages subis par l’assuré, ce qui inclut les blessures de l’assuré, les dommages subis par le véhicule de l’assuré, l’incendie du véhicule, le vol du véhicule ;
– les dommages causés à une propriété (véhicule, etc.) appartenant à une tierce
partie.
Leur objectif était d’établir un modèle qui permette de prédire un montant pour
chaque type de garantie impliquée. Par comparaison, les modèles traditionnels visent
seulement à fournir une prévision du montant global de la réclamation, c’est-à-dire
la somme des garanties impliquées. Pour atteindre leur but, Frees et Valdez ont proposé de travailler avec un modèle hiérarchique à trois composantes qui correspondent
respectivement à la fréquence, au type et à la sévérité des réclamations.
Chapitre 2. Revue de la littérature
5
Les données utilisées par Frees et Valdez proviennent du Bureau de l’Assurance Générale (GIA) de Singapour. Il s’agit d’une organisation regroupant la majorité des compagnies d’assurances générales de cette région. Les observations utilisées proviennent
de chaque police d’assurance qui était valide entre les mois de janvier 1993 et décembre
2001, soit une période de neuf ans. Les observations proviennent de trois bases de données : les polices d’assurance, les dossiers de réclamations et les dossiers d’indemnisation.
Les dossiers des polices d’assurance permettent de connaître les différentes caractéristiques du véhicule et de l’assuré, ainsi que la période où l’assurance a été valide. Les
dossiers de réclamations permettent d’obtenir le nombre d’accidents pour lesquels l’assuré a effectué une réclamation. Finalement, les dossiers d’indemnisation permettent de
connaître les montants payés pour chaque type de réclamation.
Frees et Valdez n’ont considéré que les polices d’assurance où seul un véhicule était
assuré. Ceci représente environ 90% des polices d’assurance de l’ensemble des compagnies étudiées. Donc, l’unité d’observation pour leurs analyses était un véhicule assuré
par l’une des neuf compagnies d’assurances pendant une année comprise entre 1993
et 2001. Afin de s’assurer que chaque type de réclamation était possible pour chaque
demande d’indemnisation, seules les polices d’assurance comprenant une couverture
complète ont été considérées ; une couverture complète comprend une assurance pour
chaque type de réclamation, tandis qu’une couverture partielle peut ne couvrir que les
dommages commis à une tierce partie.
2.1
Structure des données
Pour faciliter la compréhension des données, nous employons la même notation
que Frees et Valdez (2008). Tout d’abord, chaque véhicule admissible assuré par la
compagnie d’assurances est dénoté par i et chaque année entre 1993 et 2001 par t.
Pour chaque unité d’observation it, les différentes variables réponses observées sont les
suivantes :
– Nit , le nombre de demandes d’indemnisation effectuées durant l’année t pour le
véhicule i ;
– Mit,j , le type de réclamation pour chaque demande d’indemnisation, j = 1,. . . ,Nit ;
– Cit,jk , le montant de chaque type de réclamation, k = 1,2,3 et pour chaque demande d’indemnisation, j = 1,. . . ,Nit .
Lorsqu’une demande d’indemnisation est déposée, elle peut être constituée d’une
seule réclamation ou d’une combinaison de plusieurs types de réclamations. Comme il
Chapitre 2. Revue de la littérature
6
y a trois types de réclamations dans les données considérées par Frees et Valdez, il y
a sept possibilités différentes de combinaisons de ces types, à savoir : les trois types de
réclamations individuelles, trois combinaisons formées par deux types de réclamations,
et la combinaison regroupant les trois types de réclamations.
Un autre aspect important que Frees et Valdez ont relevé dans leur base de données
est la présence d’une franchise pour la réclamation des dommages subis par l’assuré. En
effet, lors d’une demande d’indemnisation, le montant réclamé pour les pertes subies
par l’assuré peut être inférieur à la valeur de la franchise. Frees et Valdez ont donc défini
Cit,2k comme étant le montant excédant la franchise dit , et celui-ci est posé égal à zéro si
le montant de la réclamation est inférieur à la valeur de la franchise. Par conséquent, le
montant de la réclamation pour les pertes subies par l’assuré est une variable censurée
par la valeur 0.
De plus, toutes les caractéristiques du véhicule assuré, ainsi que celles de la personne
assurée, sont contenues dans le vecteur xit où x⊤
it = (xit1 , . . . , xitp ). Une autre variable
importante du jeu de données est la durée d’exposition du véhicule à risque pendant une
année donnée. Cette variable, dénotée eit , est mesurée en fraction d’année. L’ensemble
des informations contenues dans le jeu de données peut donc être résumé comme suit :
{dit , eit , Nit , M it , C it , xit ; t = 1, . . . , Ti ; i = 1, . . . , n},
où M it est un vecteur de Nit valeurs identifiant le type de garanties impliquées et C it
est la matrice de dimensions 3 × Nit des montants de chaque type de réclamation de
la police i lors de l’année t. Si aucune réclamation n’a été faite pour la police i lors de
l’année t, on impute la valeur 0 à M it et C it .
La base de données comprend n = 96 014 véhicules assurés où le ième véhicule a été
observé Ti années entre 1993 et 2001 ; un véhicule peut donc avoir été observé pendant
un maximum de neuf années. Le jeu de données totalise 199 352 observations, pour une
moyenne de 2.08 observations par véhicule assuré. À l’examen du facteur d’exposition
eit , Frees et Valdez ont conclu que les véhicules étaient observés sur une moyenne de
1.29 années.
Chapitre 2. Revue de la littérature
2.2
7
Modèle
Le modèle utilisé par Frees et Valdez comporte trois composantes. La première sert
à établir la fréquence des demandes d’indemnisation qui seront effectuées par l’assuré
dans une année donnée. La deuxième vise à modéliser les types de réclamations qui
seront incluses dans la demande d’indemnisation effectuée par l’assuré. Finalement, la
troisième modélise le montant qui sera versé pour chaque type de réclamation de chaque
demande d’indemnisation déposée par l’assuré. On peut donc exprimer la distribution
conjointe de ces trois composantes de la façon suivante :
f (N, M, C) = f (N ) × f (M|N ) × f (C|M, N ),
Conjointe = (Fréquence) × (Type de réclamations sachant la fréquence) ×
(Sévérité des réclamations sachant leur type et leur fréquence).
Frees et Valdez ont analysé chaque composante indépendamment des deux autres.
Il peut exister une corrélation entre le nombre de demandes d’indemnisation effectuées
dans une année, le type de réclamation, ainsi que le montant accordé pour chaque
réclamation. Toutefois, cette corrélation n’a pas été mesurée et n’a pas été prise en
compte dans leur analyse. De plus, Frees et Valdez avaient choisi préalablement des
covariables, toutes présentes dans le vecteur x, qui étaient communes à la fréquence, aux
types et à la sévérité des réclamations. Ceci avait pour but de faciliter la présentation de
leur modèle. Toutefois, ils ont décidé de n’utiliser, dans chaque composante du modèle,
que les covariables qui avaient un effet significatif.
2.2.1
Composante 1 : Fréquence des demandes d’indemnisation
Les modèles de prévision de la fréquence des demandes d’indemnisation ont fait l’objet de multiples analyses dans la littérature actuarielle. Pour leurs analyses des données
de Singapour, Frees et Valdez ont décidé d’utiliser des modèles standards de dénombrement avec effets aléatoires (Frees, 2004). Parmi les modèles considérés pour cette étude,
on retrouve notamment un modèle de Poisson et un modèle binomial négatif, avec ou
sans la présence d’effets aléatoires.
Chapitre 2. Revue de la littérature
8
La formule employée par Frees et Valdez pour modéliser la fréquence est de la forme :
(
)
λit = eit exp αλi + xit⊤ βλ ,
où
λit
αλi
eit
= moyenne pour l’unité d’observation it ;
= variable qui permet de tenir compte de la dépendance entre les
différentes années d’observations pour une même unité it ;
= proportion de l’année t où la police d’assurance de l’assuré i
était en vigueur.
La vraisemblance de ce modèle de fréquence pour l’assuré i est alors exprimée par :
∫
LF,i =
où
Pr (Ni1 = ni1 , . . . , NiTi = niTi |αλi ) f (αλi ) dαλi ,
(
1
1 αλi − µ
f (αλi ) = √ exp{−
2
σ
σ 2π
)2
}.
Frees et Valdez ont supposé que les nombres Ni1 , . . . , NiTi de demandes d’indemnisation sont indépendants étant donné αλi , ce qui implique que la probabilité conjointe
des fréquences de réclamation de l’assuré i est donnée par :
Pr (Ni1 = ni1 , . . . , NiTi = niTi |αλi ) =
Ti
∏
Pr (Nit = nit |αλi ) .
t=1
Pour l’ajustement de ce modèle, les covariables retenues par Frees et Valdez sont
énumérées au tableau 2.1. Les interactions entre certaines de ces covariables, ainsi que
certaines relations non-linéaires, ont aussi été ajoutées au modèle. Après avoir examiné
les données, Frees et Valdez se sont concentrés sur cinq modèles de prévision, soient :
–
–
–
–
–
le
le
le
le
le
modèle
modèle
modèle
modèle
modèle
de Poisson sans covariable ;
de Poisson avec covariables ;
de Poisson avec covariables et effets aléatoires ;
avec loi binomiale négative avec covariables ;
avec loi binomiale négative avec covariables et effets aléatoires.
Chapitre 2. Revue de la littérature
9
Tableau 2.1 – Covariables utilisées lors de l’ajustement des modèles pour la composante
de la fréquence
Covariable
Année
Type de véhicule
Âge du véhicule
Sexe de l’assuré
Âge de l’assuré
NCD (No Claims Discount)
Description
Années 1993 à 2001 inclusivement
Le type de véhicule assuré, soit l’usage privé ou commercial
Âge du véhicule groupé en 7 catégories
Homme ou femme
Âge de l’assuré groupé en 7 catégories
Rabais basé sur les réclamations effectuées dans le passé par
l’assuré. Si le rabais est élevé, cela signifie que l’assuré a
effectué peu ou pas de réclamations dans le passé.
Il s’agit d’une valeur continue.
Pour chaque modèle, les mêmes covariables ont été considérées afin de cerner le
meilleur choix possible. Les auteurs ont utilisé le maximum de vraisemblance pour
l’ajustement de chaque modèle, ainsi que la méthode de Bayes empirique pour la prévision des effets aléatoires. Pour déterminer le modèle qui fournit les meilleures prévisions,
Frees et Valdez ont opté pour le test de Pearson fondé sur la statistique du khi-deux. Ce
test permet de comparer les valeurs réelles aux valeurs prédites du nombre de demandes
d’indemnisation de chaque unité d’observation. Dans le cas des données de Singapour, le
meilleur modèle était celui de la binomiale négative avec covariables. Les deux modèles
comportant des effets aléatoires ont conduit aux pires prévisions.
2.2.2
Composante 2 : Type de réclamations effectuées lors des
demandes d’indemnisation
Lors de la discussion de la structure des données utilisées à la section 2.1, nous
avons présenté les trois types de réclamations possibles, ainsi que les sept combinaisons
susceptibles de se produire lors d’une demande d’indemnisation. Conditionnellement
au fait que l’assuré effectue au moins une demande d’indemnisation durant l’année, la
variable M représente la combinaison des types de réclamations observée dans chaque
demande d’indemnisation. Les définitions de chaque type de réclamation et de chaque
combinaison se trouvent respectivement aux tableaux 2.2 et 2.3.
Frees et Valdez ont utilisé un modèle « logit » multinomial pour décrire la probabilité
que la combinaison M soit présente lors de la prochaine demande d’indemnisation de
Chapitre 2. Revue de la littérature
10
Tableau 2.2 – Combinaison possible de chaque type de réclamation
Valeur de M
1
2
3
4
5
6
7
Types de réclamations
impliquées
C1
C2
C3
C1 , C2
C1 , C3
C2 , C3
C1 , C2 , C3
Tableau 2.3 – Définition de chaque type de réclamation
Paramètre
Type de réclamation
C1
Montant des blessures à une tierce partie
C2
Montant des dommages subis par l’assuré, ce qui inclut les blessures
de l’assuré, les dommages subis par le véhicule de l’assuré, l’incendie du
véhicule, le vol du véhicule
C3
Montant des dommages subis par une propriété (véhicule, etc.)
appartenant à une tierce partie.
l’assuré i durant l’année t. Afin d’inclure les covariables dans le modèle, les auteurs ont
spécifié des probabilités de la forme suivante :
exp (Vit,m )
,
Pr (M = m) = ∑7
s=1 exp (Vit,s )
m = 1, . . . , 7,
où les covariables sont incluses via la variable Vit,m = xit⊤ βM,m . Pour le jeu de données de Singapour, Frees et Valdez ont jugé que les caractéristiques concernant l’assuré
n’étaient pas des covariables significatives du modèle. Les seules covariables influentes
étaient celles concernant les caractéristiques de l’automobile et l’année d’observation.
Frees et Valdez ont aussi inclus différentes interactions entre ces variables. Ils ont dichotomisé certaines covariables pour qu’elles soient plus faciles à traiter dans le modèle.
Par exemple, ils ont remplacé l’année par la variable indicatrice « Year1996 » qui précise
si l’année d’observation est antérieure ou postérieure à 1996.
Frees et Valdez ont choisi leurs covariables en fonction de maximiser la valeur de la
log-vraisemblance du modèle ajusté. Ils sont venus à la conclusion que les covariables
qui permettaient d’obtenir le meilleur ajustement étaient les trois suivantes :
– le type de véhicule assuré, soit l’usage privé ou commercial ;
– l’âge du véhicule assuré, dichotomisé selon que le véhicule est âgé de plus de deux
ans ou non ;
– l’année d’observation, dichotomisée selon que l’année est supérieure à 1996.
Chapitre 2. Revue de la littérature
2.2.3
11
Composante 3 : Sévérité des montants pour chaque type
de réclamation
Cette composante du modèle est la plus importante, car elle permet de prédire les
montants pour chaque type de réclamation. Tout d’abord, Frees et Valdez ont obtenu
un modèle marginal pour les trois types de réclamation. Ils ont ensuite testé différentes
copules paramétriques afin de modéliser la dépendance entre les montants des trois
types de réclamation.
Choix du modèle marginal
Pour chaque type de réclamation, les histogrammes des données de Singapour suggéraient l’utilisation de distributions à queue lourde pour le montant de sévérité. Plusieurs
types de distributions pour données non-négatives possèdent cette propriété. Frees et
Valdez ont opté pour la distribution bêta généralisée de deuxième type, dont la fonction
de densité est
fC (c) =
exp (α1 z)
,
c|σ|B (α1 , α2 ) [1 + exp(z)]α1 +α2
c ≥ 0,
où z = (ln c − µ) /σ et B (α1 , α2 ) = Γ(α1 )Γ(α2 )/Γ(α1 + α2 ).
Dans ce modèle, µ est un paramètre de localisation et σ est un paramètre d’échelle,
tandis que α1 et α2 sont des paramètres de forme. Les auteurs ont choisi cette distribution, car elle est fréquemment employée dans la littérature actuarielle. Ses quatre
paramètres lui donnent une grande flexibilité pour l’ajustement de données où les valeurs extrêmes sont plausibles.
Pour l’ajustement de cette fonction aux montants des réclamations de chaque type,
Frees et Valdez ont décidé que seuls les paramètres d’échelle et de forme pourraient
varier selon le type de réclamation. Afin d’inclure les covariables dans le modèle, le
paramètre de localisation est défini de la façon suivante : µk = x⊤ βC,k . La sélection des
covariables pour chaque type de réclamation s’est faite indépendamment, c’est-à-dire
que les covariables incluses dans un modèle marginal peuvent ne pas être retenues dans
le modèle marginal d’un autre type de réclamation. L’estimation des paramètres a été
faite à l’aide de la méthode du maximum de vraisemblance. Les auteurs ont utilisé des
graphiques quantiles-quantiles afin de valider les modèles marginaux obtenus.
Chapitre 2. Revue de la littérature
12
Dans le cas des réclamations pour les dommages à l’assuré (C2 ), il y a présence
de censure (voir section 2.1). Dans le jeu de données de Singapour, 2 529 des 20 503
réclamations présentent des montants réclamés inférieurs à la franchise, ce qui induit
une censure à zéro. Frees et Valdez ont donc fait appel à une vraisemblance qui tenait
compte de la censure afin d’estimer les paramètres pour le modèle marginal de sévérité
des dommages à l’assuré.
Choix de la copule
L’utilisation d’une copule paramétrique permet de modéliser la dépendance qui
existe entre les montants lorsque plusieurs types de réclamation sont présents dans
une demande d’indemnisation. La distribution conjointe entre les trois montants peut
s’écrire de la façon suivante :
F (c1 , c2 , c3 ) = Pr(C1 ≤ c1 , C2 ≤ c2 , C3 ≤ c3 )
= Pr (F1 (C1 ) ≤ F1 (c1 ), F2 (C2 ) ≤ F2 (c2 ), F3 (C3 ) ≤ F3 (c3 ))
= H (F1 (c1 ), F2 (c2 ), F3 (c3 )) .
La loi marginale du montant Cj de chaque type de réclamation est dénotée Fj (·).
La copule qui combine ces fonctions de répartition est H(·). Frees et Valdez se sont
concentrés sur deux types de copules, soient la copule normale et celle de Student. Ils se
sont intéressés à ces copules de façon particulière parce qu’elles font partie de la grande
famille des copules elliptiques. Cette famille a la propriété intéressante d’être invariante
par marginalisation, ce qui est un avantage lorsqu’on observe seulement une partie des
variables marginales (Genest et Nešlehová, 2010). Cette propriété était très importante
pour leur analyse, car les copules normale et de Student peuvent être utilisées même
lorsqu’un ou deux types de réclamations sont observés.
Frees et Valdez ont évalué la pertinence de modéliser la dépendance entre les montants de chaque type de réclamation en confrontant les copules normale et de Student à
la copule d’indépendance. Les vraisemblances de ces trois types de copules peuvent être
comparées, car ces structures de dépendance sont emboîtées. En effet, quand la copule
normale présente un paramètre de corrélation dont la valeur est nulle, elle devient alors
la copule d’indépendance ; par ailleurs, la copule normale est un cas limite de la copule
de Student correspondant au cas où le nombre de degrés de liberté tend vers l’infini. Les
degrés de liberté de la copule de Student sont déterminés par la méthode du maximum
de vraisemblance.
Chapitre 2. Revue de la littérature
13
Suite aux différentes modélisations, Frees et Valdez ont conclu que l’utilisation d’une
copule paramétrique était nécessaire, car les copules normale et de Student ont conduit
à un accroissement significatif de la vraisemblance du modèle. Enfin, la comparaison
des copules elliptiques entre elles a mené Frees et Valdez à privilégier la copule normale,
car elle est plus pratique et permet néanmoins d’obtenir d’aussi bons résultats que la
copule de Student.
Chapitre 3
Analyses préliminaires
3.1
Provenance des données
Les données utilisées pour nos analyses proviennent du registre des polices d’assurances souscrites en Ontario auprès d’une compagnie d’assurances canadienne pendant
la période s’étendant de 2003 à 2007. Il s’agit du même type de registre que la banque
de données utilisée par Frees et Valdez, soient les polices d’assurance, les dossiers de
réclamation et les dossiers d’indemnisation. Un total de 2 350 464 observations sont
présentes dans le jeu de données pour l’ensemble des cinq années analysées.
3.1.1
Covariables préliminaires
À partir de la banque de données des polices d’assurance, une liste de covariables
préliminaires a été établie afin de cibler les caractéristiques de l’assuré et du véhicule
qui devaient être considérées dans nos modèles. Ce sont des informations qui sont actuellement utilisées par la majorité des assureurs dans leur modèles respectifs. Cette
liste est présentée au tableau 3.1. Les modèles préliminaires ont tous été établis à partir
des informations de cette liste. Pour les modèles complets, une vingtaine de covariables
qui représentent d’autres caractéristiques de l’assuré viendront s’ajouter aux modèles
préliminaires.
Chapitre 3. Analyses préliminaires
15
Tableau 3.1 – Covariables préliminaires à considérer dans le projet
Covariable
Type de
Covariable
Age
Gender
Cie
Nombre Entier
Dichotomique
Dichotomique
Faq20
Catégorique
MaritalStatus Catégorique
NAP
Description
Valeurs possibles
Âge de la personne assurée
Sexe de la personne assurée
Division auprès de laquelle
l’assurance a été souscrite
Indique si l’assuré possède
l’avenant concernant la location
d’une voiture de remplacement
16 à 97 ans
Homme ou femme
1 ou 2
Statut marital de l’assuré
Nombre entier
Categmod
Nombre d’années de possession
d’un permis
Nombre entier
Nombre de véhicules assurés
par cette police d’assurance
Valeur continue Kilométrage effectué par
l’assuré durant l’année
Catégorique
Catégorie du véhicule assuré
Vehage
Nombre Entier
NBVT
Kmpleasure
3.1.2
Âge du véhicule assuré
Non, oui, deluxe
Célibataire, marié
veuf ou divorcé
0 à 78 ans
1à4
0 à 99 999 km
20 possibilités :
Compact, VUS, etc.
0 à 77 ans
Variables dépendantes d’intérêt
Dans ce projet, deux types de variables dépendantes nous intéressent. Il s’agit d’une
part de la sévérité des montants qui sont déboursés par la compagnie d’assurances
pour le remboursement des demandes d’indemnisation et d’autre part, de la fréquence
relative de chaque type de garantie sur l’ensemble des demandes d’indemnisations. Pour
chaque accident signalé, il peut y avoir un remboursement pour cinq types de garanties
différentes. Ces garanties sont présentées au tableau 3.2.
Dans la pratique, le montant associé à certaines de ces garanties est connu très
rapidement, alors que d’autres ne sont connus qu’au terme d’un processus judiciaire qui
détermine le coût du règlement. Pour DCPD et COLL, à savoir les garanties relatives
aux dommages matériels du véhicule assuré, le montant est fixé suite à la réparation ou
au remplacement du véhicule accidenté. L’assureur dispose donc rapidement de cette
information. Cependant, la valeur totale de l’indemnité pour la garantie AB, relative
Chapitre 3. Analyses préliminaires
16
Tableau 3.2 – Explication des garanties considérées
Garantie
Abréviation
Obligatoire
Direct Compensation
Property Damage
DCPD
Oui
Collision
COLL
Non
AB
Oui
TPL-PD
Oui
TPL-BI
Oui
Accident Benefit
Third Party Liabilities
Property Damage
Third Party Liabilities
Body Injury
Description
Dommages matériels
subis par la voiture de l’assuré
pour la proportion non-responsable
Dommages matériels
subis par la voiture de l’assuré
pour la proportion responsable
Dommages corporels à l’assuré
et aux victimes non-couvertes par AB
Dommages matériels à autrui
pour les situations où
DCPD ne s’applique pas
Dommages corporels à des victimes
non-responsables de l’accident autres
que l’assuré pour la portion
au-delà du seuil non-couvert par AB
aux blessures subies par l’assuré, ne sera connue que suite au rétablissement complet
de l’assuré. Celle-ci comprend le remboursement des frais engendrés par les soins, le
remplacement de salaire, etc. De plus, la garantie AB indemnise les personnes impliquées
dans l’accident qui n’étaient pas assurées par une police valide au moment de l’accident.
Cela contribue à augmenter l’indemnité déboursée.
Finalement, les montants des deux garanties TPL, relatives aux dommages subis par
autrui, ne sont généralement connus qu’à la suite d’un jugement de cour. En Ontario, les
personnes impliquées dans un accident ont la possibilité de poursuivre le responsable de
l’accident lorsqu’elles considèrent ne pas avoir été indemnisées à une juste valeur. Seule
une minorité de ces situations se règle hors cours par une entente entre l’assureur et
le requérant. Comme les procédures judiciaires sont généralement longues, le règlement
final n’est connu que quelques années après l’accident. Les montants de ces garanties dépendent de plusieurs facteurs externes aléatoires qui peuvent avoir une grande influence
sur le débours final. Par exemple, si l’auteur de ces lignes entrait en collision avec la
Maserati de Pierre-Karl Péladeau, il y a de fortes chances que le montant réclamé soit
plus élevé que s’il s’agissait d’une Honda Civic d’un étudiant de 20 ans.
Dans un autre constat beaucoup plus technique, si un jugement de cour devait attribuer un montant d’assurance plus élevé que le maximum applicable pour la garantie
AB, l’assuré pourrait alors réclamer la valeur excédentaire sur la garantie TPL. Toute-
Chapitre 3. Analyses préliminaires
17
fois, comme on ne connaît pas le plafond applicable à la garantie AB de chaque assuré,
il est impossible d’identifier les observations qui présentent cette particularité. Il est fort
probable que les hauts montants de AB qui sont accompagnés d’une valeur non nulle
pour TPL proviennent d’une telle situation. De plus, une autre particularité du jeu de
données est que pour la garantie AB, les montants de sévérité sont écrêtés à 82 000 $,
alors que pour les deux garanties TPL, ils sont écrêtés à 100 000 $. Par écrêtement,
on entend que si le montant réclamé excède une certaine valeur, par exemple 82 000 $
pour la garantie AB, sa valeur est automatiquement remplacée dans la base de données
par le plafond allouable, soit 82 000 $. Nous avons pris cette mesure afin d’éviter que
les accidents catastrophiques viennent influencer indûment l’ajustement des modèles.
Pour chaque demande de remboursement, on connaît le montant réclamé pour chacune des cinq garanties admissibles. Il est toutefois important de noter que contrairement aux quatre autres, la garantie Collision est facultative. Cette garantie, dénotée
COLL, indemnise l’assuré pour les dommages matériels à son véhicule lorsque l’assuré
est responsable de l’accident. Il y a donc deux sous-populations dans la banque de données : les gens souscrits à COLL et les gens qui ne le sont pas. Ceci peut présenter
un problème si on veut connaître le total des dommages matériels subis par l’assuré
pour la sous-population des assurés qui ne sont pas souscrits à COLL. En effet, lorsqu’ils subissent un accident dont ils sont responsables, ces assurés ne feront pas de
demande d’indemnisation car ils ne sont pas assurés pour les dommages matériels de
leur véhicule. Ainsi, la compagnie d’assurances ne sera pas en mesure de connaître cette
information qui est essentielle à l’ajustement des modèles. Pour éviter cette situation,
seule la sous-population qui a souscrit à COLL sera considérée dans la modélisation.
Cette sous-population génère 80 % des observations disponibles dans la base de données. Il est à noter que Frees et Valdez ont fait face au même type de problèmes et ont
eux aussi opté pour cette approche.
De plus, pour faciliter l’étude de la dépendance entre les garanties, une nouvelle
variable a été créée à partir des garanties DCPD et COLL. Cette nouvelle garantie,
nommée DOMM, est la somme des montants réclamés pour DCPD et COLL. Cette garantie DOMM représente donc le montant total des dommages subis par le véhicule de
l’assuré, peu importe si l’assuré est responsable ou non de l’accident. De plus, une correction est nécessaire afin de bien représenter le montant total des dommages subis par
le véhicule de l’assuré. Lors d’une réclamation où le client est responsable de l’accident,
celui-ci doit débourser une franchise sur les montants des dommages matériels réclamés
pour sa voiture, alors qu’il ne paye pas cette franchise lorsqu’il n’est pas responsable.
Par exemple, un assuré subit un accident où sa voiture nécessite 2500 $ en réparations. S’il est responsable, l’assuré devra assumer la franchise mentionnée sur sa police
Chapitre 3. Analyses préliminaires
18
d’assurance, par exemple, 1000 $, et l’assureur défrayera les 1500 $ supplémentaires.
S’il n’est pas responsable, l’assuré pourra alors réclamer les 2500 $ en totalité à l’assureur. Afin que les montants soient homogènes entre DCPD et COLL pour une même
observation, la franchise payée par le client est automatiquement ajoutée au montant
réclamé sur la garantie DCPD.
Un autre paramètre qu’il est très important de considérer est la fréquence relative
d’une demande de remboursement pour une garantie donnée. Sans cette fréquence, il
est impossible de bien quantifier le montant total qui sera réclamé par une population
donnée dans les prochaines années. Les fréquences pour chaque garantie sont définies
comme le rapport du nombre de montants réclamés supérieurs à zéro sur le nombre
total de demandes d’indemnisation.
3.1.3
Utilisation de la fréquence des demandes d’indemnisation
Une troisième variable d’intérêt pour compléter le modèle présenté par Frees et
Valdez est le nombre de demandes d’indemnisation effectuées par année pour chaque
assuré. Cette variable était modélisée par une loi binomiale négative dans la première
composante de la structure de Frees et Valdez. Toutefois, dans notre jeu de données, il
était difficile de cerner le nombre exact de demandes d’indemnisation pour chaque assuré
à chaque année. Même si les données peuvent être regroupées par numéro de police
d’assurance, il se peut que plusieurs personnes d’une même famille soient couvertes par
une même police. Par exemple, les conducteurs occasionnels des véhicules assurés sont
indiqués dans la police d’assurance, mais la banque de données fournie par l’assureur
ne permet pas de retracer quel conducteur a subi l’accident menant à la demande
d’indemnisation. De plus, les résultats obtenus suggèrent que le nombre de demandes
dépasse rarement deux pour un assuré donné dans une même année. Pour ces diverses
raisons, cette étape n’a pas été incluse dans la modélisation. On s’est plutôt concentré
sur la dépendance qui existe entre les sévérités et les fréquences relatives des différentes
garanties.
3.1.4
Autres détails sur le jeu de données
Suite à diverses consultations avec des actuaires associés au projet, certaines autres
modifications ont été effectuées à la banque de données initiale. Tout d’abord, seuls
les accidents impliquant deux véhicules ou plus ont été considérés dans les modèles.
Chapitre 3. Analyses préliminaires
19
La raison pour laquelle les accidents à un seul véhicule ont été éliminés provient tout
simplement de la définition des garanties utilisées. Pour les accidents à un seul véhicule,
les types de réclamation qui sont faites pour les dommages matériels à autrui sont
des dommages mineurs, tels un panneau routier, une clôture, un poteau électrique,
et certains dommages majeurs, tels une maison ou tout autre bâtiment endommagé
par l’accident. Dans un accident à deux véhicules, les réclamations effectuées pour
les dommages à autrui concerneront en majorité des dommages matériels aux autres
véhicules impliqués dans l’accident. Les montants sont donc plus homogènes pour les
accidents à deux véhicules. La même situation se produit pour les dommages corporels
à autrui. Lorsqu’il s’agit d’un accident à un seul véhicule, il peut y avoir une demande
de réclamation pour dommages corporels à autrui dans les situations suivantes :
– les blessures infligées à un piéton impliqué dans l’accident,
– les blessures infligées à une personne se trouvant dans la voiture de l’assuré, mais
qui ne réside pas à la même adresse.
Encore une fois, les montants pour ces blessures sont très volatiles, notamment dans le
cas où un piéton est impliqué. Le fait de se restreindre aux accidents à deux véhicules
permet d’éviter la majorité de ces situations.
3.1.5
Logiciel utilisé pour le projet
L’ensemble des analyses du projet ont été réalisées au moyen du logiciel R (R Development Core Team, 2010). Ce logiciel permet de télécharger une multitude d’outils
afin de mettre en œuvre la majorité des applications statistiques existantes à ce jour.
De plus, des mises à jour qui apportent des améliorations aux outils existants ou qui
implantent de nouveaux outils sont souvent disponibles. R permet aussi d’échanger des
bases de données facilement avec d’autres logiciels, comme Excel, et il permet de transférer des résultats d’analyses vers d’autres logiciels mieux adaptés à certaines tâches.
Par exemple, dans le cas d’inférences bayésiennes, le logiciel R permet d’interagir avec
le logiciel WinBUGS qui est mieux adapté pour ce type d’analyse.
Toutefois, R souffre de certaines lacunes. Comme il s’agit d’un logiciel gratuit, certains outils importés par d’autres utilisateurs peuvent contenir des erreurs de code
susceptibles de fausser les analyses. Il faut donc s’assurer que l’outil utilisé est fiable
en vérifiant sa provenance. La majorité des programmes proviennent de statisticiens
expérimentés, ce qui permet de croire que ces outils sont fiables. Certains pourront
aussi critiquer la documentation minimale fournie par R, ainsi que son interface peu
développée, alors que SAS présente un logiciel très élaboré et documenté. Malgré tout,
Chapitre 3. Analyses préliminaires
20
ces dernières années, les chercheurs ont eu tendance à migrer vers R, grâce notamment
à la facilité d’y intégrer des techniques d’analyses modernes, ainsi qu’à sa gratuité.
3.2
Analyses préliminaires de la dépendance
Une des lacunes du modèle présenté par Frees et Valdez était l’absence d’une éventuelle corrélation entre la sévérité et la fréquence d’une garantie. Dans les analyses
préliminaires de ce projet, quatre types de dépendance ont été évalués :
1. dépendance entre les sévérités ;
2. dépendance entre les fréquences ;
3. dépendance de la fréquence étant donné la sévérité ;
4. dépendance de la sévérité étant donné la fréquence.
Frees et Valdez ont concentré leurs efforts sur un modèle dont la dépendance entre les
sévérités (Item 1) était modélisée par une copule et la dépendance entre les fréquences
(Item 2) par un modèle multinomial. Toutefois, les deux derniers types d’association
n’ont pas été considérés. Logiquement, on s’attend à ce que la sévérité des dommages
matériels du véhicule accidenté ait une influence sur la fréquence d’une demande de
réclamation pour des blessures corporelles. Aussi, la présence d’une demande de réclamation pour dommages corporels à l’assuré peut avoir une influence sur la sévérité du
montant réclamé pour les dommages corporels à autrui, spécialement dans le cas d’un
accident à plusieurs véhicules.
Appelons Ci,k , le montant de sévérité de chaque garantie, k = 1,. . .,4, pour la
demande d’indemnisation i. Les types de réclamation pour chaque observation sont
connus, ce qui permet de déduire la présence ou l’absence de chaque garantie pour
chaque observation. L’indicatrice de cette information est dénotée Pi,k , k = 1,. . .,4,
pour la demande d’indemnisation i. Pi,k prend la valeur 1 lorsqu’une réclamation pour
la garantie k est présente pour l’observation i, et la valeur 0 sinon.
3.2.1
Modélisation de la dépendance entre les sévérités
Tout d’abord, on cherche à mesurer la dépendance entre les montants de sévérité,
traités comme des variables continues. Dans le cas de la garantie AB, les montants sont
Chapitre 3. Analyses préliminaires
21
écrêtés à 82 000 $ et pour les deux garanties TPL, ils sont écrêtés à 100 000 $. Comme
on travaille sur des valeurs continues, des mesures de corrélation sont évaluées deux à
deux entre les sévérités des quatre garanties lorsque les montants engendrés pour un
même accident sont différents de zéro. Trois différentes mesures de corrélation ont été
utilisées, soient le coefficient de corrélation de Pearson, le tau de Kendall, ainsi que le
rho de Spearman. De plus, des graphiques de rangs ont été effectués afin de déceler
une dépendance susceptible de justifier l’utilisation d’une copule pour l’ajustement des
modèles de sévérité.
Considérons un échantillon (X1 , Y1 ), . . . , (Xn , Yn ) de la paire (X, Y ), deux variables
aléatoires continues et posons X̄ = (X1 + · · · + Xn )/n et Ȳ = (Y1 + · · · + Yn )/n. Voici
les formules empiriques permettant de calculer les différentes mesures de corrélation sur
ces vecteurs :
Coefficient de corrélation de Pearson :
rn (X, Y ) =
n
1∑
(Xi − X̄)(Yi − Ȳ )
√
,
n i=1 Var(X)
d
d
Var(Y
)
où n représente le nombre de valeurs présentes dans un vecteur, et
d
Var(X)
=
n
1∑
(xi − x̄)2
n i=1
d
Var(Y
)=
n
1∑
(yi − ȳ)2 .
n i=1
et
Rho de Spearman :
ρ=1−
n
∑
6
(Ri − Si ),
n(n2 − 1) i=1
où (R1 , S1 ), . . . , (Rn , Sn ) représentent les paires de rangs associées à l’échantillon.
Tau de Kendall :
τ=
(Nombre de paires concordantes) − (Nombre de paires discordantes)
,
1
n(n
−
1)
2
où deux paires (Xi , Yi ), (Xj , Yj ) sont dites concordantes si et seulement si (Xi −Xj )(Yi −
Yj ) ≥ 0, alors qu’elles sont dites discordantes lorsque (Xi − Xj )(Yi − Yj ) < 0.
Chapitre 3. Analyses préliminaires
22
Le coefficient de corrélation de Pearson est l’une des mesures les plus anciennes de
dépendance entre deux variables continues. Bien que ce coefficient mesure correctement
la dépendance linéaire, il ne détecte pas efficacement les autres types de corrélation.
Dans certains cas où une forte association est présente, le coefficient de corrélation de
Pearson peut se trouver très près de zéro, ce qui suggèrerait l’indépendance entre les
deux variables étudiées. Afin de pallier ces importants défauts, de nouvelles mesures de
dépendance ont été introduites suivant les axiomes suggérés par Scarsini (1984).
Le rho de Spearman et le tau de Kendall sont deux mesures respectant ces axiomes.
Ces coefficients, qui sont largement employés dans la littérature, utilisent les rangs
des données des deux vecteurs afin de mesurer la dépendance. Ce sont d’ailleurs les
mesures qui sont les plus souvent considérées afin de juger de la pertinence d’utiliser
une copule lors d’une modélisation conjointe de deux variables continues. Les résultats
de l’application de ces mesures à nos données sont présentés au tableau 3.3.
Tableau 3.3 – Mesures de dépendance entre les sévérités des garanties
Garantie
1
Garantie
2
AB
AB
AB
DOMM
DOMM
TPL-PD
DOMM
TPL-PD
TPL-BI
TPL-PD
TPL-BI
TPL-BI
Nombre
de
récl.
5858
43
282
260
841
45
Tau de
Kendall
0.0144
−0.0923
−0.0137
0.0726
0.0332
−0.0428
Seuil
observé
Kendall
0.098
0.385
0.740
0.081
0.156
0.681
Seuil
observé
Spearman
0.101
0.404
0.764
0.091
0.164
0.732
Rho de
Spearman
0.0214
−0.1306
−0.0180
0.1051
0.0480
−0.0524
Corr. de
Pearson
0.0346
−0.1657
0.0058
0.1845
0.0599
−0.0782
Seuil
observé
Pearson
0.008
0.288
0.923
0.003
0.083
0.610
Les seuils observés sont obtenus à partir d’un test bilatéral d’indépendance entre
les deux variables étudiées. Les distributions asymptotiques pour chaque mesure sous
l’hypothèse nulle de l’indépendance entre les deux variables sont :
(
Tau de Kendall :
τn
≈
Rho de Spearman :
ρn
≈
√
r√
n n−2
2
1−rn
≈
Corrélation de Pearson :
2(2n + 5)
N 0,
9n(n − 1)
)
(
1
N 0,
n−1
t(n−2)
)
Chapitre 3. Analyses préliminaires
23
En examinant le tableau 3.3, on remarque que les deux mesures de dépendance basées sur les rangs suggèrent l’absence d’une dépendance entre les sévérités des différentes
garanties. Pour le coefficient de corrélation de Pearson, on remarque deux paires de garanties qui ont une dépendance significative. Toutefois, lorsqu’on observe les graphiques
de rangs pour ces deux paires de garanties (A.1 et A.2), aucune tendance n’est détectée.
Cela nous permet d’affirmer qu’une copule ne sera pas nécessaire dans la modélisation
des différentes garanties, contrairement au cas considéré par Frees et Valdez.
3.2.2
Modélisation de la dépendance entre les fréquences
À ce stade-ci, la dépendance est mesurée entre les fréquences des quatre variables
d’intérêt afin d’en connaître l’importance. À cette fin, des tests sur les rapports de cotes
calculés sur les différentes fréquences ont été utilisés. Par exemple, le rapport de cotes
qui évalue la dépendance entre la proportion de réclamations AB et la proportion de
réclamations DOMM sa calcule ainsi :
Proportion de réclamations AB = p =
n
1∑
Pi,AB
n i=1
n
1∑
Pi,DOM M
n i=1
p/(1 − p)
Rapport de cotes =
q/(1 − q)
Proportion de réclamations DOMM = q =
S’il y a indépendance entre les deux fréquences, la valeur obtenue pour le rapport
de cotes sera proche de 1. Comme tous les accidents comprennent une réclamation de
dommages matériels pour le véhicule assuré (DOMM), cette garantie n’a pas été incluse
dans les calculs, car sa fréquence est égale à 1 ; les autres garanties n’ont donc aucune
influence sur cette fréquence. Un test d’indépendance a été effectué par la méthode
de Wald qui utilise une approximation normale. Les résultats de ces comparaisons se
trouvent au tableau 3.4.
Les seuils observés des tests sont tous inférieurs à 5%, ce qui nous confirme que
la fréquence d’une garantie a une influence significative sur la fréquence d’une autre
garantie. Le modèle qui sera utilisé dans ce projet doit donc inclure une composante qui
pourra tenir compte de cette corrélation. À l’instar de Frees et Valdez, cette composante
peut être représentée par un modèle multinomial.
Chapitre 3. Analyses préliminaires
24
Tableau 3.4 – Tests sur les rapports de cotes
Garantie 1
Garantie 2
Rapport de cotes
TPL-BI
AB
AB
TPL-PD
TPL-BI
TPL-PD
12.9156
3.9250
1.5039
3.2.3
Intervalle de confiance
Borne Inf. Borne Sup.
9.1838
17.7738
3.3867
4.5390
1.0687
2.0662
Seuil observé
0.00000
0.00000
0.01975
Modélisation de la fréquence étant donné la sévérité
Dans cette section, on considère l’un des deux types de dépendance qui n’étaient
pas pris en compte dans le modèle de Frees et Valdez. L’objectif est de vérifier si la
sévérité d’un type de garantie a un impact sur la présence ou l’absence d’une réclamation
pour d’autres types de garantie dans l’accident. Dans un accident à deux véhicules, la
sévérité des dommages matériels au véhicule de l’assuré devrait avoir une influence sur
la présence d’une réclamation pour les blessures corporelles de l’assuré, ainsi que la
présence d’une réclamation pour les dommages subis par autrui.
Le tableau 3.5 permet de connaître la moyenne des montants consentis en fonction
des garanties réclamées dans un accident. On constate en premier lieu que le montant
des dommages matériels augmente lorsque le nombre de garanties impliquées dans un
accident augmente. Le montant de DOMM pourrait donc servir à prédire la présence
ou l’absence des autres garanties. De plus, d’un point de vue pratique, c’est généralement ce montant qui est connu en premier par l’assureur ; dans l’implantation d’un
modèle hiérarchique, ce montant pourrait donc être utilisé afin de prédire la suite des
évènements. On remarque ensuite que le montant réclamé pour les blessures corporelles
à l’assuré est plus élevé en présence d’une réclamation pour le montant des blessures
corporelles à autrui, ce qui signifie que la présence d’une réclamation pour la garantie
BI pourrait avoir un impact sur le montant réclamé pour la garantie AB.
Afin de vérifier l’hypothèse à l’effet que le montant des dommages matériels a une
influence sur la présence d’une demande de réclamation pour les autres garanties, trois
régressions logistiques ont été effectuées. Par exemple, pour l’effet sur la présence de
blessures corporelles à l’assuré, on ajuste le modèle de régression logistique suivant :
Pi,AB = logit (β0 + β1 Ci,DOM M ) .
Chapitre 3. Analyses préliminaires
25
Tableau 3.5 – Moyenne des montants de chaque garantie selon le type de garanties
réclamées lors d’un même accident
Type
Nombre de
réclamations
AB
TPL-BI
DOMM
TPL-PD
Moyenne
AB
Moyenne
TPL-BI
Moyenne
DOMM
Moyenne
TPL-PD
4
15
3
3
3
3
28
265
0
30
Oui
Oui
Oui
Oui
16 726
35 814
13 443
2637
Oui
Oui
Oui
Non
Non
Oui
Oui
Oui
Oui
Oui
Non
Oui
Oui
Non
Oui
Oui
14 835
29 698
N/A
0
0
52 230
N/A
40 856
11 010
9870
0
10 398
3182
0
N/A
5461
2
2
2
2
2
2
5508
0
0
186
526
0
Oui
Oui
Oui
Non
Non
Non
Non
Non
Oui
Non
Oui
Oui
Oui
Non
Non
Oui
Oui
Non
Non
Oui
Non
Oui
Non
Oui
14 659
N/A
N/A
0
0
0
0
0
N/A
0
53 564
N/A
6243
0
0
6660
6974
0
0
N/A
0
3944
0
N/A
1
1
1
1
0
0
42 951
0
Oui
Non
Non
Non
Non
Oui
Non
Non
Non
Non
Oui
Non
Non
Non
Non
Oui
N/A
0
0
0
0
N/A
0
0
0
0
3736
0
0
0
0
N/A
Note : « Oui » et « Non » dénotent respectivement la présence et l’absence d’une réclamation de ce type de garantie.
Les résultats de cette modélisation pour la présence d’une réclamation de AB se
trouvent au tableau 3.6. Le seuil observé pour l’effet du montant de dommages matériels est nettement inférieur à 5%. Comme le coefficient est positif, cela indique que
plus le montant augmente, plus la probabilité qu’une réclamation pour AB soit effectuée s’accroît. L’hypothèse d’une influence des montants de dommages matériels sur la
présence des autres garanties est aussi confirmée par les analyses faites sur TPL-BI et
TPL-PD dont les résultats se trouvent aux tableaux A.1 et A.2.
Tableau 3.6 – Estimation des paramètres de la régression logistique de la fréquence de
la garantie AB en fonction du montant de dommages matériels DOMM
Erreur
Valeur
Seuil
Standard
Z observé
−2.552
0.021 −123.39 <2e-16
1.11E-04 2.77E-06
40.08 <2e-16
Paramètres Estimation
Ordonnée à l’origine
Montant DOMM
3.2.4
Modélisation de la sévérité étant donné la fréquence
Cette section présente le deuxième type de dépendance qui n’était pas considéré par
Frees et Valdez. Toutefois, il s’agit d’une association qui est étroitement liée à celle de la
Chapitre 3. Analyses préliminaires
26
sous-section précédente. Comme il a été démontré que la sévérité a une influence sur la
présence d’une réclamation pour une autre garantie, il est logique que la présence d’une
réclamation pour une garantie ait une influence sur la sévérité d’une autre garantie.
Afin de vérifier cette hypothèse, une analyse de la variance a été effectuée avec la
sévérité de chacune des garanties comme variable réponse. Dans chaque analyse de la
variance, les indicateurs de la présence de chacune des autres garanties sont les facteurs
fixes inclus dans le modèle. De plus, les interactions doubles ont été incluses dans chaque
modèle.
Voici l’équation du modèle pour la sévérité de AB :
Ci,AB = µ + α1 Pi,P D + α2 Pi,BI + α12 Pi,BI Pi,P D + ei ,
où
µ = Moyenne générale,
α1 = Effet de la présence de la garantie TPL-PD,
α2 = Effet de la présence de la garantie TPL-BI,
α12 = Effet de l’interaction de la présence de la garantie TPL-PD
et de la garantie TPL-BI,
ei = Terme d’erreur du modèle où ei ∼ N (0, σ 2 ).
Pour chaque analyse, une transformation de la variable réponse a été nécessaire
afin que les modèles puissent respecter les postulats d’une analyse de la variance. Dans
chaque cas, la méthode de Box–Cox a été effectuée afin de trouver la transformation
adéquate. Lorsque celle-ci ne permettait pas de respecter les postulats, une analyse non
paramétrique sur les rangs a été effectuée afin de valider les résultats.
Tableau 3.7 – Effets significatifs de la fréquence des garanties sur le montant de dommages AB par une analyse de la variance
Effets
TPL-BI
TPL-PD
TPL-BI*TPL-PD
Degrés de liberté
Valeur
Seuil
Numérateur Dénominateur
F observé
1
5812
0.04 0.8321
1
5812
3.13 0.0769
1
5812
7.27 0.0070
Chapitre 3. Analyses préliminaires
27
Le tableau 3.7 révèle que la présence des garanties relatives aux dommages à autrui
a une influence significative sur le montant réclamé pour la garantie AB. Les résultats
présentés aux tableaux A.3 et A.4 permettent aussi de reconnaître cette influence entre
la présence d’une garantie et la sévérité d’une autre. Ceci confirme les résultats qui
avaient été obtenus dans la section 3.2.3, alors que la dépendance entre la fréquence et
la sévérité était aussi vérifiée. À la lumière de ces résultats, il est nécessaire d’inclure dans
la structure de modélisation une composante qui peut tenir compte de la dépendance
entre la fréquence et la sévérité des différentes garanties.
3.3
Imputation de données
Dans la base de données fournie par la compagnie d’assurances, certaines valeurs
pour des variables explicatives étaient inconnues. Par exemple, une de ces variables
explicatives était la valeur actuelle du véhicule, variable qui s’avère très importante dans
le modèle pour la sévérité des dommages matériels au véhicule assuré. Théoriquement,
lorsque cette valeur est connue, le client ne peut pas obtenir une réclamation supérieure
au montant de la valeur actuelle du véhicule. Si cela se produisait, le client réaliserait un
bénéfice sur la perte de son véhicule comparativement à la vente de celui-ci. À l’intérieur
du jeu de données, cette information était connue pour 29 640 observations, ce qui
représente 59.87% du nombre total disponible. Pour plus de 40% des observations, cette
valeur primordiale pour l’ajustement de nos modèles est inconnue. Quelques méthodes
d’imputation ont donc été considérées. Parmi ces méthodes, les deux qui ont été retenues
sont l’imputation par régression et l’imputation multiple (Little et Rubin, 2002).
L’imputation par régression est une méthode qui permet d’imputer la moyenne
prédite par un modèle de régression aux valeurs manquantes de la base de données.
Toutefois, il faut que la variable dont certaines valeurs sont manquantes puisse être
expliquée adéquatement par d’autres variables explicatives présentes dans la base de
données. Un modèle de régression linéaire utilisant toutes les caractéristiques disponibles sur le véhicule assuré a donc été établi. D’une façon intuitive, les variables les
plus susceptibles de prédire correctement la valeur actuelle d’une voiture sont l’âge du
véhicule, ainsi que sa catégorie. C’est exactement le résultat qui a été obtenu par le
modèle linéaire, alors que le coefficient de détermination s’est élevé à 0.83. Ce résultat
est très satisfaisant, parce que la valeur actuelle du véhicule peut dépendre de plusieurs
autres facteurs qui ne sont pas connus dans la base de données tels la marque, le modèle
et l’équipement présent dans le véhicule.
Chapitre 3. Analyses préliminaires
28
L’imputation multiple est une méthode de plus en plus utilisée lors des analyses
statistiques, notamment dans le domaine de la santé. Cette méthode permet de diminuer les probabilités que de mauvaises valeurs imputées aient une influence sur l’analyse
effectuée, comme cela risque de se produire assez fréquemment lorsque l’on a recours
à une imputation simple. Elle permet aussi aux inférences de tenir compte de l’incertitude additionnelle due aux données manquantes. La procédure suivie pour implanter
l’imputation multiple est établie de la façon suivante :
1. Les valeurs manquantes sont simulées m fois à partir d’une loi normale multivariée
afin de créer m bases de données complètes.
2. Les m bases de données complètes sont analysées selon des procédures statistiques
standards.
3. Les résultats des m analyses effectuées sont combinées et synthétisées de façon
à obtenir un seul jeu de données avec les estimations globales des paramètres et
leur erreur standard correspondante.
L’estimation globale des paramètres est tout simplement la moyenne des m estimations, alors que pour l’erreur standard, on fait appel à la somme de la variance qui
existe entre les m imputations et de la moyenne des variances pour chaque paramètre.
La dernière étape permet d’inclure à la fois la variabilité des coefficients obtenus entre
les m analyses, mais aussi la variabilité des coefficients estimés dans chacune des m analyses. L’imputation multiple se base sur l’hypothèse que les valeurs proviennent d’une
loi normale multivariée. Comme on impute des valeurs pour une seule variable, les valeurs sont alors simulées à partir d’une loi normale N (µ̂, σ̂ 2 ), où µ̂ et σ̂ 2 représentent
respectivement la moyenne estimée et la variance obtenue par la méthode de régression. L’imputation par régression présentée à la page précédente est le cas particulier où
m = 1. Les équations utilisées, ainsi que les fondements de cette théorie sont présentés
à l’annexe B.
Plusieurs recherches ont été effectuées afin de déterminer le nombre m d’imputations
nécessaires. Selon les articles consultés, les valeurs recommandées varient entre 5 et
20. Toutefois, l’article publié par Graham et al. (2007) permettra au lecteur intéressé
par le sujet d’en apprendre plus sur cette méthode, ainsi que sur le nombre optimal
d’imputations à effectuer. Dans notre cas, le nombre d’imputations a été fixé à m = 5.
Afin de comparer les deux méthodes d’imputation, un modèle préliminaire pour les
dommages matériels a été utilisé. Suite à plusieurs tentatives, on a constaté que les deux
méthodes d’imputation permettaient d’obtenir des résultats similaires pour les analyses.
Donc, pour la suite du projet, les valeurs imputées par la méthode de régression ont
Chapitre 3. Analyses préliminaires
29
été utilisées, car il y a une seule valeur imputée, comparativement à m valeurs pour
l’imputation multiple.
3.4
Résumé des analyses préliminaires
Suite aux diverses analyses de dépendance relatées dans ce chapitre, la garantie
TPL-PD ne sera pas considérée dans la suite de ce projet. Voici les diverses raisons qui
permettent d’expliquer cette décision :
– peu d’accidents comportent une demande de réclamation pour cette garantie, soit
259 observations dans le jeu de données ;
– il s’agit d’une garantie très variable qui ne dépend pas réellement des caractéristiques du véhicule ou de la personne assurée, mais qui dépend plutôt de la valeur
des objets endommagés dans l’accident ;
– les analyses de dépendance ne permettent pas d’établir de lien avec les autres
garanties testées.
Par suite de cette décision, la base de données devant servir à l’établissement des
modèles est réduite à 49 509 observations. Ces dernières possèdent toutes au minimum
une réclamation pour dommages matériels. À cette réclamation peut alors s’ajouter
une réclamation pour les blessures de l’assuré (AB) ou pour les blessures à une tierce
partie (TPL-BI). Il peut aussi y avoir une réclamation pour ces deux dernières garanties
simultanément, pour un total de quatre combinaisons possibles. Dans la suite de ce
mémoire, on notera la sévérité et la fréquence de la façon suivante :
– Mi , le type de réclamation pour la demande d’indemnisation i ;
– Ci,k , le montant de chaque garantie, k = 1,2,3, pour la demande d’indemnisation
i.
Le tableau 3.8 présente les quatre valeurs possibles pour la variable Mi . La distribution
de M sera analysée à l’aide des modèles présentés au chapitre 4.
Le tableau 3.9 permet d’identifier les différentes possibilités de réclamations observées dans notre échantillon. La dernière ligne du tableau donne la moyenne des montants
réclamés pour chaque garantie sans égard à la présence ou l’absence des autres garanties.
Il suffit d’un coup d’œil au tableau 3.9 pour remarquer l’effet de la présence ou de
l’absence d’une réclamation pour une garantie sur le montant de sévérité d’une autre.
Chapitre 3. Analyses préliminaires
30
Tableau 3.8 – Combinaisons possibles des types de réclamation pour les analyses de ce
projet
Valeur de M
1
Types de réclamations
DOMM
impliquées
2
3
4
DOMM, AB
DOMM, BI
DOMM, AB, BI
Tableau 3.9 – Moyenne des montants de chaque garantie selon le type de garanties
réclamées lors d’un même accident : Retrait de la garantie TPL-PD
Valeur
de M
Nombre de
réclamations
AB
TPL-BI
DOMM
Moyenne
AB
Moyenne
TPL-BI
Moyenne
DOMM
3
4
280
Oui
Oui
Oui
29 003
51 350.34
10 061.74
2
2
2
2
X
3
5536
0
556
Oui
Oui
Non
Non
Oui
Oui
Oui
Non
Oui
14 659.57
N/A
0
0
N/A
52 878.74
6266.66
0
7159.20
1
1
1
Moyenne
X
X
1
0
0
43 137
Oui
Non
Non
5816
Non
Oui
Non
836
Non
Non
Oui
49 509
N/A
0
0
15 350.10
0
N/A
0
52 366.83
0
0
3748.13
4103.76
Type
Note : « Oui » et « Non » dénotent respectivement la présence et l’absence d’une réclamation de ce type de garantie.
Lorsqu’une seule réclamation pour les dommages matériels est effectuée, la moyenne du
montant réclamé pour cette garantie est estimée à 3 748.13 $. Lorsqu’il s’ajoute une
réclamation pour les blessures corporelles à l’assuré ou à autrui, la moyenne des dommages matériels augmente alors à plus de 6 000 $. Finalement, lorsqu’il y a réclamation
pour les trois garanties considérées, la moyenne des dommages matériels atteint une
valeur légèrement supérieure à 10 000 $. Ce résultat est intuitif, car plus le montant
réclamé pour les dommages matériels du véhicule assuré est élevé, plus le risque est
grand que des blessures corporelles aient été infligées à l’assuré ou à autrui.
Un point important à retenir des analyses préliminaires effectuées est que les données obtenues pour la population de l’Ontario semblent se comporter différemment des
données de Singapour étudiées par Frees et Valdez (2008). La principale différence réside dans le fait que les montants de sévérité semblent davantage affectés par la présence
ou l’absence d’une réclamation pour une autre garantie que par l’indemnité même de
ces réclamations. Les analyses de la variance confirment cette hypothèse, alors que les
différentes mesures de dépendance entre les montants de sévérité n’ont pas permis de
Chapitre 3. Analyses préliminaires
31
déceler de dépendance potentielle entre eux. Cela signifie qu’une copule n’est pas nécessaire dans les structures de modèles et que les montants de sévérité peuvent être
considérés indépendants entre eux. Les copules ne seront donc pas utilisées dans les
modèles proposés, contrairement au cas considéré par Frees et Valdez.
Chapitre 4
Structure des modèles
Les structures présentées dans ce chapitre sont des combinaisons hiérarchiques de
modèles de sévérité et de modèles de fréquence conditionnels dont les résultats auront
une incidence sur les autres éléments de la structure. On définit une structure de modèles
comme étant la suite hiérarchique de modèles conditionnels afin d’éviter toute confusion
avec la modélisation effectuée à une étape particulière. Chaque modèle à l’intérieur d’une
structure est estimé de façon indépendante, c’est-à-dire que la dépendance qui peut
exister entre un paramètre d’un modèle de sévérité et un paramètre d’un autre modèle
de sévérité ou d’un modèle de fréquence n’est pas considérée. Toutefois, les résultats
d’un modèle peuvent être utilisés à titre de covariables dans un modèle subséquent de
la structure, ce qui explique l’utilisation de modèles conditionnels.
Lors des analyses préliminaires du chapitre 3, certaines similitudes, mais aussi certaines différences, ont été notées entre les hypothèses de la structure proposée par Frees
et Valdez (2008) présentée au chapitre 2 et les analyses préliminaires effectuées sur les
données de l’Ontario. Tout d’abord, l’utilisation d’une copule entre les montants des
sévérités est inutile dans notre cas, puisqu’il ne semble y avoir aucune dépendance entre
les montants de chaque garantie. De plus, comme la présence d’une réclamation pour un
type de garantie a un fort impact sur la sévérité d’une autre, les modèles de fréquence
auront alors de l’importance dans les structures proposées.
Deux structures de modèles sont considérées. La première est basée sur celle proposée
par Frees et Valdez (2008). La deuxième proposée est basée sur la chronologie des
évènements suite à un accident. Nous avons déjà vu que lors d’un accident, les demandes
d’indemnisation sont effectuées rapidement pour les dommages matériels, alors que
la demande d’indemnisation pour les blessures corporelles est généralement effectuée
plusieurs semaines ou plusieurs mois plus tard. Les informations recueillies sur l’accident
Chapitre 4. Structure des modèles
33
au fil des semaines peuvent alors être utilisées dans cette structure hiérarchique.
Pour chaque structure présentée, des modèles de sévérité et de fréquence sont utilisés.
La théorie pertinente sera présentée, ainsi que la technique utilisée pour justifier le
choix des modèles. Les paramètres des deux structures seront ensuite estimés par la
méthode du maximum de vraisemblance. Au chapitre 6, une estimation par inférence
bayésienne sera aussi présentée pour la structure hybride. Suite à la présentation des
deux structures et de leurs composantes, l’utilisation de chacune d’elles dans la pratique
actuarielle sera présentée. Chaque structure peut être utilisée dans trois applications
actuarielles distinctes qui sont la tarification, l’indemnisation et la tarification FSCO,
qui consiste en la restriction de certaines covariables selon les lois applicables en Ontario.
4.1
Structure hybride
La structure hybride est inspirée de celle présentée par Frees et Valdez. Elle est
construite en trois étapes distinctes telles que présentées à la figure 4.1. La première
composante est constituée d’un modèle de sévérité servant à prédire le montant des
dommages matériels subis par le véhicule assuré. Afin de modéliser cette sévérité, des
covariables correspondant aux caractéristiques du véhicule et à la personne assurée sont
incluses dans le modèle. Une liste exhaustive de ces covariables est présentée au tableau
3.1. Cela nous permet alors de cibler les groupes d’individus qui sont davantage à risque
de provoquer une réclamation élevée pour les dommages matériels à leur véhicule.
La deuxième composante est très similaire à celle du modèle de Frees et Valdez.
Il s’agit d’un modèle multinomial qui sert à prédire la probabilité que la garantie AB
et/ou que la garantie TPL-BI (tableau 2.3) soient invoquées lors d’un accident subi
par l’assuré. Toutefois, ce modèle multinomial est conditionnel au montant de sévérité
des dommages matériels qui est modélisé à la première étape. Le modèle multinomial
comporte quatre modalités distinctes :
1. Dommages matériels au véhicule assuré (DOMM) seulement ;
2. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à la
personne assurée (AB) ;
3. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à une
tierce personne (TPL-BI) ;
4. Dommages matériels au véhicule assuré (DOMM), blessures corporelles à la personne assurée (AB) et à une tierce personne (TPL-BI).
Chapitre 4. Structure des modèles
34
Afin d’obtenir une probabilité prédite pour chacune des quatre modalités possibles
de la variable réponse, les mêmes covariables qui sont utilisées à l’étape 1 sont reprises
dans ce modèle. De plus, on ajoute la covariable qui permet d’obtenir le meilleur ajustement entre le montant de la sévérité des dommages matériels et le pourcentage du
montant de la sévérité des dommages par rapport à la valeur actuelle du véhicule. La
valeur observée du montant de dommages est utilisée pour les modèles d’indemnisation,
alors que la valeur prédite est utilisée pour les modèles de tarification ; de plus amples
informations sur la différence entre les modèles selon l’application seront présentées à
la section 4.1.4.
Figure 4.1 – Structure du modèle hybride
Sévérité DOMM
↓
Multinomiale
↙
↓
↓
↘
Rien
AB
TPL-BI
AB et TPL-BI
↓
↓
↓
↓
Aucun modèle
Sévérité AB
sachant la
sévérité DOMM
Sévérité TPL-BI
sachant la
sévérité DOMM
Sévérité AB et
TPL-BI sachant la
sévérité DOMM
Finalement, la troisième composante concerne les modèles de sévérité servant à prédire le montant réclamé pour les garanties AB et TPL-BI selon la situation déterminée
par le modèle multinomial ajusté à la deuxième étape. Il y a ici trois modèles de sévérité à ajuster : un pour la garantie AB, un pour la garantie TPL-BI et un modèle
conjoint des sévérités AB et TPL-BI dans le cas où ces deux garanties sont réclamées
lors d’un même accident. Toutefois, comme les analyses préliminaires n’ont pas permis
de déceler de dépendance potentielle (voir le graphique des rangs à la figure A.3), ce
modèle conjoint sera tout simplement constitué de deux modèles de sévérité indépendants. Il est important de mentionner que ces modèles de sévérité sont ajustés sur des
sous-échantillons de la base de données qui correspondent à la situation adéquate. Par
exemple, le modèle de sévérité de AB est ajusté sur les observations où il y a présence
Chapitre 4. Structure des modèles
35
d’une réclamation pour AB, mais pas de réclamation pour TPL-BI.
4.1.1
Choix de la loi pour les modèles de sévérité
Les modèles de sévérité sont des modèles de régression qui permettent d’obtenir une
prévision de la moyenne des montants engendrés pour chaque garantie. Nos efforts se
sont concentrés sur les modèles linéaires généralisés (GLM). De plus, grâce à l’utilisation
de covariables liées aux caractéristiques de la personne et du véhicule assurés, une
moyenne prédite a été obtenue pour chaque contrat d’assurance selon le profil du client
et du véhicule qu’il conduit. Cela permet d’ailleurs à l’assureur de cibler les groupes de
personnes les plus à risque d’être impliquées dans un accident générant des indemnités
élevées. Il est donc primordial de choisir une distribution qui convient à chaque modèle
de sévérité.
Cette structure comporte cinq types de sévérité à savoir :
1. Indemnité pour les dommages matériels au véhicule assuré (DOMM) ;
2. Indemnité pour les blessures corporelles à la personne assurée (AB) sachant qu’il
n’y a pas de réclamation pour les blessures corporelles à une tierce personne
(TPL-BI) ;
3. Indemnité pour les blessures corporelles à une tierce personne (TPL-BI) sachant
qu’il n’y a pas de réclamation pour les blessures corporelles à la personne assurée
(AB) ;
4. Indemnité pour les blessures corporelles à la personne assurée (AB) sachant qu’il y
a une réclamation pour les blessures corporelles à une tierce personne (TPL-BI) ;
5. Indemnité pour les blessures corporelles à une tierce personne (TPL-BI) sachant
qu’il y a une réclamation pour les blessures corporelles à la personne assurée (AB).
Les modèles de sévérité doivent respecter certaines propriétés. Tout d’abord, le montant réclamé est une valeur qui est toujours supérieure à 0. De plus, la distribution de
cette variable nécessite souvent une queue lourde afin de bien caractériser la probabilité
d’obtenir un montant élevé. Le modèle de sévérité utilisé par Frees et Valdez est une
distribution bêta généralisée de deuxième type (GB2). Cette distribution à quatre paramètres possède une grande flexibilité et permet généralement d’obtenir un ajustement
adéquat lors de la modélisation. Toutefois, comme plusieurs covariables sont utilisées à
l’intérieur des modèles, il devient périlleux d’ajuster cette distribution aux données. Le
livre de Klugman et al. (1998) cite plusieurs autres distributions applicables à la modélisation d’un montant de réclamation. Le tableau 4.1 résume toutes les distributions
Chapitre 4. Structure des modèles
36
que nous avons considérées et permet de constater que la majorité des distributions
utilisées en modélisation de la sévérité sont des cas particuliers de la bêta généralisée
de deuxième type ou de la gamma généralisée.
Tableau 4.1 – Distributions considérés pour l’ajustement des modèles de sévérité
Nombre de
Particularité
paramètres
Distribution
Bêta généralisée Type II (GB2)
Gamma généralisée (GG)
Pareto généralisée
Burr
Burr inverse
Lognormale
Gaussienne inverse
Pareto
Pareto inverse
Loglogistique
Gamma
Weibull
Paralogistique
Paralogistique inverse
4
3
3
3
3
2
2
2
2
2
2
2
2
2
GB2 où γ = 1
GB2 où τ = 1
GB2 où α = 1
GB2 où γ = τ = 1
GB2 où γ = α = 1
GB2 où τ = α = 1
GG où τ = 1
GG où α = 1
GB2 où α = γ τ = 1
GB2 où τ = γ α = 1
Les expressions théoriques de la densité de ces deux distributions pour un montant de
sévérité x sont :
Bêta généralisée de deuxième type :
fX (x) =
γ (x/θ)γτ
α+τ ,
xB (α, τ ) [1 + (x/θ)γ ]
x ≥ 0,
où θ est un paramètre d’échelle, γ, α et τ sont des paramètres de forme et B (α, τ ) =
∫
Γ(α)Γ(τ )/Γ(α + τ ) où Γ(y) = 0∞ sy−1 e−s ds.
Gamma généralisée :
fX (x) =
τ uα e−u
,
xΓ(α)
u = (x/θ)τ , x ≥ 0,
où θ est un paramètre d’échelle et α et τ sont des paramètres de forme.
Chapitre 4. Structure des modèles
37
La liste comprend aussi deux autres types de distributions qui peuvent être utilisées
à l’occasion pour modéliser la valeur d’une indemnité. Ces deux distributions sont la
gaussienne inverse ainsi que la lognormale. Les densités de ces deux distributions sont :
Gaussienne inverse :
(
fX (x) =
θ
2πx3
)1/2
}
{
θz 2
exp −
,
2x
z=
x−µ
, x ≥ 0,
µ
où µ est la moyenne et θ est un paramètre de forme.
Lognormale :
fX (x) =
1
√
xσ 2π
(
)
exp −z 2 /2 ,
z=
log x − µ
, x ≥ 0,
σ
où µ et σ sont respectivement la moyenne et l’écart-type du logarithme de x.
Afin de choisir la distribution adéquate, des histogrammes ont été produits pour les
trois types de sévérité. Ces histogrammes ont été placés en annexe. L’histogramme des
montants de sévérité pour dommages matériels (DOMM), ainsi que celui des montants
des blessures subies par l’assuré (AB), présentent une queue lourde à droite, ce qui implique une plus forte probabilité pour les montants élevés qu’une distribution normale.
Pour les trois derniers histogrammes placés en annexe, aucune tendance particulière
vers une des distributions de la liste n’a été remarquée. Il est à noter que ces histogrammes illustrent le fait que plusieurs valeurs ont été écrêtées pour les blessures subies
par l’assuré et une tierce personne. En tenant compte de ces remarques, le choix de la
distribution a été fait à partir de la valeur des indemnités des garanties DOMM et AB.
De façon plus spécifique, chaque distribution a été ajustée aux données de deux
façons différentes. D’une part, chaque distribution a été ajustée en utilisant simplement une valeur estimée pour chaque paramètre. Cette première méthode a permis de
reconnaître les distributions dont l’ajustement aux données était adéquat avant l’utilisation de covariables. Évidemment, les distributions à trois et quatre paramètres se sont
révélées particulièrement performantes en comparaison aux distributions de deux paramètres et moins. Toutefois, afin de s’assurer de la faisabilité de l’implantation du modèle
pour une utilisation régulière par la compagnie d’assurances, il fallait s’assurer que la
distribution autorise l’emploi de plusieurs covariables pour au moins un paramètre.
En effet, plusieurs covariables peuvent être utilisées lors de l’ajustement des différents paramètres d’une distribution, et ce afin d’obtenir une estimation propre à chaque
Chapitre 4. Structure des modèles
38
groupe de personnes de l’échantillon à l’étude. Par exemple, si on s’intéresse à la covariable « sexe » dans un modèle gamma à deux paramètres (localisation, forme), le
sexe pourra alors avoir un effet sur la moyenne estimée, ainsi que la forme de la loi.
La distribution pour les hommes pourrait être une loi gamma dont la moyenne estimée
des montants réclamés serait de 3 500 $ avec un écart-type de 300 $, alors que pour les
femmes, cette loi pourrait avoir une moyenne de 3 300 $ et un écart-type de 500 $. Pour
les distributions à trois et quatre paramètres, il pourrait y avoir un effet des covariables
sur chacun des paramètres. Frees et Valdez (2008) suggèrent qu’il n’est pas nécessaire
de modéliser l’effet des covariables à la fois sur les paramètres de forme et d’échelle.
Suite à quelques essais infructueux avec la librairie VGAM créée par Yee (2010) dans
R, nous avons limité l’utilisation des covariables aux paramètres de localisation. D’un
point de vue pratique, il est peu probable qu’une distribution change complètement de
forme selon une covariable ; cependant, sa moyenne risque d’être affectée. De plus, les
compagnies sont principalement intéressées à connaître les groupes de personnes ayant
une moyenne plus élevée afin de corriger les primes en conséquence. Donc, pour le choix
de la distribution, la deuxième méthode appliquée a consisté à lier les covariables du
tableau 3.1 aux paramètres de localisation pour ainsi choisir celle qui s’ajuste le mieux
aux données de l’Ontario. Il est raisonnable de penser que si une distribution s’ajuste
bien avec ces covariables, elle sera en mesure de le faire lorsque toutes les covariables
seront utilisées ; cette hypothèse a été faite dans la suite.
Différents critères ont été utilisés afin de sélectionner la distribution adéquate pour le
jeu de données. Les critères d’information d’Akaike (AIC) (Akaike, 1973) et d’information bayésien (BIC) (Schwarz, 1978) ont notamment été employés à cette fin. De plus,
comme plusieurs lois de la liste sont emboîtées, un test du rapport des vraisemblances
a pu être effectué afin de comparer deux distributions qui sont dans cette situation
(Casella et Berger, 2002).
Définissons la vraisemblance du modèle,
L(θ|x) = f (x|θ) =
n
∏
f (xi |θ),
i=1
calculée pour chaque distribution ajustée. Le rapport des vraisemblances est donné par :
λ(x) =
supθ0 L(θ|x)
,
supθ L(θ|x)
où θ0 est un ensemble de paramètres emboîté dans celui défini par θ. D’un point de
vue pratique, il est généralement plus commode d’utiliser la statistique du rapport des
Chapitre 4. Structure des modèles
39
vraisemblances D définie de cette façon :
(
)
L(θ|x, θ0 )
,
D = −2 ln
L(θ|x, θ)
où L(θ|x) représente la vraisemblance du modèle selon l’ensemble de paramètres utilisé.
En effet, D suit une loi asymptotique du khi-deux à ℓ degrés de liberté sous certaines
conditions de régularité. Le nombre ℓ de degrés de liberté est égal à la différence entre
les nombres de paramètres libres des deux modèles comparés.
Pour départager les modèles, on a de plus calculé leur erreur de prévision respective.
Cela a été fait à l’aide d’une méthode de validation croisée fondée sur l’algorithme utilisé
pour obtenir les résidus PRESS (Draper et Smith, 1998). Contrairement à l’algorithme
des résidus PRESS qui consiste à retirer une observation à la fois, la base de données
a été séparée en dix groupes de 4 951 personnes. L’algorithme consiste alors à retirer
l’un de ces dix groupes et à ajuster le modèle sur les neuf autres groupes afin de
prédire la valeur des montants du groupe retiré. Cette procédure est répétée dix fois
afin d’obtenir des valeurs prédites pour les dix groupes. Cette méthode s’avère une
alternative intéressante aux calculs des résidus PRESS, car l’ajustement du modèle est
répété seulement dix fois, contrairement à 49 509 fois pour les résidus PRESS.
Le tableau C.1 affiche les résultats obtenus pour l’ajustement de chaque distribution
par maximum de vraisemblance pour le modèle de sévérité des dommages matériels,
covariables incluses. On retrouve la vraisemblance du modèle, ainsi que les statistiques
AIC et BIC qui permettent de comparer les distributions entre elles. Les meilleurs
modèles sont ceux qui présentent une vraisemblance élevée et de faibles valeurs des
statistiques AIC et BIC. La distribution présentant toutes ces caractéristiques parmi les
lois testées est la lognormale. Ce résultat est surprenant, car Frees et Valdez utilisaient
le modèle de la bêta généralisée de deuxième type dû à sa grande flexibilité. Toutefois,
il semble que l’utilisation d’un modèle à deux paramètres soit ici suffisant pour obtenir
un bon ajustement.
Le tableau C.2 affiche les mêmes résultats, mais pour l’ajustement de chaque distribution pour le modèle de sévérité des blessures corporelles de l’assuré. Encore une
fois, la lognormale s’avère très performante comparativement aux autres. La meilleure
distribution dans ce cas-ci a été la gamma généralisée, mais des problèmes de maximisation numérique nous ont empêché de l’ajuster au modèle des dommages matériels.
En dernière analyse, cette distribution n’a donc pas été retenue. Comme la distribution
lognormale fournit les meilleurs résultats, c’est elle qui a été utilisée.
Chapitre 4. Structure des modèles
40
Problème d’implantation
Lors de l’implantation du modèle, nous nous sommes heurtés à diverses difficultés
d’ordre pratique. En particulier, le logiciel utilisé par la compagnie d’assurances, ne
permet l’ajustement que d’un nombre limité de distributions, notamment pour le calcul
des primes lors de la tarification. Vu le nombre limité de lois offerte par le logiciel, nous
avons dû opter pour une distribution gamma à deux paramètres. La vraisemblance pour
ce modèle est moins élevée que celle fondée sur la loi lognormale. Par contre, du point
de vue prédictif, le modèle gamma performe légèrement mieux que la loi lognormale ;
sa somme de carrés résiduelle obtenue par la validation croisée est plus faible pour
le modèle des dommages matériels, bien que l’inverse se produise pour le modèle des
blessures corporelles. De plus, la figure A.9 suggère que la densité de la distribution
empirique gamma s’ajuste bien aux données observées. Le modèle gamma a donc été
choisi pour l’ensemble des modèles de sévérité dans la suite.
4.1.2
Loi multinomiale
Dans la structure du modèle hybride, un modèle de fréquence avec une variable
réponse à quatre modalités est nécessaire. L’objectif est de modéliser la probabilité qu’un
assuré réclame un montant pour ses blessures corporelles (garantie AB), un montant
pour les blessures corporelles subies par autrui (garantie BI), un montant pour ces deux
types de garanties, ou ne réclame rien pour ces deux garanties. Comme ces modalités
ne peuvent pas se classer dans un ordre particulier, la variable réponse ici n’est pas
ordinale. L’utilisation d’un modèle multinomial s’avère donc nécessaire. Le modèle est
ajusté sur toutes les observations se conformant aux critères mentionnés à la section
3.4, soit 49 509 observations au total.
La distribution multinomiale est une généralisation de la loi binomiale qui est utilisée
lorsqu’une variable aléatoire peut prendre plus de deux valeurs. Le modèle multinomial
conditionnel, introduit par McFadden (1974), permet l’ajout de covariables pour chaque
modalité, ce qui facilite l’identification des groupes de personnes les plus susceptibles de
réclamer un montant pour certaines garanties. De plus, il s’agit d’un modèle multinomial
conditionnel au montant de sévérité des dommages matériels.
Chapitre 4. Structure des modèles
41
Soit πij = Pr{Mi = j}, j = 1, . . . , 4, la probabilité que la demande d’indemnisation
i soit de type j. Les types sont définis de cette façon :
1. Dommages matériels au véhicule assuré (DOMM) seulement ;
2. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à la
personne assurée (AB) ;
3. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à une
tierce personne (BI) ;
4. Dommages matériels au véhicule assuré (DOMM), blessures corporelles à la personne assurée (AB) et à une tierce personne (TPL-BI).
Dans un modèle multinomial, les différentes modalités sont supposées mutuellement
exclusives et exhaustives, ce qui signifie qu’une observation ne peut appartenir à deux
∑
modalités différentes. Par conséquent, on a 4j=1 πij = 1.
La fonction de probabilité du modèle multinomial est :
(
Pr{Yi1 = yi1 , . . . , Yi4 = yi4 |xi , Ci,DOM M } =
ni
yi1 , . . . , yi4
)
yi4
yi1
,
× · · · × πi4
πi1
Yij = indicatrice que l’observation i appartient à la modalité j,
xi = vecteur des covariables de l’assuré i,
Ci,DOM M = montant des dommages matériels du véhicule assuré pour l’observation i.
Comme dans notre cas, il n’y a qu’une seule personne par observation, une des modalités
sera égale à 1, tandis que les autres seront égales à 0. Lors de l’ajustement du modèle
multinomial, une des quatre modalités doit être utilisée à titre de référence. La modalité
de référence utilisée ici est celle où il y a une réclamation pour les dommages matériels
seulement (j = 1). D’un point de vue pratique, il s’agit de la probabilité la moins
intéressante, car elle n’implique aucune autre réclamation.
Dans un modèle multinomial, une fonction de lien est utilisée afin de transformer
les prédicteurs linéaires en une valeur continue bornée entre 0 et 1. On dispose d’une
équation linéaire pour chaque probabilité à estimer, sauf pour la modalité de référence.
Les covariables qui ont un effet significatif sur la probabilité d’une modalité sont insérées
dans l’équation linéaire appropriée. Si la covariable affecte chacune des probabilités,
elle sera alors incluse dans toutes les équations linéaires du modèle. La fonction de lien
« logit » est la plus utilisée en pratique. On suppose que le logarithme du rapport de
Chapitre 4. Structure des modèles
42
probabilité de chaque modalité avec la probabilité de la modalité de référence suit un
modèle linéaire de la forme :
(
)
πij
ηij = log
= αj + x ⊤
i βj ,
πi1
où αj est une constante et βj est le vecteur de p coefficients à estimer. On définit alors
la vraisemblance du modèle multinomial par :
L{α, β|xi , Ci,DOM M } =
=
≈
n=49
∏509
i=1
n=49
∏509
i=1
n=49
∏509
(
ni
yi1 , . . . , yi4
)
yi1
yi4
πi1
× · · · × πi4
yi1
yi4
πi1
× · · · × πi4
[f (α1 , β1 )]yi1 × · · · × [f (α4 , β4 )]yi4
i=1
Les matrices α et β correspondent aux matrices à j colonnes et à p lignes des constantes
et des coefficients à estimer. Afin d’inclure les covariables au modèle, les probabilités
πij sont définies comme étant des fonctions f (αj , βj ) ; l’expression exacte pour πij peut
être obtenue en résolvant (4.1)-(4.3) ci-dessous.
Le modèle multinomial est ajusté par la méthode du maximum de vraisemblance. Le
système d’équations des prédicteurs linéaires contient autant d’égalités que le nombre
de modalités sans la modalité de référence. Pour la modalité de référence, le vecteur
des coefficients et la constante sont égaux à zéro. Ces équations sont les suivantes :
(
ηi2 = ηi,AB
ηi3 = ηi,BI
ηi4 = ηi,AB−BI
)
πi,AB
= log
= αAB + x⊤
i βAB ,
π
( i1 )
πi,BI
= log
= αBI + x⊤
i βBI ,
πi1
(
)
πi,AB−BI
= log
= αAB−BI + x⊤
i βAB−BI .
πi1
(4.1)
(4.2)
(4.3)
Afin de trouver les probabilités prédites du modèle, il suffit d’isoler la valeur πij , où
j = 2, 3, 4 selon les trois équations ci-haut. Cela nous mène à l’équation suivante pour
la probabilité prédite de la présence de la modalité j pour la police i :
πij =
exp (ηij )
,
1 + j=2 exp (ηij )
∑4
où j = 2, 3, 4.
Chapitre 4. Structure des modèles
43
Pour la modalité de référence, l’équation est
πi1 =
1+
∑4
1
j=2
exp (ηij )
.
De plus, une méthode de validation croisée basée sur l’algorithme présentée à la section
4.1.1 a été utilisée. Puisque la variable réponse est catégorique, c’est l’écart entre les
probabilités prévues et les fréquences relatives observées qui a été utilisé à titre de
comparaison. Avec le logiciel R, plusieurs librairies fournissent des outils qui permettent
d’ajuster un tel modèle. La librairie VGAM de Yee (2010) a été de nouveau utilisée,
compte tenu de sa commodité.
Critique envers le modèle multinomiale logistique
Plusieurs auteurs critiquent le choix d’un modèle multinomial logistique pour une
variable nominale. Ces auteurs suggèrent qu’il peut y avoir des problèmes pour l’indépendance entre chacune des alternatives dans un modèle où les prédicteurs linéaires
dépendent de covariables qui varient entre chaque observation, mais pas entre chaque
alternative. En fait, on peut concevoir des scénarios où le ratio de la probabilité de présence de la modalité j avec la modalité de référence J est corrélée avec le ratio formé
par la probabilité de présence d’une autre modalité k où k ̸= j. Si cela se produit, le
modèle multinomial logistique est alors inapproprié. Dans ce cas, la fonction de lien
« probit » constitue une alternative idéale au lien « logit ». Pour plus de détails, voir
l’article de Young et al. (2009).
Les deux fonctions de lien, « logit » et « probit », ont été testées sur nos données afin
de s’assurer que le modèle multinomial logistique était approprié. Comme les valeurs
prédites des deux modèles étaient sensiblement les mêmes, la fonction de lien « logit »
a été conservée.
4.1.3
Sélection des covariables
Une fois les modèles de sévérité et de fréquence choisis, on procède à la sélection des
covariables. Le tableau 3.1 présente les dix principales covariables qui ont été utilisées
pour l’élaboration des modèles préliminaires. Toutefois, dans le cadre de ce projet, la
compagnie d’assurances était intéressée par une trentaine de covariables susceptibles
Chapitre 4. Structure des modèles
44
d’influencer de façon notable les montants de sévérité et la fréquence. Ces nouvelles
covariables correspondent à d’autres caractéristiques de l’assuré, comme le territoire où
il vit, le type d’emploi, sa cote de crédit, etc. Une covariable comme le territoire peut
s’avérer difficile à utiliser dans un modèle statistique parce qu’il existe une multitude
de valeurs possibles. Pour toutes les covariables présentant ce défaut, les actuaires de
la compagnie d’assurances ont établi des cotes pour caractériser les valeurs possibles
à partir de modèles déjà établis. Cela permet d’obtenir un maximum de dix valeurs
pour chaque covariable, où chaque valeur correspond à un groupe aussi homogène que
possible. Par exemple, ces valeurs peuvent caractériser les gens se trouvant près de
grands centres urbains comme Toronto ou habitant à la campagne éloignée.
Comme la majorité des covariables sont catégoriques, un grand nombre de paramètres devait être estimé pour chaque modèle. Afin de réduire la dimension du modèle,
des regroupements à l’intérieur de chaque covariable ont été effectués. Par exemple, il
est fort possible que l’effet de la covariable « âge » ne soit pas linéaire. Il faut alors
traiter cette variable comme catégorique. Les clients ont ainsi été séparés en quatre
catégories distinctes : 22 ans et moins, 23 à 29 ans, 30 à 54 ans et 55 ans et plus. Pour
chaque covariable, ce type de regroupement a été élaboré à partir des modèles établis
par la compagnie d’assurances, en égard aux valeurs observées dans la base de données
et des avis de l’équipe de la compagnie d’assurances. Ces regroupements ont été vérifiés à chaque étape de la sélection de covariables afin de s’assurer que la présence de
groupes non-homogènes au sein d’un même regroupement n’ait pas d’influence indue
sur les procédures de sélection.
Méthodes utilisées
Comme on disposait au départ d’une trentaine de covariables, certaines méthodes
algorithmiques de sélection de covariables ont dû être employées. La procédure pas-à-pas
est probablement la technique la plus souvent employée à cette fin. Elle fut introduite
par Efroymson (1960), mais on peut retrouver une multitude d’applications et d’articles
traitant du sujet ; voir entre autres Draper et Smith (1998) et Hocking (1976). Cette
méthode consiste à ajouter les variables une par une si elles sont significatives à un seuil
déterminé. Après l’ajout de chaque variable, un test est effectué afin de s’assurer que
les variables déjà présentes dans le modèle sont toujours significatives.
Une autre méthode que nous avons employée est le « Bayesian Model Averaging »
(BMA) qui date du milieu des années 1990 ; voir entre autres les premières utilisations
de cette méthode dans les travaux de Madigan et Raftery (1994) et Draper (1995).
Cette procédure est populaire dans plusieurs disciplines, telles l’économie, la biologie,
Chapitre 4. Structure des modèles
45
la santé, etc. Plus récemment, l’article de Montgomery et Nyhan (2010) décrit de façon
détaillée les derniers avancements de cette méthode et ses applications.
Comme il y a un total de q ≈ 230 sous-modèles possibles, une certaine incertitude
plane quant au choix du modèle approprié dans l’espace M = [M1 , . . . , Mq ]. Le but de
cette méthode est d’inclure directement l’incertitude liée au choix du modèle pour ensuite effectuer les inférences adéquates. Cette méthode diffère de la procédure pas-à-pas
par le fait qu’elle permet d’obtenir une liste des modèles les plus probables, contrairement à un seul modèle suggéré. La technique BMA conduit alors un modèle final qui
s’exprime comme une moyenne des différents sous-modèles, pondérés par leur probabilité a posteriori. Dans notre projet, le BMA a été utilisé afin d’estimer la probabilité a
posteriori que le sous-modèle Mk soit le bon et, par suite, la probabilité d’inclusion de
chacune des covariables dans le modèle final.
La méthode BMA débute par l’assignation de lois a priori sur chaque paramètre
du modèle β, les paramètres de la distribution gamma α et θ ainsi que tous les sousmodèles Mk . On suppose que chaque sous-modèle Mk est le vrai avec probabilité a priori
π (Mk ), alors que les paramètres du modèle proviennent des distributions conditionnelles
α, θ|Mk ∼ π (α, θ|Mk ) et βω |α, θ, Mk ∼ π (βω |α, θ, Mk ) où Ω = (ω1 , . . . , ωp ) représente
le vecteur d’incatrices signalant la présence ou l’absence de chaque covariable dans le
modèle Mk . Les lois a priori utilisées sont non-informatives, de façon à ne pas prioriser
certains sous-modèles.
On peut ensuite écrire la distribution marginale des données sachant le sous-modèle
Mk de cette façon :
p(Y |Mk ) =
∫ ∫ ∫
p(Y |βω α, θ, Mk )π(βω |α, θ, Mk )π(α, θ|Mk )dβω dαdθ.
La probabilité a posteriori que le sous-modèle Mk est le bon vaut alors :
p(Y |Mk )π(Mk )
,
p(Mk |Y ) = ∑q
k=1 p(Y |Mk )π(Mk )
ce qui facilite le repérage des sous-modèles les plus probables. Étant donné une covariable, on additionne les probabilités a posteriori de chaque sous-modèle Mk dans lequel
elle se retrouve :
P (Covariable i soit sélectionnée) =
q
∑
k=1
p(Mk |Y )ωi .
Chapitre 4. Structure des modèles
46
Lorsque cette probabilité est proche de 1, on peut conclure que la covariable en
question est nécessaire dans le modèle. Dans le cas contraire, la variable est alors rejetée.
Bien que dans notre cas, il y ait 230 sous-modèles possibles, le logiciel R a pu produire
très rapidement une liste des sous-modèles les plus probables, ainsi que la probabilité a
posteriori de ces sous-modèles. La librairie BMA (Raftery et al., 2010) a été utilisée pour
ce faire ; cette librairie permet en outre de connaître automatiquement la probabilité
pour chaque covariable d’être incluse dans le sous-modèle choisi.
Suite aux résultats de ces deux procédures, pas-à-pas et BMA, et d’un consensus
avec les actuaires participant au projet, un sous-ensemble de covariables probables pour
chaque modèle, sévérité et fréquence, a été sélectionné. Afin de compléter la sélection
des covariables, les statistiques AIC et BIC ont été utilisées, ainsi qu’une méthode de
validation croisée qui permet de comparer les sous-modèles les plus probables (voir section 4.1.1 pour plus de détails sur ces méthodes). De plus, une analyse graphique des
valeurs observées et prédites de la variable endogène pour chaque covariable a été effectuée afin de valider le choix du modèle. Cette dernière analyse a aussi permis de corriger
certains regroupements effectués à l’intérieur de chaque covariable afin d’améliorer les
valeurs prédites.
4.1.4
Utilisation du modèle hybride dans la pratique actuarielle
Cette structure de modèle peut s’avérer utile pour plusieurs services d’une compagnie d’assurances. Tout d’abord, le département en charge de la tarification pourra s’intéresser à cette structure de modèle hybride puisque les caractéristiques correspondant
au profil de l’assuré et du véhicule sont utilisées. Cela permet de cibler les personnes qui
sont à risque de réclamer des montants élevés et d’ajuster les primes en conséquence.
Pour le département en charge de l’indemnisation, il s’agit tout simplement de modifier certaines composantes afin d’obtenir une structure qui peut s’avérer utile. La
différence majeure avec le modèle de tarification est qu’on considère qu’il s’est produit
un accident et que l’assureur est en possession de certaines informations qui peuvent
être considérées pour prédire la suite des évènements.
Cette structure de modèle est donc pertinente pour trois types d’applications :
Tarification, Tarification FSCO et Indemnisation. La sélection des covariables a été
effectuée pour chaque type d’application puisque les covariables disponibles diffèrent
Chapitre 4. Structure des modèles
47
d’un cas à l’autre.
Modèle de tarification
Un modèle de tarification permet d’établir les primes qu’un client doit payer afin
d’être couvert par la compagnie d’assurances. Le modèle de tarification ne peut utiliser
que les informations de la personne et du véhicule assurés. Certaines caractéristiques
de ce client et de la voiture qu’il conduit peuvent contribuer à augmenter ou diminuer
sa prime. La structure de modèle hybride présentée à la section 4.1 permet d’établir les
groupes de personnes qui diffèrent de la population sous les aspects suivants :
– réclamer un montant de dommages matériels plus élevé que la moyenne ;
– avoir une probabilité plus élevée de réclamer un montant pour les blessures corporelles de l’assuré ;
– avoir une probabilité plus élevée de réclamer un montant pour les blessures corporelles à autrui ;
– réclamer un montant pour les blessures corporelles à l’assuré plus élevé que la
moyenne ;
– réclamer un montant pour les blessures corporelles à autrui plus élevé que la
moyenne.
Le modèle permet aussi de cibler les groupes de personnes qui réclament généralement moins que la population. Les assureurs sont alors intéressés à attirer ces groupes
de personnes, car ils coûtent généralement moins cher à assurer.
Comme il s’agit d’un modèle de tarification, l’information recueillie sur les montants
de sévérité de dommages matériels ne peut pas servir pour les modèles subséquents. Pour
le modèle multinomial, ainsi que les modèles de sévérité AB et BI, ce sont les valeurs du
montant de dommages matériels qui sont prédites par le premier modèle de la structure
qui sont utilisées comme covariables.
Modèle de tarification FSCO
Le modèle de tarification FSCO est du même type que celui utilisé précédemment
pour la tarification, sauf pour la sélection des covariables employée dans le modèle. En
Ontario, la législation interdit aux compagnies d’assurances d’utiliser certaines informations liées aux clients dans la tarification qui est proposée. Par exemple, il est interdit
Chapitre 4. Structure des modèles
48
d’utiliser la cote de crédit comme covariable dans les modèles de tarification. Afin de
remédier à la situation, la sélection de covariables du modèle de tarification FSCO
s’est effectuée sans les covariables correspondant à ces informations dont l’utilisation
est jugée illégale en Ontario.
Modèle d’indemnisation
Le modèle d’indemnisation est utilisé dans un tout autre contexte que les modèles de
tarification. Pour les modèles d’indemnisation, on considère qu’un accident s’est produit
pour l’assuré et l’assureur utilise les informations disponibles à ce moment pour tenter
de prédire la suite des évènements. Par exemple, un travailleur de 33 ans a un accident
grave avec une Toyota Corolla 2009. Il a réclamé un montant 3 600 $ pour les dommages
matériels de son véhicule. L’assureur sera alors intéressé à la probabilité que cet assuré
effectue une réclamation pour des blessures corporelles à lui-même ou à autrui, ainsi
que les montants de ces réclamations sachant ces dernières informations. Parmi les
informations qui sont ajoutées au modèle, on dénote :
– la gravité de l’accident classée en 3 catégories : Faible, Moyen, Grave ;
– le pourcentage de responsabilité de l’assuré dans l’accident : Aucune responsabilité, Responsabilité partielle ou Responsabilité totale ;
– l’indicatrice de perte totale du véhicule ;
– la saison pendant laquelle l’accident s’est produit.
La structure de modèle hybride permet d’effectuer des prévisions qui utilisent ces
dernières informations afin de permettre à l’assureur de mettre en réserve les fonds
nécessaires au remboursement des futures réclamations. Pour le modèle de sévérité des
dommages matériels, des covariables supplémentaires ont été ajoutées afin de quantifier
l’information détenue par l’assureur. Lorsque l’accident se produit, l’assureur est en
mesure de déterminer s’il s’agit d’un accident grave, ainsi que de la responsabilité de
l’assuré, etc. Ces informations sont ajoutées aux différents modèles afin d’en améliorer
la prévision.
Le modèle multinomial et les modèles de sévérité pour les blessures corporelles (AB
et TPL-BI) sont conditionnels à la sévérité des dommages matériels de l’accident. Dans
le cas d’un modèle d’indemnisation, on suppose que l’assureur connaît le montant réclamé pour les dommages matériels du véhicule assuré. Ces modèles utilisent donc la
sévérité des dommages matériels qui est observée comme covariable, contrairement aux
modèles de tarification qui utilisent plutôt la sévérité prédite des dommages matériels.
Chapitre 4. Structure des modèles
4.2
49
Structure hiérarchique
Cette structure est légèrement différente de celle proposée à la section 4.1. La structure hybride était dérivée de celle proposée par Frees et Valdez, alors que la structure
hiérarchique a été construite afin de représenter la suite chronologique des évènements
dans la réalité. Lorsqu’un accident se produit, l’assureur est très rapidement informé de
sa nature, de sa gravité, de la responsabilité de l’assuré, etc. Par la suite, les montants
de réclamation arrivent souvent chez l’assureur dans un ordre distinct : dommages
matériels au véhicule assuré, blessures corporelles à la personne assurée et blessures
corporelles à autrui. Cette chronologie est expliquée en détail à la section 3.1.2.
Comme les évènements se produisent généralement dans cet ordre, la structure hiérarchique a été construite afin d’utiliser le plus d’information disponible à chaque étape.
La structure hiérarchique comprend cinq étapes, telles que présentées à la figure 4.2. La
première étape, qui consiste au modèle de sévérité des dommages matériels, est exactement la même que celle du modèle hybride. Toutefois, les étapes subséquentes sont
différentes.
Tout d’abord, la deuxième étape consiste en un modèle logistique qui établit la
probabilité que l’assuré effectue une réclamation pour ses blessures corporelles sachant
l’indemnité versée pour les dommages matériels. Suite à l’étape 2, si l’assuré procède
à une demande d’indemnisation pour ses blessures corporelles, à l’étape 3, un modèle
de sévérité permet de prédire ce montant sachant le montant réclamé pour les dommages matériels. À l’étape 4, deux modèles logistiques conditionnels sont présentés.
Les deux modèles logistiques servent à prédire la présence d’une réclamation pour les
dommages corporels subis par autrui. Le premier sachant qu’il y a eu une réclamation
pour les blessures corporelles de l’assuré, ainsi que le montant de cette réclamation, et le
deuxième sachant que l’assuré n’a pas fait de réclamation pour ses blessures corporelles.
Il s’ensuit alors, à l’étape 5, deux modèles de sévérité conditionnels pour les blessures
subies par autrui. Ces deux derniers modèles utilisent aussi toute l’information connue
par l’assureur aux étapes précédentes.
La majorité des éléments qui ont été utilisés pour le modèle hybride ont été réutilisés
pour le modèle hiérarchique. Le choix des modèles de sévérité a donc été conservé. De
plus, la sélection des covariables est basée sur les mêmes méthodes que celles présentées
à la section 4.1.3. La seule différence majeure qui intervient entre les deux types de
structures est l’utilisation de trois modèles logistiques conditionnels comparativement
à un modèle multinomial conditionnel.
Chapitre 4. Structure des modèles
50
Figure 4.2 – Structure du modèle hiérarchique
Modèle Sévérité DOMM
↓
Modèle Logistique
Présence de AB sachant la sévérité DOMM
↙
↘
AB présent
AB absent
↓
↓
Modèle
Sévérité AB
Aucun
modèle
↓
↓
Modèle Logistique
Présence de BI
sachant la sévérité
de DOMM, et la présence
et la sévérité de AB
↙
Modèle Logistique
Présence de BI
sachant la sévérité
de DOMM, et l’absence
de AB
↘
↙
BI présent
BI absent
BI présent
BI absent
↓
↓
↓
↓
Modèle Sévérité BI
sachant la sévérité
de DOMM et AB
Aucun modèle BI
Modèle Sévérité BI
sachant la sévérité,
mais l’absence de AB
Aucun modèle BI
4.2.1
↘
Régression logistique
La régression logistique est un cas spécial du modèle multinomial dans lequel il y a
seulement deux modalités possibles, soient la présence ou l’absence d’une réclamation
pour une garantie donnée. La régression logistique est utilisée depuis quelques décennies
afin de modéliser une variable réponse de type dichotomique. Cox et Snell (1989) ont
étudié les distributions qui permettent de modéliser ce type de variable. Ils priorisent
le modèle logistique pour deux raisons : sa simplicité d’utilisation et la facilité d’interprétation de ses coefficients. Le livre de Hosmer et Lemeshow (2000) illustre bien la
théorie, les outils comme la courbe ROC qui est utilisée dans ce projet, ainsi que les
différentes applications du modèle logistique.
La fonction de lien canonique qui est utilisée pour ce modèle linéaire généralisé
est le lien « logit », qui a également été employé pour la multinomiale. Définissons
Chapitre 4. Structure des modèles
51
πi,AB et πi,BI , qui sont respectivement la probabilité que l’observation i contienne une
réclamation pour la garantie AB et la probabilité que l’observation i contienne une
réclamation pour la garantie BI. Chaque modèle logistique est conditionnel au montant
de dommages matériels qui est observé pour l’observation i. Les probabilités modélisées
par les trois modèles logistiques sont définies ci-dessous.
– modèle logistique pour la présence d’une réclamation pour les blessures corporelles
de l’assuré :
πi,AB |Ci,DOM M = P (Pi,AB = 1|Ci,DOM M , xi )
exp (β AB xi + θ AB Ci,DOM M )
=
,
1 + exp (β AB xi + θ AB Ci,DOM M )
où πi,AB représente la probabilité d’un assuré de réclamer un montant pour ses
blessures corporelles, β AB le vecteur des p paramètres pour AB, θ AB le paramètre
affecté au montant des dommages matériels, xi le vecteur des p covariables de l’assuré i et Pi,AB l’indicatrice de la présence d’une réclamation AB ;
– modèle logistique pour la présence d’une réclamation pour les blessures corporelles à autrui sachant qu’il y a une réclamation pour les blessures corporelles de
l’assuré :
πi,BI |Ci,DOM M , Ci,AB = P (Pi,BI = 1|Ci,DOM M , Ci,AB , xi )
exp (β BI xi + θ BI Ci,DOM M + τ BI Ci,AB )
,
=
1 + exp (β BI xi + θ BI Ci,DOM M + τ BI Ci,AB )
où πi,BI représente la probabilité d’un assuré de réclamer un montant pour les
blessures corporelles à autrui, β BI le vecteur des p paramètres pour BI, θ BI le paramètre affecté au montant des dommages matériels, τ BI le paramètre affecté au
montant des blessures corporelles de l’assuré et Pi,BI l’indicatrice de la présence
d’une réclamation BI ;
– modèle logistique pour la présence d’une réclamation pour les blessures corporelles
à autrui sachant qu’il n’y a pas de réclamation pour les blessures corporelles de
l’assuré :
πi,BII |Ci,DOM M , (Ci,AB = 0) = P (Pi,BII = 1|Ci,DOM M , (Ci,AB = 0), xi )
exp (β BII xi + θ BII Ci,DOM M )
=
,
1 + exp (β BII xi + θ BII Ci,DOM M )
Chapitre 4. Structure des modèles
52
où πi,BII représente la probabilité d’un assuré de réclamer un montant pour les
blessures corporelles à autrui, β BII le vecteur des paramètres pour BI, θ BII le
paramètre affecté au montant des dommages matériels, et Pi,BI l’indicatrice de la
présence d’une réclamation BI.
Quant au modèle logistique pour la probabilité d’obtenir une réclamation pour la
garantie AB, il est ajusté aux 49 509 observations contenues dans la base de données.
Ce modèle est conditionnel au montant de dommages matériels qui a été réclamé pour
cette observation. Dans le cas des deux modèles logistiques concernant la probabilité de
réclamer pour la garantie BI, l’ajustement a été effectué sur des sous-échantillons de la
population. Le premier modèle est ajusté sur les données provenant de l’échantillon des
assurés qui ont réclamé un montant pour la garantie AB, alors que le deuxième modèle
est ajusté à la population qui n’a pas réclamé de montant pour AB. Ces trois modèles
ont été ajustés par la méthode du maximum de vraisemblance en procédant comme à
la section 4.1.2 à l’aide de la fonction « glm » de la librairie de base du logiciel R.
Sélection des covariables dans un modèle logistique
La sélection des covariables a été effectuée selon les critères établis à la section
4.1.3. Toutefois, un critère supplémentaire propre à la régression logistique a été utilisé,
soit l’aire sous la courbe ROC. La courbe ROC permet de comparer deux modèles
logistiques, sans qu’un des deux modèles ne soit imbriqué dans l’autre. La courbe ROC
peut donc être utilisée dans les cas où le test du rapport des vraisemblances ne s’applique
pas. Le fonctionnement de la courbe ROC est le suivant : pour chaque valeur de u dans
un sous-ensemble discret de [0,1], on effectue la procédure suivante.
1. Pour chaque individu i, poser Yi∗ = 1 si π̂i ≥ u et Yi∗ = 0 si π̂i < u.
2. Calculer ou , le taux de vrais positifs (le nombre de personnes pour lesquelles on
a observé une réclamation et pour lesquelles Yi∗ = 1, divisé par le nombre de
personnes pour lesquelles on a observé d’une réclamation) et au , le taux de faux
positifs (le nombre de personnes pour lesquelles on n’a observé aucune réclamation
et pour lesquelles Yi∗ = 1, divisé par le nombre de personnes pour lesquelles on
n’a observé aucune réclamation).
3. Sur un graphique, on place un point ayant au comme abscisse et ou comme ordonnée.
Une fois que tous les points sont placés, il faut les relier par des segments partant
du point (0,0) et se terminant au point (1,1). Ceci forme la courbe ROC. La courbe
Chapitre 4. Structure des modèles
53
ROC se trouve à l’intérieur du carré unité, dans l’espace se trouvant au-dessus de la
droite à 45 degrés passant par les points (0,0) et (1,1). Ce qui permet de déterminer
si le modèle est bon, au sens où il discrimine bien entre les deux valeurs possibles de
la variable réponse, c’est l’aire qui se trouve sous la courbe ROC. Plus l’aire sous la
courbe est élevée, meilleur est le modèle. Si l’aire est supérieure à 0.8, on considère
généralement qu’on a affaire à un bon modèle, alors que si l’aire se trouve entre 0.5 et
0.7, le modèle est jugé mauvais. La figure C.1 illustre la courbe ROC obtenue pour le
modèle logistique correspondant à la présence d’une réclamation pour la garantie AB.
Dans ce cas-ci, le meilleur sous-modèle testé a une aire sous la courbe égale à 0.77, ce
qui démontre que le modèle est bon, mais qu’il pourrait aussi être amélioré. Pour tous
les autres sous-modèles, l’aire sous la courbe ROC obtenue est inférieure à 0.77.
4.2.2
Utilisation du modèle hiérarchique dans la pratique actuarielle
La structure hiérarchique a été conçue pour refléter la chronologie qui se produit la
majorité du temps suite à un accident d’automobile. Comme l’assureur reçoit de plus
en plus d’informations sur cet accident dans les jours et les semaines qui suivent le
sinistre, il s’avère utile de construire une structure de modèles correspondant à cette
chronologie. La structure permet alors à l’assureur d’utiliser ces informations afin de
renchérir les modèles en incluant directement les indemnités et autres caractéristiques
observées afin de prédire la suite des évènements. Comme la structure hiérarchique a
été construite à partir d’un point de vue d’indemnisation, il est alors plus difficile de
concevoir une utilisation propre à la tarification. Toutefois, la structure pourrait être
adaptée afin de répondre à ce besoin. Pour ce projet, seul l’aspect d’indemnisation a
été étudié pour cette structure.
Chapitre 5
Résultats des analyses
Nous présentons maintenant les résultats des analyses discutées au chapitre 4.
Comme les modèles peuvent contenir jusqu’à une trentaine de covariables, seul un
résumé des résultats les plus importants sera présenté pour les deux types de structures
proposées. À l’annexe D, on retrouve les tableaux comprenant une partie des covariables
significatives pour chaque modèle. De plus, certains graphiques de valeurs prédites y
sont reproduits.
Une analyse de portefeuilles est effectuée au chapitre 6 afin de comparer les résultats
de la structure hybride estimée par la méthode de vraisemblance maximale et par
l’approche bayésienne, ainsi que les résultats de la structure hiérarchique estimée par la
méthode de vraisemblance. Les valeurs prédites de ces modèles seront comparées aux
valeurs observées afin d’évaluer la performance de prévision de chaque structure. Les
valeurs prédites de chaque modèle correspondent à la moyenne prédite estimée pour
l’assuré i.
5.1
Structure hybride
La structure hybride établie à partir du modèle de Frees et Valdez (2008) est pertinente pour trois applications actuarielles. Des résultats partiels pour les modèles de
tarification et d’indemnisation seront donnés. Les procédures utilisées pour le modèle
de tarification FSCO étant les mêmes que celles du modèle de tarification, les résultats
correspondants ne seront pas présentés.
Chapitre 5. Résultats des analyses
55
Pour chaque application, on précise ci-dessous les coefficients obtenus pour le modèle
de sévérité des dommages matériels, le modèle multinomial, ainsi que le modèle de
sévérité des blessures corporelles subies par l’assuré. Il s’agit des trois modèles les plus
importants de la structure. Les modèles de sévérité des blessures corporelles à autrui sont
moins importants, puisque ces indemnités sont beaucoup plus volatiles que les autres
montants de sévérité en raison de la définition même de la garantie. Ces indemnités sont
davantage affectées par la tierce personne qui est blessée que par l’assuré lui-même.
5.1.1
Modèle de tarification
Les modèles de tarification utilisent toutes les covariables qui sont relatives aux
caractéristiques de l’assuré et de son véhicule. Pour chaque modèle ajusté, seules les
covariables qui ont un effet significatif ont été conservées.
Modèle de sévérité des dommages matériels
Le modèle de sévérité des coûts moyens qui avait été choisi préalablement est le
modèle gamma (voir 4.1.1). La paramétrisation qui a été sélectionnée pour ce modèle
est de la forme :
f (y|µ, k) =
exp
(
)
−ky
y k−1 k k
µ
,
µk Γ(k)
où µ > 0 et k > 0. Les covariables sont donc utilisées pour le paramètre µ seulement,
qui représente la moyenne de la distribution. Comme les deux paramètres du modèle
doivent être positifs, une fonction de lien a été utilisée pour chaque paramètre. Cette
fonction de lien est le logarithme du paramètre, qui est supposé égal à la combinaison
linéaire entre les valeurs estimées des coefficients et les valeurs des covariables :
log(µ̂) = β̂ ⊤ x,
où β représente le vecteur des p coefficients de régression et x représente le vecteur des
p covariables.
Chapitre 5. Résultats des analyses
56
Avec cette paramétrisation, il est très facile de connaître la moyenne prédite des
montants de sévérité pour chaque assuré. Il suffit de calculer la valeur prédite à partir
de la combinaison linéaire des covariables pour le client concerné et des valeurs estimées
des coefficients du modèle. Une fois cette valeur connue, on prend l’exponentielle pour
obtenir la moyenne prévue des indemnités versées à ce client.
Le tableau D.2 présente les valeurs estimées des coefficients pour le montant de
sévérité des dommages matériels. Prenons l’exemple d’un client de 33 ans ayant sept
années d’expérience et conduisant une Audi A4 2006 dont la valeur actuelle est de
12 000 $. Sachant ces informations, la moyenne prédite du montant réclamé pour les
dommages matériels sera
log(µ) = Intercept + age.30-69 + modelevehSmallLuxury + nap.8-15 +
vehage·5 + prix.actuel·12000,
log(µ) = 7.8350 − 0.0466 − 0.0751 − 0.0935 − 0.0180 · 5 + 0.000005799 · 12000,
log(µ) = 7.599388,
µ = exp(7.599388) = 1996.97 $.
Évidemment, plusieurs autres informations seront connues lors de la souscription à
la police d’assurance, ce qui permet à l’assureur d’obtenir un montant prévu qui est
plus représentatif de la réalité. Pour les covariables catégoriques, une des modalités est
utilisée à titre de référence, ce qui signifie que le coefficient de celle-ci est égal à zéro.
Par exemple, pour l’âge, la modalité de référence représente les personnes de 22 ans et
moins. Donc, le coefficient obtenu pour les autres modalités fait toujours référence au
montant moyen réclamé par le groupe des personnes de 22 ans et moins. Pour le groupe
des 30 à 69 ans, le coefficient obtenu est −0.0466. Un coefficient négatif signifie que le
montant moyen réclamé par le groupe des 30 à 69 ans est inférieur à celui des 22 ans
et moins, alors qu’un coefficient positif désignerait que ce montant est supérieur à celui
des 22 ans et moins.
Une autre caractéristique intéressante du modèle gamma avec un lien logarithmique
est l’interprétation des coefficients. Reprenons l’exemple ci-haut avec l’âge de l’assuré.
Comme il s’agit d’un lien logarithmique entre la variable réponse et la relation linéaire
des paramètres, chaque coefficient peut alors être considéré comme un différentiel. Un
différentiel représente la valeur qui multiplie le montant moyen estimé par rapport au
groupe de référence. Par exemple, le différentiel obtenu pour le groupe d’âge des 30 à
69 ans est de e−0.0466 = 0.9545. Cela signifie que l’indemnité moyenne réclamée par les
personnes de 30 à 69 ans s’élève à 95.45% du montant moyen réclamé par les personnes
de 22 ans et moins pour les dommages matériels à leur véhicule.
Chapitre 5. Résultats des analyses
57
log(µ) = Intercept + age.30-69 + modelevehSmallLuxury + nap.8-15 +
vehage·5 + prix.actuel·12000,
µ = e7.8350−0.0466−0.0751−0.0935−0.0180·5+0.000005799·12000 ,
µ = e7.8350 e−0.0466 e−0.0751 e−0.0935 e−0.0180·5 e0.000005799·12000 ,
µ = 2092.23 · e−0.0466 ,
µ = 2092.23 · 0.9545,
µ = 1996.97 $.
Un ordre peut être établi pour chaque covariable catégorique, considérant toutes les
autres covariables fixées. La modalité ayant obtenu le coefficient le plus bas correspond
au groupe dont la sévérité moyenne espérée en dommages matériels est la plus faible.
Le tableau 5.1 permet de voir les coefficients obtenus pour chaque regroupement selon
l’âge de l’assuré. C’est pour le groupe des 30-69 ans que la moyenne est la plus faible.
En revanche, la moyenne est la plus élevée pour le groupe des 70 ans et plus.
Tableau 5.1 – Coefficients estimés pour le modèle de sévérité des dommages matériels
pour la covariable relative à l’âge du conducteur principal assuré
Paramètre Valeur estimée
age.22age.23-29
age.30-69
age.70+
0
−0.0294
−0.0466
0.0857
Comme on peut le voir sur le graphique D.1, les moyennes observées et prévues
selon l’âge de l’assuré sont très proches. L’ajustement est spécialement bon pour les
personnes de 30 ans et plus ; ceci s’explique par une exposition plus élevée de cette
catégorie d’âge dans le jeu de données. Le graphique D.2 illustre les différentiels obtenus
par le modèle de tarification des dommages matériels au véhicule assuré pour l’âge de
la personne assurée. On constate sans surprise que les montants réclamés pour les
dommages matériels diminuent avec l’âge de l’assuré, sauf pour les personnes de 70 ans
et plus.
Pour les autres covariables de ce modèle, on remarque que le nombre d’années d’expérience de conduite a un effet significatif : le coût moyen de sévérité diminue lorsque
l’expérience du conducteur augmente. Pour la catégorie de véhicules, les deux catégories
qui obtiennent les montants moyens les plus élevés sont les VUS et berlines de luxe,
Chapitre 5. Résultats des analyses
58
ainsi que les camionnettes. Ces catégories représentent les véhicules qui ont souvent
une valeur d’achat très élevée, ce qui engendre généralement des coûts plus élevés lors
d’une réparation. Pour ce qui est de l’année de réclamation, elle a été utilisée dans le
modèle afin de contrôler l’effet de l’inflation et de l’augmentation des coûts au fil des
années étudiées. Cette tendance est vérifiée par une augmentation graduelle du coefficient pendant les cinq années, sauf pour 2003 et 2004 où les coefficients obtenus sont
sensiblement égaux.
Modèle multinomial
Pour le modèle multinomial, seuls les résultats pour les covariables de l’âge de l’assuré et de la catégorie du véhicule sont présentés dans le tableau D.3. Les critères de
sélection des covariables n’ont permis de rejeter qu’un faible nombre de covariables.
Pour chaque regroupement à l’intérieur des covariables, il y a trois coefficients à estimer : la probabilité de la présence d’une réclamation AB, la probabilité de la présence
d’une réclamation BI, ainsi que la probabilité de la présence de ces deux garanties. Le
modèle comprend donc plus de 300 coefficients à estimer.
L’interprétation des coefficients du modèle multinomial s’avère plus difficile que celle
des modèles de sévérité. Tout d’abord, les trois coefficients estimés par regroupement
mesurent la différence entre le rapport des probabilités estimées avec la probabilité
de la modalité de référence (seulement la garantie DOMM). Il y a un coefficient pour
chaque regroupement d’une covariable afin de comparer le rapport des probabilités avec
le même rapport calculé à partir du regroupement de référence.
Reprenons l’exemple où l’âge de l’assuré est étudié. Le regroupement de référence
est le groupe de 22 ans et moins. Si on s’intéresse au groupe des 23 à 29 ans, le coefficient
obtenu pour la présence d’une réclamation AB est 0.4246, alors que le coefficient obtenu
pour une réclamation BI est −0.5032. Pour le premier paramètre, comme il s’agit d’un
coefficient positif, cela signifie que la cote de la probabilité d’avoir une réclamation AB
par rapport à la probabilité de ne réclamer que des dommages matériels est plus élevée
pour le groupe des 23 à 29 ans comparativement au groupe des 22 ans et moins. Pour le
deuxième paramètre, comme il s’agit d’un coefficient négatif, c’est le groupe des 22 ans
et moins qui obtient un rapport plus élevé entre la probabilité de réclamer la garantie
BI et la probabilité de ne réclamer que des dommages matériels.
Chapitre 5. Résultats des analyses
Pour AB, on a
59
π23−29,AB
π23−29,DOM M
Pour BI, on a
π23−29,BI
π23−29,DOM M
>
<
π22−,AB
π22−,DOM M
π22−,BI
π22−,DOM M
.
.
où π23−29,AB , π23−29,BI et π23−29,DOM M représentent respectivement les probabilités de
la présence de chaque garantie pour le groupe des 23-29 ans et π22−,AB , π22−,BI et
π22−,DOM M représentent respectivement les mêmes probabilités, mais pour le groupe
des 22 ans et moins.
L’interprétation des coefficients du modèle multinomial appelle à la prudence. Ces
coefficients sont estimés en fonction du rapport des probabilités avec celle de la modalité
de référence. Comme il y a plusieurs modalités qui entrent en jeu, la probabilité de la
modalité de référence peut être influencée par l’une des autres valeurs possibles, ce qui
a une conséquence directe sur l’estimation des coefficients. Le tableau 5.2 présente un
exemple de cette influence.
Tableau 5.2 – Variation des coefficients du modèle multinomial en considérant la probabilité de deux modalités fixées
Paramètre
Probabilité
empirique
22 ans et moins
Probabilité
empirique
23 à 29 ans
Rapport
des probabilités
22 ans et moins
Rapport
des probabilités
23 à 29 ans
Absence de AB et BI (ref)
Présence de AB
Présence de BI
Présence de AB et BI
85%
10%
4%
1%
80%
10%
9%
1%
X
0.1176
0.0471
0.0118
X
0.125
0.1125
0.0125
Signe du
coefficient
estimé
X
+
+
+
On suppose que la probabilité de réclamer de la garantie AB et la probabilité de
réclamer des garanties AB et BI comme étant fixées respectivement à 10% et à 1% pour
les deux groupes d’âges. La seule probabilité qui varie entre les deux groupes est celle
de réclamer de la garantie BI, qui subit une augmentation de 5%. Cette augmentation
a pour effet de diminuer de 5% la probabilité qu’aucune réclamation ne soit faite pour
AB et BI. Comme la probabilité de la modalité de référence a changé, le rapport de
toutes les probabilités avec celle-ci est aussi changé. Donc, même pour les probabilités
des modalités qui étaient considérées fixes, on observe des rapports plus élevés pour le
groupe des 23 à 29 ans, comparativement au groupe des 22 ans et moins. Cela mène
intuitivement à des coefficients qui seront positifs, même si la probabilité de réclamer
du AB est la même pour les deux groupes.
Chapitre 5. Résultats des analyses
60
Dans les résultats obtenus, les coefficients de certaines covariables suivent cette
tendance, notamment l’âge de l’assuré. Les coefficients obtenus concernant la probabilité
de réclamer pour les blessures corporelles de l’assuré (AB) augmentent pour chaque
groupe d’âge (graphique D.4). Toutefois, si on observe le graphique D.3, on remarque
que la probabilité observée de réclamer de la garantie AB diminue à partir de 30 ans.
Ce graphique permet aussi de constater que le modèle multinomial s’ajuste bien aux
valeurs observées.
Modèle de sévérité des blessures corporelles de l’assuré
Pour ce modèle, les résultats obtenus pour certaines covariables sont présentés dans
le tableau D.4. Parmi les résultats les plus importants à constater, il y a l’âge de l’assuré
qui s’avère très significatif. Les personnes de 30 à 69 ans, qui sont généralement mieux
rémunérées que les autres groupes, réclament une indemnité AB de 36% supérieure au
montant moyen réclamé par les personnes de 22 ans et moins. Autre résultat intéressant,
les personnes mariées et divorcées réclament elles aussi une indemnité généralement plus
élevée que les personnes veuves ou célibataires. Ces personnes ont généralement des
enfants à charge qui peuvent occasionner des frais supplémentaires, comparativement
aux groupes des veufs et célibataires. Finalement, un autre constat intéressant, c’est la
valeur positive et significative du coefficient lié à l’âge du véhicule. Cela signifie que plus
le véhicule est âgé, plus le montant réclamé pour les blessures corporelles de l’assuré
est élevé. Cela est probablement lié aux progrès constants de l’industrie automobile en
matière de sécurité des occupants d’un véhicule.
5.1.2
Modèle d’indemnisation
Pour le modèle d’indemnisation, les résultats présentés dans ce mémoire sont les
coefficients correspondants aux informations relatives à l’accident qui ont été ajoutées
au modèle de tarification. Quelques-unes de ces covariables sont très significatives dans
les différents modèles d’indemnisation.
Modèle de sévérité des dommages matériels
Tout d’abord, le tableau D.5 illustre quelques-unes des covariables significatives du
modèle de sévérité des dommages matériels. Les deux covariables relatives à l’accident
qui se sont avérées significatives dans le modèle sont l’indicatrice d’une perte totale
Chapitre 5. Résultats des analyses
61
du véhicule, ainsi que le niveau de responsabilité de l’assuré dans l’accident. Lorsque
le véhicule assuré est une perte totale, il sera forcément remplacé, ce qui implique des
coûts supplémentaires pour l’assureur. Toutefois, la perte totale du véhicule n’implique
pas nécessairement que le montant remboursé sera égal à la valeur du véhicule, puisqu’il
peut y avoir des frais supplémentaires liés au remorquage, à la location d’un véhicule
de remplacement, etc. Cette information a donc été utilisée à titre de covariable. La
valeur obtenue pour ce coefficient est de 0.9824, ce qui signifie que le montant moyen
estimé pour une perte totate est e0.9824 = 2.67 fois supérieur au montant moyen estimé
pour une perte partielle.
L’autre covariable importante de ce modèle est le niveau de responsabilité de l’assuré
dans l’accident. Cette covariable a été divisée en trois catégories : Non Responsable,
Partiellement responsable, Responsable. Ces catégories correspondent respectivement
aux modalités catégoriques : 0, 50, 100. Le graphique D.5 démontre les valeurs observées et prévues pour chaque modalité de cette covariable. Ce graphique permet de voir
qu’il y a une certaine disparité dans l’exposition de chacune des modalités. De fait, 70%
des observations représentent des accidents où l’assuré n’est pas considéré responsable,
alors qu’on s’attendait à une valeur proche de 50%. Aucune explication n’a été trouvée
pour expliquer ce phénomène. Pour cette modalité, le montant moyen d’une réclamation est égal à 73% du montant moyen d’un accident où l’assuré est considéré comme
responsable.
Modèle multinomial
Dans le cadre du modèle multinomial sous l’indemnisation, les mêmes covariables
que le modèle de tarification s’avèrent de nouveau significatives. Toutefois, la responsabilité de l’assuré dans l’accident a une incidence particulière sur les garanties qui seront
réclamées (voir les coefficients du tableau D.6). Lorsqu’un assuré est responsable d’un
accident, la proportion des accidents qui génèrent du AB est inférieure à celle où l’assuré
n’est pas responsable de l’accident. Il se produit le phénomène inverse pour la garantie
BI. En effet, lorsque l’assuré est reconnu responsable d’un accident, il peut alors se faire
poursuivre par les autres personnes impliquées afin d’obtenir d’autres indemnités ; c’est
ce qui explique la proportion plus élevée pour la garantie BI. Le différentiel obtenu est
supérieur à 12, ce qui démontre l’importance de l’effet de cette covariable.
Autre particuliarité intéressante, c’est la présence d’une certaine proportion de réclamations BI pour des gens qui ne sont pas tenus responsables de l’accident. Théoriquement, cette situation ne devrait pas se produire puisque l’assuré n’est pas reconnu
responsable de l’accident selon le rapport de police ; il ne peut donc pas être responsable
Chapitre 5. Résultats des analyses
62
des blessures infligées aux autres personnes. Toutefois, un juge peut renverser la décision
du rapport de police et considérer l’assuré comme responsable des préjudices subis par
autrui, ce qui amène à une réclamation du type BI. Le faible nombre de réclamations de
la garantie BI effectuées par les assurés non-responsables est dû à ce type de situation.
Modèle de sévérité des blessures corporelles à l’assuré
Dans ce modèle, les hypothèses émises par l’assureur à propos de certaines covariables ont pu être vérifiées. Tout d’abord, la perte totale du véhicule assuré augmente
l’estimé moyen pour les blessures corporelles de près de 12% par rapport à une perte
partielle. Le pourcentage de dommages matériels observé sur le véhicule a aussi pour
effet d’augmenter le montant moyen estimé pour les blessures corporelles. Autre fait
notable, le coefficient obtenu pour la valeur actuelle du véhicule est significativement
positif, ce qui implique que le montant moyen estimé pour les blessures corporelles augmente si le véhicule a une valeur plus élevée. On peut penser que le conducteur d’une
telle voiture possède également un salaire plus élevé ; donc, si cet assuré réclame pour le
remplacement de son salaire, l’indemnité réclamée sera automatiquement plus élevée.
5.2
Structure hiérarchique
Les conclusions obtenues pour chacune des covariables de la structure hiérarchique
sont les mêmes que pour le modèle hybride d’indemnisation. La seule différence digne
de mention est l’utilisation d’un modèle logistique pour la présence d’une réclamation
pour les garanties AB et BI. L’interprétation des coefficients est différente de celle du
modèle multinomial : comme il y a seulement deux catégories, les coefficients obtenus
permettent d’obtenir directement les groupes les plus à risque, de la même façon que
les modèles de sévérité. Si le coefficient est positif, alors le groupe correspondant à
ce coefficient a une plus grande probabilité espérée de réclamer un montant pour la
garantie AB qu’un groupe affecté par un coefficient négatif.
Les résultats partiels de ce modèle logistique sont présentés au tableau D.8. Les
graphiques D.9 et D.10 permettent de juger de l’effet du pourcentage de dommages
matériels observé lors de l’accident sur la probabilité qu’il y ait une réclamation pour
les blessures corporelles de l’assuré. Évidemment, plus ce pourcentage augmente, plus
la probabilité d’observer une réclamation pour AB augmente aussi.
Chapitre 6
Analyses bayésiennes
L’approche fréquentiste a longtemps été privilégiée dans les diverses applications de
la statistique moderne. Toutefois, l’approche bayésienne se fait de plus en plus présente.
La performance grandissante du support informatique et les développements en statistique computationnelle sont certaines des raisons qui expliquent la présence accrue des
analyses bayésiennes.
Dans ce projet, l’approche bayésienne a été utilisée afin d’ajuster simultanément
les différentes composantes d’une même structure. Cette technique permet de tenir
compte de la corrélation qui peut exister entre les paramètres de différents modèles.
Par exemple, le coefficient estimé par le modèle multinomial pour la présence d’une
garantie AB pour un des groupes d’âge pourrait être corrélé avec le coefficient estimé
par le modèle de sévérité de la garantie AB pour le sexe de la personne assurée. Ce type
de corrélation n’a pas été pris en compte lors de l’ajustement des structures hybrides et
hiérarchiques au chapitre 5, puisque chaque modèle était ajusté indépendamment des
autres.
Un point fort de l’approche bayésienne est qu’elle permet de se prononcer directement sur l’incertitude quant à la vraie valeur des paramètres dans la prévision des
garanties impliquées dans un accident, ainsi que les montants encourus. En fait, l’approche bayésienne conduit à une distribution a posteriori pour chaque paramètre, ce
qui permet de bien quantifier l’incertitude reliée à chacun d’entre eux.
Dans ce chapitre, une brève revue de la théorie sur l’approche bayésienne sera présentée. Les résultats de l’ajustement seront ensuite donnés. La reproduction d’un portefeuille fictif permettra de comparer les modèles obtenus par maximum de vraisemblance
et par l’estimation bayésienne.
Chapitre 6. Analyses bayésiennes
6.1
64
Modèle
Les fondements théoriques de l’approche bayésienne découlent d’un théorème paru
dans l’article de Bayes et Price (1763). Richard Price, qui a publié les résultats du défunt
Thomas Bayes, croyait que ses résultats allaient prouver l’existence d’une présence
divine puisqu’il réussissait à expliquer une partie du hasard. Bien que ce théorème soit
utilisé largement en statistique, il a fallu deux siècles pour voir apparaître les premières
applications de l’approche bayésienne. Dans ce mémoire, seules les notions importantes
de cette théorie seront présentées. Le lecteur intéressé à en savoir davantage sur cette
approche pourra se référer aux livres de Carlin et Louis (2008) et Gelman et al. (2004).
Les distributions conditionnelles sont une partie intégrante de l’approche bayésienne.
Elles sont notamment utilisées lorsqu’on établit une structure hiérarchique. On définit
une distribution conditionnelle de la façon suivante :
f (y|x) =
f (y, x)
f (y, x)
,
=∫
f (y, z)dz
f (x)
où x, y et z sont des vecteurs de valeurs continues. Le théorème de Bayes découle de
cette dernière équation :
f (x|y) =
f (y|x)f (x)
f (y|x)f (x)
.
=∫
f (y|z)f (z)dz
f (y)
L’approche bayésienne est basée sur cette équation. Afin de produire des inférences
bayésiennes, il y a deux éléments qui sont préalablement requis. Il faut tout d’abord
spécifier les distributions qui lient les paramètres au jeu de données, ce qui sera dénoté
f (y|θ). La vraisemblance correspondant à ces distributions sera la même que celle
utilisée dans la structure hybride présentée à la section 4.1. Pour les modèles de sévérité,
on conserve la distribution gamma avec un lien logarithmique, et le modèle de fréquence
sera supposé multinomial.
Le deuxième élément à spécifier est la loi a priori sur les paramètres θ. Celle-ci
sera dénotée π(θ). Cette loi sert à quantifier l’incertitude concernant la valeur des
paramètres avant la cueillette des données. Dans certains cas, il est possible de choisir
la loi a priori à la lumière de connaissances ou d’expériences antérieures. Dans notre
projet, il n’y a aucune valeur préalable qui semble plus plausible qu’une autre. Dans
pareil cas, on opte généralement pour une loi a priori dite non informative conçue
Chapitre 6. Analyses bayésiennes
65
pour donner le moins d’information préalable sur les paramètres. Pour l’ensemble des
paramètres de localisation, une distribution normale de moyenne nulle et de variance
1000 a donc été utilisée comme loi a priori. Pour les paramètres d’échelle des lois gamma,
une distribution gamma de moyenne 1 et de variance 1000 a été utilisée, puisque ces
paramètres ne peuvent être négatifs.
Suite à la spécification des distributions f (y|θ) et de la loi a priori π(θ), ces éléments
sont combinés par le théorème de Bayes, ce qui permet d’obtenir la loi a posteriori de
l’ensemble de paramètres θ :
π(θ|y) = ∫
f (y|θ)π(θ)
∝ f (y|θ)π(θ)
f (y|θ)π(θ)dθ
Le signe de proportionnalité est justifié par le fait que le dénominateur du terme
central ne dépend pas de θ, de sorte qu’il agit à titre de constante d’intégration. La loi a
posteriori ainsi obtenue est la source de toutes inférences nécessaires sur les paramètres
θ. Dans ce projet, la loi a posteriori est définie en fonction de tous les modèles composant
la structure hybride d’indemnisation. On retrouve alors :
– le modèle de sévérité des dommages matériels : Ci,1 ∼ gamma(µ1,ℓ , k1 ) et ℓ =
1, . . . , L1 où L1 représente le nombre de paramètres du modèle DOMM ;
– le modèle de fréquence : Mi,1 , . . . , Mi,4 ∼ multinomiale(1; ϕ1,ℓ , . . . , ϕ3,ℓ ) et ℓ =
1, . . . , L6 où L6 représente le nombre de paramètres du modèle multinomial ;
– le modèle de sévérité des blessures corporelles à l’assuré sachant l’absence d’une
réclamation pour les blessures corporelles à autrui : Ci,2 ∼ gamma(µ2,ℓ , k2 ) et ℓ =
1, . . . , L2 où L2 représente le nombre de paramètres du modèle AB ;
– le modèle de sévérité des blessures corporelles à autrui sachant l’absence d’une réclamation pour les blessures corporelles à l’assuré : Ci,3 ∼ gamma(µ3,ℓ , k3 ) et ℓ =
1, . . . , L3 où L3 représente le nombre de paramètres du modèle BI ;
– le modèle de sévérité des blessures corporelles à autrui et des blessures corporelles
à l’assuré : Ci,2 ∼ gamma(µ4,ℓ , k4 ) et Ci,3 ∼ gamma(µ5,ℓ , k5 ) et ℓ = 1, . . . , L4 où
L4 représente le nombre de paramètres du modèle AB (AB-BI) et ℓ = 1, . . . , L5
où L5 représente le nombre de paramètres du modèle BI (AB-BI).
Chapitre 6. Analyses bayésiennes
66
Les lois a priori non informatives ont été définies de cette façon :
– la loi a priori sur les paramètres de localisation des distributions gamma :
µj,ℓ ∼ N (0, 1000), où j = 1, . . . , 5 et ℓ = 1, . . . , Lj ;
– la loi a priori sur les paramètres d’échelles des distributions gamma :
kj ∼ gamma(0.001, 0.001), où j = 1, . . . , 5 ;
– la loi a priori sur les paramètres de la multinomiale :
logit(ϕj,ℓ ) = β ⊤
j,ℓ x, où β j,ℓ ∼ N (0, 1000) et j = 1, . . . , 3 et ℓ = 1, . . . , L6 .
Ceci mène à l’équation suivante :
π(µ1,...,5;j , k1,...,5 , ϕ1,...,4;j |y) ∝
Lj
5 ∏
∏
j=1 ℓ=1
5
∏
π(µj,ℓ )
5
∏
j=1
π(kj )
3 ∏
m
∏
π(ϕj,ℓ )
j=1 ℓ=1
f (Ci,j |µj , kj )f (Mi,1 , . . . , Mi,4 |1; ϕ1 , . . . , ϕ3 ).
j=1
Cette équation ne permet pas d’exprimer la loi a posteriori analytiquement. Il faut
donc calculer cette loi de façon numérique par une méthode MCMC (Markov Chain
Monte Carlo) qui simule des réalisations de θ à partir de la loi a posteriori. À cet
effet, on peut avoir recours au logiciel WinBUGS (Spiegelhalter et al., 2003) qui a été
utilisé puisqu’il permet d’implanter facilement une structure de modèles par l’approche
bayésienne. Le suffixe « BUGS » signifie justement « Bayesian Inference Using Gibbs
Sampling ». L’algorithme programmé dans ce logiciel est l’échantilloneur de Gibbs.
Cet algorithme a d’ailleurs contribué à l’utilisation accrue de l’inférence bayésienne en
statistique. Le résumé du fonctionnement de cet algorithme et de son implantation dans
WinBUGS sont présentés à l’annexe E.
Un des problèmes qui peuvent survenir lors de l’utilisation de méthodes MCMC, c’est
le temps qui est nécessaire à la production de simulations afin d’obtenir une convergence vers la loi a posteriori. Avec l’utilisation de l’ensemble des covariables considérées
significatives par les méthodes de maximum de vraisemblance, plus de 400 paramètres
auraient alors été utilisés pour les inférences bayésiennes. Bien que la statistique computationnelle ait grandement évolué lors des deux dernières décennies, il faudrait plusieurs
semaines, voire plusieurs mois, avant de pouvoir déterminer la loi a posteriori associée
à ce type de modèle. Pour ce projet, seules les covariables considérées comme les plus
influentes ont été conservées. Cette sélection a permis de diminuer le nombre de paramètres à 148 et aussi d’accélérer grandement la convergence vers la loi a posteriori. Le
tableau 6.1 présente les covariables utilisées pour les inférences bayésiennes.
Chapitre 6. Analyses bayésiennes
67
Tableau 6.1 – Covariables utilisées lors de l’ajustement du modèle bayésien
Modèle
Sévérité DOMM
Multinomiale
Sévérité AB sans BI
Sévérité BI sans AB
Sévérité AB avec BI
Sévérité BI avec AB
Covariables
Catégorie de véhicule, Année de l’accident,
Nombre d’années d’expérience de conduite,
Pourcentage de responsabilité de l’assuré,
Valeur actuelle et âge du véhicule
Âge et sexe de l’assuré, Année de l’accident,
Cote de crédit de l’assuré,
Nombre d’années d’expérience de conduite,
Force de l’accident,
Indicatrice de perte totale du véhicule assuré,
Pourcentage de responsabilité de l’assuré,
Pourcentage de dommages matériels du véhicule assuré
Nombre d’années d’expérience de conduite,
Année de l’accident, Âge du véhicule,
Pourcentage de responsabilité de l’assuré,
Pourcentage de dommages matériels du véhicule assuré,
Territoire où l’assuré conduit fréquemment
Année de l’accident, Âge du véhicule,
Nombre de conducteurs assurés par cette police,
Pourcentage de responsabilité de l’assuré,
Pourcentage de dommages matériels du véhicule assuré
Année de l’accident, Âge du véhicule,
Pourcentage de responsabilité de l’assuré
Année de l’accident,
Pourcentage de responsabilité de l’assuré
Certaines modifications à l’algorithme auraient pu améliorer l’efficacité du logiciel.
Tout d’abord, comme la majorité des covariables sont catégoriques, celles-ci auraient pu
être simulées en blocs puisque les catégories sont généralement très corrélées entre elles.
D’autres propositions d’amélioration sont faites par Carlin et Louis (2008) et Gelman
et al. (2004).
Dans ce projet, les méthodes d’ajustement séquentiel par le théorème de Bayes ont
été testées, mais elles n’ont pas permis d’accélérer la convergence de façon significative. Parmi les autres méthodes connues, on retrouve les calculs approximatifs bayésiens (« Approximate Bayesian Calculation » ou « Likelihood-Free Computation ») qui
offrent une alternative intéressante pour l’inférence bayésienne. Cette méthode consiste
Chapitre 6. Analyses bayésiennes
68
à simuler des paramètres et à vérifier si les distributions qui en dépendent permettent
de reproduire adéquatement la base de données. Un résumé de cette option est présenté
dans l’article de Sisson et Fan (2010).
6.2
Résultats de l’ajustement
Tout d’abord, afin de pouvoir comparer les modèles bayésiens à ceux ajustés par le
maximum de vraisemblance, ces derniers ont été réajustés en n’utilisant que les covariables présentées au tableau 6.1. Afin d’obtenir la convergence vers la loi a posteriori,
45 000 itérations ont été nécessaires sur deux chaînes générées à partir de valeurs initiales différentes ; 5 000 itérations supplémentaires sur chaque chaîne ont été conservées
afin d’établir la loi a posteriori de chaque paramètre d’intérêt. Chacune des 10 000 itérations conservées fournit une réalisation des paramètres, ce qui permet de reconnaître
de façon graphique la forme de la loi empirique des lois a posteriori. De plus, les valeurs
des percentiles peuvent être calculées au moyen de ces 10 000 itérations, ce qui permet
de construire des intervalles de crédibilité pour les paramètres.
Étant donné la taille imposante du jeu de données, l’estimation moyenne des coefficients du modèle bayésien fondée sur une loi a priori non-informative devrait se
rapprocher des coefficients estimés par la méthode du maximum de vraisemblance.
Cette hypothèse est confirmée par les coefficients présentés dans les tableaux F.1 et
F.2. Chaque coefficient estimé par la méthode du maximum de vraisemblance se trouve
à une distance inférieure à une erreur standard du coefficient correspondant estimé par
l’approche bayésienne. Les résultats de l’ajustement bayésien se conforment donc à ceux
de l’ajustement par maximum de vraisemblance.
Afin de valider que les coefficients générés dans les simulations de la méthode bayésienne viennent bien de la loi a posteriori, Gelman et al. (2004) ont proposé la mesure
de proximité des variations intra- et inter-chaînes suivante :
√
R̂ =
d
Var(ψ|y)
,
W
où ψ est le paramètre d’intérêt et W la matrice de variance intra-chaîne.
Chapitre 6. Analyses bayésiennes
69
On définit les variances inter- et intra-chaîne de la façon suivante :
W =
m
K+N
∑
1 ∑
1
(ψ (k:l) − ψ̄ (•:l) ),
m ℓ=1 N − 1 k=K+1
N −1
1
W + B,
N
N
m
N ∑
B =
(ψ̄ (•:l) − ψ̄ (•:•) )2 ,
m − 1 ℓ=1
d
Var(ψ|(y))
=
où B est la matrice de variance inter-chaîne, K est le nombre d’itérations de la période
de chauffe, N est le nombre d’itérations suivant la période de chauffe, m est le nombre de
chaînes utilisées et ψ̄ (•:ℓ) représente la moyenne du paramètre d’intérêt qui est calculée
de la façon suivante :
ψ̄ (•:ℓ) =
B+N
∑
ψ̄ (k:ℓ) /N
k=B+1
.
Pour s’assurer de la convergence, il faut que la valeur R̂ soit inférieure à 1.1 pour
l’ensemble des paramètres d’intérêt du modèle (Gelman et al., 2004). Cette condition
a été vérifiée pour les 148 paramètres.
6.3
Reproduction d’un portefeuille
L’une des raisons qui a rendu l’inférence bayésienne si populaire ces dernières années
est la possibilité qu’elle procure d’inclure l’incertitude quant à la valeur des paramètres
dans la prévision de nouvelles observations. La méthode du maximum de vraisemblance
permet d’obtenir une seule estimation des coefficients, tandis que l’approche bayésienne
conduit à une loi a posteriori pour chaque paramètre. L’inférence bayésienne permet
alors d’inclure la variabilité des coefficients estimés pour chaque paramètre en utilisant
directement les valeurs simulées à partir de la loi a posteriori dans la prévision de nouvelles données, contrairement au modèle de vraisemblance maximale où les coefficients
estimés sont fixés lors de la prévision.
La reproduction d’un portefeuille consiste à créer une base de données avec un
nombre arbitraire d’observations provenant de la base initiale. Dans certains cas, de
toutes nouvelles observations peuvent être simulées afin de créer des portefeuilles fictifs.
Chapitre 6. Analyses bayésiennes
70
Dans notre projet, mille portefeuilles de 10 000 personnes ont été générés au hasard
parmi les 49 509 observations de la base de données initiale. Le but de cet exercice
était de vérifier si les valeurs moyennes estimées pour chaque modèle de sévérité et
de fréquence se comportent de la même façon que les valeurs moyennes observées pour
chacun des 1 000 portefeuilles. Cet exercice a été effectué sur la structure hybride ajustée
par maximum de vraisemblance, ainsi que par l’approche bayésienne.
Une dernière variable d’intérêt a été ajoutée, soit le montant total qui était déboursé
pour chaque accident, ce qui correspond à la somme des montants déboursés pour les
indemnités de dommages matériels au véhicule assuré, ainsi que les blessures corporelles
à l’assuré et à autrui. Le montant moyen de cette somme a été calculé pour chaque
portefeuille de 10 000 personnes, ce qui permet d’évaluer sa distribution empirique.
Pour cette variable, la structure hiérarchique ajustée par le maximum de vraisemblance
a aussi été utilisée à titre de comparaison. Afin d’effectuer les prévisions, nous avons
utilisé deux approches :
1. Ajuster les modèles sur les 49 509 données et effectuer des prévisions sur les
données qui ont servi aux analyses ;
2. Ajuster le modèle sur 25 000 données et obtenir les prévisions sur les 24 509
données qui n’ont pas servi à l’ajustement des modèles.
Pour les modèles ajustés par le maximum de vraisemblance, les deux façons de
procéder sont similaires. Tout d’abord, les coefficients estimés pour chaque covariable
sont utilisés. Pour les modèles de sévérité, on a :
⊤ β̂
ŷ = gamma(moyenne = ex
, forme = k).
Pour le modèle multinomial, on reprend tout simplement le modèle de la section 4.1.2 et
on simule une valeur permettant de connaître les garanties impliquées lors de l’accident.
Cette valeur est prédite à partir des probabilités prévues pour chaque modalité selon
les caractéristiques de chaque police d’assurances. Par exemple, si pour l’observation
i, on obtient les probabilités prévues suivantes (πi,DOM M = 0.85; πi,AB = 0.10; πi,BI =
0.04; πi,AB−BI = 0.01), alors l’assuré aura 85% de chance de ne réclamer que des dommages matériels, 10% de chances de réclamer pour ses blessures corporelles et ainsi de
suite.
Dans le cadre de l’approche bayésienne, les valeurs prédites de la fréquence et de
la sévérité des garanties incluent l’incertitude liée à l’ajustement des paramètres. Pour
effectuer une prévision, il suffit de choisir l’une des 10 000 réalisations des chaînes, avec
remise, pour chaque observation du portefeuille. Pour chaque observation, on utilise
Chapitre 6. Analyses bayésiennes
71
alors les coefficients choisis afin de calculer la valeur prédite, exactement de la même
façon que les modèles ajustés par le maximum de vraisemblance. Toutefois, comme les
paramètres diffèrent d’une observation à l’autre, on s’attend à ce que les valeurs prédites
soient légèrement plus variables puisqu’elles incluent l’incertitude liée aux paramètres.
Le tableau 6.2 permet de comparer l’ajustement des modèles selon la première approche.
Tableau 6.2 – Comparaison des valeurs prédites de la valeur totale des indemnités
versées selon la première approche avec les valeurs observées des 1000 portefeuilles
Approche
Maximum de vrais.
Valeurs
bayésienne Hybride Hiérarchique observées
Biais moyen
−3.29 −47.11
−37.75
Pourcentage du biais
−0.05% −0.68%
−0.54%
1er
5ème
25ème
75ème
95ème
99ème
Moyenne
percentile
percentile
percentile
Médiane
percentile
percentile
percentile
6951.50
6628.24
6708.74
6854.80
6951.21
7049.74
7189.24
7286.63
6907.69
6594.03
6688.00
6814.89
6902.01
7002.26
7137.11
7229.27
6917.04
6613.04
6704.09
6829.22
6920.14
7007.53
7131.16
7230.17
6954.79
6626.07
6715.10
6853.59
6954.11
7053.97
7196.67
7308.07
Le tableau 6.2 permet de constater que la structure ajustée par l’approche bayésienne
s’avère la plus performante parmi les trois structures testées. Tout d’abord, le biais
des prévisions par la structure bayésienne est −0.05%, comparativement à −0.68%
et −0.54% pour les structures ajustées par le maximum de vraisemblance. Les trois
structures semblent sous-estimer légèrement la valeur totale réclamée, car tous les biais
sont négatifs. Les percentiles permettent de constater que les prévisions obtenues par
l’approche bayésienne semblent se comporter de la même façon que les valeurs observées,
alors que les prévisions des deux autres structures suggèrent qu’elles sous-estiment ces
valeurs.
La deuxième approche permet de valider si les différentes structures permettent
d’obtenir de bonnes prévisions lorsqu’on travaille avec de nouvelles observations. Pour
les structures ajustées par maximum de vraisemblance, on obtient les prévisions exactement de la même façon que par la première méthode. Toutefois, pour l’approche
bayésienne, une étape s’avère différente. Pour la première approche de prévision, une
réalisation parmi 10 000 était sélectionnée pour chaque observation à l’intérieur d’un
portefeuille. Dans la deuxième approche, on simule de nouvelles réalisations puisqu’on
Chapitre 6. Analyses bayésiennes
72
travaille avec de nouvelles observations qui n’ont pas servi à l’ajustement du modèle.
Chaque loi a posteriori est comparée à une loi normale qui possède la même moyenne et
la même variance. Pour tous les paramètres, la loi normale s’avère appropriée. Afin de
tenir compte de la corrélation qui existe entre les paramètres, les réalisations utilisées
pour la prévision sont simulées à partir d’une loi normale multivariée de moyenne µ et
de variance Σ. La matrice de covariance Σ est estimée à partir des 10 000 simulations
conservées pour les 148 paramètres. Le tableau 6.3 illustre les résultats obtenus.
Tableau 6.3 – Comparaison des valeurs prédites de la valeur totale des indemnités
versées selon la deuxième approche avec les valeurs observées des 1000 portefeuilles
Approche
Maximum de vrais.
Valeurs
bayésienne Hybride Hiérarchique observées
Biais moyen
140.19 −51.81
122.47
Pourcentage du biais
2.02% −0.75%
1.77%
1er
5ème
25ème
75ème
95ème
99ème
Moyenne
percentile
percentile
percentile
Médiane
percentile
percentile
percentile
7064.24
6727.08
6819.10
6963.02
7064.95
7162.46
7310.38
7394.62
6872.24
6566.40
6635.41
6765.78
6872.21
6975.34
7100.01
7184.47
7046.52
6726.42
6825.45
6950.81
7040.05
7136.35
7283.68
7372.23
6924.05
6654.32
6723.33
6835.84
6915.47
7008.10
7138.50
7253.42
Le tableau 6.3 permet de constater que les prévisions obtenues par l’approche
bayésienne diffèrent sensiblement des valeurs observées. Cela s’explique par le manque
d’ajustement du modèle de sévérité concernant les blessures corporelles à l’assuré en
présence d’une réclamation pour les blessures corporelles à autrui. Pour ce modèle,
un biais de plus de 36% se produit, alors que tous les autres modèles présentent des
biais inférieurs à 5%. Le manque d’ajustement de l’approche bayésienne pour ce modèle
en particulier provient de l’utilisation d’observations où le véhicule assuré était âgé.
Le coefficient estimé pour cette covariable était plus de deux fois supérieur au coefficient estimé par la méthode du maximum de vraisemblance. En insérant arbitrairement
l’estimation à vraisemblance maximale de ce coefficient dans le modèle bayésien, les
prévisions s’améliorent. C’est d’ailleurs ce modèle qui crée une surévaluation de la valeur totale qui est quantifiée par un biais positif de 2.02%. Dans ce cas-ci, le modèle
hybride s’avère le plus performant, alors que son biais est le seul sous 1%. C’est aussi
pour ce dernier modèle que les percentiles des valeurs prédites se rapprochent le plus
de ceux des valeurs observées.
Chapitre 7
Conclusion
Ce projet a permis d’exposer quelques lacunes du modèle proposé par Frees et
Valdez (2008). Ces auteurs ont considéré certaines dépendances, soient celle entre les
fréquences et celle entre les sévérités, par l’ajustement d’un modèle multinomial et de
modèles de sévérité liés par une copule. Toutefois, ce modèle ne considérait pas d’autres
dépendances qui se sont avérées importantes dans les données traitées dans notre étude.
Dans les analyses que nous avons effectuées, la dépendance existant entre la sévérité
et la fréquence s’est révélée une composante importante à considérer. Dans les structures
proposées dans notre projet, la sévérité des dommages matériels du véhicule assuré s’est
avérée une covariable très significative à l’intérieur du modèle multinomial. De plus, la
dépendance créée par la présence ou l’absence d’une garantie dans une réclamation s’est
révélée un facteur plus important que l’utilisation d’une copule pour la dépendance entre
les sévérités. Frees et al. (2010) ont d’ailleurs montré que pour certains modèles, une
approche par copule est inadéquate.
Les structures de modèles considérées dans ce mémoire permettront à la compagnie
d’assurances associée au projet d’actualiser ses groupes de personnes à risque pour la
nouvelle tarification. Elles permettront aussi au comité d’indemnisation de la compagnie
d’obtenir une prévision des coûts liés à un accident de voiture impliquant un assuré en
particulier en fonction des informations qui lui sont disponibles. Ceci permettra en outre
au comité de mettre de côté les fonds nécessaires au remboursement des indemnités.
Dans ce projet, l’inférence bayésienne a aussi été comparée à l’ajustement des modèles par maximum de vraisemblance qui est la pratique courante dans la majorité des
domaines. L’inférence bayésienne constitue une approche très intéressante pour l’élaboration de modèles. Cette approche permet de quantifier l’incertitude liée à l’estimation
Chapitre 7. Conclusion
74
des paramètres et d’inclure cette incertitude à de nouvelles prévisions. Toutefois, une
étude supplémentaire serait nécessaire afin d’améliorer la performance des algorithmes
d’estimation, ce qui pourrait permettre d’inclure la totalité des covariables qui sont
significatives pour chaque modèle des structures utilisées. Les résultats obtenus avec
l’approche bayésienne permettent de croire qu’il y a un bon potentiel à explorer en ce
sens.
Bibliographie
Akaike, H. (1973). Information theory and an extension of the maximum likelihood
principle. Dans Petrov, B. et Csaki, F., éditeurs : Second International Symposium
on Information Theory, pages 267–281. Budapest, Hungary.
Bayes, T. et Price, R. (1763). An essay towards solving a problem in the doctrine
of chances. Philosophical Transactions of the Royal Society of London, 53:370–418.
Disponible en ligne : http://rstl.royalsocietypublishing.org/content/53/370
(Page consultée le 24 janvier 2011).
Carlin, B. P. et Louis, T. A. (2008). Bayesian Methods for Data Analysis. 3ème
édition. CRC Press, New York.
Casella, G. et Berger, R. L. (2002). Statistical Inference. 2ème édition. Duxbury
Press, Pacific Grove, California.
Cox, D. et Snell, E. (1989). The Analysis of Binary Data. 2ème édition. Chapman
and Hall, London.
Draper, D. (1995). Assessment and propagation of model uncertainty. Journal of the
Royal Statistical Society, Series B, 57:45–97.
Draper, N. R. et Smith, H. (1998). Applied Regression Analysis. 3ème édition. Wiley,
New York.
Efroymson, M. (1960). Multiple regression analysis. Dans Ralston, A. et Wilf, H.,
éditeurs : Mathematical Methods for Digital Computers, pages 191–203. John Wiley
and Sons, New York.
Frees, E. W. (2004). Longitudinal and Panel Data : Analysis and Applications for the
Social Sciences. Cambridge University Press, Cambridge, U.K.
Frees, E. W., Meyers, G. et Cummings, D. A. (2010). Dependent multi-peril ratemaking models. ASTIN Bulletin, 40:699–726.
Frees, E. W. et Valdez, E. A. (2008). Hierarchical insurance claims modeling. Journal
of the American Statistical Association, 103:1457–1469.
BIBLIOGRAPHIE
76
Gelfand, A. E. et Smith, A. F. (1990). Sampling-based approaches to calculating
marginal densities. Journal of the American Statistical Association, 85:398–409. Disponible en ligne : http://home.gwu.edu/~stroud/classics/GelfandSmith90.pdf
(Page consultée le 26 janvier 2011).
Gelman, A., Carlin, J. B., Stern, H. S. et Rubin, D. B. (2004). Bayesian Data
Analysis. 2ème édition. Chapman and Hall / CRC, Boca Raton, FL.
Geman, D. et Geman, S. (1984). Stochastic relaxation, Gibbs distributions and the
Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine
Intelligence, 6:721–741.
Genest, C. et Nešlehová, J. (2010). Copulas : Introduction to the Theory and
Implementation in R. Rapport technique, Université Laval et Université McGill,
Québec. Atelier présenté au 38ème Congrès annuel de la Société Statistique du Canada.
Graham, J., Olchowski, A. et Gilreath, T. (2007). How many imputations are
really needed ? Some practical clarifications of multiple imputation theory. Prevention
Science, 8:206–213.
Hocking, R. (1976). The analysis and selection of variables in linear regression. Biometrics, 32:1–50.
Hosmer, D. W. et Lemeshow, S. (2000). Applied Logistic Regression. 2ème édition.
John Wiley and Sons, Inc, New York.
Klugman, S. A., Panjer, H. H. et Willmot, G. E. (1998). Loss Models : From Data
to Decisions. Wiley, New York.
Little, R. J. A. et Rubin, D. B. (2002). Statistical Analysis with Missing Data. 2ème
édition. Wiley and Sons, Inc., Hoboken, New Jersey.
Madigan, D. et Raftery, A. E. (1994). Model selection and accounting for model
uncertainty in graphical models using Occam’s window. Journal of the American
Statistical Association, 89:1535–1546.
McFadden, D. L. (1974). Conditional logit analysis of qualitative choice behavior.
Dans Zarembka, P., éditeur : Frontiers In Econometrics, pages 105–142. Academic
Press, New York.
Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. et Teller, E. (1953). Equation of state calculations by fast computing machines. Journal
of Chemical Physics, 21:1087–1091.
BIBLIOGRAPHIE
77
Montgomery, J. et Nyhan, B. (2010). Bayesian model averaging : Theoretical developments and pratical applications. Disponible en ligne : http://www-personal.
umich.edu/~bnyhan/montgomery-nyhan-bma.pdf (Page consultée le 12 janvier
2011).
Neal, R. M. (1997). Monte Carlo implementation of Gaussian process models for
Bayesian regression and classification. Rapport technique No. 9702, Department of
Statistics, University of Toronto, Canada. Disponible en ligne : http://www.cs.
toronto.edu/~radford/ftp/mc-gp.pdf (Page consultée le 26 janvier 2011).
R Development Core Team (2010). R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN
3-900051-07-0.
Raftery, A., Hoeting, J., Volinsky, C., Painter, I. et Yeung, K. Y. (2010).
BMA : Bayesian Model Averaging. R package version 3.13.
Robert, C. P. et Casella, G. (2004). Monte Carlo Statistical Methods. 2ème édition.
Springer, New York.
Scarsini, M. (1984). On measures of concordance. Stochastica, 8:201–218.
Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics,
6:461–464.
Sisson, S. A. et Fan, Y. (2010). Likelihood-free Markov chain Monte Carlo. Disponible
en ligne : http://arxiv.org/PS_cache/arxiv/pdf/1001/1001.2058v1.pdf (Page
consultée le 26 janvier 2011).
Spiegelhalter, D., Thomas, A., Best, N. et Lunn, D. (2003). WinBUGS User
Manual, version 1.4. MRC Biostatistics Unit, Cambridge.
Yee, T. W. (2010). VGAM : Vector Generalized Linear and Additive Models. R package
version 0.8-1 ; URL = "http ://CRAN.R-project.org/package=VGAM".
Young, G., Valdez, E. A. et Kohn, R. J. (2009). Multivariate probit models for
conditional claim-types. Insurance : Mathematics and Economics, 44:214–228.
Annexe A
Autres résultats des analyses
préliminaires
A.1
Résultats de la régression logistique
Tableau A.1 – Estimation des paramètres de la régression logistique de la fréquence de
la garantie TPL-BI en fonction du montant de dommages matériels DOMM
Erreur Valeur
Seuil
Standard
Z observé
−4.651
0.048 −97.28 <2e-16
1.07E-04 4.40E-06
24.29 <2e-16
Paramètres Estimation
Ordonnée à l’origine
Montant DOMM
Tableau A.2 – Estimation des paramètres de la régression logistique de la fréquence de
la garantie TPL-PD en fonction du montant de dommages matériels DOMM
Erreur
Valeur
Seuil
Standard
Z observé
−5.768
0.082 −70.650 <2e-16
9.524E-05 6.884E-06
13.840 <2e-16
Paramètres Estimation
Ordonnée à l’origine
Montant DOMM
Annexe A. Autres résultats des analyses préliminaires
A.2
79
Résultats complémentaires de l’analyse de la
variance
Tableau A.3 – Effets de la fréquence des garanties sur le montant de dommages DOMM
par une analyse de la variance
Effets
AB
TPL-BI
TPL-PD
AB*TPL-BI
Degrés de liberté
Valeur
Seuil
Numérateur Standard
F observé
1
49505 194.06 <0.0001
1
49505 333.84 <0.0001
1
49505
95.41 <0.0001
1
49505
5.56
0.0184
Tableau A.4 – Effets de la fréquence des garanties sur le montant de dommages BI par
une analyse de la variance
Effets
TPL-PD
Degrés de liberté
Valeur
Seuil
Numérateur Standard
F observé
1
834
8.67 0.0033
Annexe A. Autres résultats des analyses préliminaires
Résultats complémentaires sur la dépendance
des montants de sévérité
0.6
0.4
0.0
0.2
Montant DOMM
0.8
1.0
A.3
80
0.0
0.2
0.4
0.6
0.8
1.0
Montant AB
Figure A.1 – Graphique des rangs pour les sévérités des garanties AB et DOMM
La ligne verticale se trouvant à droite de la figure A.1 s’explique par l’écrêtement
qui est appliqué aux valeurs. Dans le cas de la garantie AB, les montants sont écrêtés
à 82 000 $.
81
0.6
0.4
0.0
0.2
Montant DOMM
0.8
1.0
Annexe A. Autres résultats des analyses préliminaires
0.0
0.2
0.4
0.6
0.8
1.0
Montant PD
Figure A.2 – Graphique des rangs pour les sévérités des garanties TPL-PD et DOMM
82
0.4
0.0
0.2
Montant TPL−BI
0.6
0.8
Annexe A. Autres résultats des analyses préliminaires
0.0
0.2
0.4
0.6
0.8
Montant AB
Figure A.3 – Graphique des rangs pour les sévérités des garanties TPL-BI et AB
Annexe A. Autres résultats des analyses préliminaires
Histogrammes des montants de sévérité
0.00010
0.00005
0.00000
Pourcentage
0.00015
0.00020
A.4
83
0
10000
20000
30000
40000
50000
60000
Montant de sévérité DOMM
Figure A.4 – Histogramme des montants de sévérité des dommages matériels
84
0.00010
0.00000
0.00005
Pourcentage
0.00015
Annexe A. Autres résultats des analyses préliminaires
0
20000
40000
60000
80000
Montant de sévérité AB
0.00000 0.00002 0.00004 0.00006 0.00008 0.00010 0.00012
Pourcentage
Figure A.5 – Histogramme des montants de sévérité des blessures à la personne assurée
sachant qu’il n’y a pas de réclamation pour des blessures à une tierce personne
0
20000
40000
60000
80000
Montant de sévérité AB
Figure A.6 – Histogramme des montants de sévérité des blessures à la personne assurée
sachant qu’il y a aussi une réclamation pour des blessures à une tierce personne
85
6e−05
4e−05
0e+00
2e−05
Pourcentage
8e−05
Annexe A. Autres résultats des analyses préliminaires
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Montant de sévérité BI
0.00000 0.00002 0.00004 0.00006 0.00008 0.00010 0.00012
Pourcentage
Figure A.7 – Histogramme des montants de sévérité des blessures à une tierce personne
sachant qu’il n’y a pas de réclamation pour des blessures à la personne assurée
0e+00
2e+04
4e+04
6e+04
8e+04
1e+05
Montant de sévérité BI
Figure A.8 – Histogramme des montants de sévérité des blessures à une tierce personne
sachant qu’il y a aussi une réclamation pour des blessures à la personne assurée
Annexe A. Autres résultats des analyses préliminaires
86
0.00010
0.00000
0.00005
Pourcentage
0.00015
0.00020
Ajustement de la distribution gamma :
0
5000
10000
15000
20000
25000
30000
Montant de sévérité DOMM
Figure A.9 – Histogramme des montants de sévérité des dommages matériels avec la
densité estimée de la loi gamma
Annexe B
Théorie : Imputation multiple
Suite à l’imputation de m valeurs à chaque observation, ce qui permet de créer
m jeux de données, on effectue l’analyse appropriée sur chacun d’eux. Cette analyse
peut être une analyse de la variance, une régression linéaire, etc. Pour chaque analyse
effectuée, une estimation est obtenue pour chaque paramètre Q, ainsi que son erreur
standard. Supposons Q̂i et Ŵi , qui sont respectivement la valeur estimée, ainsi que
l’erreur standard pour la ième analyse, i = 1, . . . , m (Little et Rubin, 2002).
Afin d’obtenir la valeur estimée combinée pour le paramètre Q grâce à l’imputation
multiple, il suffit tout simplement de calculer la moyenne des estimés des m analyses :
m
1 ∑
Q̂i .
Q̄ =
m i=1
Soit W̄ , la moyenne des matrices de variance-covariance calculées pour chaque jeu de
données complet (« within-imputation variance ») :
m
1 ∑
W̄ =
Ŵi .
m i=1
La matrice B est la matrice de variance-covariance calculée entre les m jeux de données
complets (« between-imputation variance ») :
B=
m (
)2
1 ∑
Q̂i − Q̄ .
m − 1 i=1
Annexe B. Théorie : Imputation multiple
88
Finalement, la matrice de variance-covariance estimée pour le paramètre Q, aussi nommée la variance totale, est calculée de la façon suivante :
(
)
1
T = W̄ + 1 +
B.
m
(
)
La statistique Q̂i − Q̄ T −1/2 est alors approximativement distribuée selon une loi
de Student à vm degrés de liberté, où :
[
W̄
vm = (m − 1) 1 +
(1 + m−1 )B
]2
.
Les degrés de liberté dépendent de deux termes : le nombre d’imputations m et le ratio
r calculé à partir des variances internes W et externes B, à savoir
r=
(1 + m−1 )B W̄
.
W̄
Le ratio r représente l’augmentation relative de la variance due aux données manquantes
du jeu de données. Lorsque ce dernier est complet, les valeurs de r et B sont toutes les
deux égales à 0.
Avec une grande valeur de m ou une petite
) du ratio r, le nombre de degrés de
( valeur
liberté est alors élevé et la distribution de Q̂i − Q̄ T −1/2 devient approximativement
normale.
Annexe C
Résultats de l’ajustement des
modèles
C.1
Résultats du choix des modèles de sévérité
Tableau C.1 – Résultats de l’ajustement des distributions considérées pour le modèle
de sévérité des dommages matériels
Distribution
Bêta généralisée Type II (GB2)
Gamma généralisée (GG)
Pareto généralisée
Burr
Burr inverse
Lognormale
Gaussienne inverse
Pareto
Pareto inverse
Loglogistique
Gamma
Weibull
Paralogistique
Paralogistique inverse
Nombre de
paramètres
4
3
3
3
3
2
2
2
2
2
2
2
2
2
Vraisemblance
AIC
BIC
−458983.5
X
−458853.5
−459269.8
−459565.7
−458776.1
−460690.1
X
−464011.7
−459584
−459773.1
−460517.3
−459273.9
−459928.1
918027
X
917765
918597.7
919189.3
917606.2
921434.1
X
928079.4
919224
919600.2
921088.6
918603.9
919912.1
918291.3
X
918020.4
918853.2
919444.8
917844.1
921672
X
928326
919470.7
919838
921326.5
918850.5
920158.8
Annexe C. Résultats de l’ajustement des modèles
90
Les distributions Pareto et gamma généralisée ont occasionné des problèmes numériques et aucun résultat n’a pu être obtenu pour ces deux modèles.
Tableau C.2 – Résultats de l’ajustement des distributions considérées pour le modèle
de sévérité des blessures corporelles
Distribution
Bêta généralisée Type II (GB2)
Gamma généralisée (GG)
Pareto généralisée
Burr
Burr inverse
Lognormale
Gaussienne inverse
Pareto
Pareto inverse
Loglogistique
Gamma
Weibull
Paralogistique
Paralogistique inverse
Nombre de
paramètres
4
3
3
3
3
2
2
2
2
2
2
2
2
2
Vraisemblance
AIC
BIC
−57533.53
−57462.34
−57605.26
−57595.98
−57615.71
−57468.47
−57974.26
−57605.97
−57615.82
−57620.80
−57793.09
−57650.94
−57617.06
−57618.92
115127.1
114980.7
115268.5
115250.0
115289.4
114990.9
116002.5
115267.9
115287.6
115297.6
115640.2
115355.9
115290.1
115293.8
115325.6
115166.0
115460.5
115441.9
115481.4
115169.7
116181.2
115453.3
115473.0
115482.9
115818.9
115534.6
115475.5
115479.2
Annexe C. Résultats de l’ajustement des modèles
Résultats pour les modèles logistiques
0.4
sens
0.6
0.8
1.0
C.2
91
0.0
0.2
AUC= 0.77
0.0
0.2
0.4
0.6
0.8
1.0
1 − espe
Figure C.1 – Courbe ROC obtenue pour le modèle logistique concernant la présence
d’une réclamation pour les blessures corporelles à l’assuré. L’aire sous la courbe ROC
est de 0.77
Annexe D
Résultats des analyses
Cette annexe présente une partie des résultats des modèles décrits au chapitre 4. En
particulier, les résultats concernant la sélection des covariables et la comparaison des
sous-modèles les plus probables sont omis.
Les tableaux suivants comportent une multitude de covariables et de regroupements
possibles pour chaque covariable. Le tableau D.1 permet de reconnaître la covariable à
partir du nom du paramètre, ainsi que les regroupements utilisés pour celle-ci. La majorité de ces covariables sont catégoriques. Pour l’ajustement des variables catégoriques,
une estimation des paramètres est fournie pour chaque catégorie, sauf pour celle qui
sert de référence.
Dans chaque graphique, on donne l’exposition de chaque regroupement. L’exposition
est égale au pourcentage des observations dans la base de données qui sont représentées
par chaque regroupement.
Annexe D. Résultats des analyses
93
Tableau D.1 – Explication des covariables utilisées dans les modèles présentés
Paramètre
age
modeleveh
nap
vehage
prix.actuel
anpol
ageocc.p
Description de la
Covariable
Regroupements ou
Catégories possibles
Âge de la
personne assurée
22-, 23-29, 30-69, 70+
Catégorie du
véhicule assuré
BigVan : Caravan ou VUS
PickUp : Camionnette
Compact : Coupé et Berline
SmallLuxury : Coupé et Berline de luxe
BigLuxury : Grosse Berline ou VUS de luxe
Nombre d’années du
permis de conduire
Âge du véhicule assuré
Prix actuel du
véhicule assuré
Année de l’accident
Âge du chauffeur
occasionnel sous 25 ans
categpoint
Cote de crédit de l’assuré
frb2
cie
Franchise de la garantie DOMM
Kilométrage parcouru par
l’assuré dans une année
Compagnie où l’assurance est souscrite
marital.status
Statut marital
kmpleasure
pct.DOMM.pred
pct.DOMM
perttot
pctresp
force
Pourcentage de dommages
matériels prédit
Pourcentage de dommages
matériels observé
Indicatrice de perte
totale du véhicule assuré
Pourcentage de responsabilité
de l’assuré dans l’accident
Catégorie de la force de l’accident
1-, 2-7, 8-15, 16-40, 41+
Variable continue
Variable continue
2004, 2005, 2006, 2007
16-18, 19-25, NA
2, 3, 4, 5 = Cas spéciaux
737-, 751-823, 828+ = Pointage de l’assuré
999 = Non disponible
300-, 500-750, 1000+
10000-, 10001-15000
15001-20000, 20001+
7 ou 8
C = célibataire
D = divorcé
M = marié
V = veuf
Valeur continue
entre 0 et 1
Valeur continue
entre 0 et 1
N = Non, O = Oui
0, 50, 100
Petit, Moyen, Grave
Annexe D. Résultats des analyses
D.1
94
Structure hybride
Pour la structure hybride, les résultats sont présentés pour deux types d’applications,
soient la tarification et l’indemnisation.
D.1.1
Modèle de tarification
Le modèle de tarification inclut toutes les covariables relatives aux caractéristiques
de l’assuré et du véhicule assuré. Comme il s’agit d’un modèle de tarification, aucune
information relative à l’accident n’est incluse dans le modèle.
Tableau D.2 – Résultats partiels de l’estimation des paramètres du modèle de sévérité
de dommages matériels du véhicule assuré (garantie DOMM) pour la structure hybride
de tarification selon la méthode du maximum de vraisemblance
Paramètre
Intercept
age.23-29
age.30-69
age.70+
modelevehBigVan
modelevehCompact
modelevehPickup
modelevehSmallLuxury
nap.2-7
nap.8-15
nap.16-40
nap.40+
vehage
prix.actuel
anpol.2004
anpol.2005
anpol.2006
anpol.2007
Valeur estimée
Erreur Standard
Valeur t
Seuil observé
7.8350
−0.0294
−0.0466
0.0857
−0.1228
−0.1606
0.0209
−0.0751
−0.0673
−0.0935
−0.1094
−0.1078
−0.0180
5.799E-06
−0.0070
0.0187
0.0423
0.1100
0.1598
0.0219
0.0192
0.0310
0.0285
0.0282
0.0370
0.0278
0.0348
0.0351
0.0352
0.0383
0.0026
7.164E-0.7
0.0144
0.0160
0.0179
0.0229
49.03
−1.35
−2.43
2.76
−4.32
−5.69
0.57
−2.71
−1.93
−2.67
−3.11
−2.82
−6.99
8.10
−0.49
1.17
2.36
4.80
< 2e-16
0.1788
0.0149
0.0058
0.0000
0.0000
0.5715
0.0068
0.0534
0.0077
0.0019
0.0049
0.0000
0.0000
0.6257
0.2420
0.0183
0.0000
Annexe D. Résultats des analyses
95
Pour le modèle multinomial, la majorité des covariables disponibles se sont avérées significatives. Le tableau D.3 présente l’estimation des paramètres pour deux covariables,
soient l’âge de l’assuré et la catégorie du véhicule. De plus, pour chaque regroupement
des covariables, il y a trois paramètres à estimer. Ils correspondent à
1. la probabilité de la présence d’une réclamation pour les blessures corporelles de
l’assuré et de l’absence d’une réclamation pour les blessures corporelles à autrui ;
2. la probabilité de la présence d’une réclamation pour les blessures corporelles à
autrui et de l’absence d’une réclamation pour les blessures corporelles de l’assuré ;
3. la probabilité de la présence d’une réclamation pour les blessures corporelles de
l’assuré et d’une réclamation pour les blessures corporelles à autrui.
Tableau D.3 – Résultats partiels de l’estimation des paramètres du modèle multinomial
pour la structure hybride de tarification selon la méthode du maximum de vraisemblance
Paramètre
(Intercept) :1
(Intercept) :2
(Intercept) :3
age.23-29 :1
age.23-29 :2
age.23-29 :3
age.30-69 :1
age.30-69 :2
age.30-69 :3
age.70+ :1
age.70+ :2
age.70+ :3
modelevehBigVan :1
modelevehBigVan :2
modelevehBigVan :3
modelevehCompact :1
modelevehCompact :2
modelevehCompact :3
modelevehPickup :1
modelevehPickup :2
modelevehPickup :3
modelevehSmallLuxury :1
modelevehSmallLuxury :2
modelevehSmallLuxury :3
Valeur estimée
Erreur Standard
Valeur t
−1.5197
−5.06559
−3.67728
0.424635
−0.50318
0.869825
0.583285
−0.30604
0.725088
0.673227
0.376673
1.645467
0.168453
−0.30799
0.228032
0.194225
−0.31217
0.371282
−0.18131
−0.01499
−0.00581
0.075843
−0.45404
0.347473
0.6057442
1.8362571
2.4014616
0.1071561
0.2560999
0.4993349
0.1076241
0.2564173
0.5057214
0.1412104
0.3429961
0.6001647
0.1136667
0.2814239
0.5020485
0.1088707
0.2651073
0.4833142
0.1560473
0.361965
0.6482185
0.1114275
0.2742149
0.4920865
−2.50881
−2.75865
−1.53127
3.962769
−1.96477
1.741968
5.41965
−1.19353
1.43377
4.767549
1.098185
2.741692
1.48199
−1.09441
0.454202
1.783995
−1.17752
0.768199
−1.16192
−0.04143
−0.00896
0.680649
−1.65577
0.706123
Annexe D. Résultats des analyses
96
Tableau D.4 – Résultats partiels de l’estimation des paramètres du modèle de sévérité
des blessures corporelles subies par l’assuré (garantie AB) pour la structure hybride de
tarification selon la méthode du maximum de vraisemblance
Paramètre
Estimation
Erreur Standard
Valeur t
Seuil observé
Intercept
age.23-29
age.30-69
age.70+
kmpleasure.10001-15000
kmpleasure.15001-20000
kmpleasure.20001+
cie.8
marital.status.D
marital.status.M
marital.status.V
nap.2-7
nap.8-15
nap.16-40
nap.40+
prix.actuel
vehage
pct.DOMM.pred
10.09
0.04104
0.3097
0.09614
−0.1662
−0.1785
−0.1731
−0.1376
0.06052
0.1002
0.01313
−0.1843
−0.2541
−0.3072
−0.6321
0.00001202
0.02508
0.08449
0.5498
0.1515
0.1516
0.2029
0.05062
0.05647
0.08352
0.05677
0.08851
0.055
0.1868
0.1647
0.1747
0.1852
0.2204
0.000004106
0.008942
0.1702
18.346
0.271
2.043
0.474
−3.284
−3.161
−2.072
−2.424
0.684
1.822
0.07
−1.119
−1.454
−1.658
−2.868
2.926
2.804
0.496
< 2e-16
0.786518
0.041091
0.635627
0.001032
0.001583
0.038285
0.01537
0.494102
0.068508
0.943981
0.263173
0.145993
0.097321
0.004152
0.003442
0.00506
0.619601
Annexe D. Résultats des analyses
97
Figure D.1 – Valeurs observées et prédites du montant de sévérité des dommages
matériels par le modèle hybride de tarification pour la population classée selon l’âge ;
la ligne pleine représente la moyenne des montants observés selon l’âge de l’assuré et la
ligne pointillée représente la moyenne des valeurs prédites pour ces mêmes observations
Figure D.2 – Différentiels du montant de sévérité des dommages matériels par le
modèle hybride de tarification pour la population classée selon l’âge ; la ligne représente
la valeur du différentiel selon l’âge par rapport au groupe de référence des 24 ans et
moins
Annexe D. Résultats des analyses
98
Figure D.3 – Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle
hybride de tarification pour la population classée selon l’âge ; les lignes pleines représentent la fréquence observée selon l’âge de l’assuré et les lignes pointillées représentent
la fréquence prédite pour ces mêmes observations
Figure D.4 – Différentiels de la probabilité de la présence d’une réclamation pour
la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride de
tarification pour la population classée selon l’âge ; les lignes représentent la valeur du
différentiel selon la modalité en fonction de l’âge par rapport au groupe de référence
des 22 ans et moins
Annexe D. Résultats des analyses
D.1.2
99
Modèle d’indemnisation
Dans le modèle d’indemnisation, toutes les covariables relatives aux caractéristiques
de l’assuré et du véhicule assuré sont utilisées, ainsi que les informations obtenues par
rapport à l’accident. Ces covariables sont le degré de responsabilité de l’assuré dans
l’accident, la gravité de l’accident, ainsi que l’indicatrice de perte totale du véhicule
assuré. De plus, pour le modèle multinomial et les modèles de sévérité de AB et BI, le
montant de sévérité observé pour les dommages matériels a été utilisé.
Tableau D.5 – Résultats partiels de l’estimation des paramètres du modèle de sévérité
des dommages matériels du véhicule assuré (garantie DOMM) pour la structure hybride
d’indemnisation selon la méthode du maximum de vraisemblance.
Paramètre
Estimation
Erreur Standard
Valeur t
Seuil observé
Intercept
modelevehBig.van
modelevehCompact
modelevehPickup
modelevehSmall.Luxury
nap.2-7
nap.8-15
nap.16-40
nap.40+
vehage
prix.actuel
anpol.2004
anpol.2005
anpol.2006
anpol.2007
ageocc.p.16-18
ageocc.p.19-25
perttotO
pctresp.100
pctresp.50
6.882
−0.1108
−0.1857
0.1014
−0.1096
−0.007902
−0.03298
−0.05577
−0.04735
−0.02863
7.932E-06
−0.01336
−0.02243
−0.02764
0.01864
0.05329
0.01551
0.9824
0.314
0.2081
0.1352
0.02371
0.02354
0.03088
0.02316
0.02904
0.02863
0.02823
0.0302
0.002254
5.978E-07
0.01221
0.01347
0.01471
0.01782
0.01461
0.01171
0.009897
0.007311
0.0167
50.91
−4.675
−7.886
3.283
−4.732
−0.272
−1.152
−1.976
−1.568
−12.702
13.269
−1.094
−1.665
−1.879
1.046
3.646
1.325
99.256
42.955
12.46
< 2e-16
2.95E-06
3.17E-15
0.001027
2.23E-06
0.785547
0.249249
0.048209
0.116903
< 2e-16
< 2e-16
0.273896
0.095956
0.060256
0.295402
0.000266
0.185109
< 2e-16
< 2e-16
< 2e-16
Annexe D. Résultats des analyses
100
Tableau D.6 – Résultats partiels de l’estimation des paramètres du modèle multinomial
pour la structure hybride d’indemnisation selon la méthode du maximum de vraisemblance.
Paramètre
Intercept :1
Intercept :2
Intercept :3
age.23-29 :1
age.23-29 :2
age.23-29 :3
age.30-69 :1
age.30-69 :2
age.30-69 :3
age.70+ :1
age.70+ :2
age.70+ :3
pctresp.mod100 :1
pctresp.mod100 :2
pctresp.mod100 :3
pctresp.mod50 :1
pctresp.mod50 :2
pctresp.mod50 :3
Valeur estimée
−0.0794
−6.4548
−3.5122
0.4835
−0.4380
1.0343
0.7069
−0.1686
0.9228
0.8045
0.2820
1.6238
−1.2754
2.5057
0.8022
−0.8788
1.5878
0.4563
Erreur Standard
Valeur t
0.644424 −0.1233
1.907270 −3.3843
2.529273 −1.3887
0.111499
4.3363
0.256872 −1.7054
0.502461
2.0584
0.112278
6.2965
0.259792 −0.6491
0.509008
1.8131
0.143607
5.6027
0.338011
0.8344
0.594207
2.7327
0.040946 −31.1493
0.141329
17.7302
0.137808
5.8213
0.087204 −10.0780
0.248759
6.3831
0.297105
1.5359
Annexe D. Résultats des analyses
101
Tableau D.7 – Résultats partiels de l’estimation des paramètres du modèle de sévérité
pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hybride
d’indemnisation selon la méthode du maximum de vraisemblance.
Paramètre
Estimation Erreur Standard Valeur t Seuil observé
Intercept
age.23-29
age.30-69
age.70+
kmpleasure.10001-15000
kmpleasure.15001-20000
kmpleasure.20001+
cie.8
nap.2-7
nap.8-15
nap.16-40
nap.40+
vehage
prix.actuel
pct.DOMM
pctresp.100
pctresp.50
perttotO
forceMoyen
forcePetit
9.9260
0.007972
0.3032
0.1636
−0.1761
−0.1908
−0.1813
−0.1273
−0.2489
−0.3826
−0.4425
−0.5933
0.0282
0.00001654
0.2727
−0.3378
−0.0832
0.1132
−0.1012
−0.0388
0.5522
0.1486
0.1452
0.1913
0.0502
0.0560
0.0829
0.0560
0.1619
0.1641
0.1658
0.1925
0.008715
0.000003805
0.1301
0.0569
0.1213
0.0595
0.0652
0.0849
17.976
0.054
2.088
0.855
−3.504
−3.405
−2.186
−2.271
−1.537
−2.331
−2.669
−3.082
3.240
4.347
2.096
−5.932
−0.687
1.899
−1.550
−0.458
< 2e-16
0.957229
0.036832
0.392490
0.000462
0.000666
0.028862
0.023191
0.124341
0.019802
0.007628
0.002069
0.001202
0.000014
0.036091
3.17E-09
0.492369
0.057567
0.121305
0.647233
Annexe D. Résultats des analyses
102
Figure D.5 – Valeurs observées et prédites du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de responsabilité ; la
ligne pleine représente la moyenne des montants observés selon le niveau de responsabilité de l’assuré dans l’accident et la ligne pointillée représente la moyenne des valeurs
prédites pour ces mêmes observations
Figure D.6 – Différentiels du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de responsabilité ; la ligne représente
la valeur du différentiel selon le niveau de responsabilité
Annexe D. Résultats des analyses
103
Figure D.7 – Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle
hybride d’indemnisation selon le pourcentage de responsabilité ; les lignes pleines représentent la fréquence observée selon le niveau de responsabilité de l’assuré dans l’accident
et les lignes pointillées représentent la fréquence prédite pour ces mêmes observations
Figure D.8 – Différentiels de la probabilité de la présence d’une réclamation pour
la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride d’indemnisation selon le pourcentage de responsabilité ; les lignes représentent la valeur du
différentiel selon la modalité en fonction du niveau de responsabilité
Annexe D. Résultats des analyses
D.2
104
Structure hiérarchique
Pour la structure hiérarchique, la seule application actuarielle étudiée a été l’indemnisation. Les modèles comprennent toutes les covariables qui font référence aux
caractéristiques de l’assuré et du véhicule assuré, ainsi que les informations obtenues
sur l’accident. Le modèle de sévérité des dommages matériels est exactement le même
que celui obtenu dans le modèle hybride d’indemnisation (voir le tableau D.5). Pour la
modélisation des fréquences, on a eu recours à une régression logistique plutôt qu’à un
modèle multinomial. Finalement, le modèle de sévérité AB inclut tous les montants de
sévérité AB sans égard à la présence ou l’absence d’une réclamation BI, contrairement
au modèle AB de la structure hybride qui était ajusté sur la sous-population ayant
seulement réclamé la garantie AB.
Tableau D.8 – Résultats partiels de l’estimation des paramètres du modèle logistique
expliquant la présence d’une réclamation pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hiérarchique d’indemnisation selon la méthode du
maximum de vraisemblance.
Paramètre
Intercept
age.23-29
age.30-64
age.65+
modelevehBig.van
modelevehCompact
modelevehPickup
modelevehSmall.Luxury
kmpleasure.10001-15000
kmpleasure.15001-20000
kmpleasure.20001+
nap.2-7
nap.8-15
nap.16-40
nap.40+
gender.M
pct.DOMM
perttotO
pctresp.100
pctresp.50
forceMoyen
forcePetit
Valeur estimée
Erreur Standard
Valeur Z
Seuil observé
−2.091118
0.563762
0.796266
0.933269
0.279151
0.141835
−0.192222
0.038586
−0.071605
−0.139559
−0.260899
−0.10423
−0.275465
−0.411416
−0.501141
−0.299630
0.999708
0.656786
−1.182682
−0.824657
−0.423479
−1.058558
0.197927
0.107476
0.104305
0.133119
0.106351
0.103972
0.145176
0.111625
0.036777
0.040409
0.0592
0.118835
0.119818
0.11974
0.138586
0.03074
0.07844
0.044319
0.038658
0.08448
0.045311
0.052457
−10.565
5.245
7.634
7.011
2.625
1.364
−1.324
0.346
−1.947
−3.454
−4.407
−0.877
−2.299
−3.436
−3.616
−9.747
12.745
14.82
−30.593
−9.762
−9.346
−20.18
< 2e-16
1.56E-07
2.28E-14
2.37E-12
0.00867
0.172515
0.185482
0.729589
0.051533
0.000553
1.05E-05
0.380434
0.021503
0.000591
0.000299
< 2e-16
< 2e-16
< 2e-16
< 2e-16
< 2e-16
< 2e-16
< 2e-16
Annexe D. Résultats des analyses
105
Tableau D.9 – Résultats partiels de l’estimation des paramètres du modèle de sévérité pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure
hiérarchique d’indemnisation selon la méthode du maximum de vraisemblance.
Paramètre
Intercept
age.23-29
age.30-64
age.65+
kmpleasure.10001-15000
kmpleasure.15001-20000
kmpleasure.20001+
cie.8
marital.status.D
marital.status.M
marital.status.V
nap.2-7
nap.8-15
nap.16-40
nap.40+
vehage
prix.actuel
pct.DOMM
pctresp.100
pctresp.50
perttotO
forceMoyen
forcePetit
Valeur estimée
Erreur Standard
Valeur t
Seuil observé
10.03
0.01527
0.2414
0.1453
−0.1718
−0.1523
−0.1886
−0.1270
0.05868
0.0788
0.1331
−0.1445
−0.2065
−0.3001
−0.6091
0.02352
0.00001228
0.2880
−0.2308
−0.1170
0.1035
−0.1162
−0.03378
0.5309
0.1465
0.1467
0.1944
0.04898
0.05455
0.0804
0.05474
0.08498
0.05333
0.1796
0.155
0.1645
0.1749
0.2093
0.008329
0.000003583
0.1261
0.05323
0.1165
0.0575
0.06333
0.08286
18.888
0.104
1.646
0.747
−3.508
−2.792
−2.346
−2.320
0.691
1.478
0.741
−0.933
−1.255
−1.716
−2.910
2.824
3.428
2.283
−4.337
−1.005
1.799
−1.836
−0.408
< 2e-16
0.917002
0.099816
0.455017
0.000456
0.005264
0.01903
0.020369
0.489887
0.139595
0.458678
0.351046
0.209422
0.086199
0.003633
0.004758
0.000612
0.022459
1.47E-05
0.315084
0.072038
0.066473
0.683495
Annexe D. Résultats des analyses
106
Figure D.9 – Valeurs observées et prédites de la probabilité de la présence d’une
réclamation pour la garantie AB par le modèle hiérarchique d’indemnisation selon le
pourcentage de dommages matériels réclamés par rapport à la valeur actuelle du véhicule ; la ligne pleine représente la fréquence observée et la ligne pointillée représente la
fréquence prédite pour chaque tranche de 10% du pourcentage
Figure D.10 – Différentiels de la probabilité de la présence d’une réclamation pour
la garantie AB par le modèle hiérarchique d’indemnisation selon le pourcentage de
dommages matériels réclamés par rapport à la valeur actuelle du véhicule ; la ligne
représente la valeur du différentiel pour chaque tranche de 10% du pourcentage
Annexe E
Échantillonneur de Gibbs
L’échantillonneur de Gibbs est ainsi nommé en l’honneur du physicien J.W. Gibbs.
Il a été popularisé par Geman et Geman (1984) et Gelfand et Smith (1990). Cet algorithme permet de simuler à partir de lois a posteriori conditionnelles complètes. Robert
et Casella (2004) ont démontré que sous certaines conditions de régularité, ces lois
permettent de déterminer la loi a posteriori de manière unique.
On suppose que θ = (θ1 , . . . , θd )⊤ comporte d paramètres et on dénote par θ−j =
(θ1 , . . . , θj−1 , θj+1 , . . . , θd )⊤ le vecteur des paramètres θ sans θj . Les lois a posteriori
conditionnelles complètes sont alors définies par π(θj |θ−j , y), j = 1, . . . , d. On choisit
par suite des valeurs initiales pour chaque paramètre de θ, qui sont dénotées θ (0) =
(0)
(0)
(θ1 , . . . , θd )⊤ . L’échantillonneur de Gibbs procède alors selon l’algorithme suivant :
(1)
Étape 1 :
Étape 2 :
..
.
Étape d :
Étape d + 1 :
..
.
Étape (B + N )d :
Générer une réalisation θ1 de la loi a posteriori
(1) (0)
conditionnelle π(θ1 |θ −1 , y)
(1)
Générer une réalisation θ2 de la loi a posteriori
(1) (1)
(0)
conditionnelle π(θ2 |θ 1 , θ −1,−2 , y)
(1)
Générer une réalisation θd de la loi a posteriori
(1) (1)
conditionnelle π(θd |θ −d , y)
(2)
Générer une réalisation θ1 de la loi a posteriori
(2) (1)
conditionnelle π(θ1 |θ −1 , y)
((B+N ))
Générer une réalisation θd
de la loi a posteriori
((B+N )) ((B+N ))
conditionnelle π(θd
|θ −d
, y)
Annexe E. Échantillonneur de Gibbs
108
Pour que le modèle puisse converger vers la loi stationnaire, une période de chauffe
de B simulations préliminaires est nécessaire. Ces B simulations ne sont pas utilisées
dans les inférences bayésiennes puisqu’elles ne proviennent pas de la loi stationnaire.
Par la suite, N simulations supplémentaires sont effectuées. Les inférences bayésiennes
sont basées sur ces N simulations dont on peut présumer qu’elles émanent de la loi stationnaire si B est suffisamment grand. Comme Geman et Geman (1984) l’ont démontré,
les valeurs θ 1 , . . . , θ B+N qui sont générées par l’échantillonneur de Gibbs forment une
chaîne de Markov dont la loi stationnaire est précisément π(θ|y). L’échantillonneur de
Gibbs est approprié si les lois conditionnelles complètes se calculent de façon explicite.
Ceci se produit lorsque les lois a priori sont conjuguées. Si ce n’est pas le cas, quelques
modifications à l’algorithme s’imposent.
Le logiciel WinBUGS utilise un algorithme hybride composé de quatre composantes
différentes. À la base, le logiciel utilise l’échantillonneur de Gibbs pour simuler l’en(1) (0)
semble des paramètres. À chaque étape de l’algorithme, lorsque π(θj |θ−j , y) est conjuguée, une réalisation des paramètres θj est simulée directement à partir de cette loi.
(1) (0)
Pour les paramètres θj tels que π(θj |θ−j , y) n’est pas conjuguée, la méthode de rejet
est utilisée pour simuler une réalisation si cette loi est log-concave (Robert et Casella,
2004). Finalement, si la loi n’est pas log-concave, une réalisation est alors simulée à
partir de l’algorithme de Metropolis et al. (1953) si le support de la loi n’est pas borné
ou à partir de l’échantillonneur par tranche (Neal, 1997) si le support est borné.
Annexe F
Résultats de l’analyse bayésienne
Tableau F.1 – Estimation des paramètres par la méthode bayésienne et par la méthode
du maximum de vraisemblance pour le modèle de sévérité des dommages matériels du
véhicule assuré.
Paramètre
Intercept
modelevehBig.van
modelevehCompact
modelevehPickup
modelevehSmall.Luxury
anpol.mod2004
anpol.mod2005
anpol.mod2006
anpol.mod2007
nap.mod2-7
nap.mod8-15
nap.mod16-40
nap.mod40+
pctresp.mod100
pctresp.mod50
prix.actuel
vehage
Valeur estimée
Max. de vrais.
8.488000
−0.201700
−0.219000
−0.124200
−0.093080
0.002895
0.030610
0.049720
0.125500
−0.044460
−0.091990
−0.131000
−0.167300
0.384400
0.212400
0.000007
−0.032590
Erreur Standard
Max. de vrais.
0.049830
0.026740
0.027580
0.033810
0.027630
0.011710
0.011860
0.011930
0.014500
0.034800
0.034160
0.033440
0.035600
0.008691
0.020050
0.000001
0.001674
Valeur estimée
Mét. bayésienne
8.475
−0.1995
−0.2164
−0.1211
−0.09143
0.003098
3.07E-02
0.04999
0.1253
−0.03578
−0.08311
−0.1224
−0.1586
0.3845
0.2125
7.45E-06
−0.03239
Erreur Standard
Mét. bayésienne
0.03731
0.02233
0.0226
0.02893
0.02338
0.01036
0.01059
0.01075
0.01303
0.0278
0.02733
0.02664
0.02874
0.007831
0.01781
5.55E-07
1.42E-03
Erreur Monte Carlo
Mét. bayésienne
0.003454
0.001685
0.001796
0.001708
0.001656
3.33E-04
3.11E-04
3.24E-04
3.55E-04
0.002238
0.002258
0.002246
0.002245
1.58E-04
2.60E-04
3.76E-08
8.57E-05
Annexe F. Résultats de l’analyse bayésienne
110
Tableau F.2 – Estimation des paramètres par la méthode bayésienne et par la méthode
du maximum de vraisemblance pour la loi multinomiale.
Paramètre
(Intercept)
C.PO.AB.F.mod0.7+
age.mod23-29
age.mod30-69
age.mod70+
anpol.mod2004
anpol.mod2005
anpol.mod2006
anpol.mod2007
categpoint.mod3
categpoint.mod4
categpoint.mod5
categpoint.mod737categpoint.mod751-823
categpoint.mod828+
categpoint.mod999
forceMoyen
forcePetit
gender.modM
nap.mod16-40
nap.mod2-7
nap.mod40+
nap.mod8-15
pctresp.mod100
pctresp.mod50
pct.DOMM
perttotO
Valeur estimée
Max. de vrais.
−1.582227
1.025657
0.477004
0.768748
0.820850
−0.095296
−0.058807
−0.033674
−0.220147
−0.004195
0.009633
0.301674
0.056222
−0.207532
−0.425720
0.121028
−0.356022
−1.005473
−0.306373
−0.615067
−0.104267
−0.758929
−0.342700
−1.264049
−0.812386
1.0168737
0.6172725
Erreur Standard
Max. de vrais.
0.004776
0.001508
0.002969
0.002809
0.004357
0.001411
0.001461
0.001514
0.001873
0.002297
0.003983
0.004982
0.001650
0.001674
0.002051
0.001793
0.001458
0.001671
0.000966
0.003835
0.003832
0.0043557
0.003867
0.0012741
0.0027295
0.0024237
0.0014235
Valeur estimée
Mét. bayésienne
−1.545
1.032
0.493
0.7865
0.8329
−0.09395
−0.05929
−0.03268
−0.2225
−0.008619
0.003942
0.295
0.05497
−0.2122
−0.4365
0.1197
−0.3579
−1.013
−0.3127
−0.6752
−0.1601
−0.8217
−0.3997
−1.278
−0.8217
1.028
0.6208
Erreur Standard
Mét. bayésienne
0.1302
0.04788
0.08184
0.07401
0.1302
4.53E-02
4.62E-02
4.82E-02
0.06083
0.06965
0.1277
0.1527
5.05E-02
5.06E-02
0.06468
5.51E-02
4.56E-02
5.36E-02
3.06E-02
0.1202
0.1158
0.1366
0.1213
4.02E-02
0.08766
0.08155
4.27E-02
Erreur Monte Carlo
Mét. bayésienne
0.01272
0.001575
0.006353
0.006664
0.007712
0.002528
0.00252
0.002832
0.002882
0.003426
0.004776
0.005559
0.003296
0.003303
0.00351
0.00361
0.002937
0.004225
0.001413
0.01144
0.01049
0.01171
0.0113
0.00138
0.00271
0.006306
0.002352
Téléchargement