RICHARD VERMETTE Modélisation de la dépendance entre les garanties applicables en assurance automobile Mémoire présenté à la Faculté des études supérieures de l’Université Laval dans le cadre du programme de maîtrise en statistique pour l’obtention du grade de Maître ès sciences (M.Sc.) FACULTÉ DES SCIENCES ET DE GÉNIE UNIVERSITÉ LAVAL QUÉBEC 2011 c ⃝Richard Vermette, 2011 Résumé Dans un portefeuille d’assurance automobile, différents types de réclamations peuvent survenir pour chaque police en vigueur. En cas de collision entre deux véhicules, l’assuré peut déposer une réclamation pour dommages corporels et matériels à luimême et à autrui. Traditionnellement, ces types de risques ont été considérés comme indépendants afin d’en faciliter la modélisation stochastique. Dans la pratique, on observe toutefois une dépendance entre les montants de ces réclamations dont il importe de tenir compte pour mieux quantifier le risque global du portefeuille. Frees et Valdez (2008) ont proposé un modèle permettant de considérer certaines dépendances entre les fréquences et les sévérités des garanties impliquées dans les réclamations d’une même police d’assurance. Dans ce mémoire, deux structures de modèles inspirées de celle de Frees et Valdez (2008) sont proposées pour modéliser les sinistres d’un portefeuille d’assurance automobile de l’Ontario. L’ajustement des modèles est réalisé par la méthode de vraisemblance maximale ainsi que par une approche bayésienne. Avant-propos Je tiens tout d’abord à remercier mon directeur de recherche, M. Thierry Duchesne, professeur au Département de mathématiques et de statistique de l’Université Laval, ainsi que mon co-directeur, M. Christian Genest, professeur au Département de mathématiques et de statistique de l’Université McGill, pour leur disponibilité, mais aussi pour toute l’aide et le soutien qui ont été nécessaires à la réalisation de ce projet. Je tiens spécialement à remercier M. Duchesne pour la qualité de ses conseils dans ce projet et dans la rédaction de ce mémoire, mais aussi pour avoir partagé tant d’enrichissantes discussions au cours de la dernière année. J’aimerais aussi remercier mes superviseurs de la compagnie d’assurance, M. Étienne Plante-Dubé et M. Danaïl Davidov, qui m’ont permis d’apprendre énormément dans le domaine de l’assurance et qui m’ont aussi très bien guidé lors de la réalisation de ce projet. Je tiens d’ailleurs à remercier Danaïl pour toutes les heures où nous avons échangé des courriels afin de discuter du projet. Un merci spécial à M. Mathieu Francœur qui a contribué au projet en apportant des informations et des suggestions qui furent très utiles dans sa conception et sa réalisation. Mes remerciements vont aussi au Fonds québécois de la recherche sur la nature et les technologies (FQRNT), au fonds de subvention MITACS Accélération, ainsi qu’à l’Université Laval pour les fonds octroyés à la réalisation de ce projet. Finalement, je suis reconnaissant envers ma fiancée Lucie et toute ma famille pour leur soutien et leur amour qui ont été une motivation supplémentaire à la réussite de ce projet et de mes études. Table des matières Résumé ii Avant-Propos iii Table des matières vi Liste des tableaux ix Liste des figures xi 1 Introduction 1.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Objectifs du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 2 Revue de la littérature 2.1 Structure des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Composante 1 : Fréquence des demandes d’indemnisation . . . . 2.2.2 Composante 2 : Type de réclamations effectuées lors des demandes d’indemnisation . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Composante 3 : Sévérité des montants pour chaque type de réclamation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 5 7 7 11 3 Analyses préliminaires 3.1 Provenance des données . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Covariables préliminaires . . . . . . . . . . . . . . . . . . 3.1.2 Variables dépendantes d’intérêt . . . . . . . . . . . . . . 3.1.3 Utilisation de la fréquence des demandes d’indemnisation 3.1.4 Autres détails sur le jeu de données . . . . . . . . . . . . 3.1.5 Logiciel utilisé pour le projet . . . . . . . . . . . . . . . . 3.2 Analyses préliminaires de la dépendance . . . . . . . . . . . . . 3.2.1 Modélisation de la dépendance entre les sévérités . . . . 3.2.2 Modélisation de la dépendance entre les fréquences . . . 14 14 14 15 18 18 19 20 20 23 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 v . . . . 24 25 27 29 . . . . . . . . 32 33 35 40 43 46 49 50 53 . . . . 54 54 55 60 62 6 Analyses bayésiennes 6.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Résultats de l’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Reproduction d’un portefeuille . . . . . . . . . . . . . . . . . . . . . . . 63 64 68 69 7 Conclusion 73 Bibliographie 75 A Autres résultats des analyses préliminaires A.1 Résultats de la régression logistique . . . . . . . . . . . . . A.2 Résultats complémentaires de l’analyse de la variance . . . A.3 Résultats complémentaires sur la dépendance des montants A.4 Histogrammes des montants de sévérité . . . . . . . . . . . 78 78 79 80 83 3.3 3.4 3.2.3 Modélisation de la fréquence étant donné la sévérité 3.2.4 Modélisation de la sévérité étant donné la fréquence Imputation de données . . . . . . . . . . . . . . . . . . . . Résumé des analyses préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Structure des modèles 4.1 Structure hybride . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Choix de la loi pour les modèles de sévérité . . . . . . . . . . . 4.1.2 Loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.3 Sélection des covariables . . . . . . . . . . . . . . . . . . . . . 4.1.4 Utilisation du modèle hybride dans la pratique actuarielle . . . 4.2 Structure hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Régression logistique . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Utilisation du modèle hiérarchique dans la pratique actuarielle 5 Résultats des analyses 5.1 Structure hybride . . . . . . . . 5.1.1 Modèle de tarification . 5.1.2 Modèle d’indemnisation 5.2 Structure hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de sévérité . . . . . . . B Théorie : Imputation multiple 87 C Résultats de l’ajustement des modèles C.1 Résultats du choix des modèles de sévérité . . . . . . . . . . . . . . . . C.2 Résultats pour les modèles logistiques . . . . . . . . . . . . . . . . . . . 89 89 91 D Résultats des analyses 92 vi D.1 Structure hybride . . . . . . . . D.1.1 Modèle de tarification . D.1.2 Modèle d’indemnisation D.2 Structure hiérarchique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 94 99 104 E Échantillonneur de Gibbs 107 F Résultats de l’analyse bayésienne 109 Liste des tableaux 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 Covariables utilisées lors de l’ajustement des modèles pour la composante de la fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Combinaison possible de chaque type de réclamation . . . . . . . . . . Définition de chaque type de réclamation . . . . . . . . . . . . . . . . . 9 10 10 Covariables préliminaires à considérer dans le projet . . . . . . . . . . . Explication des garanties considérées . . . . . . . . . . . . . . . . . . . Mesures de dépendance entre les sévérités des garanties . . . . . . . . . Tests sur les rapports de cotes . . . . . . . . . . . . . . . . . . . . . . . Moyenne des montants de chaque garantie selon le type de garanties réclamées lors d’un même accident . . . . . . . . . . . . . . . . . . . . Estimation des paramètres de la régression logistique de la fréquence de la garantie AB en fonction du montant de dommages matériels DOMM Effets significatifs de la fréquence des garanties sur le montant de dommages AB par une analyse de la variance . . . . . . . . . . . . . . . . . Combinaisons possibles des types de réclamation pour les analyses de ce projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Moyenne des montants de chaque garantie selon le type de garanties réclamées lors d’un même accident : Retrait de la garantie TPL-PD . . 15 16 22 24 4.1 Distributions considérés pour l’ajustement des modèles de sévérité . . . 36 5.1 Coefficients estimés pour le modèle de sévérité des dommages matériels pour la covariable relative à l’âge du conducteur principal assuré . . . . Variation des coefficients du modèle multinomial en considérant la probabilité de deux modalités fixées . . . . . . . . . . . . . . . . . . . . . . 3.6 3.7 3.8 3.9 5.2 6.1 6.2 6.3 Covariables utilisées lors de l’ajustement du modèle bayésien . . . . . . Comparaison des valeurs prédites de la valeur totale des indemnités versées selon la première approche avec les valeurs observées des 1000 portefeuilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Comparaison des valeurs prédites de la valeur totale des indemnités versées selon la deuxième approche avec les valeurs observées des 1000 portefeuilles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 26 30 30 57 59 67 71 72 viii A.1 Estimation des paramètres de la régression logistique de la fréquence de la garantie TPL-BI en fonction du montant de dommages matériels DOMM A.2 Estimation des paramètres de la régression logistique de la fréquence de la garantie TPL-PD en fonction du montant de dommages matériels DOMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.3 Effets de la fréquence des garanties sur le montant de dommages DOMM par une analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . A.4 Effets de la fréquence des garanties sur le montant de dommages BI par une analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . . C.1 Résultats de l’ajustement des distributions considérées de sévérité des dommages matériels . . . . . . . . . . . C.2 Résultats de l’ajustement des distributions considérées de sévérité des blessures corporelles . . . . . . . . . . . pour . . . pour . . . le modèle . . . . . . le modèle . . . . . . 78 78 79 79 89 90 D.1 Explication des covariables utilisées dans les modèles présentés . . . . . 93 D.2 Résultats partiels de l’estimation des paramètres du modèle de sévérité de dommages matériels du véhicule assuré (garantie DOMM) pour la structure hybride de tarification selon la méthode du maximum de vrai94 semblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D.3 Résultats partiels de l’estimation des paramètres du modèle multinomial pour la structure hybride de tarification selon la méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 D.4 Résultats partiels de l’estimation des paramètres du modèle de sévérité des blessures corporelles subies par l’assuré (garantie AB) pour la structure hybride de tarification selon la méthode du maximum de vraisemblance 96 D.5 Résultats partiels de l’estimation des paramètres du modèle de sévérité des dommages matériels du véhicule assuré (garantie DOMM) pour la structure hybride d’indemnisation selon la méthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 D.6 Résultats partiels de l’estimation des paramètres du modèle multinomial pour la structure hybride d’indemnisation selon la méthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 D.7 Résultats partiels de l’estimation des paramètres du modèle de sévérité pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hybride d’indemnisation selon la méthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 D.8 Résultats partiels de l’estimation des paramètres du modèle logistique expliquant la présence d’une réclamation pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hiérarchique d’indemnisation selon la méthode du maximum de vraisemblance. . . . . . . . . 104 ix D.9 Résultats partiels de l’estimation des paramètres du modèle de sévérité pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hiérarchique d’indemnisation selon la méthode du maximum de vraisemblance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . F.1 Estimation des paramètres par la méthode bayésienne et par la méthode du maximum de vraisemblance pour le modèle de sévérité des dommages matériels du véhicule assuré. . . . . . . . . . . . . . . . . . . . . . . . . F.2 Estimation des paramètres par la méthode bayésienne et par la méthode du maximum de vraisemblance pour la loi multinomiale. . . . . . . . . 105 109 110 Liste des figures 4.1 4.2 Structure du modèle hybride . . . . . . . . . . . . . . . . . . . . . . . . Structure du modèle hiérarchique . . . . . . . . . . . . . . . . . . . . . 34 50 A.1 A.2 A.3 A.4 A.5 Graphique des rangs pour les sévérités des garanties AB et DOMM . . Graphique des rangs pour les sévérités des garanties TPL-PD et DOMM Graphique des rangs pour les sévérités des garanties TPL-BI et AB . . Histogramme des montants de sévérité des dommages matériels . . . . Histogramme des montants de sévérité des blessures à la personne assurée sachant qu’il n’y a pas de réclamation pour des blessures à une tierce personne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Histogramme des montants de sévérité des blessures à la personne assurée sachant qu’il y a aussi une réclamation pour des blessures à une tierce personne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Histogramme des montants de sévérité des blessures à une tierce personne sachant qu’il n’y a pas de réclamation pour des blessures à la personne assurée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Histogramme des montants de sévérité des blessures à une tierce personne sachant qu’il y a aussi une réclamation pour des blessures à la personne assurée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Histogramme des montants de sévérité des dommages matériels avec la densité estimée de la loi gamma . . . . . . . . . . . . . . . . . . . . . . 80 81 82 83 A.6 A.7 A.8 A.9 C.1 Courbe ROC obtenue pour le modèle logistique concernant la présence d’une réclamation pour les blessures corporelles à l’assuré. . . . . . . . 84 84 85 85 86 91 D.1 Valeurs observées et prédites du montant de sévérité des dommages matériels par le modèle hybride de tarification pour la population classée selon l’âge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 D.2 Différentiels du montant de sévérité des dommages matériels par le modèle hybride de tarification pour la population classée selon l’âge. . . . 97 D.3 Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride de tarification pour la population classée selon l’âge. 98 xi D.4 Différentiels de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride de tarification pour la population classée selon l’âge. . . . . . . D.5 Valeurs observées et prédites du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de responsabilité. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . D.6 Différentiels du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de responsabilité. . . D.7 Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride d’indemnisation selon le pourcentage de responsabilité. D.8 Différentiels de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride d’indemnisation selon le pourcentage de responsabilité. . . . . . D.9 Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB par le modèle hiérarchique d’indemnisation selon le pourcentage de dommages matériels réclamés par rapport à la valeur actuelle du véhicule. . . . . . . . . . . . . . . . . . . . . . . . . . D.10 Différentiels de la probabilité de la présence d’une réclamation pour la garantie AB par le modèle hiérarchique d’indemnisation selon le pourcentage de dommages matériels réclamés par rapport à la valeur actuelle du véhicule. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 102 102 103 103 106 106 Chapitre 1 Introduction Le domaine de l’assurance en est un où la recherche de nouvelles méthodes est omniprésente afin d’améliorer et de peaufiner les pratiques actuelles dans le but d’attirer de nouveaux clients, mais aussi de convaincre les anciens clients de renouveler leurs assurances au sein de la même compagnie. En général, ce qui va attirer les clients à demander une soumission d’une compagnie d’assurances, c’est sa renommée. Les clients potentiels sont aussi attirés par les stratégies de marketing des compagnies, notamment par le truchement de la télévision, de la radio ou d’Internet. Il y a aussi toutes les nouvelles applications en ligne qui permettent de soumettre rapidement une demande d’assurances, et depuis peu, les compagnies commencent à offrir ces applications sur les cellulaires intelligents comme le iPhone et les BlackBerry afin de rejoindre une plus vaste clientèle. Toutefois, on oublie souvent que derrière toutes ces nouvelles publicités et applications, c’est la recherche actuarielle qui permet aux compagnies d’assurances d’être à la fois compétitives avec des tarifs concurrentiels et à l’abri de la faillite. Ces efforts constants permettent à chaque compagnie d’assurances d’améliorer sa compétitivité dans un marché où il est difficile de faire sa place. La recherche permet aussi à la compagnie d’assurances de s’assurer qu’elle prend les dispositions nécessaires pour faire face aux imprévus et qu’elle dispose des réserves monétaires suffisantes pour pallier aux différents problèmes qui peuvent se présenter. Dans le cadre de ce projet, notre intérêt s’est porté vers l’assurance automobile. Chaque compagnie connaît l’importance de bien cibler les personnes qui sont susceptibles d’avoir un accident et de déposer une réclamation auprès de l’assureur. De plus, lorsqu’un accident se produit, il est important pour l’assureur de bien évaluer les coûts qui seront associés à l’indemnisation de l’assuré. En ciblant les différents groupes à Chapitre 1. Introduction 2 risque, la compagnie peut alors offrir des tarifs avantageux aux groupes de personnes présentant un risque moins élevé. Aux personnes jugées plus à risque, l’assureur pourra offrir un tarif plus élevé que la moyenne ou tout simplement refuser de les assurer. L’objectif de ce projet est de cibler ces différents groupes de personnes afin que l’assureur puisse prendre connaissance des risques qui leur sont liés et instaurer les mesures appropriées. 1.1 Problématique Au Québec, l’assurance automobile est en partie gérée par les assureurs privés et par le gouvernement via la Société d’assurance automobile du Québec (SAAQ). La SAAQ s’occupe de l’indemnisation des blessures corporelles subies lors d’un accident, alors que les compagnies d’assurances s’occupent de l’indemnisation des dommages matériels aux véhicules assurés. Toutefois, dans le reste du Canada, la situation est différente. Par exemple, en Ontario, il n’y a aucune indemnisation offerte par une société d’état pour les blessures corporelles subies dans un accident de la route. Ce sont donc les compagnies d’assurances qui ont le mandat de régler le total de la facture pour les dommages matériels et corporels. Pour ces derniers, on inclut les différents dédommagements relatifs aux blessures subies, soit le remplacement de salaire de l’assuré, une indemnisation pour vices corporels (cicatrice ou toute marque apparente), le remboursement de frais afférents à la blessure (location de béquilles ou d’un fauteuil roulant, etc.), ainsi que toute autre réclamation relative aux blessures subies lors de l’accident. Pour les compagnies d’assurances, il est donc primordial d’élaborer des modèles de prévision fiables pour les différents types de réclamations qui peuvent se produire. Les compagnies possèdent généralement des informations très détaillées pour les réclamations de dommages matériels, car on connaît les caractéristiques de l’assuré et de son véhicule. L’indemnité ne peut d’ailleurs jamais dépasser un certain seuil qui est généralement la valeur actuelle du véhicule assuré. Pour ce qui est des dommages corporels, les montants de réclamation sont plus difficiles à prédire. L’indemnité peut dépendre d’une multitude de facteurs, surtout pour les cas où une personne est blessée grièvement lors de l’accident. Par exemple, si l’assuré ne peut retourner travailler suite à l’accident, il y aura notamment une indemnité de remplacement de salaire qui dépendra de la durée de l’absence, du salaire de l’assuré, etc. Chapitre 1. Introduction 1.2 3 Objectifs du projet Ce mémoire résume les analyses effectuées dans le cadre d’un projet de recherche subventionné par l’organisme MITACS et réalisé en collaboration avec une compagnie d’assurances canadienne. Dans ce projet, plusieurs modèles ont été envisagés afin de bien répondre à la problématique exposée. Ces modèles ont été construits à partir d’une structure hiérarchique proposée par Frees et Valdez (2008) dont un résumé sera présenté au chapitre 2. Ce modèle permet d’incorporer la corrélation qui peut exister entre les sévérités et les fréquences des réclamations pour différentes garanties présentes dans une police d’assurances. Le premier objectif de ce mémoire est d’ajuster cette structure à la banque de données d’assurance automobile de la compagnie en Ontario. Si la structure proposée par Frees et Valdez s’avère inadéquate, quelques modifications y seront apportées afin qu’elle soit la plus représentative possible. Afin de valider l’utilisation de la structure de Frees et Valdez, certaines analyses préliminaires seront présentées au chapitre 3. À partir de celles-ci, il sera alors plus facile de proposer des structures de modèles qui sont appropriées à notre problématique. Les différentes structures utilisées dans le projet sont décrites au chapitre 4, où la théorie sous-jacente aux différents modèles proposés sera exposée. De plus, une liste des différentes applications actuarielles de ces modèles sera présentée. Les résultats concrets obtenus à partir des modèles seront présentés au chapitre 5. Le deuxième objectif du mémoire consiste à appliquer une approche bayésienne appropriée pour l’une des structures utilisées dans ce projet. Le but est de développer un algorithme de simulation par chaîne de Markov afin d’obtenir les lois a posteriori et prédictives applicables à la base de données de l’Ontario. Cette approche bayésienne, ainsi que la théorie s’y rattachant, est expliquée au chapitre 6. Chapitre 2 Revue de la littérature Il existe une multitude de modèles actuariels permettant d’obtenir des prévisions fiables des montants de futures réclamations à partir de différentes observations faites sur un assuré. Parmi les informations utiles aux modèles actuariels, on retrouve notamment les caractéristiques de l’assuré (âge, sexe, etc.), les caractéristiques du véhicule assuré (marque et modèle du véhicule, cylindrée du moteur, etc.), le type d’assurance, ainsi que les réclamations effectuées dans le passé. Ces différentes observations sont souvent connues pour chaque année de validité du contrat d’assurance. Le modèle qui sert de base à l’élaboration de ce projet est celui proposé par Frees et Valdez (2008). Ces auteurs se sont intéressés aux trois types de réclamations qui peuvent être effectuées dans le cadre d’une demande d’indemnisation, soient : – les blessures à une tierce partie ; – les dommages subis par l’assuré, ce qui inclut les blessures de l’assuré, les dommages subis par le véhicule de l’assuré, l’incendie du véhicule, le vol du véhicule ; – les dommages causés à une propriété (véhicule, etc.) appartenant à une tierce partie. Leur objectif était d’établir un modèle qui permette de prédire un montant pour chaque type de garantie impliquée. Par comparaison, les modèles traditionnels visent seulement à fournir une prévision du montant global de la réclamation, c’est-à-dire la somme des garanties impliquées. Pour atteindre leur but, Frees et Valdez ont proposé de travailler avec un modèle hiérarchique à trois composantes qui correspondent respectivement à la fréquence, au type et à la sévérité des réclamations. Chapitre 2. Revue de la littérature 5 Les données utilisées par Frees et Valdez proviennent du Bureau de l’Assurance Générale (GIA) de Singapour. Il s’agit d’une organisation regroupant la majorité des compagnies d’assurances générales de cette région. Les observations utilisées proviennent de chaque police d’assurance qui était valide entre les mois de janvier 1993 et décembre 2001, soit une période de neuf ans. Les observations proviennent de trois bases de données : les polices d’assurance, les dossiers de réclamations et les dossiers d’indemnisation. Les dossiers des polices d’assurance permettent de connaître les différentes caractéristiques du véhicule et de l’assuré, ainsi que la période où l’assurance a été valide. Les dossiers de réclamations permettent d’obtenir le nombre d’accidents pour lesquels l’assuré a effectué une réclamation. Finalement, les dossiers d’indemnisation permettent de connaître les montants payés pour chaque type de réclamation. Frees et Valdez n’ont considéré que les polices d’assurance où seul un véhicule était assuré. Ceci représente environ 90% des polices d’assurance de l’ensemble des compagnies étudiées. Donc, l’unité d’observation pour leurs analyses était un véhicule assuré par l’une des neuf compagnies d’assurances pendant une année comprise entre 1993 et 2001. Afin de s’assurer que chaque type de réclamation était possible pour chaque demande d’indemnisation, seules les polices d’assurance comprenant une couverture complète ont été considérées ; une couverture complète comprend une assurance pour chaque type de réclamation, tandis qu’une couverture partielle peut ne couvrir que les dommages commis à une tierce partie. 2.1 Structure des données Pour faciliter la compréhension des données, nous employons la même notation que Frees et Valdez (2008). Tout d’abord, chaque véhicule admissible assuré par la compagnie d’assurances est dénoté par i et chaque année entre 1993 et 2001 par t. Pour chaque unité d’observation it, les différentes variables réponses observées sont les suivantes : – Nit , le nombre de demandes d’indemnisation effectuées durant l’année t pour le véhicule i ; – Mit,j , le type de réclamation pour chaque demande d’indemnisation, j = 1,. . . ,Nit ; – Cit,jk , le montant de chaque type de réclamation, k = 1,2,3 et pour chaque demande d’indemnisation, j = 1,. . . ,Nit . Lorsqu’une demande d’indemnisation est déposée, elle peut être constituée d’une seule réclamation ou d’une combinaison de plusieurs types de réclamations. Comme il Chapitre 2. Revue de la littérature 6 y a trois types de réclamations dans les données considérées par Frees et Valdez, il y a sept possibilités différentes de combinaisons de ces types, à savoir : les trois types de réclamations individuelles, trois combinaisons formées par deux types de réclamations, et la combinaison regroupant les trois types de réclamations. Un autre aspect important que Frees et Valdez ont relevé dans leur base de données est la présence d’une franchise pour la réclamation des dommages subis par l’assuré. En effet, lors d’une demande d’indemnisation, le montant réclamé pour les pertes subies par l’assuré peut être inférieur à la valeur de la franchise. Frees et Valdez ont donc défini Cit,2k comme étant le montant excédant la franchise dit , et celui-ci est posé égal à zéro si le montant de la réclamation est inférieur à la valeur de la franchise. Par conséquent, le montant de la réclamation pour les pertes subies par l’assuré est une variable censurée par la valeur 0. De plus, toutes les caractéristiques du véhicule assuré, ainsi que celles de la personne assurée, sont contenues dans le vecteur xit où x⊤ it = (xit1 , . . . , xitp ). Une autre variable importante du jeu de données est la durée d’exposition du véhicule à risque pendant une année donnée. Cette variable, dénotée eit , est mesurée en fraction d’année. L’ensemble des informations contenues dans le jeu de données peut donc être résumé comme suit : {dit , eit , Nit , M it , C it , xit ; t = 1, . . . , Ti ; i = 1, . . . , n}, où M it est un vecteur de Nit valeurs identifiant le type de garanties impliquées et C it est la matrice de dimensions 3 × Nit des montants de chaque type de réclamation de la police i lors de l’année t. Si aucune réclamation n’a été faite pour la police i lors de l’année t, on impute la valeur 0 à M it et C it . La base de données comprend n = 96 014 véhicules assurés où le ième véhicule a été observé Ti années entre 1993 et 2001 ; un véhicule peut donc avoir été observé pendant un maximum de neuf années. Le jeu de données totalise 199 352 observations, pour une moyenne de 2.08 observations par véhicule assuré. À l’examen du facteur d’exposition eit , Frees et Valdez ont conclu que les véhicules étaient observés sur une moyenne de 1.29 années. Chapitre 2. Revue de la littérature 2.2 7 Modèle Le modèle utilisé par Frees et Valdez comporte trois composantes. La première sert à établir la fréquence des demandes d’indemnisation qui seront effectuées par l’assuré dans une année donnée. La deuxième vise à modéliser les types de réclamations qui seront incluses dans la demande d’indemnisation effectuée par l’assuré. Finalement, la troisième modélise le montant qui sera versé pour chaque type de réclamation de chaque demande d’indemnisation déposée par l’assuré. On peut donc exprimer la distribution conjointe de ces trois composantes de la façon suivante : f (N, M, C) = f (N ) × f (M|N ) × f (C|M, N ), Conjointe = (Fréquence) × (Type de réclamations sachant la fréquence) × (Sévérité des réclamations sachant leur type et leur fréquence). Frees et Valdez ont analysé chaque composante indépendamment des deux autres. Il peut exister une corrélation entre le nombre de demandes d’indemnisation effectuées dans une année, le type de réclamation, ainsi que le montant accordé pour chaque réclamation. Toutefois, cette corrélation n’a pas été mesurée et n’a pas été prise en compte dans leur analyse. De plus, Frees et Valdez avaient choisi préalablement des covariables, toutes présentes dans le vecteur x, qui étaient communes à la fréquence, aux types et à la sévérité des réclamations. Ceci avait pour but de faciliter la présentation de leur modèle. Toutefois, ils ont décidé de n’utiliser, dans chaque composante du modèle, que les covariables qui avaient un effet significatif. 2.2.1 Composante 1 : Fréquence des demandes d’indemnisation Les modèles de prévision de la fréquence des demandes d’indemnisation ont fait l’objet de multiples analyses dans la littérature actuarielle. Pour leurs analyses des données de Singapour, Frees et Valdez ont décidé d’utiliser des modèles standards de dénombrement avec effets aléatoires (Frees, 2004). Parmi les modèles considérés pour cette étude, on retrouve notamment un modèle de Poisson et un modèle binomial négatif, avec ou sans la présence d’effets aléatoires. Chapitre 2. Revue de la littérature 8 La formule employée par Frees et Valdez pour modéliser la fréquence est de la forme : ( ) λit = eit exp αλi + xit⊤ βλ , où λit αλi eit = moyenne pour l’unité d’observation it ; = variable qui permet de tenir compte de la dépendance entre les différentes années d’observations pour une même unité it ; = proportion de l’année t où la police d’assurance de l’assuré i était en vigueur. La vraisemblance de ce modèle de fréquence pour l’assuré i est alors exprimée par : ∫ LF,i = où Pr (Ni1 = ni1 , . . . , NiTi = niTi |αλi ) f (αλi ) dαλi , ( 1 1 αλi − µ f (αλi ) = √ exp{− 2 σ σ 2π )2 }. Frees et Valdez ont supposé que les nombres Ni1 , . . . , NiTi de demandes d’indemnisation sont indépendants étant donné αλi , ce qui implique que la probabilité conjointe des fréquences de réclamation de l’assuré i est donnée par : Pr (Ni1 = ni1 , . . . , NiTi = niTi |αλi ) = Ti ∏ Pr (Nit = nit |αλi ) . t=1 Pour l’ajustement de ce modèle, les covariables retenues par Frees et Valdez sont énumérées au tableau 2.1. Les interactions entre certaines de ces covariables, ainsi que certaines relations non-linéaires, ont aussi été ajoutées au modèle. Après avoir examiné les données, Frees et Valdez se sont concentrés sur cinq modèles de prévision, soient : – – – – – le le le le le modèle modèle modèle modèle modèle de Poisson sans covariable ; de Poisson avec covariables ; de Poisson avec covariables et effets aléatoires ; avec loi binomiale négative avec covariables ; avec loi binomiale négative avec covariables et effets aléatoires. Chapitre 2. Revue de la littérature 9 Tableau 2.1 – Covariables utilisées lors de l’ajustement des modèles pour la composante de la fréquence Covariable Année Type de véhicule Âge du véhicule Sexe de l’assuré Âge de l’assuré NCD (No Claims Discount) Description Années 1993 à 2001 inclusivement Le type de véhicule assuré, soit l’usage privé ou commercial Âge du véhicule groupé en 7 catégories Homme ou femme Âge de l’assuré groupé en 7 catégories Rabais basé sur les réclamations effectuées dans le passé par l’assuré. Si le rabais est élevé, cela signifie que l’assuré a effectué peu ou pas de réclamations dans le passé. Il s’agit d’une valeur continue. Pour chaque modèle, les mêmes covariables ont été considérées afin de cerner le meilleur choix possible. Les auteurs ont utilisé le maximum de vraisemblance pour l’ajustement de chaque modèle, ainsi que la méthode de Bayes empirique pour la prévision des effets aléatoires. Pour déterminer le modèle qui fournit les meilleures prévisions, Frees et Valdez ont opté pour le test de Pearson fondé sur la statistique du khi-deux. Ce test permet de comparer les valeurs réelles aux valeurs prédites du nombre de demandes d’indemnisation de chaque unité d’observation. Dans le cas des données de Singapour, le meilleur modèle était celui de la binomiale négative avec covariables. Les deux modèles comportant des effets aléatoires ont conduit aux pires prévisions. 2.2.2 Composante 2 : Type de réclamations effectuées lors des demandes d’indemnisation Lors de la discussion de la structure des données utilisées à la section 2.1, nous avons présenté les trois types de réclamations possibles, ainsi que les sept combinaisons susceptibles de se produire lors d’une demande d’indemnisation. Conditionnellement au fait que l’assuré effectue au moins une demande d’indemnisation durant l’année, la variable M représente la combinaison des types de réclamations observée dans chaque demande d’indemnisation. Les définitions de chaque type de réclamation et de chaque combinaison se trouvent respectivement aux tableaux 2.2 et 2.3. Frees et Valdez ont utilisé un modèle « logit » multinomial pour décrire la probabilité que la combinaison M soit présente lors de la prochaine demande d’indemnisation de Chapitre 2. Revue de la littérature 10 Tableau 2.2 – Combinaison possible de chaque type de réclamation Valeur de M 1 2 3 4 5 6 7 Types de réclamations impliquées C1 C2 C3 C1 , C2 C1 , C3 C2 , C3 C1 , C2 , C3 Tableau 2.3 – Définition de chaque type de réclamation Paramètre Type de réclamation C1 Montant des blessures à une tierce partie C2 Montant des dommages subis par l’assuré, ce qui inclut les blessures de l’assuré, les dommages subis par le véhicule de l’assuré, l’incendie du véhicule, le vol du véhicule C3 Montant des dommages subis par une propriété (véhicule, etc.) appartenant à une tierce partie. l’assuré i durant l’année t. Afin d’inclure les covariables dans le modèle, les auteurs ont spécifié des probabilités de la forme suivante : exp (Vit,m ) , Pr (M = m) = ∑7 s=1 exp (Vit,s ) m = 1, . . . , 7, où les covariables sont incluses via la variable Vit,m = xit⊤ βM,m . Pour le jeu de données de Singapour, Frees et Valdez ont jugé que les caractéristiques concernant l’assuré n’étaient pas des covariables significatives du modèle. Les seules covariables influentes étaient celles concernant les caractéristiques de l’automobile et l’année d’observation. Frees et Valdez ont aussi inclus différentes interactions entre ces variables. Ils ont dichotomisé certaines covariables pour qu’elles soient plus faciles à traiter dans le modèle. Par exemple, ils ont remplacé l’année par la variable indicatrice « Year1996 » qui précise si l’année d’observation est antérieure ou postérieure à 1996. Frees et Valdez ont choisi leurs covariables en fonction de maximiser la valeur de la log-vraisemblance du modèle ajusté. Ils sont venus à la conclusion que les covariables qui permettaient d’obtenir le meilleur ajustement étaient les trois suivantes : – le type de véhicule assuré, soit l’usage privé ou commercial ; – l’âge du véhicule assuré, dichotomisé selon que le véhicule est âgé de plus de deux ans ou non ; – l’année d’observation, dichotomisée selon que l’année est supérieure à 1996. Chapitre 2. Revue de la littérature 2.2.3 11 Composante 3 : Sévérité des montants pour chaque type de réclamation Cette composante du modèle est la plus importante, car elle permet de prédire les montants pour chaque type de réclamation. Tout d’abord, Frees et Valdez ont obtenu un modèle marginal pour les trois types de réclamation. Ils ont ensuite testé différentes copules paramétriques afin de modéliser la dépendance entre les montants des trois types de réclamation. Choix du modèle marginal Pour chaque type de réclamation, les histogrammes des données de Singapour suggéraient l’utilisation de distributions à queue lourde pour le montant de sévérité. Plusieurs types de distributions pour données non-négatives possèdent cette propriété. Frees et Valdez ont opté pour la distribution bêta généralisée de deuxième type, dont la fonction de densité est fC (c) = exp (α1 z) , c|σ|B (α1 , α2 ) [1 + exp(z)]α1 +α2 c ≥ 0, où z = (ln c − µ) /σ et B (α1 , α2 ) = Γ(α1 )Γ(α2 )/Γ(α1 + α2 ). Dans ce modèle, µ est un paramètre de localisation et σ est un paramètre d’échelle, tandis que α1 et α2 sont des paramètres de forme. Les auteurs ont choisi cette distribution, car elle est fréquemment employée dans la littérature actuarielle. Ses quatre paramètres lui donnent une grande flexibilité pour l’ajustement de données où les valeurs extrêmes sont plausibles. Pour l’ajustement de cette fonction aux montants des réclamations de chaque type, Frees et Valdez ont décidé que seuls les paramètres d’échelle et de forme pourraient varier selon le type de réclamation. Afin d’inclure les covariables dans le modèle, le paramètre de localisation est défini de la façon suivante : µk = x⊤ βC,k . La sélection des covariables pour chaque type de réclamation s’est faite indépendamment, c’est-à-dire que les covariables incluses dans un modèle marginal peuvent ne pas être retenues dans le modèle marginal d’un autre type de réclamation. L’estimation des paramètres a été faite à l’aide de la méthode du maximum de vraisemblance. Les auteurs ont utilisé des graphiques quantiles-quantiles afin de valider les modèles marginaux obtenus. Chapitre 2. Revue de la littérature 12 Dans le cas des réclamations pour les dommages à l’assuré (C2 ), il y a présence de censure (voir section 2.1). Dans le jeu de données de Singapour, 2 529 des 20 503 réclamations présentent des montants réclamés inférieurs à la franchise, ce qui induit une censure à zéro. Frees et Valdez ont donc fait appel à une vraisemblance qui tenait compte de la censure afin d’estimer les paramètres pour le modèle marginal de sévérité des dommages à l’assuré. Choix de la copule L’utilisation d’une copule paramétrique permet de modéliser la dépendance qui existe entre les montants lorsque plusieurs types de réclamation sont présents dans une demande d’indemnisation. La distribution conjointe entre les trois montants peut s’écrire de la façon suivante : F (c1 , c2 , c3 ) = Pr(C1 ≤ c1 , C2 ≤ c2 , C3 ≤ c3 ) = Pr (F1 (C1 ) ≤ F1 (c1 ), F2 (C2 ) ≤ F2 (c2 ), F3 (C3 ) ≤ F3 (c3 )) = H (F1 (c1 ), F2 (c2 ), F3 (c3 )) . La loi marginale du montant Cj de chaque type de réclamation est dénotée Fj (·). La copule qui combine ces fonctions de répartition est H(·). Frees et Valdez se sont concentrés sur deux types de copules, soient la copule normale et celle de Student. Ils se sont intéressés à ces copules de façon particulière parce qu’elles font partie de la grande famille des copules elliptiques. Cette famille a la propriété intéressante d’être invariante par marginalisation, ce qui est un avantage lorsqu’on observe seulement une partie des variables marginales (Genest et Nešlehová, 2010). Cette propriété était très importante pour leur analyse, car les copules normale et de Student peuvent être utilisées même lorsqu’un ou deux types de réclamations sont observés. Frees et Valdez ont évalué la pertinence de modéliser la dépendance entre les montants de chaque type de réclamation en confrontant les copules normale et de Student à la copule d’indépendance. Les vraisemblances de ces trois types de copules peuvent être comparées, car ces structures de dépendance sont emboîtées. En effet, quand la copule normale présente un paramètre de corrélation dont la valeur est nulle, elle devient alors la copule d’indépendance ; par ailleurs, la copule normale est un cas limite de la copule de Student correspondant au cas où le nombre de degrés de liberté tend vers l’infini. Les degrés de liberté de la copule de Student sont déterminés par la méthode du maximum de vraisemblance. Chapitre 2. Revue de la littérature 13 Suite aux différentes modélisations, Frees et Valdez ont conclu que l’utilisation d’une copule paramétrique était nécessaire, car les copules normale et de Student ont conduit à un accroissement significatif de la vraisemblance du modèle. Enfin, la comparaison des copules elliptiques entre elles a mené Frees et Valdez à privilégier la copule normale, car elle est plus pratique et permet néanmoins d’obtenir d’aussi bons résultats que la copule de Student. Chapitre 3 Analyses préliminaires 3.1 Provenance des données Les données utilisées pour nos analyses proviennent du registre des polices d’assurances souscrites en Ontario auprès d’une compagnie d’assurances canadienne pendant la période s’étendant de 2003 à 2007. Il s’agit du même type de registre que la banque de données utilisée par Frees et Valdez, soient les polices d’assurance, les dossiers de réclamation et les dossiers d’indemnisation. Un total de 2 350 464 observations sont présentes dans le jeu de données pour l’ensemble des cinq années analysées. 3.1.1 Covariables préliminaires À partir de la banque de données des polices d’assurance, une liste de covariables préliminaires a été établie afin de cibler les caractéristiques de l’assuré et du véhicule qui devaient être considérées dans nos modèles. Ce sont des informations qui sont actuellement utilisées par la majorité des assureurs dans leur modèles respectifs. Cette liste est présentée au tableau 3.1. Les modèles préliminaires ont tous été établis à partir des informations de cette liste. Pour les modèles complets, une vingtaine de covariables qui représentent d’autres caractéristiques de l’assuré viendront s’ajouter aux modèles préliminaires. Chapitre 3. Analyses préliminaires 15 Tableau 3.1 – Covariables préliminaires à considérer dans le projet Covariable Type de Covariable Age Gender Cie Nombre Entier Dichotomique Dichotomique Faq20 Catégorique MaritalStatus Catégorique NAP Description Valeurs possibles Âge de la personne assurée Sexe de la personne assurée Division auprès de laquelle l’assurance a été souscrite Indique si l’assuré possède l’avenant concernant la location d’une voiture de remplacement 16 à 97 ans Homme ou femme 1 ou 2 Statut marital de l’assuré Nombre entier Categmod Nombre d’années de possession d’un permis Nombre entier Nombre de véhicules assurés par cette police d’assurance Valeur continue Kilométrage effectué par l’assuré durant l’année Catégorique Catégorie du véhicule assuré Vehage Nombre Entier NBVT Kmpleasure 3.1.2 Âge du véhicule assuré Non, oui, deluxe Célibataire, marié veuf ou divorcé 0 à 78 ans 1à4 0 à 99 999 km 20 possibilités : Compact, VUS, etc. 0 à 77 ans Variables dépendantes d’intérêt Dans ce projet, deux types de variables dépendantes nous intéressent. Il s’agit d’une part de la sévérité des montants qui sont déboursés par la compagnie d’assurances pour le remboursement des demandes d’indemnisation et d’autre part, de la fréquence relative de chaque type de garantie sur l’ensemble des demandes d’indemnisations. Pour chaque accident signalé, il peut y avoir un remboursement pour cinq types de garanties différentes. Ces garanties sont présentées au tableau 3.2. Dans la pratique, le montant associé à certaines de ces garanties est connu très rapidement, alors que d’autres ne sont connus qu’au terme d’un processus judiciaire qui détermine le coût du règlement. Pour DCPD et COLL, à savoir les garanties relatives aux dommages matériels du véhicule assuré, le montant est fixé suite à la réparation ou au remplacement du véhicule accidenté. L’assureur dispose donc rapidement de cette information. Cependant, la valeur totale de l’indemnité pour la garantie AB, relative Chapitre 3. Analyses préliminaires 16 Tableau 3.2 – Explication des garanties considérées Garantie Abréviation Obligatoire Direct Compensation Property Damage DCPD Oui Collision COLL Non AB Oui TPL-PD Oui TPL-BI Oui Accident Benefit Third Party Liabilities Property Damage Third Party Liabilities Body Injury Description Dommages matériels subis par la voiture de l’assuré pour la proportion non-responsable Dommages matériels subis par la voiture de l’assuré pour la proportion responsable Dommages corporels à l’assuré et aux victimes non-couvertes par AB Dommages matériels à autrui pour les situations où DCPD ne s’applique pas Dommages corporels à des victimes non-responsables de l’accident autres que l’assuré pour la portion au-delà du seuil non-couvert par AB aux blessures subies par l’assuré, ne sera connue que suite au rétablissement complet de l’assuré. Celle-ci comprend le remboursement des frais engendrés par les soins, le remplacement de salaire, etc. De plus, la garantie AB indemnise les personnes impliquées dans l’accident qui n’étaient pas assurées par une police valide au moment de l’accident. Cela contribue à augmenter l’indemnité déboursée. Finalement, les montants des deux garanties TPL, relatives aux dommages subis par autrui, ne sont généralement connus qu’à la suite d’un jugement de cour. En Ontario, les personnes impliquées dans un accident ont la possibilité de poursuivre le responsable de l’accident lorsqu’elles considèrent ne pas avoir été indemnisées à une juste valeur. Seule une minorité de ces situations se règle hors cours par une entente entre l’assureur et le requérant. Comme les procédures judiciaires sont généralement longues, le règlement final n’est connu que quelques années après l’accident. Les montants de ces garanties dépendent de plusieurs facteurs externes aléatoires qui peuvent avoir une grande influence sur le débours final. Par exemple, si l’auteur de ces lignes entrait en collision avec la Maserati de Pierre-Karl Péladeau, il y a de fortes chances que le montant réclamé soit plus élevé que s’il s’agissait d’une Honda Civic d’un étudiant de 20 ans. Dans un autre constat beaucoup plus technique, si un jugement de cour devait attribuer un montant d’assurance plus élevé que le maximum applicable pour la garantie AB, l’assuré pourrait alors réclamer la valeur excédentaire sur la garantie TPL. Toute- Chapitre 3. Analyses préliminaires 17 fois, comme on ne connaît pas le plafond applicable à la garantie AB de chaque assuré, il est impossible d’identifier les observations qui présentent cette particularité. Il est fort probable que les hauts montants de AB qui sont accompagnés d’une valeur non nulle pour TPL proviennent d’une telle situation. De plus, une autre particularité du jeu de données est que pour la garantie AB, les montants de sévérité sont écrêtés à 82 000 $, alors que pour les deux garanties TPL, ils sont écrêtés à 100 000 $. Par écrêtement, on entend que si le montant réclamé excède une certaine valeur, par exemple 82 000 $ pour la garantie AB, sa valeur est automatiquement remplacée dans la base de données par le plafond allouable, soit 82 000 $. Nous avons pris cette mesure afin d’éviter que les accidents catastrophiques viennent influencer indûment l’ajustement des modèles. Pour chaque demande de remboursement, on connaît le montant réclamé pour chacune des cinq garanties admissibles. Il est toutefois important de noter que contrairement aux quatre autres, la garantie Collision est facultative. Cette garantie, dénotée COLL, indemnise l’assuré pour les dommages matériels à son véhicule lorsque l’assuré est responsable de l’accident. Il y a donc deux sous-populations dans la banque de données : les gens souscrits à COLL et les gens qui ne le sont pas. Ceci peut présenter un problème si on veut connaître le total des dommages matériels subis par l’assuré pour la sous-population des assurés qui ne sont pas souscrits à COLL. En effet, lorsqu’ils subissent un accident dont ils sont responsables, ces assurés ne feront pas de demande d’indemnisation car ils ne sont pas assurés pour les dommages matériels de leur véhicule. Ainsi, la compagnie d’assurances ne sera pas en mesure de connaître cette information qui est essentielle à l’ajustement des modèles. Pour éviter cette situation, seule la sous-population qui a souscrit à COLL sera considérée dans la modélisation. Cette sous-population génère 80 % des observations disponibles dans la base de données. Il est à noter que Frees et Valdez ont fait face au même type de problèmes et ont eux aussi opté pour cette approche. De plus, pour faciliter l’étude de la dépendance entre les garanties, une nouvelle variable a été créée à partir des garanties DCPD et COLL. Cette nouvelle garantie, nommée DOMM, est la somme des montants réclamés pour DCPD et COLL. Cette garantie DOMM représente donc le montant total des dommages subis par le véhicule de l’assuré, peu importe si l’assuré est responsable ou non de l’accident. De plus, une correction est nécessaire afin de bien représenter le montant total des dommages subis par le véhicule de l’assuré. Lors d’une réclamation où le client est responsable de l’accident, celui-ci doit débourser une franchise sur les montants des dommages matériels réclamés pour sa voiture, alors qu’il ne paye pas cette franchise lorsqu’il n’est pas responsable. Par exemple, un assuré subit un accident où sa voiture nécessite 2500 $ en réparations. S’il est responsable, l’assuré devra assumer la franchise mentionnée sur sa police Chapitre 3. Analyses préliminaires 18 d’assurance, par exemple, 1000 $, et l’assureur défrayera les 1500 $ supplémentaires. S’il n’est pas responsable, l’assuré pourra alors réclamer les 2500 $ en totalité à l’assureur. Afin que les montants soient homogènes entre DCPD et COLL pour une même observation, la franchise payée par le client est automatiquement ajoutée au montant réclamé sur la garantie DCPD. Un autre paramètre qu’il est très important de considérer est la fréquence relative d’une demande de remboursement pour une garantie donnée. Sans cette fréquence, il est impossible de bien quantifier le montant total qui sera réclamé par une population donnée dans les prochaines années. Les fréquences pour chaque garantie sont définies comme le rapport du nombre de montants réclamés supérieurs à zéro sur le nombre total de demandes d’indemnisation. 3.1.3 Utilisation de la fréquence des demandes d’indemnisation Une troisième variable d’intérêt pour compléter le modèle présenté par Frees et Valdez est le nombre de demandes d’indemnisation effectuées par année pour chaque assuré. Cette variable était modélisée par une loi binomiale négative dans la première composante de la structure de Frees et Valdez. Toutefois, dans notre jeu de données, il était difficile de cerner le nombre exact de demandes d’indemnisation pour chaque assuré à chaque année. Même si les données peuvent être regroupées par numéro de police d’assurance, il se peut que plusieurs personnes d’une même famille soient couvertes par une même police. Par exemple, les conducteurs occasionnels des véhicules assurés sont indiqués dans la police d’assurance, mais la banque de données fournie par l’assureur ne permet pas de retracer quel conducteur a subi l’accident menant à la demande d’indemnisation. De plus, les résultats obtenus suggèrent que le nombre de demandes dépasse rarement deux pour un assuré donné dans une même année. Pour ces diverses raisons, cette étape n’a pas été incluse dans la modélisation. On s’est plutôt concentré sur la dépendance qui existe entre les sévérités et les fréquences relatives des différentes garanties. 3.1.4 Autres détails sur le jeu de données Suite à diverses consultations avec des actuaires associés au projet, certaines autres modifications ont été effectuées à la banque de données initiale. Tout d’abord, seuls les accidents impliquant deux véhicules ou plus ont été considérés dans les modèles. Chapitre 3. Analyses préliminaires 19 La raison pour laquelle les accidents à un seul véhicule ont été éliminés provient tout simplement de la définition des garanties utilisées. Pour les accidents à un seul véhicule, les types de réclamation qui sont faites pour les dommages matériels à autrui sont des dommages mineurs, tels un panneau routier, une clôture, un poteau électrique, et certains dommages majeurs, tels une maison ou tout autre bâtiment endommagé par l’accident. Dans un accident à deux véhicules, les réclamations effectuées pour les dommages à autrui concerneront en majorité des dommages matériels aux autres véhicules impliqués dans l’accident. Les montants sont donc plus homogènes pour les accidents à deux véhicules. La même situation se produit pour les dommages corporels à autrui. Lorsqu’il s’agit d’un accident à un seul véhicule, il peut y avoir une demande de réclamation pour dommages corporels à autrui dans les situations suivantes : – les blessures infligées à un piéton impliqué dans l’accident, – les blessures infligées à une personne se trouvant dans la voiture de l’assuré, mais qui ne réside pas à la même adresse. Encore une fois, les montants pour ces blessures sont très volatiles, notamment dans le cas où un piéton est impliqué. Le fait de se restreindre aux accidents à deux véhicules permet d’éviter la majorité de ces situations. 3.1.5 Logiciel utilisé pour le projet L’ensemble des analyses du projet ont été réalisées au moyen du logiciel R (R Development Core Team, 2010). Ce logiciel permet de télécharger une multitude d’outils afin de mettre en œuvre la majorité des applications statistiques existantes à ce jour. De plus, des mises à jour qui apportent des améliorations aux outils existants ou qui implantent de nouveaux outils sont souvent disponibles. R permet aussi d’échanger des bases de données facilement avec d’autres logiciels, comme Excel, et il permet de transférer des résultats d’analyses vers d’autres logiciels mieux adaptés à certaines tâches. Par exemple, dans le cas d’inférences bayésiennes, le logiciel R permet d’interagir avec le logiciel WinBUGS qui est mieux adapté pour ce type d’analyse. Toutefois, R souffre de certaines lacunes. Comme il s’agit d’un logiciel gratuit, certains outils importés par d’autres utilisateurs peuvent contenir des erreurs de code susceptibles de fausser les analyses. Il faut donc s’assurer que l’outil utilisé est fiable en vérifiant sa provenance. La majorité des programmes proviennent de statisticiens expérimentés, ce qui permet de croire que ces outils sont fiables. Certains pourront aussi critiquer la documentation minimale fournie par R, ainsi que son interface peu développée, alors que SAS présente un logiciel très élaboré et documenté. Malgré tout, Chapitre 3. Analyses préliminaires 20 ces dernières années, les chercheurs ont eu tendance à migrer vers R, grâce notamment à la facilité d’y intégrer des techniques d’analyses modernes, ainsi qu’à sa gratuité. 3.2 Analyses préliminaires de la dépendance Une des lacunes du modèle présenté par Frees et Valdez était l’absence d’une éventuelle corrélation entre la sévérité et la fréquence d’une garantie. Dans les analyses préliminaires de ce projet, quatre types de dépendance ont été évalués : 1. dépendance entre les sévérités ; 2. dépendance entre les fréquences ; 3. dépendance de la fréquence étant donné la sévérité ; 4. dépendance de la sévérité étant donné la fréquence. Frees et Valdez ont concentré leurs efforts sur un modèle dont la dépendance entre les sévérités (Item 1) était modélisée par une copule et la dépendance entre les fréquences (Item 2) par un modèle multinomial. Toutefois, les deux derniers types d’association n’ont pas été considérés. Logiquement, on s’attend à ce que la sévérité des dommages matériels du véhicule accidenté ait une influence sur la fréquence d’une demande de réclamation pour des blessures corporelles. Aussi, la présence d’une demande de réclamation pour dommages corporels à l’assuré peut avoir une influence sur la sévérité du montant réclamé pour les dommages corporels à autrui, spécialement dans le cas d’un accident à plusieurs véhicules. Appelons Ci,k , le montant de sévérité de chaque garantie, k = 1,. . .,4, pour la demande d’indemnisation i. Les types de réclamation pour chaque observation sont connus, ce qui permet de déduire la présence ou l’absence de chaque garantie pour chaque observation. L’indicatrice de cette information est dénotée Pi,k , k = 1,. . .,4, pour la demande d’indemnisation i. Pi,k prend la valeur 1 lorsqu’une réclamation pour la garantie k est présente pour l’observation i, et la valeur 0 sinon. 3.2.1 Modélisation de la dépendance entre les sévérités Tout d’abord, on cherche à mesurer la dépendance entre les montants de sévérité, traités comme des variables continues. Dans le cas de la garantie AB, les montants sont Chapitre 3. Analyses préliminaires 21 écrêtés à 82 000 $ et pour les deux garanties TPL, ils sont écrêtés à 100 000 $. Comme on travaille sur des valeurs continues, des mesures de corrélation sont évaluées deux à deux entre les sévérités des quatre garanties lorsque les montants engendrés pour un même accident sont différents de zéro. Trois différentes mesures de corrélation ont été utilisées, soient le coefficient de corrélation de Pearson, le tau de Kendall, ainsi que le rho de Spearman. De plus, des graphiques de rangs ont été effectués afin de déceler une dépendance susceptible de justifier l’utilisation d’une copule pour l’ajustement des modèles de sévérité. Considérons un échantillon (X1 , Y1 ), . . . , (Xn , Yn ) de la paire (X, Y ), deux variables aléatoires continues et posons X̄ = (X1 + · · · + Xn )/n et Ȳ = (Y1 + · · · + Yn )/n. Voici les formules empiriques permettant de calculer les différentes mesures de corrélation sur ces vecteurs : Coefficient de corrélation de Pearson : rn (X, Y ) = n 1∑ (Xi − X̄)(Yi − Ȳ ) √ , n i=1 Var(X) d d Var(Y ) où n représente le nombre de valeurs présentes dans un vecteur, et d Var(X) = n 1∑ (xi − x̄)2 n i=1 d Var(Y )= n 1∑ (yi − ȳ)2 . n i=1 et Rho de Spearman : ρ=1− n ∑ 6 (Ri − Si ), n(n2 − 1) i=1 où (R1 , S1 ), . . . , (Rn , Sn ) représentent les paires de rangs associées à l’échantillon. Tau de Kendall : τ= (Nombre de paires concordantes) − (Nombre de paires discordantes) , 1 n(n − 1) 2 où deux paires (Xi , Yi ), (Xj , Yj ) sont dites concordantes si et seulement si (Xi −Xj )(Yi − Yj ) ≥ 0, alors qu’elles sont dites discordantes lorsque (Xi − Xj )(Yi − Yj ) < 0. Chapitre 3. Analyses préliminaires 22 Le coefficient de corrélation de Pearson est l’une des mesures les plus anciennes de dépendance entre deux variables continues. Bien que ce coefficient mesure correctement la dépendance linéaire, il ne détecte pas efficacement les autres types de corrélation. Dans certains cas où une forte association est présente, le coefficient de corrélation de Pearson peut se trouver très près de zéro, ce qui suggèrerait l’indépendance entre les deux variables étudiées. Afin de pallier ces importants défauts, de nouvelles mesures de dépendance ont été introduites suivant les axiomes suggérés par Scarsini (1984). Le rho de Spearman et le tau de Kendall sont deux mesures respectant ces axiomes. Ces coefficients, qui sont largement employés dans la littérature, utilisent les rangs des données des deux vecteurs afin de mesurer la dépendance. Ce sont d’ailleurs les mesures qui sont les plus souvent considérées afin de juger de la pertinence d’utiliser une copule lors d’une modélisation conjointe de deux variables continues. Les résultats de l’application de ces mesures à nos données sont présentés au tableau 3.3. Tableau 3.3 – Mesures de dépendance entre les sévérités des garanties Garantie 1 Garantie 2 AB AB AB DOMM DOMM TPL-PD DOMM TPL-PD TPL-BI TPL-PD TPL-BI TPL-BI Nombre de récl. 5858 43 282 260 841 45 Tau de Kendall 0.0144 −0.0923 −0.0137 0.0726 0.0332 −0.0428 Seuil observé Kendall 0.098 0.385 0.740 0.081 0.156 0.681 Seuil observé Spearman 0.101 0.404 0.764 0.091 0.164 0.732 Rho de Spearman 0.0214 −0.1306 −0.0180 0.1051 0.0480 −0.0524 Corr. de Pearson 0.0346 −0.1657 0.0058 0.1845 0.0599 −0.0782 Seuil observé Pearson 0.008 0.288 0.923 0.003 0.083 0.610 Les seuils observés sont obtenus à partir d’un test bilatéral d’indépendance entre les deux variables étudiées. Les distributions asymptotiques pour chaque mesure sous l’hypothèse nulle de l’indépendance entre les deux variables sont : ( Tau de Kendall : τn ≈ Rho de Spearman : ρn ≈ √ r√ n n−2 2 1−rn ≈ Corrélation de Pearson : 2(2n + 5) N 0, 9n(n − 1) ) ( 1 N 0, n−1 t(n−2) ) Chapitre 3. Analyses préliminaires 23 En examinant le tableau 3.3, on remarque que les deux mesures de dépendance basées sur les rangs suggèrent l’absence d’une dépendance entre les sévérités des différentes garanties. Pour le coefficient de corrélation de Pearson, on remarque deux paires de garanties qui ont une dépendance significative. Toutefois, lorsqu’on observe les graphiques de rangs pour ces deux paires de garanties (A.1 et A.2), aucune tendance n’est détectée. Cela nous permet d’affirmer qu’une copule ne sera pas nécessaire dans la modélisation des différentes garanties, contrairement au cas considéré par Frees et Valdez. 3.2.2 Modélisation de la dépendance entre les fréquences À ce stade-ci, la dépendance est mesurée entre les fréquences des quatre variables d’intérêt afin d’en connaître l’importance. À cette fin, des tests sur les rapports de cotes calculés sur les différentes fréquences ont été utilisés. Par exemple, le rapport de cotes qui évalue la dépendance entre la proportion de réclamations AB et la proportion de réclamations DOMM sa calcule ainsi : Proportion de réclamations AB = p = n 1∑ Pi,AB n i=1 n 1∑ Pi,DOM M n i=1 p/(1 − p) Rapport de cotes = q/(1 − q) Proportion de réclamations DOMM = q = S’il y a indépendance entre les deux fréquences, la valeur obtenue pour le rapport de cotes sera proche de 1. Comme tous les accidents comprennent une réclamation de dommages matériels pour le véhicule assuré (DOMM), cette garantie n’a pas été incluse dans les calculs, car sa fréquence est égale à 1 ; les autres garanties n’ont donc aucune influence sur cette fréquence. Un test d’indépendance a été effectué par la méthode de Wald qui utilise une approximation normale. Les résultats de ces comparaisons se trouvent au tableau 3.4. Les seuils observés des tests sont tous inférieurs à 5%, ce qui nous confirme que la fréquence d’une garantie a une influence significative sur la fréquence d’une autre garantie. Le modèle qui sera utilisé dans ce projet doit donc inclure une composante qui pourra tenir compte de cette corrélation. À l’instar de Frees et Valdez, cette composante peut être représentée par un modèle multinomial. Chapitre 3. Analyses préliminaires 24 Tableau 3.4 – Tests sur les rapports de cotes Garantie 1 Garantie 2 Rapport de cotes TPL-BI AB AB TPL-PD TPL-BI TPL-PD 12.9156 3.9250 1.5039 3.2.3 Intervalle de confiance Borne Inf. Borne Sup. 9.1838 17.7738 3.3867 4.5390 1.0687 2.0662 Seuil observé 0.00000 0.00000 0.01975 Modélisation de la fréquence étant donné la sévérité Dans cette section, on considère l’un des deux types de dépendance qui n’étaient pas pris en compte dans le modèle de Frees et Valdez. L’objectif est de vérifier si la sévérité d’un type de garantie a un impact sur la présence ou l’absence d’une réclamation pour d’autres types de garantie dans l’accident. Dans un accident à deux véhicules, la sévérité des dommages matériels au véhicule de l’assuré devrait avoir une influence sur la présence d’une réclamation pour les blessures corporelles de l’assuré, ainsi que la présence d’une réclamation pour les dommages subis par autrui. Le tableau 3.5 permet de connaître la moyenne des montants consentis en fonction des garanties réclamées dans un accident. On constate en premier lieu que le montant des dommages matériels augmente lorsque le nombre de garanties impliquées dans un accident augmente. Le montant de DOMM pourrait donc servir à prédire la présence ou l’absence des autres garanties. De plus, d’un point de vue pratique, c’est généralement ce montant qui est connu en premier par l’assureur ; dans l’implantation d’un modèle hiérarchique, ce montant pourrait donc être utilisé afin de prédire la suite des évènements. On remarque ensuite que le montant réclamé pour les blessures corporelles à l’assuré est plus élevé en présence d’une réclamation pour le montant des blessures corporelles à autrui, ce qui signifie que la présence d’une réclamation pour la garantie BI pourrait avoir un impact sur le montant réclamé pour la garantie AB. Afin de vérifier l’hypothèse à l’effet que le montant des dommages matériels a une influence sur la présence d’une demande de réclamation pour les autres garanties, trois régressions logistiques ont été effectuées. Par exemple, pour l’effet sur la présence de blessures corporelles à l’assuré, on ajuste le modèle de régression logistique suivant : Pi,AB = logit (β0 + β1 Ci,DOM M ) . Chapitre 3. Analyses préliminaires 25 Tableau 3.5 – Moyenne des montants de chaque garantie selon le type de garanties réclamées lors d’un même accident Type Nombre de réclamations AB TPL-BI DOMM TPL-PD Moyenne AB Moyenne TPL-BI Moyenne DOMM Moyenne TPL-PD 4 15 3 3 3 3 28 265 0 30 Oui Oui Oui Oui 16 726 35 814 13 443 2637 Oui Oui Oui Non Non Oui Oui Oui Oui Oui Non Oui Oui Non Oui Oui 14 835 29 698 N/A 0 0 52 230 N/A 40 856 11 010 9870 0 10 398 3182 0 N/A 5461 2 2 2 2 2 2 5508 0 0 186 526 0 Oui Oui Oui Non Non Non Non Non Oui Non Oui Oui Oui Non Non Oui Oui Non Non Oui Non Oui Non Oui 14 659 N/A N/A 0 0 0 0 0 N/A 0 53 564 N/A 6243 0 0 6660 6974 0 0 N/A 0 3944 0 N/A 1 1 1 1 0 0 42 951 0 Oui Non Non Non Non Oui Non Non Non Non Oui Non Non Non Non Oui N/A 0 0 0 0 N/A 0 0 0 0 3736 0 0 0 0 N/A Note : « Oui » et « Non » dénotent respectivement la présence et l’absence d’une réclamation de ce type de garantie. Les résultats de cette modélisation pour la présence d’une réclamation de AB se trouvent au tableau 3.6. Le seuil observé pour l’effet du montant de dommages matériels est nettement inférieur à 5%. Comme le coefficient est positif, cela indique que plus le montant augmente, plus la probabilité qu’une réclamation pour AB soit effectuée s’accroît. L’hypothèse d’une influence des montants de dommages matériels sur la présence des autres garanties est aussi confirmée par les analyses faites sur TPL-BI et TPL-PD dont les résultats se trouvent aux tableaux A.1 et A.2. Tableau 3.6 – Estimation des paramètres de la régression logistique de la fréquence de la garantie AB en fonction du montant de dommages matériels DOMM Erreur Valeur Seuil Standard Z observé −2.552 0.021 −123.39 <2e-16 1.11E-04 2.77E-06 40.08 <2e-16 Paramètres Estimation Ordonnée à l’origine Montant DOMM 3.2.4 Modélisation de la sévérité étant donné la fréquence Cette section présente le deuxième type de dépendance qui n’était pas considéré par Frees et Valdez. Toutefois, il s’agit d’une association qui est étroitement liée à celle de la Chapitre 3. Analyses préliminaires 26 sous-section précédente. Comme il a été démontré que la sévérité a une influence sur la présence d’une réclamation pour une autre garantie, il est logique que la présence d’une réclamation pour une garantie ait une influence sur la sévérité d’une autre garantie. Afin de vérifier cette hypothèse, une analyse de la variance a été effectuée avec la sévérité de chacune des garanties comme variable réponse. Dans chaque analyse de la variance, les indicateurs de la présence de chacune des autres garanties sont les facteurs fixes inclus dans le modèle. De plus, les interactions doubles ont été incluses dans chaque modèle. Voici l’équation du modèle pour la sévérité de AB : Ci,AB = µ + α1 Pi,P D + α2 Pi,BI + α12 Pi,BI Pi,P D + ei , où µ = Moyenne générale, α1 = Effet de la présence de la garantie TPL-PD, α2 = Effet de la présence de la garantie TPL-BI, α12 = Effet de l’interaction de la présence de la garantie TPL-PD et de la garantie TPL-BI, ei = Terme d’erreur du modèle où ei ∼ N (0, σ 2 ). Pour chaque analyse, une transformation de la variable réponse a été nécessaire afin que les modèles puissent respecter les postulats d’une analyse de la variance. Dans chaque cas, la méthode de Box–Cox a été effectuée afin de trouver la transformation adéquate. Lorsque celle-ci ne permettait pas de respecter les postulats, une analyse non paramétrique sur les rangs a été effectuée afin de valider les résultats. Tableau 3.7 – Effets significatifs de la fréquence des garanties sur le montant de dommages AB par une analyse de la variance Effets TPL-BI TPL-PD TPL-BI*TPL-PD Degrés de liberté Valeur Seuil Numérateur Dénominateur F observé 1 5812 0.04 0.8321 1 5812 3.13 0.0769 1 5812 7.27 0.0070 Chapitre 3. Analyses préliminaires 27 Le tableau 3.7 révèle que la présence des garanties relatives aux dommages à autrui a une influence significative sur le montant réclamé pour la garantie AB. Les résultats présentés aux tableaux A.3 et A.4 permettent aussi de reconnaître cette influence entre la présence d’une garantie et la sévérité d’une autre. Ceci confirme les résultats qui avaient été obtenus dans la section 3.2.3, alors que la dépendance entre la fréquence et la sévérité était aussi vérifiée. À la lumière de ces résultats, il est nécessaire d’inclure dans la structure de modélisation une composante qui peut tenir compte de la dépendance entre la fréquence et la sévérité des différentes garanties. 3.3 Imputation de données Dans la base de données fournie par la compagnie d’assurances, certaines valeurs pour des variables explicatives étaient inconnues. Par exemple, une de ces variables explicatives était la valeur actuelle du véhicule, variable qui s’avère très importante dans le modèle pour la sévérité des dommages matériels au véhicule assuré. Théoriquement, lorsque cette valeur est connue, le client ne peut pas obtenir une réclamation supérieure au montant de la valeur actuelle du véhicule. Si cela se produisait, le client réaliserait un bénéfice sur la perte de son véhicule comparativement à la vente de celui-ci. À l’intérieur du jeu de données, cette information était connue pour 29 640 observations, ce qui représente 59.87% du nombre total disponible. Pour plus de 40% des observations, cette valeur primordiale pour l’ajustement de nos modèles est inconnue. Quelques méthodes d’imputation ont donc été considérées. Parmi ces méthodes, les deux qui ont été retenues sont l’imputation par régression et l’imputation multiple (Little et Rubin, 2002). L’imputation par régression est une méthode qui permet d’imputer la moyenne prédite par un modèle de régression aux valeurs manquantes de la base de données. Toutefois, il faut que la variable dont certaines valeurs sont manquantes puisse être expliquée adéquatement par d’autres variables explicatives présentes dans la base de données. Un modèle de régression linéaire utilisant toutes les caractéristiques disponibles sur le véhicule assuré a donc été établi. D’une façon intuitive, les variables les plus susceptibles de prédire correctement la valeur actuelle d’une voiture sont l’âge du véhicule, ainsi que sa catégorie. C’est exactement le résultat qui a été obtenu par le modèle linéaire, alors que le coefficient de détermination s’est élevé à 0.83. Ce résultat est très satisfaisant, parce que la valeur actuelle du véhicule peut dépendre de plusieurs autres facteurs qui ne sont pas connus dans la base de données tels la marque, le modèle et l’équipement présent dans le véhicule. Chapitre 3. Analyses préliminaires 28 L’imputation multiple est une méthode de plus en plus utilisée lors des analyses statistiques, notamment dans le domaine de la santé. Cette méthode permet de diminuer les probabilités que de mauvaises valeurs imputées aient une influence sur l’analyse effectuée, comme cela risque de se produire assez fréquemment lorsque l’on a recours à une imputation simple. Elle permet aussi aux inférences de tenir compte de l’incertitude additionnelle due aux données manquantes. La procédure suivie pour implanter l’imputation multiple est établie de la façon suivante : 1. Les valeurs manquantes sont simulées m fois à partir d’une loi normale multivariée afin de créer m bases de données complètes. 2. Les m bases de données complètes sont analysées selon des procédures statistiques standards. 3. Les résultats des m analyses effectuées sont combinées et synthétisées de façon à obtenir un seul jeu de données avec les estimations globales des paramètres et leur erreur standard correspondante. L’estimation globale des paramètres est tout simplement la moyenne des m estimations, alors que pour l’erreur standard, on fait appel à la somme de la variance qui existe entre les m imputations et de la moyenne des variances pour chaque paramètre. La dernière étape permet d’inclure à la fois la variabilité des coefficients obtenus entre les m analyses, mais aussi la variabilité des coefficients estimés dans chacune des m analyses. L’imputation multiple se base sur l’hypothèse que les valeurs proviennent d’une loi normale multivariée. Comme on impute des valeurs pour une seule variable, les valeurs sont alors simulées à partir d’une loi normale N (µ̂, σ̂ 2 ), où µ̂ et σ̂ 2 représentent respectivement la moyenne estimée et la variance obtenue par la méthode de régression. L’imputation par régression présentée à la page précédente est le cas particulier où m = 1. Les équations utilisées, ainsi que les fondements de cette théorie sont présentés à l’annexe B. Plusieurs recherches ont été effectuées afin de déterminer le nombre m d’imputations nécessaires. Selon les articles consultés, les valeurs recommandées varient entre 5 et 20. Toutefois, l’article publié par Graham et al. (2007) permettra au lecteur intéressé par le sujet d’en apprendre plus sur cette méthode, ainsi que sur le nombre optimal d’imputations à effectuer. Dans notre cas, le nombre d’imputations a été fixé à m = 5. Afin de comparer les deux méthodes d’imputation, un modèle préliminaire pour les dommages matériels a été utilisé. Suite à plusieurs tentatives, on a constaté que les deux méthodes d’imputation permettaient d’obtenir des résultats similaires pour les analyses. Donc, pour la suite du projet, les valeurs imputées par la méthode de régression ont Chapitre 3. Analyses préliminaires 29 été utilisées, car il y a une seule valeur imputée, comparativement à m valeurs pour l’imputation multiple. 3.4 Résumé des analyses préliminaires Suite aux diverses analyses de dépendance relatées dans ce chapitre, la garantie TPL-PD ne sera pas considérée dans la suite de ce projet. Voici les diverses raisons qui permettent d’expliquer cette décision : – peu d’accidents comportent une demande de réclamation pour cette garantie, soit 259 observations dans le jeu de données ; – il s’agit d’une garantie très variable qui ne dépend pas réellement des caractéristiques du véhicule ou de la personne assurée, mais qui dépend plutôt de la valeur des objets endommagés dans l’accident ; – les analyses de dépendance ne permettent pas d’établir de lien avec les autres garanties testées. Par suite de cette décision, la base de données devant servir à l’établissement des modèles est réduite à 49 509 observations. Ces dernières possèdent toutes au minimum une réclamation pour dommages matériels. À cette réclamation peut alors s’ajouter une réclamation pour les blessures de l’assuré (AB) ou pour les blessures à une tierce partie (TPL-BI). Il peut aussi y avoir une réclamation pour ces deux dernières garanties simultanément, pour un total de quatre combinaisons possibles. Dans la suite de ce mémoire, on notera la sévérité et la fréquence de la façon suivante : – Mi , le type de réclamation pour la demande d’indemnisation i ; – Ci,k , le montant de chaque garantie, k = 1,2,3, pour la demande d’indemnisation i. Le tableau 3.8 présente les quatre valeurs possibles pour la variable Mi . La distribution de M sera analysée à l’aide des modèles présentés au chapitre 4. Le tableau 3.9 permet d’identifier les différentes possibilités de réclamations observées dans notre échantillon. La dernière ligne du tableau donne la moyenne des montants réclamés pour chaque garantie sans égard à la présence ou l’absence des autres garanties. Il suffit d’un coup d’œil au tableau 3.9 pour remarquer l’effet de la présence ou de l’absence d’une réclamation pour une garantie sur le montant de sévérité d’une autre. Chapitre 3. Analyses préliminaires 30 Tableau 3.8 – Combinaisons possibles des types de réclamation pour les analyses de ce projet Valeur de M 1 Types de réclamations DOMM impliquées 2 3 4 DOMM, AB DOMM, BI DOMM, AB, BI Tableau 3.9 – Moyenne des montants de chaque garantie selon le type de garanties réclamées lors d’un même accident : Retrait de la garantie TPL-PD Valeur de M Nombre de réclamations AB TPL-BI DOMM Moyenne AB Moyenne TPL-BI Moyenne DOMM 3 4 280 Oui Oui Oui 29 003 51 350.34 10 061.74 2 2 2 2 X 3 5536 0 556 Oui Oui Non Non Oui Oui Oui Non Oui 14 659.57 N/A 0 0 N/A 52 878.74 6266.66 0 7159.20 1 1 1 Moyenne X X 1 0 0 43 137 Oui Non Non 5816 Non Oui Non 836 Non Non Oui 49 509 N/A 0 0 15 350.10 0 N/A 0 52 366.83 0 0 3748.13 4103.76 Type Note : « Oui » et « Non » dénotent respectivement la présence et l’absence d’une réclamation de ce type de garantie. Lorsqu’une seule réclamation pour les dommages matériels est effectuée, la moyenne du montant réclamé pour cette garantie est estimée à 3 748.13 $. Lorsqu’il s’ajoute une réclamation pour les blessures corporelles à l’assuré ou à autrui, la moyenne des dommages matériels augmente alors à plus de 6 000 $. Finalement, lorsqu’il y a réclamation pour les trois garanties considérées, la moyenne des dommages matériels atteint une valeur légèrement supérieure à 10 000 $. Ce résultat est intuitif, car plus le montant réclamé pour les dommages matériels du véhicule assuré est élevé, plus le risque est grand que des blessures corporelles aient été infligées à l’assuré ou à autrui. Un point important à retenir des analyses préliminaires effectuées est que les données obtenues pour la population de l’Ontario semblent se comporter différemment des données de Singapour étudiées par Frees et Valdez (2008). La principale différence réside dans le fait que les montants de sévérité semblent davantage affectés par la présence ou l’absence d’une réclamation pour une autre garantie que par l’indemnité même de ces réclamations. Les analyses de la variance confirment cette hypothèse, alors que les différentes mesures de dépendance entre les montants de sévérité n’ont pas permis de Chapitre 3. Analyses préliminaires 31 déceler de dépendance potentielle entre eux. Cela signifie qu’une copule n’est pas nécessaire dans les structures de modèles et que les montants de sévérité peuvent être considérés indépendants entre eux. Les copules ne seront donc pas utilisées dans les modèles proposés, contrairement au cas considéré par Frees et Valdez. Chapitre 4 Structure des modèles Les structures présentées dans ce chapitre sont des combinaisons hiérarchiques de modèles de sévérité et de modèles de fréquence conditionnels dont les résultats auront une incidence sur les autres éléments de la structure. On définit une structure de modèles comme étant la suite hiérarchique de modèles conditionnels afin d’éviter toute confusion avec la modélisation effectuée à une étape particulière. Chaque modèle à l’intérieur d’une structure est estimé de façon indépendante, c’est-à-dire que la dépendance qui peut exister entre un paramètre d’un modèle de sévérité et un paramètre d’un autre modèle de sévérité ou d’un modèle de fréquence n’est pas considérée. Toutefois, les résultats d’un modèle peuvent être utilisés à titre de covariables dans un modèle subséquent de la structure, ce qui explique l’utilisation de modèles conditionnels. Lors des analyses préliminaires du chapitre 3, certaines similitudes, mais aussi certaines différences, ont été notées entre les hypothèses de la structure proposée par Frees et Valdez (2008) présentée au chapitre 2 et les analyses préliminaires effectuées sur les données de l’Ontario. Tout d’abord, l’utilisation d’une copule entre les montants des sévérités est inutile dans notre cas, puisqu’il ne semble y avoir aucune dépendance entre les montants de chaque garantie. De plus, comme la présence d’une réclamation pour un type de garantie a un fort impact sur la sévérité d’une autre, les modèles de fréquence auront alors de l’importance dans les structures proposées. Deux structures de modèles sont considérées. La première est basée sur celle proposée par Frees et Valdez (2008). La deuxième proposée est basée sur la chronologie des évènements suite à un accident. Nous avons déjà vu que lors d’un accident, les demandes d’indemnisation sont effectuées rapidement pour les dommages matériels, alors que la demande d’indemnisation pour les blessures corporelles est généralement effectuée plusieurs semaines ou plusieurs mois plus tard. Les informations recueillies sur l’accident Chapitre 4. Structure des modèles 33 au fil des semaines peuvent alors être utilisées dans cette structure hiérarchique. Pour chaque structure présentée, des modèles de sévérité et de fréquence sont utilisés. La théorie pertinente sera présentée, ainsi que la technique utilisée pour justifier le choix des modèles. Les paramètres des deux structures seront ensuite estimés par la méthode du maximum de vraisemblance. Au chapitre 6, une estimation par inférence bayésienne sera aussi présentée pour la structure hybride. Suite à la présentation des deux structures et de leurs composantes, l’utilisation de chacune d’elles dans la pratique actuarielle sera présentée. Chaque structure peut être utilisée dans trois applications actuarielles distinctes qui sont la tarification, l’indemnisation et la tarification FSCO, qui consiste en la restriction de certaines covariables selon les lois applicables en Ontario. 4.1 Structure hybride La structure hybride est inspirée de celle présentée par Frees et Valdez. Elle est construite en trois étapes distinctes telles que présentées à la figure 4.1. La première composante est constituée d’un modèle de sévérité servant à prédire le montant des dommages matériels subis par le véhicule assuré. Afin de modéliser cette sévérité, des covariables correspondant aux caractéristiques du véhicule et à la personne assurée sont incluses dans le modèle. Une liste exhaustive de ces covariables est présentée au tableau 3.1. Cela nous permet alors de cibler les groupes d’individus qui sont davantage à risque de provoquer une réclamation élevée pour les dommages matériels à leur véhicule. La deuxième composante est très similaire à celle du modèle de Frees et Valdez. Il s’agit d’un modèle multinomial qui sert à prédire la probabilité que la garantie AB et/ou que la garantie TPL-BI (tableau 2.3) soient invoquées lors d’un accident subi par l’assuré. Toutefois, ce modèle multinomial est conditionnel au montant de sévérité des dommages matériels qui est modélisé à la première étape. Le modèle multinomial comporte quatre modalités distinctes : 1. Dommages matériels au véhicule assuré (DOMM) seulement ; 2. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à la personne assurée (AB) ; 3. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à une tierce personne (TPL-BI) ; 4. Dommages matériels au véhicule assuré (DOMM), blessures corporelles à la personne assurée (AB) et à une tierce personne (TPL-BI). Chapitre 4. Structure des modèles 34 Afin d’obtenir une probabilité prédite pour chacune des quatre modalités possibles de la variable réponse, les mêmes covariables qui sont utilisées à l’étape 1 sont reprises dans ce modèle. De plus, on ajoute la covariable qui permet d’obtenir le meilleur ajustement entre le montant de la sévérité des dommages matériels et le pourcentage du montant de la sévérité des dommages par rapport à la valeur actuelle du véhicule. La valeur observée du montant de dommages est utilisée pour les modèles d’indemnisation, alors que la valeur prédite est utilisée pour les modèles de tarification ; de plus amples informations sur la différence entre les modèles selon l’application seront présentées à la section 4.1.4. Figure 4.1 – Structure du modèle hybride Sévérité DOMM ↓ Multinomiale ↙ ↓ ↓ ↘ Rien AB TPL-BI AB et TPL-BI ↓ ↓ ↓ ↓ Aucun modèle Sévérité AB sachant la sévérité DOMM Sévérité TPL-BI sachant la sévérité DOMM Sévérité AB et TPL-BI sachant la sévérité DOMM Finalement, la troisième composante concerne les modèles de sévérité servant à prédire le montant réclamé pour les garanties AB et TPL-BI selon la situation déterminée par le modèle multinomial ajusté à la deuxième étape. Il y a ici trois modèles de sévérité à ajuster : un pour la garantie AB, un pour la garantie TPL-BI et un modèle conjoint des sévérités AB et TPL-BI dans le cas où ces deux garanties sont réclamées lors d’un même accident. Toutefois, comme les analyses préliminaires n’ont pas permis de déceler de dépendance potentielle (voir le graphique des rangs à la figure A.3), ce modèle conjoint sera tout simplement constitué de deux modèles de sévérité indépendants. Il est important de mentionner que ces modèles de sévérité sont ajustés sur des sous-échantillons de la base de données qui correspondent à la situation adéquate. Par exemple, le modèle de sévérité de AB est ajusté sur les observations où il y a présence Chapitre 4. Structure des modèles 35 d’une réclamation pour AB, mais pas de réclamation pour TPL-BI. 4.1.1 Choix de la loi pour les modèles de sévérité Les modèles de sévérité sont des modèles de régression qui permettent d’obtenir une prévision de la moyenne des montants engendrés pour chaque garantie. Nos efforts se sont concentrés sur les modèles linéaires généralisés (GLM). De plus, grâce à l’utilisation de covariables liées aux caractéristiques de la personne et du véhicule assurés, une moyenne prédite a été obtenue pour chaque contrat d’assurance selon le profil du client et du véhicule qu’il conduit. Cela permet d’ailleurs à l’assureur de cibler les groupes de personnes les plus à risque d’être impliquées dans un accident générant des indemnités élevées. Il est donc primordial de choisir une distribution qui convient à chaque modèle de sévérité. Cette structure comporte cinq types de sévérité à savoir : 1. Indemnité pour les dommages matériels au véhicule assuré (DOMM) ; 2. Indemnité pour les blessures corporelles à la personne assurée (AB) sachant qu’il n’y a pas de réclamation pour les blessures corporelles à une tierce personne (TPL-BI) ; 3. Indemnité pour les blessures corporelles à une tierce personne (TPL-BI) sachant qu’il n’y a pas de réclamation pour les blessures corporelles à la personne assurée (AB) ; 4. Indemnité pour les blessures corporelles à la personne assurée (AB) sachant qu’il y a une réclamation pour les blessures corporelles à une tierce personne (TPL-BI) ; 5. Indemnité pour les blessures corporelles à une tierce personne (TPL-BI) sachant qu’il y a une réclamation pour les blessures corporelles à la personne assurée (AB). Les modèles de sévérité doivent respecter certaines propriétés. Tout d’abord, le montant réclamé est une valeur qui est toujours supérieure à 0. De plus, la distribution de cette variable nécessite souvent une queue lourde afin de bien caractériser la probabilité d’obtenir un montant élevé. Le modèle de sévérité utilisé par Frees et Valdez est une distribution bêta généralisée de deuxième type (GB2). Cette distribution à quatre paramètres possède une grande flexibilité et permet généralement d’obtenir un ajustement adéquat lors de la modélisation. Toutefois, comme plusieurs covariables sont utilisées à l’intérieur des modèles, il devient périlleux d’ajuster cette distribution aux données. Le livre de Klugman et al. (1998) cite plusieurs autres distributions applicables à la modélisation d’un montant de réclamation. Le tableau 4.1 résume toutes les distributions Chapitre 4. Structure des modèles 36 que nous avons considérées et permet de constater que la majorité des distributions utilisées en modélisation de la sévérité sont des cas particuliers de la bêta généralisée de deuxième type ou de la gamma généralisée. Tableau 4.1 – Distributions considérés pour l’ajustement des modèles de sévérité Nombre de Particularité paramètres Distribution Bêta généralisée Type II (GB2) Gamma généralisée (GG) Pareto généralisée Burr Burr inverse Lognormale Gaussienne inverse Pareto Pareto inverse Loglogistique Gamma Weibull Paralogistique Paralogistique inverse 4 3 3 3 3 2 2 2 2 2 2 2 2 2 GB2 où γ = 1 GB2 où τ = 1 GB2 où α = 1 GB2 où γ = τ = 1 GB2 où γ = α = 1 GB2 où τ = α = 1 GG où τ = 1 GG où α = 1 GB2 où α = γ τ = 1 GB2 où τ = γ α = 1 Les expressions théoriques de la densité de ces deux distributions pour un montant de sévérité x sont : Bêta généralisée de deuxième type : fX (x) = γ (x/θ)γτ α+τ , xB (α, τ ) [1 + (x/θ)γ ] x ≥ 0, où θ est un paramètre d’échelle, γ, α et τ sont des paramètres de forme et B (α, τ ) = ∫ Γ(α)Γ(τ )/Γ(α + τ ) où Γ(y) = 0∞ sy−1 e−s ds. Gamma généralisée : fX (x) = τ uα e−u , xΓ(α) u = (x/θ)τ , x ≥ 0, où θ est un paramètre d’échelle et α et τ sont des paramètres de forme. Chapitre 4. Structure des modèles 37 La liste comprend aussi deux autres types de distributions qui peuvent être utilisées à l’occasion pour modéliser la valeur d’une indemnité. Ces deux distributions sont la gaussienne inverse ainsi que la lognormale. Les densités de ces deux distributions sont : Gaussienne inverse : ( fX (x) = θ 2πx3 )1/2 } { θz 2 exp − , 2x z= x−µ , x ≥ 0, µ où µ est la moyenne et θ est un paramètre de forme. Lognormale : fX (x) = 1 √ xσ 2π ( ) exp −z 2 /2 , z= log x − µ , x ≥ 0, σ où µ et σ sont respectivement la moyenne et l’écart-type du logarithme de x. Afin de choisir la distribution adéquate, des histogrammes ont été produits pour les trois types de sévérité. Ces histogrammes ont été placés en annexe. L’histogramme des montants de sévérité pour dommages matériels (DOMM), ainsi que celui des montants des blessures subies par l’assuré (AB), présentent une queue lourde à droite, ce qui implique une plus forte probabilité pour les montants élevés qu’une distribution normale. Pour les trois derniers histogrammes placés en annexe, aucune tendance particulière vers une des distributions de la liste n’a été remarquée. Il est à noter que ces histogrammes illustrent le fait que plusieurs valeurs ont été écrêtées pour les blessures subies par l’assuré et une tierce personne. En tenant compte de ces remarques, le choix de la distribution a été fait à partir de la valeur des indemnités des garanties DOMM et AB. De façon plus spécifique, chaque distribution a été ajustée aux données de deux façons différentes. D’une part, chaque distribution a été ajustée en utilisant simplement une valeur estimée pour chaque paramètre. Cette première méthode a permis de reconnaître les distributions dont l’ajustement aux données était adéquat avant l’utilisation de covariables. Évidemment, les distributions à trois et quatre paramètres se sont révélées particulièrement performantes en comparaison aux distributions de deux paramètres et moins. Toutefois, afin de s’assurer de la faisabilité de l’implantation du modèle pour une utilisation régulière par la compagnie d’assurances, il fallait s’assurer que la distribution autorise l’emploi de plusieurs covariables pour au moins un paramètre. En effet, plusieurs covariables peuvent être utilisées lors de l’ajustement des différents paramètres d’une distribution, et ce afin d’obtenir une estimation propre à chaque Chapitre 4. Structure des modèles 38 groupe de personnes de l’échantillon à l’étude. Par exemple, si on s’intéresse à la covariable « sexe » dans un modèle gamma à deux paramètres (localisation, forme), le sexe pourra alors avoir un effet sur la moyenne estimée, ainsi que la forme de la loi. La distribution pour les hommes pourrait être une loi gamma dont la moyenne estimée des montants réclamés serait de 3 500 $ avec un écart-type de 300 $, alors que pour les femmes, cette loi pourrait avoir une moyenne de 3 300 $ et un écart-type de 500 $. Pour les distributions à trois et quatre paramètres, il pourrait y avoir un effet des covariables sur chacun des paramètres. Frees et Valdez (2008) suggèrent qu’il n’est pas nécessaire de modéliser l’effet des covariables à la fois sur les paramètres de forme et d’échelle. Suite à quelques essais infructueux avec la librairie VGAM créée par Yee (2010) dans R, nous avons limité l’utilisation des covariables aux paramètres de localisation. D’un point de vue pratique, il est peu probable qu’une distribution change complètement de forme selon une covariable ; cependant, sa moyenne risque d’être affectée. De plus, les compagnies sont principalement intéressées à connaître les groupes de personnes ayant une moyenne plus élevée afin de corriger les primes en conséquence. Donc, pour le choix de la distribution, la deuxième méthode appliquée a consisté à lier les covariables du tableau 3.1 aux paramètres de localisation pour ainsi choisir celle qui s’ajuste le mieux aux données de l’Ontario. Il est raisonnable de penser que si une distribution s’ajuste bien avec ces covariables, elle sera en mesure de le faire lorsque toutes les covariables seront utilisées ; cette hypothèse a été faite dans la suite. Différents critères ont été utilisés afin de sélectionner la distribution adéquate pour le jeu de données. Les critères d’information d’Akaike (AIC) (Akaike, 1973) et d’information bayésien (BIC) (Schwarz, 1978) ont notamment été employés à cette fin. De plus, comme plusieurs lois de la liste sont emboîtées, un test du rapport des vraisemblances a pu être effectué afin de comparer deux distributions qui sont dans cette situation (Casella et Berger, 2002). Définissons la vraisemblance du modèle, L(θ|x) = f (x|θ) = n ∏ f (xi |θ), i=1 calculée pour chaque distribution ajustée. Le rapport des vraisemblances est donné par : λ(x) = supθ0 L(θ|x) , supθ L(θ|x) où θ0 est un ensemble de paramètres emboîté dans celui défini par θ. D’un point de vue pratique, il est généralement plus commode d’utiliser la statistique du rapport des Chapitre 4. Structure des modèles 39 vraisemblances D définie de cette façon : ( ) L(θ|x, θ0 ) , D = −2 ln L(θ|x, θ) où L(θ|x) représente la vraisemblance du modèle selon l’ensemble de paramètres utilisé. En effet, D suit une loi asymptotique du khi-deux à ℓ degrés de liberté sous certaines conditions de régularité. Le nombre ℓ de degrés de liberté est égal à la différence entre les nombres de paramètres libres des deux modèles comparés. Pour départager les modèles, on a de plus calculé leur erreur de prévision respective. Cela a été fait à l’aide d’une méthode de validation croisée fondée sur l’algorithme utilisé pour obtenir les résidus PRESS (Draper et Smith, 1998). Contrairement à l’algorithme des résidus PRESS qui consiste à retirer une observation à la fois, la base de données a été séparée en dix groupes de 4 951 personnes. L’algorithme consiste alors à retirer l’un de ces dix groupes et à ajuster le modèle sur les neuf autres groupes afin de prédire la valeur des montants du groupe retiré. Cette procédure est répétée dix fois afin d’obtenir des valeurs prédites pour les dix groupes. Cette méthode s’avère une alternative intéressante aux calculs des résidus PRESS, car l’ajustement du modèle est répété seulement dix fois, contrairement à 49 509 fois pour les résidus PRESS. Le tableau C.1 affiche les résultats obtenus pour l’ajustement de chaque distribution par maximum de vraisemblance pour le modèle de sévérité des dommages matériels, covariables incluses. On retrouve la vraisemblance du modèle, ainsi que les statistiques AIC et BIC qui permettent de comparer les distributions entre elles. Les meilleurs modèles sont ceux qui présentent une vraisemblance élevée et de faibles valeurs des statistiques AIC et BIC. La distribution présentant toutes ces caractéristiques parmi les lois testées est la lognormale. Ce résultat est surprenant, car Frees et Valdez utilisaient le modèle de la bêta généralisée de deuxième type dû à sa grande flexibilité. Toutefois, il semble que l’utilisation d’un modèle à deux paramètres soit ici suffisant pour obtenir un bon ajustement. Le tableau C.2 affiche les mêmes résultats, mais pour l’ajustement de chaque distribution pour le modèle de sévérité des blessures corporelles de l’assuré. Encore une fois, la lognormale s’avère très performante comparativement aux autres. La meilleure distribution dans ce cas-ci a été la gamma généralisée, mais des problèmes de maximisation numérique nous ont empêché de l’ajuster au modèle des dommages matériels. En dernière analyse, cette distribution n’a donc pas été retenue. Comme la distribution lognormale fournit les meilleurs résultats, c’est elle qui a été utilisée. Chapitre 4. Structure des modèles 40 Problème d’implantation Lors de l’implantation du modèle, nous nous sommes heurtés à diverses difficultés d’ordre pratique. En particulier, le logiciel utilisé par la compagnie d’assurances, ne permet l’ajustement que d’un nombre limité de distributions, notamment pour le calcul des primes lors de la tarification. Vu le nombre limité de lois offerte par le logiciel, nous avons dû opter pour une distribution gamma à deux paramètres. La vraisemblance pour ce modèle est moins élevée que celle fondée sur la loi lognormale. Par contre, du point de vue prédictif, le modèle gamma performe légèrement mieux que la loi lognormale ; sa somme de carrés résiduelle obtenue par la validation croisée est plus faible pour le modèle des dommages matériels, bien que l’inverse se produise pour le modèle des blessures corporelles. De plus, la figure A.9 suggère que la densité de la distribution empirique gamma s’ajuste bien aux données observées. Le modèle gamma a donc été choisi pour l’ensemble des modèles de sévérité dans la suite. 4.1.2 Loi multinomiale Dans la structure du modèle hybride, un modèle de fréquence avec une variable réponse à quatre modalités est nécessaire. L’objectif est de modéliser la probabilité qu’un assuré réclame un montant pour ses blessures corporelles (garantie AB), un montant pour les blessures corporelles subies par autrui (garantie BI), un montant pour ces deux types de garanties, ou ne réclame rien pour ces deux garanties. Comme ces modalités ne peuvent pas se classer dans un ordre particulier, la variable réponse ici n’est pas ordinale. L’utilisation d’un modèle multinomial s’avère donc nécessaire. Le modèle est ajusté sur toutes les observations se conformant aux critères mentionnés à la section 3.4, soit 49 509 observations au total. La distribution multinomiale est une généralisation de la loi binomiale qui est utilisée lorsqu’une variable aléatoire peut prendre plus de deux valeurs. Le modèle multinomial conditionnel, introduit par McFadden (1974), permet l’ajout de covariables pour chaque modalité, ce qui facilite l’identification des groupes de personnes les plus susceptibles de réclamer un montant pour certaines garanties. De plus, il s’agit d’un modèle multinomial conditionnel au montant de sévérité des dommages matériels. Chapitre 4. Structure des modèles 41 Soit πij = Pr{Mi = j}, j = 1, . . . , 4, la probabilité que la demande d’indemnisation i soit de type j. Les types sont définis de cette façon : 1. Dommages matériels au véhicule assuré (DOMM) seulement ; 2. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à la personne assurée (AB) ; 3. Dommages matériels au véhicule assuré (DOMM) et blessures corporelles à une tierce personne (BI) ; 4. Dommages matériels au véhicule assuré (DOMM), blessures corporelles à la personne assurée (AB) et à une tierce personne (TPL-BI). Dans un modèle multinomial, les différentes modalités sont supposées mutuellement exclusives et exhaustives, ce qui signifie qu’une observation ne peut appartenir à deux ∑ modalités différentes. Par conséquent, on a 4j=1 πij = 1. La fonction de probabilité du modèle multinomial est : ( Pr{Yi1 = yi1 , . . . , Yi4 = yi4 |xi , Ci,DOM M } = ni yi1 , . . . , yi4 ) yi4 yi1 , × · · · × πi4 πi1 Yij = indicatrice que l’observation i appartient à la modalité j, xi = vecteur des covariables de l’assuré i, Ci,DOM M = montant des dommages matériels du véhicule assuré pour l’observation i. Comme dans notre cas, il n’y a qu’une seule personne par observation, une des modalités sera égale à 1, tandis que les autres seront égales à 0. Lors de l’ajustement du modèle multinomial, une des quatre modalités doit être utilisée à titre de référence. La modalité de référence utilisée ici est celle où il y a une réclamation pour les dommages matériels seulement (j = 1). D’un point de vue pratique, il s’agit de la probabilité la moins intéressante, car elle n’implique aucune autre réclamation. Dans un modèle multinomial, une fonction de lien est utilisée afin de transformer les prédicteurs linéaires en une valeur continue bornée entre 0 et 1. On dispose d’une équation linéaire pour chaque probabilité à estimer, sauf pour la modalité de référence. Les covariables qui ont un effet significatif sur la probabilité d’une modalité sont insérées dans l’équation linéaire appropriée. Si la covariable affecte chacune des probabilités, elle sera alors incluse dans toutes les équations linéaires du modèle. La fonction de lien « logit » est la plus utilisée en pratique. On suppose que le logarithme du rapport de Chapitre 4. Structure des modèles 42 probabilité de chaque modalité avec la probabilité de la modalité de référence suit un modèle linéaire de la forme : ( ) πij ηij = log = αj + x ⊤ i βj , πi1 où αj est une constante et βj est le vecteur de p coefficients à estimer. On définit alors la vraisemblance du modèle multinomial par : L{α, β|xi , Ci,DOM M } = = ≈ n=49 ∏509 i=1 n=49 ∏509 i=1 n=49 ∏509 ( ni yi1 , . . . , yi4 ) yi1 yi4 πi1 × · · · × πi4 yi1 yi4 πi1 × · · · × πi4 [f (α1 , β1 )]yi1 × · · · × [f (α4 , β4 )]yi4 i=1 Les matrices α et β correspondent aux matrices à j colonnes et à p lignes des constantes et des coefficients à estimer. Afin d’inclure les covariables au modèle, les probabilités πij sont définies comme étant des fonctions f (αj , βj ) ; l’expression exacte pour πij peut être obtenue en résolvant (4.1)-(4.3) ci-dessous. Le modèle multinomial est ajusté par la méthode du maximum de vraisemblance. Le système d’équations des prédicteurs linéaires contient autant d’égalités que le nombre de modalités sans la modalité de référence. Pour la modalité de référence, le vecteur des coefficients et la constante sont égaux à zéro. Ces équations sont les suivantes : ( ηi2 = ηi,AB ηi3 = ηi,BI ηi4 = ηi,AB−BI ) πi,AB = log = αAB + x⊤ i βAB , π ( i1 ) πi,BI = log = αBI + x⊤ i βBI , πi1 ( ) πi,AB−BI = log = αAB−BI + x⊤ i βAB−BI . πi1 (4.1) (4.2) (4.3) Afin de trouver les probabilités prédites du modèle, il suffit d’isoler la valeur πij , où j = 2, 3, 4 selon les trois équations ci-haut. Cela nous mène à l’équation suivante pour la probabilité prédite de la présence de la modalité j pour la police i : πij = exp (ηij ) , 1 + j=2 exp (ηij ) ∑4 où j = 2, 3, 4. Chapitre 4. Structure des modèles 43 Pour la modalité de référence, l’équation est πi1 = 1+ ∑4 1 j=2 exp (ηij ) . De plus, une méthode de validation croisée basée sur l’algorithme présentée à la section 4.1.1 a été utilisée. Puisque la variable réponse est catégorique, c’est l’écart entre les probabilités prévues et les fréquences relatives observées qui a été utilisé à titre de comparaison. Avec le logiciel R, plusieurs librairies fournissent des outils qui permettent d’ajuster un tel modèle. La librairie VGAM de Yee (2010) a été de nouveau utilisée, compte tenu de sa commodité. Critique envers le modèle multinomiale logistique Plusieurs auteurs critiquent le choix d’un modèle multinomial logistique pour une variable nominale. Ces auteurs suggèrent qu’il peut y avoir des problèmes pour l’indépendance entre chacune des alternatives dans un modèle où les prédicteurs linéaires dépendent de covariables qui varient entre chaque observation, mais pas entre chaque alternative. En fait, on peut concevoir des scénarios où le ratio de la probabilité de présence de la modalité j avec la modalité de référence J est corrélée avec le ratio formé par la probabilité de présence d’une autre modalité k où k ̸= j. Si cela se produit, le modèle multinomial logistique est alors inapproprié. Dans ce cas, la fonction de lien « probit » constitue une alternative idéale au lien « logit ». Pour plus de détails, voir l’article de Young et al. (2009). Les deux fonctions de lien, « logit » et « probit », ont été testées sur nos données afin de s’assurer que le modèle multinomial logistique était approprié. Comme les valeurs prédites des deux modèles étaient sensiblement les mêmes, la fonction de lien « logit » a été conservée. 4.1.3 Sélection des covariables Une fois les modèles de sévérité et de fréquence choisis, on procède à la sélection des covariables. Le tableau 3.1 présente les dix principales covariables qui ont été utilisées pour l’élaboration des modèles préliminaires. Toutefois, dans le cadre de ce projet, la compagnie d’assurances était intéressée par une trentaine de covariables susceptibles Chapitre 4. Structure des modèles 44 d’influencer de façon notable les montants de sévérité et la fréquence. Ces nouvelles covariables correspondent à d’autres caractéristiques de l’assuré, comme le territoire où il vit, le type d’emploi, sa cote de crédit, etc. Une covariable comme le territoire peut s’avérer difficile à utiliser dans un modèle statistique parce qu’il existe une multitude de valeurs possibles. Pour toutes les covariables présentant ce défaut, les actuaires de la compagnie d’assurances ont établi des cotes pour caractériser les valeurs possibles à partir de modèles déjà établis. Cela permet d’obtenir un maximum de dix valeurs pour chaque covariable, où chaque valeur correspond à un groupe aussi homogène que possible. Par exemple, ces valeurs peuvent caractériser les gens se trouvant près de grands centres urbains comme Toronto ou habitant à la campagne éloignée. Comme la majorité des covariables sont catégoriques, un grand nombre de paramètres devait être estimé pour chaque modèle. Afin de réduire la dimension du modèle, des regroupements à l’intérieur de chaque covariable ont été effectués. Par exemple, il est fort possible que l’effet de la covariable « âge » ne soit pas linéaire. Il faut alors traiter cette variable comme catégorique. Les clients ont ainsi été séparés en quatre catégories distinctes : 22 ans et moins, 23 à 29 ans, 30 à 54 ans et 55 ans et plus. Pour chaque covariable, ce type de regroupement a été élaboré à partir des modèles établis par la compagnie d’assurances, en égard aux valeurs observées dans la base de données et des avis de l’équipe de la compagnie d’assurances. Ces regroupements ont été vérifiés à chaque étape de la sélection de covariables afin de s’assurer que la présence de groupes non-homogènes au sein d’un même regroupement n’ait pas d’influence indue sur les procédures de sélection. Méthodes utilisées Comme on disposait au départ d’une trentaine de covariables, certaines méthodes algorithmiques de sélection de covariables ont dû être employées. La procédure pas-à-pas est probablement la technique la plus souvent employée à cette fin. Elle fut introduite par Efroymson (1960), mais on peut retrouver une multitude d’applications et d’articles traitant du sujet ; voir entre autres Draper et Smith (1998) et Hocking (1976). Cette méthode consiste à ajouter les variables une par une si elles sont significatives à un seuil déterminé. Après l’ajout de chaque variable, un test est effectué afin de s’assurer que les variables déjà présentes dans le modèle sont toujours significatives. Une autre méthode que nous avons employée est le « Bayesian Model Averaging » (BMA) qui date du milieu des années 1990 ; voir entre autres les premières utilisations de cette méthode dans les travaux de Madigan et Raftery (1994) et Draper (1995). Cette procédure est populaire dans plusieurs disciplines, telles l’économie, la biologie, Chapitre 4. Structure des modèles 45 la santé, etc. Plus récemment, l’article de Montgomery et Nyhan (2010) décrit de façon détaillée les derniers avancements de cette méthode et ses applications. Comme il y a un total de q ≈ 230 sous-modèles possibles, une certaine incertitude plane quant au choix du modèle approprié dans l’espace M = [M1 , . . . , Mq ]. Le but de cette méthode est d’inclure directement l’incertitude liée au choix du modèle pour ensuite effectuer les inférences adéquates. Cette méthode diffère de la procédure pas-à-pas par le fait qu’elle permet d’obtenir une liste des modèles les plus probables, contrairement à un seul modèle suggéré. La technique BMA conduit alors un modèle final qui s’exprime comme une moyenne des différents sous-modèles, pondérés par leur probabilité a posteriori. Dans notre projet, le BMA a été utilisé afin d’estimer la probabilité a posteriori que le sous-modèle Mk soit le bon et, par suite, la probabilité d’inclusion de chacune des covariables dans le modèle final. La méthode BMA débute par l’assignation de lois a priori sur chaque paramètre du modèle β, les paramètres de la distribution gamma α et θ ainsi que tous les sousmodèles Mk . On suppose que chaque sous-modèle Mk est le vrai avec probabilité a priori π (Mk ), alors que les paramètres du modèle proviennent des distributions conditionnelles α, θ|Mk ∼ π (α, θ|Mk ) et βω |α, θ, Mk ∼ π (βω |α, θ, Mk ) où Ω = (ω1 , . . . , ωp ) représente le vecteur d’incatrices signalant la présence ou l’absence de chaque covariable dans le modèle Mk . Les lois a priori utilisées sont non-informatives, de façon à ne pas prioriser certains sous-modèles. On peut ensuite écrire la distribution marginale des données sachant le sous-modèle Mk de cette façon : p(Y |Mk ) = ∫ ∫ ∫ p(Y |βω α, θ, Mk )π(βω |α, θ, Mk )π(α, θ|Mk )dβω dαdθ. La probabilité a posteriori que le sous-modèle Mk est le bon vaut alors : p(Y |Mk )π(Mk ) , p(Mk |Y ) = ∑q k=1 p(Y |Mk )π(Mk ) ce qui facilite le repérage des sous-modèles les plus probables. Étant donné une covariable, on additionne les probabilités a posteriori de chaque sous-modèle Mk dans lequel elle se retrouve : P (Covariable i soit sélectionnée) = q ∑ k=1 p(Mk |Y )ωi . Chapitre 4. Structure des modèles 46 Lorsque cette probabilité est proche de 1, on peut conclure que la covariable en question est nécessaire dans le modèle. Dans le cas contraire, la variable est alors rejetée. Bien que dans notre cas, il y ait 230 sous-modèles possibles, le logiciel R a pu produire très rapidement une liste des sous-modèles les plus probables, ainsi que la probabilité a posteriori de ces sous-modèles. La librairie BMA (Raftery et al., 2010) a été utilisée pour ce faire ; cette librairie permet en outre de connaître automatiquement la probabilité pour chaque covariable d’être incluse dans le sous-modèle choisi. Suite aux résultats de ces deux procédures, pas-à-pas et BMA, et d’un consensus avec les actuaires participant au projet, un sous-ensemble de covariables probables pour chaque modèle, sévérité et fréquence, a été sélectionné. Afin de compléter la sélection des covariables, les statistiques AIC et BIC ont été utilisées, ainsi qu’une méthode de validation croisée qui permet de comparer les sous-modèles les plus probables (voir section 4.1.1 pour plus de détails sur ces méthodes). De plus, une analyse graphique des valeurs observées et prédites de la variable endogène pour chaque covariable a été effectuée afin de valider le choix du modèle. Cette dernière analyse a aussi permis de corriger certains regroupements effectués à l’intérieur de chaque covariable afin d’améliorer les valeurs prédites. 4.1.4 Utilisation du modèle hybride dans la pratique actuarielle Cette structure de modèle peut s’avérer utile pour plusieurs services d’une compagnie d’assurances. Tout d’abord, le département en charge de la tarification pourra s’intéresser à cette structure de modèle hybride puisque les caractéristiques correspondant au profil de l’assuré et du véhicule sont utilisées. Cela permet de cibler les personnes qui sont à risque de réclamer des montants élevés et d’ajuster les primes en conséquence. Pour le département en charge de l’indemnisation, il s’agit tout simplement de modifier certaines composantes afin d’obtenir une structure qui peut s’avérer utile. La différence majeure avec le modèle de tarification est qu’on considère qu’il s’est produit un accident et que l’assureur est en possession de certaines informations qui peuvent être considérées pour prédire la suite des évènements. Cette structure de modèle est donc pertinente pour trois types d’applications : Tarification, Tarification FSCO et Indemnisation. La sélection des covariables a été effectuée pour chaque type d’application puisque les covariables disponibles diffèrent Chapitre 4. Structure des modèles 47 d’un cas à l’autre. Modèle de tarification Un modèle de tarification permet d’établir les primes qu’un client doit payer afin d’être couvert par la compagnie d’assurances. Le modèle de tarification ne peut utiliser que les informations de la personne et du véhicule assurés. Certaines caractéristiques de ce client et de la voiture qu’il conduit peuvent contribuer à augmenter ou diminuer sa prime. La structure de modèle hybride présentée à la section 4.1 permet d’établir les groupes de personnes qui diffèrent de la population sous les aspects suivants : – réclamer un montant de dommages matériels plus élevé que la moyenne ; – avoir une probabilité plus élevée de réclamer un montant pour les blessures corporelles de l’assuré ; – avoir une probabilité plus élevée de réclamer un montant pour les blessures corporelles à autrui ; – réclamer un montant pour les blessures corporelles à l’assuré plus élevé que la moyenne ; – réclamer un montant pour les blessures corporelles à autrui plus élevé que la moyenne. Le modèle permet aussi de cibler les groupes de personnes qui réclament généralement moins que la population. Les assureurs sont alors intéressés à attirer ces groupes de personnes, car ils coûtent généralement moins cher à assurer. Comme il s’agit d’un modèle de tarification, l’information recueillie sur les montants de sévérité de dommages matériels ne peut pas servir pour les modèles subséquents. Pour le modèle multinomial, ainsi que les modèles de sévérité AB et BI, ce sont les valeurs du montant de dommages matériels qui sont prédites par le premier modèle de la structure qui sont utilisées comme covariables. Modèle de tarification FSCO Le modèle de tarification FSCO est du même type que celui utilisé précédemment pour la tarification, sauf pour la sélection des covariables employée dans le modèle. En Ontario, la législation interdit aux compagnies d’assurances d’utiliser certaines informations liées aux clients dans la tarification qui est proposée. Par exemple, il est interdit Chapitre 4. Structure des modèles 48 d’utiliser la cote de crédit comme covariable dans les modèles de tarification. Afin de remédier à la situation, la sélection de covariables du modèle de tarification FSCO s’est effectuée sans les covariables correspondant à ces informations dont l’utilisation est jugée illégale en Ontario. Modèle d’indemnisation Le modèle d’indemnisation est utilisé dans un tout autre contexte que les modèles de tarification. Pour les modèles d’indemnisation, on considère qu’un accident s’est produit pour l’assuré et l’assureur utilise les informations disponibles à ce moment pour tenter de prédire la suite des évènements. Par exemple, un travailleur de 33 ans a un accident grave avec une Toyota Corolla 2009. Il a réclamé un montant 3 600 $ pour les dommages matériels de son véhicule. L’assureur sera alors intéressé à la probabilité que cet assuré effectue une réclamation pour des blessures corporelles à lui-même ou à autrui, ainsi que les montants de ces réclamations sachant ces dernières informations. Parmi les informations qui sont ajoutées au modèle, on dénote : – la gravité de l’accident classée en 3 catégories : Faible, Moyen, Grave ; – le pourcentage de responsabilité de l’assuré dans l’accident : Aucune responsabilité, Responsabilité partielle ou Responsabilité totale ; – l’indicatrice de perte totale du véhicule ; – la saison pendant laquelle l’accident s’est produit. La structure de modèle hybride permet d’effectuer des prévisions qui utilisent ces dernières informations afin de permettre à l’assureur de mettre en réserve les fonds nécessaires au remboursement des futures réclamations. Pour le modèle de sévérité des dommages matériels, des covariables supplémentaires ont été ajoutées afin de quantifier l’information détenue par l’assureur. Lorsque l’accident se produit, l’assureur est en mesure de déterminer s’il s’agit d’un accident grave, ainsi que de la responsabilité de l’assuré, etc. Ces informations sont ajoutées aux différents modèles afin d’en améliorer la prévision. Le modèle multinomial et les modèles de sévérité pour les blessures corporelles (AB et TPL-BI) sont conditionnels à la sévérité des dommages matériels de l’accident. Dans le cas d’un modèle d’indemnisation, on suppose que l’assureur connaît le montant réclamé pour les dommages matériels du véhicule assuré. Ces modèles utilisent donc la sévérité des dommages matériels qui est observée comme covariable, contrairement aux modèles de tarification qui utilisent plutôt la sévérité prédite des dommages matériels. Chapitre 4. Structure des modèles 4.2 49 Structure hiérarchique Cette structure est légèrement différente de celle proposée à la section 4.1. La structure hybride était dérivée de celle proposée par Frees et Valdez, alors que la structure hiérarchique a été construite afin de représenter la suite chronologique des évènements dans la réalité. Lorsqu’un accident se produit, l’assureur est très rapidement informé de sa nature, de sa gravité, de la responsabilité de l’assuré, etc. Par la suite, les montants de réclamation arrivent souvent chez l’assureur dans un ordre distinct : dommages matériels au véhicule assuré, blessures corporelles à la personne assurée et blessures corporelles à autrui. Cette chronologie est expliquée en détail à la section 3.1.2. Comme les évènements se produisent généralement dans cet ordre, la structure hiérarchique a été construite afin d’utiliser le plus d’information disponible à chaque étape. La structure hiérarchique comprend cinq étapes, telles que présentées à la figure 4.2. La première étape, qui consiste au modèle de sévérité des dommages matériels, est exactement la même que celle du modèle hybride. Toutefois, les étapes subséquentes sont différentes. Tout d’abord, la deuxième étape consiste en un modèle logistique qui établit la probabilité que l’assuré effectue une réclamation pour ses blessures corporelles sachant l’indemnité versée pour les dommages matériels. Suite à l’étape 2, si l’assuré procède à une demande d’indemnisation pour ses blessures corporelles, à l’étape 3, un modèle de sévérité permet de prédire ce montant sachant le montant réclamé pour les dommages matériels. À l’étape 4, deux modèles logistiques conditionnels sont présentés. Les deux modèles logistiques servent à prédire la présence d’une réclamation pour les dommages corporels subis par autrui. Le premier sachant qu’il y a eu une réclamation pour les blessures corporelles de l’assuré, ainsi que le montant de cette réclamation, et le deuxième sachant que l’assuré n’a pas fait de réclamation pour ses blessures corporelles. Il s’ensuit alors, à l’étape 5, deux modèles de sévérité conditionnels pour les blessures subies par autrui. Ces deux derniers modèles utilisent aussi toute l’information connue par l’assureur aux étapes précédentes. La majorité des éléments qui ont été utilisés pour le modèle hybride ont été réutilisés pour le modèle hiérarchique. Le choix des modèles de sévérité a donc été conservé. De plus, la sélection des covariables est basée sur les mêmes méthodes que celles présentées à la section 4.1.3. La seule différence majeure qui intervient entre les deux types de structures est l’utilisation de trois modèles logistiques conditionnels comparativement à un modèle multinomial conditionnel. Chapitre 4. Structure des modèles 50 Figure 4.2 – Structure du modèle hiérarchique Modèle Sévérité DOMM ↓ Modèle Logistique Présence de AB sachant la sévérité DOMM ↙ ↘ AB présent AB absent ↓ ↓ Modèle Sévérité AB Aucun modèle ↓ ↓ Modèle Logistique Présence de BI sachant la sévérité de DOMM, et la présence et la sévérité de AB ↙ Modèle Logistique Présence de BI sachant la sévérité de DOMM, et l’absence de AB ↘ ↙ BI présent BI absent BI présent BI absent ↓ ↓ ↓ ↓ Modèle Sévérité BI sachant la sévérité de DOMM et AB Aucun modèle BI Modèle Sévérité BI sachant la sévérité, mais l’absence de AB Aucun modèle BI 4.2.1 ↘ Régression logistique La régression logistique est un cas spécial du modèle multinomial dans lequel il y a seulement deux modalités possibles, soient la présence ou l’absence d’une réclamation pour une garantie donnée. La régression logistique est utilisée depuis quelques décennies afin de modéliser une variable réponse de type dichotomique. Cox et Snell (1989) ont étudié les distributions qui permettent de modéliser ce type de variable. Ils priorisent le modèle logistique pour deux raisons : sa simplicité d’utilisation et la facilité d’interprétation de ses coefficients. Le livre de Hosmer et Lemeshow (2000) illustre bien la théorie, les outils comme la courbe ROC qui est utilisée dans ce projet, ainsi que les différentes applications du modèle logistique. La fonction de lien canonique qui est utilisée pour ce modèle linéaire généralisé est le lien « logit », qui a également été employé pour la multinomiale. Définissons Chapitre 4. Structure des modèles 51 πi,AB et πi,BI , qui sont respectivement la probabilité que l’observation i contienne une réclamation pour la garantie AB et la probabilité que l’observation i contienne une réclamation pour la garantie BI. Chaque modèle logistique est conditionnel au montant de dommages matériels qui est observé pour l’observation i. Les probabilités modélisées par les trois modèles logistiques sont définies ci-dessous. – modèle logistique pour la présence d’une réclamation pour les blessures corporelles de l’assuré : πi,AB |Ci,DOM M = P (Pi,AB = 1|Ci,DOM M , xi ) exp (β AB xi + θ AB Ci,DOM M ) = , 1 + exp (β AB xi + θ AB Ci,DOM M ) où πi,AB représente la probabilité d’un assuré de réclamer un montant pour ses blessures corporelles, β AB le vecteur des p paramètres pour AB, θ AB le paramètre affecté au montant des dommages matériels, xi le vecteur des p covariables de l’assuré i et Pi,AB l’indicatrice de la présence d’une réclamation AB ; – modèle logistique pour la présence d’une réclamation pour les blessures corporelles à autrui sachant qu’il y a une réclamation pour les blessures corporelles de l’assuré : πi,BI |Ci,DOM M , Ci,AB = P (Pi,BI = 1|Ci,DOM M , Ci,AB , xi ) exp (β BI xi + θ BI Ci,DOM M + τ BI Ci,AB ) , = 1 + exp (β BI xi + θ BI Ci,DOM M + τ BI Ci,AB ) où πi,BI représente la probabilité d’un assuré de réclamer un montant pour les blessures corporelles à autrui, β BI le vecteur des p paramètres pour BI, θ BI le paramètre affecté au montant des dommages matériels, τ BI le paramètre affecté au montant des blessures corporelles de l’assuré et Pi,BI l’indicatrice de la présence d’une réclamation BI ; – modèle logistique pour la présence d’une réclamation pour les blessures corporelles à autrui sachant qu’il n’y a pas de réclamation pour les blessures corporelles de l’assuré : πi,BII |Ci,DOM M , (Ci,AB = 0) = P (Pi,BII = 1|Ci,DOM M , (Ci,AB = 0), xi ) exp (β BII xi + θ BII Ci,DOM M ) = , 1 + exp (β BII xi + θ BII Ci,DOM M ) Chapitre 4. Structure des modèles 52 où πi,BII représente la probabilité d’un assuré de réclamer un montant pour les blessures corporelles à autrui, β BII le vecteur des paramètres pour BI, θ BII le paramètre affecté au montant des dommages matériels, et Pi,BI l’indicatrice de la présence d’une réclamation BI. Quant au modèle logistique pour la probabilité d’obtenir une réclamation pour la garantie AB, il est ajusté aux 49 509 observations contenues dans la base de données. Ce modèle est conditionnel au montant de dommages matériels qui a été réclamé pour cette observation. Dans le cas des deux modèles logistiques concernant la probabilité de réclamer pour la garantie BI, l’ajustement a été effectué sur des sous-échantillons de la population. Le premier modèle est ajusté sur les données provenant de l’échantillon des assurés qui ont réclamé un montant pour la garantie AB, alors que le deuxième modèle est ajusté à la population qui n’a pas réclamé de montant pour AB. Ces trois modèles ont été ajustés par la méthode du maximum de vraisemblance en procédant comme à la section 4.1.2 à l’aide de la fonction « glm » de la librairie de base du logiciel R. Sélection des covariables dans un modèle logistique La sélection des covariables a été effectuée selon les critères établis à la section 4.1.3. Toutefois, un critère supplémentaire propre à la régression logistique a été utilisé, soit l’aire sous la courbe ROC. La courbe ROC permet de comparer deux modèles logistiques, sans qu’un des deux modèles ne soit imbriqué dans l’autre. La courbe ROC peut donc être utilisée dans les cas où le test du rapport des vraisemblances ne s’applique pas. Le fonctionnement de la courbe ROC est le suivant : pour chaque valeur de u dans un sous-ensemble discret de [0,1], on effectue la procédure suivante. 1. Pour chaque individu i, poser Yi∗ = 1 si π̂i ≥ u et Yi∗ = 0 si π̂i < u. 2. Calculer ou , le taux de vrais positifs (le nombre de personnes pour lesquelles on a observé une réclamation et pour lesquelles Yi∗ = 1, divisé par le nombre de personnes pour lesquelles on a observé d’une réclamation) et au , le taux de faux positifs (le nombre de personnes pour lesquelles on n’a observé aucune réclamation et pour lesquelles Yi∗ = 1, divisé par le nombre de personnes pour lesquelles on n’a observé aucune réclamation). 3. Sur un graphique, on place un point ayant au comme abscisse et ou comme ordonnée. Une fois que tous les points sont placés, il faut les relier par des segments partant du point (0,0) et se terminant au point (1,1). Ceci forme la courbe ROC. La courbe Chapitre 4. Structure des modèles 53 ROC se trouve à l’intérieur du carré unité, dans l’espace se trouvant au-dessus de la droite à 45 degrés passant par les points (0,0) et (1,1). Ce qui permet de déterminer si le modèle est bon, au sens où il discrimine bien entre les deux valeurs possibles de la variable réponse, c’est l’aire qui se trouve sous la courbe ROC. Plus l’aire sous la courbe est élevée, meilleur est le modèle. Si l’aire est supérieure à 0.8, on considère généralement qu’on a affaire à un bon modèle, alors que si l’aire se trouve entre 0.5 et 0.7, le modèle est jugé mauvais. La figure C.1 illustre la courbe ROC obtenue pour le modèle logistique correspondant à la présence d’une réclamation pour la garantie AB. Dans ce cas-ci, le meilleur sous-modèle testé a une aire sous la courbe égale à 0.77, ce qui démontre que le modèle est bon, mais qu’il pourrait aussi être amélioré. Pour tous les autres sous-modèles, l’aire sous la courbe ROC obtenue est inférieure à 0.77. 4.2.2 Utilisation du modèle hiérarchique dans la pratique actuarielle La structure hiérarchique a été conçue pour refléter la chronologie qui se produit la majorité du temps suite à un accident d’automobile. Comme l’assureur reçoit de plus en plus d’informations sur cet accident dans les jours et les semaines qui suivent le sinistre, il s’avère utile de construire une structure de modèles correspondant à cette chronologie. La structure permet alors à l’assureur d’utiliser ces informations afin de renchérir les modèles en incluant directement les indemnités et autres caractéristiques observées afin de prédire la suite des évènements. Comme la structure hiérarchique a été construite à partir d’un point de vue d’indemnisation, il est alors plus difficile de concevoir une utilisation propre à la tarification. Toutefois, la structure pourrait être adaptée afin de répondre à ce besoin. Pour ce projet, seul l’aspect d’indemnisation a été étudié pour cette structure. Chapitre 5 Résultats des analyses Nous présentons maintenant les résultats des analyses discutées au chapitre 4. Comme les modèles peuvent contenir jusqu’à une trentaine de covariables, seul un résumé des résultats les plus importants sera présenté pour les deux types de structures proposées. À l’annexe D, on retrouve les tableaux comprenant une partie des covariables significatives pour chaque modèle. De plus, certains graphiques de valeurs prédites y sont reproduits. Une analyse de portefeuilles est effectuée au chapitre 6 afin de comparer les résultats de la structure hybride estimée par la méthode de vraisemblance maximale et par l’approche bayésienne, ainsi que les résultats de la structure hiérarchique estimée par la méthode de vraisemblance. Les valeurs prédites de ces modèles seront comparées aux valeurs observées afin d’évaluer la performance de prévision de chaque structure. Les valeurs prédites de chaque modèle correspondent à la moyenne prédite estimée pour l’assuré i. 5.1 Structure hybride La structure hybride établie à partir du modèle de Frees et Valdez (2008) est pertinente pour trois applications actuarielles. Des résultats partiels pour les modèles de tarification et d’indemnisation seront donnés. Les procédures utilisées pour le modèle de tarification FSCO étant les mêmes que celles du modèle de tarification, les résultats correspondants ne seront pas présentés. Chapitre 5. Résultats des analyses 55 Pour chaque application, on précise ci-dessous les coefficients obtenus pour le modèle de sévérité des dommages matériels, le modèle multinomial, ainsi que le modèle de sévérité des blessures corporelles subies par l’assuré. Il s’agit des trois modèles les plus importants de la structure. Les modèles de sévérité des blessures corporelles à autrui sont moins importants, puisque ces indemnités sont beaucoup plus volatiles que les autres montants de sévérité en raison de la définition même de la garantie. Ces indemnités sont davantage affectées par la tierce personne qui est blessée que par l’assuré lui-même. 5.1.1 Modèle de tarification Les modèles de tarification utilisent toutes les covariables qui sont relatives aux caractéristiques de l’assuré et de son véhicule. Pour chaque modèle ajusté, seules les covariables qui ont un effet significatif ont été conservées. Modèle de sévérité des dommages matériels Le modèle de sévérité des coûts moyens qui avait été choisi préalablement est le modèle gamma (voir 4.1.1). La paramétrisation qui a été sélectionnée pour ce modèle est de la forme : f (y|µ, k) = exp ( ) −ky y k−1 k k µ , µk Γ(k) où µ > 0 et k > 0. Les covariables sont donc utilisées pour le paramètre µ seulement, qui représente la moyenne de la distribution. Comme les deux paramètres du modèle doivent être positifs, une fonction de lien a été utilisée pour chaque paramètre. Cette fonction de lien est le logarithme du paramètre, qui est supposé égal à la combinaison linéaire entre les valeurs estimées des coefficients et les valeurs des covariables : log(µ̂) = β̂ ⊤ x, où β représente le vecteur des p coefficients de régression et x représente le vecteur des p covariables. Chapitre 5. Résultats des analyses 56 Avec cette paramétrisation, il est très facile de connaître la moyenne prédite des montants de sévérité pour chaque assuré. Il suffit de calculer la valeur prédite à partir de la combinaison linéaire des covariables pour le client concerné et des valeurs estimées des coefficients du modèle. Une fois cette valeur connue, on prend l’exponentielle pour obtenir la moyenne prévue des indemnités versées à ce client. Le tableau D.2 présente les valeurs estimées des coefficients pour le montant de sévérité des dommages matériels. Prenons l’exemple d’un client de 33 ans ayant sept années d’expérience et conduisant une Audi A4 2006 dont la valeur actuelle est de 12 000 $. Sachant ces informations, la moyenne prédite du montant réclamé pour les dommages matériels sera log(µ) = Intercept + age.30-69 + modelevehSmallLuxury + nap.8-15 + vehage·5 + prix.actuel·12000, log(µ) = 7.8350 − 0.0466 − 0.0751 − 0.0935 − 0.0180 · 5 + 0.000005799 · 12000, log(µ) = 7.599388, µ = exp(7.599388) = 1996.97 $. Évidemment, plusieurs autres informations seront connues lors de la souscription à la police d’assurance, ce qui permet à l’assureur d’obtenir un montant prévu qui est plus représentatif de la réalité. Pour les covariables catégoriques, une des modalités est utilisée à titre de référence, ce qui signifie que le coefficient de celle-ci est égal à zéro. Par exemple, pour l’âge, la modalité de référence représente les personnes de 22 ans et moins. Donc, le coefficient obtenu pour les autres modalités fait toujours référence au montant moyen réclamé par le groupe des personnes de 22 ans et moins. Pour le groupe des 30 à 69 ans, le coefficient obtenu est −0.0466. Un coefficient négatif signifie que le montant moyen réclamé par le groupe des 30 à 69 ans est inférieur à celui des 22 ans et moins, alors qu’un coefficient positif désignerait que ce montant est supérieur à celui des 22 ans et moins. Une autre caractéristique intéressante du modèle gamma avec un lien logarithmique est l’interprétation des coefficients. Reprenons l’exemple ci-haut avec l’âge de l’assuré. Comme il s’agit d’un lien logarithmique entre la variable réponse et la relation linéaire des paramètres, chaque coefficient peut alors être considéré comme un différentiel. Un différentiel représente la valeur qui multiplie le montant moyen estimé par rapport au groupe de référence. Par exemple, le différentiel obtenu pour le groupe d’âge des 30 à 69 ans est de e−0.0466 = 0.9545. Cela signifie que l’indemnité moyenne réclamée par les personnes de 30 à 69 ans s’élève à 95.45% du montant moyen réclamé par les personnes de 22 ans et moins pour les dommages matériels à leur véhicule. Chapitre 5. Résultats des analyses 57 log(µ) = Intercept + age.30-69 + modelevehSmallLuxury + nap.8-15 + vehage·5 + prix.actuel·12000, µ = e7.8350−0.0466−0.0751−0.0935−0.0180·5+0.000005799·12000 , µ = e7.8350 e−0.0466 e−0.0751 e−0.0935 e−0.0180·5 e0.000005799·12000 , µ = 2092.23 · e−0.0466 , µ = 2092.23 · 0.9545, µ = 1996.97 $. Un ordre peut être établi pour chaque covariable catégorique, considérant toutes les autres covariables fixées. La modalité ayant obtenu le coefficient le plus bas correspond au groupe dont la sévérité moyenne espérée en dommages matériels est la plus faible. Le tableau 5.1 permet de voir les coefficients obtenus pour chaque regroupement selon l’âge de l’assuré. C’est pour le groupe des 30-69 ans que la moyenne est la plus faible. En revanche, la moyenne est la plus élevée pour le groupe des 70 ans et plus. Tableau 5.1 – Coefficients estimés pour le modèle de sévérité des dommages matériels pour la covariable relative à l’âge du conducteur principal assuré Paramètre Valeur estimée age.22age.23-29 age.30-69 age.70+ 0 −0.0294 −0.0466 0.0857 Comme on peut le voir sur le graphique D.1, les moyennes observées et prévues selon l’âge de l’assuré sont très proches. L’ajustement est spécialement bon pour les personnes de 30 ans et plus ; ceci s’explique par une exposition plus élevée de cette catégorie d’âge dans le jeu de données. Le graphique D.2 illustre les différentiels obtenus par le modèle de tarification des dommages matériels au véhicule assuré pour l’âge de la personne assurée. On constate sans surprise que les montants réclamés pour les dommages matériels diminuent avec l’âge de l’assuré, sauf pour les personnes de 70 ans et plus. Pour les autres covariables de ce modèle, on remarque que le nombre d’années d’expérience de conduite a un effet significatif : le coût moyen de sévérité diminue lorsque l’expérience du conducteur augmente. Pour la catégorie de véhicules, les deux catégories qui obtiennent les montants moyens les plus élevés sont les VUS et berlines de luxe, Chapitre 5. Résultats des analyses 58 ainsi que les camionnettes. Ces catégories représentent les véhicules qui ont souvent une valeur d’achat très élevée, ce qui engendre généralement des coûts plus élevés lors d’une réparation. Pour ce qui est de l’année de réclamation, elle a été utilisée dans le modèle afin de contrôler l’effet de l’inflation et de l’augmentation des coûts au fil des années étudiées. Cette tendance est vérifiée par une augmentation graduelle du coefficient pendant les cinq années, sauf pour 2003 et 2004 où les coefficients obtenus sont sensiblement égaux. Modèle multinomial Pour le modèle multinomial, seuls les résultats pour les covariables de l’âge de l’assuré et de la catégorie du véhicule sont présentés dans le tableau D.3. Les critères de sélection des covariables n’ont permis de rejeter qu’un faible nombre de covariables. Pour chaque regroupement à l’intérieur des covariables, il y a trois coefficients à estimer : la probabilité de la présence d’une réclamation AB, la probabilité de la présence d’une réclamation BI, ainsi que la probabilité de la présence de ces deux garanties. Le modèle comprend donc plus de 300 coefficients à estimer. L’interprétation des coefficients du modèle multinomial s’avère plus difficile que celle des modèles de sévérité. Tout d’abord, les trois coefficients estimés par regroupement mesurent la différence entre le rapport des probabilités estimées avec la probabilité de la modalité de référence (seulement la garantie DOMM). Il y a un coefficient pour chaque regroupement d’une covariable afin de comparer le rapport des probabilités avec le même rapport calculé à partir du regroupement de référence. Reprenons l’exemple où l’âge de l’assuré est étudié. Le regroupement de référence est le groupe de 22 ans et moins. Si on s’intéresse au groupe des 23 à 29 ans, le coefficient obtenu pour la présence d’une réclamation AB est 0.4246, alors que le coefficient obtenu pour une réclamation BI est −0.5032. Pour le premier paramètre, comme il s’agit d’un coefficient positif, cela signifie que la cote de la probabilité d’avoir une réclamation AB par rapport à la probabilité de ne réclamer que des dommages matériels est plus élevée pour le groupe des 23 à 29 ans comparativement au groupe des 22 ans et moins. Pour le deuxième paramètre, comme il s’agit d’un coefficient négatif, c’est le groupe des 22 ans et moins qui obtient un rapport plus élevé entre la probabilité de réclamer la garantie BI et la probabilité de ne réclamer que des dommages matériels. Chapitre 5. Résultats des analyses Pour AB, on a 59 π23−29,AB π23−29,DOM M Pour BI, on a π23−29,BI π23−29,DOM M > < π22−,AB π22−,DOM M π22−,BI π22−,DOM M . . où π23−29,AB , π23−29,BI et π23−29,DOM M représentent respectivement les probabilités de la présence de chaque garantie pour le groupe des 23-29 ans et π22−,AB , π22−,BI et π22−,DOM M représentent respectivement les mêmes probabilités, mais pour le groupe des 22 ans et moins. L’interprétation des coefficients du modèle multinomial appelle à la prudence. Ces coefficients sont estimés en fonction du rapport des probabilités avec celle de la modalité de référence. Comme il y a plusieurs modalités qui entrent en jeu, la probabilité de la modalité de référence peut être influencée par l’une des autres valeurs possibles, ce qui a une conséquence directe sur l’estimation des coefficients. Le tableau 5.2 présente un exemple de cette influence. Tableau 5.2 – Variation des coefficients du modèle multinomial en considérant la probabilité de deux modalités fixées Paramètre Probabilité empirique 22 ans et moins Probabilité empirique 23 à 29 ans Rapport des probabilités 22 ans et moins Rapport des probabilités 23 à 29 ans Absence de AB et BI (ref) Présence de AB Présence de BI Présence de AB et BI 85% 10% 4% 1% 80% 10% 9% 1% X 0.1176 0.0471 0.0118 X 0.125 0.1125 0.0125 Signe du coefficient estimé X + + + On suppose que la probabilité de réclamer de la garantie AB et la probabilité de réclamer des garanties AB et BI comme étant fixées respectivement à 10% et à 1% pour les deux groupes d’âges. La seule probabilité qui varie entre les deux groupes est celle de réclamer de la garantie BI, qui subit une augmentation de 5%. Cette augmentation a pour effet de diminuer de 5% la probabilité qu’aucune réclamation ne soit faite pour AB et BI. Comme la probabilité de la modalité de référence a changé, le rapport de toutes les probabilités avec celle-ci est aussi changé. Donc, même pour les probabilités des modalités qui étaient considérées fixes, on observe des rapports plus élevés pour le groupe des 23 à 29 ans, comparativement au groupe des 22 ans et moins. Cela mène intuitivement à des coefficients qui seront positifs, même si la probabilité de réclamer du AB est la même pour les deux groupes. Chapitre 5. Résultats des analyses 60 Dans les résultats obtenus, les coefficients de certaines covariables suivent cette tendance, notamment l’âge de l’assuré. Les coefficients obtenus concernant la probabilité de réclamer pour les blessures corporelles de l’assuré (AB) augmentent pour chaque groupe d’âge (graphique D.4). Toutefois, si on observe le graphique D.3, on remarque que la probabilité observée de réclamer de la garantie AB diminue à partir de 30 ans. Ce graphique permet aussi de constater que le modèle multinomial s’ajuste bien aux valeurs observées. Modèle de sévérité des blessures corporelles de l’assuré Pour ce modèle, les résultats obtenus pour certaines covariables sont présentés dans le tableau D.4. Parmi les résultats les plus importants à constater, il y a l’âge de l’assuré qui s’avère très significatif. Les personnes de 30 à 69 ans, qui sont généralement mieux rémunérées que les autres groupes, réclament une indemnité AB de 36% supérieure au montant moyen réclamé par les personnes de 22 ans et moins. Autre résultat intéressant, les personnes mariées et divorcées réclament elles aussi une indemnité généralement plus élevée que les personnes veuves ou célibataires. Ces personnes ont généralement des enfants à charge qui peuvent occasionner des frais supplémentaires, comparativement aux groupes des veufs et célibataires. Finalement, un autre constat intéressant, c’est la valeur positive et significative du coefficient lié à l’âge du véhicule. Cela signifie que plus le véhicule est âgé, plus le montant réclamé pour les blessures corporelles de l’assuré est élevé. Cela est probablement lié aux progrès constants de l’industrie automobile en matière de sécurité des occupants d’un véhicule. 5.1.2 Modèle d’indemnisation Pour le modèle d’indemnisation, les résultats présentés dans ce mémoire sont les coefficients correspondants aux informations relatives à l’accident qui ont été ajoutées au modèle de tarification. Quelques-unes de ces covariables sont très significatives dans les différents modèles d’indemnisation. Modèle de sévérité des dommages matériels Tout d’abord, le tableau D.5 illustre quelques-unes des covariables significatives du modèle de sévérité des dommages matériels. Les deux covariables relatives à l’accident qui se sont avérées significatives dans le modèle sont l’indicatrice d’une perte totale Chapitre 5. Résultats des analyses 61 du véhicule, ainsi que le niveau de responsabilité de l’assuré dans l’accident. Lorsque le véhicule assuré est une perte totale, il sera forcément remplacé, ce qui implique des coûts supplémentaires pour l’assureur. Toutefois, la perte totale du véhicule n’implique pas nécessairement que le montant remboursé sera égal à la valeur du véhicule, puisqu’il peut y avoir des frais supplémentaires liés au remorquage, à la location d’un véhicule de remplacement, etc. Cette information a donc été utilisée à titre de covariable. La valeur obtenue pour ce coefficient est de 0.9824, ce qui signifie que le montant moyen estimé pour une perte totate est e0.9824 = 2.67 fois supérieur au montant moyen estimé pour une perte partielle. L’autre covariable importante de ce modèle est le niveau de responsabilité de l’assuré dans l’accident. Cette covariable a été divisée en trois catégories : Non Responsable, Partiellement responsable, Responsable. Ces catégories correspondent respectivement aux modalités catégoriques : 0, 50, 100. Le graphique D.5 démontre les valeurs observées et prévues pour chaque modalité de cette covariable. Ce graphique permet de voir qu’il y a une certaine disparité dans l’exposition de chacune des modalités. De fait, 70% des observations représentent des accidents où l’assuré n’est pas considéré responsable, alors qu’on s’attendait à une valeur proche de 50%. Aucune explication n’a été trouvée pour expliquer ce phénomène. Pour cette modalité, le montant moyen d’une réclamation est égal à 73% du montant moyen d’un accident où l’assuré est considéré comme responsable. Modèle multinomial Dans le cadre du modèle multinomial sous l’indemnisation, les mêmes covariables que le modèle de tarification s’avèrent de nouveau significatives. Toutefois, la responsabilité de l’assuré dans l’accident a une incidence particulière sur les garanties qui seront réclamées (voir les coefficients du tableau D.6). Lorsqu’un assuré est responsable d’un accident, la proportion des accidents qui génèrent du AB est inférieure à celle où l’assuré n’est pas responsable de l’accident. Il se produit le phénomène inverse pour la garantie BI. En effet, lorsque l’assuré est reconnu responsable d’un accident, il peut alors se faire poursuivre par les autres personnes impliquées afin d’obtenir d’autres indemnités ; c’est ce qui explique la proportion plus élevée pour la garantie BI. Le différentiel obtenu est supérieur à 12, ce qui démontre l’importance de l’effet de cette covariable. Autre particuliarité intéressante, c’est la présence d’une certaine proportion de réclamations BI pour des gens qui ne sont pas tenus responsables de l’accident. Théoriquement, cette situation ne devrait pas se produire puisque l’assuré n’est pas reconnu responsable de l’accident selon le rapport de police ; il ne peut donc pas être responsable Chapitre 5. Résultats des analyses 62 des blessures infligées aux autres personnes. Toutefois, un juge peut renverser la décision du rapport de police et considérer l’assuré comme responsable des préjudices subis par autrui, ce qui amène à une réclamation du type BI. Le faible nombre de réclamations de la garantie BI effectuées par les assurés non-responsables est dû à ce type de situation. Modèle de sévérité des blessures corporelles à l’assuré Dans ce modèle, les hypothèses émises par l’assureur à propos de certaines covariables ont pu être vérifiées. Tout d’abord, la perte totale du véhicule assuré augmente l’estimé moyen pour les blessures corporelles de près de 12% par rapport à une perte partielle. Le pourcentage de dommages matériels observé sur le véhicule a aussi pour effet d’augmenter le montant moyen estimé pour les blessures corporelles. Autre fait notable, le coefficient obtenu pour la valeur actuelle du véhicule est significativement positif, ce qui implique que le montant moyen estimé pour les blessures corporelles augmente si le véhicule a une valeur plus élevée. On peut penser que le conducteur d’une telle voiture possède également un salaire plus élevé ; donc, si cet assuré réclame pour le remplacement de son salaire, l’indemnité réclamée sera automatiquement plus élevée. 5.2 Structure hiérarchique Les conclusions obtenues pour chacune des covariables de la structure hiérarchique sont les mêmes que pour le modèle hybride d’indemnisation. La seule différence digne de mention est l’utilisation d’un modèle logistique pour la présence d’une réclamation pour les garanties AB et BI. L’interprétation des coefficients est différente de celle du modèle multinomial : comme il y a seulement deux catégories, les coefficients obtenus permettent d’obtenir directement les groupes les plus à risque, de la même façon que les modèles de sévérité. Si le coefficient est positif, alors le groupe correspondant à ce coefficient a une plus grande probabilité espérée de réclamer un montant pour la garantie AB qu’un groupe affecté par un coefficient négatif. Les résultats partiels de ce modèle logistique sont présentés au tableau D.8. Les graphiques D.9 et D.10 permettent de juger de l’effet du pourcentage de dommages matériels observé lors de l’accident sur la probabilité qu’il y ait une réclamation pour les blessures corporelles de l’assuré. Évidemment, plus ce pourcentage augmente, plus la probabilité d’observer une réclamation pour AB augmente aussi. Chapitre 6 Analyses bayésiennes L’approche fréquentiste a longtemps été privilégiée dans les diverses applications de la statistique moderne. Toutefois, l’approche bayésienne se fait de plus en plus présente. La performance grandissante du support informatique et les développements en statistique computationnelle sont certaines des raisons qui expliquent la présence accrue des analyses bayésiennes. Dans ce projet, l’approche bayésienne a été utilisée afin d’ajuster simultanément les différentes composantes d’une même structure. Cette technique permet de tenir compte de la corrélation qui peut exister entre les paramètres de différents modèles. Par exemple, le coefficient estimé par le modèle multinomial pour la présence d’une garantie AB pour un des groupes d’âge pourrait être corrélé avec le coefficient estimé par le modèle de sévérité de la garantie AB pour le sexe de la personne assurée. Ce type de corrélation n’a pas été pris en compte lors de l’ajustement des structures hybrides et hiérarchiques au chapitre 5, puisque chaque modèle était ajusté indépendamment des autres. Un point fort de l’approche bayésienne est qu’elle permet de se prononcer directement sur l’incertitude quant à la vraie valeur des paramètres dans la prévision des garanties impliquées dans un accident, ainsi que les montants encourus. En fait, l’approche bayésienne conduit à une distribution a posteriori pour chaque paramètre, ce qui permet de bien quantifier l’incertitude reliée à chacun d’entre eux. Dans ce chapitre, une brève revue de la théorie sur l’approche bayésienne sera présentée. Les résultats de l’ajustement seront ensuite donnés. La reproduction d’un portefeuille fictif permettra de comparer les modèles obtenus par maximum de vraisemblance et par l’estimation bayésienne. Chapitre 6. Analyses bayésiennes 6.1 64 Modèle Les fondements théoriques de l’approche bayésienne découlent d’un théorème paru dans l’article de Bayes et Price (1763). Richard Price, qui a publié les résultats du défunt Thomas Bayes, croyait que ses résultats allaient prouver l’existence d’une présence divine puisqu’il réussissait à expliquer une partie du hasard. Bien que ce théorème soit utilisé largement en statistique, il a fallu deux siècles pour voir apparaître les premières applications de l’approche bayésienne. Dans ce mémoire, seules les notions importantes de cette théorie seront présentées. Le lecteur intéressé à en savoir davantage sur cette approche pourra se référer aux livres de Carlin et Louis (2008) et Gelman et al. (2004). Les distributions conditionnelles sont une partie intégrante de l’approche bayésienne. Elles sont notamment utilisées lorsqu’on établit une structure hiérarchique. On définit une distribution conditionnelle de la façon suivante : f (y|x) = f (y, x) f (y, x) , =∫ f (y, z)dz f (x) où x, y et z sont des vecteurs de valeurs continues. Le théorème de Bayes découle de cette dernière équation : f (x|y) = f (y|x)f (x) f (y|x)f (x) . =∫ f (y|z)f (z)dz f (y) L’approche bayésienne est basée sur cette équation. Afin de produire des inférences bayésiennes, il y a deux éléments qui sont préalablement requis. Il faut tout d’abord spécifier les distributions qui lient les paramètres au jeu de données, ce qui sera dénoté f (y|θ). La vraisemblance correspondant à ces distributions sera la même que celle utilisée dans la structure hybride présentée à la section 4.1. Pour les modèles de sévérité, on conserve la distribution gamma avec un lien logarithmique, et le modèle de fréquence sera supposé multinomial. Le deuxième élément à spécifier est la loi a priori sur les paramètres θ. Celle-ci sera dénotée π(θ). Cette loi sert à quantifier l’incertitude concernant la valeur des paramètres avant la cueillette des données. Dans certains cas, il est possible de choisir la loi a priori à la lumière de connaissances ou d’expériences antérieures. Dans notre projet, il n’y a aucune valeur préalable qui semble plus plausible qu’une autre. Dans pareil cas, on opte généralement pour une loi a priori dite non informative conçue Chapitre 6. Analyses bayésiennes 65 pour donner le moins d’information préalable sur les paramètres. Pour l’ensemble des paramètres de localisation, une distribution normale de moyenne nulle et de variance 1000 a donc été utilisée comme loi a priori. Pour les paramètres d’échelle des lois gamma, une distribution gamma de moyenne 1 et de variance 1000 a été utilisée, puisque ces paramètres ne peuvent être négatifs. Suite à la spécification des distributions f (y|θ) et de la loi a priori π(θ), ces éléments sont combinés par le théorème de Bayes, ce qui permet d’obtenir la loi a posteriori de l’ensemble de paramètres θ : π(θ|y) = ∫ f (y|θ)π(θ) ∝ f (y|θ)π(θ) f (y|θ)π(θ)dθ Le signe de proportionnalité est justifié par le fait que le dénominateur du terme central ne dépend pas de θ, de sorte qu’il agit à titre de constante d’intégration. La loi a posteriori ainsi obtenue est la source de toutes inférences nécessaires sur les paramètres θ. Dans ce projet, la loi a posteriori est définie en fonction de tous les modèles composant la structure hybride d’indemnisation. On retrouve alors : – le modèle de sévérité des dommages matériels : Ci,1 ∼ gamma(µ1,ℓ , k1 ) et ℓ = 1, . . . , L1 où L1 représente le nombre de paramètres du modèle DOMM ; – le modèle de fréquence : Mi,1 , . . . , Mi,4 ∼ multinomiale(1; ϕ1,ℓ , . . . , ϕ3,ℓ ) et ℓ = 1, . . . , L6 où L6 représente le nombre de paramètres du modèle multinomial ; – le modèle de sévérité des blessures corporelles à l’assuré sachant l’absence d’une réclamation pour les blessures corporelles à autrui : Ci,2 ∼ gamma(µ2,ℓ , k2 ) et ℓ = 1, . . . , L2 où L2 représente le nombre de paramètres du modèle AB ; – le modèle de sévérité des blessures corporelles à autrui sachant l’absence d’une réclamation pour les blessures corporelles à l’assuré : Ci,3 ∼ gamma(µ3,ℓ , k3 ) et ℓ = 1, . . . , L3 où L3 représente le nombre de paramètres du modèle BI ; – le modèle de sévérité des blessures corporelles à autrui et des blessures corporelles à l’assuré : Ci,2 ∼ gamma(µ4,ℓ , k4 ) et Ci,3 ∼ gamma(µ5,ℓ , k5 ) et ℓ = 1, . . . , L4 où L4 représente le nombre de paramètres du modèle AB (AB-BI) et ℓ = 1, . . . , L5 où L5 représente le nombre de paramètres du modèle BI (AB-BI). Chapitre 6. Analyses bayésiennes 66 Les lois a priori non informatives ont été définies de cette façon : – la loi a priori sur les paramètres de localisation des distributions gamma : µj,ℓ ∼ N (0, 1000), où j = 1, . . . , 5 et ℓ = 1, . . . , Lj ; – la loi a priori sur les paramètres d’échelles des distributions gamma : kj ∼ gamma(0.001, 0.001), où j = 1, . . . , 5 ; – la loi a priori sur les paramètres de la multinomiale : logit(ϕj,ℓ ) = β ⊤ j,ℓ x, où β j,ℓ ∼ N (0, 1000) et j = 1, . . . , 3 et ℓ = 1, . . . , L6 . Ceci mène à l’équation suivante : π(µ1,...,5;j , k1,...,5 , ϕ1,...,4;j |y) ∝ Lj 5 ∏ ∏ j=1 ℓ=1 5 ∏ π(µj,ℓ ) 5 ∏ j=1 π(kj ) 3 ∏ m ∏ π(ϕj,ℓ ) j=1 ℓ=1 f (Ci,j |µj , kj )f (Mi,1 , . . . , Mi,4 |1; ϕ1 , . . . , ϕ3 ). j=1 Cette équation ne permet pas d’exprimer la loi a posteriori analytiquement. Il faut donc calculer cette loi de façon numérique par une méthode MCMC (Markov Chain Monte Carlo) qui simule des réalisations de θ à partir de la loi a posteriori. À cet effet, on peut avoir recours au logiciel WinBUGS (Spiegelhalter et al., 2003) qui a été utilisé puisqu’il permet d’implanter facilement une structure de modèles par l’approche bayésienne. Le suffixe « BUGS » signifie justement « Bayesian Inference Using Gibbs Sampling ». L’algorithme programmé dans ce logiciel est l’échantilloneur de Gibbs. Cet algorithme a d’ailleurs contribué à l’utilisation accrue de l’inférence bayésienne en statistique. Le résumé du fonctionnement de cet algorithme et de son implantation dans WinBUGS sont présentés à l’annexe E. Un des problèmes qui peuvent survenir lors de l’utilisation de méthodes MCMC, c’est le temps qui est nécessaire à la production de simulations afin d’obtenir une convergence vers la loi a posteriori. Avec l’utilisation de l’ensemble des covariables considérées significatives par les méthodes de maximum de vraisemblance, plus de 400 paramètres auraient alors été utilisés pour les inférences bayésiennes. Bien que la statistique computationnelle ait grandement évolué lors des deux dernières décennies, il faudrait plusieurs semaines, voire plusieurs mois, avant de pouvoir déterminer la loi a posteriori associée à ce type de modèle. Pour ce projet, seules les covariables considérées comme les plus influentes ont été conservées. Cette sélection a permis de diminuer le nombre de paramètres à 148 et aussi d’accélérer grandement la convergence vers la loi a posteriori. Le tableau 6.1 présente les covariables utilisées pour les inférences bayésiennes. Chapitre 6. Analyses bayésiennes 67 Tableau 6.1 – Covariables utilisées lors de l’ajustement du modèle bayésien Modèle Sévérité DOMM Multinomiale Sévérité AB sans BI Sévérité BI sans AB Sévérité AB avec BI Sévérité BI avec AB Covariables Catégorie de véhicule, Année de l’accident, Nombre d’années d’expérience de conduite, Pourcentage de responsabilité de l’assuré, Valeur actuelle et âge du véhicule Âge et sexe de l’assuré, Année de l’accident, Cote de crédit de l’assuré, Nombre d’années d’expérience de conduite, Force de l’accident, Indicatrice de perte totale du véhicule assuré, Pourcentage de responsabilité de l’assuré, Pourcentage de dommages matériels du véhicule assuré Nombre d’années d’expérience de conduite, Année de l’accident, Âge du véhicule, Pourcentage de responsabilité de l’assuré, Pourcentage de dommages matériels du véhicule assuré, Territoire où l’assuré conduit fréquemment Année de l’accident, Âge du véhicule, Nombre de conducteurs assurés par cette police, Pourcentage de responsabilité de l’assuré, Pourcentage de dommages matériels du véhicule assuré Année de l’accident, Âge du véhicule, Pourcentage de responsabilité de l’assuré Année de l’accident, Pourcentage de responsabilité de l’assuré Certaines modifications à l’algorithme auraient pu améliorer l’efficacité du logiciel. Tout d’abord, comme la majorité des covariables sont catégoriques, celles-ci auraient pu être simulées en blocs puisque les catégories sont généralement très corrélées entre elles. D’autres propositions d’amélioration sont faites par Carlin et Louis (2008) et Gelman et al. (2004). Dans ce projet, les méthodes d’ajustement séquentiel par le théorème de Bayes ont été testées, mais elles n’ont pas permis d’accélérer la convergence de façon significative. Parmi les autres méthodes connues, on retrouve les calculs approximatifs bayésiens (« Approximate Bayesian Calculation » ou « Likelihood-Free Computation ») qui offrent une alternative intéressante pour l’inférence bayésienne. Cette méthode consiste Chapitre 6. Analyses bayésiennes 68 à simuler des paramètres et à vérifier si les distributions qui en dépendent permettent de reproduire adéquatement la base de données. Un résumé de cette option est présenté dans l’article de Sisson et Fan (2010). 6.2 Résultats de l’ajustement Tout d’abord, afin de pouvoir comparer les modèles bayésiens à ceux ajustés par le maximum de vraisemblance, ces derniers ont été réajustés en n’utilisant que les covariables présentées au tableau 6.1. Afin d’obtenir la convergence vers la loi a posteriori, 45 000 itérations ont été nécessaires sur deux chaînes générées à partir de valeurs initiales différentes ; 5 000 itérations supplémentaires sur chaque chaîne ont été conservées afin d’établir la loi a posteriori de chaque paramètre d’intérêt. Chacune des 10 000 itérations conservées fournit une réalisation des paramètres, ce qui permet de reconnaître de façon graphique la forme de la loi empirique des lois a posteriori. De plus, les valeurs des percentiles peuvent être calculées au moyen de ces 10 000 itérations, ce qui permet de construire des intervalles de crédibilité pour les paramètres. Étant donné la taille imposante du jeu de données, l’estimation moyenne des coefficients du modèle bayésien fondée sur une loi a priori non-informative devrait se rapprocher des coefficients estimés par la méthode du maximum de vraisemblance. Cette hypothèse est confirmée par les coefficients présentés dans les tableaux F.1 et F.2. Chaque coefficient estimé par la méthode du maximum de vraisemblance se trouve à une distance inférieure à une erreur standard du coefficient correspondant estimé par l’approche bayésienne. Les résultats de l’ajustement bayésien se conforment donc à ceux de l’ajustement par maximum de vraisemblance. Afin de valider que les coefficients générés dans les simulations de la méthode bayésienne viennent bien de la loi a posteriori, Gelman et al. (2004) ont proposé la mesure de proximité des variations intra- et inter-chaînes suivante : √ R̂ = d Var(ψ|y) , W où ψ est le paramètre d’intérêt et W la matrice de variance intra-chaîne. Chapitre 6. Analyses bayésiennes 69 On définit les variances inter- et intra-chaîne de la façon suivante : W = m K+N ∑ 1 ∑ 1 (ψ (k:l) − ψ̄ (•:l) ), m ℓ=1 N − 1 k=K+1 N −1 1 W + B, N N m N ∑ B = (ψ̄ (•:l) − ψ̄ (•:•) )2 , m − 1 ℓ=1 d Var(ψ|(y)) = où B est la matrice de variance inter-chaîne, K est le nombre d’itérations de la période de chauffe, N est le nombre d’itérations suivant la période de chauffe, m est le nombre de chaînes utilisées et ψ̄ (•:ℓ) représente la moyenne du paramètre d’intérêt qui est calculée de la façon suivante : ψ̄ (•:ℓ) = B+N ∑ ψ̄ (k:ℓ) /N k=B+1 . Pour s’assurer de la convergence, il faut que la valeur R̂ soit inférieure à 1.1 pour l’ensemble des paramètres d’intérêt du modèle (Gelman et al., 2004). Cette condition a été vérifiée pour les 148 paramètres. 6.3 Reproduction d’un portefeuille L’une des raisons qui a rendu l’inférence bayésienne si populaire ces dernières années est la possibilité qu’elle procure d’inclure l’incertitude quant à la valeur des paramètres dans la prévision de nouvelles observations. La méthode du maximum de vraisemblance permet d’obtenir une seule estimation des coefficients, tandis que l’approche bayésienne conduit à une loi a posteriori pour chaque paramètre. L’inférence bayésienne permet alors d’inclure la variabilité des coefficients estimés pour chaque paramètre en utilisant directement les valeurs simulées à partir de la loi a posteriori dans la prévision de nouvelles données, contrairement au modèle de vraisemblance maximale où les coefficients estimés sont fixés lors de la prévision. La reproduction d’un portefeuille consiste à créer une base de données avec un nombre arbitraire d’observations provenant de la base initiale. Dans certains cas, de toutes nouvelles observations peuvent être simulées afin de créer des portefeuilles fictifs. Chapitre 6. Analyses bayésiennes 70 Dans notre projet, mille portefeuilles de 10 000 personnes ont été générés au hasard parmi les 49 509 observations de la base de données initiale. Le but de cet exercice était de vérifier si les valeurs moyennes estimées pour chaque modèle de sévérité et de fréquence se comportent de la même façon que les valeurs moyennes observées pour chacun des 1 000 portefeuilles. Cet exercice a été effectué sur la structure hybride ajustée par maximum de vraisemblance, ainsi que par l’approche bayésienne. Une dernière variable d’intérêt a été ajoutée, soit le montant total qui était déboursé pour chaque accident, ce qui correspond à la somme des montants déboursés pour les indemnités de dommages matériels au véhicule assuré, ainsi que les blessures corporelles à l’assuré et à autrui. Le montant moyen de cette somme a été calculé pour chaque portefeuille de 10 000 personnes, ce qui permet d’évaluer sa distribution empirique. Pour cette variable, la structure hiérarchique ajustée par le maximum de vraisemblance a aussi été utilisée à titre de comparaison. Afin d’effectuer les prévisions, nous avons utilisé deux approches : 1. Ajuster les modèles sur les 49 509 données et effectuer des prévisions sur les données qui ont servi aux analyses ; 2. Ajuster le modèle sur 25 000 données et obtenir les prévisions sur les 24 509 données qui n’ont pas servi à l’ajustement des modèles. Pour les modèles ajustés par le maximum de vraisemblance, les deux façons de procéder sont similaires. Tout d’abord, les coefficients estimés pour chaque covariable sont utilisés. Pour les modèles de sévérité, on a : ⊤ β̂ ŷ = gamma(moyenne = ex , forme = k). Pour le modèle multinomial, on reprend tout simplement le modèle de la section 4.1.2 et on simule une valeur permettant de connaître les garanties impliquées lors de l’accident. Cette valeur est prédite à partir des probabilités prévues pour chaque modalité selon les caractéristiques de chaque police d’assurances. Par exemple, si pour l’observation i, on obtient les probabilités prévues suivantes (πi,DOM M = 0.85; πi,AB = 0.10; πi,BI = 0.04; πi,AB−BI = 0.01), alors l’assuré aura 85% de chance de ne réclamer que des dommages matériels, 10% de chances de réclamer pour ses blessures corporelles et ainsi de suite. Dans le cadre de l’approche bayésienne, les valeurs prédites de la fréquence et de la sévérité des garanties incluent l’incertitude liée à l’ajustement des paramètres. Pour effectuer une prévision, il suffit de choisir l’une des 10 000 réalisations des chaînes, avec remise, pour chaque observation du portefeuille. Pour chaque observation, on utilise Chapitre 6. Analyses bayésiennes 71 alors les coefficients choisis afin de calculer la valeur prédite, exactement de la même façon que les modèles ajustés par le maximum de vraisemblance. Toutefois, comme les paramètres diffèrent d’une observation à l’autre, on s’attend à ce que les valeurs prédites soient légèrement plus variables puisqu’elles incluent l’incertitude liée aux paramètres. Le tableau 6.2 permet de comparer l’ajustement des modèles selon la première approche. Tableau 6.2 – Comparaison des valeurs prédites de la valeur totale des indemnités versées selon la première approche avec les valeurs observées des 1000 portefeuilles Approche Maximum de vrais. Valeurs bayésienne Hybride Hiérarchique observées Biais moyen −3.29 −47.11 −37.75 Pourcentage du biais −0.05% −0.68% −0.54% 1er 5ème 25ème 75ème 95ème 99ème Moyenne percentile percentile percentile Médiane percentile percentile percentile 6951.50 6628.24 6708.74 6854.80 6951.21 7049.74 7189.24 7286.63 6907.69 6594.03 6688.00 6814.89 6902.01 7002.26 7137.11 7229.27 6917.04 6613.04 6704.09 6829.22 6920.14 7007.53 7131.16 7230.17 6954.79 6626.07 6715.10 6853.59 6954.11 7053.97 7196.67 7308.07 Le tableau 6.2 permet de constater que la structure ajustée par l’approche bayésienne s’avère la plus performante parmi les trois structures testées. Tout d’abord, le biais des prévisions par la structure bayésienne est −0.05%, comparativement à −0.68% et −0.54% pour les structures ajustées par le maximum de vraisemblance. Les trois structures semblent sous-estimer légèrement la valeur totale réclamée, car tous les biais sont négatifs. Les percentiles permettent de constater que les prévisions obtenues par l’approche bayésienne semblent se comporter de la même façon que les valeurs observées, alors que les prévisions des deux autres structures suggèrent qu’elles sous-estiment ces valeurs. La deuxième approche permet de valider si les différentes structures permettent d’obtenir de bonnes prévisions lorsqu’on travaille avec de nouvelles observations. Pour les structures ajustées par maximum de vraisemblance, on obtient les prévisions exactement de la même façon que par la première méthode. Toutefois, pour l’approche bayésienne, une étape s’avère différente. Pour la première approche de prévision, une réalisation parmi 10 000 était sélectionnée pour chaque observation à l’intérieur d’un portefeuille. Dans la deuxième approche, on simule de nouvelles réalisations puisqu’on Chapitre 6. Analyses bayésiennes 72 travaille avec de nouvelles observations qui n’ont pas servi à l’ajustement du modèle. Chaque loi a posteriori est comparée à une loi normale qui possède la même moyenne et la même variance. Pour tous les paramètres, la loi normale s’avère appropriée. Afin de tenir compte de la corrélation qui existe entre les paramètres, les réalisations utilisées pour la prévision sont simulées à partir d’une loi normale multivariée de moyenne µ et de variance Σ. La matrice de covariance Σ est estimée à partir des 10 000 simulations conservées pour les 148 paramètres. Le tableau 6.3 illustre les résultats obtenus. Tableau 6.3 – Comparaison des valeurs prédites de la valeur totale des indemnités versées selon la deuxième approche avec les valeurs observées des 1000 portefeuilles Approche Maximum de vrais. Valeurs bayésienne Hybride Hiérarchique observées Biais moyen 140.19 −51.81 122.47 Pourcentage du biais 2.02% −0.75% 1.77% 1er 5ème 25ème 75ème 95ème 99ème Moyenne percentile percentile percentile Médiane percentile percentile percentile 7064.24 6727.08 6819.10 6963.02 7064.95 7162.46 7310.38 7394.62 6872.24 6566.40 6635.41 6765.78 6872.21 6975.34 7100.01 7184.47 7046.52 6726.42 6825.45 6950.81 7040.05 7136.35 7283.68 7372.23 6924.05 6654.32 6723.33 6835.84 6915.47 7008.10 7138.50 7253.42 Le tableau 6.3 permet de constater que les prévisions obtenues par l’approche bayésienne diffèrent sensiblement des valeurs observées. Cela s’explique par le manque d’ajustement du modèle de sévérité concernant les blessures corporelles à l’assuré en présence d’une réclamation pour les blessures corporelles à autrui. Pour ce modèle, un biais de plus de 36% se produit, alors que tous les autres modèles présentent des biais inférieurs à 5%. Le manque d’ajustement de l’approche bayésienne pour ce modèle en particulier provient de l’utilisation d’observations où le véhicule assuré était âgé. Le coefficient estimé pour cette covariable était plus de deux fois supérieur au coefficient estimé par la méthode du maximum de vraisemblance. En insérant arbitrairement l’estimation à vraisemblance maximale de ce coefficient dans le modèle bayésien, les prévisions s’améliorent. C’est d’ailleurs ce modèle qui crée une surévaluation de la valeur totale qui est quantifiée par un biais positif de 2.02%. Dans ce cas-ci, le modèle hybride s’avère le plus performant, alors que son biais est le seul sous 1%. C’est aussi pour ce dernier modèle que les percentiles des valeurs prédites se rapprochent le plus de ceux des valeurs observées. Chapitre 7 Conclusion Ce projet a permis d’exposer quelques lacunes du modèle proposé par Frees et Valdez (2008). Ces auteurs ont considéré certaines dépendances, soient celle entre les fréquences et celle entre les sévérités, par l’ajustement d’un modèle multinomial et de modèles de sévérité liés par une copule. Toutefois, ce modèle ne considérait pas d’autres dépendances qui se sont avérées importantes dans les données traitées dans notre étude. Dans les analyses que nous avons effectuées, la dépendance existant entre la sévérité et la fréquence s’est révélée une composante importante à considérer. Dans les structures proposées dans notre projet, la sévérité des dommages matériels du véhicule assuré s’est avérée une covariable très significative à l’intérieur du modèle multinomial. De plus, la dépendance créée par la présence ou l’absence d’une garantie dans une réclamation s’est révélée un facteur plus important que l’utilisation d’une copule pour la dépendance entre les sévérités. Frees et al. (2010) ont d’ailleurs montré que pour certains modèles, une approche par copule est inadéquate. Les structures de modèles considérées dans ce mémoire permettront à la compagnie d’assurances associée au projet d’actualiser ses groupes de personnes à risque pour la nouvelle tarification. Elles permettront aussi au comité d’indemnisation de la compagnie d’obtenir une prévision des coûts liés à un accident de voiture impliquant un assuré en particulier en fonction des informations qui lui sont disponibles. Ceci permettra en outre au comité de mettre de côté les fonds nécessaires au remboursement des indemnités. Dans ce projet, l’inférence bayésienne a aussi été comparée à l’ajustement des modèles par maximum de vraisemblance qui est la pratique courante dans la majorité des domaines. L’inférence bayésienne constitue une approche très intéressante pour l’élaboration de modèles. Cette approche permet de quantifier l’incertitude liée à l’estimation Chapitre 7. Conclusion 74 des paramètres et d’inclure cette incertitude à de nouvelles prévisions. Toutefois, une étude supplémentaire serait nécessaire afin d’améliorer la performance des algorithmes d’estimation, ce qui pourrait permettre d’inclure la totalité des covariables qui sont significatives pour chaque modèle des structures utilisées. Les résultats obtenus avec l’approche bayésienne permettent de croire qu’il y a un bon potentiel à explorer en ce sens. Bibliographie Akaike, H. (1973). Information theory and an extension of the maximum likelihood principle. Dans Petrov, B. et Csaki, F., éditeurs : Second International Symposium on Information Theory, pages 267–281. Budapest, Hungary. Bayes, T. et Price, R. (1763). An essay towards solving a problem in the doctrine of chances. Philosophical Transactions of the Royal Society of London, 53:370–418. Disponible en ligne : http://rstl.royalsocietypublishing.org/content/53/370 (Page consultée le 24 janvier 2011). Carlin, B. P. et Louis, T. A. (2008). Bayesian Methods for Data Analysis. 3ème édition. CRC Press, New York. Casella, G. et Berger, R. L. (2002). Statistical Inference. 2ème édition. Duxbury Press, Pacific Grove, California. Cox, D. et Snell, E. (1989). The Analysis of Binary Data. 2ème édition. Chapman and Hall, London. Draper, D. (1995). Assessment and propagation of model uncertainty. Journal of the Royal Statistical Society, Series B, 57:45–97. Draper, N. R. et Smith, H. (1998). Applied Regression Analysis. 3ème édition. Wiley, New York. Efroymson, M. (1960). Multiple regression analysis. Dans Ralston, A. et Wilf, H., éditeurs : Mathematical Methods for Digital Computers, pages 191–203. John Wiley and Sons, New York. Frees, E. W. (2004). Longitudinal and Panel Data : Analysis and Applications for the Social Sciences. Cambridge University Press, Cambridge, U.K. Frees, E. W., Meyers, G. et Cummings, D. A. (2010). Dependent multi-peril ratemaking models. ASTIN Bulletin, 40:699–726. Frees, E. W. et Valdez, E. A. (2008). Hierarchical insurance claims modeling. Journal of the American Statistical Association, 103:1457–1469. BIBLIOGRAPHIE 76 Gelfand, A. E. et Smith, A. F. (1990). Sampling-based approaches to calculating marginal densities. Journal of the American Statistical Association, 85:398–409. Disponible en ligne : http://home.gwu.edu/~stroud/classics/GelfandSmith90.pdf (Page consultée le 26 janvier 2011). Gelman, A., Carlin, J. B., Stern, H. S. et Rubin, D. B. (2004). Bayesian Data Analysis. 2ème édition. Chapman and Hall / CRC, Boca Raton, FL. Geman, D. et Geman, S. (1984). Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 6:721–741. Genest, C. et Nešlehová, J. (2010). Copulas : Introduction to the Theory and Implementation in R. Rapport technique, Université Laval et Université McGill, Québec. Atelier présenté au 38ème Congrès annuel de la Société Statistique du Canada. Graham, J., Olchowski, A. et Gilreath, T. (2007). How many imputations are really needed ? Some practical clarifications of multiple imputation theory. Prevention Science, 8:206–213. Hocking, R. (1976). The analysis and selection of variables in linear regression. Biometrics, 32:1–50. Hosmer, D. W. et Lemeshow, S. (2000). Applied Logistic Regression. 2ème édition. John Wiley and Sons, Inc, New York. Klugman, S. A., Panjer, H. H. et Willmot, G. E. (1998). Loss Models : From Data to Decisions. Wiley, New York. Little, R. J. A. et Rubin, D. B. (2002). Statistical Analysis with Missing Data. 2ème édition. Wiley and Sons, Inc., Hoboken, New Jersey. Madigan, D. et Raftery, A. E. (1994). Model selection and accounting for model uncertainty in graphical models using Occam’s window. Journal of the American Statistical Association, 89:1535–1546. McFadden, D. L. (1974). Conditional logit analysis of qualitative choice behavior. Dans Zarembka, P., éditeur : Frontiers In Econometrics, pages 105–142. Academic Press, New York. Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. et Teller, E. (1953). Equation of state calculations by fast computing machines. Journal of Chemical Physics, 21:1087–1091. BIBLIOGRAPHIE 77 Montgomery, J. et Nyhan, B. (2010). Bayesian model averaging : Theoretical developments and pratical applications. Disponible en ligne : http://www-personal. umich.edu/~bnyhan/montgomery-nyhan-bma.pdf (Page consultée le 12 janvier 2011). Neal, R. M. (1997). Monte Carlo implementation of Gaussian process models for Bayesian regression and classification. Rapport technique No. 9702, Department of Statistics, University of Toronto, Canada. Disponible en ligne : http://www.cs. toronto.edu/~radford/ftp/mc-gp.pdf (Page consultée le 26 janvier 2011). R Development Core Team (2010). R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Raftery, A., Hoeting, J., Volinsky, C., Painter, I. et Yeung, K. Y. (2010). BMA : Bayesian Model Averaging. R package version 3.13. Robert, C. P. et Casella, G. (2004). Monte Carlo Statistical Methods. 2ème édition. Springer, New York. Scarsini, M. (1984). On measures of concordance. Stochastica, 8:201–218. Schwarz, G. (1978). Estimating the dimension of a model. The Annals of Statistics, 6:461–464. Sisson, S. A. et Fan, Y. (2010). Likelihood-free Markov chain Monte Carlo. Disponible en ligne : http://arxiv.org/PS_cache/arxiv/pdf/1001/1001.2058v1.pdf (Page consultée le 26 janvier 2011). Spiegelhalter, D., Thomas, A., Best, N. et Lunn, D. (2003). WinBUGS User Manual, version 1.4. MRC Biostatistics Unit, Cambridge. Yee, T. W. (2010). VGAM : Vector Generalized Linear and Additive Models. R package version 0.8-1 ; URL = "http ://CRAN.R-project.org/package=VGAM". Young, G., Valdez, E. A. et Kohn, R. J. (2009). Multivariate probit models for conditional claim-types. Insurance : Mathematics and Economics, 44:214–228. Annexe A Autres résultats des analyses préliminaires A.1 Résultats de la régression logistique Tableau A.1 – Estimation des paramètres de la régression logistique de la fréquence de la garantie TPL-BI en fonction du montant de dommages matériels DOMM Erreur Valeur Seuil Standard Z observé −4.651 0.048 −97.28 <2e-16 1.07E-04 4.40E-06 24.29 <2e-16 Paramètres Estimation Ordonnée à l’origine Montant DOMM Tableau A.2 – Estimation des paramètres de la régression logistique de la fréquence de la garantie TPL-PD en fonction du montant de dommages matériels DOMM Erreur Valeur Seuil Standard Z observé −5.768 0.082 −70.650 <2e-16 9.524E-05 6.884E-06 13.840 <2e-16 Paramètres Estimation Ordonnée à l’origine Montant DOMM Annexe A. Autres résultats des analyses préliminaires A.2 79 Résultats complémentaires de l’analyse de la variance Tableau A.3 – Effets de la fréquence des garanties sur le montant de dommages DOMM par une analyse de la variance Effets AB TPL-BI TPL-PD AB*TPL-BI Degrés de liberté Valeur Seuil Numérateur Standard F observé 1 49505 194.06 <0.0001 1 49505 333.84 <0.0001 1 49505 95.41 <0.0001 1 49505 5.56 0.0184 Tableau A.4 – Effets de la fréquence des garanties sur le montant de dommages BI par une analyse de la variance Effets TPL-PD Degrés de liberté Valeur Seuil Numérateur Standard F observé 1 834 8.67 0.0033 Annexe A. Autres résultats des analyses préliminaires Résultats complémentaires sur la dépendance des montants de sévérité 0.6 0.4 0.0 0.2 Montant DOMM 0.8 1.0 A.3 80 0.0 0.2 0.4 0.6 0.8 1.0 Montant AB Figure A.1 – Graphique des rangs pour les sévérités des garanties AB et DOMM La ligne verticale se trouvant à droite de la figure A.1 s’explique par l’écrêtement qui est appliqué aux valeurs. Dans le cas de la garantie AB, les montants sont écrêtés à 82 000 $. 81 0.6 0.4 0.0 0.2 Montant DOMM 0.8 1.0 Annexe A. Autres résultats des analyses préliminaires 0.0 0.2 0.4 0.6 0.8 1.0 Montant PD Figure A.2 – Graphique des rangs pour les sévérités des garanties TPL-PD et DOMM 82 0.4 0.0 0.2 Montant TPL−BI 0.6 0.8 Annexe A. Autres résultats des analyses préliminaires 0.0 0.2 0.4 0.6 0.8 Montant AB Figure A.3 – Graphique des rangs pour les sévérités des garanties TPL-BI et AB Annexe A. Autres résultats des analyses préliminaires Histogrammes des montants de sévérité 0.00010 0.00005 0.00000 Pourcentage 0.00015 0.00020 A.4 83 0 10000 20000 30000 40000 50000 60000 Montant de sévérité DOMM Figure A.4 – Histogramme des montants de sévérité des dommages matériels 84 0.00010 0.00000 0.00005 Pourcentage 0.00015 Annexe A. Autres résultats des analyses préliminaires 0 20000 40000 60000 80000 Montant de sévérité AB 0.00000 0.00002 0.00004 0.00006 0.00008 0.00010 0.00012 Pourcentage Figure A.5 – Histogramme des montants de sévérité des blessures à la personne assurée sachant qu’il n’y a pas de réclamation pour des blessures à une tierce personne 0 20000 40000 60000 80000 Montant de sévérité AB Figure A.6 – Histogramme des montants de sévérité des blessures à la personne assurée sachant qu’il y a aussi une réclamation pour des blessures à une tierce personne 85 6e−05 4e−05 0e+00 2e−05 Pourcentage 8e−05 Annexe A. Autres résultats des analyses préliminaires 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Montant de sévérité BI 0.00000 0.00002 0.00004 0.00006 0.00008 0.00010 0.00012 Pourcentage Figure A.7 – Histogramme des montants de sévérité des blessures à une tierce personne sachant qu’il n’y a pas de réclamation pour des blessures à la personne assurée 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Montant de sévérité BI Figure A.8 – Histogramme des montants de sévérité des blessures à une tierce personne sachant qu’il y a aussi une réclamation pour des blessures à la personne assurée Annexe A. Autres résultats des analyses préliminaires 86 0.00010 0.00000 0.00005 Pourcentage 0.00015 0.00020 Ajustement de la distribution gamma : 0 5000 10000 15000 20000 25000 30000 Montant de sévérité DOMM Figure A.9 – Histogramme des montants de sévérité des dommages matériels avec la densité estimée de la loi gamma Annexe B Théorie : Imputation multiple Suite à l’imputation de m valeurs à chaque observation, ce qui permet de créer m jeux de données, on effectue l’analyse appropriée sur chacun d’eux. Cette analyse peut être une analyse de la variance, une régression linéaire, etc. Pour chaque analyse effectuée, une estimation est obtenue pour chaque paramètre Q, ainsi que son erreur standard. Supposons Q̂i et Ŵi , qui sont respectivement la valeur estimée, ainsi que l’erreur standard pour la ième analyse, i = 1, . . . , m (Little et Rubin, 2002). Afin d’obtenir la valeur estimée combinée pour le paramètre Q grâce à l’imputation multiple, il suffit tout simplement de calculer la moyenne des estimés des m analyses : m 1 ∑ Q̂i . Q̄ = m i=1 Soit W̄ , la moyenne des matrices de variance-covariance calculées pour chaque jeu de données complet (« within-imputation variance ») : m 1 ∑ W̄ = Ŵi . m i=1 La matrice B est la matrice de variance-covariance calculée entre les m jeux de données complets (« between-imputation variance ») : B= m ( )2 1 ∑ Q̂i − Q̄ . m − 1 i=1 Annexe B. Théorie : Imputation multiple 88 Finalement, la matrice de variance-covariance estimée pour le paramètre Q, aussi nommée la variance totale, est calculée de la façon suivante : ( ) 1 T = W̄ + 1 + B. m ( ) La statistique Q̂i − Q̄ T −1/2 est alors approximativement distribuée selon une loi de Student à vm degrés de liberté, où : [ W̄ vm = (m − 1) 1 + (1 + m−1 )B ]2 . Les degrés de liberté dépendent de deux termes : le nombre d’imputations m et le ratio r calculé à partir des variances internes W et externes B, à savoir r= (1 + m−1 )B W̄ . W̄ Le ratio r représente l’augmentation relative de la variance due aux données manquantes du jeu de données. Lorsque ce dernier est complet, les valeurs de r et B sont toutes les deux égales à 0. Avec une grande valeur de m ou une petite ) du ratio r, le nombre de degrés de ( valeur liberté est alors élevé et la distribution de Q̂i − Q̄ T −1/2 devient approximativement normale. Annexe C Résultats de l’ajustement des modèles C.1 Résultats du choix des modèles de sévérité Tableau C.1 – Résultats de l’ajustement des distributions considérées pour le modèle de sévérité des dommages matériels Distribution Bêta généralisée Type II (GB2) Gamma généralisée (GG) Pareto généralisée Burr Burr inverse Lognormale Gaussienne inverse Pareto Pareto inverse Loglogistique Gamma Weibull Paralogistique Paralogistique inverse Nombre de paramètres 4 3 3 3 3 2 2 2 2 2 2 2 2 2 Vraisemblance AIC BIC −458983.5 X −458853.5 −459269.8 −459565.7 −458776.1 −460690.1 X −464011.7 −459584 −459773.1 −460517.3 −459273.9 −459928.1 918027 X 917765 918597.7 919189.3 917606.2 921434.1 X 928079.4 919224 919600.2 921088.6 918603.9 919912.1 918291.3 X 918020.4 918853.2 919444.8 917844.1 921672 X 928326 919470.7 919838 921326.5 918850.5 920158.8 Annexe C. Résultats de l’ajustement des modèles 90 Les distributions Pareto et gamma généralisée ont occasionné des problèmes numériques et aucun résultat n’a pu être obtenu pour ces deux modèles. Tableau C.2 – Résultats de l’ajustement des distributions considérées pour le modèle de sévérité des blessures corporelles Distribution Bêta généralisée Type II (GB2) Gamma généralisée (GG) Pareto généralisée Burr Burr inverse Lognormale Gaussienne inverse Pareto Pareto inverse Loglogistique Gamma Weibull Paralogistique Paralogistique inverse Nombre de paramètres 4 3 3 3 3 2 2 2 2 2 2 2 2 2 Vraisemblance AIC BIC −57533.53 −57462.34 −57605.26 −57595.98 −57615.71 −57468.47 −57974.26 −57605.97 −57615.82 −57620.80 −57793.09 −57650.94 −57617.06 −57618.92 115127.1 114980.7 115268.5 115250.0 115289.4 114990.9 116002.5 115267.9 115287.6 115297.6 115640.2 115355.9 115290.1 115293.8 115325.6 115166.0 115460.5 115441.9 115481.4 115169.7 116181.2 115453.3 115473.0 115482.9 115818.9 115534.6 115475.5 115479.2 Annexe C. Résultats de l’ajustement des modèles Résultats pour les modèles logistiques 0.4 sens 0.6 0.8 1.0 C.2 91 0.0 0.2 AUC= 0.77 0.0 0.2 0.4 0.6 0.8 1.0 1 − espe Figure C.1 – Courbe ROC obtenue pour le modèle logistique concernant la présence d’une réclamation pour les blessures corporelles à l’assuré. L’aire sous la courbe ROC est de 0.77 Annexe D Résultats des analyses Cette annexe présente une partie des résultats des modèles décrits au chapitre 4. En particulier, les résultats concernant la sélection des covariables et la comparaison des sous-modèles les plus probables sont omis. Les tableaux suivants comportent une multitude de covariables et de regroupements possibles pour chaque covariable. Le tableau D.1 permet de reconnaître la covariable à partir du nom du paramètre, ainsi que les regroupements utilisés pour celle-ci. La majorité de ces covariables sont catégoriques. Pour l’ajustement des variables catégoriques, une estimation des paramètres est fournie pour chaque catégorie, sauf pour celle qui sert de référence. Dans chaque graphique, on donne l’exposition de chaque regroupement. L’exposition est égale au pourcentage des observations dans la base de données qui sont représentées par chaque regroupement. Annexe D. Résultats des analyses 93 Tableau D.1 – Explication des covariables utilisées dans les modèles présentés Paramètre age modeleveh nap vehage prix.actuel anpol ageocc.p Description de la Covariable Regroupements ou Catégories possibles Âge de la personne assurée 22-, 23-29, 30-69, 70+ Catégorie du véhicule assuré BigVan : Caravan ou VUS PickUp : Camionnette Compact : Coupé et Berline SmallLuxury : Coupé et Berline de luxe BigLuxury : Grosse Berline ou VUS de luxe Nombre d’années du permis de conduire Âge du véhicule assuré Prix actuel du véhicule assuré Année de l’accident Âge du chauffeur occasionnel sous 25 ans categpoint Cote de crédit de l’assuré frb2 cie Franchise de la garantie DOMM Kilométrage parcouru par l’assuré dans une année Compagnie où l’assurance est souscrite marital.status Statut marital kmpleasure pct.DOMM.pred pct.DOMM perttot pctresp force Pourcentage de dommages matériels prédit Pourcentage de dommages matériels observé Indicatrice de perte totale du véhicule assuré Pourcentage de responsabilité de l’assuré dans l’accident Catégorie de la force de l’accident 1-, 2-7, 8-15, 16-40, 41+ Variable continue Variable continue 2004, 2005, 2006, 2007 16-18, 19-25, NA 2, 3, 4, 5 = Cas spéciaux 737-, 751-823, 828+ = Pointage de l’assuré 999 = Non disponible 300-, 500-750, 1000+ 10000-, 10001-15000 15001-20000, 20001+ 7 ou 8 C = célibataire D = divorcé M = marié V = veuf Valeur continue entre 0 et 1 Valeur continue entre 0 et 1 N = Non, O = Oui 0, 50, 100 Petit, Moyen, Grave Annexe D. Résultats des analyses D.1 94 Structure hybride Pour la structure hybride, les résultats sont présentés pour deux types d’applications, soient la tarification et l’indemnisation. D.1.1 Modèle de tarification Le modèle de tarification inclut toutes les covariables relatives aux caractéristiques de l’assuré et du véhicule assuré. Comme il s’agit d’un modèle de tarification, aucune information relative à l’accident n’est incluse dans le modèle. Tableau D.2 – Résultats partiels de l’estimation des paramètres du modèle de sévérité de dommages matériels du véhicule assuré (garantie DOMM) pour la structure hybride de tarification selon la méthode du maximum de vraisemblance Paramètre Intercept age.23-29 age.30-69 age.70+ modelevehBigVan modelevehCompact modelevehPickup modelevehSmallLuxury nap.2-7 nap.8-15 nap.16-40 nap.40+ vehage prix.actuel anpol.2004 anpol.2005 anpol.2006 anpol.2007 Valeur estimée Erreur Standard Valeur t Seuil observé 7.8350 −0.0294 −0.0466 0.0857 −0.1228 −0.1606 0.0209 −0.0751 −0.0673 −0.0935 −0.1094 −0.1078 −0.0180 5.799E-06 −0.0070 0.0187 0.0423 0.1100 0.1598 0.0219 0.0192 0.0310 0.0285 0.0282 0.0370 0.0278 0.0348 0.0351 0.0352 0.0383 0.0026 7.164E-0.7 0.0144 0.0160 0.0179 0.0229 49.03 −1.35 −2.43 2.76 −4.32 −5.69 0.57 −2.71 −1.93 −2.67 −3.11 −2.82 −6.99 8.10 −0.49 1.17 2.36 4.80 < 2e-16 0.1788 0.0149 0.0058 0.0000 0.0000 0.5715 0.0068 0.0534 0.0077 0.0019 0.0049 0.0000 0.0000 0.6257 0.2420 0.0183 0.0000 Annexe D. Résultats des analyses 95 Pour le modèle multinomial, la majorité des covariables disponibles se sont avérées significatives. Le tableau D.3 présente l’estimation des paramètres pour deux covariables, soient l’âge de l’assuré et la catégorie du véhicule. De plus, pour chaque regroupement des covariables, il y a trois paramètres à estimer. Ils correspondent à 1. la probabilité de la présence d’une réclamation pour les blessures corporelles de l’assuré et de l’absence d’une réclamation pour les blessures corporelles à autrui ; 2. la probabilité de la présence d’une réclamation pour les blessures corporelles à autrui et de l’absence d’une réclamation pour les blessures corporelles de l’assuré ; 3. la probabilité de la présence d’une réclamation pour les blessures corporelles de l’assuré et d’une réclamation pour les blessures corporelles à autrui. Tableau D.3 – Résultats partiels de l’estimation des paramètres du modèle multinomial pour la structure hybride de tarification selon la méthode du maximum de vraisemblance Paramètre (Intercept) :1 (Intercept) :2 (Intercept) :3 age.23-29 :1 age.23-29 :2 age.23-29 :3 age.30-69 :1 age.30-69 :2 age.30-69 :3 age.70+ :1 age.70+ :2 age.70+ :3 modelevehBigVan :1 modelevehBigVan :2 modelevehBigVan :3 modelevehCompact :1 modelevehCompact :2 modelevehCompact :3 modelevehPickup :1 modelevehPickup :2 modelevehPickup :3 modelevehSmallLuxury :1 modelevehSmallLuxury :2 modelevehSmallLuxury :3 Valeur estimée Erreur Standard Valeur t −1.5197 −5.06559 −3.67728 0.424635 −0.50318 0.869825 0.583285 −0.30604 0.725088 0.673227 0.376673 1.645467 0.168453 −0.30799 0.228032 0.194225 −0.31217 0.371282 −0.18131 −0.01499 −0.00581 0.075843 −0.45404 0.347473 0.6057442 1.8362571 2.4014616 0.1071561 0.2560999 0.4993349 0.1076241 0.2564173 0.5057214 0.1412104 0.3429961 0.6001647 0.1136667 0.2814239 0.5020485 0.1088707 0.2651073 0.4833142 0.1560473 0.361965 0.6482185 0.1114275 0.2742149 0.4920865 −2.50881 −2.75865 −1.53127 3.962769 −1.96477 1.741968 5.41965 −1.19353 1.43377 4.767549 1.098185 2.741692 1.48199 −1.09441 0.454202 1.783995 −1.17752 0.768199 −1.16192 −0.04143 −0.00896 0.680649 −1.65577 0.706123 Annexe D. Résultats des analyses 96 Tableau D.4 – Résultats partiels de l’estimation des paramètres du modèle de sévérité des blessures corporelles subies par l’assuré (garantie AB) pour la structure hybride de tarification selon la méthode du maximum de vraisemblance Paramètre Estimation Erreur Standard Valeur t Seuil observé Intercept age.23-29 age.30-69 age.70+ kmpleasure.10001-15000 kmpleasure.15001-20000 kmpleasure.20001+ cie.8 marital.status.D marital.status.M marital.status.V nap.2-7 nap.8-15 nap.16-40 nap.40+ prix.actuel vehage pct.DOMM.pred 10.09 0.04104 0.3097 0.09614 −0.1662 −0.1785 −0.1731 −0.1376 0.06052 0.1002 0.01313 −0.1843 −0.2541 −0.3072 −0.6321 0.00001202 0.02508 0.08449 0.5498 0.1515 0.1516 0.2029 0.05062 0.05647 0.08352 0.05677 0.08851 0.055 0.1868 0.1647 0.1747 0.1852 0.2204 0.000004106 0.008942 0.1702 18.346 0.271 2.043 0.474 −3.284 −3.161 −2.072 −2.424 0.684 1.822 0.07 −1.119 −1.454 −1.658 −2.868 2.926 2.804 0.496 < 2e-16 0.786518 0.041091 0.635627 0.001032 0.001583 0.038285 0.01537 0.494102 0.068508 0.943981 0.263173 0.145993 0.097321 0.004152 0.003442 0.00506 0.619601 Annexe D. Résultats des analyses 97 Figure D.1 – Valeurs observées et prédites du montant de sévérité des dommages matériels par le modèle hybride de tarification pour la population classée selon l’âge ; la ligne pleine représente la moyenne des montants observés selon l’âge de l’assuré et la ligne pointillée représente la moyenne des valeurs prédites pour ces mêmes observations Figure D.2 – Différentiels du montant de sévérité des dommages matériels par le modèle hybride de tarification pour la population classée selon l’âge ; la ligne représente la valeur du différentiel selon l’âge par rapport au groupe de référence des 24 ans et moins Annexe D. Résultats des analyses 98 Figure D.3 – Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride de tarification pour la population classée selon l’âge ; les lignes pleines représentent la fréquence observée selon l’âge de l’assuré et les lignes pointillées représentent la fréquence prédite pour ces mêmes observations Figure D.4 – Différentiels de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride de tarification pour la population classée selon l’âge ; les lignes représentent la valeur du différentiel selon la modalité en fonction de l’âge par rapport au groupe de référence des 22 ans et moins Annexe D. Résultats des analyses D.1.2 99 Modèle d’indemnisation Dans le modèle d’indemnisation, toutes les covariables relatives aux caractéristiques de l’assuré et du véhicule assuré sont utilisées, ainsi que les informations obtenues par rapport à l’accident. Ces covariables sont le degré de responsabilité de l’assuré dans l’accident, la gravité de l’accident, ainsi que l’indicatrice de perte totale du véhicule assuré. De plus, pour le modèle multinomial et les modèles de sévérité de AB et BI, le montant de sévérité observé pour les dommages matériels a été utilisé. Tableau D.5 – Résultats partiels de l’estimation des paramètres du modèle de sévérité des dommages matériels du véhicule assuré (garantie DOMM) pour la structure hybride d’indemnisation selon la méthode du maximum de vraisemblance. Paramètre Estimation Erreur Standard Valeur t Seuil observé Intercept modelevehBig.van modelevehCompact modelevehPickup modelevehSmall.Luxury nap.2-7 nap.8-15 nap.16-40 nap.40+ vehage prix.actuel anpol.2004 anpol.2005 anpol.2006 anpol.2007 ageocc.p.16-18 ageocc.p.19-25 perttotO pctresp.100 pctresp.50 6.882 −0.1108 −0.1857 0.1014 −0.1096 −0.007902 −0.03298 −0.05577 −0.04735 −0.02863 7.932E-06 −0.01336 −0.02243 −0.02764 0.01864 0.05329 0.01551 0.9824 0.314 0.2081 0.1352 0.02371 0.02354 0.03088 0.02316 0.02904 0.02863 0.02823 0.0302 0.002254 5.978E-07 0.01221 0.01347 0.01471 0.01782 0.01461 0.01171 0.009897 0.007311 0.0167 50.91 −4.675 −7.886 3.283 −4.732 −0.272 −1.152 −1.976 −1.568 −12.702 13.269 −1.094 −1.665 −1.879 1.046 3.646 1.325 99.256 42.955 12.46 < 2e-16 2.95E-06 3.17E-15 0.001027 2.23E-06 0.785547 0.249249 0.048209 0.116903 < 2e-16 < 2e-16 0.273896 0.095956 0.060256 0.295402 0.000266 0.185109 < 2e-16 < 2e-16 < 2e-16 Annexe D. Résultats des analyses 100 Tableau D.6 – Résultats partiels de l’estimation des paramètres du modèle multinomial pour la structure hybride d’indemnisation selon la méthode du maximum de vraisemblance. Paramètre Intercept :1 Intercept :2 Intercept :3 age.23-29 :1 age.23-29 :2 age.23-29 :3 age.30-69 :1 age.30-69 :2 age.30-69 :3 age.70+ :1 age.70+ :2 age.70+ :3 pctresp.mod100 :1 pctresp.mod100 :2 pctresp.mod100 :3 pctresp.mod50 :1 pctresp.mod50 :2 pctresp.mod50 :3 Valeur estimée −0.0794 −6.4548 −3.5122 0.4835 −0.4380 1.0343 0.7069 −0.1686 0.9228 0.8045 0.2820 1.6238 −1.2754 2.5057 0.8022 −0.8788 1.5878 0.4563 Erreur Standard Valeur t 0.644424 −0.1233 1.907270 −3.3843 2.529273 −1.3887 0.111499 4.3363 0.256872 −1.7054 0.502461 2.0584 0.112278 6.2965 0.259792 −0.6491 0.509008 1.8131 0.143607 5.6027 0.338011 0.8344 0.594207 2.7327 0.040946 −31.1493 0.141329 17.7302 0.137808 5.8213 0.087204 −10.0780 0.248759 6.3831 0.297105 1.5359 Annexe D. Résultats des analyses 101 Tableau D.7 – Résultats partiels de l’estimation des paramètres du modèle de sévérité pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hybride d’indemnisation selon la méthode du maximum de vraisemblance. Paramètre Estimation Erreur Standard Valeur t Seuil observé Intercept age.23-29 age.30-69 age.70+ kmpleasure.10001-15000 kmpleasure.15001-20000 kmpleasure.20001+ cie.8 nap.2-7 nap.8-15 nap.16-40 nap.40+ vehage prix.actuel pct.DOMM pctresp.100 pctresp.50 perttotO forceMoyen forcePetit 9.9260 0.007972 0.3032 0.1636 −0.1761 −0.1908 −0.1813 −0.1273 −0.2489 −0.3826 −0.4425 −0.5933 0.0282 0.00001654 0.2727 −0.3378 −0.0832 0.1132 −0.1012 −0.0388 0.5522 0.1486 0.1452 0.1913 0.0502 0.0560 0.0829 0.0560 0.1619 0.1641 0.1658 0.1925 0.008715 0.000003805 0.1301 0.0569 0.1213 0.0595 0.0652 0.0849 17.976 0.054 2.088 0.855 −3.504 −3.405 −2.186 −2.271 −1.537 −2.331 −2.669 −3.082 3.240 4.347 2.096 −5.932 −0.687 1.899 −1.550 −0.458 < 2e-16 0.957229 0.036832 0.392490 0.000462 0.000666 0.028862 0.023191 0.124341 0.019802 0.007628 0.002069 0.001202 0.000014 0.036091 3.17E-09 0.492369 0.057567 0.121305 0.647233 Annexe D. Résultats des analyses 102 Figure D.5 – Valeurs observées et prédites du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de responsabilité ; la ligne pleine représente la moyenne des montants observés selon le niveau de responsabilité de l’assuré dans l’accident et la ligne pointillée représente la moyenne des valeurs prédites pour ces mêmes observations Figure D.6 – Différentiels du montant de sévérité des dommages matériels par le modèle hybride d’indemnisation selon le pourcentage de responsabilité ; la ligne représente la valeur du différentiel selon le niveau de responsabilité Annexe D. Résultats des analyses 103 Figure D.7 – Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride d’indemnisation selon le pourcentage de responsabilité ; les lignes pleines représentent la fréquence observée selon le niveau de responsabilité de l’assuré dans l’accident et les lignes pointillées représentent la fréquence prédite pour ces mêmes observations Figure D.8 – Différentiels de la probabilité de la présence d’une réclamation pour la garantie AB et d’une réclamation pour la garantie BI par le modèle hybride d’indemnisation selon le pourcentage de responsabilité ; les lignes représentent la valeur du différentiel selon la modalité en fonction du niveau de responsabilité Annexe D. Résultats des analyses D.2 104 Structure hiérarchique Pour la structure hiérarchique, la seule application actuarielle étudiée a été l’indemnisation. Les modèles comprennent toutes les covariables qui font référence aux caractéristiques de l’assuré et du véhicule assuré, ainsi que les informations obtenues sur l’accident. Le modèle de sévérité des dommages matériels est exactement le même que celui obtenu dans le modèle hybride d’indemnisation (voir le tableau D.5). Pour la modélisation des fréquences, on a eu recours à une régression logistique plutôt qu’à un modèle multinomial. Finalement, le modèle de sévérité AB inclut tous les montants de sévérité AB sans égard à la présence ou l’absence d’une réclamation BI, contrairement au modèle AB de la structure hybride qui était ajusté sur la sous-population ayant seulement réclamé la garantie AB. Tableau D.8 – Résultats partiels de l’estimation des paramètres du modèle logistique expliquant la présence d’une réclamation pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hiérarchique d’indemnisation selon la méthode du maximum de vraisemblance. Paramètre Intercept age.23-29 age.30-64 age.65+ modelevehBig.van modelevehCompact modelevehPickup modelevehSmall.Luxury kmpleasure.10001-15000 kmpleasure.15001-20000 kmpleasure.20001+ nap.2-7 nap.8-15 nap.16-40 nap.40+ gender.M pct.DOMM perttotO pctresp.100 pctresp.50 forceMoyen forcePetit Valeur estimée Erreur Standard Valeur Z Seuil observé −2.091118 0.563762 0.796266 0.933269 0.279151 0.141835 −0.192222 0.038586 −0.071605 −0.139559 −0.260899 −0.10423 −0.275465 −0.411416 −0.501141 −0.299630 0.999708 0.656786 −1.182682 −0.824657 −0.423479 −1.058558 0.197927 0.107476 0.104305 0.133119 0.106351 0.103972 0.145176 0.111625 0.036777 0.040409 0.0592 0.118835 0.119818 0.11974 0.138586 0.03074 0.07844 0.044319 0.038658 0.08448 0.045311 0.052457 −10.565 5.245 7.634 7.011 2.625 1.364 −1.324 0.346 −1.947 −3.454 −4.407 −0.877 −2.299 −3.436 −3.616 −9.747 12.745 14.82 −30.593 −9.762 −9.346 −20.18 < 2e-16 1.56E-07 2.28E-14 2.37E-12 0.00867 0.172515 0.185482 0.729589 0.051533 0.000553 1.05E-05 0.380434 0.021503 0.000591 0.000299 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 < 2e-16 Annexe D. Résultats des analyses 105 Tableau D.9 – Résultats partiels de l’estimation des paramètres du modèle de sévérité pour les blessures corporelles subies par l’assuré (garantie AB) pour la structure hiérarchique d’indemnisation selon la méthode du maximum de vraisemblance. Paramètre Intercept age.23-29 age.30-64 age.65+ kmpleasure.10001-15000 kmpleasure.15001-20000 kmpleasure.20001+ cie.8 marital.status.D marital.status.M marital.status.V nap.2-7 nap.8-15 nap.16-40 nap.40+ vehage prix.actuel pct.DOMM pctresp.100 pctresp.50 perttotO forceMoyen forcePetit Valeur estimée Erreur Standard Valeur t Seuil observé 10.03 0.01527 0.2414 0.1453 −0.1718 −0.1523 −0.1886 −0.1270 0.05868 0.0788 0.1331 −0.1445 −0.2065 −0.3001 −0.6091 0.02352 0.00001228 0.2880 −0.2308 −0.1170 0.1035 −0.1162 −0.03378 0.5309 0.1465 0.1467 0.1944 0.04898 0.05455 0.0804 0.05474 0.08498 0.05333 0.1796 0.155 0.1645 0.1749 0.2093 0.008329 0.000003583 0.1261 0.05323 0.1165 0.0575 0.06333 0.08286 18.888 0.104 1.646 0.747 −3.508 −2.792 −2.346 −2.320 0.691 1.478 0.741 −0.933 −1.255 −1.716 −2.910 2.824 3.428 2.283 −4.337 −1.005 1.799 −1.836 −0.408 < 2e-16 0.917002 0.099816 0.455017 0.000456 0.005264 0.01903 0.020369 0.489887 0.139595 0.458678 0.351046 0.209422 0.086199 0.003633 0.004758 0.000612 0.022459 1.47E-05 0.315084 0.072038 0.066473 0.683495 Annexe D. Résultats des analyses 106 Figure D.9 – Valeurs observées et prédites de la probabilité de la présence d’une réclamation pour la garantie AB par le modèle hiérarchique d’indemnisation selon le pourcentage de dommages matériels réclamés par rapport à la valeur actuelle du véhicule ; la ligne pleine représente la fréquence observée et la ligne pointillée représente la fréquence prédite pour chaque tranche de 10% du pourcentage Figure D.10 – Différentiels de la probabilité de la présence d’une réclamation pour la garantie AB par le modèle hiérarchique d’indemnisation selon le pourcentage de dommages matériels réclamés par rapport à la valeur actuelle du véhicule ; la ligne représente la valeur du différentiel pour chaque tranche de 10% du pourcentage Annexe E Échantillonneur de Gibbs L’échantillonneur de Gibbs est ainsi nommé en l’honneur du physicien J.W. Gibbs. Il a été popularisé par Geman et Geman (1984) et Gelfand et Smith (1990). Cet algorithme permet de simuler à partir de lois a posteriori conditionnelles complètes. Robert et Casella (2004) ont démontré que sous certaines conditions de régularité, ces lois permettent de déterminer la loi a posteriori de manière unique. On suppose que θ = (θ1 , . . . , θd )⊤ comporte d paramètres et on dénote par θ−j = (θ1 , . . . , θj−1 , θj+1 , . . . , θd )⊤ le vecteur des paramètres θ sans θj . Les lois a posteriori conditionnelles complètes sont alors définies par π(θj |θ−j , y), j = 1, . . . , d. On choisit par suite des valeurs initiales pour chaque paramètre de θ, qui sont dénotées θ (0) = (0) (0) (θ1 , . . . , θd )⊤ . L’échantillonneur de Gibbs procède alors selon l’algorithme suivant : (1) Étape 1 : Étape 2 : .. . Étape d : Étape d + 1 : .. . Étape (B + N )d : Générer une réalisation θ1 de la loi a posteriori (1) (0) conditionnelle π(θ1 |θ −1 , y) (1) Générer une réalisation θ2 de la loi a posteriori (1) (1) (0) conditionnelle π(θ2 |θ 1 , θ −1,−2 , y) (1) Générer une réalisation θd de la loi a posteriori (1) (1) conditionnelle π(θd |θ −d , y) (2) Générer une réalisation θ1 de la loi a posteriori (2) (1) conditionnelle π(θ1 |θ −1 , y) ((B+N )) Générer une réalisation θd de la loi a posteriori ((B+N )) ((B+N )) conditionnelle π(θd |θ −d , y) Annexe E. Échantillonneur de Gibbs 108 Pour que le modèle puisse converger vers la loi stationnaire, une période de chauffe de B simulations préliminaires est nécessaire. Ces B simulations ne sont pas utilisées dans les inférences bayésiennes puisqu’elles ne proviennent pas de la loi stationnaire. Par la suite, N simulations supplémentaires sont effectuées. Les inférences bayésiennes sont basées sur ces N simulations dont on peut présumer qu’elles émanent de la loi stationnaire si B est suffisamment grand. Comme Geman et Geman (1984) l’ont démontré, les valeurs θ 1 , . . . , θ B+N qui sont générées par l’échantillonneur de Gibbs forment une chaîne de Markov dont la loi stationnaire est précisément π(θ|y). L’échantillonneur de Gibbs est approprié si les lois conditionnelles complètes se calculent de façon explicite. Ceci se produit lorsque les lois a priori sont conjuguées. Si ce n’est pas le cas, quelques modifications à l’algorithme s’imposent. Le logiciel WinBUGS utilise un algorithme hybride composé de quatre composantes différentes. À la base, le logiciel utilise l’échantillonneur de Gibbs pour simuler l’en(1) (0) semble des paramètres. À chaque étape de l’algorithme, lorsque π(θj |θ−j , y) est conjuguée, une réalisation des paramètres θj est simulée directement à partir de cette loi. (1) (0) Pour les paramètres θj tels que π(θj |θ−j , y) n’est pas conjuguée, la méthode de rejet est utilisée pour simuler une réalisation si cette loi est log-concave (Robert et Casella, 2004). Finalement, si la loi n’est pas log-concave, une réalisation est alors simulée à partir de l’algorithme de Metropolis et al. (1953) si le support de la loi n’est pas borné ou à partir de l’échantillonneur par tranche (Neal, 1997) si le support est borné. Annexe F Résultats de l’analyse bayésienne Tableau F.1 – Estimation des paramètres par la méthode bayésienne et par la méthode du maximum de vraisemblance pour le modèle de sévérité des dommages matériels du véhicule assuré. Paramètre Intercept modelevehBig.van modelevehCompact modelevehPickup modelevehSmall.Luxury anpol.mod2004 anpol.mod2005 anpol.mod2006 anpol.mod2007 nap.mod2-7 nap.mod8-15 nap.mod16-40 nap.mod40+ pctresp.mod100 pctresp.mod50 prix.actuel vehage Valeur estimée Max. de vrais. 8.488000 −0.201700 −0.219000 −0.124200 −0.093080 0.002895 0.030610 0.049720 0.125500 −0.044460 −0.091990 −0.131000 −0.167300 0.384400 0.212400 0.000007 −0.032590 Erreur Standard Max. de vrais. 0.049830 0.026740 0.027580 0.033810 0.027630 0.011710 0.011860 0.011930 0.014500 0.034800 0.034160 0.033440 0.035600 0.008691 0.020050 0.000001 0.001674 Valeur estimée Mét. bayésienne 8.475 −0.1995 −0.2164 −0.1211 −0.09143 0.003098 3.07E-02 0.04999 0.1253 −0.03578 −0.08311 −0.1224 −0.1586 0.3845 0.2125 7.45E-06 −0.03239 Erreur Standard Mét. bayésienne 0.03731 0.02233 0.0226 0.02893 0.02338 0.01036 0.01059 0.01075 0.01303 0.0278 0.02733 0.02664 0.02874 0.007831 0.01781 5.55E-07 1.42E-03 Erreur Monte Carlo Mét. bayésienne 0.003454 0.001685 0.001796 0.001708 0.001656 3.33E-04 3.11E-04 3.24E-04 3.55E-04 0.002238 0.002258 0.002246 0.002245 1.58E-04 2.60E-04 3.76E-08 8.57E-05 Annexe F. Résultats de l’analyse bayésienne 110 Tableau F.2 – Estimation des paramètres par la méthode bayésienne et par la méthode du maximum de vraisemblance pour la loi multinomiale. Paramètre (Intercept) C.PO.AB.F.mod0.7+ age.mod23-29 age.mod30-69 age.mod70+ anpol.mod2004 anpol.mod2005 anpol.mod2006 anpol.mod2007 categpoint.mod3 categpoint.mod4 categpoint.mod5 categpoint.mod737categpoint.mod751-823 categpoint.mod828+ categpoint.mod999 forceMoyen forcePetit gender.modM nap.mod16-40 nap.mod2-7 nap.mod40+ nap.mod8-15 pctresp.mod100 pctresp.mod50 pct.DOMM perttotO Valeur estimée Max. de vrais. −1.582227 1.025657 0.477004 0.768748 0.820850 −0.095296 −0.058807 −0.033674 −0.220147 −0.004195 0.009633 0.301674 0.056222 −0.207532 −0.425720 0.121028 −0.356022 −1.005473 −0.306373 −0.615067 −0.104267 −0.758929 −0.342700 −1.264049 −0.812386 1.0168737 0.6172725 Erreur Standard Max. de vrais. 0.004776 0.001508 0.002969 0.002809 0.004357 0.001411 0.001461 0.001514 0.001873 0.002297 0.003983 0.004982 0.001650 0.001674 0.002051 0.001793 0.001458 0.001671 0.000966 0.003835 0.003832 0.0043557 0.003867 0.0012741 0.0027295 0.0024237 0.0014235 Valeur estimée Mét. bayésienne −1.545 1.032 0.493 0.7865 0.8329 −0.09395 −0.05929 −0.03268 −0.2225 −0.008619 0.003942 0.295 0.05497 −0.2122 −0.4365 0.1197 −0.3579 −1.013 −0.3127 −0.6752 −0.1601 −0.8217 −0.3997 −1.278 −0.8217 1.028 0.6208 Erreur Standard Mét. bayésienne 0.1302 0.04788 0.08184 0.07401 0.1302 4.53E-02 4.62E-02 4.82E-02 0.06083 0.06965 0.1277 0.1527 5.05E-02 5.06E-02 0.06468 5.51E-02 4.56E-02 5.36E-02 3.06E-02 0.1202 0.1158 0.1366 0.1213 4.02E-02 0.08766 0.08155 4.27E-02 Erreur Monte Carlo Mét. bayésienne 0.01272 0.001575 0.006353 0.006664 0.007712 0.002528 0.00252 0.002832 0.002882 0.003426 0.004776 0.005559 0.003296 0.003303 0.00351 0.00361 0.002937 0.004225 0.001413 0.01144 0.01049 0.01171 0.0113 0.00138 0.00271 0.006306 0.002352