AIX-MARSEILLE UNIVERSITE FACULTE DE MEDECINE DE MARSEILLE ECOLE DOCTORALE DES SCIENCES DE LA VIE ET DE LA SANTE THÈSE Présentée et soutenue publiquement devant LA FACULTE DE MEDECINE DE MARSEILLE Le 12 Décembre 2014 Par Mlle Nathalie GRAFFEO Née le 14 Décembre 1975 à MARSEILLE Méthodes d’analyse de la survie nette : utilisation des tables de mortalité, test de comparaison et détection d’agrégats spatiaux Pour obtenir le grade de DOCTORAT d’AIX-MARSEILLE UNIVERSITE SPECIALITE: RECHERCHE CLINIQUE ET SANTE PUBLIQUE Laboratoire d’accueil: UMR912 - SESSTIM (Sciences Economiques & Sociales de la Santé & Traitement de l’Information Médicale) JURY Fabienne CASTELL Marc COLONNA Roch GIORGI Aurélien LATOUCHE Catherine LEGRAND Virginie RONDEAU Philippe SAINT PIERRE PR, Aix-Marseille Université Directeur du Registre du Cancer de l’Isère, Grenoble PU-PH, Aix-Marseille Université PR, Cnam, Paris PR, Université Catholique de Louvain DR, INSERM, ISPED, Bordeaux MCF, Université Pierre et Marie Curie, Paris Examinateur Examinateur Directeur Rapporteur Rapporteur Examinateur Examinateur Remerciements La thèse n’est pas un travail individuel. Toutes les personnes que je remercie ici (et elles sont nombreuses) ont contribué, pour diverses raisons, à l’aboutissement de ce long travail de fond. Je remercie en premier lieu mon directeur de thèse, le Professeur Roch Giorgi, pour sa patience infinie, pour la confiance qu’il m’a accordée et pour ses qualités pédagogiques et scientifiques. J’ai eu la chance d’avoir un directeur de thèse compétent et rigoureux. Travailler à ses côtés fut un réel plaisir que j’espère renouveler bientôt. Merci aux Professeurs Aurélien Latouche et Catherine Legrand qui m’ont fait l’honneur d’être les rapporteurs de ma thèse. Je me réjouis de l’intérêt que vous portez à ce travail et vous remercie beaucoup pour vos commentaires qui ont permis d’enrichir ce manuscrit. Je remercie vivement les Docteurs Marc Colonna, Virginie Rondeau et Philippe Saint-Pierre qui ont accepté de participer à ce jury. Un merci tout particulier au Professeur Fabienne Castell qui a contribué à une partie de ce travail : il y a 10 ans, je n’aurais même pas envisagé la possibilité de co-écrire un article avec vous. Merci pour votre gentillesse, votre rigueur et votre bonne humeur. Vous avez su garder le sourire et être indulgente face à toutes mes questions : cette thèse, je la dois à vous aussi. Je remercie les Professeurs Marius Fieschi et Jean-Paul Moatti de m’avoir accueillie au sein du LERTIM et du SESSTIM. Merci à mon « comité scientifique » constitué des Docteurs Aurélien Belot et Jean Gaudart. J’ai beaucoup appris en travaillant à vos côtés et en lisant vos travaux. Merci à vous deux pour i Remerciements votre gentillesse et toutes ces discussions enrichissantes qui ont mené à des collaborations. Merci à tous les membres du « CENSUR working survival group ». Je suis maintenant convaincue qu’un groupe de travail international peut arriver à regrouper ses forces pour produire de belles choses. Je remercie spécialement les Lyonnais 1 pour leurs encouragements permanents et leur disponibilité. Les discussions avec Laurent Remontet et Jacques Estève ont été fructueuses et ont permis de venir à bout de la construction du test. La participation de Maja Pohar-Perme et l’aide de Janez Stare ont aussi grandement participé à l’aboutissement de ce travail. À chacun des membres du groupe : soyez assurés que travailler avec vous a été et sera toujours un vrai bonheur. Je dois ici mentionner tous les membres, passés et présents, du groupe YROS (Young Researchers On Survival) : Amel, Audrey, Célia, Coraline, Isabelle, Juste, Khadim, Morgane, Noémie et Saïd. Vous m’avez tous et toutes apporté énormément de soutien méthodologique « mais pas que »... Amel, Coraline, Isabelle et Morgane : merci pour ces mails et conversations téléphoniques. Vos idées, questions et remarques m’ont fait avancer. J’espère que notre groupe nous « survivra » ! La vie au laboratoire n’aurait pas été la même sans la présence des doctorants avec qui nous avons partagé nos souffrances autour d’un café ! Issaka, Kankoé, Martine, Seydou, Sissoko : merci pour tous ces moments de détente, pour les répétitions mais aussi les ballades dans les calanques (à refaire absolument). Parmi tous les stagiaires qui sont passés par Marseille, je tenais à mentionner Juste devenu thésard, Claire la marathonienne toujours prête à expliquer les stats et Romain aussi fort en « vannes » qu’en connaissance approfondie de la Grande Comore. Merci pour vos encouragements et vos conseils. Avec ou sans les stats, on va se revoir, j’en suis certaine. Merci à mes anciens collègues de bureau qui m’ont initiée aux pauses café, Anna et Hocine. Merci à Khadim qui a su me supporter moi et mes nombreux changements d’algorithme. Merci pour ta patience et ton esprit d’équipe (même si tu soutiens le PSG, mais c’est un autre débat...). Merci aux membres du SESSTIM et plus particulièrement à ceux que j’ai côtoyés à la Timone : Jean-Charles, Julien, Gérard, Bernard, Alain et surtout Farida et Geneviève. Vous avez tous joué un rôle clé à différents moments de ce parcours du combattant et m’avez soutenue mentalement et techniquement ! 1. membres des Hospices Civils de Lyon ii Remerciements Je n’aurais jamais fait cette thèse sans les membres du CMI 2 : Laurent Cavalier, Florent Autin, Etienne Pardoux, Marie-Christine Roubaud, Thomas Willer et Bernard Coupet (pour ne citer qu’eux). Vous m’avez ré-orientée (bien malgré moi au début) vers un domaine que je ne connaissais pas et que vous m’avez fait découvrir et aimer. Tout simplement, merci ! Adil, tu as été un confident incroyable et tu m’as toujours donné de bons conseils. Je t’en remercie et espère avoir de nouveau l’occasion d’écouter tes histoires autour d’un bon café ! Célia, est-il vraiment utile de te dire que ta venue au SESSTIM a été une bénédiction pour moi (et pour les autres aussi) ? J’ai trouvé en toi une collègue de travail géniale, une femme intelligente et... une partenaire de tennis avec qui j’ai eu les plus grands fous rire au cours de cette dernière année. Merci pour tout. J’ai rarement trouvé des collègues avec qui j’étais autant « compatible ». J’espère que notre binôme pourra se reformer, autant sur le terrain que devant un écran d’ordinateur. Merci aux amis de toujours, qui m’ont portée et supportée : la famille Ledain (mes jambes vous remercient encore pour Platé), Valérie et Christophe (promis, on va se voir plus souvent), Roxane et Jérémy (à quand une partie de football américain avec Léo et Lisannna ?) et Stéphane Brull (j’ai finalement suivi ta voie !). Un merci tout particulier à Monsieur le Professeur Gérard Fardoux : vous avez cru en moi alors que je faisais mes premiers pas à la fac, et vous n’avez cessé d’y croire. Merci à ma famille : les Grecs de Grèce, les Grecs de Paris, les Marseillais-Corses et les Marseillais-Italiens ! Nathalie, on reprend notre série de concerts bientôt, compte sur moi ! Merci à mes filleules, Julie et Noélie qui, malgré leur jeune âge, ont compris que Marraine devait travailler. « Le temps perdu ne se rattrape plus » mais on va essayer ! Enfin, Je n’aurais pas survécu à ces quatre années sans Claudine et ma mère. Claudine, tu m’as poussée et soutenue comme toi seule sais le faire. Sans toi, je ne serais pas là. Maman, ne minimise pas ta participation à ce travail qui n’aurait jamais abouti sans ta patience sans limite et ton amour. 2. Centre de Mathématiques et d’Informatique iii Table des matières Table des figures viii Liste des tableaux xii Valorisation xiv Abréviations xvi Introduction générale I Notions préliminaires 1 Notations et définitions . . . . . . . . . . . . . 2 Distribution d’une durée de survie . . . . . . . 3 Le concept de censure . . . . . . . . . . . . . 4 Méthodes d’estimation en analyse de survie . 4.1 Modèles univariés . . . . . . . . . . . . 4.1.1 L’estimation de Kaplan-Meier 4.1.2 L’estimation de Nelson-Aalen 4.2 Modèle multivarié : le modèle de Cox . 1 . . . . . . . . 5 5 6 7 9 9 9 10 10 II La survie nette 1 Concepts de survie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 La survie observée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 La survie nette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 13 13 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv Table des matières . . . . . . . . . . 15 17 17 19 20 21 21 23 26 30 III Tables de mortalité 1 Définition et problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Construction de tables de mortalité stratifiées sur un/des facteurs pronostiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès . . . . . . . . . . . . . . . . . 3.1 Étapes communes aux différentes simulations . . . . . . . . . . . . . . . 3.1.1 Construction des tables de mortalité . . . . . . . . . . . . . . . 3.1.2 Génération des données de survie . . . . . . . . . . . . . . . . . 3.1.3 Estimation des effets de facteurs pronostiques sur la mortalité en excès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Mesures du biais . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Principaux résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Simulations complémentaires . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Variation des proportions . . . . . . . . . . . . . . . . . . . . . 3.3.2 Augmentation de l’effet de X sur la mortalité en excès . . . . . 3.4 Analyse sur données réelles complémentaires . . . . . . . . . . . . . . . . 4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 2 3 4 1.3 La survie relative . . . . . . . . . . . . Notations et définitions . . . . . . . . . . . . . 2.1 Au niveau individuel . . . . . . . . . . 2.2 Au niveau de la population . . . . . . . 2.3 Un pas vers les processus de comptage Méthodes d’analyse de la survie nette . . . . . 3.1 Survie cause-spécifique . . . . . . . . . 3.2 Méthodes non paramétriques . . . . . . 3.3 Méthodes paramétriques . . . . . . . . Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . IV Comparaison de distributions de survie nette 1 Comparaison de survies nettes à temps fixé . . . . . . . . . . . . 2 Comparaison de distributions de survie nette . . . . . . . . . . . 2.1 Un test de type log-rank pour comparer des distributions 2.1.1 Le test du log-rank usuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 35 35 35 40 44 45 46 60 60 63 64 66 68 . . . . . . . . . 69 . . . . . . . . . 69 de survie nette 70 . . . . . . . . . 70 v Table des matières 3 2.1.2 Adaptation à la survie nette . . . . . . . . . . . . . . . . . . . . 2.1.3 Génération des données de survie pour les études de simulations 2.2 Simulations complémentaires . . . . . . . . . . . . . . . . . . . . . . . . . Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 71 107 107 V Études des variations spatiales 109 1 La méthode CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 1.1 Principe général de la méthode CART et vocabulaire relatif aux arbres de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 1.1.1 Construction de l’« arbre maximal » . . . . . . . . . . . . . . . 114 1.1.2 Élagage et arbre final . . . . . . . . . . . . . . . . . . . . . . . 115 1.2 CART : une méthode de détection de clusters . . . . . . . . . . . . . . . 118 1.3 CART : application à des données de survie brute . . . . . . . . . . . . . 118 2 La méthode SpODT pour les pathologies aiguës . . . . . . . . . . . . . . . . . . 122 2.1 La méthode initiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 2.2 Les améliorations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 3 Adaptation de la méthode SpODT à la survie nette . . . . . . . . . . . . . . . . 148 3.1 Idée générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 3.2 Étude des performances de SpODT « survie nette » . . . . . . . . . . . . 151 3.2.1 Principe de générations des données . . . . . . . . . . . . . . . 151 3.2.2 Choix des critères d’arrêt et du paramètre de complexité . . . . 154 3.2.3 Méthodes de lecture d’un arbre . . . . . . . . . . . . . . . . . . 156 3.2.4 Résultats de l’étude de cas . . . . . . . . . . . . . . . . . . . . . 156 3.2.5 Résultats de l’étude de simulations . . . . . . . . . . . . . . . . 164 4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 Conclusion générale et perspectives 169 Annexe A 173 Annexe B 177 1 Définitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 2 Application sur un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180 Annexe C 185 vi Annexe D 188 1 Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 2 Choix des paramètres et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 188 Références bibliographiques 192 Table des figures 8 I.1 Exemple de fonctions de risque instantané. . . . . . . . . . . . . . . . . . . . . II.1 Modèle à deux risques concurrents : le cancer étudié et les autres causes de décès. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 III.1 Taux de mortalité d’individus masculins issus des tables américaines entre 1940 et 2004. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III.2 Taux de mortalité d’individus masculins issus des tables américaines stratifiées sur l’ethnie en 2004. Comparaison avec les taux de la population globale. . . . III.3 Taux de mortalité d’individus masculins issus des tables construites et des tables américaines stratifiées ou non sur l’ethnie en 2004. . . . . . . . . . . . . III.4 Répartition de la variable X selon la classe de la variable age en cas de corrélation positive et négative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III.5 Forme du taux de base λ0 choisi pour générer les temps de survie en excès, TE,i : fonction de Weibull généralisée avec ρ = 0, 5, α = 0, 2 et κ = 2. . . . . . III.6 Biais relatifs pour l’estimation de l’effet de age sur la mortalité en excès dans la simulation de référence et dans la simulation où des tables différentes sont utilisées dans les étapes de génération et d’estimation. . . . . . . . . . . . . . III.7 Biais relatifs pour l’estimation de l’effet de X sur la mortalité en excès dans la simulation de référence et dans la simulation où des tables différentes sont utilisées dans les étapes de génération et d’estimation. . . . . . . . . . . . . . III.8 Tables construites pour l’étape de génération dans les cas où la proportion d’individus ayant la modalité X = 0 est de 10% et de 90%. . . . . . . . . . . . 36 37 39 41 43 61 62 63 V.1 V.2 V.3 V.4 V.5 V.6 V.7 V.8 V.9 V.10 V.11 V.12 V.13 V.14 V.15 V.16 V.17 V.18 Exemple illustratif d’une zone géographique présentant des communes où la survie nette est élevée (en vert) ou faible (en rouge). . . . . . . . . . . . . . . 109 Exemple illustratif de découpage d’une zone géographique présentant deux clusters où la survie nette est élevée (cluster avec communes en vert) ou faible (cluster avec communes en rouge). . . . . . . . . . . . . . . . . . . . . . . . . 110 Salaire de joueurs de baseball en fonction du nombre de coups sûrs et du nombre d’années passées en ligue majeure. Les salaires les plus faibles sont en violet et bleu, les salaires « moyens » sont en vert et les plus élevés sont en orange et rouge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 Un arbre de régression obtenu à partir du jeu de données « Hitters ». . . . . . 114 « Arbre maximal » obtenu à partir du jeu de données « Hitters » avec 6 variables explicatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données « Hitters » avec 6 variables explicatives. . . . . . . . . . . . . . . . . . . . . . 117 Arbre optimal obtenu à partir du jeu de données « Hitters » avec 6 variables explicatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Exemple illustratif : création, à partir du jeu de données « Hitters », d’un cluster géographique de salaires élevés (zone grise). . . . . . . . . . . . . . . . 118 Arbre maximal obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. . . . . . . . . . . . . . . . . . . . 119 Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. . . . 120 Arbre optimal obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. . . . . . . . . . . . . . . . . . . . 120 Découpage géographique obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. . . . . . . . . . . . . . 121 Arbre obtenu à partir du jeu de données « Stage C prostate cancer » avec CP =0,042. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Exemple d’arbre de régression produit par l’algorithme SpODT « survie nette ».149 Exemple de découpage produit par l’algorithme SpODT « survie nette » sans greffe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Exemple de découpage produit par l’algorithme SpODT « survie nette » avec greffe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 Bande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 Disque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152 V.19 V.20 V.21 V.22 V.23 V.24 V.25 V.26 V.27 V.28 V.29 V.30 V.31 V.32 V.33 B.1 B.2 B.3 B.4 B.5 B.6 V-shape. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rotated Square . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Bande « élargie ». . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (3, 1, 1) lorsque le cluster est une bande. . . . . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (3, 10, 10) lorsque le cluster est une bande. . . . . . . . Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,002 lorsque le cluster est une bande. . . . . . . . . . . . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (5, 1, 1) lorsque le cluster est un disque. . . . . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (5, 1, 1) lorsque le cluster est un disque. . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,002 lorsque le cluster est un disque. . . . . . . . . . . . . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (4, 1, 1) lorsque le cluster est un V-shape. . . . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (4, 1, 1) lorsque le cluster est un V-shape. . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,01 lorsque le cluster est un V-shape. . . . . . . . . . . . . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (5, 1, 1) lorsque le cluster est un rotated square. . . . . . . . . Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (5, 1, 1) lorsque le cluster est un rotated square. . . . . Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,004 lorsque le cluster est un rotated square. . . . . . . . . . . . . . . . Exemple illustratif d’une zone géographique présentant trois communes survie nette est élevée. . . . . . . . . . . . . . . . . . . . . . . . . . . . Angle critique θ16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rotation de l’axe des abscisses d’angle θ inférieur à θ16 . . . . . . . . . . Rotation de l’axe des abscisses d’angle θ supérieur à θ16 . . . . . . . . . Exemple naïf : 8 points à « séparer ». . . . . . . . . . . . . . . . . . . . Découpage du plan en plusieurs secteurs angulaires. . . . . . . . . . . . où la . . . . . . . . . . . . . . . . . . . . . . . . 152 152 153 158 158 158 160 160 160 161 161 161 163 163 163 177 178 179 179 180 180 B.7 B.8 Ordre des abscisses avant rotation. . . . . . . . . . . . . . . . . . . . . . . . . Ordre des « abscisses » projetées sur l’axe des abscisses qui a subi une rotation de θ avec θ > θ16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.9 Premier découpage défini par la droite violette. . . . . . . . . . . . . . . . . . B.10 Les deux premiers découpages définis par les droites violettes. . . . . . . . . . B.11 Les trois découpages définis par les droites violettes. . . . . . . . . . . . . . . B.12 Découpages et segments candidats à la greffe. . . . . . . . . . . . . . . . . . . D.1 D.2 D.3 181 182 182 183 183 184 Arbre obtenu par la méthode SpODT « survie nette » sur données réelles de l’Isère (patients atteints d’un cancer colo-rectal). . . . . . . . . . . . . . . . . 189 Carte obtenue par la méthode SpODT « survie nette » après greffe sur données réelles de l’Isère (patients atteints d’un cancer colo-rectal). . . . . . . . . . . . 190 Estimations de la survie nette estimées par l’estimateur Pohar-Perme (PPE) pour les cinq classes obtenues par la méthode SpODT « survie nette » sur données réelles de l’Isère (patients atteints d’un cancer colo-rectal). Les couleurs des cinq courbes représentent les cinq classes trouvées par la méthode et illustrées par des couleurs identiques sur la figure D.2. . . . . . . . . . . . . . 191 Liste des tableaux II.1 III.1 III.2 III.3 III.4 Survies observée (obs) et relative (rel) en Europe pour les néoplasmes malins diagnostiqués entre 1990 et 1994 – tableau extrait de Sant et al. (2003). . . . . 16 Une observation non « splittée ». . . . . . . . . . . . . . . . . . . . . . . . . . Une observation « splittée ». . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tableau récapitulatif des différentes scénarios étudiées dans l’article. . . . . . Description des données du SEER : patients atteints d’un cancer colorectal diagnostiqué en 1998. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III.5 Résultats des analyses sur données réelles du SEER. . . . . . . . . . . . . . . 44 45 59 65 65 IV.1 Comparaison de 2 groupes : proportion de rejet de l’hypothèse nulle au seuil de significativité de 5% pour 2000 simulations de 1000 patients ((H0 ) : ΛE,G=1 = ΛE,G=2 pour le test proposé et (H0 ) : βG = 0 pour le test du rapport de vraisemblance). Distribution de l’âge spécifique à chaque scénario : Scénario 1 : 25% de patients entre 40 et 64 ans, 35% de patients entre 65 et 74 ans et 40% entre 75 et 85 ans ; Scénario 2 : 30 ≤ age ≤ 40 (uniforme) ; Scénario 3 : 65 ≤ age ≤ 80 (uniforme). † : Hazard Ratio de G sur la mortalité en excès utilisé dans l’étape de génération, où G est la variable représentant les groupes ; ‡ : Intervalle de confiance à 95%. . . . . . . . . . . . . . . . . . . . . 108 V.1 Tableau des paramètres de complexité (sortie R) pour l’exemple des données « Stage C prostate cancer » où CP désigne le paramètre de complexité, nsplit désigne le nombre de découpages, rel error mesure l’erreur apparente (erreur d’entraînement), xerror mesure le taux d’erreur dans la validation croisée et xstd est l’écart-type de l’erreur de validation croisée. . . . . . . . . . . . . . . V.2 Répartiton du nombre de communes de petites, moyennes et grandes tailles dans et hors-cluster dans l’étude de cas. . . . . . . . . . . . . . . . . . . . . . V.3 Répartiton du nombre de communes de petites, moyennes et grandes tailles dans et hors-cluster dans l’étude de simulations. . . . . . . . . . . . . . . . . . V.4 Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est une bande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V.5 Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est un disque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V.6 Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est un V-shape. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V.7 Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est un rotated square. . . . . . . . . . . . . . . . . . . . . . . . . . . V.8 Choix des meilleurs paramètres (extrait) pour la méthode SpODT « survie nette » sur 50 jeux de données pour un cluster de la forme d’une bande. . . . V.9 Choix des meilleurs paramètres (extrait) parmi 440 combinaisons pour la méthode SpODT « survie observée » sur 50 jeux de données pour un cluster de la forme d’une bande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V.10 Choix des meilleurs paramètres pour la méthode CART sur 50 jeux de données pour un cluster de la forme d’une bande. . . . . . . . . . . . . . . . . . . . . . V.11 Simulations : résultats pour 1000 jeux de données en termes de performances des trois méthodes lorsque le cluster est une bande. . . . . . . . . . . . . . . . C.1 121 154 154 157 159 159 162 164 164 165 166 Choix des meilleurs paramètres parmi 90 combinaisons pour la méthode SpODT « survie nette » sur 50 jeux de données pour un cluster de la forme d’une bande.187 Valorisation scientifique Publications • Grafféo, N., Jooste, V., and Giorgi, R. (2012). The impact of additional life-table variables on excess mortality estimates. Statistics in medicine, 31(30) :4219-4230 • Gaudart, J., Grafféo, N., Coulibaly, D., Barbet, G., Rebaudet, R., Dessay, N., Doumbo O.K. and Giorgi, R. SPODT : an R-package to perform spatial partitioning. (révisions mineures dans Journal of Statistical Software) • Grafféo, N., Castell, F., Belot, A. and Giorgi, R. A log-rank type test to compare net survival distributions. (soumis) Communications orales • (Invitée) Grafféo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. Statistics seminars / ARC Seminar « Semiparametric inference for survival and cure models », Université Catholique de Louvain (Belgique, 2014) • Grafféo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. ENCR Scientific Meeting and General Assembly, Ispra (Italie, 2014)) • Grafféo N, Castell F, Belot A, Giorgi R and the CENSUR working survival group. Generalization of a log-rank type test to compare net survival distributions. 35th annual conference of International Society for Clinical Biostatistics, Vienne (Autriche) • Grafféo N, Gaudart J, NDiaye K, Giorgi R and the CENSUR working survival group. Oblique Decision Trees for Spatial Clusters Detection of Net Cancer Survival Rates. 35th annual conference of International Society for Clinical Biostatistics, Vienne (Autriche, 2014)) • Touraine C, Grafféo N, Giorgi R and the CENSUR working survival group. An excess hazard model adjusting for lack of additional life table variables. 35th annual conference of International Society for Clinical Biostatistics, Vienne (Autriche, 2014) • (Invitée) Grafféo N, Giorgi R. Non-matching life tables and impact. European Partnership for Action Against Cancer WP9 Satellite Meeting, State of Art of Methods for the Analysis of Population-Based Cancer Data, Ispra (Italie, 2014) • Grafféo N, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. 34th annual conference of International Society for Clinical Biostatistics, Munich (Allemagne, 2013) • Giorgi R, Grafféo N. The impact of additional life table variables on excess mortality estimates. 32th annual conference of International Society for Clinical Biostatistics, Ottawa (Canada, 2011) • Giorgi R, Grafféo N. The impact of additional life table variables on excess mortality estimates. Workshop on Methods for investigation of the influence of social environment on cancer risk, management and prognosis with data from cancer registries. Groupe des Registres de Langue Latine, Caen (France, 2011) Package • Gaudart, J., Grafféo, N., Barbet, G., Fichet, B., and Giorgi, R. (2014). SPODT : Spatial Oblique Decision Tree. R package version 0.9. Abréviations et notations Projets/Financements CENSUR Challenges in the Estimation of Net SURvival ANR-12-BSV1-0028 coord : Pr. Roch Giorgi COMPNETS Tests de comparaisons de la survie nette par cancer INCa SHS-E-SP 2013 coord : Pr. Roch Giorgi DISSNET Spatial health DISparities : method for analysis Cancéropôle PACA of geographic variations of NET cancer survival coord : Pr. Roch Giorgi MESURE Méthodes d’Estimation de la SURvie RElative ANR-09-BLAN-0357-01 coord : Pr. Roch Giorgi Abréviations CART EUROCARE FN FP Francim GLM HCL HR IC95% INCa InVS RMSE SEER SpODT VN VP vs. Classification And Regression Tree EUROpean CAncer REgistry Faux Négatifs Faux Positifs France–cancer–incidence et mortalité Modèle linéaire généralisé (Generalized Linear Model) Hospices Civils de Lyon Rapport des risques instantanés (Hazard ratios) Intervalle de confiance au seuil de significativité 0,95 Institut National du Cancer Institut national de Veille Sanitaire Erreur quadratique moyenne (Root Mean Square Error) Surveillance, Epidemiology and End Results Spatial Oblique Decision Tree Vrais Négatifs Vrais Positifs versus Notations 1() u+ n Ti Ci Ui δi TE,i TP,i Xi Di fonction indicatrice = 1 si u > 0 = 0 sinon effectif durée de survie du patient i temps de censure du patient i temps d’observation du patient i statut du patient i temps de survie du patient i lié au cancer temps de survie du patient i lié à la mortalité attendue dans la population générale vecteur des covariables (facteurs pronostiques) du patient i vecteur des covariables démographiques du patient i Au niveau individuel S̃O,i S̃E,i S̃P,i λ̃O,i λ̃E,i λ̃P,i Λ̃O,i Λ̃E,i Λ̃P,i fonction de survie observée individuelle du patient i fonction de survie nette individuelle du patient i fonction de survie attendue individuelle du patient i taux instantané de mortalité observée individuel du patient i taux instantané de mortalité en excès individuel du patient i taux instantané de mortalité attendue individuel du patient i taux cumulé de mortalité observée individuel du patient i taux cumulé de mortalité en excès individuel du patient i taux cumulé de mortalité attendue individuel du patient i Au niveau de la population SO SE SP λO λE λP ΛO ΛE ΛP fonction de survie observée fonction de survie nette fonction de survie attendue taux instantané de mortalité observée taux instantané de mortalité en excès taux instantané de mortalité attendue taux cumulé de mortalité observée taux cumulé de mortalité en excès taux cumulé de mortalité attendue Introduction générale Le cancer, maladie décrite depuis l’Antiquité, doit son nom à Hippocrate (460-377 avant J-C) qui, en comparant l’aspect de certaines tumeurs à un crabe, leur a donné les noms grecs de « karkinos » et « karkinoma ». Sur le plan biologique, la maladie se caractérise par une production cellulaire excessive, anarchique et incontrôlée ; on parle alors de tumeur maligne par opposition aux tumeurs bénignes qui sont limitées et localisées. En l’absence d’intervention ou en cas d’échec thérapeutique, la maladie évolue. Pour décrire le « niveau » de la maladie, on distingue des stades, qui dépendent de l’étendue et du volume de la tumeur. Grossièrement 3 , les quatre stades sont d’après l’Institut National du Cancer (INCa) 4 1. le stade I qui correspond à une tumeur unique et de petite taille ; 2. le stade II qui correspond à un volume local plus important ; 3. le stade III qui correspond à un envahissement des ganglions lymphatiques ou des tissus avoisinants ; 4. le stade IV qui correspond à une extension plus large dans l’organisme sous forme de métastases. Dans une étude de l’Institut de Veille Sanitaire (InVS) sur l’incidence des cancers et la mortalité en France entre 1980 et 2012, Binder-Foucard et al. (2013) ont estimé le nombre de nouveaux cas de cancer à 355 354, ce qui constitue une hausse d’environ 110% par rapport à l’année 1980. Ils ont expliqué cette hausse par l’augmentation et le vieillissement de la population (la majorité des cas survenant chez les patients âgés). 3. Il existe une définition médicale plus rigoureuse qui repose sur le TNM, système de classement combinant l’extension tumorale locale (T1 à T4), régionale – ganglionnaire – (N0 à N3) et métastatique (M0 ou M1). 4. http://www.e-cancer.fr/cancerinfo/les-cancers/generalites/les-etapes-de-la-maladie 1 Introduction générale Première cause de mortalité en France chez les hommes et deuxième chez les femmes, les cancers causent près de 150 000 décès chaque année. Dans le monde, en 2012, les cancers ont causé 8,2 millions de décès (International Agency for Research on Cancer, 2014). Une étude du groupe EUROCARE (EUROpean CAncer REgistry) a montré que la mortalité associée au cancer diminue en Europe, même si des différences subsistent entre pays (De Angelis et al., 2014). Ce recul est attribué à des avancées majeures dans le traitement du cancer mais aussi à l’instauration de programmes de dépistage. Des disparités se retrouvent, à un niveau moindre, en France où le troisième Plan cancer 2014-2019 accorde une place importante à la lutte contre les inégalités face au cancer (Plan Cancer, 2014) : « Le combat contre les inégalités de santé et d’accès aux soins constitue l’un des enjeux prioritaires de la stratégie nationale de santé. C’est également une priorité fixée par le président de la République pour ce Plan cancer conçu comme « un véritable Plan de lutte contre les inégalités ». La volonté de réduire les inégalités sociales, territoriales et économiques face à la maladie se traduit dans tous les domaines, qu’il s’agisse de prévention, de dépistages ou de soins. » Au niveau mondial, ce sont les registres de cancer qui sont chargés de la surveillance épidémiologique des cancers et du recueil des nouveaux cas dans une zone géographiquement définie. On peut notamment citer le programme américain SEER (Surveillance, Epidemiology and End Results) qui collecte et publie des données sur l’incidence des cancers et des données de survie à partir de registres de cancer, recouvrant ainsi 28% de la population des États-Unis (SEER Program, 2006). Un autre exemple est celui du groupe EUROCARE dont la base de données contient approximativement 22 millions de patients diagnostiqués entre 1975 et 2007 (données fournies par 177 registres de cancer de 29 pays européens). En France, les registres de cancer sont regroupés dans le réseau Francim (FRANce-Cancer-Incidence et Mortalité). En 2012, le réseau comportait 14 registres généraux métropolitains couvrant 15 départements répartis sur l’ensemble du territoire et 12 registres spécialisés dont 2 registres nationaux de l’enfant 5 . Les données collectées par les registres sont rassemblées dans une base commune gérée par le service de Biostatistique des Hospices civils de Lyon (HCL). Cette base est administrée par le réseau Francim, les HCL, l’InVS et l’INCa. Cette approche centralisée a facilité l’émergence de projets collaboratifs. Ainsi, la première étude de survie portant sur l’ensemble des données des registres de cancer du réseau Francim a été publiée en 2007 (Grosclaude et al., 2007). 5. Données provenant du site de l’InVS, accessibles via l’url http://www.invs.sante.fr/Dossiers-thematiques/Maladies-chroniques-et-traumatismes/Cancers/ Surveillance-epidemiologique-des-cancers/Incidence-observee-dans-les-registres/Incidenceobservee-dans-les-departements-couverts-par-les-registres-Francim-entre-1978-1982-et-20082009 2 Introduction générale Une mesure clé de l’efficacité des systèmes de soins de santé utilisée par les registres de cancer dans le monde et, plus généralement, dans les études sur population, est l’estimation de la survie nette. La survie nette représente la survie qui serait observée dans un monde hypothétique où l’on ne pourrait décéder que de la maladie étudiée. Ce concept purement théorique est essentiel dès que l’on souhaite comparer la survie associée au cancer étudié entre plusieurs périodes, plusieurs pays ou plusieurs zones d’un même pays (voir par exemple Grosclaude et al., 2013; De Angelis et al., 2014; Coleman et al., 2008; Young et al., 1986). En effet, parmi les causes identifiées de l’inégalité face à la mortalité due au cancer, on retrouve notamment des facteurs socio-économiques, l’ethnicité ou encore des facteurs environnementaux. Cependant, ces facteurs peuvent aussi impacter la mortalité de toute une population et lorsque l’on observe une différence de mortalité entre des patients suivis par deux registres de cancer par exemple, il est nécessaire de différencier : – la part due à la mortalité générale i.e. à d’autres causes de décès que le cancer étudié (auxquelles toute la population est soumise) ; – la part due au cancer étudié, appelée mortalité en excès. Ainsi, en s’affranchissant des autres causes de décès, la survie nette se situe dans un cadre qui ne correspond pas à la réalité mais qui permet des comparaisons entre pays et périodes. Par exemple, supposons que l’on souhaite étudier l’efficacité d’une campagne de dépistage à une période donnée et que l’on constate une amélioration de la survie après la mise en œuvre de cette campagne : elle peut être le résultat d’une diminution de la mortalité de la population générale ou à une diminution de la mortalité due à ce cancer (ou les deux). Mais si l’on constate une amélioration de la survie nette après la mise en œuvre de cette campagne, cela signifie que la mortalité associée au cancer était plus élevée avant la mise en œuvre de cette campagne. Danieli et al. (2012) ont montré que, parmi les estimateurs existants, il n’y a que deux estimateurs consistants de la survie nette : (1) l’estimateur non paramétrique Pohar-Perme (Perme et al., 2012) ; et (2) l’estimateur paramétrique reposant sur un modèle multivarié ajusté sur des covariables démographiques (telles que l’âge ou le sexe). L’objectif de cette thèse était triple : 1. Les deux estimateurs précités reposent sur l’utilisation des tables de mortalité pour approcher la mortalité attendue dans la population générale. Or, ces tables ne fournissent pas toutes la même « quantité d’information ». Nous avons voulu étudié l’impact que peut avoir un tel manque d’information sur l’estimation de la survie nette. Nous avons choisi de le faire en utilisant un modèle multivarié (méthode paramétrique) car notre intérêt portait plus particulièrement sur les biais potentiels dans l’estimation des effets 3 Introduction générale des facteurs pronostiques sur la mortalité en excès. C’est ce que nous présentons dans le Chapitre III. 2. Le principal intérêt de la survie nette résidant dans le fait qu’elle permet des comparaisons entre pays ou régions d’étude (indépendamment de la mortalité attendue dans les zones considérées), nous avons construit un test statistique permettant de comparer des distributions de survie nette entre plusieurs groupes. Ce test repose sur l’estimateur Pohar-Perme et fait l’objet du Chapitre IV. 3. Enfin, l’existence de disparités spatiales en matière de survie nette nous a conduit à utiliser le test que nous avions construit dans une méthode de détection de clusters. Nous présentons cette partie de notre travail dans le Chapitre V. Les deux premiers chapitres de ce manuscrit constituent une introduction à la survie nette, concept qui est le cœur de cette thèse. Dans le Chapitre I, nous exposons les notions préliminaires d’analyse de survie que nous utiliserons par la suite. Dans le Chapitre II, nous définissons différents concepts de survie, parmi lesquels celui de la survie nette. Un historique des différents estimateurs qui ont été proposés pour estimer la survie nette permet de bien comprendre l’intérêt des estimateurs que nous avons choisi d’utiliser dans nos travaux. Le Chapitre III est consacré aux tables de mortalité qui sont indispensables dans les estimations de la survie nette. Nous expliquons le « manque d’information » que peuvent présenter certaines tables et les méthodes qui ont été proposées pour y remédier. Ces méthodes n’étant généralement pas applicables par manque de données brutes, nous étudions l’impact de ce manque d’information sur les estimations des effets de facteurs pronostiques sur la mortalité en excès. Le Chapitre IV présente deux tests reposant sur l’estimateur Pohar-Perme de la survie nette. Le premier est une adaptation d’un Z-test et compare des estimations de survie nette à un temps t prédéfini. Le second est un test de type log-rank qui compare les distributions de survie nette entre plusieurs groupes. Sa construction a nécessité une approche utilisant les processus stochastiques. Enfin, dans le Chapitre V, nous proposons une méthode de détection de clusters de survie nette. Cette méthode est une adaptation de la méthode SpODT (Spatial Oblique Decision Tree), qui est elle-même une extension de la méthode CART (Classification And Regression Tree). La méthode SpODT fournit des découpages obliques de l’espace, qui sont des zones « différentes » en termes de risques ou de survie nette. Notons que du fait de notre intérêt pour cette méthode, nous avons été impliqués dans certains développements, notamment la création d’un package R. Les annexes fournissent des compléments et seront indiquées dans les chapitres concernés. 4 Chapitre I Notions préliminaires L’analyse de survie est usuellement définie comme l’étude du délai de la survenue au cours du temps d’un événement d’intérêt, comme une panne de machine dans le domaine de la fiabilité, ou un décès, une rechute ou une rémission dans le domaine médical. Dans le cadre de cette thèse, nous considérons que l’évènement d’intérêt est le décès. La caractéristique principale des données de survie est la présence de « données incomplètes » lorsque l’évènement d’intérêt n’a pas encore été observé à la fin de l’analyse. Ces données sont dites censurées ; nous reviendrons plus en détails sur ce phénomène dans un prochain paragraphe. Dans ce chapitre, nous énoncerons les notions de base requises pour la compréhension des autres chapitres et donnerons les expressions mathématiques des fonctions d’intérêt en analyse de survie. Enfin, nous exposerons, très brièvement, les principales méthodes d’estimation de la survie. 1 Notations et définitions Pour mener à bien une analyse de survie sur population, il est nécessaire de connaître pour chaque patient quelques données. La date d’origine est la date à partir de laquelle le patient est observé. Dans notre cas, cela correspondra à la date de diagnostic de cancer. Dans le cadre d’essais cliniques, il peut s’agir de la date d’entrée dans l’étude. La date des dernières nouvelles est la date la plus récente à laquelle on a recueilli des informations sur le patient. À cette date, nous disposons du statut aux dernières nouvelles. Dans notre cas, cela signifie que l’on sait si le patient est vivant ou décédé. La date de point est commune à tous les individus de la cohorte puisqu’il s’agit de la date d’arrêt de l’étude. À partir de cette date, on ne tient plus compte des informations dont on peut éventuellement disposer sur certains patients. 5 I.2 Distribution d’une durée de survie Ces données nous permettent de calculer le recul, qui est le délai entre la date d’origine et la date de point. Enfin, il est possible de calculer le temps de suivi qui est la durée entre la date d’origine et – la date des dernières nouvelles si celle-ci est antérieure à la date de point ; – la date de point sinon. La durée de survie est la durée entre la date d’origine et la survenue de l’évènement d’intérêt, c’est-à-dire du décès. Elle correspond au temps de suivi lorsque le décès est observé avant la date de point. 2 Distribution d’une durée de survie Soit T une variable aléatoire positive ou nulle représentant une durée de survie. Nous supposerons tout au long de cette thèse que T est absolument continue. Définissons les fonctions qui caractérisent la loi de probabilité de T . Notons que chacune d’entre elles peut être obtenue à partir de l’une des autres. La fonction de survie S fait correspondre à un temps t la probabilité de survivre jusqu’à l’instant t: S(t) = P (T > t). C’est une fonction monotone, décroissante et continue vérifiant : S(0) = 1 et lim S(t) = 0 t→∞ (I.1) La fonction de répartition F fait correspondre à un temps t la probabilité de décéder avant le temps t : F (t) = P (T ≤ t) = 1 − S(t). La densité de probabilité f est la fonction de t définie par : P (t ≤ T < t + h) . hց 0 h f (t) = lim Elle représente la probabilité instantanée de décéder dans un petit intervalle de temps après t. En tout point t de continuité de f , on a F dérivable en t et f (t) = F ′ (t) = −S ′ (t). Dans ce manuscrit, nous ferons l’hypothèse que les durées de survie ont une densité de probabilité continue. La fonction de risque instantané, aussi appelée taux instantané ou encore taux de mortalité 6 I.3 Le concept de censure instantané 1 , et notée λ, est la fonction de t définie par : f (t) d P (t ≤ T < t + h|T ≥ t) = = − ln(S(t)). hց 0 h S(t) dt λ(t) = lim Elle représente la probabilité de décéder dans un petit intervalle de temps après t, conditionnellement au fait d’avoir survécu jusqu’au temps t. La fonction de risque cumulé, aussi appelée taux de mortalité cumulé, est la fonction de t définie par : Z Λ(t) = t 0 λ(u)du = − ln(S(t)). La fonction de survie s’exprime donc en fonction du taux de mortalité cumulé (ou du taux instantané) par la relation suivante : S(t) = exp(−Λ(t)) = exp − Z t 0 λ(u)du . (I.2) Hill et al. (1990) citent des exemples concrets de description d’une distribution de survie par la fonction de risque instantané. Ainsi, un risque constant, représenté par les points bleus sur la figure I.1, indique que le risque instantané est indépendant du temps. C’est le cas chez les 5-15 ans dans les populations occidentales où la mortalité est principalement due aux accidents. Un risque croissant, représenté par les points noirs sur la figure I.1, est typiquement observé chez les adultes. À l’inverse, un risque décroissant, représenté par les points rouges sur la figure I.1, est caractéristique de la mortalité chez les enfants de moins d’un an. 3 Le concept de censure La spécificité des données de survie est que l’on dispose de « données incomplètes » dans le sens où le décès n’est pas forcément observé durant le temps de suivi. Plusieurs types de censure existent et nous nous limiterons, dans le cadre de cette thèse, à la censure dite censure aléatoire à droite. Soit Ci une variable aléatoire positive ou nulle représentant le temps de censure pour le patient i et Ti sa durée de survie. La durée Ti est dite censurée à droite si Ci < Ti . Le temps d’observation du patient i est alors Ui := min(Ti , Ci ) et son statut est donné par δi := 1(Ti ≤ Ci ) qui vaut 1 si le patient est décédé et 0 s’il est censuré. Les causes de censure à droite sont variées. Dans nos études, nous rencontrerons principa1. Notons que l’on rencontre aussi le terme taux de hasard, anglicisme relatif au terme « hazard rate ». 7 I.3 Le concept de censure Figure I.1 – Exemple de fonctions de risque instantané. lement deux causes : la perte de vue et la fin de l’étude. Ainsi, un patient est perdu de vu s’il quitte l’étude avant observation de l’évènement d’intérêt (ici, le décès). Il est exclu-vivant s’il est encore vivant à la date de point. Dans les modèles classiques d’analyse de survie, on fait l’hypothèse de la censure indépendante. La censure est dite indépendante si, sachant qu’une personne est vivante en t et connaissant ses caractéristiques individuelles, le fait de savoir que cette personne n’est pas censurée ne change pas son taux de mortalité instantané (Andersen et al., 1993). Un exemple de censure indépendante est donné par une étude où l’on censurerait des patients qui partent vivre dans un autre pays 2 . À l’inverse, un exemple de censure dépendante est donné par une étude où l’on censurerait tous les patients dont l’état de santé se dégrade. Les patients qui restent dans l’étude ne sont plus représentatifs du groupe qui aurait été observé en l’absence de censure : on s’expose à un biais de sélection et il est probable que l’on surestime alors la survie. Lorsque 2. La censure n’est cependant pas indépendante si le déménagement fait suite à une dégradation de l’état des patients qui partent finir leurs jours dans cet autre pays. 8 I.4 Méthodes d’estimation en analyse de survie Ci et Ti sont indépendants (au sens usuel en probabilité), la censure est indépendante (au sens défini ci-dessus). C’est une condition suffisante mais pas nécessaire. Nous y reviendrons dans la remarque I.2 (section 4.2) où nous développerons cette notion d’indépendance dans le cas où l’on prend en compte les caractéristiques individuelles des patients. Notons qu’il existe une notion « voisine » qui est celle de la censure non informative. Nous adoptons la définition selon laquelle la censure est non informative si la connaissance de la loi de la durée de survie n’apporte aucune information sur celle du temps de censure, et réciproquement. Même si ces deux notions (« indépendante » vs. « non informative ») ne sont théoriquement pas équivalentes, elles sont souvent confondues en pratique 3 . En fait, des exemples réalistes de mécanismes informatifs mais indépendants sont difficiles à construire (voir Kalbfleisch and Prentice, 2002). Afin d’éviter toute confusion, nous éviterons le terme de « censure non informative » dans cette thèse et, lorsqu’il sera employé, nous considérerons qu’il s’agit en fait de « censure indépendante ». 4 Méthodes d’estimation en analyse de survie Nous mentionnons ici, très succinctement, les principales méthodes d’estimation en analyse de survie. En effet, celles-ci trouvent des développements dans notre travail. 4.1 4.1.1 Modèles univariés L’estimation de Kaplan-Meier L’estimateur de Kaplan-Meier est un estimateur non paramétrique de la fonction de survie. Le principe de la méthode repose sur l’idée qu’être encore en vie après un instant t, c’est être en vie juste avant cet instant t et ne pas mourir à cet instant. Ainsi, la survie à un instant quelconque est le produit de probabilités conditionnelles de survie de chacun des instants précédents. Il en découle l’estimateur : b S(t) = Y ni − di , ni ti <t 3. Des définitions plus rigoureuses existent (voir, par exemple, Andersen et al., 1993). Elles s’appuient sur des concepts avancés dans la théorie des processus, concepts que nous avons choisi de ne pas exposer dans le cadre de cette thèse. 9 I.4 Méthodes d’estimation en analyse de survie où – ti représente le temps de suivi depuis l’inclusion dans l’étude pour chaque patient i ; – ni est le nombre de sujets à risque de présenter l’évènement étudié à l’instant ti , i.e. le nombre de patients n’ayant pas encore subi l’évènement ni la censure juste avant ti ; – di est le nombre de décès au temps ti . L’évolution de l’estimation de la survie par l’estimateur de Kaplan-Meier en fonction du temps est représentée par une courbe « en escalier », avec une marche à chaque temps de décès observé. Pour comparer plusieurs courbes de survie, on peut utiliser le test du log-rank, test que nous exposerons au Chapitre IV. 4.1.2 L’estimation de Nelson-Aalen Une autre estimation du risque cumulé est donné par l’estimateur de Nelson-Aalen défini par : X di b A(t) = . ti <t ni Nous reviendrons sur l’estimateur de Nelson-Aalen dans le chapitre suivant. Remarque I.1 On peut se demander quel est le lien avec l’estimateur de Kaplan-Meier. En b fait, Breslow (1972) a suggéré un estimateur de la fonction de survie, noté ! SB (t), défini à partir Y di b de l’estimateur de Nelson-Aalen : SbB (t) = exp(−A(t)) = exp − . Lorsque le nombre de ni ti <t personnes à risque de présenter l’évènement est « grand » par rapport au nombre de décès, les di sont voisins de 0. Dans ce cas, les estimateurs de Breslow et Kaplan-Meier sont proches 4 ni (car au voisinage de 0, exp(−x) est équivalent à 1 − x). 4.2 Modèle multivarié : le modèle de Cox Le modèle de Cox (1972) permet la prise en compte simultanée de plusieurs covariables sans faire d’hypothèse sur la forme des fonctions de survie. Il s’agit d’une méthode de régression multivariée qui, comme une régression linéaire, consiste à modéliser une variable dépendante (le risque instantané de décès) par une fonction des cova4. Pour une étude détaillée, on se réfèrera à Fleming and Harrington (1984) qui ont étudié et comparé numériquement ces deux estimateurs. 10 I.4 Méthodes d’estimation en analyse de survie riables (les facteurs pronostiques 5 qui agissent sur la survie). On dispose des données usuelles de survie pour chacun des n sujets (la date d’origine, la date des dernières nouvelles, le statut vital). En notant Z le vecteur colonne des facteurs pronostiques, le modèle s’écrit : ∀t > 0 λ(t | Z) = λ0 (t) exp(β ′ Z), (I.3) où − → – λ0 est le taux de mortalité de base correspondant aux patients pour lesquels Z = 0 (fonction de risque de base commune à tous les patients, ne dépendant que du temps) ; – β ′ est le vecteur-ligne des paramètres de régression du modèle. Plus précisément, β ′ = (βj )1≤j≤m où le paramètre βj représente l’effet ajusté du facteur pronostique Zj sur le risque instantané, et m est le nombre de facteurs dans le modèle. Si Zj est un facteur binaire dont les valeurs 0 et 1 définissent deux groupes de patients, exp(βj ) est le risque relatif de décès entre ces deux groupes (patients tels que Zj = 1 par rapport aux patients tels que Zj = 0), ajusté sur les autres facteurs inclus dans le modèle. Ce modèle sous-tend deux hypothèses : – la log-linéarité ! de la relation entre fonction de risque instantané et facteurs de risque : λ(t | Z) = β ′ Z; log λ0 (t) – la proportionnalité des risques : pour deux patients i et j de caractéristiques Zi et Zj , on λ(t | Zi ) a: = exp(β ′ (Zi − Zj )), i.e. les fonctions de risque instantané des deux individus λ(t | Zj ) i et j sont proportionnelles, et leur rapport de proportionnalité est indépendant de t. Ce rapport est appelé hazard ratio, et est noté HR. Deux approches existent concernant l’estimation des paramètres du modèle. L’approche est dite semi-paramétrique si l’on estime uniquement les HRs en considérant le taux de mortalité de base comme un paramètre de nuisance. L’approche est dite paramétrique si l’on estime les HRs et le taux de mortalité de base en supposant que ce dernier suit une loi particulière (loi de Weibull ou loi exponentielle, par exemple). Notons qu’il existe un modèle de Cox avec covariables dépendantes du temps. Les HRs s’interprètent de la même manière. Nous utilisons ce modèle dans la remarque suivante. Remarque I.2 Revenons à la censure indépendante et au lien entre « censure indépendante » et « indépendance probabiliste ». Dans l’exemple de la section 3, nous considérions une étude 5. Un facteur pronostique est un aspect de la maladie d’intérêt ou une caractéristique de la personne qui peut jouer un rôle dans la prévision (par le médecin) de l’évolution probable ou de l’issue de cette maladie. 11 I.4 Méthodes d’estimation en analyse de survie dans laquelle les patients les plus à risque de décéder étaient censurés. Nous avons vu que la censure n’était pas indépendante. Reprenons maintenant cet exemple en introduisant une variable x(t) qui représente un indicateur de « mauvaise santé » au temps t. Il n’y a pas indépendance au sens probabiliste puisque la durée de survie et le temps de censure sont corrélées. Cependant, l’information additionnelle de ne pas être censuré étant capturée par x(t), λ(t | x(t)) ne change pas et la censure est indépendante (Kalbfleisch and Prentice, 2002). Notons que l’introduction d’une telle variable modifierait les estimations des effets des autres covariables sur le risque instantané et serait donc susceptible de masquer ces effets. 12 Chapitre II La survie nette 1 Concepts de survie Dans le contexte médical, plusieurs concepts de survie coexistent et mesurent des phénomènes différents. Rappelons que, dans le cadre de cette thèse, nous considérons que l’évènement d’intérêt est le décès. 1.1 La survie observée La survie observée au temps t, ou survie brute, est la proportion de patients vivants au temps t après le diagnostic, quelle que soit la cause de décès. Par exemple, une personne présentant un cancer du colon peut décéder de cette maladie mais aussi d’autres causes, spécifiques ou non à sa personne, comme un suicide ou une crise cardiaque. Ainsi, la survie observée est la résultante de deux forces de mortalité, celle à laquelle nous sommes tous exposés et celle qui est spécifique à la maladie étudiée (le cancer du colon dans notre exemple). Son interprétation est aisée mais ne reflète pas la mortalité réellement due au cancer. La mortalité et la survie pouvant se définir l’une à partir de l’autre (équation I.2), on peut dériver la mortalité observée de la survie observée. 1.2 La survie nette La survie nette est la survie qui serait observée dans un monde hypothétique où l’on ne pourrait décéder que de la maladie étudiée. C’est un concept purement théorique qui est crucial du point de vue épidémiologique lorsque l’on désire faire des comparaisons entre populations ou entre périodes dans une même zone géographique. Par exemple, supposons que l’on étudie 13 II.1 Concepts de survie des patients présentant un cancer colorectal dans deux pays A et B, et que l’on constate une meilleure survie (observée) dans le pays A. Nous ne savons pas si cette meilleure survie est due à une faible mortalité de la population générale dans le pays A par rapport au pays B et/ou à une meilleure efficacité des soins pour ce cancer dans le pays A par rapport au pays B. Mais si l’on sait que la survie nette est meilleure dans le pays A que dans le B, on peut alors dire que la mortalité associée au cancer colorectal est plus élevée dans le pays B que dans le A et l’on peut chercher les raisons de ce phénomène, comme l’utilisation d’un nouveau traitement dans le pays A par exemple. La survie nette liée au cancer est l’analogue en termes de survie de la mortalité en excès liée au cancer. Le cadre de recherche de cette thèse était l’étude de la survenue du décès après un diagnostic de cancer dans des études sur population (registres de cancer). Plus précisément, nous nous sommes intéressés principalement à des enquêtes de cohorte, même si certains points pourraient être utiles dans le cadre d’essais cliniques, comme nous le verrons dans les chapitres suivants. Au niveau mondial, les données issues de registres de cancer sont de plus en plus utilisées afin, notamment, d’étudier et d’améliorer la qualité de la prise en charge des patients au niveau de la population. On peut citer les travaux du réseau des registres français de cancer FRANCIM, du projet EUROCARE (EUROpean CAncer REgistry), du programme international CONCORD et du programme américain SEER (Surveillance, Epidemiology, and End Results) –voir, par exemple, Grosclaude et al. (2013), De Angelis et al. (2014), Coleman et al. (2008) et Young et al. (1986). Dans ce contexte, les analyses sont généralement effectuées en utilisant des méthodes d’estimation de la survie nette, concept qui est le cœur de cette thèse. Dans la recherche sur le cancer, estimer la survie nette revient à estimer la proportion de patients qui décèdent, de façon directe ou indirecte (effets du traitement, par exemple), du cancer en l’absence des autres causes de décès. Il s’agit donc de s’affranchir des autres causes de décès de la population générale, c’est-à-dire de la mortalité en l’absence de cancer. La mortalité autres causes est la mortalité que l’on observerait dans un monde hypothétique où l’on ne pourrait pas décéder de la maladie étudiée. Nous faisons l’hypothèse usuelle que cette mortalité autres causes est donnée par la mortalité attendue dans la population générale. Cette dernière est déterminée à l’aide de tables de mortalité, qui seront définies au Chapitre III. La maladie étudiée est supposée ne constituer qu’une faible proportion des décès contribuant à la construction des tables de mortalité de sorte que ces dernières représentent effectivement la mortalité autres causes (voir, par exemple, Perme et al., 2009). Remarque II.1 L’hypothèse selon laquelle la mortalité de la population générale est censée 14 II.1 Concepts de survie refléter la mortalité due aux autres causes de décès n’est parfois pas vérifiée. C’est le cas, par exemple, lorsque l’on considère des patients fumeurs atteints d’un cancer des poumons. La mortalité attendue dans la population générale (à sexe et âge identiques) sera plus faible que celle qu’on attendrait chez ces patients en l’absence de cancer. La survie nette sera donc sous-estimée pour ces patients. D’autre part, supposer que la mortalité due à la maladie étudiée ne constitue qu’une faible proportion de la mortalité attendue dans la population générale est une hypothèse forte. Talbäck and Dickman (2011) ont évalué sur données réelles le biais sur les ratios de survie relative obtenu en incluant dans la mortalité attendue de la population générale les patients atteints d’un certain cancer. L’importance de ce biais a été interprétée par comparaison à l’amplitude des intervalles de confiance à 95% des ratios de survie relative. Les auteurs ont conclu que le biais pouvait être ignoré dans la plupart des cas. Ils ont cependant noté qu’il augmentait pour des patients âgés et pour certains types de cancer (prostate et ensemble des localisations combinées). En outre, ils ont proposé d’ajuster la mortalité attendue usuellement utilisée en tenant compte de la proportion de décès dus au cancer étudié dans la population. Il serait intéressant d’étudier par simulations l’impact d’un écart à cette hypothèse. Une autre source de biais réside dans l’utilisation de tables de mortalité insuffisamment stratifiées. Ce problème est présenté et étudié dans le Chapitre III. La première idée naturelle est d’« éliminer » les décès autres causes en censurant ces observations et d’effectuer notre analyse avec les modèles usuels en survie brute. Cette méthode, appelée méthode de la survie spécifique, nécessite de connaître la cause exacte du décès. Mais cette cause est souvent imprécise, dans le cas de pathologies multiples par exemple (Percy et al., 1981). Un autre exemple est celui d’un décès faisant suite à des complications dues à une chimiothérapie. La question qui se pose alors est de classer le cancer comme cause primaire du décès ou non. Par ailleurs, la cause du décès est liée au codage qui peut varier d’un pays à un autre. Dans ce contexte, la méthode de la survie spécifique apparaît comme peu fiable (Sarfati et al., 2010) et des méthodes ne requérant pas la connaissance de la cause du décès ont été développées pour estimer la survie nette. 1.3 La survie relative La notion de survie relative, ou survie corrigée, est apparue dès le milieu du XXème siècle (Berkson, 1942; Berkson and Gage, 1950). La survie relative a été définie comme le ratio de la survie observée pour le groupe de patients étudiés sur la survie attendue dans la population 15 II.1 Concepts de survie Europe, country-weighted observed and relative survival (%), by age at diagnosis (years) AGE 15-44 obs 45-54 55-64 65-74 75-99 rel obs rel obs rel obs rel obs rel Men One year Three years Five years 79 79 65 65 60 61 65 46 40 65 46 41 61 42 35 62 44 39 57 39 31 59 44 38 48 29 20 54 40 36 Women One year Three years Five years 90 90 78 78 72 73 86 72 66 86 73 67 77 62 55 77 64 58 67 51 44 68 54 48 49 32 24 54 41 38 Persons One year Three years Five years 84 84 71 71 66 67 75 58 52 75 59 53 68 52 45 69 53 48 62 45 37 63 49 43 49 30 22 54 41 37 Tableau II.1 – Survies observée (obs) et relative (rel) en Europe pour les néoplasmes malins diagnostiqués entre 1990 et 1994 – tableau extrait de Sant et al. (2003). générale, l’hypothèse étant faite que la population générale a une mortalité similaire à celle du groupe de patients étudiés s’ils n’avaient pas la maladie. On dit que la survie de la cohorte est « corrigée » par sa survie attendue issue des tables de mortalité de la population générale. Pour des patients « jeunes », les survies observée et relative sont proches. Ainsi, dans une étude analysant la survie de 1 815 584 patients adultes avec un diagnostic de cancer établi entre 1990 et 1994 dans 22 pays européens, Sant et al. (2003) ont montré que survie relative et survie observée pour tous les néoplasmes malins ne diffèrent qu’à partir de 55 ans, âge à partir duquel la mortalité autres causes devient suffisamment élevée pour impacter ces résultats (voir le tableau II.1). Historiquement, la survie spécifique et le ratio de survie relative étaient considérés comme des estimateurs de la survie nette. Mais, en 2012, Perme et al. (2012) ont établi de façon théorique que, la plupart du temps, ces estimateurs n’estiment pas la survie nette. Nous allons brièvement passer en revue les principaux estimateurs qui ont été proposés pour estimer la survie nette. 16 II.2 Notations et définitions Pour cela, nous avons d’abord besoin de poser quelques notations et définitions supplémentaires. 2 Notations et définitions Soit une cohorte de n patients atteints d’un cancer donné dans le contexte d’une étude sur population. Plaçons-nous tout d’abord au niveau individuel. 2.1 Au niveau individuel Comme nous l’avons fait dans le Chapitre I, notons Ti et Ci la durée de survie et le temps de censure pour un patient i. Nous avons vu dans le paragraphe précédent que le patient peut décéder de son cancer ou d’une autre cause. Un décès « autre cause » empêchant la survenue d’un décès dû au cancer (et réciproquement), Ti apparaît comme le minimum de deux temps distincts : TE,i son temps de survie lié au cancer et TP,i son temps de survie lié à la mortalité attendue dans la population générale. Le temps observé est donc Ui = min(TE,i , TP,i , Ci ) et son statut est donné par δi = 1(Ti ≤ Ci ). Pour chaque patient étudié, nous connaissons le temps de suivi, le statut vital et la date d’origine. Certaines caractéristiques démographiques comme le sexe et l’âge sont aussi disponibles. D’autres caractéristiques sont potentiellement connues : certaines relatives au cancer étudié (par exemple, le stade) et d’autres plus générales (par exemple, le statut marital). Nous disposons ainsi, pour chaque patient i, d’un vecteur de covariables noté Xi . Considérons Di le sous-vecteur de Xi constitué des covariables démographiques, de sorte que TP,i est indépendant de Xi \ Di . Nous supposons que : – les (TE,i , TP,i , Ci , Xi )i sont i.i.d. (indépendants et identiquement distribués) ; – les temps de survie TE,i et TP,i sont conditionnellement indépendants sachant Xi ; – les temps de censure Ci sont indépendants du couple (Ti , Xi ). On en déduit que la fonction de censure est définie par : ∀i ∈ [[1; n]], SC (t) = SC,i (t) = P (Ci > t). Dans la suite de ce manuscrit, nous utiliserons le symbole « ~ » pour indiquer que la fonction d’intérêt est définie conditionnellement aux covariables. 17 II.2 Notations et définitions La fonction de survie observée individuelle 1 est définie par : ∀i ∈ [[1; n]], S̃O,i (t) = P (Ti > t | Xi ) La fonction de survie nette individuelle fait correspondre à un temps t la probabilité de survivre au cancer conditionnellement à ses covariables : ∀i ∈ [[1; n]], S̃E,i (t) = P (TE,i > t | Xi ). Notons que la lettre « E » indique qu’il s’agit de la survie associée à la mortalité en excès. Λ̃E,i et λ̃E,i désignent alors, respectivement, le taux cumulé de mortalité en excès individuel et le taux instantané de mortalité en excès individuel correspondants. De la même façon, la fonction de survie attendue individuelle est la fonction qui fait correspondre à un temps t la probabilité de survivre à des décès autres que le cancer étudié conditionnellement aux covariables : ∀i ∈ [[1; n]], S̃P,i (t) = P (TP,i > t | Xi ). Notons que S̃P,i (t) = P (TP,i > t | Di ), puisque TP,i est indépendant de Xi \ Di . Λ̃P,i et λ̃P,i désignent alors, respectivement, le taux cumulé de mortalité attendue individuel et le taux instantané de mortalité attendue individuel correspondants. Puisque TE,i et TP,i sont conditionnellement indépendants sachant Xi , on a : ∀i ∈ [[1; n]], S̃E,i (t) = S̃O,i (t) . S̃P,i (t) Notons que nous retrouvons ici le ratio de survie relative. Plus précisément, au niveau individuel, la survie relative et la survie nette coïncident. De façon équivalente, si λ̃O,i désigne le taux instantané de mortalité observée individuel, en utilisant la relation (I.2), on obtient un modèle additif sur les taux, c’est-à-dire : ∀i ∈ [[1; n]], λ̃O,i (t) = λ̃P,i (t) + λ̃E,i (t). (II.1) 1. De façon rigoureuse, il s’agirait plutôt de la survie individuelle « observable » puisque relative à Ti et non pas à Ui . Cependant, nous adoptons la terminologie usuelle de survie observée. 18 II.2 Notations et définitions 2.2 Au niveau de la population Pour l’ensemble de la cohorte, la survie nette est définie par : SE (t) = P (TE,1 > t), et l’on a : SE (t) = E S̃E,1 (t) . En effet, puisque les TE,i ont la même distribution (∀i ∈ [[1; n]]), on a : E S̃E,1 (t) = E {E [1(TE,1 > t) | X1 ]} = E [1(TE,1 > t)] = P (TE,1 > t). On note ΛE le taux cumulé de mortalité en excès et λE le taux instantané en excès associés. Plus précisément, d’après la relation I.2, on a : SE (t) = exp(−ΛE (t)) = exp − On en déduit que λE (t) = SE′ (t) E λ̃E,1 (t)S̃E,1 (t) E S̃E,1 (t) Z t 0 λE (u)du . sous de « bonnes conditions » 2 . En effet, on sait Z t et SE (t) = E exp − λ̃E,1 (u)du SE (t) 0 est majoré par une fonction intégrable sur R+ . De la même façon, on définit la survie attendue par : que : λE (t) = − , d’où le résultat si |λ̃E,1 (t)S̃E,1 (t)| SP (t) = P (TP,1 > t) = E S̃P,1 (t) . On note ΛP le taux cumulé de mortalité attendue. Enfin, la survie observée est définie par : SO (t) = P (T1 > t) = E S̃O,1 (t) . On note ΛO le taux cumulé de mortalité observée. Notons qu’au niveau de la population, la survie relative et la survie nette ne coïncident pas. En 2. Notons que cette relation reste vraie en substituant E par P ou O, avec les quantités définies ci-après, et en faisant des hypothèses similaires. 19 II.2 Notations et définitions effet, le ratio de survie relative est défini par : SRS (t) = ! E S̃O,1 (t) SO (t) , = SP (t) E S̃P,1 (t) S̃O,1 (t) ratio qui est différent de E . S̃P,1 (t) Notons que le taux cumulé de la survie relative est donné par : ΛRS (t) = ΛO (t) − ΛP (t). 2.3 Un pas vers les processus de comptage Aux cours de nos travaux, nous avons été amenés à travailler avec des processus stochastiques, tout d’abord parce que certains estimateurs de survie nette sont écrits sous forme de processus (comme nous le verrons dans la section suivante), mais aussi parce que, malgré une apparente complexité, certaines démonstrations sont plus directes (comme nous le verrons dans le Chapitre IV). Nous introduisons ici uniquement les notions nécessaires à la compréhension des développements de notre travail 3 . Soit un n-échantillon soumis à une censure à droite. Deux processus de comptage, N et Y , vont intervenir systématiquement dès que nous écrirons des processus. Le nombre de décès au temps t est donné par : N (t) = n X Ni (t) où Ni (t) = 1(Ti ≤ t, Ti ≤ Ci ) = 1(Ui ≤ t, δi = 1). i=1 Le nombre de patients à risque au temps t, ou effectif à risque, est donné par : Y (t) = n X Yi (t) où Yi (t) = 1(Ti ≥ t, Ci ≥ t) = 1(Ui ≥ t). i=1 Notons que l’estimateur de Nelson-Aalen, que nous allons retrouver dans l’expression de certains estimateurs de la survie nette, s’écrit alors : b A(t) = Z t 0 J(u) dN (u) , Y (u) 3. Aalen (1978) a été le premier à introduire l’étude de la survie en utilisant les processus stochastiques. Son approche a permis de simplifier des démonstrations antérieures à ses travaux et a ouvert la voie à de nombreuses applications, comme l’étude du test du log-rank par Gill (1980). 20 II.3 Méthodes d’analyse de la survie nette J(u) = 0 si Y (u) = 0. Y (u) Par ailleurs, lorsque nous nous intéressons à la survie nette, un autre processus de comptage intervient. Ainsi, nous pouvons définir le nombre de décès en excès au temps t, i.e. le nombre de décès dus au cancer au temps t, par : où J(u) := 1(Y (u) > 0) et avec la convention NE (t) = n X 1(Ti ≤ t, Ti ≤ Ci , TE,i ≤ TP,i ). i=1 Remarque II.2 Les processus peuvent être modélisés par la donnée d’un espace probabilisé (Ω, A, P ), d’un espace probabilisable (E, E), d’un ensemble T et d’une famille de v.a. (Xt )t∈T de (Ω, A, P ). Dans le cadre de cette thèse, nous nous intéressons à la modélisation des occurrences d’évènements aléatoires dans le temps. Ainsi, nous avons été amenés à étudier des temps d’évènements continus (T = R+ ) et des espaces d’états dénombrables (E = N) mais aussi continus (E = R) lorsque nous avons travaillé avec l’estimateur Pohar-Perme défini dans la section suivante. 3 Méthodes d’analyse de la survie nette Nous présentons ici les principaux estimateurs qui ont été proposés pour estimer la survie nette. Comme pour la plupart des méthodes « classiques » en analyse de survie, les méthodes d’estimation de la survie nette ne sont valides qu’en cas de censure indépendante. 3.1 Survie cause-spécifique La méthode de survie spécifique suppose la connaissance de la cause du décès et consiste à censurer les patients qui décèdent d’une autre cause que de la maladie étudiée. Il suffit alors de traiter ces données avec le modèle de Cox (voir équation I.3). Cependant, comme nous l’avons déjà discuté, supposer la connaissance de la cause du décès est critiquable car cette cause, lorsqu’elle est disponible, est peu fiable. La méthode reste néanmoins utilisée (voir, par exemple, Pintilie, 2007; Belot, 2009; White et al., 2010). Ayant conscience de ses défauts, Howlader et al. (2010) ont construit une variable qui prend en compte, à la fois, la cause de décès déclarée, le fait de savoir si la tumeur est unique ou si elle est suivie d’autres tumeurs, la localisation d’origine au diagnostic du cancer et la comorbidité. Cette variable est utilisée par le SEER (2014b). Schaffar et al. (2013) disposaient de la cause officielle de décès et d’une cause « révisée » par l’examen, en particulier, des certificats de décès, des rapports d’autopsie ou des informations 21 II.3 Méthodes d’analyse de la survie nette provenant du médecin généraliste. Ils ont étudié l’impact de l’utilisation de ces deux causes sur la survie cause-spécifique. Ils ont conclu qu’utiliser la cause « révisée » avait peu d’impact sur la survie cause-spécifique globale, mais conduisait à de plus fortes différences lorsque l’analyse était faite sur des sous-groupes (patients âgés par exemple). Par ailleurs, Van Rompaye et al. (2012) ont proposé une méthode fondée sur la connaissance de la fiabilité de l’information (i.e. le taux de « mauvaise classification ») et un modèle de Cox corrigé. Mais, la plupart du temps, la méthode de survie spécifique ne respecte pas l’hypothèse de censure indépendante. Prenons l’exemple d’une cohorte comportant des personnes âgées. La mortalité « autres causes » de ces patients étant élevée, il y aura beaucoup de décès dus à d’autres causes que le cancer étudié, et donc beaucoup de censures dues à l’âge. Autrement dit, la probabilité de survenue d’une censure liée à un décès « autres causes » est dépendante de l’âge du patient. Pour comprendre ce qui est réellement estimé lorsque cette méthode est utilisée, écrivons les quantités d’intérêt dans le cadre des risques concurrents, cadre sur lequel repose cette méthode. Dans ce cadre, un décès dû à une cause autre que le cancer étudié est vu comme un évènement concurrent, puisque les décès cancer et « autres causes » s’empêchent mutuellement de se produire. Ce modèle à deux risques concurrents est représenté par la figure II.1. Décès cancer : C = K Patient atteint d’un cancer Décès « autres causes » : C = K Figure II.1 – Modèle à deux risques concurrents : le cancer étudié et les autres causes de décès. On peut s’intéresser à l’incidence cumulée de la cause K en t notée FK et définie par P (T ≤ t, C = K). La fonction de risque spécifique à la cause K en présence des autres causes est définie par : P (t ≤ T < t + h, C = K | T ≥ t) . λK (t) = lim hց 0 h De façon similaire, la fonction de risque spécifique aux autres causes K en présence de K est donnée par : P (t ≤ T < t + h, C = K | T ≥ t) . λK (t) = lim hց 0 h On note ΛK et ΛK les fonctions de risque cumulé spécifiques aux causes K et K. Notons que la survie observée (globale), correspondant à la probabilité d’être encore en vie au temps t, est donnée par SO (t) = exp (−ΛK (t) − ΛK (t)). 22 II.3 Méthodes d’analyse de la survie nette Pour calculer l’incidence cumulée FK , nous avons aussi besoin de ΛK (Andersen et al., 2012). Plus précisément, on a : Z FK (t) = t 0 λK (u)SO (u)du. En fait, la relation (I.2) n’est plus valide en présence de risque concurrent et 1 − FK (t) n’est pas une probabilité de survie. En effet, la propriété (I.1) selon laquelle une fonction de survie tend vers 0 quand le temps devient grand n’est pas vérifiée, la réalisation de K étant empêchée par celle de K. Dans la méthode cause-spécifique, l’analyste ne s’intéresse qu’à l’évènement K et le suivi du patient est censuré par l’occurrence de K. La quantité estimée est exp(−ΛK ) appelée survie nette observable ; elle ne coïncide avec la survie nette que lorsque λP et λE ne sont pas affectés par des covariables communes (Perme et al., 2012). Dans le cadre de nos travaux, nous n’avons pas étudié la méthode de survie spécifique puisqu’il s’agissait d’étudier des estimateurs consistants de survie nette. 3.2 Méthodes non paramétriques Historiquement, pour estimer la survie nette, des estimateurs non paramétriques ont d’abord été proposés : l’estimateur Ederer I (Ederer et al., 1961), l’estimateur Ederer II (Ederer and Heise, 1959), et l’estimateur d’Hakulinen (Hakulinen, 1982). Examinons chacun d’entre eux. L’estimateur Ederer I Il est défini, pour tout t dans R+ , par : Z t 0 dN (u) Z t − Y (u) 0 Pn i=1 S̃P,i (u)λ̃P,i (u) du. i=1 S̃P,i (u) Pn Le premier terme correspond à l’estimateur de Nelson-Aalen (cf. paragraphe 2.3). Puisqu’il s’agit consistant du taux cumulé de mortalité observée et que λP (u) vaut d’un estimateur E S̃P,1 (u)λ̃P,1 (u) , en faisant tendre n vers l’infini, on obtient que l’estimateur Ederer I est un E S̃P,1 (u) estimateur consistant de ΛO (t) − ΛP (t), i.e. du taux cumulé de survie relative. Une limite de cette méthode est qu’elle ne tient pas compte du temps de suivi des patients puisqu’un patient décédé avant t participe au calcul de SP (t). 23 II.3 Méthodes d’analyse de la survie nette L’estimateur Ederer II Il est défini, pour tout t dans R+ , par : Z t 0 dN (u) Z t − Y (u) 0 Pn i=1 Yi (u)λ̃P,i (u) du. i=1 Yi (u) Pn D’après la loi des grands nombres : n 1X Yi (u) tend p.s. quand n tend vers l’infini vers E [E (1(T1 ≥ u, C ≥ u|X1 )] i.e. vers • n i=1 SC (u)E S̃O,1 (u) ; n i h 1X Yi (u)λ̃P,i (u) tend p.s. quand n tend vers l’infini vers E λ̃P,1 (u)E (1(T1 ≥ u, C ≥ u|X1 ) • n i=1 i.e. vers SC (u)E S̃O,1 (u)λ̃P,1 (u) . L’estimateur Ederer II est donc un estimateur consistant de ΛO (t) − i.e. de Z t E S̃O,1 (u)λ̃E,1 (u) 0 E S̃O,1 (u) 0 E S̃O,1 (t)λ̃P,1 (u) E S̃O,1 (u) du, du, qui représente la survie nette observable. En effet, dans le cadre des risques concurrents, on a λK (t) = Z t Z t E S̃O,1 (u)λ̃K,1 (u) Z t 1 dFK (t) λK (u)SO (u)du, donc et FK (t) = SO (t) dt 0 du. Lorsque nous considérons deux causes de décès (cancer et E S̃O,1 (u) « autres causes »), λ̃K,1 correspond à λ̃E,1 (car les temps populationnels et en excès sont indépendants conditionnellement aux covariables). Contrairement au précédent, cet estimateur prend en compte le temps de suivi des patients. ΛK (t) = 0 L’estimateur d’Hakulinen Notons, pour chaque patient i, τi son temps de suivi potentiel, i.e. le temps entre son entrée dans l’étude et la date de point. L’estimateur d’Hakulinen est défini, pour tout t dans R+ , par : Z t 0 dN (u) Z t − Y (u) 0 où Yi∗∗ (u) = Pn i=1 Yi∗∗ (u)λ̃P,i (u) du, ∗∗ i=1 Yi (u) Pn S̃P,i (u)1(min(Ci , τi ) ≥ u) si δi = 0; S̃ (u)1(τ ≥ u) sinon . P,i i Sous l’hypothèse d’indépendance des temps de censure et des durées de survie, les estimateurs d’Hakulinen et Ederer I estiment la même quantité (Perme et al., 2012). 24 II.3 Méthodes d’analyse de la survie nette Remarque II.3 En utilisant l’équation (I.2), la survie estimée via chacun des ces estimateurs peut s’écrire comme un ratio de la survie observée estimée et de la survie attendue estimée. La différence entre les trois estimateurs vient de la façon dont ils estiment cette survie attendue (Danieli et al., 2012) : n X S̃P,i (t) – ŜP (t) = pour Ederer I ; n i=1 Pn Yi (t)S̃P,i (t) ∗ pour Ederer II ; – ŜP (t) = i=1 Pn Yi (t) i=1 Pn Ci (t)S̃P,i (t) ∗∗ où Ci (t) = 1(t ≤ τi ) pour Hakulinen. – ŜP (t) = i=1 Pn i=1 Ci (t) L’estimateur Pohar-Perme Les travaux de Perme et al. (2012) et Danieli et al. (2012) suggèrent que ces estimateurs ne sont pas des « estimateurs de survie nette » et surestiment en général la survie nette, en particulier chez les personnes âgées. En effet, l’âge influe sur la mortalité associée au cancer mais aussi sur la mortalité due aux autres causes. Un décès dû à un âge élevé empêche l’observation d’un décès qui serait dû au cancer et ceci de façon non aléatoire car les personnes les plus à risque de décéder du cancer sont aussi les personnes qui sortent de l’étude prématurément à cause d’un décès autre cause dû à leur âge. L’estimateur Pohar-Perme corrige ce biais en appliquant le principe de pondération par l’inverse de la probabilité de survie attendue à l’estimateur Ederer II (Robins, 1993). Il est donné par : b Λ E (t) n X = Z t 0 dN w (u) Z t − Y w (u) 0 n X Pn i=1 Yiw (u)λ̃P,i (u)du , Y w (u) (II.2) dNi (u) Yi (u) , et Yiw (u) = . S̃P,i (u) S̃P,i (u) i=1 i=1 Intuitivement, en divisant le nombre de personnes à risque par la probabilité de survie attendue issue des tables de mortalité, on réintroduit de façon fictive dans cet ensemble des personnes à risque des personnes qui sortent prématurément de l’étude à cause d’une mortalité attendue élevée. L’estimateur Pohar-Perme est un estimateur consistant de la survie nette. Du fait de ses qualités (démontrées par Danieli et al., 2012), l’estimateur Pohar-Perme a été choisi en France et est, notamment, utilisé par les registres français. Une étude collaborative du réseau FRANCIM, du service de Biostatistique des HCL (Hospices Civils de Lyon), de l’InVS (Institut de Veille Sanitaire) et de l’INCa (Institut National du Cancer) a été menée et a produit, via l’estimateur Pohar-Perme, des estimations de survie nette à 5 et 10 ans pour des patients diagnostiqués entre 1989 et 2004 pour 47 localisations de cancer (Grosclaude et al., w où N (u) = Niw (u), w Y (u) = Yiw (u) avec dNiw (u) = 25 II.3 Méthodes d’analyse de la survie nette 2013). Ce travail a donné lieu à 3 publications utilisant ce nouvel estimateur (Roche et al., 2013; Monnereau et al., 2013; Jooste et al., 2013). Des travaux internationaux commencent aussi à utiliser l’estimateur Pohar-Perme (voir, par exemple, Walters et al., 2013). Par ailleurs, le groupe EUROCARE a un projet visant à comparer l’impact de l’utilisation de l’estimateur Ederer II par rapport à l’estimateur Pohar-Perme (Bossard et al., 2013). Remarque II.4 La question de savoir s’il est préférable d’utiliser l’estimateur Pohar-Perme plutôt que les estimateurs Ederer I, Ederer II et Hakulinen est discutée par certains. En effet, selon Dickman and Lambert (2014b), ces derniers estimateurs produisent un biais plus grand que celui obtenu avec l’estimateur Pohar-Perme pour estimer la survie nette mais une variance plus faible. Danieli et al. (2012) ont montré, sur une étude de simulations, que les RMSE (« Root Mean Square Error ») 4 sont, dans la plupart des cas, plus faibles pour l’estimateur Pohar-Perme (vs. les trois autres) ou très proches dans les autres cas. Ils préconisent donc l’utilisation de ce nouvel estimateur. Notons qu’il y a un consensus autour du fait que les biais obtenus en utilisant Ederer II sont faibles 5 . 3.3 Méthodes paramétriques Les méthodes non paramétriques ont l’avantage de ne nécessiter aucun choix de modélisation. Cependant, lorsque l’on souhaite étudier les effets de certains facteurs pronostiques sur la mortalité en excès, il devient indispensable d’utiliser des méthodes paramétriques. Nous avons vu dans le Chapitre I que le modèle de Cox (I.3) permet de modéliser les effets des facteurs pronostiques dans le cadre de la survie brute. Des modèles, qui peuvent être vus comme des extensions de ce modèle, ont été proposés dans le cadre de la survie nette. Nous les présentons ici de façon très succincte. Notons que nous n’abordons que les modèles utilisant les données individuelles. Ils ont l’avantage, par rapport aux modèles dans lesquels l’unité statistique est un groupe de patients, de ne pas restreindre l’analyse à des covariables catégorielles. Les modèles présentés dans ce manuscrit reposent sur l’additivité des taux (II.1) et ne diffèrent que par la façon dont est modélisé le taux instantané en excès. Danieli et al. (2012) ont montré que l’estimateur reposant sur un modèle multivarié ajusté sur les covariables démographiques r 2 1 PM où M est le nombre de simulations, ŜE,j (t) j=1 ŜE,j (t) − SE (t) M est l’estimation de la survie nette en t pour la jème simulation, et SE (t) est la valeur théorique de la survie nette en t. 5. En 2014, au cours du meeting « EPAAC WP9 Satellite Meeting State of Art of Methods for the Analysis of Population-Based Cancer Data », Dickman and Lambert (2014a) ont présenté une adaptation d’Ederer II avec une méthode qu’ils appellent « standardisation interne ». Cette nouvelle méthode reste assez floue et nécessiterait des analyses sur simulations pour étudier ses performances. 4. Les RMSE sont donnés par 26 II.3 Méthodes d’analyse de la survie nette (i.e. celles contenues dans la table de mortalité utilisée) est un estimateur consistent de la survie nette. Nous présentons ici le modèle princeps qui est un modèle multivarié sur données individuelles (Esteve et al., 1990). Par la suite, des modèles ont été construits à partir de ce dernier, permettant une modélisation plus souple du taux de mortalité de base et s’affranchissant des hypothèses de proportionnalité et de log-linéarité des risques. Parmi les approches proposées (Giorgi et al., 2003; Dickman et al., 2004; Lambert et al., 2005; Abrahamowicz and Mackenzie, 2007; Remontet et al., 2007; Mahboubi et al., 2011), nous présentons quatre modèles multivariés qui ont permis l’ajout de la flexibilité dans la forme du taux de base instantané en excès et/ou dans l’effet des facteurs pronostiques. Notons que, dans le Chapitre III, nous parlerons d’un cinquième modèle, présenté dans l’article du même chapitre, et qui est dans la continuité de celui d’Esteve et al. (1990), dont il ne diffère que par la modélisation du taux de base instantané en excès. Le modèle d’Estève et al. Sous l’hypothèse de proportionnalité des risques, Esteve et al. (1990) ont proposé d’écrire, pour un patient i, le taux instantané en excès en fonction du vecteur β des coefficients associés aux facteurs pronostiques Zi : P λ̃E,i (t) = J X j=1 ′ τj 1(t ∈ Ij ) exp(β Zi ), où Jj=1 τj 1(t ∈ Ij ) représente le taux de base de mortalité en excès, supposé constant pour chacun des J intervalles de temps Ij . Les estimations des paramètres β et τ := (τj )(1≤j≤J) s’obtiennent par maximisation de la vraisemblance. La log-vraisemblance (en omettant la quantité liée au taux cumulé attendu qui est indépendante des paramètres) s’écrit : L(β, τ ) = − n X i=1 Λ̃P,i (t) + n X i=1 h i δi log λ̃P,i (t) + λ̃E,i (t) . Le modèle flexible de Giorgi et al. Giorgi et al. (2003) ont proposé un modèle dans lequel le taux de base est flexible et l’effet des covariables peut dépendre du temps, les deux étant modélisés par des fonctions B-splines quadratiques. Pour écrire le modèle, nous avons besoin de définir les fonctions qui ont été 27 II.3 Méthodes d’analyse de la survie nette utilisées. Les fonctions B-splines ont été introduites par De Boor et al. (1978). Giorgi et al. (2003) ont utilisé des B-splines quadratiques (i.e. d’ordre 3) et ont défini deux nœuds intérieurs t1 et t2 . Si l’on note [t0 , t3 ] l’intervalle considéré, en posant t−2 = t−1 = t0 et t5 = t4 = t3 , les cinq fonctions de base (Bj,3 )−2≤j≤2 étaient liées par la relation de récurrence : ∀j ∈ [[−2; 2]] : Bj,3 (t) = t − tj tj+3 − t Bj,2 (t) + Bj+1,2 (t), tj+2 − tj tj+3 − tj+1 avec Bj,1 (t) = 1 si t était dans [tj , tj+1 [, et Bj,1 (t) = 0 sinon. Une fonction B-spline quadratique avec deux nœuds intérieurs était alors définie, pour t dans [t0 , t3 ], par une combinaison linéaire des B-splines de base. Pour un patient i ayant pour vecteur de covariables (Zi,k )(1≤k≤p) (avec p le nombre de ces covariables), le taux instantané en excès s’écrivait alors : λ̃E,i (t) = 2 X j=−2 νj Bj,3 (t) exp p X 2 X k=1 j=−2 αkj Bj,3 (t)Zi,k . L’estimation des paramètres de ce modèle repose sur la méthode du maximum de vraisemblance. Notons que Lambert et al. (2005) ont proposé un modèle similaire en utilisant des polynômes fractionnaires, que nous ne développerons pas ici. Ces modèles ne supposent plus que les effets des covariables sont constants par rapport au temps mais ils supposent toujours que ces effets sont linéaires. Plus précisément, si l’on note βage l’effet de la covariable age sur la mortalité en excès, que l’on considère deux patients 1 et 2 ayant pour âge a1 et a2 , et que l’on suppose que Z = age, on a : λ̃E,2 (t) log λ̃E,1 (t) ! = βage (a2 − a1 ). Par exemple, le taux de mortalité en excès lié à une différence d’âge de a2 − a1 = 10 ans est le même que le patient 1 ait a1 = 30 ou a1 = 70 ans. Des modèles ont été proposés pour s’affranchir de ces deux hypothèses : le modèle additif de Remontet et al. (2007) et le modèle multiplicatif de Mahboubi et al. (2011). Le modèle flexible additif de Remontet et al. Remontet et al. (2007) ont modélisé les effets d’une covariable continue, par exemple age pour l’âge au diagnostic, avec des fonctions splines cubiques. Une spline est un polynôme par mor- 28 II.3 Méthodes d’analyse de la survie nette ceaux qui, de même que ses deux dérivées premières, est continue en (ti )1≤m où les ti sont les m nœuds. Les splines sont des fonctions pouvant approcher un grand nombre de courbes et qui présentent l’avantage d’être faciles à implémenter. Une spline cubique à un nœud, t1 , est une fonction de t définie par : µ0 + µ1 t + µ2 t2 + µ3 t3 + θ1 (t − t1 )3+ , avec u+ = (II.3) si u est strictement positif si u est négatif u 0 Pour un patient i, le taux instantané de mortalité en excès au temps t s’écrit alors : λ̃E,i (t) = λ0E (t) × exp (g(agei ) + h(t) × agei ) , où λ0E désigne le taux de base de mortalité en excès. Pour un suivi à 5 ans, par exemple, on supposera que λ0E et h sont des splines cubiques avec un nœud à 1 an et que g est une spline cubique avec un nœud à l’âge moyen. Reprenons l’exemple étudié ci-dessus de deux patients 1 et 2 ayant pour âge centré a1 et a2 . Avec le modèle de Remontet et al. (2007), on a alors : λ̃E,2 (t) log λ̃E,1 (t) ! = g(a2 ) − g(a1 ) + h(t)(a2 − a1 ). g décrit le changement de l’effet de la covariable age sur la mortalité en excès pour des valeurs croissantes (ou décroissantes) de cette covariable alors que h capture les changements dans le temps de l’effet de age sur la mortalité en excès. De façon plus générale, si Z désigne le vecteur des covariables et que l’on note p sa taille, pour un patient i ayant pour covariables (Zk,i )(1≤k≤p) , le taux instantané en excès s’écrit : λ̃E,i (t) = λ0E (t) × exp " p X k=1 # (gk (Zk,i ) + hk (t) × Zk,i ) . Le modèle flexible multiplicatif de Mahboubi et al. Mahboubi et al. (2011) ont proposé un modèle qui diffère du précédent seulement par la « forme », dans le sens où il est multiplicatif sur les effets des covariables (plutôt qu’additif). 29 II.4 Discussion Pour un patient i ayant pour covariables (Zk,i )(1≤k) , le modèle s’écrit : λ̃E,i (t) = λ0E (t) × exp " p X k=1 # (gk (Zk,i ) × hk (t)) . Les fonctions λ0E , gk et hk sont modélisées par des fonctions B-splines, exposées lors de la présentation du modèle de Giorgi et al. (2003). Remarque II.5 Dans le cadre du projet MESURE (Méthodes d’Estimation de la SURvie RElative, ANR-09-BLAN-0357-01, projet coordonné par le Pr. Roch Giorgi), une étude a été conduite pour comparer les deux modèles précités. Les résultats obtenus sur des jeux de données réelles sont similaires à ceux obtenus avec le modèle additif. Remarque II.6 De façon générale, la modélisation par des splines pose la problématique du choix du nombre de nœuds et de leur position. Dans certains cas, le choix de la position d’un nœud peut se faire sur une information a priori, par exemple lorsqu’un changement est attendu au moment de la prise d’un nouveau traitement. Mais, dans la plupart des cas, nous ne disposons pas de cette information a priori et la position des nœuds est choisie à l’aide de critères dépendants des données (Ramsay, 1988), selon la distribution empirique des temps de décès observés (Abrahamowicz et al., 1996) ou la distribution empirique des temps de décès observés et des temps de censure (Hess, 1994; Durrleman and Simon, 1989). 4 Discussion Danieli et al. (2012) ont montré que, parmi les estimateurs existants, il n’y a que deux estimateurs consistants de la survie nette : l’estimateur non paramétrique Pohar-Perme et l’estimateur paramétrique fondé sur le modèle multivarié ajusté sur les covariables démographiques. Le principal avantage de l’estimateur Pohar-Perme est l’absence de stratégie de modélisation. En effet, un statisticien qui utilise le modèle multivarié ignore les « vraies » formes du taux de base et des effets des facteurs pronostiques sur la mortalité en excès. En revanche, l’utilisation de ce modèle a l’avantage de lui fournir une estimation de ces effets. Notons que dans le cadre de la survie brute comme dans celui de la survie nette, la stratégie de modélisation a donné lieu à de nombreux travaux (voir, par exemple, Remontet et al., 2007; Royston et al., 2006; Binquet et al., 2008; Wynant and Abrahamowicz, 2014). Le choix entre les deux estimateurs précités doit être réalisé en fonction des objectifs de l’étude. 30 Chapitre III Tables de mortalité Que ce soit en utilisant un modèle paramétrique ou non, l’estimation de la survie nette repose sur l’utilisation de tables de mortalité. Ces tables de mortalité de la population générale sont supposées refléter la mortalité due aux autres causes de décès que la maladie étudiée, c’est-à-dire la mortalité du patient si la maladie d’intérêt n’existait pas. Cependant, la plupart du temps, ces tables ne contiennent « pas assez d’information » dans un sens que nous allons définir dans ce chapitre. Nous avons étudié l’impact de ce manque d’information, à partir d’un modèle paramétrique, sur les estimations des effets des facteurs pronostiques sur la mortalité en excès. Nous avons réalisé cette étude par des simulations dont nous allons expliquer le principe dans la deuxième partie de ce chapitre. Nous avons complété ce travail par des analyses sur données réelles. Nous commençons par poser la problématique et à exposer quelques solutions qui ont été mises en oeuvre dans des cas bien particuliers. 1 Définition et problématique Une table de mortalité est une table donnant, pour chaque âge, un taux de décès défini comme le rapport de l’effectif des décès observés durant l’année à l’effectif de la population moyenne durant l’année. Plus précisément, chaque entrée de la table est une probabilité pour les vivants d’âge x de décéder avant l’âge x + 1. Compte tenu du faible nombre de décès par rapport aux effectifs de la population, les taux de décès sont souvent donnés pour 100 000 personnes (le numérateur est multiplié par 105 ). Un exemple de table de mortalité est donné en Annexe A. Les données nationales pour la France métropolitaine sont transmises par le CépiDc (Centre d’épidémiologie sur les causes médicales de Décès) de l’INSERM. Elles sont stratifiées par âge, sexe, année, région et département. 31 III.2 Construction de tables de mortalité stratifiées sur un/des facteurs pronostiques Il serait cependant intéressant d’avoir des tables de mortalité stratifiées par d’autres facteurs pronostiques ayant un impact sur la mortalité. La mortalité due au cancer pouvant varier avec l’ethnie (Clegg et al., 2002; Doubeni et al., 2007; White et al., 2010), des tables stratifiées par ce facteur pronostique présentent un intérêt. Ainsi, de telles tables sont produites aux États-Unis. Par ailleurs, d’autres variables comme le niveau socio-économique ou le niveau d’études atteint peuvent avoir un impact sur la mortalité. Dès 1998, dans une étude empirique comparant trois méthodes utilisées pour étudier la survie associée au cancer par classe sociale, Dickman et al. (1998) concluaient que les taux de survie relative sans correction liée à la classe sociale surestimaient les différences socio-économiques et devraient être utilisés avec précaution. C’est un résultat assez intuitif. En effet, considérons un patient ayant un faible niveau socio-économique. Si, à un temps t fixé, on note SP1 (t) sa survie attendue dans la population générale issue des tables de mortalité non stratifiées par le niveau socio-économique, et si l’on note SP2 (t) sa « véritable » survie dans la population générale des personnes ayant un faible niveau socioSO (t) SO (t) < 2 , ce qui correspond à une économique, alors on a SP2 (t) < SP1 (t). On a donc 1 SP (t) SP (t) sous-estimation du ratio de survie relative pour ce patient. Réciproquement, le ratio de survie relative pour un patient ayant un fort niveau socio-économique sera surestimé. En conclusion, la différence des ratios de survie relative entre deux patients appartenant à ces deux classes sera surestimée. L’utilisation de taux de mortalité ajustés par classe sociale est ainsi conseillée. 2 Construction de tables de mortalité stratifiées sur un/des facteurs pronostiques Lorsque certaines sources d’information sont disponibles, il est possible de construire ou « compléter » des tables de mortalité. En ce qui concerne le cas particulier des tables de mortalité incomplètes, EUROCARE utilise des méthodes d’interpolation mathématiques. Micheli et al. (2002) ont résumé les principaux problèmes rencontrés et les méthodes utilisées pour y remédier. Baili et al. (2005) ont décrit plus longuement ces méthodes : – l’interpolation linéaire pour construire des tables à des années manquantes. Reprenons l’exemple donné par Micheli et al. (2002). Connaissant les probabilités de décès qx à l’âge x pour les années 1979 et 1982, on en déduit, par interpolation, les probabilités de décès pour les années 1980 et 1981 : 2 1 1 2 qx (1980) = qx (1979) + qx (1982) et qx (1981) = qx (1979) + qx (1982). 3 3 3 3 32 III.2 Construction de tables de mortalité stratifiées sur un/des facteurs pronostiques – la méthode Elandt-Johnson (Elandt-Johnson, 1980; Baili et al., 2005) est utilisée pour produire des tables complètes à partir de tables abrégées, où les taux sont donnés entre certains âges pivots, espacés de cinq ou dix ans au-delà de l’enfance. La méthode d’interpolation dépend de l’âge manquant. Ainsi, lorsque x < 74, les données de la table abrégée et des coefficients prédéterminés sont combinés linéairement pour obtenir les estimations des taux de la table complète. Ces coefficients diffèrent selon la tranche d’âge de x (x ∈ [2; 9] ou x ∈ [10; 74]). Lorsque x ≥ 75, on suppose que la distribution de la R ax x fonction de survie suit une loi de Gompertz S(x) = e a (1−e ) = b1−c où x > 0, R > 0, R a > 0, b = e a et c = ea . Pour estimer b et c, on utilise des valeurs de la table abrégée. Micheli et al. (2002) produisent des tables de mortalité pour tous les âges de 0 à 99 ans. En effet, les estimations à des âges supérieurs ne sont pas fiables, ce qui a poussé le SEER à ramener sa limite d’âge maximal de 118 à 99 ans (SEER, 2014a). – la méthode Ewbank et al. (1983) pour obtenir des tables régionales à partir de tables nationales. Il s’agit d’une extension de la méthode Brass logit (Brass et al., 1971). Ainsi, connaissant les tables de mortalité par région pour l’année 1990 seulement, Micheli et al. (2002) ont pu estimer les tables complètes pour les années 1978 – 1995 à partir des tables nationales pour ces années. La formule liant les tables régionales aux tables « standard » nationales ainsi que la méthode de résolution de cette équation à 4 inconnues sont développées dans l’article de Ewbank et al. (1983, pages 107 et 127). Par ailleurs, des méthodes permettant de construire des tables de mortalité stratifiées par certains facteurs pronostiques ont été proposées. Woods et al. (2005) ont ainsi présenté une méthode pour construire des tables de mortalité stratifiées par niveau de pauvreté (« deprivation ») et région en Angleterre et au Pays de Galles en utilisant des données brutes sur des circonscriptions électorales. Plus précisément, les tables ont été construites pour trois groupes : (1) les circonscriptions électorales ; (2) les quintiles de « deprivation » ; et (3) les combinaisons de ces circonscriptions électorales et quintiles de « deprivation ». Pour chacun de ces groupes, il s’agissait d’obtenir le nombre de décès par âge et sexe pour une année donnée (ce qui constituait le numérateur) ainsi qu’une estimation de la taille de la population dans ce groupe à un temps correspondant au milieu de l’année considérée (ce qui constituait le dénominateur). Schématiquement, on peut distinguer les étapes suivantes : – calcul des quantités nécessaires au numérateur : • considération du nombre moyen de décès annuels enregistrés par groupe d’âge, sexe, et année (1997, 1998 ou 1999) pour chacune des 9309 circonscriptions électorales. – calcul des quantités nécessaires au dénominateur : • considération des tailles de population pour chacune des circonscriptions électorales 33 III.2 Construction de tables de mortalité stratifiées sur un/des facteurs pronostiques en 1998, données pour 3 tranches d’âge (0-15, 16-59 et plus de 60 ans), sans distinction du sexe ; • utilisation du recensement de 2001 (le plus proche de 1998) pour estimer le profil âge-sexe de chacune des circonscriptions électorales ; • estimation de la taille de la population de chacune des circonscriptions électorales par âge et sexe à partir des 2 points précédents. – construction de 5 groupes de circonscriptions en fonction de l’indice de « deprivation » : • classement des circonscriptions électorales par ordre croissant de leur indice de « deprivation » (la construction de ces indices est détaillée dans Noble et al. (2000a) et Noble et al. (2000b)) ; • création de 5 quintiles : le premier contenait les 20% des circonscriptions les plus riches et le dernier les 20% des circonscriptions où la population était la plus démunie. Prenons l’exemple d’une table stratifiée par la région i et le quintile j. Le taux de décès par âge et sexe s’obtenait comme le quotient de 2 sommes sur toutes les circonscriptions appartenant à la région i et au quintile j. En Nouvelle-Zélande, Carter et al. (2010) ont proposé une méthode pour construire des tables stratifiées sur l’ethnie, les revenus et le statut fumeur/non-fumeur. Pour cela, ils ont utilisé : 1. les tables de mortalité de Nouvelle-Zélande stratifiées par sexe et année. Notons mx le taux de mortalité à l’âge x pour un individu de sexe donné et pour une année donnée. 2. le rapport de la sous-population concernée sur la population totale. Notons, par exemple, pM et pM les proportions de population Māori et non-Māori respectivement. 3. un modèle de régression pour obtenir les ratios des taux de mortalité à un âge donné. Notons, par exemple, RRM , le ratio où la modalité de référence serait « non-Māori ». Ils voulaient obtenir mx,M et mx,M les taux de mortalité à l’âge x pour les Māori et nonMāori respectivement. Ils ont déduit ces quantités des relations pM mx,M + pM mx,M = mx et mx,M = mx,M RRM . Les méthodes décrites ci-dessus reposent sur l’existence de liens entre données de mortalité et données de recensement. Mais ces données ne sont en général pas disponibles. Par exemple, en France, aucune donnée n’est disponible sur l’ethnie. Par ailleurs, toujours en France, si les données de mortalité sont connues par les registres, elles sont rendues anonymes. De ce fait, il est impossible de les fusionner avec des données de recensement au niveau individuel. Ces méthodes ne sont donc pas toujours applicables en pratique, par manque de données brutes. Ce constat amène à se poser la question de l’impact de l’utilisation de tables de mortalité non 34 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès appropriées, i.e. insuffisamment stratifiées, sur les estimations des effets des facteurs pronostiques sur la mortalité en excès. Nous avons étudié ce problème par des études sur simulations et sur données empiriques. 3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Dans ce travail, nous avons réalisé plusieurs études par simulations pouvant représenter des situations plausibles d’un point de vue épidémiologique. Supposons que l’on ait une variable binaire X représentant, par exemple, l’ethnie (codée en individus d’ethnie blanche vs. individus d’ethnie noire) ou le statut socio-économique (codé en favorisés vs. défavorisés). Dans la réalité, nous ne disposons pas de table de mortalité stratifiée sur cette variable. Ainsi, dans le cadre des simulations, dans un premier temps, nous nous sommes placés dans un monde « idéal » en générant des données de survie avec une table de mortalité stratifiée sur X. Dans un deuxième temps, nous avons estimé les effets des facteurs pronostiques sur la mortalité en excès avec une table dont nous disposerions dans la réalité, c’est-à-dire une table non stratifiée sur X. Enfin, la troisième et dernière étape consistait à mesurer le biais observé sur les estimations des effets des facteurs pronostiques sur la mortalité en excès. Notons que nous n’avons pas étudié les phénomènes d’exposition (comme le statut fumeur/non-fumeur). 3.1 Étapes communes aux différentes simulations Nous avons construit différents scénarios suivant un schéma commun que nous exposons ci-dessous. 3.1.1 Construction des tables de mortalité Fondements épidémiologiques Afin d’avoir des données plausibles d’un point de vue épidémiologique, nous avons utilisé des tables réelles pour construire nos propres tables. Nous avons choisi d’utiliser les tables américaines fournies par le package survival du logiciel R (Therneau, 2013) : survexp.us (population globale) et survexp.usr avec un niveau additionnel de stratification par l’ethnie (individus d’ethnie blanche ou noire). 35 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Figure III.1 – Taux de mortalité d’individus masculins issus des tables américaines entre 1940 et 2004. L’étude de ces tables aux différentes années fournies (1940 à 2004) nous a permis d’envisager différentes formes possibles concernant l’évolution des taux de mortalité en fonction de l’âge. Ainsi, comme le montre la figure III.1, lorsque l’on considère les tables globales (i.e. non stratifiées sur l’ethnie), les représentations des taux de mortalité en échelle logarithmique pour des individus masculins et des âges compris entre 40 et 100 ans étaient quasiment linéaires. La différence notable en parcourant ces tables de 1940 à 2004 était la diminution de la mortalité à chaque année. La figure III.2 montre qu’en 2004, les allures des courbes pour les individus d’ethnies noire et blanche sont similaires à celle de la population globale. Elle montre aussi que les individus d’ethnie noire sont minoritaires dans la population globale. Notons enfin que des résultats similaires ont été obtenus pour toutes les courbes représentant des individus féminins. Pour ces raisons, nous avons limité notre étude à des hommes d’âges compris entre 40 et 100 ans et utilisé les dernières tables à notre disposition, i.e. celles datant de 2004. Par ailleurs, par souci de simplicité, nos représentations graphiques des taux de mortalité sont en échelle logarithmique, ceci nous permettant de modéliser une évolution linéaire. 36 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Figure III.2 – Taux de mortalité d’individus masculins issus des tables américaines stratifiées sur l’ethnie en 2004. Comparaison avec les taux de la population globale. 37 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Nous allons maintenant expliquer le principe général de construction des tables de mortalité utilisées dans nos simulations. Pour se placer dans un cadre plus général, nous avons considéré une variable binaire X. La modalité 0 de X correspondait aux individus d’ethnie blanche des tables américaines. Ainsi, la modalité de référence correspond aux individus ayant les taux de mortalité les moins élevés. Par conséquent, la modalité 1 de X correspondait aux individus d’ethnie noire, individus ayant les taux de mortalité les plus élevés. Par la suite, pour plus de généralité, nous ne ferons plus la distinction entre individus d’ethnie blanche et individus d’ethnie noire. Construction de la « Table Globale » La construction de la table de mortalité attendue dans la population générale non stratifiée sur X, appelée « Table Globale », a été obtenue à l’aide de la table américaine stratifiée seulement sur l’âge et le sexe (survexp.us). En effectuant une régression linéaire de l’âge sur les taux de mortalité contenus dans la table, nous avons obtenu la droite, (D), d’équation : y = −4 + 0, 035 × âge (D). Nous avons alors supposé que les taux de la mortalité globale étaient donnés par : T auxGlobal = 10−4+0,035×âge Construction de la « Table Stratifiée » De la même façon que pour la table globale, nous avons utilisé la table de mortalité survexp.usr stratifiée sur l’âge, le sexe mais également sur l’ethnie (Blanc/Noir) afin de créer une table de mortalité attendue pour la population générale, stratifiée sur X et appelée « Table Stratifiée ». Afin de construire les taux de mortalité attendus pour X = 0 (puis pour X = 1), nous avons choisi une droite parallèle à la droite (D), passant au plus près de la droite de régression obtenue à partir de survexp.usr 1 . Notons ces droites respectivement (D0 ) et (D1 ). Elles ont pour équation : 1. Nous avons choisi de ne considérer que des droites parallèles afin de faciliter l’interprétation des résultats. Cependant, ce choix n’étant pas très « réaliste », nous avons aussi étudié un scénario dans lequel la « Table Stratifiée » est construite à partir de droites non parallèles. 38 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès y y = −4, 05 + 0, 035 × âge (D0 ) = −3, 80 + 0, 035 × âge (D1 ) Les taux ainsi obtenus sont : T aux0 T aux1 = 10−4,05+0,035×âge = 10−3,80+0,035×âge La figure III.3 montre les vraies valeurs issues de survexp.us et de survexp.usr et les droites de régression obtenues. Figure III.3 – Taux de mortalité d’individus masculins issus des tables construites et des tables américaines stratifiées ou non sur l’ethnie en 2004. Enfin, notons p0 (respectivement p1 ) la proportion dans la population générale d’individus 39 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès ayant la modalité X = 0 (respectivement X = 1). La solution du système : p0 + p1 = 1 T auxGlobal = p0 × T aux0 + p1 × T aux1 10−4 − 10−3,80 nous permet de conclure que p0 = −4,05 = 0, 8432. Autrement dit, il y a environ 84% 10 − 10−3,80 d’individus ayant la modalité de X = 0 dans la population générale représentée dans « Table Globale » (et 16% ayant la modalité X = 1). Par ailleurs, l’écart (différence entre les ordonnées à l’origine) entre (D0 ) et (D1 ) est de 0,25. Dans nos simulations, comme nous allons le voir dans les paragraphes suivants, nous avons fait varier ces deux quantités (écart et proportions). 3.1.2 Génération des données de survie La construction des tables de mortalité faisait référence à la population générale. Nous présentons ici la génération des données de survie, i.e. la génération de la population étudiée et de leurs caractéristiques. Cette étape de génération suit un schéma général. Pour chaque patient i, nous avons généré des variables : age (l’âge au diagnostic, considéré comme une variable quantitative) et, possiblement, une variable binaire X. Plus précisément, la distribution de la variable age a été choisie de façon à représenter approximativement la distribution des âges de patients atteints de cancer colorectal dans les registres français. Ainsi, au moment du diagnostic, 25% des patients avaient entre 40 et 64 ans, 35% avaient entre 65 et 74 ans et 40% avaient plus de 75 ans. La variable X a été générée : – soit de façon indépendante de age, auquel cas on imposait P (X = 0) = P (X = 1) = 1/2, i.e. la même proportion de patients ayant la modalité X = 0 que de patients ayant la modalité X = 1 ; – soit de façon à être corrélée avec age, positivement ou négativement. Pour une corrélation positive, on imposait : (1) P (X = 0) = 3/4 si l’âge était compris entre 40 et 64 ans ; (2) P (X = 0) = 4/10 si l’âge était compris entre 65 et 74 ans ; et (3) P (X = 0) = 2/10 si l’âge était supérieur à 75 ans. Pour une corrélation négative, on imposait : (1) P (X = 0) = 2/10 si l’âge était compris entre 40 et 64 ans ; (2) P (X = 0) = 6/10 si l’âge était compris entre 65 et 74 ans ; et (3) P (X = 0) = 8/10 si l’âge était supérieur à 75 ans. Les distributions de X correspondantes sont représentées sur la figure III.4. Elles ne sont pas symétriques de façon à étudier plusieurs « niveaux » de corrélation. 40 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Figure III.4 – Répartition de la variable X selon la classe de la variable age en cas de corrélation positive et négative. 41 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Nous avons généré des temps de survie à partir du modèle multivarié 2 . Comme cela a été introduit au Chapitre II, pour chaque patient i, le taux instantané associé au temps de décès Ti est la somme de deux composantes : λ̃P,i (t) + λ̃E,i (t), où t est le temps depuis le diagnostic, λ̃P,i (t) et λ̃E,i (t) étant les taux instantanés attendus et en excès conditionnellement aux covariables. Ainsi, pour générer Ti : 1. nous avons généré TP,i à partir de notre « Table Stratifiée ». L’algorithme utilisé est : (a) initialiser TP,i et un compteur cpt à 0 ; (b) lire dans la table la probabilité pour un individu d’âge age′i de décéder avant l’âge age′i + 1, à savoir qi = P (TP,i ≤ 1 | TP,i > 0, age′i ) où age′i représente l’âge au diagnostic, agei , arrondi à l’entier le plus proche 3 ; (c) générer uatt,i suivant une loi uniforme sur [0; 1] ; (d) si uatt,i ≤ qi : alors le patient i est décédé durant la première année. On obtient TP,i à partir d’une loi uniforme sur [0; 1]. (e) sinon, tant que uatt,i > qi : i. le patient a survécu une année supplémentaire. Ajouter 1 à TP,i et 1 à cpt ; ii. générer un nouveau uatt,i suivant une loi uniforme sur [0; 1] ; iii. lire dans la « Table Stratifiée », qi à l’âge age′i + cpt. On a alors : qi = P (TP,i ≤ 1 + cpt | TP,i > cpt, age′i + cpt). La fin de cette boucle signifie que le décès a eu lieu dans l’année. On ajoute donc à TP,i un nombre obtenu à partir d’une loi uniforme sur [0; 1]. 2. nous avons généré TE,i en supposant un modèle à risque en excès proportionnel : λ̃E,i (t) = λ0 (t) exp(βage agec,i + βX 1(Xi = 1)), où βage et βX sont les effets de l’âge (au diagnostic) centré, agec , et de X sur la mortalité en excès, i.e. les logarithmes des hazard ratios (HR) des covariables agec et X. Dans le cadre de ces simulations, nous avons fixé βage = ln(1, 03) et βX = ln(2). Le taux de base λ0 a été modélisé suivant une distribution de Weibull généralisée (Mudholkar et al., 1996; 2. La méthode de génération est reprise dans chacun des articles sur la survie effectués dans le cadre de cette thèse. Nous la détaillons ici et nous nous y réfèrerons dans les chapitres suivants. 3. Plus précisément, la table contient T auxAtti qui est relié à qi par qi = 1 − exp (−365, 24 × T auxAtti ) . 42 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès κρκ tκ−1 avec ρ = 0, 5, α = 0, 2 et κ = 2 (voir (ρt)κ 1+ α figure III.5). Ce choix repose sur la forme de la distribution du taux instantané en France pour des patients atteints d’un cancer colorectal. Nous avons ensuite utilisé la méthode par inversion de la fonction de répartition (Ross, 2006). Après génération d’une variable ui suivant une loi uniforme sur [0; 1], TE,i s’obtient par Belot et al., 2010) définie par t 7−→ TE,i 1 1 = α −1 + ρ 1 − ui 1 1 κ α. exp(βage .agec,i + βX .1(Xi = 1)) . 3. nous avons généré des temps de censure à droite Ci à partir d’une loi uniforme sur [0, b], où b a été choisi de façon à obtenir environ 0%, 30% ou 50% de censure. Ainsi, le temps « observable » de décès était déterminé par Ti = min(TP,i , TE,i ) et le temps observé de décès par Ui = min(TP,i , TE,i , Ci ). De plus, tous les sujets encore à risque à 6 ans ont été censurés, afin de représenter une censure administrative. Figure III.5 – Forme du taux de base λ0 choisi pour générer les temps de survie en excès, TE,i : fonction de Weibull généralisée avec ρ = 0, 5, α = 0, 2 et κ = 2. 43 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès 3.1.3 Estimation des effets de facteurs pronostiques sur la mortalité en excès Pour estimer les effets de facteurs pronostiques sur la mortalité en excès, nous avons utilisé l’approche de Dickman et al. (2004) qui s’appuie sur le modèle de Esteve et al. (1990). Dickman et al. (2004) ont proposé une approche dans laquelle le « split des données » et un jeu d’écriture sur la vraisemblance permettaient de se placer dans le cadre des modèles linéaires généralisés (GLM), faciles à implémenter et offrant tous les champs d’action des GLM. Détaillons cette approche du « split des données ». L’estimation du modèle est simplifiée si chaque observation est scindée en plusieurs observations pour chaque intervalle de temps, pour un nombre prédéfini maximal d’intervalles. Plutôt que d’évaluer la log-vraisemblance pour chaque patient et de la sommer (sur tous les patients), on évalue la log-vraisemblance sur chaque sous-intervalle. Prenons l’exemple simple d’un sujet qui décède 4,5 ans après le diagnostic. Cette observation peut être scindée en 5 sous-observations : – pour les quatre premières : temps d’observation d’un an et statut δ = 0 – pour la dernière : temps d’observation de 6 mois et statut δ = 1 Plutôt que de s’intéresser au taux de décès attendu (T auxAtt), on va alors regarder le nombre de décès par intervalle (dcAtt), ce qui correspond au produit du taux de décès attendu par la durée (tik ) pendant laquelle un patient i est soumis au risque dans l’intervalle k : dcAtt = T auxAtt × tik . Prenons maintenant un autre exemple d’un sujet qui décède 5,61567 ans après le diagnostic, lors d’une étude menée sur 6 ans. Avant le « split des données », on a les données de la table III.1 : Temps Statut 5,61567 1 AgeCentré X -25,67 1 T auxAtt 0,006992353 Tableau III.1 – Une observation non « splittée ». Découpons les intervalles de la façon suivante 4 : – [0 ; 2] en pas de 0,05 – [2, 1 ; 6] en pas de 0,1 On obtient alors les 77 observations scindées comme le montre le tableau III.2. Ainsi, chacune des sous-observations conserve les covariables de l’observation originale. 4. Notons qu’ici, le nombre prédéfini maximal d’intervalles est égal à 80. 44 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Intervalle Statut (0 ; 0, 05] 0 (0, 05 ; 1] 0 ... 0 (5, 4 ; 5, 5] 0 (5, 5 ; 5, 6] 0 (5, 6 ; 5, 61567] 1 AgeCentré X -25,67 1 -25,67 1 -25,67 1 -25,67 1 -25,67 1 -25,67 1 dcAtt 0,0003496176 0,0003496176 ... 0,0006992353 0,0006992353 0,0001095728 Tableau III.2 – Une observation « splittée ». Dickman et al. (2004) ont montré que lorsque λE est une fonction en escalier, la vraisemblance du modèle peut être considérée comme celle d’un GLM (en supposant que le nombre de décès dk dans chaque intervalle k suit une loi de Poisson de paramètre µk ) : – la variable de réponse est le statut δ ; – les variables explicatives sont les covariables ; – la fonction de lien est de forme logarithmique 5 ; – on prend un offset de ln(tik ) où tik désigne la durée pendant laquelle le patient i est soumis au risque dans l’intervalle k. Comme dans de nombreuses études, aussi bien sur la survie brute que sur la survie nette, nous avons considéré des splines de régression pour modéliser le taux de base, λ0 . En effet, lorsque l’on prend pour taux de base une fonction en escalier, le choix des intervalles se révèle problématique lorsque les données sont clairsemées (Bolard et al., 2001; Remontet et al., 2007). Une approche permettant d’obtenir une estimation lissée, flexible et représentant une forme plausible d’un point de vue épidémiologique repose sur l’utilisation de splines. Notre choix s’est porté sur des splines de régression cubique avec un seul nœud, t1 , à un an car elles avaient déjà été utilisées dans d’autres études avec un comportement satisfaisant (voir, par exemple, Giorgi et al., 2008; Belot et al., 2010). Nous les avons définies au Chapitre II (équation (II.3)). 3.1.4 Mesures du biais Les critères retenus pour estimer la qualité des estimateurs étaient : 1. le biais β̂ − β, où β̂ est la moyenne des estimations de la vraie valeur β ; β̂ − β ; β 3. le taux de recouvrement empirique, à savoir la proportion de simulations telles que les intervalles de confiance à 95% contiennent β. 2. le biais relatif : 5. Plus précisément, il s’agit d’une fonction de lien modifiée de la forme ln(µk − dcAttk ) où dcAttk représente le nombre de décès attendus dans l’intervalle k. 45 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès 3.2 Principaux résultats Nous présentons ici un article publié dans Statistics in Medicine (Grafféo et al., 2012) dans lequel nous avons étudié ce problème sur des simulations (selon cinq scénarios) et des données réelles françaises. Le tableau III.3 page 59 résume les scénarios étudiés dans l’article. Ce travail a été valorisé dans différentes conférences : – Giorgi R, Grafféo N. The impact of additional life table variables on excess mortality estimates. 32th annual conference of International Society for Clinical Biostatistics, Ottawa (Canada, 2011) – Giorgi R, Grafféo N. The impact of additional life table variables on excess mortality estimates. Workshop on Methods for investigation of the influence of social environment on cancer risk, management and prognosis with data from cancer registries. Groupe des Registres de Langue Latine, Caen (France, 2011) – (Invitée) Grafféo N, Giorgi R. Non-matching life tables and impact. European Partnership for Action Against Cancer WP9 Satellite Meeting, State of Art of Methods for the Analysis of Population-Based Cancer Data, Ispra (Italie, 2014) 46 Special Issue Paper Received 28 October 2011, Accepted 25 May 2012 Published online in Wiley Online Library (wileyonlinelibrary.com) DOI: 10.1002/sim.5493 The impact of additional life-table variables on excess mortality estimates Nathalie Grafféo,a,b,c Valérie Joosted and Roch Giorgia,b,c,e * † Regression-based relative survival models are commonly used in population-based cancer studies to estimate the real impact on the excess mortality of covariates that influence overall mortality. Usually, the mortality observed in a study cohort is corrected by the expected mortality hazard in the general population, which is given by life tables provided by national statistics institutes. These life tables are stratified by age, sex, calendar year, and, sometimes, other demographic data (ethnicity, deprivation, and others). However, in most cases, the same demographic data are not available for the study cohort and the general population; this leads to differences between the expected mortality of the general population and that of the study cohort. More generally, the absence of some demographic variables in life tables may introduce a measurement bias into the estimation of the excess mortality. In the present article, we used a simulation approach with different plausible scenarios to evaluate the impact of an additional life-table variable on excess mortality estimates and study the extent and the direction of the biases in estimating the effect of each covariate on the excess mortality. We showed that the use of life table that lacks stratification by a variable present in the excess hazard model results in a measurement bias not only in the estimate of the effect of this variable but also, to a lesser extent, in the estimates of the effects of the other covariates included in the model. We also demonstrated this measurement bias by a population-based colorectal cancer analysis. Copyright © 2012 John Wiley & Sons, Ltd. Keywords: life tables; excess mortality; bias (epidemiology); colon cancer; population-based study 1. Introduction Relative survival is commonly used in population-based studies [1–3]. Within the context of a given disease, the method provides estimates of patients’ survivals corrected for the effects of other independent causes of death by using the overall mortality in the general population, without needing the exact causes of death [4]. The method is especially suited for comparisons between countries [5, 6]. Historically, several relative survival models have been proposed; the earliest relied on unifactorial methods [4, 7, 8], but the subsequent ones took into account several prognostic factors in multifactorial regression models [9, 10]. The latter models provide measures of excess mortality in patients under study. Interestingly, they estimate the real impact of the covariates that influence overall mortality on the disease-specific mortality [11]. Roughly, to obtain the excess death rate, the mortality observed in a study cohort is corrected by subtracting from it the natural mortality given by the life tables of the corresponding general population. In France, the life tables provided by the Institut National de la Santé et de la Recherche Médicale are stratified by variables known to influence the overall mortality: age, sex, calendar year, and region or Département (a territorial and administrative division of the country). Thus, French population-based studies of cancer mortality use these life tables to determine the proper effects of those variables on the a Aix-Marseille Univ, UMR 912, SESSTIM, F-13284, Marseille, France UMR 912, SESSTIM, F-13284, Marseille, France c IRD, UMR 912, SESSTIM, F-13284, Marseille, France d Registre Bourguignon des Cancers Digestifs, Inserm U866, “Lipides, Nutrition, Cancer”, CHU Dijon, 21079 Dijon, France e APHM, hôpital Timone, Service de Santé Publique et d’Information Médicale, F-13005, Marseille, France *Correspondence to: Roch Giorgi, SESSTIM Sciences Economiques & Sociales de la Santé & Traitement de l’Information Médicale, UMR 912 Inserm/IRD/Aix-Marseille Université Faculté de Médecine, 27 Boulevard Jean Moulin F-13385 Marseille Cedex, France. † E-mail: [email protected] b Inserm, Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI excess mortality [12]. However, it could be interesting to have life tables stratified by additional prognostic factors likely to influence overall mortality. For example, because of the influence of ethnicity on the overall mortality and potentially on various cancer survivals [13, 14], some US life tables produced by the National Center for Health Statistics are also stratified by ethnicity and were used in some US population-based studies of excess cancer-specific mortality (see the SEER Cancer Statistics Review [15]). However, even in these States, reliable life tables are not available for some ethnic groups such as Hispanic whites, Hawaiian natives, American Indians, Alaskan natives, and Asian Americans [16]. Similarly, deprivation is known to affect the overall mortality, and in some types of cancer, low socioeconomic classes have been positively associated with high mortality rates [17, 18]. This means that a subpopulation with a lower socioeconomic status than that of the general population has a higher expected mortality. If the deprivation status is not taken into account by a stratification of the life table, the relative survival for this subpopulation will be underestimated. An empirical study on data from the Finnish Cancer Registry was performed to compare the relative survival, the cause-specific survival, and the relative survival adjusted for social class differences in general mortality. The relative survival adjusted for social class differences in general mortality was recommended to estimate social-class-specific survival [19]. Also, life tables stratified by an indicator of deprivation were used in population-based survival studies that required an estimation of socioeconomic differences between cancer patients [20–22]. In fact, very often, demographic data that influence overall mortality are not available. This may lead to unreliable relative survival estimates. An appropriate analysis should account for this lack of information in the life tables. This was confirmed by a comparative study of the CONCORD Working Group showing a difference between the relative survival estimates obtained by the SEER approach (with the use of an ‘overall US national, race-specific life table centered on the most recent census, for all cancer registry areas in the SEER Program and over a decade’) and those obtained by the CONCORD approach (with the use of complete life tables stratified by sex, cancer registry area, calendar year, and ethnicity) [23]. In the present article, we show how the lack of an additional life-table variable may impact the estimates of the effect of each of the prognostic factors on the excess mortality. We use a simulation approach to assess the bias due to the use of a life table that lacks stratification by a variable present in the excess hazard model. We studied both the bias in the estimation of the effect of an additional variable and the biases in the estimations of the effects of the other covariates included in the model. The following section presents the relative survival regression model that relies on the excess mortality approach proposed by Remontet et al. [24]. Section 3 summarizes the methods and the results of the simulations. Section 4 presents an example based on real data from France. The article concludes with a brief discussion about the findings of the study and some suggestions for the future. 2. The excess hazard model In its classical additive form [9, 10], the observed hazard for total mortality, O , at time t after diagnosis of an individual aged a at diagnosis and given a vector of covariates ´, which could contain age, is defined as the sum of two components: O .t; ´; a/ D P .t C a; ´s / C C .t; ´/ The first component, P , is the population hazard function; that is, the expected mortality for similar individuals in the general population. It is assumed to be known and may be obtained from published vital statistics [9]. Vector ´s contains the population characteristics (or prognostic factors) available in a given life table among all possible characteristics. This means that ´s D ´ or ´s ´. The second component, C , is the disease-related mortality hazard function or the excess hazard function. This function may be modeled with the standard approach proposed by Remontet et al., which relies on the framework of the generalized linear models [24, 25]. Thus, C is the product of the baseline excess hazard function by a function that depends only on the covariates whose effects on the excess hazard function are of interest: C .t; ´/ D f .t /: exp.ˇ:´/ Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI ˇ is a vector that contains the log hazard ratios (HR) of the covariates. Function f is modeled by a cubic regression spline [26] with one knot located at 1 year. Precisely, a cubic regression spline with R knots .t1 ; : : : ; tR / may be written as follows: log.f .t // D 0 C 1 t C 2 t 2 C 3 t 3 C R X ıj .t tj /3C ; j D1 where subscript ‘C’ corresponds to uC D u if u > 0 and uC D 0 if u 6 0. A cubic regression spline is a smooth piecewise polynomial function of order 4 in which the constraint is that the function and its first two derivatives should be continuous at the knots where the adjacent pieces of the polynomial join [27, 28]. The location of the interior knot at 1 year was considered because, in many cancers, especially colorectal cancer, a high proportion of deaths is observed during the first year after diagnosis [2] and because the estimations of the covariate effects on early mortality (mostly due to postsurgical complications during the first year) differ from those made during late mortality reflecting disease progression [29, 30]. 3. Simulation studies We conducted simulation studies to assess the impact of an additional life-table variable on the estimates of excess mortality. Our strategy consisted in, first, generating life tables and survival times according to different scenarios, and then using different schemes of analysis to estimate the effects of the prognostics factors of the model on excess mortality. We generated the data using a life table stratified by a binary variable X . We obtained the estimates using a life table possibly not stratified by X . 3.1. Data generation 3.1.1. Construction of life tables. To study different possible situations with an epidemiological perspective, we used the American life tables provided by the survival package in R software [31], first to obtain information on plausible relationships between some variables and mortality hazard rates, then to construct the life tables to be used in the simulations. Life tables provide overall mortality hazard rates for every year of age and are stratified by sex (survexp.us). An additional level of stratification is provided by ethnicity (white and black people; survexp.usr). The main information obtained by the plot of the American mortality hazard rates according to sex, ethnicity, and year of death was that the general and the ethnic-specific curves of the mortality rates had a quasilinear representation between 40 and 100 years old, using a base 10 logarithmic scale. Hence, in our study, age ranged from 40 to 100 years. Also, to simplify both calculations and interpretations, we only used the American life tables of 2004 for men. We selected the binary variable ‘ethnicity’ as the possible additional life-table variable, which was denoted X in the simulations. Two types of life tables were necessary: (1) an overall life table (OLT) containing the mortality hazard rates for men by age; and (2) an X -specific life table (XsLT); that is, a life table with an additional level of stratification by the binary variable X . We obtained OLT by a linear regression on the log10 of the mortal ity hazard rates contained in survexp.us. The fitted linear equation was .D/ W y D 104:00C0:035 age . Similarly, we obtained XsLT using mortality hazard rates contained in survexp.usr. First, we obtained two lines .d0 / and .d1 / by linear regression (with X D 0 and X D 1, respectively), and then we chose .D0 / and .D1 / as the two lines parallel to .D/—with a logarithmic scale for the vertical axis—that best approach .d0 / and .d1 /. We obtained .D0 / W y D 104:05C0:035 age and .D1 / W y D 103:80C0:035 age . We defined space 0 as the difference between .D/ and .D0 / on a logarithmic scale; that is, 0 D 0:05 (1 D 0:20 for the space between .D/ and .D1 /). Finally, we found a relationship between the lines: 104:00C0:035 age 0:84 104:05C0:035 age C 0:16 103:80C0:035 age , meaning that nearly 84% of the general population had modality X D 0. 3.1.2. Survival data generation. The time to death, T , was assumed to depend on the age at diagnosis (a continuous covariate) and, eventually, on the binary variable X . We generated age so as to represent approximately the empirical distribution of the ages of colon cancer patients in the French registries [32]: 25% of patients aged 40–64 years, 35% aged 65–74 years, and 40% aged 75 years and above. Generally, X was independent from age and generated from a binomial distribution with P .X D 0/ D P .X D 1/ D 0:5. But, in some simulations, X was as follows: (1) positively correlated with age; that is, Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI P .X D 0/ D 0:75 when age was between 40 and 64 years, P .X D 0/ D 0:4 when age was between 65 and 74 years, and P .X D 0/ D 0:2 when age was 75 years and above; or (2) negatively correlated with age; that is, P .X D 0/ D 0:2 when age was between 40 and 64 years, P .X D 0/ D 0:6 when age was between 65 and 74 years, and P .X D 0/ D 0:8 when age was 75 years and above. In agreement with Le Teuff [32], we considered that the time to death is the minimum of two distinct times: TP due to the ‘population hazard’ and TC due to the ‘excess death’; thus, T D min .TP ; TC /. For each subject, TP was obtained from the life tables used for this data generation step (LTG), and TC was generated from a generalized Weibull distribution [33] using the inverse transform method [34]. The estimation of the effect of each covariate on the time to death was assumed proportional with constant log HRs .ln.1:03/ for each 1-year increase in age and ln.2/ for X , when present). We generated individual censoring times from a uniform distribution U[0,a], where the upper boundary a was selected so as to obtain approximately 0%, 30%, or 50% overall censoring level. Then, each individual’s observed time was TO;i D min.Ti ; Ci /, where Ti and Ci denote the individual’s survival and censoring time, respectively. In addition, we censored all subjects still at risk at 6 years. Each simulation run consisted of 1000 independent samples of size 1000. Furthermore, to reduce the bias due to differences between random draws in generated survival data, we used the same file of covariates in each scenario. The code and the .RData files are available upon request. 3.2. Design of the evaluation We performed the analyses using the previously described relative survival regression model. We chose the life tables used for this parameter estimation step (LTE) according to one of the following scenarios: (1) LTE D LTG (with OLT or XsLT) or (2) LTE ¤ LTG, LTE being the version of LTG not stratified by X (with OLT). The values of OLT were given by the equation of (D) and those of XsLT by (D1 ) and (D0 ). ^ ^ The criteria used to assess the errors were as follows: (1) the bias of the estimates ˇ ˇ (where ˇ is ^ the mean of the estimates of the true values of ˇ); (2) the relative bias of the estimates (i.e., .ˇ ˇ/=ˇ/; and (3) the empirical coverage rate (ECR) (i.e., the proportion of samples in which the 95% confidence interval includes ˇ/. We also investigated the estimate of the baseline excess mortality hazard function by plotting the mean of 1000 estimates of the baseline excess mortality hazard function. 3.3. Scenarios and results For each of the following scenarios, we first explain the principle then present the results. As the results concerning our main objectives were equivalent with the three censoring levels, we show only those related to 30% censoring. Scenarios 1: performance of the model We obtained information about the performance of the excess hazard model in simple situations with the use of the same life table for both steps: generation and estimation. We examined two situations depending on the presence of the binary variable X in the life table: (1A) LTG D LTE D OLT and (1B) LTG D LTE D XsLT, with 0 D 0:05 and 1 D 0:20 as in Section 3.1.1. With a 30% overall censoring level, when X and age were not correlated, and in the absence of a life table stratified by X (scenario 1A, Table I), the model performed relatively well with small relative biases in the log HR of age and X (0.0444 and 0:0164, respectively) and high ECR (93.1% and 94.4%, respectively). The use of an XsLT (scenario 1B) had no significant effect on the performance of the model (Table I). The results were quite similar when X and age were correlated. In all cases, the estimated baseline excess hazard function was close to the simulated one (data not shown). Therefore, the regression model was considered efficient. Scenario 2: impact of the lack of an additional life-table variable in a simple case Here, we used different life tables for generation and estimation steps; precisely, we used LTG D XsLT (0 D 0:05 and 1 D 0:20) in the generation step and LTE D OLT in the estimation step. This indicates that, independently of age, the expected mortality hazard rates used in the estimation step Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI Table I. Bias, relative bias, and empirical coverage rate obtained in the simulation studies by generating survival data and estimating the effects of the covariates on the excess mortality with the same life table (scenarios 1A and 1B) and by generating with a life table stratified by a binary variable X while estimating with a life table not stratified by X (scenario 2). Bias Relative bias ECR Corr (X , age) Age X Age X Age X 1A D0 >0 <0 0.0013 0.0013 0.0013 0:0114 0:0072 0:0066 0.0444 0.0450 0.0439 0:0164 0:0103 0:0095 0.931 0.937 0.936 0.944 0.933 0.938 1B D0 >0 <0 0.0020 0.0025 0.0020 0.0182 0.0067 0.0216 0.0675 0.0832 0.0669 0.0262 0.0097 0.0311 0.890 0.907 0.917 0.931 0.938 0.924 2 D0 >0 <0 0.0039 0.0049 0.0031 0.1427 0.1115 0.1407 0.1303 0.1673 0.1046 0.2059 0.1608 0.2029 0.815 0.734 0.882 0.702 0.833 0.736 Scenario ECR, empirical coverage rate. Correlation between X D 1 and age. were systematically increased by 100:05 in patients with X D 0 but reduced by 100:20 in patients with X D 1, which resulted in a measurement error. For example, a male patient aged 60 years with X D 0 had a 0.0112 expected mortality hazard rate in the generation step but a rate equal to 0.0126 in the estimation step. Compared with the results obtained in scenarios 1 (30% overall censoring level, X and age uncorrelated), the absolute relative bias related to the log HR of age was two to three times larger, whereas the one related to X was nearly 10 times larger (Table I). Specifically, the effect of age on the excess mortality was overestimated by 0.0039, whereas that of X was overestimated by 0.1427. Additionally, the ECR decreased to 81.5% and to 70.2% for the log HR of age and X , respectively. This highlighted the impact of the absence of the additional life-table variable X not only on the estimate of the effect of X on excess mortality but also on that of age (although to a lesser extent). In comparison with a zero correlation, the case where age and X were positively correlated (i.e., where the proportion of people with X D 1 varied in the same direction as age) produced better results concerning the estimation of the effect of X , with a lower bias (0.1115 vs. 0.1427) and a higher ECR (83.3% vs. 70.2%). However, this impact was compensated by a worse estimate of the effect of age with a higher bias (0.0049 vs. 0.0039) and a lower ECR (73.4% vs. 81.5%). On the contrary, in comparison with a zero correlation, a negative correlation had hardly any impact on the estimation of the effect of X but a lower impact on the estimation of the effect of age (Bias D 0:0031 and ECR D 88:2%). Here again, the estimated baseline excess hazard function was close to the simulated one (data not shown). Scenario 3: impact of the lack of an additional life-table variable in case of variations of the expected mortality hazard rates for a single fixed modality of X To assess the impact of variations of the expected mortality hazard rates independently of the levelspecific effects of variable X on the overall mortality hazard rates, we considered a situation with a single fixed modality of X (X D 0). In the generation step, we took for LTG stratified life tables using XsLT whose values were given by the equation of .D0 /. To this end, we made the expected mortality hazard rates for X D 0 fluctuate by moving (D0 ) in a parallel direction to .D/, using the representation on a logarithmic scale. We chose to make 0 vary from 0:30 to C0:30 by increments of 0.10 (e.g., when 0 D 0, .D/ and .D0 / superimposed). Then, in the estimation step, we used LTE D OLT. Therefore, independently of age, the measurement error in the mortality hazard rates ranged from 100:30 to 100:30 . The only covariate studied in this scenario was age. The more distant .D0 / was from .D/, the worse were the estimates. Thus the relative bias for the log HR of age varied from 0.5522 .0 D 0:30/ to 0:2631 .0 D 0:30/ with a minimum (in absolute value) of 0.0629 when 0 D 0:10 (Table II). Besides, there was no symmetry, because Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI the case .0 > 0/ corresponded to less biased estimates. More interestingly, slight fluctuations in the mortality tables impact the parameter estimations (ECR .0 D 0/ D 90:8% vs. ECR .0 D 0:10/ D 60:9%). When 0 > 0, the baseline excess hazard function was underestimated. On the contrary, when 0 < 0, it was overestimated. The error was greater in the latter case than in the former (see figure in Web-Appendix B).‡ Scenario 4: impact of the lack of an additional life-table variable in case of opposed variations of the expected mortality hazard rates according to the modality of X To assess the impact of the variations of the expected mortality hazard rates and the level-specific effects of the binary variable X on the overall mortality hazard rates, we used in the generation step LTG D XsLT with different spaces imposed between .D/ and .D0 / and between .D/ and .D1 /. To this end, with a proportion of patients with modality X D 0 fixed at 84%, we moved these two lines apart; that is, made 0 and 1 vary simultaneously. First, we made 0 vary from 0.01 to 0.13 by increments of 0.03. Then, we chose LTE D OLT in the estimation step. For example, with 0 D 0:01, the measurement error in the mortality hazard rates using .D/ instead of .D0 / was equal to 100:01 , whereas the error due to the use of .D/ instead of .D 1 / was equal to 100:05 . As noticed in the former simulations, the impact of the absence of the additional life-table variable X was bigger on the estimate of the effect of X on the excess mortality than on the estimate of the effect of age. Indeed, the absolute relative bias in the log HR of X increased from 0.0276 to 0.4760, whereas that of age increased from 0.0683 to 0.2522 (Table II). Similarly, the ECR related to the estimation of the effect of X decreased from 94.5% to 10.0% (vs. 90.3% to 44.0% for the ECR of the estimation of the effect of age). The impacts on both estimations of the effects of X and age increased with the space between the expected mortality used in the generation step and the expected mortality used in the estimation step. There were underestimations of the baseline excess hazard function when the spaces increased (in absolute values; see figure in Web-Appendix B). Table II. Bias, relative bias, and empirical coverage rate obtained in the simulation studies (scenarios 3 and 4) by generating with life tables stratified by a binary variable X and estimating with a life table, which is not stratified by X. Bias Scenario 0 1 Age 3 0:30 0:20 0:10 0.00 0.10 0.20 0.30 – – – – – – – 0.0163 0.0109 0.0063 0.0019 0:0019 0:0053 0:0078 4 0.01 0.04 0.07 0.10 0.13 0:05 0:17 0:26 0:32 0:38 0.0020 0.0035 0.0049 0.0062 0.0075 Relative bias X Age X 0.5522 0.3703 0.2135 0.0655 0:0629 0:1796 0:2631 0.0192 0.1136 0.1893 0.2691 0.3299 0.0683 0.1188 0.1641 0.2114 0.2522 ECR Age X 0.005 0.195 0.609 0.908 0.903 0.741 0.530 0.0276 0.1640 0.2731 0.3883 0.4760 0.903 0.824 0.716 0.566 0.440 0.945 0.791 0.548 0.246 0.100 ECR, empirical coverage rate. In scenario 3, only one modality of X was considered (X D 0) and values used to generate differed from the ones used to estimate by 100 . In scenario 4, the mortality rates of people having modality X equal to 0 (respectively 1) differed from the mortality rates used to estimate by 100 (respectively 101 ). ‡ Supporting information may be found in the online version of this article. Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI Table III. Bias, relative bias, and empirical coverage rate obtained in the simulation studies (scenario 5) by generating with life tables stratified by a binary variable X and by estimating with a life table, which was not stratified by X. Intersection Scenario 5 at age D 50 age D 70 age D 90; Bias Relative bias ECR Age X Age X Age X 0.0036 0.0031 0:2306 0:2015 0.1222 0.1056 0:3327 0:2907 0.820 0.833 0.368 0.463 0.0013 0.0283 0.0448 0.0408 0.926 0.931 0.0003 0.0970 0.0114 0.1399 0.951 0.834 Close age D 90; Distant ECR, empirical coverage rate. Representations of mortality hazard rates, in a logarithmic scale, intersect at three different ages, with a quasi-constant angle between the lines related to X D 0 and X D 1. The ‘close’ case is associated with a small angle, whereas the ‘distant’ case is associated with a large angle. Scenario 5: impact of the lack of an additional life-table variable when level-specific mortality rates of X intersected We considered the most common situation when .D/, .D0 /, and .D 1 / intersected. More precisely, we studied the situations where .D0 / and .D1 / were not parallel anymore. For this purpose, we chose their equations so as to obtain an intersection of .D/, .D0 /, and .D1 / at ages equal to 50, 70, and 90 years. We denoted by the angle between .D0 / and .D 1 / and kept it small and approximately constant in these three situations (‘close’ cases). With regard to age 90 years, we also considered another case where .D0 / and .D 1 / were distant from .D/. Precisely, in comparison with ‘close’, ‘distant’ meant a larger . Then, as in the previous scenarios, LTG D XsLT, with the new .D0 / and .D1 /, was used in the generation step and LTE D OLT was used in the estimation step. As noticed in the former simulations, in all cases, the impact of the absence of X in the life table was bigger on the estimate of the effect of X on the excess mortality than on the estimate of the effect of age (Table III). Moreover, in comparison with the cases where intersection occurred at low ages, an intersection at advanced ages produced smaller biases in both the log HR of age and X . Indeed, the relative biases in the estimation of the effect of X were 0.0408 (ECR D 93.1%) and 0.1399 (ECR D 83.4%) for an intersection at 90 years old, in the ‘close’ and in the ‘distant’ cases, respectively, whereas they increased drastically to 0:2907 and 0:3327 for 70 and 50 years old, respectively (ECR D 46.3% and 36.8%, respectively). Similarly, the relative biases for the estimation of the effect of age were 0.0448 and 0.0114 for an intersection at 90 years old, in the ‘close’ and ‘distant’ cases, respectively (ECR > 92%), whereas they were equal to 0.1056 and 0.1222 for 70 and 50 years old, respectively (ECR D 83.3% and 82.0%, respectively). Besides, comparing the ‘close’ intersection at 90 years old with the ‘distant’ one, the impact of the absence of X in the life table on the estimation of the effect of X on the excess mortality was lower, but it was higher for the estimation of the effect of age. 4. Application to colorectal cancer data We used in this application a French real data set on a cohort of patients with surgically treated colorectal cancer. We considered only the first tumor occurring in each patient. Our analysis strategy was, first, to use the excess hazard model (Section 2) and a cubic regression spline with one interior knot at 1 year to model the baseline excess hazard. Then, we made different choices concerning the life tables: (1) a life table stratified by calendar year and another variable of interest that we considered as the reference because it carries the major part of the information; and (2) some others with a lower level of stratification (calendar year, Département). In all analyses, we restricted patient follow-up to the first 5 years after diagnosis and censoring set at 5 years in still alive patients. Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI 4.1. Methods For this analysis, we considered mortality data on 13,472 patients with colorectal cancer diagnosed between January 1, 1982 and December 31, 2002. (Data obtained from the Registre des Cancers Digestifs de Bourgogne, Dijon, France, that covers two Départements Côte d’Or and Saône-et-Loire.) From this cohort, we excluded 3597 patients who had no curative resection, 53 patients who had lymphoma, six patients younger than 20 years or older than 99 years, and 289 patients with missing values regarding cancer stage at diagnosis or the vital status at 5 years after diagnosis. This left 9527 patients for analysis. The covariates used were age at diagnosis, sex, tumor location, cancer stage at diagnosis, Département of residence, and year of diagnosis (categorized into three periods of 7 years). For this analysis, the Service de Biostatistique des Hospices Civils de Lyon (France) built the life tables using French vital statistics published by the Institut National de la Statistique et des Études Économiques. We considered as reference an analysis that used a French-Département-specific life table stratified by calendar year, from 1982 to 2007. Then, we compared with this reference an analysis that used the French national life table stratified by year of diagnosis (model 1) and an analysis that used the 1994 French-Département-specific life table (model 2). 4.2. Results At 5 years, there were 4260 deaths (44.7% of the 9527 included patients). Whatever the life table used in the analysis, the statistically significant covariates were age, tumor location, year of diagnosis, and cancer stage at diagnosis, the latter being the most aggravating factor (Table IV). Compared with the reference analysis, model 1 produced mainly overestimations of the effects of cancer stage on the excess mortality. However, there was hardly any impact on the estimations of the effects of age, gender, tumor location, Département of residence, or year of diagnosis (see model 1 in Table IV. Log hazard ratios and their 95% confidence intervals obtained by regression analysis of relative survival in a population-based study of French colorectal cancer. Reference analysisa Model 1b Model 2c Covariate log HR 95% CI log HR 95% CI log HR 95% CI Age 0.0215 0.0178; 0.0251 0.0208 0.0171; 0.0245 0.0232 0.0196; 0.0269 Sex Men Women 0 0:001 0:081; 0.079 0 0:006 0:087; 0.074 0 0:019 0:098; 0.060 Localization 1 2 0 0.154 0.071; 0.237 0 0.155 0.072; 0.239 0 0.149 0.067; 0.231 Stage I II III IV 0 1.181 1.937 2.721 1.035; 1.327 1.794; 2.080 2.498; 2.945 0 1.213 1.977 2.766 1.064; 1.362 1.831; 2.122 2.540; 2.992 0 1.133 1.877 2.657 0.992; 1.275 1.738; 2.015 2.436; 2.878 0 0:000215 0:002; 0.001 0 0.000152 0:001; 0.002 0 0:000353 0:002; 0.001 0 0:1958 0:5712 0:289; 0:103 0:670; 0:472 0 0:1942 0:5712 0:288; 0:100 0:671; 0:471 0 0:2342 0:6553 0:325; 0:143 0:754; 0:557 Départements 1 2 Period 1982–1988 1989–1995 1996–2002 log HR, log hazard ratios; 95% CI, the 95% confidence intervals. a Analysis using the Département-specific life table stratified by year. b Analysis using the national life table. c Analysis using the 1994 Département-specific life table. Localization 1, colon; localization 2, rectum and rectosigmoid junction. Year of diagnosis. Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI Figure 1. Estimates of the baseline hazard function in the analysis of the French population-based data on colorectal cancer. Table IV). In terms of bias, the impact of the absence of a stratification by Département in the life table was higher on the estimations of the effects of cancer stage (0.032, 0.040, and 0.045 bias related to stages II, III, and IV versus stage I, respectively) than on the other covariates (0:005 bias in the estimation of the effect of sex). More interestingly, model 2 produced overestimations of the effects of the period and underestimations of the effects of cancer stage on cancer-related mortality (see model 2 in Table IV). The highest biases were respectively equal to 0:038 and 0:084 for the estimations of the effects of periods 1989–1995 and 1996–2002 versus period 1982–1988, whereas the biases related to stages II, III, and IV were equal to 0:048, 0:060, and 0:064, respectively. In addition, the latter values seemed higher (in absolute values) than those obtained with model 1. As shown in Figure 1, the use of model 1 underestimated the baseline excess hazard function. On the contrary, the use of model 2 overestimated it. Model 2 overestimation was larger than model 1 underestimation. 5. Discussion In the present article, we show that the use of life table that lacks stratification by a variable present in the excess hazard model results in a measurement bias not only in the estimate of the effect of this variable but also, to a lesser extent, in the estimates of the effects of the other covariates included in the model. Our simulation results help evaluating the impact of the absence of an additional life-table variable on the excess mortality estimates under several scenarios. To the best of our knowledge, such a detailed assessment has not been made yet. In fact, some authors have discussed this impact in cancer studies made with life tables not stratified by deprivation [19] or not stratified by calendar year and cancer registry [23]. In addition, the EUROCARE Working Group has established that comparisons of relative survivals between countries could be badly confounded by the use of inaccurate life tables and that detailed area-specific life tables are required for reliable estimations of cancer survival [35]. By calculating the relative survival rate, other authors have investigated the error due to the difference between the expected mortality in the general population and that in the population under study (mortality from other causes than cancer) [36]. However, they considered only the relative survival rate without taking into account the prognostic factors. In fact, there are complex links between the information provided by life tables and its impact on the estimate of the effect of prognostic factors on the excess mortality hazard. More precisely, there is no simple analytic form, even in a very simple model (excess hazard model with constant baseline excess hazard function and only one covariate). Thus, the major interest of our study is the use of simulations that allow a better understanding of these links. First, we demonstrated the performance of the regression model used in this article, especially with scenarios 1A and 1B, but we dealt essentially with linear representations of the mortality rates on logarithmic scales—which were almost always parallel—to simplify the calculations and the interpretations. Scenario 2 confirmed that not only the effect of the absent variable was biased, as expected, but also the effects of the other covariates of the model and that the magnitude of these biases depended on the correlation introduced between age and the additional variable used to model the excess mortality hazard. More precisely, in the presence of such a correlation, there was a residual confounding. For example, with a positive Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI correlation, the overestimation of the effect of age compensated the underestimation of the effect of the additional variable. In scenarios 3–5, we carried out simulations of plausible situations. For further discussions on such situations, see Web-Appendix A in the web-based supporting materials. Overall, all these scenarios led to the same conclusion: the misuse of a life table for a given population having different expected mortality rates than those contained in this table biases the estimates of the effects of all the prognostic variables of the excess hazard model and the bias increases with the difference between the two mortality rates. It is also appropriate to stress that slight fluctuations in the mortality tables might have a significant impact on the parameter estimation. The application to colon cancer (Section 4) confirmed the main results obtained in our simulations. Thus, in comparison with the reference analysis, estimating with the French Département-specific life table for 1994 produced biases especially on the estimate of the effect of the additional life-table variable (i.e., the period) but also, to a lower extent, on the estimates of the effects of the other covariates involved in the model (especially cancer stage). This makes sense, especially under Scenario 2 (cf. Section 3.3). Roughly speaking, 1994 was not representative of the 1988–2002 period. On the contrary, the analysis of the French data that used the national life table showed nearly no impact on the estimation of the effects of each of the covariates, except that of cancer stage, because the expected mortality rates in the two studied Départements were very close to that of whole France. In addition, concerning the directions of the biases, not stratifying by an additional life-table variable (namely, period) resulted in an overestimation of the effect of this additional variable on the excess mortality. Thus, in comparison with the reference analysis, in model 2 with the French data, the period had a more protective effect. However, (1) this impact was compensated by an underestimation of the effect of cancer stage, and (2) the baseline excess hazard obtained with life tables not stratified by the additional variable (namely, period) overestimated the excess hazard produced by the reference analysis. Interestingly, the log HR of stage II in model 2 could not be statistically significant at 5% level, whereas in the reference analysis and in model 1, this log HR is statistically significant. In several articles, various solutions have been suggested to build life tables stratified by more demographic characteristics in order to compensate for this measurement bias. This was the reason for the construction of life tables stratified by deprivation linking geographical areas and socioeconomic indicators and starting from raw data on individual deaths [20, 21]. However, depending on the country, the use of such raw data could be impracticable with other prognostic variables (e.g., ethnicity in France). Methods of building life tables stratified by cancer registry area and by calendar year have been also presented [23, 35], but they required a start from a ‘true’ complete life table. EUROCARE obtained French life tables stratified by cancer registry and by calendar year (1978 to 1995) from the cancer registry-specific life table for 1990 and the national life tables that were available for each calendar year using the Brass’ logit method based on the link between the cancer registry-specific and the National life tables for 1990 [35]. However, such adequate population mortality data are rarely encountered. This is why CONCORD life tables did not include socioeconomic variables [23]. Together with improving life tables, some authors have suggested another way to deal with unavailable mortality data by using cause-specific survival instead of relative survival [37]. This approach required a new death classification variable and gave attractive results, but the reliability of death certificates in population-based studies remains an important obstacle [38,39]. Another drawback is that cause-specific survival should be avoided in descriptive studies with poor or moderate survivals [36]. Stratifying life tables by all possible prognostic factors is not relevant, especially stratification by variables too specific of a given disease. This would lead to the loss of the classical hypothesis in the framework of relative survival that the studied group and the general population are similar with respect to various factors that may affect survival during the early observation period, except for the disease under study. Nevertheless, it would be of great interest to use life tables stratified by sociodemographic and geographic covariates likely to impact overall mortality in order to provide more accurate estimates of the effects of these variables and of almost every other effect of the covariates involved in the regression model. As a perspective, one could think about an adaptation of the regression model used in this article to correct the measurement bias. Indeed, some authors presented a generalization of the model proposed by Hakulinen and Tenkanen [10] allowing to take into account the differences between the real expected mortality of patients involved in cancer clinical trials and the mortality of the general population [40]. In this approach, the ‘competing’ mortality was assumed to be proportional to the overall expected mortality, regardless of age. Within our context, this assumption is too strong. Thus, it would be interesting to Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI investigate some new flexible models that allow for an age-dependent effect of an additional variable on the overall mortality. List of abbreviations OLT: XsLT: overall life table (mortality hazard rates for men by age). X -specific life table (D OLT with an additional level of stratification by the binary variable X). .D/ W equation of a line whose values are used to build OLT. .D0 / and .D1 /: equation of parallel lines whose values are used to build XsLT. 0 (respectively 1 /: space between .D/ and .D0 / (.D/ and .D1 / respectively). LTG: life table used for the data generation step. LTE: life table used for the parameter estimation step. Acknowledgements The authors thank the ANR (Agence Nationale de la Recherche) for supporting the present study. The work of the first author was funded by grants from MESURE group (ANR grant number ANR-09-BLAN-0357-01). The authors are also very grateful to the Editor, the Associate Editor, and the referee for their helpful comments and to Jean Iwaz, PhD, Hospices Civils de Lyon, for revising the manuscript. Conflict of interest The authors have declared no conflict of interest. References 1. Grosclaude P, Colonna M, Hedelin G, Tretarre B, Arveux P, Mace Lesec’h J, Raverdy N, Sauvage-Machelard M. Survival of women with breast cancer in France: variation with age, stage and treatment. Breast Cancer Research and Treatment 2001; 70(2):137–143. DOI: 10.1023/A:1012974728007. 2. Bossard N, Velten M, Remontet L, Belot A, Maarouf N, Bouvier AM, Guizard AV, Tretarre B, Launoy G, Colonna M, Danzon A, Molinie F, Troussard X, Bourdon-Raverdy N, Carli PM, Jaffre A, Bessaguet C, Sauleau E, Schvartz C, Arveux P, Maynadie M, Grosclaude P, Esteve J, Faivre J. Survival of cancer patients in France: a population-based study from the association of the French cancer registries (FRANCIM). European Journal of Cancer 2007; 43:149–160. DOI: 10.1016/j.ejca.2006.07.021. 3. Coleman MP, Quaresma M, Berrino F, Lutz J, De Angelis R, Capocaccia R, Baili P, et al. Cancer survival in five continents: a worldwide population-based study (CONCORD). Lancet Oncology 2008; 9(8):730–756. DOI: 10.1016/ S1470-2045(08)70179-7. 4. Ederer F, Heise H. The effect of eliminating deaths from cancer in general population survival rates, August 1959. methodological note 11, End Result Evaluation Section, National Cancer Institute. 5. Engeland A, Haldorsen T, Dickman PW, Hakulinen T, Moller TR, Storm HH, Tulunius H. Relative survival of Cancer Patients. A comparison between Denmark and the Other Nordic Countries. Acta Oncologica 1998; 37:49–59. DOI: 10.1080/028418698423177. 6. Sant M, Capocaccia R, Verdecchia A, Esteve J, Gatta G, Micheli A, Coleman MP, Berrino F. Survival of women with breast cancer in Europe: variation with age, year of diagnosis and country. The EUROCARE Working Group. International Journal of Cancer 1998; 77:679–683. DOI: 10.1002/(SICI)1097-0215(19980831)77:5<679::AID-IJC3> 3.0.CO;2-S. 7. Ederer F, Axtell LM, Cutler SJ. The relative survival rate: a statistical methodology. National Cancer Institute Monograph 1961; 6:101–121. 8. Hakulinen T. Cancer survival corrected for heterogeneity in patient withdrawal. Biometrics 1982; 38:933–942. 9. Esteve J, Benhamou E, Croasdale M, Raymond L. Relative survival and the estimation of net survival: elements for further discussion. Statistics in Medicine 1990; 9:529–538. DOI: 10.1002/sim.4780090506. 10. Hakulinen T, Tenkanen L. Regression analysis of relative survival rates. Applied Statistics 1987; 36:309–317. DOI: 10.2307/2347789. 11. Monnet E, Boutron MC, Arveux P, Milan C, Faivre J. Different multiple regression models for estimating survival: use in a population-based series of colorectal cancers. Journal of Clinical Epidemiology 1992; 45:267–273. DOI: 10.1016/0895-4356(92)90086-3. 12. Rèseau F. Survie des Patients Atteints de Cancer en France. Étude des Registres de Cancers du Réseau Francim. Springer-Verlag: France Paris, 2007. 13. Dignam JJ, Colangelo L, Tian W, Jones J, Smith R, Wickerham DL, Wolmark N. Outcomes among African-Americans and Caucasians in colon cancer adjuvant therapy trials: findings from the National Surgical Adjuvant Breast and Bowel Project. Journal of National Cancer Institute 1999; 91(22):1933–1940. DOI: 10.1093/jnci/91.22.1933. Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 N. GRAFFÉO, V. JOOSTE AND R. GIORGI 14. Gregorio DI, Cummings KM, Michalek A. Delay, stage of disease, and survival among white and black women with breast cancer. American Journal of Public Health 1983; 73:590–593. 15. Howlader N, Noone AM, Krapcho M, Neyman N, Aminou R, Waldron W, Altekruse SF, Kosary CL, Ruhl J, Tatalovich Z, Cho H, Mariotto A, Eisner MP, Lewis DR, Chen HS, Feuer EJ, Cronin KA, Edwards BK (eds). SEER Cancer Statistics Review, 1975-2008, 2011. National Cancer Institute. Bethesda, MD , http://seer.cancer.gov/csr/1975_2008/, based on November 2010 SEER data submission, posted to the SEER web site (accessed April, 2012). 16. Clegg LX, Li FP, Hankey BF, Chu K, Edwards BK. Cancer survival among US whites and minorities: a SEER (Surveillance, Epidemiology, and End Results) program population-based study. Archives of Internal Medicine 2002; 162:1985–1993. 17. Schrijvers CT, Mackenbach JP. Cancer patient survival by socioeconomic status in seven countries: a review for six common cancer sites. Journal of Epidemiology and Community Health 1994; 48:441–446. 18. Chirikos TN, Horner RD. Economic status and survivorship in digestive system cancers. Cancer 1985; 56:210–217. DOI: 10.1002/1097-0142(19850701)56:1<210::AID-CNCR2820560136> 3.0.CO;2-E. 19. Dickman PW, Auvinen A, Voutilainen ET, Hakulinen T. Measuring social class differences in cancer patient survival: is it necessary to control for social class differences in general population mortality? A Finnish population-based study. Journal of Epidemiology and Community Health 1998; 52:727–734. DOI: 10.1136/jech.52.11.727. 20. Coleman MP, Babb P, Sloggett A, Quinn M, De Stavola B. Socioeconomic inequalities in cancer survival in England and Wales. Cancer 2001; 91(Suppl 1):208–216. DOI: 10.1002/1097-0142(20010101)91:1+<208::AID-CNCR6>3.0.CO;2-E. 21. Rachet B, Ellis L, Maringe C, Chu T, Nur U, Quaresma M, Shah A, Walters S, Woods L, Forman D, Coleman MP. Socioeconomic inequalities in cancer survival in England after the NHS cancer plan. British Journal of Cancer 2010; 103:446–453. DOI: 10.1038/sj.bjc.6605752. 22. Møller H, Sandlin F, Robinson D, Bray F, Klint Â, Linklater KM, Lambert PC, Påhlman L, Holmberg L, Morris E. Colorectal cancer survival in socioeconomic groups in England: variation is mainly in the short term after diagnosis. European Journal of Cancer 2012; 48(1):46–53. DOI: 10.1016/j.ejca.2011.05.018. 23. Baili P, Micheli A, De Angeli R, Weir HK, Francisci S, Santaquilani M, Hakulinen T, Quaresma M, Coleman MP, and the CONCORD Working Group. Life tables for world-wide comparison of relative survival for cancer (CONCORD study). Tumori 2008; 94:658–668. 24. Remontet L, Bossard N, Belot A, Estève J, and the French network of cancer registries FRANCIM. An overall strategy based on regression models to estimate relative survival and model the estimation of the effects of prognostic factors in cancer survival studies. Statistics in Medicine 2007; 26:2214–2228. DOI: 10.1002/sim.2656. 25. Dickman PW, Sloggett A, Hills M, Hakulinen T. Regression models for relative survival. Statistics in Medicine 2004; 23(1):51–64. DOI: 10.1002/sim.1597. 26. Smith PL. Splines: as a useful and convenient statistical tool. The American Statistician 1979; 33(2):57–62. 27. Durrleman S, Simon R. Flexible regression model with cubic splines. Statistics in Medicine 1989; 8:551–561. DOI: 10.1002/sim.4780080504. 28. Abrahamowicz M, MacKenzie T, Esdaile JM. Time-dependent hazard ratio: modeling and hypothesis testing with application in lupus nephritis. Journal of the American Statistical Association 1996; 91:1432–1439. 29. Quantin C, Abrahamowicz M, Moreau T, Bartlett G, MacKenzie T, Tazi MA, Lalonde L, Faivre J. Variation overtime of the estimation of the effects of prognostic factors in a population-based study of colon cancer: comparison of statistical models. American Journal of Epidemiology 1999; 150:1188–1200. 30. Giorgi R, Abrahamowicz M, Quantin C, Bolard P, Esteve J, Gouvernet J, Faivre J. A relative survival regression model using B-spline functions to model non-proportional hazards. Statistics in Medicine 2003; 22:2767–2784. DOI: 10.1002/sim.1484. 31. R Development Core Team. R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria, 2009. Available on line at http://www.r-project.org/ (accessed April 2012). 32. Le Teuff G, Abrahamowicz M, Bolard P, Quantin C. Comparison of Cox’s and relative survival models when estimating the estimation of the effects of prognostic factors on disease-specific mortality: a simulation study under proportional excess hazards. Statistics in Medicine 2005; 24:3887–3909. DOI: 10.1002/sim.2656. 33. Mudholkar GS, Srivastava DK, Kollia GD. A generalization of the Weibull distribution with application to the analysis of survival data. Journal of the American Statistical Association 1996; 91:1575–1583. DOI: 10.2307/2291583. 34. Ross SM. Simulation, Fourth Edition. Elsevier Academic Press: Amsterdam, 2006. 35. Micheli A, Baili P, Quinn M, Mugno E, Capocaccia R, Grosclaude P, and the EUROCARE Working Group. Life expectancy and cancer survival in the EUROCARE-3 cancer registry areas. Annals of Oncology 2003; 14(Suppl 5):v28—v40. DOI: 10.1093/annonc/mdg752. 36. Sarfati D, Blakelyl T, Pearce N. Measuring cancer survival in populations: relative survival vs cancer-specific survival. International Journal of Epidemiology 2010; 39:598–610. DOI: 10.1093/ije/dyp392. 37. Howlader N, Ries LAG, Mariotto AB, Reichman ME, Ruhl J, Cronin KA. Improved estimates of cancer-specific survival rates from population-based data. Journal of National Cancer Institute 2010; 102:1584–1598. DOI: 10.1093/jnci/djq366. 38. Ashworth TG. Inadequacy of death certification: proposal for change. Journal of Clinical Pathology 1991; 44:265–268. DOI: 10.1136/jcp.44.4.265. 39. Percy C, Stanek EI, Gloeckler L. Accuracy of cancer death certificates and its effect on cancer mortality statistics. American Journal of Public Health 1981; 71:242–250. 40. Cheuvart B, Ryan L. Adjusting for age-related competing mortality in long-term cancer clinical trials. Statistics in Medicine 1991; 10:65–77. DOI: 10.1002/sim.4780100112. Copyright © 2012 John Wiley & Sons, Ltd. Statist. Med. 2012 Estimation Tables de mortalité Table Globale : (D) Table Stratifiée : (D0 ) et (D1 ) Table Globale : (D) Table Globale : (D) Variables age, X age, X age, X age Table Globale : (D) age, X Table Globale : (D) age, X Tableau III.3 – Tableau récapitulatif des différentes scénarios étudiées dans l’article. 59 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Génération Tables de mortalité Variables Étude cas corrélé Scenario 1A Table Globale : (D) age, X oui Scenario 1B Table Stratifiée : (D0 ) et (D1 ) age, X oui Scenario 2 Table Stratifiée : (D0 ) et (D1 ) age, X oui Scenario 3 tables stratifiées sur X : age non translations de (D0 ) Scenario 4 Table Stratifiée : age, X non (D0 ) et (D1 ) avec différents écarts (84% ∗ (D0 ) + 16% ∗ (D1 ) = (D)) Scenario 5 Table Stratifiée : age, X non (D0 ) et (D1 ) non parallèles III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès 3.3 Simulations complémentaires Le tableau III.3 résume les scénarios étudiés dans l’article. Nous avons également étudié d’autres scénarios que nous exposons ci-après. Du fait de la multiplicité des paramètres qui entraient en jeu, les interprétations des résultats étaient complexes et ne permettaient pas de donner une explication détaillée. Toutefois, ces scénarios présentent un intérêt car ils reflètent des situations plausibles d’un point de vue épidémiologique. 3.3.1 Variation des proportions Nous avions, dans le scénario 2, généré des taux attendus dans une population générale qui serait constituée à 84% de patients ayant la modalité X = 0. Cependant, comme nous l’avons déjà mentionné, X peut tout aussi bien représenter l’ethnie, que la catégorie socioprofessionnelle etc. Cela induit que les proportions de X = 0 dans la population générale peuvent différer en fonction de ce que X représente. Il nous a donc paru judicieux de faire varier ces proportions, en gardant la même « évolution » des taux et en gardant une certaine « maîtrise » sur les valeurs. Précisons ce que cela implique dans la construction des tables utilisées dans l’étape de génération des données de survie. Afin de conserver l’« évolution » des taux, nous avons gardé, dans un premier temps, le principe du parallélisme des droites. Dans un second temps, pour avoir une certaine « maîtrise » sur les valeurs, nous avons décidé de garder constant l’écart entre (D0 ) et (D1 ). Enfin, nous avons fait varier les proportions de X = 0 entre 10% et 90% par pas de 10%. Plus précisément, comme notifié en (III.3), la solution du système : p0 + p1 = 1 T auxGlobal = p0 × T aux0 + p1 × T aux1 nous permet de conclure qu’il y a 84% d’individus ayant la modalité X = 0 dans la population générale représentée dans « Table Globale » (et 16% pour X = 1). Par ailleurs, on avait : – (D) : y = 10−4+0,035×age – (D0 ) : y = 10−4,05+0,035×age – (D1 ) : y = 10−3,8+0,035×age et un « écart » entre (D0 ) et (D1 ) de : −3, 8 − (−4, 05) = 0, 25. ′ ′ Afin de faire varier les proportions, il s’agissait donc de trouver les équations de (D0 ) et (D1 ) 60 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès telles que : et (D0 ) : y = 10−β +0,035×age (D ′ ) : y = 10−γ ′ +0,035×age 1 ′ ′ γ ′ − β ′ = 0, 25 ′ 10−4 − 10γ = "proportion choisie de X=0" 10β ′ − 10γ ′ Comme précédemment, les estimations ont été réalisées avec « Table Globale ». Mais nous avons aussi contrôlé nos résultats en faisant une simulation où nous avons généré et estimé les effets des facteurs pronostiques sur la mortalité en excès avec les mêmes tables de mortalité attendue, ′ ′ données par (D0 ) et (D1 ). Nous avons constaté une augmentation du biais relatif lié à la covariable age lorsque la proportion d’individus présentant la modalité X = 0 augmentait. Ce biais relatif variait entre -0,04 et 0,16 alors que, dans la simulation de contrôle, il variait entre 0,027 et 0,073 (voir figure III.6). Concernant X, le biais relatif était plus important puisqu’il variait entre 0,160 et 0,126 alors que, dans la simulation de contrôle, il variait entre 0,003 et 0,015 (voir figure III.7). Figure III.6 – Biais relatifs pour l’estimation de l’effet de age sur la mortalité en excès dans la simulation de référence et dans la simulation où des tables différentes sont utilisées dans les étapes de génération et d’estimation. 61 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Figure III.7 – Biais relatifs pour l’estimation de l’effet de X sur la mortalité en excès dans la simulation de référence et dans la simulation où des tables différentes sont utilisées dans les étapes de génération et d’estimation. Ces résultats étant trop complexes pour être complètement expliqués, nous avons voulu donner des pistes de réflexion en regardant les résultats obtenus à partir des deux tables « extrêmes » ayant servi dans l’étape de génération et construites avec : cas 1 : p0 = 10% et p1 = 90%, cas 2 : p0 = 90% et p1 = 10%. Elles sont représentés dans la figure III.8. Au temps t, le taux instantané de mortalité observée est donné par : pour un patient i tel que Xi = 0 : λ̃0P,i (t) + λ0 (t) exp(βage agec,i ) (éq. 1) pour un patient j tel que Xj = 1 : λ̃1P,j (t) + λ0 (t) exp(βage agec,j + βX ) (éq. 2) (III.1) où (respectivement représente la mortalité attendue pour l’individu i (respectivement ′ ′ j) donnée par la table représentée par (D0 ) (respectivement (D1 )). ′ Dans le « cas 1 », (D), qui représente la « Table Globale », est très proche de (D1 ) alors ′ qu’elle est « très » au-dessus de (D0 ). λ̃0P,i étant surestimée, on déduit de l’équation 1 du système III.1 que, par compensation, le taux de base, λ0 , et βage sont sous-estimés. Inversement, λ̃0P,i λ̃1P,j ) 62 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Figure III.8 – Tables construites pour l’étape de génération dans les cas où la proportion d’individus ayant la modalité X = 0 est de 10% et de 90%. λ̃1P,j est bien estimée. Comme λ0 et βage sont sous-estimés, on déduit alors de l’équation 2 du système III.1 que, par compensation, βX est surestimé. ′ ′ Dans le « cas 2 », (D) est très proche de (D0 ) alors qu’elle est « très » au-dessous de (D1 ). λ̃1P,j étant sous-estimée, on déduit de l’équation 2 du système III.1 que, par compensation, βage et βX sont surestimés. Puisque λ̃0P,i est bien estimée, l’équation 1 du système III.1 implique que, par compensation, le taux de base est sous-estimé. 3.3.2 Augmentation de l’effet de X sur la mortalité en excès Nous avons étudié le scénario 2 lorsque βX = ln(4). Concernant l’âge, le biais relatif était réduit en comparaison avec le cas où l’on avait βX = ln(2), avec un facteur multiplicatif de 2/3. Concernant X, on observait le même phénomène avec un facteur multiplicatif de 1/3. Une augmentation de l’effet de X sur la mortalité en excès résultait donc en une réduction du biais des effets de X et de age sur la mortalité en excès. En effet, plus l’effet de X sur la mortalité en excès est petit, moins il y a de décès dus au cancer (par comparaison aux décès « autres causes »). Ainsi, quand βX = ln(2), on a une perte 63 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès d’information pour estimer les effets des facteurs pronostiques sur la mortalité en excès (par rapport au cas où βX = ln(4)). 3.4 Analyse sur données réelles complémentaires Dans l’article ci-dessus, nous avions étudié sur des données françaises l’impact d’une absence de stratification de la table de mortalité sur le département et l’impact d’une absence de stratification sur l’année. Nous avons constaté que ne pas utiliser une table stratifiée sur l’année avait un impact « important » sur les estimations des effets des facteurs pronostiques sur la mortalité en excès, sans doute parce que l’année choisie n’était pas représentative de la période étudiée. Afin de compléter cette étude, nous avons voulu considérer l’impact d’une absence de stratification sur la variable qui a conduit notre stratégie dans l’étude sur simulations, à savoir l’ethnie. Ainsi, nous avons étudié des données réelles provenant du SEER (SEER Program, 2006). Ces données rassemblaient 9123 patients de 17 registres des États-Unis avec un diagnostic de cancer colorectal en 1998. La date de point a été fixée à 5 ans. Les covariables étaient l’âge au diagnostic, le sexe, le stade du cancer au moment du diagnostic (en 4 stades I à IV selon la classification du « American Joint Committee on Cancer » utilisé par les registres du SEER (SEER Program : comparative staging guide for cancer, 1993)) et l’ethnie (patients d’ethnie noire ou blanche). Ces données sont décrites dans le tableau III.4. Ne disposant pas des tables de mortalité pour les registres concernés, nous avons choisi d’utiliser les tables de mortalité américaines fournies par le package survival du logiciel R, survexp.us et survexp.usr (Therneau, 2013). Plus précisément, nous avons utilisé les tables de mortalité stratifiées sur l’ethnie et l’année (de 1998 à 2003), mais aussi la table de 2001 stratifiée sur l’ethnie et les tables stratifiées sur l’année mais pas sur l’ethnie. Nous avons considéré comme référence l’analyse utilisant les tables stratifiées sur l’ethnie et l’année. Dans le modèle 1, nous avons utilisé les tables stratifiées uniquement sur l’année. Dans le modèle 2, nous avons utilisé la table de 2001 stratifiée sur l’ethnie. Afin d’étudier l’impact d’une absence de stratification de la table de mortalité sur l’ethnie et l’impact d’une absence de stratification sur l’année, nous avons comparé ces deux modèles avec le modèle de référence. Les résultats sont présentés dans le tableau III.5. Quelle que soit la table utilisée dans l’analyse, la variable sexe n’avait aucun impact sur la mortalité associée au cancer colorectal alors que toutes les autres covariables utilisées dans les analyses étaient statistiquement significatives, y compris l’ethnie qui était notre variable d’intérêt. Les HRs les plus élevés ont été obtenus pour les estimations des effets du stade tumoral au diagnostic sur la mortalité en excès. 64 III.3 Étude de l’impact du manque de stratification des tables de mortalité sur l’effet des facteurs pronostiques sur la mortalité en excès Facteurs pronostiques Nombres Age ≤ 60 2385 61 − 79 4704 > 79 2034 Sexe Homme 4722 Femme 4401 Ethnie Noire 902 Blanche 8221 Stade tumoral au diagnostic Stade I 2132 Stade II 2880 Stade III 2669 Stade IV 1442 Total 9123 (%)† Décès à 5 ans (%)‡ (26,1) (51,6) (22,3) 795 2077 1349 (33,3) (44,2) (66,3) (51,8) (48,2) 2137 2084 (45,3) (47,4) (9,9) (90,1) 471 3750 (52,2) (45,6) (23,4) (31,6) (29,2) (15,8) (100) 501 1008 1385 1327 4221 (23,5) (35,0) (51,9) (92,0) (46,3) † : Pourcentage parmi les 9123 patients ; ‡ : Pourcentage parmi les 9123 patients qui sont décédés dans les 5 années suivant le diagnostic. Tableau III.4 – Description des données du SEER : patients atteints d’un cancer colorectal diagnostiqué en 1998. Référence β IC95%† 0,0187 0,0155 ; 0,0218 Modèle 1 β1 IC95%† 0,0190 0,0159 ; 0,0222 Modèle 2 β2 IC95%† 0,0191 0,0159 ; 0,0223 0 -0,002 -0,077 ; 0,081 0 -0,004 -0,075 ; 0,083 0 -0,005 -0,073 ; 0,084 0 1,272 2,427 4,015 1,026 ; 1,517 2,195 ; 2,659 3,783 ; 4,246 0 1,230 2,368 3,951 0,991 ; 1,469 2,143 ; 2,593 3,726 ; 4,176 0 1,233 2,371 3,951 0,995 ; 1,472 2,146 ; 2,597 3,726 ; 4,176 0 0,211 0,093 ; 0,329 0 0,268 0,153 ; 0,382 0 0,212 0,095 ; 0,330 ∗ Age Sexe Homme Femme Stade Stade Stade Stade Stade I II III IV Ethnie blanche noire † : Intervalles de confiance à 95%. Tableau III.5 – Résultats des analyses sur données réelles du SEER. 65 III.4 Discussion En comparaison avec l’analyse de référence, l’impact du manque de stratification de la table de mortalité par une variable additionnelle (l’ethnie et l’année calendaire, respectivement) sur l’estimation de l’effet de l’ethnie était plus importante avec le modèle 1 qu’avec le modèle 2 (biais de 0,057 et 0,001, respectivement). Les estimations des effets des autres covariables sur la mortalité en excès étaient similaires. Plus précisément, en comparaison avec l’analyse de référence, le modèle 1 a surestimé l’effet de l’ethnie sur la mortalité en excès mais a sous-estimé les effets du stade et, dans une moindre proportion, a surestimé les effets des covariables age et sexe. Le taux de base était surestimé à la fois par les modèles 1 et 2. 4 Discussion Nous avons montré que le manque de stratification d’une table de mortalité par un facteur pronostique biaise les estimations des effets de cette variable sur la mortalité en excès et, dans une moindre mesure, les estimations des effets des autres variables sur la mortalité en excès. Notons que nous n’avons pas étudié les cas où les effets des variables ne respectaient pas les hypothèses de log-linéarité et de proportionnalité car cela nous permettait d’interpréter plus facilement nos résultats. À notre connaissance, il s’agit de la seule étude de simulations mesurant ce type de biais. Néanmoins, des études empiriques existent et montrent que le problème est toujours d’actualité. Par exemple, Blakely et al. (2012) ont montré que les ratios de mortalité en excès comparant les fumeurs aux non-fumeurs d’une part, et les Māori et non-Māori d’autre part, sont surestimés lorsque des tables stratifiées seulement sur le sexe sont utilisées. Plus récemment, Ellison (2014) a montré que l’utilisation de tables anciennes résulte en une surestimation des ratios de survie relative en comparaison avec l’utilisation de tables actuelles. Même si des méthodes d’interpolation existent pour « compléter » des tables, le problème réside dans le manque de données brutes qui permettraient de construire des tables stratifiées sur certains facteurs pronostiques en liant des données de mortalité à des recensements, par exemple. La suite de ce travail consiste à proposer un modèle corrigeant les biais observés. Cette suite fait partie du projet CENSUR (Challenges in the Estimation of Net SURvival, Grant : ANR12-BSV1-0028, coordonné par le Pr. Roch Giorgi) et est en cours de réalisation dans le cadre d’un post-doctorat. L’idée de départ repose sur un travail réalisé par Cheuvart and Ryan (1991). Dans le cadre d’essais cliniques, les auteurs ont proposé un modèle permettant de prendre en compte la différence 66 III.4 Discussion de mortalité attendue chez les patients étudiés par rapport à celle de la population générale. À cette fin, elles ont introduit un facteur multiplicatif devant le taux de mortalité attendue instantané (dans le modèle où les taux sont additifs). Leur travail a été fait sur données groupées et nécessitait l’emploi d’un algorithme EM (Expectation/Maximization). Plus précisément, elles distinguaient les causes de décès pour scinder la vraisemblance et pouvoir utiliser deux GLM. Le travail actuellement en cours a permis d’étendre sur données individuelles leur modèle en permettant à la mortalité attendue de différer de celle donnée par la table de mortalité par un facteur multiplicatif, ce qui suppose l’introduction d’un effet proportionnel. Les estimations sont obtenues en utilisant une approche de maximisation de la vraisemblance. La suite du travail a permis à la mortalité attendue de différer de celle donnée par la table de mortalité par un paramètre dépendant des modalités de la variable X manquante dans la table de mortalité. Des résultats préliminaires ont été obtenus et présentés à l’ISCB (Touraine C, Grafféo N, Giorgi R and the CENSUR working survival group. An excess hazard model adjusting for lack of additional life table variables. 35th annual conference of International Society for Clinical Biostatistics, Vienne (Autriche, 2014)). Des résultats supplémentaires ont été présentés sous forme de poster lors d’un meeting de l’« European Network of Cancer Registries » (Touraine C, Grafféo N, Giorgi R and the CENSUR working survival group. An excess hazard model adjusting for lack of additional life table variables. ENCR Scientific Meeting and General Assembly, Ispra (Italie, 2014)). 67 Chapitre IV Comparaison de distributions de survie nette La survie nette est un concept majeur pour les registres de cancer et, plus généralement, pour les études sur population dès qu’il s’agit de comparer plusieurs groupes en s’affranchissant des causes de décès autres que le cancer étudié. Par exemple, le groupe EUROCARE a constaté que, malgré une amélioration globale de la survie nette associée au cancer, des disparités entre pays persistaient (De Angelis et al., 2014). Plus précisément, les pays d’Europe de l’Est présentaient une survie nette à 5 ans après le diagnostic inférieure à la moyenne européenne, en particulier pour les cancers ayant un pronostic bon ou intermédiaire ; la survie nette était plus élevée dans les pays d’Europe du Nord, d’Europe du Sud et d’Europe Centrale. Bien que, pour améliorer la comparabilité, les estimations de survie nette aient été pondérées par la taille de la population de chaque pays et aient été standardisés sur l’âge selon Corazziari et al. (2004), les comparaisons ne reposaient sur aucun test statistique. Notre objectif a donc été de proposer un test statistique pour comparer la survie nette de plusieurs groupes, à un temps fixé mais aussi sur l’ensemble de la période de suivi. Historiquement, Brown (1983), Buckley (1984) et Hakulinen et al. (1987) ont proposé des méthodes pour tester l’égalité des ratios de survie relative entre plusieurs groupes. Mais nous avons vu qu’au niveau de la population, le ratio de survie relative ne correspond pas à la survie nette (Chapitre II, section 2.2). Pour répondre à notre objectif, nous avons utilisé l’estimateur Pohar-Perme, estimateur non paramétrique consistant de la survie nette (Perme et al., 2012), décrit au Chapitre II (équation (II.2)). Cette partie de notre travail s’inscrit dans le cadre du projet COMPNETS (Tests de comparaisons de la survie nette par cancer, Grant : INCa SHS-E-SP 2013), coordonné par le Pr. Roch Giorgi et financé par l’INCa. 68 IV.1 Comparaison de survies nettes à temps fixé 1 Comparaison de survies nettes à temps fixé Deux estimations de survie brute peuvent être comparées à un temps t fixé à l’aide d’un Z-test usuel. Klein and Moeschberger (2003) ont généralisé ce test à la comparaison d’estimations de survie brute à un temps t fixé pour plus de deux groupes. Dans un premier temps, nous avons adapté ce Z-test en remplaçant les estimations de survie brute par les estimations obtenues par l’estimateur Pohar-Perme. Soit t fixé. Supposons que l’on ait à comparer k ≥ 2 groupes, contenant chacun nk patients. On veut tester : (H0 ) : SE,1 (t) = . . . = SE,k (t), où, pour h dans [[1; k]], SE,h désigne la survie nette au temps t pour le groupe h. On définit : (1) le vecteur Θ̂ comme le vecteur contenant les estimations de la survie nette dans chaque groupe, obtenues par l’estimateur Pohar-Perme ; et (2) C une matrice de contraste. On a ainsi : 1 0 0 . . . 0 −1 Ŝ E,1 0 1 0 . . . 0 −1 .. . Θ̂ = . et C = . .. ŜE,k 0 0 0 . . . 1 −1 On note V la matrice de variance-covariance de Θ̂. La statistique de test est alors donnée par : h T := CΘ̂ i′ h ′ CVC i−1 CΘ̂. On rejette (H0 ) au seuil de α = 5% lorsque T est supérieure à χ2α;k−1 . Nous avons utilisé cette adaptation (Chapitre V, section 3), mais notre objectif était d’utiliser toute l’information disponible. 2 Comparaison de distributions de survie nette Plutôt que de comparer la survie nette à un temps t fixé, il est plus pertinent de comparer des distributions de survie nette sur la période de suivi. Nous avons choisi une approche de type log-rank pour trois raisons. Tout d’abord, le test du log-rank (Mantel, 1966; Peto and Peto, 1972) est le test le plus couramment utilisé lorsque l’on souhaite comparer des distributions de survie brute. Par ailleurs, il est fondé sur la fonction de risque cumulé et peut être représenté par des processus stochastiques (Aalen et al., 2008; Fleming and Harrington, 2011; Andersen 69 IV.2 Comparaison de distributions de survie nette et al., 1993). Puisque l’estimateur Pohar-Perme estime en fait le taux cumulé en excès et qu’il s’écrit sous forme de processus (équation (II.2)), utiliser le log-rank nous a permis d’introduire les poids utilisés dans l’estimateur Pohar-Perme dans les processus correspondants. 2.1 Un test de type log-rank pour comparer des distributions de survie nette La construction du test est détaillée dans l’article qui est présenté à la fin de cette section. Cet article a été soumis pour publication. Nous mentionnons ici les idées principales. Les notations diffèrent de celles du Chapitre II car un indice supplémentaire h est introduit ; il correspond à l’indice du groupe à tester 1 . On se place dans le cas où l’on veut comparer les distributions de survie nette de k ≥ 2 groupes contenant chacun nh patients (pour h dans [[1; k]]), sur une durée de suivi T . 2.1.1 Le test du log-rank usuel L’hypothèse nulle du test du log-rank est : (H0 ) : ∀t ∈ [0, T ] , Λ1 (t) = . . . = Λk (t), où Λh est le taux cumulé de mortalité observée du groupe h (pour h dans [[1; k]]). Il est fondé sur la statistique (voir par exemple Andersen et al., 1993) : Zh (T ) = Z T 0 1(Y. (u) > 0)dNh (u) − Z T 0 1(Y. (u) > 0) Yh (s) dN. (u), Y. (u) (IV.1) où h ∈ [[1; k]], Nh et Yh sont les processus de comptage du nombre de décès et de l’effectif à risque pour le groupe h, et Y. et N. sont les sommes de ces processus sur l’ensemble des groupes à comparer. Notons que Zh (T ) représente la différence entre le nombre de décès observés dans le groupe h et les valeurs attendues correspondantes. 2.1.2 Adaptation à la survie nette Nous posons l’hypothèse nulle : (H0 ) : ∀t ∈ [0, T ] , ΛE,1 (t) = . . . = ΛE,k (t), (IV.2) 1. Par exemple, S̃P,h,i désigne la survie attendue individuelle du patient i appartenant au groupe h. 70 IV.2 Comparaison de distributions de survie nette où ΛE,h est le taux cumulé de mortalité en excès du groupe h (pour h dans [[1; k]]). Rappelons que l’estimateur Pohar-Perme de survie nette corrige l’estimateur Ederer II via une pondération par l’inverse de la probabilité de survie attendue. Ces poids sont appliqués aux processus de comptage du nombre de décès, Nh , et du nombre de personnes à risque, Yh . Il est ainsi donné par : ∀k ≥ 2, ∀h ∈ [[1; k]], Λ̃E,h (t) = où Nhw (u) = n X w Nh,i (u) et Yhw (u) = n X Z t 0 dNhw (u) Z t − Yhw (u) 0 Pnh i=1 w w Yh,i (u) avec dNh,i (u) = i=1 i=1 w Yh,i (u)λ̃P,h,i (u)du . Yhw (u) Yh,i (u) dNh,i (u) w et Yh,i (u) = . S̃P,h,i (u) S̃P,h,i (u) Nous avons introduit NE,h , le processus de comptage des décès dus au cancer dans le groupe h et avons utilisé le même procédé de pondération que dans l’estimateur Pohar-Perme. Le processus pondéré du nombre de décès dus au cancer est alors donné par w NE,h (u) = dNE,h,i (u) w avec dNE,h,i (u) = . La statistique de test proposée est la suivante : S̃P,h,i (u) Zhw (T ) w où Y. (u) = = k X Z T 0 w 1(Y. (u) > Yhw (u) et w 0)dNE,h (u) w dNE,. (u) = k X − Z T 0 1(Y.w (u) > 0) nh X w NE,h,i (u) i=1 Yhw (u) dN w (u), Y.w (u) E,. (IV.3) w dNE,h (s) pour k ≥ 2. h=1 h=1 La statistique (IV.3) est similaire à la statistique (IV.1) en ce sens qu’elle représente la différence entre le nombre pondéré de décès dus au cancer dans le groupe h et les valeurs attendues correspondantes. Nous avons également obtenu un estimateur de la variance de cette statistique et la distribution de la statistique de test finale U w (T ) via la théorie des processus stochastiques : Sous (H0 ), 2.1.3 U w (T ) ∼ χ2 (k − 1) quand n −→ ∞. Génération des données de survie pour les études de simulations Nous avons réalisé des simulations afin d’étudier les performances de notre test, à savoir l’erreur de type I et la puissance, selon plusieurs scénarios. Nous avons généré des temps de survie à partir du modèle multivarié selon la méthode exposée au Chapitre III (section 3.1.2). Puis, nous avons comparé les performances de notre test à un « gold standard », à savoir le test du log-rank usuel appliqué aux données du monde hypothé- 71 IV.2 Comparaison de distributions de survie nette tique où le cancer serait la seule cause de décès possible. Plus précisément, pour chaque patient ′ i, nous avons utilisé le temps de décès dans le monde hypothétique : Ui = min(TE,i , Ci ). À partir de ce temps, nous avons obtenu un nouveau statut vital correspondant au statut qu’aurait le patient i dans le monde hypothétique. Notons que cela n’est possible que dans le cadre de simulations. Enfin, nous avons réalisé une étude sur données réelles provenant de 17 registres américains, étude exposée dans l’article qui suit. Ces résultats ont donné lieu à plusieurs communications orales : • Grafféo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. Statistics seminars / ARC Seminar « Semiparametric inference for survival and cure models », Université Catholique de Louvain (Belgique, 2014) • Grafféo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. ENCR Scientific Meeting and General Assembly, Ispra (Italie, 2014) • Grafféo N, Castell F, Belot A, Giorgi R and the CENSUR working survival group. Generalization of a log-rank type test to compare net survival distributions. 35th annual conference of International Society for Clinical Biostatistics, Vienne (Autriche, 2014) • Grafféo N, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. 34th annual conference of International Society for Clinical Biostatistics, Munich (Allemagne, 2013) 72 1–19 DOI: 000 A log-rank type test to compare net survival distributions Nathalie Grafféo1,2 , Fabienne Castell3 , Aurélien Belot4,5,6, and Roch Giorgi1,2,7,∗ 1 INSERM, UMR912 ” Economics and Social Sciences Applied to Health & Analysis of Medical Information ” (SESSTIM), 13006 Marseille, France 2 3 Aix Marseille University, UMR S912, IRD, 13006, Marseille, France Aix Marseille University, CNRS, Centrale Marseille, I2M, UMR 7373, 13453 Marseille, France 4 5 Hospices Civils de Lyon, Service de Biostatistique, Lyon, France University Lyon 1, UMR 5558 Laboratoire Biostatistique-Santé, , Villeurbanne, France 6 Institut de Veille Sanitaire, DMCT, Saint-Maurice, France 7 APHM, Hôpital Timone, BIOSTIC, Marseille, France *email: [email protected] Summary: In population-based cancer studies, it is often of interest to compare cancer survival between different populations. However, in such studies the exact causes of death are often unavailable or unreliable. Net survival methods were developed to overcome this difficulty. Net survival is the survival that would be observed, in a hypothetical world, if the studied disease were the only possible cause of death. The Pohar-Perme estimator is a non-parametric consistent estimator of net survival. In this paper, we present a log-rank-type test for comparing net survival functions estimated by this estimator between several groups. We expressed our test in the counting process framework to introduce the inverse probability weighting procedure as done in the Pohar-Perme estimator. We built a stratified version to control for categorical covariates affecting the outcome. Simulation studies were performed to evaluate the performance of our test and an application on real data is provided. Key words: Cancer; Log-rank; Net survival; Pohar-Perme estimator; Stochastic process; Test. A test to compare net survival distributions 1 1. Introduction Net survival, the survival associated to the excess mortality hazard, is the survival observed in an hypothetical world where the disease of interest would be the only possible cause of death. The observed survival, which is the most frequently used, is the result of two main survival components. One part comes from the studied disease whereas the second part comes from all other causes that we are all exposed (Esteve et al., 1990; Perme, Stare, and Estève, 2012).On one hand, the observed survival do not distinguish between death from the disease of interest (or excess death) and death from other causes. On the other hand, net survival evaluates the burden of this disease independently of the differences in general population mortality given by life tables, that is to say the mortality due to other causes. In cancer research, the idea of net cancer survival is to study the proportion of cancer deaths, that is to say patients dying, directly or indirectly, from cancer. So, this epidemiological indicator, routinely estimated in cancer registries and in population-based studies (see e.g. the EUROCARE program (De Angelis et al., 2014), the US SEER program (Howlader et al., 2011) or the CONCORD programme (Coleman et al., 2008)), is crucial for comparison between different populations (Perme et al., 2012; Danieli et al., 2012). For instance, when comparing patterns of care between countries, it is essential to take into account the general population mortality because of its weight on observed survival. In population-based studies the exact causes of death are often unavailable (Percy et al., 1981) and, when available, it is often difficult to state whether they are disease related (Berkson and Gage, 1950). Net survival methods were developed to overcome this difficulty (Esteve et al., 1990). Historically, several non-parametric estimators have been proposed to estimate net survival (Ederer and Heise, 1959; Ederer, Axtell, and Cutler, 1961; Hakulinen, 1982). But in 2012 Perme et al. (2012) argued that, in most cases, these estimators do not estimate net survival. They proposed a non-parametric estimator that corrects the Ederer II 2 estimator (Ederer and Heise, 1959). For instance, because high ages may prevent cancer deaths in a non random way, excess mortality and other causes mortality share the influence of age. So Perme et al. used population mortality information to weight and correct for those who left the sample due to deaths of other causes. In addition, Danieli et al. (2012) showed by a simulation study that the Pohar-Perme estimator is a consistent non-parametric estimator of net survival, which may be preferred to the other existing non-parametric estimators. The Pohar-Perme estimator assesses a hypothetical quantity which allows comparison across populations. However, to the best of our knowledge, it is not yet possible to compare distributions of net survival over a given period. We can only compare two estimates at a given time t with a classical Z-test. In this paper, we propose a log-rank type test to compare distributions of net survival estimated by the Pohar-Perme estimator between at least 2 groups over a defined follow-up period. This choice was made for several reasons. First, the log-rank test (Mantel, 1966; Peto and Peto, 1972) is the most commonly used test to compare distributions of observed survival between at least two groups. Secondly, the log-rank test uses the cumulative hazard function and can be represented with stochastic processes (Aalen, Borgan, and Gjessing, 2008; Fleming and Harrington, 2011; Gill, Keiding, and Andersen, 1993). Finally, because the Pohar-Perme estimator is developed on that scale and is written with stochastic processes, the log-rank test allows to introduce easily the weights of the Pohar-Perme estimator in the corresponding counting processes. The remaining part of this paper is organized as follows. In section 2 we present the building of our proposed log-rank type test and we propose a stratified version of this test in Section 3. Section 4 presents a simulation study where we investigated the performance of our test and Section 5 provides an application to a colorectal cancer data set. We conclude this paper with a brief discussion. A test to compare net survival distributions 3 2. A log-rank type test for k > 2 groups The proposed test compares the distribution of net survival estimated by the Pohar-Perme estimator (Perme et al., 2012) between k > 2 groups over a defined follow-up period. Assume that observations are made on nh patients from group h with h ∈ [[1; k]] and k > 2. Let k X nh denote the total number of patients. Let’s also assume (Fleming, Harrington, n= h=1 and O’sullivan, 1987) nh = αh ; αh ∈ ]0; 1[ . n→∞ n ∀h ∈ [[1; k]], lim Note that under these assumptions: lim min nh = ∞. n→∞ h 2.1 Notations and model For each patient i in the group h, we consider that the time to death, Th,i , is the minimum of two distinct times: TPh,i due to ”population hazard” and TEh,i due to ”excess hazard”. Let Ch,i denote the time to censoring and define Uh,i = min(Th,i , Ch,i ) the follow-up time of patient i. δ̃h,i denotes the failure indicator equal to 1 if the true failure time, Th,i , is observed and 0 if patient i is censored. Each patient i in a group h has covariates denoted by the vector Xh,i . Dh,i is a sub-vector of Xh,i describing all the demographic covariates so that Xh,i \ Dh,i and TPh,i are independent. We assume that: (1) (TPh,i , TEh,i , Ch,i , Xh,i )h,i are mutually independent; (2) (TPh,i , TEh,i , Ch,i , Xh,i )i have the same distribution; (3) TEh,i and TPh,i are conditionally independent given Xh,i ; (4) censoring times Ch,i are independent of the pair (Th,i , Xh,i ). Further, we assume that the censoring process is independent of the group and is non informative i.e. SC (t) := SCh,i (t) = P (Ch,i > t) (∀i ∈ [[1; n]], ∀h ∈ [[1; k]]). The observed data are given by (Uh,i , δ̃h,i , Xh,i )h,i for each patient i in group h. The conditional net survival function of TEh,i corresponding to every patient i belonging to group h is denoted 4 by S̃E,h,i (t) = P (TEh,i > t | Xh,i ). The corresponding conditional cumulative excess hazard is denoted by Λ̃E,h,i. In the same way, we can define the conditional population all-cause survival as S̃P,h,i (t) = P (TPh,i > t | Xh,i ) which equals P (TPh,i > t | Dh,i ) since Xh,i \ Dh,i and TPh,i are assumed to be independent. The corresponding conditional population all-cause cumulative hazard is denoted by Λ̃P,h,i. We use life tables to calculate conditional population all-cause hazard functions according to individual demographic covariates such as age, sex and year of diagnosis that can be found in Dh,i . Further, for each group h, the net survival function is defined as SE,h (t) = P (TEh,1 > t) and we have SE,h (t) = E(S̃E,h,1(t)). Let ΛE,h denote the corresponding cumulative excess hazard. In the same way, we define the population all-cause survival by SP,h (t) = P (TPh,1 > t) and the corresponding population all-cause cumulative hazard by ΛP,h . Note that λ̃E,h,i, λ̃P,h,i , λE,h and λP,h denote the instantaneous hazards related to Λ̃E,h,i, Λ̃P,h,i, ΛE,h and ΛP,h respectively. We assumed that the conditional observed mortality hazard is the sum of the conditional population mortality hazard and the conditional excess mortality hazard. Besides, we will also use the following additional assumptions to prove the asymptotic χ2 distribution of our test statistic under the null: a) Z T 0 SE,h (s)λ2E,h (s)ds < ∞, b) ∀h ∈ [[1; k]], E( c) ∀h ∈ [[1; k]], E( Z T 0 1 ) < ∞, S̃P,h,1(T )3 (1) λ̃P,h,1(s)2 ds ) < ∞. S̃P,h,1(s)3 where T is the follow-up time. Note that these assumptions require that T is not too long compared with TP or TE . For instance, a) is not satisfied if TE < T (a.s.) and b) is not satisfied if TP < T (a.s.). A test to compare net survival distributions 5 2.2 The log-rank type statistic The usual log-rank test compares k cumulative observed hazard functions over [0, T ]. Let [0, T ] denote the follow-up period. The k-sample log-rank test is a test for the null hypothesis (H0 ) : ∀t ∈ [0, T ] , Λ1 (t) = . . . = Λk (t) where k > 2 is the number of groups to compare and Λh (h ∈ [[1; k]]) is the cumulative observed hazard. Using counting process representations (see e.g. Gill et al., 1993), the log-rank test is based on the following statistic: Z T Z T Yh (s) dN. (s), Zh (T ) = 1(Y. (s) > 0)dNh (s) − 1(Y. (s) > 0) Y.(s) 0 0 where h ∈ [[1; k]], Nh,i (s) = 1(Th,i 6 s, Th,i 6 Ch,i ) = 1(Uh,i 6 s, δ̃h,i = 1), nh nh k X X X Yh (s) Yh,i (s), Y. = Yh,i (s) = 1(Th,i > s, Ch,i > s), Nh (s) = Nh,i (s), Yh (s) = i=1 and N. = k X i=1 h=1 Nh (s) for k > 2. Zh (T ) represents the difference between the number of h=1 observed deaths in the group h and the corresponding expected values. Here, our goal is to test the null hypothesis (H0 ) : ∀t ∈ [0, T ] , ΛE,1(t) = . . . = ΛE,k (t) where k > 2. More precisely, we want to compare k cumulative excess hazard functions over this period using Pohar-Perme estimator (Perme et al., 2012). The Pohar-Perme estimator, Λ̂E,h, is a consistent estimator of ΛE,h. It corrects the Ederer II estimator for those who left the sample due to deaths of other causes using the inverse probability weighting procedure (Robins, 1993). The weights are the survival probabilities of other causes and are applied dNh,i (s) w to the counting and the at-risk processes. More precisely, we have dNh,i (s) = , S̃P,h,i (s) nh nh X X Yh,i (s) w w w Yh,i (s) = , Nhw (s) = Nh,i (s), and Yhw (s) = Yh,i (s) for h ∈ [[1; k]] and k > 2. S̃P,h,i (s) i=1 i=1 The Pohar-Perme estimator is given by: Z t Z t Pnh w dNhw (s) i=1 Yh,i (s)λ̃P,h,i (s)ds ∀k > 2, ∀h ∈ [[1; k]], Λ̃E,h (t) = − . w Yhw (s) 0 Yh (s) 0 To build our log-rank type test, we first have to consider another stochastic process related 6 nh X to the expected number of deaths due to cancer NE,h (s) = NE,h,i (s) where NE,h,i (s) i=1 Rs is given by Nh,i (s) − 0 Yh,i (u)λ̃P,h,i(u)du for each patient i and for each group h ∈ [[1; k]]. Second, we use the same weighting procedure as in the Pohar-Perme estimator. The expected nh X w w weighted number of deaths due to cancer is then defined by NE,h (s) = NE,h,i (s) with i=1 dNE,h,i (s) w . For all h ∈ [[1; k]], we now consider the statistic dNE,h,i (s) = S̃P,h,i (s) Z T Z T Yhw (s) w w w w w Zh (T ) = 1(Y. (s) > 0)dNE,h(s) − 1(Y. (s) > 0) w dNE,. (s), Y. (s) 0 0 w where Y. (s) = k X h=1 Yhw (s) and w dNE,. (s) = k X (2) w dNE,h (s) for k > 2. h=1 Note that when k = 2, Z1w (T ) is given by Z T Z T Y w (s) w w w w 1(Y. (s) > 0)dNE,1(s) − 1(Y.w (s) > 0) w 1 dNE,1 (s) + dNE,2 (s) w Y1 (s) + Y2 (s) 0 0 Z T w Y1w (s) Y2 (s) w w w dN (s) − w dN (s) . = 1(Y. (s) > 0) Y1w (s) + Y2w (s) E,1 Y1 (s) + Y2w (s) E,2 0 The proposed test will be called log-rank type test because of the similarity between the two w dNE,h (s) is a consistent estimator of the instantaneous excess hazard tests. For h ∈ [[1; k]], w Yh (s) dNh (s) which is a at time s, λE,h (s) (Perme et al., 2012). It serves the same purpose as Yh (s) consistent estimator of the instantaneous observed hazard at time s, λh (s). 2.3 Estimate of the variance of Zhw under the null We used martingale theory to estimate the variance of the statistic Zhw (T ) under the null. We start by looking at the case where TEh and Xh are independent for each h ∈ [[1; k]] i.e. we assume homogeneity in each group. This is a strong assumption usually made when studying the usual log-rank test (see e.g. Gill et al., 1993). In fact TE and X can be dependent, for example when cancer death is related to sex of patients. We will deal with this general case by building a stratified test presented in the next section. Following the idea of the calculation of the estimate of the variance of the Pohar-Perme A test to compare net survival distributions 7 estimator (Perme et al., 2012), we introduce def Mh,i (s) Nh,i (s) − = Z 0 NE,h,i (s) − = s Z Yh,i (u) λ̃P,h,i (u) + λE,h (u) du s Yh,i (u)λE,h(u)du. 0 Mh,i (s) is a local square integrable martingale with respect to the filtration Fs = σ (Xh,i , 1(Uh,i 6 u, Uh,i = Th,i ) : 0 6 u 6 s; h ∈ [[1; k]]; 1 6 i 6 nh ). Its predictable Rs variation process hMh,i i is given by 0 Yh,i (u) λ̃P,h,i (u) + λE,h (u) du. Note that S̃P,h,i is (F0 ) − measurable so that we can define def dMhw (s) = nh X dMh,i (s) S̃P,h,i (s) i=1 w = dNE,h (s) − Yhw (s)λE,h (s)ds, (3) and Mhw (s) is a local square integrable martingale with respect to (Fs )s . Let ΛE and λE denote ΛE,h and λE,h under the null (∀h ∈ [[1; k]]). Then we have k X w dNE,. (s) = w dNE,h (s) = h=1 k X dMhw (s) + λE (s) k X Yhw (s)ds. (4) h=1 h=1 Introducing (3) and (4) in formula (2), we obtain under the null Zhw (T ) = k Z X l=1 T Yhw (s) dMlw (s), 1(Y. (s) > 0) δhl − w Y. (s) w 0 with δhl being the Kronecker delta. For all h ∈ [[1; k]], Zhw are local square integrable martingales with respect to (Fs )s . We have EhZhw i(T ) < ∞ since ( ) ∀h ∈ [[1; k]] Z k T X SC (s)SE (s) nl E EhZhw i(T ) 6 λ̃P,l,1 (s) + λE (s) ds < ∞ (see Web Appendix A). S̃P,l,1 0 l=1 So the Zhw are square integrable over [0, T ]. As the first and second order moments of the Zhw exist, we have cov Zhw (T ), Zjw (T ) [Zhw , Zjw ](T ) = k Z T X l=1 0 = E[Zhw , Zjw ](T ), n l w w X dNl,i (s) Y (s) Y (s) j h w δjl − w 1(Y. (s) > 0) δhl − w 2 . Y. (s) Y. (s) i=1 S̃P,l,i (s) 8 Note that, when k = 2, we have [Z1w , Z1w ](T ) = Z T Y2w (s) 1(Y. (s) > 0) w w Y1 (s) + Y2 (s) w 0 + 2 X n1 i=1 dN1,i (s) 2 S̃P,1,i (s) Y1w (s) Y1w (s) + Y2w (s) 2.4 The test statistic 2 X n2 i=1 dN2,i (s) 2 . S̃P,2,i (s) Following closely the usual log-rank test (Gill et al., 1993), and knowing that k X Zhw (T ) = 0, we propose to test the null hypothesis with the statistic h=1 −1 w U w (T ) = Z0w (T )t Σ̂2,w 0 (T ) Z0 (T ), (5) t w being the matrix of general term Z1w (T ), . . . , Zk−1 (T ) and Σ̂2,w 0 Z n k l T X Yjw (s) X dNl,i (s) Yhw (s) 2,w w 1(Y. (s) > 0) δhl − w σ̂h,j (T ) = δjl − w 2 Y. (s) Y. (s) i=1 l=1 0 S̃P,l,i (s) with Z0w (T ) = for (h, j) ∈ [[1; k − 1]]2 . Under the assumptions (1) we can show that, under the null, U w (T ) ∼ χ2 (k − 1) when n −→ ∞ (see proof in Web Appendix B). 3. Stratified version of the test We made the strong assumption of independence between TE and X to estimate the variance of Zhw under the null. Now we look at the general case where TE and X can be dependent. We define a set partition of the covariates set by (I1 , . . . , Im ) and we assume m X P (TEh > t | Xh ∈ Is ). 1 (Xh ∈ Is ). The (Is )16s6m are called that P (TEh > t | Xh ) = s=1 strata of one or more covariate. When cancer death is related to sex of patients, for example, we would consider 2 strata for men and women. Thus we assume homogeneity within each stratum but we allow heterogeneity between strata. We define ΛE,h,s as the cumulative excess hazard corresponding to the net survival function SE,h,s(t) = P (TEh > t | Xh ∈ Is ). A test to compare net survival distributions 9 We want to test (H0 ) : ∀t ∈ [0, T ] , ∀s ∈ [[1; m]] ΛE,1,s(t) = . . . = ΛE,k,s(t). nh k X X Yh,i (u) w w w 1(Xh,i ∈ Is ). In the same way, We define Y.,s (u) = Yh,s (u) with Yh,s(u) = S̃P,h,i (u) i=1 h=1 k X w w dNE,h,s we define dNE,.,s(u) = (u). Following Gill et al. (1993), we define the statistics h=1 w Zh,s (T ) = Z T w 1(Y.,s (u) > w 0)dNE,h,s (u) 0 − Z T w 1(Y.,s (u) > 0) 0 w Yh,s (u) w (u), dN w Y.,s (u) E,.,s (6) and 2,w σ̂h,j,s (T ) k Z X = l=1 w w (u) Yh,s Yj,s (u) δjl − w > 0) δhl − w Y.,s (u) Y.,s (u) 0 nl X dNl,i (u) × 2 1(Xl,i ∈ Is ) . i=1 S̃P,l,i (u) T w (u) 1(Y.,s (7) We denote for s ∈ [[1; m]] the vectors and matrices with elements given by (6) and (7) by Zsw 2,w and Σ̂s . Then we will test the null hypothesis with the statistic !t ! !−1 m m m X X X 2,w w w Σ̂s,0 (T ) Zs,0 (T ) . . Zs,0 (T ) , s=1 s=1 s=1 2 which has asymptotic χ distribution with (k − 1) degrees of freedom under the null. Note t 2,w w w w that, for s ∈ [[1; m]], Zs,0 (T ) = Z1,s (T ), . . . , Zk−1,s (T ) and Σ̂s,0 is the same matrix as 2,w Σ̂s without the last row and the last column. 4. Simulations We evaluated the performance of the proposed log-rank type test by simulation studies in the cases where TE and X were (1) independent when k = 2 and k = 3; and (2) dependent when k = 2. 4.1 Data generation and simulations design For each patient i, we independently generated covariates sex, age and G, which represents the groups (G had k = 2 or k = 3 levels). Covariate sex was generated from a binomial distribution with P (man) = P (woman) = 1/2. Covariate G was generated to study balanced 10 cases (P (G = 0) = P (G = 1) when k = 2 or P (G = 0) = P (G = 1) = P (G = 2) when k = 3) or unbalanced cases only when k = 2 (P (G = 0) = 1/4 and P (G = 1) = 3/4). Because TP depends on age, we studied 3 scenarios : (1) in the first scenario, we generated covariate age to represent approximately the empirical distribution of the ages of colon cancer patients in the French registries (25 percent of patients aged 40-64 years, 35 percent aged 65-74 years, and 40 percent aged 75 years and over); (2) in the second scenario, we studied a young population using a uniform distribution between 30 and 40; and (3) in the third scenario we studied an old population using a uniform distribution between 65 and 80. Danieli et al. (2012) showed that the multivariable modelling estimator, which is based on the multivariable additive excess hazard model, is a consistent parametric estimator of net survival when adjusting for demographic covariates. Thus, we generated survival times from this model. In its classical additive form (Esteve et al., 1990), the observable hazard related to the individual time of death, Ti , is defined as the sum of two components: λ̃P,i (t) + λ̃E,i (t), where t is the time after diagnosis, and, for each patient i, λ̃P,i and λ̃E,i are the instantaneous conditional population all-cause and excess hazards. Ti was generated as follows: firstly, for each patient i, the time to death due to population hazard, TPi , was obtained from the 2004 American life table, survexp.us, stratified by Di = (agei , sexi ), and provided by the survival package in R software (R Core Team, 2014). Secondly, for each patient i, the time to death due to cancer, TEi , was obtained from λ̃E,i modelled with the standard approach (see e.g. Giorgi et al., 2003) and using the inverse transformation method ! (Ross, k−1 X βG,l 1(Gi = l) where 2006). More precisely, λ̃E,i (t) = f (t). exp βsex 1(sexi = man) + l=1 βsex and βG,l are the log hazard ratios (HR) of the covariates. The baseline hazard function f was modelled with a generalized Weibull distribution (Mudholkar, Srivastava, and Kollia, A test to compare net survival distributions 11 κρκ tκ−1 with ρ = 0.5, α = 0.2 and κ = 2. The (ρt)κ 1+ α distributions of net survival between the groups that are defined by the levels of G vary when 1996; Belot et al., 2010) chosen as t 7−→ the effects of G on excess mortality vary. More precisely, the null is true when the HR(s) of G equal 1. Conversely, the farther the HR(s) are from 1, the more different are the groups in terms of net survival and the farther we are from the null. When k = 2, the HR of G belonged to {0.7; 0.8; 0.9; 1; 1.2; 1.4; 1.6}. When k = 3, the HRs of G, (HR1 , HR2 ), belonged to {(1, 0.7); (1, 1); (1, 1.2); (1, 1.4); (1, 1.6); (0.9, 1.2); (0.8, 1.4); (0.7, 1.6)}. In addition, when studying the case where TE and X were independent, we did not introduce effects of age and sex on excess mortality to meet the assumption of homogeneity. Conversely, to study the case where TE and X were dependent, we set the HR of sex equal to 2 and 3 and we chose to assume independence with respect to age. But this could be done in the same way as done for sex. The bigger is the HR of sex, the more different are the distributions of the time to death due to cancer between men and women in the group h. Finally, individual censoring times, Ci , were generated from a uniform distribution U[0; b], where the upper boundary b was selected to obtain approximately 0% or 30% overall censoring levels. Then, each individual’s observable time of death was Ti = min(TPi , TEi ) whereas each individual’s observed time of death was Ui = min(TPi , TEi , Ci ). In addition, all subjects still at risk at 5 years were censored. Moreover, we defined an individual’s hypothetical time of death as the minimum of the excess death and censoring times. According to this time, we obtained another vital status corresponding to the hypothetical world where cancer would be the only cause of death. Thus, we could compare our test to the usual log-rank one applied on data from hypothetical world. We will refer to them as ”data from hypothetical world” and we will consider that the usual log-rank on these data is the gold standard. Note that this is only possible within a simulation framework. 12 Each simulation run consisted of 2000 independent samples. Each of them contained 1000 patients. 4.2 Simulation results Results obtained with no censoring were roughly equivalent to those obtained with 30% censoring. So we show only those related to 30% censoring level. When studying the comparison of 2 groups, the estimation of the one-type error of our logrank type test was good. In table 1, at a 5% level of significance, the confidence intervals for the estimation of the one-type error contain the nominal level of 5% for our test and the usual log-rank applied on data from hypothetical world. In comparison with the usual log-rank, our test performed well in terms of power in the first two scenarios (table 1). In the second scenario, where the patients under study are young, the results were nearly the same for both tests. Nevertheless, there was a loss of power for our proposed test in the third scenario. [Table 1 about here.] As expected, whatever the scenario, both tests were more powerful when the number of patients increased from 500 to 2000 (results not shown) and they performed worse when the cases were unbalanced (Web Table A). When studying the comparison of 3 groups, the estimation of the one type error was close to the nominal level of 5% (table 2). In terms of power, in the first scenario, table 2 shows that our proposed test performed worse than the usual log-rank, especially when the 3 distributions of net survival were not really away from each other ((HR1 , HR2 ) = (1, 0.7) or (0.9, 1.2)). In the other cases, the results of both tests were similar. In addition, as previously, our test performed as well as the usual log-rank when patients were young and we observed a loss of power in scenario 3 (Web Table B). We did not study unbalanced case because results would be similar as in the comparison of 2 groups. A test to compare net survival distributions 13 [Table 2 about here.] When studying the comparison of 2 groups when TE and the covariate sex were dependent, we compared results from the stratified version of our test with the not-stratified version. As expected, there was a loss of power when using the test which was not stratified (table 3). The farther βsex is from 0, the bigger was this loss of power. More interestingly, as shown in table 3, when the conditional distributions of TE were the most different (HRsex = 3), the estimation of the one type error was equal to 2.95, 95% Confidence Interval (CI) = [2.21; 3.69], when using the not stratified version of our test vs 4.60, 95%CI = [3.68; 5.52], with the stratified version. However, it was equal to 4.80, 95%CI = [3.86; 5.74], vs 5.45, 95%CI = [4.46; 6.44], when HRsex = 2. Thus, the stratified log-rank type test has to be used when the stratum variable has an important impact on net survival. [Table 3 about here.] 5. Application We applied the proposed test in one application for illustration. This analysis considered survival data on 10,108 patients with colorectal cancer diagnosed in 1998. These data came from 17 US registries obtained from the Surveillance, Epidemiology, and End Results (SEER) Program (2006) in the US. From this cohort, we excluded 816 patients who had no surgical procedure of the primary site, 2 patients in whom the use of a surgical procedure was not certain, and 167 patients with in situ tumors. Patient follow-up was restricted to the first five years after diagnosis and censoring set at five years in still alive patients. This left 9,123 patients for analysis. The covariates used were age at diagnosis, sex, ethnicity (black or white), and cancer stage at diagnosis (in four stages I to IV according to the stage classification of the American Joint Committee on Cancer used by SEER registries (SEER Program: comparative staging guide for cancer, 1993)). This data set is described in Web 14 Table C. We used the American life tables provided by R software survexp.usr, that is to say ethnicspecific life tables stratified by calendar year, from 1998 to 2003. We used our test to compare net survival distributions between Black and White patients stratified on stage, which is known to have an important effect on net cancer survival. Thus, as we know that stage may affect the result of the test, we considered 2 strata (stage I-II vs. stage III-IV). Figure 1 shows the impact of stages on net survival for these real data. When running our test stratified on stage, we found a test statistic equal to 9.06 (p-value = 2.6 × 10−3 ). We can note that using a test not stratified on stage produces a test statistic equal to 20.02 (p-value = 7.7 × 10−6 ). In fact, there were 426 (47%) Black patients with stage I-II and 476 (53%) with stage III-IV whereas there were 4586 (56%) White patients with stage I-II and 3635 (44%) with stage III-IV respectively. Thus, even if we rejected the null at the 5% level in both cases, stratifying allowed to eliminate the weight of strata and to assess the true difference between net survival distributions of Black and White people. [Figure 1 about here.] 6. Discussion Our proposed test compares distribution of net survival estimated by the Pohar-Perme distributions (Perme et al., 2012). The simulation study showed that the estimation of the one type error is correct. Our test also performs well in terms of power even if we observed a loss of power when the studied patients were old. This loss of power could be explained by the fact that elderly patients have higher expected mortality rates, that is to say there are more deaths due to other causes. Thus, there is a loss of information and higher variability in the estimates of net survival. A test to compare net survival distributions 15 The stratified version is useful when dealing with covariates impacting strongly on net survival, that is to say when there is one or more covariate having different distributions in the groups to compare (see e.g. Aalen et al., 2008, p. 110-111). The decision to use the stratified version should be based on epidemiological considerations depending on studied covariates. The application on real data showed that part of difference in net cancer survival between Black and White patients is due to differences in stages. We made assumptions (1) in the proof of the asymptotic distribution of the statistic under the null. These are reasonable assumptions on follow-up time because they require to use small follow-up times compared with TP given D or TE . A possible limitation of our work is that we only studied simulations favourable to our test. Indeed, the usual log-rank is optimal under the assumption of proportional hazard rates but performs poorly when this assumption does not hold (Qiu and Sheng, 2008). Several approaches have been proposed to deal with this problem (see e.g. Fleming et al., 1980; Mantel and Stablein, 1988 ; Breslow, Edler, and Berger, 1984; Qiu and Sheng, 2008). Further studies are needed to adapt our proposed test starting from one of these procedures. In addition, the formula we proposed was developed with a continuous underline process (without ties). Nevertheless, event times are usually assumed to be discrete when testing (Aalen et al., 2008). A tie-corrected estimator adapted from the one presented by Gill et al. (1993) may be of interest in such situations. Since our test compares favorably with the usual log-rank on data from hypothetical world, as shown in the simulation study, it may be helpful for cancer registries to compare net cancer survival between countries or areas. In addition, it may be applied to other chronic diseases for which net survival should be used. 16 Acknowledgements The work of the first author was funded by grants from INCa (COMPNETS project, INCa SHS-E-SP 2013). The authors are also very grateful to the CENSUR working survival group for their helpful comments. Supplementary Materials Web Appendices and Tables referenced in Sections 2.3, 2.4, 4.2 and 5 are available with this paper at the xxx website on Wiley Online Library. References Aalen, O., Borgan, O., and Gjessing, H. (2008). Survival and event history analysis: a process point of view. Springer. Belot, A., Abrahamowicz, M., Remontet, L., and Giorgi, R. (2010). Flexible modeling of competing risks in survival analysis. Statistics in medicine 29, 2453–2468. Berkson, J. and Gage, R. P. (1950). Calculation of survival rates for cancer. In Proceedings of the staff meetings. Mayo Clinic, volume 25, pages 270–286. Breslow, N. E., Edler, L., and Berger, J. (1984). A two-sample censored-data rank test for acceleration. Biometrics 40, 1049–1062. Coleman, M. P., Quaresma, M., Berrino, F., Lutz, J.-M., De Angelis, R., Capocaccia, R., et al. (2008). Cancer survival in five continents: a worldwide population-based study (CONCORD). The Lancet Oncology 9, 730–756. Danieli, C., Remontet, L., Bossard, N., Roche, L., and Belot, A. (2012). Estimating net survival: the importance of allowing for informative censoring. Statistics in medicine 31, 775–786. De Angelis, R., Sant, M., Coleman, M. P., Francisci, S., Baili, P., Pierannunzio, D., et al. A test to compare net survival distributions 17 (2014). Cancer survival in Europe 1999–2007 by country and age: results of EUROCARE5a population-based study. The Lancet Oncology 15, 23–34. Ederer, F., Axtell, L. M., and Cutler, S. J. (1961). The relative survival rate: a statistical methodology. National Cancer Institute Monograph 6, 101–121. Ederer, F. and Heise, H. (1959). The effect of eliminating deaths from cancer on general population survival rates, methodological note 11: End results evaluation section. The effect of eliminating deaths from cancer on general population survival rates, methodological note 11: End results evaluation section . Esteve, J., Benhamou, E., Croasdale, M., and Raymond, L. (1990). Relative survival and the estimation of net survival: elements for further discussion. Statistics in medicine 9, 529–538. Fleming, T. R. and Harrington, D. P. (2011). Counting processes and survival analysis. John Wiley & Sons. Fleming, T. R., Harrington, D. P., and O’sullivan, M. (1987). Supremum versions of the logrank and generalized Wilcoxon statistics. Journal of the American Statistical Association 82, 312–320. Fleming, T. R., O’Fallon, J. R., O’Brien, P. C., and Harrington, D. P. (1980). Modified Kolmogorov-Smirnov test procedures with application to arbitrarily right-censored data. Biometrics 36, 607–625. Gill, R. D., Keiding, N., and Andersen, P. K. (1993). Statistical models based on counting processes. Springer. Giorgi, R., Abrahamowicz, M., Quantin, C., Bolard, P., Esteve, J., Gouvernet, J., et al. (2003). A relative survival regression model using B-spline functions to model nonproportional hazards. Statistics in medicine 22, 2767–2784. Hakulinen, T. (1982). Cancer survival corrected for heterogeneity in patient withdrawal. 18 Biometrics 38, 933–942. Howlader, N., Noone, A., Krapcho, M., Neyman, N., Aminou, R., Waldron, W., et al. (2011). SEER cancer statistics review, 1975–2008. Bethesda, MD: National Cancer Institute . Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising in its consideration. Cancer chemotherapy reports. Part 1 50, 163–170. Mantel, N. and Stablein, D. M. (1988). The crossing hazard function problem. The Statistician 37, 59–64. Mudholkar, G. S., Srivastava, D. K., and Kollia, G. D. (1996). A generalization of the Weibull distribution with application to the analysis of survival data. Journal of the American Statistical Association 91, 1575–1583. Percy, C., Stanek 3rd, E., and Gloeckler, L. (1981). Accuracy of cancer death certificates and its effect on cancer mortality statistics. American Journal of Public Health 71, 242–250. Perme, M. P., Stare, J., and Estève, J. (2012). On estimation in relative survival. Biometrics 68, 113–120. Peto, R. and Peto, J. (1972). Asymptotically efficient rank invariant test procedures. Journal of the Royal Statistical Society, Series A (General) 135, 185–207. Qiu, P. and Sheng, J. (2008). A two-stage procedure for comparing hazard rate functions. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 70, 191–208. R Core Team (2014). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Robins, J. M. (1993). Information recovery and bias adjustment in proportional hazards regression analysis of randomized trials using surrogate markers. In Proceedings of the Biopharmaceutical Section, American Statistical Association, pages 24–33. Alexandria, Virgnia, U.S. Ross, S. (2006). Simulation. Statistical Modeling and Decision Science. Elsevier Science. A test to compare net survival distributions 19 SEER Program: comparative staging guide for cancer (1993). NIH Publication No. 93-3640. Surveillance, Epidemiology, and End Results (SEER) Program (Based on the submission November 2006). SEER*Stat Database: Incidence - SEER 17 Regs Research Data, Nov 2006 Sub (1973-2004 varying) - Linked To County Attributes - Total U.S., 1969-2004 Counties, National Cancer Institute, DCCPS, Surveillance Research Program, Cancer Statistics Branch, released April 2007. 0.6 0.4 0.0 0.2 Estimated net survival 0.8 1.0 20 0 500 1000 1500 Follow−up in days Figure 1. Net survival estimated by the Pohar-Perme estimator for: , Black patients with stages I-II; , White patients with stages I-II; , Black patients with stages III-IV; , White patients with stages III-IV A test to compare net survival distributions 21 Table 1 Comparison of 2 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000 simulations of 1000 patients. Distribution of age specific to each scenario: Scenario 1: 25% aged [40 − 64], 35% aged [65 − 74], and 40% aged [75 − 85]; Scenario 2: 30 6 age 6 40 (uniform); Scenario 3: 65 6 age 6 80 (uniform). HRa Proportion of rejection of the following tests (95%CI) Proposed test a 0.7 0.8 0.9 1 1.2 1.4 1.6 81.50 44.85 15.55 5.20 35.95 88.30 99.50 0.7 0.8 0.9 1 1.2 1.4 1.6 91.80 56.90 18.15 4.15 47.80 94.90 99.90 0.7 0.8 0.9 1 1.2 1.4 1.6 82.20 47.85 13.85 5.35 39.20 88.20 99.10 Usual log-rank on data from hypothetical world Scenario 1: balanced caseb (79.80;83.20) 93.05 (42.67;47.03) 59.85 (13.96;17.14) 20.35 (4.23;6.17) 5.30 (33.85;38.05) 46.70 (86.89;89.71) 95.05 (99.19;99.81) 100 Scenario 2: balanced caseb (90.60;93.00) 92.20 (54.73;59.07) 57.60 (16.46;19.84) 18.25 (3.28;5.02) 4.35 (45.61;49.99) 48.45 (93.94;95.86) 95.30 (99.64;99.97) 99.90 Scenario 3: balanced caseb (80.52;83.88) 92.00 (45.66;50.04) 58.75 (12.34;15.36) 17.10 (4.36;6.34) 4.30 (37.06;41.34) 48.75 (86.79;89.61) 95.25 (98.69;99.51) 99.85 (91.94;94.16) (57.70;62.00) (18.59;22.11) (4.32;6.28) (44.51;48.89) (94.10;96.00) (99.81;100) (91.02;93.38) (55.43;59.77) (16.56;19.94) (3.46;5.24) (46.26;50.64) (94.37;96.23) (99.64;99.97) (90.81;93.19) (56.59;60.91) (15.45;18.75) (3.41;5.19) (46.56;50.94) (94.32;96.18) (99.56;99.95) : Hazard Ratio of the level of G on excess mortality used in data generation, where G is the covariate representing the groups; b : Balanced cases correspond to the cases where groups are similar in size with P (G = 0) = P (G = 1). 22 Table 2 Comparison of 3 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000 simulations of 1000 patients. Distribution of age (scenario 1): 25% aged [40 − 64], 35% aged [65 − 74], and 40% aged [75 − 85]. (HR1 , HR2 )a Proportion of rejection of the following tests (95%CI) Proposed test (1, 0.7) (1, 1) (1, 1.2) (1, 1.4) (1, 1.6) (0.9, 1.2) (0.8, 1.4) (0.7, 1.6) a 66.75 5.10 26.20 74.65 97.20 42.40 96.10 100 Scenario 1: balanced caseb (64.69;68.81) (4.14;6.06) (24.27;28.13) (72.74;76.56) (96.48;97.92) (40.23;44.57) (95.25;96.95) (99.81;100) Usual log-rank on data from hypothetical world 82.90 4.95 35.80 87.35 99.70 58.20 98.90 100 (81.25;84.55) (4.00;5.90) (33.70;37.90) (85.89;88.81) (99.46;99.94) (56.04;60.36) (98.44;99.36) (99.81;100) : Hazard Ratios of the levels of G on excess mortality used in data generation, where G is the covariate representing the groups; b : Balanced cases correspond to the cases where groups are similar in size with P (G = 0) = P (G = 1) = P (G = 2). A test to compare net survival distributions 23 Table 3 Comparison of 2 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000 simulations of 1000 patients when sex has an impact on excess mortality in the data generation. Distribution of age specific to scenario 1: 25% aged [40 − 64], 35% aged [65 − 74], and 40% aged [75 − 85]. HRa Proportion of rejection of the following tests (95%CI) Proposed stratified test a 0.7 0.8 0.9 1 1.2 1.4 1.6 90.60 57.90 18.00 5.45 46.50 95.00 99.90 0.7 0.8 0.9 1 1.2 1.4 1.6 93.70 61.80 18.25 4.60 50.30 95.35 100 Proposed test (not stratified) Scenario 1: HRsex = 2 (89.32;91.88) 88.55 (55.74;60.06) 53.25 (16.32;19.68) 16.40 (4.46;6.44) 4.80 (44.31;48.69) 43.50 (94.04;95.96) 93.35 (99.64;99.97) 99.85 Scenario 2: HRsex = 3 (92.74;94.76) 88.30 (59.67;63.93) 51.25 (16.56;19.94) 14.15 (3.68;5.52) 2.95 (48.11;52.49) 40.90 (94.43;96.27) 91.40 (99.81;100) 99.90 (87.15;89.95) (51.06;55.44) (14.78;18.02) (3.86;5.74) (41.33;45.67) (92.26;94.44) (99.56;99.95) (86.89;89.71) (49.06;53.44) (12.62;15.68) (2.21;3.69) (38.75;43.05) (90.17;92.63) (99.64;99.97) : Hazard Ratios of the levels of G on excess mortality used in data generation, where G is the covariate representing the groups. 1–6 DOI: 000 Web-based Supplementary Materials for ”A log-rank type test to compare net survival distributions” by Nathalie Grafféo1,2 , Fabienne Castell3 , Aurélien Belot4,5,6, and Roch Giorgi1,2,7,∗ 1 INSERM, UMR912 ” Economics and Social Sciences Applied to Health & Analysis of Medical Information ” (SESSTIM), 13006 Marseille, France 2 3 Aix Marseille University, UMR S912, IRD, 13006, Marseille, France Aix Marseille University, CNRS, Centrale Marseille, I2M, UMR 7373, 13453 Marseille, France 4 5 Hospices Civils de Lyon, Service de Biostatistique, Lyon, France University Lyon 1, UMR 5558 Laboratoire Biostatistique-Santé, , Villeurbanne, France 6 Institut de Veille Sanitaire, DMCT, Saint-Maurice, France 7 APHM, Hôpital Timone, BIOSTIC, Marseille, France *email: [email protected] 1 Web Appendix A. Proof of E hZhw i < ∞ Z n k 2 l T X Yhw (s) X d hMl,i i (s) w w We have hZh i (T ) = 1(Y. (s) > 0) δhl − w 2 . Y. (s) i=1 l=1 0 S̃P,l,i (s) 2 Yhw (s) w Note that ∀s ∈ [0, T ] 1(Y. (s) > 0) δhl − w 6 1. Thus, Y. (s) Z k T X Yl,1 (s) w E hZh i (T ) 6 nl E 2 λ̃P,l,1 (s) + λE (s) ds . 0 l=1 S̃P,l,1 (s) As TE , TP and C are conditionally independent given X, we can write E (Yl,1(s) | Xl,1 ) = SC (s)SE (s)S̃P,l,1(s). Using that 0 6 SC , SE 6 1, we get E hZhw i (T ) 6 k X l=1 nl E (Z T 0 λ̃P,l,1(s) ds + S̃P,l,1 (s) Z 0 T ) SE (s)λE (s) ds . S̃P,l,1(s) Z T h iT 1 λ̃P,l,1 (s) ds = − 1. λ̃P,l,1(s)eΛ̃P,l,1 (s) ds = eΛ̃P,l,1 (s) = Note that 0 S̃P,l,1(T ) 0 0 S̃P,l,1 (s) RT Moreover, for 0 6 s 6 T , S̃P,l,1 (s) > S̃ (T ) and SE (s)λE (s)ds = 1 − SE (T ), we get P,l,1 0 ! k X nl , which is finite according to the second assumption in (1) E hZhw i (T ) 6 2E S̃ (T ) P,l,1 l=1 in the main document. Z T Web Appendix B. Proof of the asymptotic distribution of the test statistic under the null Let us define y.w : s ∈ R 7−→ SC (s)SE (s). By law of large numbers, under the null, ∀h ∈ [[1; k]], Yhw (s) (a.s.) −→ αh y.w (s). Hence, we introduce n n→∞ nl Z k X X Vh := (δhl − αh ) l=1 i=1 0 T 1(y.w (s) > 0) dMl,i (s) . S̃P,l,i (s) We can write Zhw (T ) = Vh + RTh , where nl Z T k X X Yhw (s) dMl,i (s) w h w 1(Y. (s) > 0) δhl − w RT = . − 1(y. (s) > 0) (δhl − αh ) Y (s) S̃ (s) 0 . P,l,i l=1 i=1 2 Let us denote σl2 (T ) := E = E Z T 0 (Z 0 Σ2hj (T ) := k X l=1 T d hMl,i i (s) w 1(y. (s) > 0) 2 , S̃P,l,i(s) SC (s)SE (s) 1(y.w (s) > 0) λ̃P,l,1(s) + λE (s) ds S̃P,l,1 (s) ) . (δhl − αh )(δjl − αj )αl σl2 (T ) . Using assumptions (1) in the main document, σl2 (T ) < +∞. We are going to prove Lemma 1: 1 (d) √ (V1 , · · · , Vk ) −→ N (0, Σ2 (T )), where Σ2 (T ) is the matrix whose entries n→∞ n are the Σ2hj (T ). Lemma 2: 1 L2 Under the null, √ RTh −→ 0. n→∞ n By Slutsky’s lemma, these two lemmas imply that under the null, 1 (d) √ (Z1w (T ), · · · , Zkw (T )) −→ N 0, Σ2 (T ) . n→∞ n (1) Proof of Lemma 1. Let us denote Wl,i := Z T 1(y.w (s) > 0) 0 dMl,i (s) . S̃P,l,i (s) For any l ∈ [[1; k]], (Wl,i )16i6nl are centered independent identically distributed, with variance σl2 (T ). Moreover, the (Wl,i )16l6k,16i6nl are independent. Therefore, the random vector P l Wl,i )16l6k converges in distribution to the centered Gaussian vector with W = ( √1n ni=1 diagonal covariance matrix whose entries are (αl σl2 (T ))16l6k . Lemma 1 follows since 1 √ n V1 .. = Id − . Vk α1 · · · α1 .. W . .. . . . . . αk · · · αk 3 Proof of Lemma 2. Let us denote nl Z X h,l RT = i=1 T 0 dMl,i (s) Yhw (s) w − 1(y. (s) > 0) (δhl − αh ) 1(Y. (s) > 0) δhl − w , Y. (s) S̃P,l,i (s) w Pk so that RTh = l=1 RTh,l . We have "Z 2 T 1 h,l = E fn (s, ω)2 E √ RT n 0 ! # nl λ̃P,l,i(s) + λE (s) 1X ds . Yl,i (s) 2 n i=1 (s) S̃P,l,i Yhw (s) w where fn : (s, ω) ∈ (R × Ω) 7→ 1(Y. (s) > 0) δhl − w − 1(y.w (s) > 0) (δhl − αh ). Then Y. (s) by Cauchy-Schwarz inequality: v !2 u 2 s Z T nl u Z T X 1 λ̃P,l,i (s) + λE (s) 1 u ds . fn (s, ω)4ds tE Yl,i (s) E √ RTh,l 6 E 2 0 n n i=1 S̃P,l,i 0 By law of large numbers, under the null, fn (s, ω) −→ 0 a.s.. Moreover, ∀(s, ω) ∈ (R × Ω), n→∞ | fn (s, ω) |6 2. By Lebesgue’s dominated convergence theorem, we get Z T 4 E fn (s, ω) ds −→ 0 under the null. n→∞ 0 On the other hand, since we have: nl 1X λ̃P,l,i(s) + λE (s) Yl,i (s) 2 n i=1 (s) S̃P,l,i Z !2 nl Yl,i2 (s) 2 nl X 2 62 2 λ̃P,l,i (s) + λE (s) 4 n i=1 S̃P,l,i (s) !2 nl X λ̃P,l,i (s) + λE (s) 1 Yl,i (s) E ds 2 0 n i=1 (s) S̃P,l,i ) ( Z SC (s)SE (s)S̃P,l,1(s) 2 n2l T 2 ds λ̃P,l,1(s) + λE (s) E 6 2 2 4 n 0 (s) S̃P,l,1 ! RT Z T 2 λ̃P,l,1(s) SE (s)λ2E (s)ds 0 6 2E + ds 3 3 (T ) S̃P,l,1 0 S̃P,l,1 (s) T < ∞ , according to assumptions (1) in the main document. 1 h,l L2 We deduce from this that under the null, √ RT −→ 0, ∀(l, h) ∈ [[1; k]]2 , which ends n→∞ n n the proof of Lemma 2. Using (1), to prove that the asymptotic distribution of the test statistic is χ2k−1 , it remains to prove 4 Lemma 3: P 1 2,w σ̂ (T ) −→ n h,j n→∞ (1) Σ2hj (T ). (2) The matrix Σ20 (T ) = (Σ2hj (T ))16h,j6k−1 is a symmetric positive definite matrix. Point (2) of Lemma 3 ensures that we can delete the last row and the last column to use matrix Σ̂2,w 0 (T ) in formula (5) in the main document. Proof of Lemma 3. (1) 1 2,w σ̂ (T ) = n h,j = 1 w w Z , Z (T ) n h j nl k Z T X Yjw (s) X Yhw (s) dNl,i (s) w 1(Y. (s) > 0) δhl − w δjl − w 2 Y. (s) Y. (s) i=1 S̃P,l,i (s) l=1 0 =: NT − QT with NT = k Z X T 1(y.w (s) 0 l=1 > 0)(δhl − αh )(δjl − αj ) nl X dNl,i (s) i=1 2 (s) S̃P,l,i and QT = k Z X l=1 Yjw (s) Yhw (s) δjl − w 1(Y. (s) > 0) δhl − w Y. (s) Y. (s) 0 X nl dNl,i (s) −1(y.w (s) > 0)(δhl − αh )(δjl − αj ) × 2 S̃P,l,i (s) i=1 T w Firstly, by the law of large numbers, we have n l 1X n i=1 (a.s.) Thus n1 NT −→ n→∞ Pk l=1 (δhl Z 0 T 1(y.w (s) > 0) dNl,i (s) (a.s.) −→ αl σl2 (T ) . 2 S̃P,l,i (s) n→∞ − αh )(δjl − αj )αl σl2 (T ) = Σ2hj (T ). 5 1 L1 Secondly, we can show that QT −→ 0. Indeed, n→∞ n (n Z k l T X1 X Yjw (s) 1 Yhw (s) w δjl − w E|QT | 6 E 1(Y. (s) > 0) δhl − w n n Y. (s) Y. (s) i=1 0 l=1 ) λ̃ (s) + λ (s) P,l,i E ds − 1(y.w (s) > 0)(δhl − αh )(δjl − αj )Yl,i 2 S̃P,k,i (s) k X p nl p 6 E(AT ) × (E(BT )) n l=1 with AT = Z T Z T 0 BT = 0 Yjw (s) Yhw (s) w δjl − w 1(Y. (s) > 0) δhl − w Y. (s) Y. (s) 2 −1(y.w (s) > 0)(δhl − αh )(δjl − αj ) ds SC (s)SE (s) λ̃ (s) + λ (s) ds P,l,1 E 3 S̃P,l,1 (a.s.) We have AT −→ 0 and E(BT ) < ∞ (see the proof of Lemma 2). So we have shown that n→∞ 1 w w P Zh , Zj (T ) −→ Σ2hj (T ) n→∞ n (2) Let us denote by 1I and ~u the vectors of Rk given by 1 α1 .. 1I := . , ~u := ... . 1 αk We have seen that the asymptotic distribution of √1n (Z1w (T ), . . . , Zkw (T )) is the one of D1 1 − α1 −α1 −α1 D1 .. .. .. = Id − ~u 1It .. , where (D ) .. . . . l 16l6k are independent . . Dk Dk −αk −αk 1 − αk random variables with distribution N 0, αl .σl2 (T ) . Hence, the asymptotic covariance matrix is given by Σ2 (T ) = A∆.At , with ∆ = diag(αl .σl2 (T )) Since Pk h=1 16l6k , and A = Id − ~u 1It . Zhw (T ) = 0, we already know that Σ2 (T ) 1I = 0, and that rank(Σ2 (T )) 6 k− 1. We are now going to prove that rank(Σ2 (T )) > k − 1. To this purpose, we assume that 6 ∀l ∈ [[1; k]], αl σl2 (T ) > 0, so that ∆ is invertible. Thus rank(Σ2 (T )) = rank(A.∆.At ) = rank(A). Let ~v be orthogonal to 1I. Then, A.~v = ~v −~u h 1I, ~vi = ~v , so that rank(A) > k−1. Hence, rank(Σ2 (T )) = k − 1, and Ker(Σ2 (T )) = Vect { 1I} is not a linear subspace of Vect {e1 , · · · , ek−1}, (e1 , · · · , ek ) being the canonical basis of Rk . This implies that rank(Σ20 (T )) = k − 1. Web Table A [Table 1 about here.] Web Table B [Table 2 about here.] Web Table C [Table 3 about here.] 7 Table 1 Comparison of 2 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000 simulations of 1000 patients. Distribution of age specific to each scenario: Scenario 1: 25% aged [40 − 64], 35% aged [65 − 74], and 40% aged [75 − 85]; Scenario 2: 30 6 age 6 40 (uniform); Scenario 3: 65 6 age 6 80 (uniform). HRa Proportion of rejection of the following tests (95%CI) Proposed test a 0.7 0.8 0.9 1 1.2 1.4 1.6 63.85 34.50 10.90 4.45 31.45 78.65 97.90 0.7 0.8 0.9 1 1.2 1.4 1.6 82.80 47.15 11.35 5.25 40.70 89.15 99.40 0.7 0.8 0.9 1 1.2 1.4 1.6 65.50 33.55 10.95 4.30 31.95 77.15 97.70 Usual log-rank on data from hypothetical world Scenario 1: unbalanced caseb (61.74;65.96) 84.50 (32.42;36.58) 50.80 (9.53;12.27) 16.40 (3.55;5.35) 4.50 (29.42;33.48) 36.25 (76.85;80.45) 87.40 (97.27;98.53) 99.30 Scenario 2: unbalanced caseb (81.15;84.45) 85.90 (44.96;49.34) 52.20 (9.96;12.74) 13.95 (4.27;6.23) 5.05 (38.55;42.85) 37.55 (87.79;90.51) 87.85 (99.06;99.74) 99.45 Scenario 3: unbalanced caseb (63.42;67.58) 83.70 (31.48;35.62) 48.60 (9.58;12.32) 15.75 (3.41;5.19) 5.05 (29.91;33.99) 37.45 (75.31;78.99) 84.70 (97.04;98.36) 99.35 (82.91;86.09) (48.61;52.99) (14.78;18.02) (3.59;5.41) (34.14;38.36) (85.95;88.85) (98.93;99.67) (84.37;87.43) (50.01;54.39) (12.43;15.47) (4.09;6.01) (35.43;39.67) (86.42;89.28) (99.13;99.77) (82.08;85.32) (46.41;50.79) (14.15;17.35) (4.09;6.01) (35.33;39.57) (83.12;86.28) (99.00;99.70) : Hazard Ratio of the level of G on excess mortality used in data generation, where G is the covariate representing the groups; b : Unbalanced cases correspond to the cases where groups are not similar in size with P (G = 0) = 1/4 and P (G = 1) = 3/4. 8 Table 2 Comparison of 3 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000 simulations of 1000 patients. Distribution of age specific to each scenario: Scenario 2: 30 6 age 6 40 (uniform); Scenario 3: 65 6 age 6 80 (uniform). (HR1 , HR2 )a Proportion of rejection of the following tests (95%CI) Proposed test a (1, 0.7) (1, 1) (1, 1.2) (1, 1.4) (1, 1.6) (0.9, 1.2) (0.8, 1.4) (0.7, 1.6) 84.45 4.70 34.60 88.00 99.55 56.40 99.35 100 (1, 0.7) (1, 1) (1, 1.2) (1, 1.4) (1, 1.6) (0.9, 1.2) (0.8, 1.4) (0.7, 1.6) 69.60 4.50 26.45 76.90 96.75 47.70 97.20 100 Scenario 2: balanced caseb (82.86;86.04) (3.77;5.63) (32.52;36.68) (86.58;89.42) (99.26;99.84) (54.23;58.57) (99.00;99.70) (99.81;100) Scenario 3: balanced caseb (67.58;71.62) (3.59;5.41) (24.52;28.38) (75.05;78.75) (95.97;97.53) (45.51;49.89) (96.48;97.92) (99.81;100) Usual log-rank on data from hypothetical world 84.60 4.90 36.30 89.80 99.70 57.10 99.50 100 (83.02;86.18) (3.95;5.85) (34.19;38.41) (88.47;91.13) (99.46;99.94) (54.93;59.27) (99.19;99.81) (99.81;100) 83.15 4.20 33.95 88.50 99.30 60.45 99.40 100 (81.51;84.79) (3.32;5.08) (31.87;36.03) (87.10;89.90) (98.93;99.67) (58.31;62.59) (99.06;99.74) (99.81;100) : Hazard Ratio of the level of G on excess mortality used in data generation, where G is the covariate representing the groups; b : Balanced cases correspond to the cases where groups are similar in size with P (G = 0) = P (G = 1) = P (G = 2). 9 Table 3 Description of the real dataset from the SEER made of patients diagnosed with colorectal cancer in 1998. Prognostic factors Age 6 60 61 − 79 > 79 Sex Man Woman Ethnicity Black White Tumor Stage at diagnosis Stage I Stage II Stage III Stage IV Overall a b Numbers (%)a Deaths at 5 years (%)b 2385 4704 2034 (26.1) (51.6) (22.3) 795 2077 1349 (33.3) (44.2) (66.3) 4722 4401 (51.8) (48.2) 2137 2084 (45.3) (47.4) 902 8221 (9.9) (90.1) 471 3750 (52.2) (45.6) 2132 2880 2669 1442 9123 (23.4) (31.6) (29.2) (15.8) (100) 501 1008 1385 1327 4221 (23.5) (35.0) (51.9) (92.0) (46.3) : Percentage of all 9123 patients; : Percentage of patients in a given category who died within the first 5 years after diagnosis. IV.3 Discussion 2.2 Simulations complémentaires En survie brute, la statistique du log-rank peut être déduite du test du score pour le modèle de Cox à taux proportionnels (voir par exemple Estève et al., 1993). De ce fait, le test du log-rank est asymptotiquement équivalent au test du rapport de vraisemblance fondé sur ce modèle. Il est donc intéressant d’étudier le comportement du modèle multivarié par rapport au test que nous proposons. Plus précisément, nous avons appliqué le modèle GLM décrit au Chapitre III (section 3.1.3). Nous avons introduit un effet du groupe G sur la mortalité en excès et nous avons calculé, pour les trois scénarios étudiés dans l’article, la proportion de rejet de l’hypothèse nulle (H0 ) : βG = 0 via le test du rapport de vraisemblance. Les résultats sont présentés dans le tableau IV.1. Les intervalles de confiance à 95% autour de l’estimation de l’erreur de type I obtenue par le test du rapport de vraisemblance contiennent la valeur de 5% dans tous les cas. Les résultats concernant la puissance sont très proches de ceux obtenus par le test que nous avons construit. Sachant que le modèle GLM est optimal dans le sens où la forme des données générées est connue et que, de ce fait, nous n’avons pas eu à faire un travail de modélisation, on peut conclure que le test que nous proposons est performant. 3 Discussion Nous avons construit un test aux performances similaires à celui du log-rank usuel. Nous pouvons toutefois noter une puissance faible lorsque les patients étudiés sont âgés. Cela peut s’expliquer par le fait que, pour ces patients, les décès autres causes sont nombreux. Il y a donc une perte d’information dans les estimations de la survie nette. Par ailleurs, l’utilisation de la version stratifiée apparaît indispensable lorsqu’un facteur pronostique a un impact « important » sur la mortalité en excès. C’est le cas pour le log-rank usuel (voir par exemple Aalen et al., 2008, p. 110–111). Il est d’usage que le statisticien (ou l’épidémiologiste) décide de la nécessité ou non de stratifier, selon ses connaissances des facteurs pronostiques. À notre connaissance, il s’agit à ce jour du seul test pouvant comparer des distributions de survie nette estimées par l’estimateur Pohar-Perme. Cet estimateur est déjà utilisé dans les registres français (Grosclaude et al., 2013) et le groupe EUROCARE étudie la possibilité de produire des résultats à partir de cet estimateur (Bossard et al., 2013). Ainsi, notre test apparaît comme un outil très utile dès à présent en France et potentiellement en Europe. Par ailleurs, il pourrait être appliqué à la comparaison de survies associées à d’autres maladies chroniques, pour lesquelles il serait intéressant d’utiliser l’estimateur Pohar-Perme. 107 IV.3 Discussion Proportion de rejet des tests (95%IC)‡ HR† Test proposé 0,7 0,8 0,9 1 1,2 1,4 1,6 81,50 44,85 15,55 5,20 35,95 88,30 99,50 0,7 0,8 0,9 1 1,2 1,4 1,6 91,80 56,90 18,15 4,15 47,80 94,90 99,90 0,7 0,8 0,9 1 1,2 1,4 1,6 82,20 47,85 13,85 5,35 39,20 88,20 99,10 Test du rapport de vraisemblance (modèle multivarié) Scénario 1 83,20) 84,65 47,03) 48,20 17,14) 16,95 6,17) 5,65 38,05) 38,00 89,71) 89,40 99,81) 99,60 Scénario 2 (90,60 ; 93,00) 91,90 (54,73 ; 59,07) 56,85 (16,46 ; 19,84) 18,45 (3,28 ;5.02) 4,20 (45,61 ; 49,99) 47,80 (93,94 ; 95,86) 94,95 (99,64 ; 99,97) 99,90 Scénario 3 (80,52 ; 83,88) 82,70 (45,66 ; 50,04) 49,60 (12,34 ; 15,36) 14,35 (4,36 ; 6,34) 5,65 (37,06 ; 41,34) 40,05 (86,79 ; 89,61) 89,00 (98,69 ; 99,51) 99,30 (79,80 ; (42,67 ; (13,96 ; (4,23 ; (33,85 ; (86,89 ; (99,19 ; (83,07 ; (46,01 ; (15,31 ; (4,64 ; (35,87 ; (88,05 ; (99,32 ; 86,23) 50,39) 18,59) 6,66) 40,13) 90,75) 99,88) (90,70 ; (54,68 ; (16,75 ; (3,32 ; (45,61 ; (93,99 ; (99,64 ; 93,10) 59,02) 20,15) 5,08) 49,99) 95,91) 99,97) (81,04 ; (47,41 ; (12,81 ; (4,64 ; (37,90 ; (87,63 ; (98,93 ; 84,36) 51,79) 15,89) 6,66) 42,20) 90,37) 99,67) Tableau IV.1 – Comparaison de 2 groupes : proportion de rejet de l’hypothèse nulle au seuil de significativité de 5% pour 2000 simulations de 1000 patients ((H0 ) : ΛE,G=1 = ΛE,G=2 pour le test proposé et (H0 ) : βG = 0 pour le test du rapport de vraisemblance). Distribution de l’âge spécifique à chaque scénario : Scénario 1 : 25% de patients entre 40 et 64 ans, 35% de patients entre 65 et 74 ans et 40% entre 75 et 85 ans ; Scénario 2 : 30 ≤ age ≤ 40 (uniforme) ; Scénario 3 : 65 ≤ age ≤ 80 (uniforme). † : Hazard Ratio de G sur la mortalité en excès utilisé dans l’étape de génération, où G est la variable représentant les groupes ; ‡ : Intervalle de confiance à 95%. 108 Chapitre V Études des variations spatiales Des variations spatiales de la survie liée au cancer peuvent exister, pouvant engendrer des agrégats, i.e. des zones géographiques où la mortalité en excès est plus faible/forte. La détermination de telles variations spatiales est intéressante d’un point de vue épidémiologique. En effet, cibler des zones où la mortalité en excès est élevée rend possible la recherche d’éventuels facteurs causant un excès de mortalité. Dans ce chapitre, nous nous intéressons encore aux différences de survie nette entre groupes mais d’un point de vue spatial. Plus précisément, pour une aire géographique donnée, nous voulons déterminer des clusters de survie nette c’est-à-dire des zones similaires en termes de survie nette. Les groupes à comparer correspondent alors à des zones potentiellement différentes en termes de survie nette. Prenons l’exemple d’une aire géographique contenant plusieurs localisations (par exemple, des communes). Supposons que chaque localisation contient des patients atteints d’un cancer donné et pour lesquels nous connaissons les données de survie jusqu’à une certaine date. Cet exemple est représenté sur la figure V.1. Si les localisations en rouge ont des taux de survie nette faibles Figure V.1 – Exemple illustratif d’une zone géographique présentant des communes où la survie nette est élevée (en vert) ou faible (en rouge). 109 alors que les localisations en vert ont des taux de survie nette élevés, la question était de savoir comment obtenir un découpage du plan séparant les localisations différentes en termes de survie nette. Un exemple de découpage possible est donnée par la figure V.2. Figure V.2 – Exemple illustratif de découpage d’une zone géographique présentant deux clusters où la survie nette est élevée (cluster avec communes en vert) ou faible (cluster avec communes en rouge). Notre question était double au sens qu’elle comportait : (1) une problématique géographique et algorithmique (choix de la méthode de découpage), et (2) une problématique analytique (choix du critère de découpage). Concernant le premier point, des méthodes utilisant des aires géographiques prédéterminées – la plupart du temps, de façon administrative – existent (voir par exemple Banerjee et al., 2003, dans le cadre de la survie brute). Cependant, quel que soit le niveau administratif choisi comme unité géographique d’intérêt, ce choix n’est fondé sur aucune raison valide d’un point de vue épidémiologique. Il est évident qu’une épidémie ne s’arrêtera pas aux frontières d’un département. De la même façon, l’impact d’une source environnementale sur la survie nette liée au cancer (pollution atmosphérique, champs électromagnétiques ou présence de substances cancérigènes, par exemple) ne se borne pas à des frontières administratives. Les méthodes de détection de clusters, qui ne s’appuient pas sur un découpage géographique arbitraire, s’affranchissent de ce problème. Nous avons choisi d’adapter à la survie nette la méthode SpODT (Spatial Oblique Decision Tree). Il s’agit d’une méthode de détection de clusters, proposée et développée par Jean Gaudart, dans le contexte de données d’incidence pour des pathologies infectieuses aiguës (Gaudart et al., 2005; Fichet et al., 2006; Gaudart et al., 2007; Gaudart, 2007). Elle permet d’obtenir des agrégats potentiels par des découpages obliques 1 de la zone géographique étudiée, 1. On retrouve parfois l’expression « partitions obliques » qui désigne une partition d’une aire géographique par des découpages obliques. 110 V.1 La méthode CART sans pré-spécification de la forme, de la taille ou du centre des clusters à obtenir. Elle s’inscrit dans le cadre des méthodes de détection locale, comme la méthode de balayage de Kulldorff (1997) dont elle se différencie par l’absence du choix a priori de la forme des classes recherchées. Remarque V.1 Les méthodes de détection de clusters sont usuellement classées selon trois catégories (Gaudart et al., 2007) : – les méthodes de détection locale d’agrégats de cas autour d’une source potentielle (voir, par exemple, Chirpaz et al., 2004) ; – les méthodes de détection globale d’agrégations de cas. On retrouve parmi ces méthodes le test d’auto-corrélation de Moran (Richardson, 1992) et le test d’hétérogénéité de Potthoff and Whittinghill (1966) ; – les méthodes de détection locale d’agrégats, sans spécification a priori d’une source. Concernant le second point, nous avons choisi d’utiliser l’estimateur Pohar-Perme (Perme et al., 2012) car c’est un estimateur consistant de la survie nette, mais aussi parce qu’il est non paramétrique et, de ce fait, ne nécessite pas de stratégie de modélisation. Ainsi, le test de type log-rank qui a été exposé au Chapitre IV nous a fourni un critère de découpage que nous avons intégré dans l’algorithme SpODT, comme nous allons l’expliquer dans les prochains paragraphes. Dans les sections suivantes, nous allons exposer la méthode CART, méthode de construction d’un arbre de régression qui est à l’origine de la méthode SpODT. Ensuite, nous approfondirons la méthode SpODT telle qu’elle a été développée pour les pathologies aiguës. Enfin, nous terminerons ce chapitre en décrivant notre adaptation de SpODT à la survie nette. 1 La méthode CART Un arbre de décision est un outil d’aide à la décision et à l’exploration de données. Cet arbre fournit un modèle pour classer de nouveaux échantillons. Sa lisibilité graphique rend facile son interprétation. Notons qu’en matière de prédiction, il n’est pas aussi précis que d’autres méthodes, comme le « bagging » ou les forêts aléatoires qui combinent un grand nombre d’arbres afin d’obtenir une prédiction plus précise, aux dépens de l’interprétation 2 . Notons aussi qu’il existe deux types d’arbres de décision : les arbres de régression et les arbres de classification. 2. Pour plus de précisions sur ces méthodes, on pourra se référer à Breiman (1996) et Breiman (2001). 111 V.1 La méthode CART Ces derniers sont caractérisés par le fait que la variable réponse est une variable catégorielle, contrairement aux arbres de régression pour lesquels la variable réponse est quantitative. Dans le cadre de notre travail, nous nous intéressons uniquement aux arbres de régression. La méthode CART (Classification And Regression Tree) introduite par Breiman et al. (1984) permet de construire des arbres de classification et de régression.Nous allons introduire cette méthode lorsque la variable à expliquer est quantitative. Nous avons fait le choix pédagogique d’utiliser un exemple ne portant pas sur le domaine de la survie afin d’amener le lecteur du domaine général de l’apprentissage automatique à celui, plus spécifique, des méthodes de détection de clusters géographiques. Nous terminerons cette section en étudiant un cas où la méthode est appliquée à des données de survie brute. 1.1 Principe général de la méthode CART et vocabulaire relatif aux arbres de décision Nous utilisons ici l’exemple introduit par James et al. (2013a) pour introduire le vocabulaire et la méthode. Il s’agit de prédire une variable quantitative, Y , représentant les salaires de joueurs de baseball par des variables explicatives X1 , ..., Xp de nature quelconque, représentant, par exemple, le nombre de coups sûrs (« Hits ») réalisés l’année précédente (« Years ») ou le nombre d’années passées en ligue majeure (« major league »). Le jeu de données « Hitters » est issu du package ISLR (James et al., 2013b). Sur la représentation graphique V.3, trois zones semblent se dégager. Les joueurs avec moins d’expérience ont un salaire plus faible que les joueurs expérimentés. Parmi ces derniers, ce sont ceux qui ont frappé le plus de coups sûrs qui ont les salaires les plus élevés. Nous allons expliquer, à partir de cet exemple, le principe de la méthode CART. Construire un arbre revient, sur la base d’un ensemble d’apprentissage, à appliquer un processus récursif de division binaire à l’espace des prédicteurs, produisant ainsi une séquence de sous-régions appelées nœuds. Ainsi, un nœud correspond à un découpage en deux classes d’un sous-ensemble des variables explicatives. La racine désigne le nœud initial contenant l’ensemble des variables explicatives. Le découpage se fait selon un critère qui doit retenir, parmi tous les découpages possibles, le « meilleur », dans un sens que nous allons définir. Un ou des critère(s) d’arrêt forment une règle pour décider de l’arrêt du découpage ; on obtient alors des nœuds terminaux appelés feuilles. Elles contiennent une valeur de la variable à expliquer. Chaque segment joignant deux nœuds est appelé branche. 112 V.1 La méthode CART Figure V.3 – Salaire de joueurs de baseball en fonction du nombre de coups sûrs et du nombre d’années passées en ligue majeure. Les salaires les plus faibles sont en violet et bleu, les salaires « moyens » sont en vert et les plus élevés sont en orange et rouge. Revenons à notre exemple issu du jeu de données « Hitters ». La figure V.4 montre l’arbre obtenu en réduisant le nombre de variables explicatives à 2 (X1 = Years et X2 = Hits) et en fixant comme critère d’arrêt la profondeur maximale de l’arbre à 2 (i.e. le nombre de découpages maximal pour une branche). L’arbre a deux nœuds et trois feuilles. Le premier découpage produit une branche à gauche correspondant à X1 < 4.5 et une branche à droite correspondant à X1 ≥ 4.5. Le second découpage (dans la branche droite) produit une branche à gauche correspondant à X2 < 117.5 et une branche à droite correspondant à X2 ≥ 117.5. Les feuilles contiennent la valeur moyenne du salaire pour les joueurs appartenant à un des trois sous-ensembles ainsi définis. Plus précisément, pour chaque joueur i ayant pour covariables (X1,i , X2,i ), les trois sous-ensembles, qui définissent ainsi une partition de l’ensemble des covariables, sont : {(X1 , X2 )|X1 < 4.5}, {(X1 , X2 )|X1 ≥ 4.5, X2 < 117.5} et {(X1 , X2 )|X1 ≥ 4.5, X2 ≥ 117.5}. Nous avons arbitrairement borné la profondeur de l’arbre à 2. D’autres critères d’arrêt, tel que la taille minimale d’un nœud permettant un découpage ou le nombre minimal d’observations que doit contenir une feuille (sous peine de rejeter le découpage) ont une influence sur la « taille » de l’arbre. Un arbre « trop détaillé » serait, par exemple, obtenu si chaque feuille correspondait à une observation. La recherche de l’arbre optimal consiste à construire un arbre maximal, puis à sélectionner un sous-arbre selon une procédure d’élagage que nous allons détailler. Commençons par expliquer la construction de l’arbre maximal et, plus précisément, le choix du critère de découpage. 113 V.1 La méthode CART Figure V.4 – Un arbre de régression obtenu à partir du jeu de données « Hitters ». 1.1.1 Construction de l’« arbre maximal » Notons n le nombre d’individus du jeu de données. Cette étape consiste à diviser l’espace des prédicteurs (i.e. des variables explicatives) en J zones rectangulaires, R1 , . . . , RJ , de taille nj . Ces zones rectangulaires correspondent aux feuilles, i.e. aux nœuds terminaux. On a donc n= J X nj . Notons, pour l’individu i appartenant à la zone j, Yij la valeur théorique de Y , et j=1 yij la valeur observée. À la première étape, on considère l’ensemble des prédicteurs X := (Xj )(1≤j≤p) . On découpe récursivement l’espace des prédicteurs : à chaque étape, le découpage aboutit à deux nouveaux nœuds, appelés fils gauche et fils droit, par exemple {X|Xj < s} et {X|Xj ≥ s}. Parmi tous les découpages possibles, i.e. parmi toutes les valeurs possibles des j et des seuils s, la méthode retient celui qui aboutit aux nœuds fils les plus « homogènes » possibles 3 . Autrement dit, l’objectif est de maximiser la différence d’hétérogénéité entre un ensemble complet (nœud père) et un ensemble découpé (nœuds fils). Écrivons plus précisément les quantités en jeu. L’hétérogénéité du nœud j est donnée par : nj X (Yij − Y.j )2 , i=1 3. Un nœud est dit homogène lorsque tous les individus qu’il contient prennent la même valeur de Y. 114 V.1 La méthode CART où Y.j = nj X Yij . L’hétérogénéité de la partition (R1 , . . . , RJ ) est ainsi donnée par : i=1 nj J X X (Yij − Y.j )2 , j=1 i=1 appelée inertie intra-classe, quantité analogue à la variance intra-classe. La différence d’hétérogénéité entre l’ensemble complet et l’ensemble découpé selon une partition (R1 , . . . , RJ ) s’écrit : ∆= nj J X X 2 (Yij − Y.. ) − j=1 i=1 nj J X X (Yij − Y.j )2 , j=1 i=1 J X 1 PJ Pnj nj (Y.. − Y.j )2 , inertie interclasses, quantité analogue à où Y.. = i=1 Yij . On a ∆ = j=1 n j=1 la variance interclasses. Ainsi, à la première étape, on cherche j et s qui minimisent : X i/xi ∈R1 (j,s) (yij − y.j )2 + X (yij − y.j )2 , i/xi ∈R2 (j,s) où R1 (j, s) = {X|Xj < s} et R2 (j, s) = {X|Xj ≥ s}. Les étapes suivantes consistent à découper, de la même façon, les deux classes obtenues (qui sont des sous-ensembles de l’ensemble des prédicteurs), jusqu’à atteindre un critère d’arrêt (par exemple, lorsque les feuilles ne contiennent pas plus de 5 observations). La figure V.5 montre l’arbre obtenu par cette méthode sur le jeu de données Hitters pour un sous-ensemble de 6 variables explicatives (prédicteurs). On considère les observations (xi , yi )(1≤i≤n) où x = (xi,1 , . . . , xi,p ). Si l’on note ĉj le salaire moyen pour l’ensemble des joueurs de la 1 X yi . La valeur prédite est alors modélisée feuille j, avec 1 ≤ j ≤ 12, on a : cj = nj i/xi ∈Rj par f (x) := 12 X ĉj 1(x ∈ Rj ). j=1 1.1.2 Élagage et arbre final L’arbre produit par cette méthode a tendance au surapprentissage, du fait d’un nombre trop élevé de feuilles. Une étape supplémentaire de la méthode CART consiste à élaguer l’arbre (maximal) que nous venons de construire. Notons cet arbre T0 . La méthode, détaillée par Hastie 115 V.1 La méthode CART Figure V.5 – « Arbre maximal » obtenu à partir du jeu de données « Hitters » avec 6 variables explicatives. et al. (2009), consiste à minimiser le coût-complexité qui est de la forme : D(T ) + α|T |, où T est un sous-arbre de T0 ayant |T | feuilles, D(T ) = J X Dj (T ) et Dj (T ) est la déviance ou j=1 le coût de mauvais classement de la feuille j de l’arbre T . Pour α = 0, d’après la construction précédente, T0 minimise la complexité de l’arbre. D(T ) décroît lorsque |T | augmente, comme le montre la figure V.6 4 . Sur cette figure, on peut voir que, pour notre exemple, l’arbre optimal est obtenu pour 5 feuilles. L’arbre ainsi retenu est représenté par la figure V.7. Nous pouvons remarquer que, du fait du nombre de variables considérées comme prédicteurs, cet arbre est plus grand que celui que nous avions obtenu, « à la main », avec seulement deux prédicteurs. 4. Rigoureusement, pour ne pas avoir une déviance trop « optimiste », le calcul devrait se faire sur un échantillon de validation (différent de l’échantillon d’apprentissage qui serait utilisé dans la construction de l’« arbre maximal »). 116 V.1 La méthode CART Cependant, les deux premiers découpages correspondent bien à ceux que nous avions « prédits ». Figure V.6 – Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données « Hitters » avec 6 variables explicatives. Figure V.7 – Arbre optimal obtenu à partir du jeu de données « Hitters » avec 6 variables explicatives. 117 V.1 La méthode CART 1.2 CART : une méthode de détection de clusters La méthode CART peut être facilement appliquée à la recherche de clusters géographiques. Pour cela, il suffit d’introduire les coordonnées comme variables explicatives. À titre illustratif, nous avons créé un cluster géographique contenant les salaires les plus élevés, représenté sur la figure V.8. 4 3 2 1 0 1 2 3 4 Figure V.8 – Exemple illustratif : création, à partir du jeu de données « Hitters », d’un cluster géographique de salaires élevés (zone grise). L’arbre maximal obtenu est représenté dans la figure V.9 et le graphique des déviances en fonction du nombre de feuilles est donné par la figure V.10. On obtient alors un arbre maximal, représenté par la figure V.11 et une carte représentée par la figure V.12. L’arbre optimal montre que le cluster géographique est bien détecté avec un salaire moyen de 973600 dollars. Notons que les deux autres feuilles correspondent à des salaires moyens similaires. La méthode CART a été construite de sorte que, lors de l’introduction de coordonnées comme variables explicatives, les partitions sont faites orthogonalement à ces variables, comme le montre la figure V.12. Or, rien a priori ne justifie ce type de découpages lorsque l’on étudie la propagation d’une épidémie (Fichet and Gaudart, 2005). C’est ce qui a motivé la méthode SpODT (Spatial Oblique Decision Tree), adaptation de la méthode CART permettant la recherche de découpages obliques, qui sera présentée dans la section 2. 1.3 CART : application à des données de survie brute La méthode CART peut être appliquée à des données de survie brute. Son implémentation peut se faire notamment via la fonction rpart du package du même nom du logiciel R (Therneau et al., 2013). Dans ce package, la méthode par défaut est la méthode exponentielle, détaillée dans l’ouvrage de Nakache and Confais (2003). Nous la résumons ci-dessous car nous nous y réfèrerons dans la suite de ce manuscrit (cf. section 3). 118 V.1 La méthode CART Figure V.9 – Arbre maximal obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. Nous avons vu dans les deux paragraphes précédents que le critère de découpage était la minimisation de l’inertie intra-classe (ou la maximisation de l’inertie interclasses). Dans le contexte de la survie, pour découper en fonction d’une variable explicative, on s’intéresse à la comparaison de la survie entre les deux groupes créés, notés R1 et R2 . Cette comparaison est faite via le test du rapport de vraisemblance. Si l’on note d1 et d2 le nombre de décès dans R1 et R2 , t1 et t2 les sommes des temps de suivi, la statistique de test s’écrit : " d2 2 d2 ln t2 ! d1 + d1 ln t1 ! d − d ln t !# , où d = d1 + d2 et t = t1 + t2 . Cette statistique de test suit une loi du χ2 à un degré de liberté. Le meilleur découpage est celui qui produit la statistique de test maximale parmi tous les découpages possibles. Comme précédemment, la construction de l’arbre maximal s’arrête lorsque les conditions d’arrêt 119 V.1 La méthode CART Figure V.10 – Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. Figure V.11 – Arbre optimal obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. sont atteintes et la procédure d’élagage consiste à trouver le sous-arbre qui minimise le coûtcomplexité. Dans rpart, cela revient à trouver le paramètre de complexité qui minimise l’erreur de validation croisée. Un exemple d’application est donné par Therneau and Atkinson (2014) avec le jeu de données « Stage C prostate cancer » (Nativ et al., 1988). Le tableau V.1 des 120 V.1 La méthode CART Figure V.12 – Découpage géographique obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives, dont des coordonnées planaires. paramètres de complexité, CP , montre que l’erreur 5 est minimale pour CP = 0, 04205598, d’où l’arbre retenu représenté par la figure V.13. CP nsplit 0,12945955 0 0,04205598 1 0,02919986 2 0,01798864 3 0,01540577 4 0,01335393 5 0,01150598 7 0,01000000 8 rel error 1,0000000 0,8705405 0,8284845 0,7992846 0,7812960 0,7658902 0,7391823 0,7276764 xerror 1,0070205 0,8933413 0,9350145 0,9698372 1,0150718 1,0276956 1,0438313 1,0433441 xstd 0,07066791 0,07416861 0,08095818 0,08378479 0,08959893 0,08995911 0,09019657 0,09015052 Tableau V.1 – Tableau des paramètres de complexité (sortie R) pour l’exemple des données « Stage C prostate cancer » où CP désigne le paramètre de complexité, nsplit désigne le nombre de découpages, rel error mesure l’erreur apparente (erreur d’entraînement), xerror mesure le taux d’erreur dans la validation croisée et xstd est l’écart-type de l’erreur de validation croisée. 5. Dans la sortie produite par R, xerror mesure le taux d’erreur dans la validation croisée à 10 plis. On le considère comme un estimateur correct de l’erreur réelle et c’est lui qu’il faut minimiser. 121 V.2 La méthode SpODT pour les pathologies aiguës Figure V.13 – Arbre obtenu à partir du jeu de données « Stage C prostate cancer » avec CP =0,042. 2 2.1 La méthode SpODT pour les pathologies aiguës La méthode initiale Nous présentons ici la méthode, adaptée de CART, que nous avons choisi d’étendre à la survie nette. La méthode SpODT, pour Spatial Oblique Decision Tree, repose sur un modèle de régression non paramétrique qui fournit des agrégats avec des découpages obliques de l’espace (Gaudart et al., 2005; Fichet et al., 2006; Gaudart et al., 2007; Gaudart, 2007), et non plus seulement des rectangles. Conçue à des fins épidémiologiques, la méthode SpODT permet de découper une aire géographique en fonction du risque associé à une épidémie. Globalement, elle est implémentée à l’aide d’un algorithme itératif qui cherche à découper le plan selon un critère qui est la maximisation de la variance interclasses. L’algorithme détecte les découpages à tester en utilisant des permutations dans l’ordre des abscisses sur leurs axes, en utilisant le fait que toute permutation de support fini peut être décomposée en un produit de transpositions. Pour plus de détails sur le fonctionnement de l’algorithme sous-jacent à la méthode, on pourra se 122 V.2 La méthode SpODT pour les pathologies aiguës référer à l’exemple développé en Annexe B 6 . Les critères d’arrêt sont : – la profondeur maximale de l’arbre ; – la taille minimale d’un nœud père ; – la taille minimale d’un nœud fils ; – l’amélioration minimale du R2 (variance expliquée). Comme dans la méthode CART, le découpage se fait de manière descendante, i.e. lorsque l’on est dans un sous-arbre droit, on ne s’occupe plus des sous-arbres gauches de même niveau (ou de niveau inférieur). Ainsi, deux classes similaires peuvent se retrouver dans deux feuilles et être séparées par un segment (elles sont dans deux sous-arbres différents). La méthode SpODT se différencie ici de CART par le fait qu’elle offre la possibilité de « retravailler le découpage géographique » par la méthode de la greffe. Le principe de la greffe est de vérifier si toutes les classes adjacentes sont différentes et, dans le cas contraire, de supprimer les segments correspondants. Plus précisément, l’algorithme calcule le R2 global pour chaque greffe possible. La greffe est réalisée si l’amélioration du R2 (par rapport à celui calculé avant greffe) est suffisante. Elle permet ainsi d’agréger des classes qui n’ont pas de relation hiérarchique, à la différence de l’élagage de la méthode CART où l’on choisit l’arbre optimal parmi des sous-arbres de l’arbre maximal. Notons que la procédure d’élagage ne peut être appliquée dans SpODT après une greffe. En effet, elle nécessite de travailler à partir de l’arbre maximal (ou d’un sous-arbre) et la greffe élimine la hiérarchisation des classes. Il serait toutefois possible de l’appliquer avant la greffe mais cela réduirait le bénéfice de celle-ci. Notons aussi que la greffe pourrait être appliquée à la méthode CART. Ainsi, dans l’exemple représenté par la figure V.12, on obtiendrait deux clusters : « salaires élevés » (cluster en bas à gauche) vs. « salaires faibles » (greffe du cluster en haut à gauche avec le cluster de droite). Une autre différence entre les deux méthodes est que la méthode SpODT travaille dans le plan, contrairement à la méthode CART où les coordonnées ne sont que des variables quantitatives parmi d’autres. Ainsi, la méthode SpODT n’est applicable que pour des coordonnées planaires ; en présence de coordonnées sphériques, une projection doit être réalisée avant toute analyse. Enfin, une pondération a été introduite dans la méthode SpODT, permettant de « pénaliser » les classes de faible effectif et contenant des localisations dispersées. 6. L’exemple proposé s’appuie sur l’adaptation de SpODT à la survie, dont nous parlerons dans la prochaine section. Cependant, l’algorithme de découpage est le même, seul le critère de découpage change. 123 V.2 La méthode SpODT pour les pathologies aiguës 2.2 Les améliorations Compte tenu de l’un des objectifs de cette thèse qui était d’adapter la méthode SpODT à la survie nette, nous avons été impliqués dans la création du package SPODT (Gaudart et al., 2014). La méthode était implémentée à partir de fonctions existantes programmées en C et dans R 7 . Une part importante de notre travail a consisté à optimiser certaines fonctionnalités et à créer le package. Nous avons notamment construit le package dans l’esprit des packages existants dans l’analyse spatiale – voir par exemple les packages gstat (modélisation géostatistique spatiale et spatio-temporelle, prévision et simulation, Pebesma, 2004) et geostatsp (géostatistique et données raster, Brown and Hijmans, 2014) qui s’appuient sur le package sp (classes et méthodes pour données spatiales, Pebesma and Bivand, 2005; Bivand et al., 2013). Le package SPODT est disponible sur le site du CRAN : http://cran.r-project.org/web/packages/SPODT/index.html. Les fonctions et arguments sont présentés dans l’article qui suit. Il a le statut « (conditional) accept » (modifications mineures – de style – à apporter) dans la revue Journal of Statistical Software. Notons que ce package a permis de contribuer au travail d’un étudiant de master 8 . Il s’agissait de comparer les résultats obtenus par la méthode SpODT sur des données réelles d’une pathologie chronique (cancers du poumon, de la vessie, de la prostate et du colon-rectum) avec ceux obtenus par la méthode de balayage de Kulldorff (Kulldorff, 1997) et le lissage bayésien hiérarchique utilisés sur ces données (Colonna and Sauleau, 2013). 7. Ces programmes avaient été construits lors d’un stage de master (Barbet, 2008). 8. Ce travail est exposé dans un mémoire (Goungounga, 2014). 124 Journal of Statistical Software JSS MMMMMM YYYY, Volume VV, Issue II. http://www.jstatsoft.org/ SPODT: An R-Package to Perform Spatial Partitioning Jean Gaudart Nathalie Graffeo Drissa Coulibaly Guillaume Barbet Aix-Marseille Univ Aix-Marseille Univ MRTC, USTT Bamako Aix-Marseille Univ Stanilas Rebaudet Nadine Dessay Ogobara K Doumbo Roch Giorgi Aix-Marseille Univ IRD MRTC, USTT Bamako Aix-Marseille Univ Abstract Spatial cluster detection is a classical question in epidemiology: are cases located near other cases? In order to classify a study area into zones of different risks and determine their boundaries, we have developed a spatial partitioning method based on oblique decision trees, which is called Spatial Oblique Decision Tree (SpODT). This non-parametric method is based on the Classification and Regression Tree (CART) approach introduced by L. Breiman. Applied to epidemiological spatial data, the algorithm recursively searches among the coordinates for a threshold or a boundary between zones, so that the risks estimated in these zones are as different as possible. While the CART algorithm leads to rectangular zones, providing perpendicular splits of longitudes and latitudes, the SpODT algorithm provides oblique splitting of the study area, which is more appropriate and accurate for spatial epidemiology. Oblique decision trees can be considered as non-parametric regression models. Beyond the basic function, we have developed a set of functions that enable extended analyses of spatial data, providing: inference, graphical representations, spatio-temporal analysis, adjustments on covariates, spatial weighted partition, and the gathering of similar adjacent final classes. In this paper, we propose a new R-package, SPODT, which provides an extensible set of functions for partitioning spatial and spatiotemporal data. The implementation and extensions of the algorithm are described. Function usage examples are proposed, looking for clustering malaria episodes in Bandiagara, Mali, and samples showing three different cluster shapes. The SPODT package is freely available on the CRAN website (http://cran.r-project.org). Keywords: spatial, partitionning, malaria, oblique decision tree, R-package. 2 SPODT: Spatial Partitioning 1. Introduction Spatial cluster detection is a classical question in epidemiology: are cases located near other cases? Among various approaches, general methods allow us to detect high risk zones of unspecified locations within a study area, without specifying any a priori point source (Colonna et al. 1993; Elliott et al. 1995; Wakefield et al. 2001; Waller and Gotway 2004; Chirpaz et al. 2004; Gaudart et al. 2006b). Global detection methods, such as Moran’s or Tango’s ones (Tiefeldorf 2002; Tango 2002), test a statistic estimated over the entire study area, whereas local detection methods, such as Anselin’s or Kulldorff’s ones (Anselin 1995; Kulldorff 1997), test several statistics estimated over distinct zones within the study area. By scanning the study region with a circular or elliptic window, the SaTScan algorithm (Kulldorff 1997) compares observed and expected cases, inside and outside each potential cluster. It has the advantage of not depending on the underlying spatial architecture, although the choice of windowing is often critical and sensitive to edge effects (Gregorio et al. 2006). These methods are also sensitive to geographical constraints, such as rivers, mountains, seas, or walls and corridors for outbreaks in buildings (e.g., healthcare-associated infections, or legionellosis). We have introduced a spatial partitioning method based on oblique decision trees, called Spatial Oblique Decision Tree (SpODT), in order to classify a study area into zones of different risks and determine their boundaries, while being less sensitive to edge effects (Gaudart et al. 2006b). This non-parametric method is based on the Classification and Regression Tree (CART) approach introduced by L. Breiman (Breiman et al. 1993). Beyond the basic function, we have developed a set of functions for an extended analysis of spatial data, providing: inference, graphical representations, spatio-temporal analysis, adjustments on quantitative covariates, spatial weighted partition, and the gathering of similar adjacent final classes. In this paper, we propose a new R-package, SPODT, which provides an extensible set of functions for partitioning spatial and spatio-temporal data. The implementation and extensions of the algorithm are described and function usage are proposed based on a field observation datafile (malaria episodes in Mali) (Coulibaly et al. 2013) and samples showing three different cluster shapes. The results are compared to the CART approach using the tree R-package. All results were obtained using R 3.1.0 (Windows 7®, Intel®Core™i7, CPU Q820 @1.73GHz, 64-bit). The SPODT package is freely available on the CRAN website (http://cran.r-project.org). 2. Method 2.1. Basic algorithm This non-parametric method is based on Classification and Regression Tree (CART) (Breiman et al. 1993; Crichton et al. 1997; Gaudart et al. 2005). For each covariate, the CART algorithm searches for the threshold to split the covariate space into two classes, which optimizes a defined criteria (such as interclass variance). Then, the CART algorithm pursues recursively the binary partition of the covariate space, reaching stopping rules. Applied to epidemiological spatial data, the CART algoritm searches among the planar coordinates {xi , yi } (of each location Mi ) for a threshold or boundary between two spatial classes (two geographic zones), so that the risks estimated in these two classes are as different as possible (maximum interclass variance or sum of squared errors SSEinter ). The algorithm then continues splitting Journal of Statistical Software 3 recursively each of these two classes, and stops when reaching stopping rules. The root of the resulting regression tree is the entire study area. The final classes are sub-classes splitting the whole study area. Regression trees estimate changing lines of a constant function in each class of R2 (Gey 2002), interpreted as boundaries between zones (spatial classes) of different risks. However, the CART algorithm leads to rectangular classes (Murthy et al. 1994; Cantu-Paz and Kamath 2003), providing perpendicular splits of the projected longitudes and latitudes. The SpODT (Spatial Oblique Decision Tree) algorithm (Gaudart et al. 2005) is a modification of the CART algorithm providing oblique splitting of the study area, which is more appropriate and accurate for spatial epidemiology. Oblique decision trees can be considered as non-parametric regression models. The functional form can be written as follows: zi = f (xi , yi ) + εi , where {xi , yi } are the planar coordinates of each point location Mi , i = 1...N , and εi ∈ R. These coordinates have to be euclidean coordinates in case of small area (e.g. hospital wards, rooms within buildings) or projections of geographical coordinates. Note that the use of non projected geographical coordinates may lead to erroneous results. The function f (xi , yi ) can be written as follows: f (xi , yi ) = P X j=1 z̄j I{Mi (xi ,yi )∈classj } where class P j , for j = 1, ...P , are the final P classes after splitting the whole study area; z̄j = N1j Mi ∈classj zi is the mean of observed values at Nj locations Mi ∈ class j. In other words, for each point location Mi belonging to a class j, the predicted risk will be zi = z̄j ± εi . The main problem is to determine the class set {classj , j = 1, ..., P }. Boundaries between classes are linear functions sj (xi , yi ) of the planar coordinates (axi + byi + c = 0). These boundaries, or splitting directions, are recursively determined for each location sample, also called node ξ, corresponding to the whole study area at the beginning of the algorithm, or corresponding to a zone (geographical class) issued from a previous split. This node ξ is split into two classes by the partition direction sj (xi , yi ). If sj (xi , yi ) < 0, then the location Mi will belong to the left ”child” class jl of the tree. If not, the location Mi will belong to the right ”child” class jr. For each node ξ constituted by a set of n(ξ) locations, the algorithm searches, among the S set of every linear functions of (xi , yi ), for the function sj (xi , yi ) such as: SSEinter (sj , ξ) = max{SSEinter } s∈S We have shown (Gaudart et al. 2005; Fichet et al. 2006) that S, the set of every linear functions splitting a finite set of points in R2 , is a finite set. There are an infinite number of lines splitting a set of points into two sub-sets. However, several lines lead to the same classification, splitting the point set identically. Therefore, the algorithm has to identify the possible lines to analyze only once each separate partition. For that purpose, the algorithm uses properties related to the order of abscissas of the points to be split, after rotation of the x-axis. Then, the algorithm performs vertical splitting of images of the x-axis for each rotation. To determine the angles of these rotations, critical angles associated to each pair of points are defined. They allow to define angular sectors within which the image of the axis preserves the order of the point abscissas. Indeed, during a rotation center O of the x-axis, the order of the point abscissas can be changed. For two points M1 and M2 , the critical angle θ12 , associated with the pair (M1 , M2 ), defines the minimum angle of rotation to be applied 4 SPODT: Spatial Partitioning to the x-axis so that points M1 and M2 have their abscissas u1 and u2 permuted (Figure 1 and Figure 2). During the passage of the x-axis image from an angular sector to the next, only the points associated to the critical angle, formed by the line delimiting the two angular sectors, have their abscissa order changed. The algorithm splits the plane perpendicularly to x-axis and x-axis images after rotations. Thus, permutations in the abscissa order scan the interval [0, π[, and characterize distinct splits that will be tested to maximize the interclass variance of the generated classes. Figure 1: Determination of the critical angle θ12 and line (red) associated to pairs (M1 , M2 ). In green: image of the x-axis before rotation and projections of point M1 (u1 ) and M2 (u2 ), before rotation. Figure 2: Determination of the critical angle θ12 and line (red) associated to pairs (M1 , M2 ). In green: image of the x-axis after rotation and projections of point M1 (u1 ) and M2 (u2 ), after rotation. After splitting the initial set into 2 classes, the algorithm continues recursively. The number P of final classes (or zones) is recursively defined by the number of terminal nodes of the regression tree, after reaching stopping criteria. A node ξ is a terminal node if one of the following criteria is reached: 1. SSEinter (sj , ξ) ≤ Rc2 × SSEtotal (ξ) ⇐⇒ Rξ2 ≤ Rc2 i.e., a new partition will not explain enough variance; where Rξ2 is the explained variance calculated over the split of a node ξ and Rc2 is the minimal explained variance (fixed by the user). 2. n(ξ) ≤ nc1 , where n(ξ) is the size of node ξ and nc1 is the fixed minimal size of a node below which the splitting algorithm is stopped (fixed by the user). 3. (n(classjl ) ≤ nc2 ) ∨ (n(classjr ) ≤ nc2 ), where classjl and classjr are the two children classes issued from the split of node ξ. The fixed value nc2 is the minimal size of children classes below which the split is rejected (fixed by the user). 4. the maximal number of tree levels (fixed by the user). Journal of Statistical Software 5 Once the oblique regression tree is obtained (partition of the entire area into spatial classes of different risk), the main feature of this model is the overall variance explained in the depen2 dent variable by the terminal classification, Rglobal , defined as the ratio of the sum of squared deviations between classes (calculated on the overall terminal classes) to the total sum of squares. This approach, defined as a general method detecting spatial clusters, can be interpreted either as a global assessment of a spatial structure, or as a local analysis producing a map of the response variable. 2.2. Program developments We have developed different R-functions for a complete analysis of spatial data, according to our method. On the basis of the basic algorithm, several extensions have been developed: • Spatio-temporal analysis: integration of splits of a time covariate. The statistical unit is then defined by planar coordinates and a date. On an unique location different values can be observed at different dates. As CART algorithm, SpODT algorithm can thus provide a spatial splitting or a temporal splitting. • Adjustments: following the same procedure, the SpODT algorithm can provide a classification of different quantitative covariates. For these covariates, the standard CART algorithm is applied (i.e., no oblique split is performed). • Gathering similar adjacent final classes: this option makes possible to gather similar adjacent classes at the end of the recursive splitting algorithm. Indeed, because of the recursiveness of the algorithm, the left branch of the tree ignores the right branch and conversely. This can lead to a final classification with similar adjacent classes, only 2 separated because of the recursion. In this approach, the global Rglobal is calculated after grafting these two adjacent classes, and this grafted new classification is kept if 2 this new global Rglobal is not sufficiently different from the previous one (without grafting classes). • Weighting the classification criterion: in the basic SpODT algorithm, the calculation of the interclass variance doesn’t take into account the child class sizes nor the spatial distribution of the locations within each child class. However, a class is all the less important in the analysis as its size is small and its locations are dispersed. We sum of squared error written as follows: P2have then developed a weighted 2 SSEjα = j=1 αj n(classj ) (z̄j − z̄) . The weight function αj has to be a continuous non-decreasing bounded function of the size n(classj ) (size of the class j ∈ 1, 2) and the spatial dispersion δj . The weight function actually proposed is written as follows: n(class ) αj = j } exp{ n(classj )+δ j n(class ) j 1 + exp{ n(classj )+δ } j where δj = det(Vj ) and Vj is the variance-covariance matrix for each class j. • Inference: a ”test” function has been developed in order to test the final SpODT classification using a Monte-Carlo approach. This test function simulates a specified 6 SPODT: Spatial Partitioning number of data sets under a specified null hypothesis conditionally to the location, and the spodt function provides a classification tree for each of the simulated data set. The 2 empirical distribution of the global Rglobal under the null hypothesis is obtained and, then, the test function provides a p-value. 3. Overview of the functions 3.1. Basic function The spodt function performs the classification of the data set. R > spodt(z ~ 1, data, weight = FALSE, graft = 0, level.max = 5, + min.parent = 10, min.child = 5, rtwo.min = 0.001) Arguments: • z ~ 1: a formula, using the formula {stats} function, with a response but no interaction terms. The left hand side has to contain a quantitative response variable (numeric). The right hand side should contain the quantitative and qualitative variables to be split according to a non oblique algorithm (e.g. z ~ V1 + V2). For single spatial analysis (with no cofactor) the right hand side should be z ~ 1. • data: a SpatialPointsDataFrame containing the coordinates and the variables. SpODT functions need planar coordinates. Geographic coordinates have to be projected. Otherwise, euclidian coordinates can be used (for small area analysis such as rooms within buildings). • weight: a logical value indicating whether the interclass variances should be weighted or not. 2 • graft: a numerical value between 0 and 1 indicating the minimal modification of Rglobal required to grafted the final classes. If graft = 0 the algorithm will not graft any adjacent classes. • level.max: the maximal level of the regression tree above which the splitting algorithm is stopped. • min.parent: the minimal size of a node below which the splitting algorithm is stopped (nc1 ). • min.child: the minimal size of the children classes below which the split is refused and the algorithm is stopped (nc2 ). • rtwo.min: Rc2 , the minimal value of Rξ2 above which the node split is refused and the algorithm is stopped. Specified as a numerical value between 0 and 1. Journal of Statistical Software 7 Value: The spodt function computes an object of class spodt with the different components of the classification tree, i.e., i) at each step: the point locations within each class, Rξ2 , coefficients 2 of the splitting line; ii) global results: the global Rglobal (object@R2), the final partition (object@partition) including the graft results. 3.2. Tree and spatial lines R > spodt.tree(object) This graphical function provides the tree issued from the spodt function. Each step of the classification is presented with main statistics. object is an object of class spodt, usually a result of a call to spodt. For graphical convenience, grafted classes are not presented but only indicated by their id number. R > spodtSpatialLines(object, data) This function provides the SpatialLines object (see the R-package sp) that contains the boundaries of the spatial classification issued from the spodt function. object is an object of class spodt, usually a result of a call to spodt. data is the initial SpatialPointsDataFrame containing the planar coordinates and the variables. The SpatialLines object obtained can be used, for example to obtain maps. 3.3. Hypothesis testing The test.spodt function provides a Monte Carlo hypothesis test of the final classification issued from the spodt function. This function performs simulations of the specified null hypothesis and the classification of each simulated data set, using the same rules as the observed data set classification. R > test.spodt(z ~ 1, data, obs.R2, rdist, par.rdist, nb.sim, + weight, graft, level.max, min.parent, min.child, rtwo.min) Arguments: • z ~ 1: a formula, such as in the spodt function, with a response but no interaction terms. The left hand side has to contain a quantitative response variable (numeric). The right hand side should contain the quantitative and qualitative variables to be split according to a non oblique algorithm (e.g. z ~ V1 + V2). For single spatial analysis (with no cofactor) the right hand side should be z ~ 1. • data: a SpatialPointsDataFrame containing the coordinates and the variables. SpODT functions need planar coordinates. Geographic coordinates have to be projected. Otherwise, euclidian coordinates can be used (for small area analysis such as rooms within buildings). 8 SPODT: Spatial Partitioning 2 • obs.R2: the global Rglobal issued from the previous spodt final classification of the observed data set. Specified as a numerical value between 0 and 1. • rdist: a description of the distribution of the dependent variable under the null hypothesis. This can be a character string naming a random generation of a specified distribution, such as "rnorm" (Gaussian distribution), "rpois" (Poisson distribution), "rbinom" (binomial distribution), "runif" (uniform distribution) ... . • par.rdist: a list of the parameters needed for the random generation, depending on the null hypothesis distribution, such as c(n, mean, sd) (Gaussian distribution), c(n, lambda) (Poisson distribution), c(n, size, prob) (binomial distribution), c(n, min, max) (uniform distribution) ... . • nb.sim: the number of simulations, specified as a positive integer. • weight, graft, level.max, min.parent, min.child, rtwo.min: these arguments have to be specified, similarly to the previous spodt classification of the observed data set. Value: The test.spodt function computes classification trees for the simulated data sets. It pro2 empirical distribution under the null hypothesis, compared to the vides the global Rglobal/H0 2 observed global Rglobal , and a p-value. 4. Data examples 4.1. Clustering malaria episodes (Bandiagara, Mali) Malaria parasite transmission and clinical disease are characterized by important microgeographic variations, often between adjacent villages, households or families (Greenwood 1989; Carter et al. 2000; Gaudart et al. 2006a). This local heterogeneity is driven by a variety of factors including distance to breeding sites, housing constructions and socio-behavioral characteristics (Koram et al. 1995; Coleman et al. 2009; Ernst et al. 2009). The study was conducted in Bandiagara, Mali, following a cohort of 300 children, at 168 locations. The household of each child was geo-located (decimal degrees). Approval from Institutional review boards at the Faculty of Medicine, Pharmacy and Dentistry of the University of Mali, community approval and written informed consents from parents were obtained before inclusion (see Coulibaly et al. 2013, for further details). We applied SPODT functions to classify the entire area into different risk zones with homogeneous number of malaria episodes per child at each household, from November to December 2009. We used the spodt function to provide a spatial classification of the study site, with no covariates, with a weighted classification criterion, 7 tree levels, a minimal parent size of nc1 = 25, a minimal child size of 2 nc2 = 2, and with a minimal Rc2 = 0.01. We also used the grafting option (minimal Rglobal improvement of 0.13). After projection, the function can be written as follows, and results were obtained in 0.53 seconds: 9 Journal of Statistical Software R R R R + R + > > > > data("dataMALARIA") coordinates(dataMALARIA) <- c("x", "y") proj4string(dataMALARIA) <- "+proj=longlat +datum=WGS84 +ellps=WGS84" dataMALARIA <- spTransform(dataMALARIA, CRS("+proj=merc +datum=WGS84 +ellps=WGS84")) > spodt.results <- spodt(z ~ 1, data = dataMALARIA, graft = 0.13, level.max = 7, min.parent = 25, min.child = 2, rtwo.min = 0.01) Graft number 1 2 3 4 5 6 id class1 55 104 12 108 53 7 id class2 105 111 113 115 117 119 id class∗12 111 113 115 117 119 121 Table 1: Grafting classes, malaria episodes. ∗ class12 = class1 ∪ class2 . The tree (Figure 4.1) and the map (Figure 4.1) were obtained by the following R-codes: R R R R > > > > spodt.tree(spodt.results) SSL.result <- spodtSpatialLines(spodt.results, dataMALARIA) plot(SSL.result) points(dataMALARIA, cex = log(dataMALARIA@data$z*10)) The non-grafted tree (Figure 4.1) showed 12 final classes with different risks before grafting (Figure 4.1). Adjacent classes were grafted according to the graft criteria described in Ta2 = 0.49 (given by R > spodt.results@R2). ble 4.1, which finally provides 6 classes, with Rglobal This result shows that spatial variations can explain an important part of the malaria risk variability, although other factors remain such as behaviors, genetic, personal medical history, household characteristics etc. The spatial classification (Figure 4.1) highlighted a central low risk cluster (class id 109) with a mean malaria episode of 0.08 per child (95% confidence interval, CI[0.04-0.11]) (Table 4.1), with a polygonal and asymmetric shape. Around this low risk cluster, the mean malaria episodes per child was higher (0.47 [0.39-0.55]). Note that there is a pond in the north of the city and a river in the south, which are breeding sites for malaria transmission mosquitoes (Coulibaly et al. 2013). The remaining zone showed an alternation of high and low risk clusters. 10 SPODT: Spatial Partitioning Figure 3: Classification tree (spodt.tree(object)) of malaria episodes in Bandiagara, Mali. This classification was obtained by using the SPODT package. Each node (excluding terminal nodes) is presented with its id number, mean, variance and local Rξ2 after splitting, as well as the function of the splitting line. Each terminal node is presented with its id number, number of locations, mean and variance. Figure 4: Mapping of the SpODT classification (spodtSpatialLines(object, data)). Each location (circles) is presented according to its projected coordinates.The lines represent the borders of each class. The circle size represents the mean number of malaria episodes at each location. Journal of Statistical Software Figure 5: Testing of the classification (test.spodt(object)). 2 The histogram of the Rglobal/H0 obtained after 99 simulations, is presented 2 together with the observed Rglobal (red line). Figure 6: Mapping of the SpODT classification (spodtSpatialLines(object, data)) with no graft option. 11 12 SPODT: Spatial Partitioning The test of the tree algorithm was performed using 99 simulated samples following a Poisson distribution and with the same criteria as previously, such as follows (results were obtained in 28.46 seconds): R > test.spodt(z ~ 1, data = dataMALARIA, spodt.results@R2, "rpois", + c(length(dataMALARIA@data$loc), mean(dataMALARIA@data$z)), 99, + weight = TRUE, graft = 0.13, level.max = 7, min.parent = 25, + min.child = 2, rtwo.min = 0.01) With a p-value of 0.01, the classification obtained by the spodt function was significantly different from a homogeneous spatial distribution of malaria episodes (Figure 4.1). Among the different tuning parameters of the spodt function, level.max, min.parent, min.child and rtwo.min are similar to those of the tree package, and have to be chosen similarly to CART approaches. In the SPODT package, as we have introduced a gathering option, a graft tuning parameter has been added. In order to assess the sensitivity of the SpODT algorithm to this option, we ran it with different values of graft ranging from 0.0 to 1 (with a step of 0.001), the other tuning parameters being fixed as previously. We also assessed the sensitivity of the SpODT algorithm to rtwo.min values, running the algorithm with values ranging from 0.0 to 1 (with a step of 0.001), the other tuning parameters being fixed as previously (graft = 0.13). Final class id 5 8 18 19 109 121 Global Location count 6 4 20 7 52 79 168 Mean[95%CI]* 1.92 [1.77-2.07] 1.58 [1.14-2.03] 0.69 [0.49-0.89] 0 0.08 [0.04-0.11] 0.47 [0.39-0.55] 0.43 [0.37-0.50] Table 2: Mean malaria episodes per child, SpODT classification. *95% CI: 95% confidence intervals. Journal of Statistical Software graft 0.0-0.047 0.047-0.062 0.062-0.103 0.103-0.105 0.105-0.123 0.123-0.154 0.154-0.190 0.190-0.270 0.270-0.426 0.426-1.0 2 Rglobal 0.601 0.596 0.585 0.565 0.535 0.494 0.489 0.403 0.359 0.003 Number of classes 12 11 10 8 7 6 5 4 3 2 Table 3: Tuning parameter of the spodt function: the graft option. min.parent = 25; min.child = 7; rtwo.min = 0.01. rtwo.min 0.0-0.068 0.068-0.149 0.149-1.0 2 Rglobal 0.494 0.408 0 13 level.max = 7; Number of classes 6 5 1 Table 4: Tuning parameter of the spodt function: the rtwo.min option. level.max = 7; min.parent = 25; min.child = 7; graft = 0.13. Figure 7: Classification tree (plot.tree(object)) of malaria episodes in Bandiagara, Mali. This classification was obtained by using the tree package. Figure 8: Mapping of the CART classification (partition.tree(object)). Each location is presented according to its coordinates and the circle size represents the mean number of malaria episodes. The lines represent the borders of each class. 14 SPODT: Spatial Partitioning 2 The Rglobal obtained ranged from 0.6 (12 final classes) to 0.003 (2 final classes), showing a step decrease of the number of classes (Table 4.1) when graft increased. When rtwo.min increased, the algorithm stopped rapidly with no classification (Table 4.1). Choice of the tuning parameters has thus to be made between no classes and too many classes, such as for CART approaches. From a practical point of view, together with field knowledge, the number 2 of final classes, the Rglobal and the test procedure provided by this package can guide the user in this choice. Note that the choice of a deep tree will be corrected by the graft parameter. The results were compared to the CART approach, using the tree package, tuning parameters being set as follows: mincut = 5, minsize = 10, mindev = 0.01. The CART approach showed a less accurate classification with 16 final classes (Table 4.1 and Figure 7). A central low risk cluster was also detected (class id 27) as well as the alternation of high and low risk clusters in the South, but this approach failed to detect the polygonal shape and to gather similar adjacent classes (Figure 8). From an epidemiological point of view, numerous small classes is not very useful in this context. Note that changes in the tuning parameters did not change the global interpretation of the results. In the case of a greater mindev value (e.g. > 0.0134), the central low risk cluster was not detected (data not shown). Final class id 3 4 7 10 11 13 14 20 22 23 24 25 27 29 30 31 Global Location count 13 5 5 6 8 5 12 14 5 7 12 5 50 9 5 7 168 Mean[95%CI]* 1.24 [0.87-1.6] 0.3 [0-0.69] 1.0 [0.38-1.62] 0.0 0.75 [0.11-1.39] 1.0 [0.38-1.62] 0.59 [0.35-0.84] 0.21 [0.02-0.4] 1.0 [0.38-1.62] 0.39 [0.03-0.76] 0.07 [0-0.16] 0.73 [0.51-0.96] 0.12 [0.05-0.19] 0.56 [0.25-0.86] 0.1 [0-0.3] 0.71 [0.2-1.23] 0.43 [0.37-0.50] Table 5: Mean malaria episodes per child, CART classification. *95% CI: 95% confidence intervals. Journal of Statistical Software 15 4.2. Different cluster shapes and levels We assessed the SPODT functions analyzing three different situations, and in comparison to the CART algorithm (tree package). The following situations have been studied: • Clustered data with a high level within a centered rotated square, and a low level outside. • Clustered data with a low level inside a centered ball shape, and a high level outside. • Clustered data with a high level under a ”V” shape border, and a low level above. For each situation, samples (n = 300) were provided: • Planar coordinates following a uniform distribution (1, −1). • A dependent variable following a Gaussian distribution with a constant variance (0.09) and a constant mean for the two level zones: µ1 = 1 for the low level zone, µ2 = 1 + β for the high level zone. For each situation, we used four samples: β = 0 (no cluster), β = 0.5, β = 1.5 and β = 2. As planar coordinates were used, no projection were applyed to the SpatialPointsDataFrame. This provides a warning message when using spodt and test.spodt functions. For both SpODT and CART approaches, default tuning parameters were used, except for graft = 0.2 (SpODT algorithm). Changing these parameters did not greatly change the interpretation of the comparisons. Whathever the shape was, the SpODT algorithm did not show any significant cluster for β = 0 (Figures 9, 12, 15, β = 0 panels). A contrario, the CART algorithm split the spatial area even with no cluster (Figures 10, 13, 16, β = 0 panels). According to the spodt test procedure, SpODT classes showed no significant classification for β = 0, and then progressively significant results as β increased (Figures 11, 14, 17). • Rotated square shape situation: the SpODT algorithm did show the central cluster even for low values in the high level cluster (Figure 9, β = 0.5, β = 1.5 and β = 2 panels). But the obtained shape was only approximatively a rotated square. A contrario, the shape obtained with the CART algorithm was accurate only for higher values (β = 2), but showed no rotated square (Figure 10). • Ball shape situation: the SpODT and the CART algorithms failed to precisely detect this particular form, but precisely located square clusters (Figures 12, 13, β = 0.5, β = 1.5 and β = 2 panels). Again, CART failed to detect only two levels: it detected few classes in the high level zone only for β = 2. • ”V” shape border: The SpODT algorithm detected a very accurate border even for low values in the high level zone (β = 0.5). The CART algorithm failed to detect such a particular shape. Nevertheless, it showed lower values in the north, higher values in the south, and a mitigate central band (with numerous different classes). 16 SPODT: Spatial Partitioning Figure 9: Rotated square situation: Mapping of the SpODT classification. Figure 11: Rotated square situation: Testing of the SpODT classification. Figure 10: Rotated square situation: Mapping of the CART classification. Journal of Statistical Software Figure 12: Ball shape situation: Mapping of the SpODT classification. Figure 14: Ball shape situation: Testing of the SpODT classification. 17 Figure 13: Ball shape situation: Mapping of the CART classification. 18 SPODT: Spatial Partitioning Figure 15: ”V” shape border situation: Mapping of the SpODT classification. Figure 17: ”V” shape border situation: Testing of the SpODT classification. Figure 16: ”V” shape border situation: Mapping of the CART classification. Journal of Statistical Software 19 4.3. Spatial partition with a time covariate A sample was build that concatenates 6 different situations: 2 rotated square situations (β = 2 and β = 1.5), 2 ”no cluster” situations (β = 0), and two ”V” shape situations (β = 2 and β = 1.5), which thus form a numeric time covariate (1 unit of time up to 6). The spodt function was used to provide a classification of the area, including this time covariate, with a weighted classification criteria, a maximum of 5 tree levels, a minimal parent size of nc1 = 10, a minimal child size of nc2 = 5, a minimal Rc2 = 0.001, and a grafting option of graf t = 0.2. The function can be written as follows: R > data("dataCOV") R > coordinates(dataCOV) <- c("x", "y") R > spodt.results.cov <- spodt(z ~ V1, data = dataCOV, weight = TRUE, + graft = 0.2, level.max = 5, min.parent = 10, min.child = 5, + rtwo.min = 0.001) The non-grafted tree (Figure 20), provided by the SpODT algorithm, showed 16 final classes, with 2 time splits: less than 2 and less than 5. These 3 time periods was related to 3 situations: rotated square with high values (β = 2), ”no cluster” or rotated square with medium values(β = 1.5), and ”V” shape situation (β = 1.5 and β = 2). The graft option led to two main classes (Figure 18), a high level zone in the South and a low level zone in the north, which highlight the impact of the ”V” shape situation in this exemple (more locations showing high values in this part of the area at this period). The CART algorithm provided a similar tree with the same time splits (Figure 19), but 15 different spatial classes. 20 SPODT: Spatial Partitioning Figure 18: Space-time situation: Mapping of the grafted-SpODT classification. Figure 19: Space-time situation: CART classification tree. Figure 20: Space-time situation: SpODT classification tree. Journal of Statistical Software 21 5. Conclusion Among the different tools used dedicated to spatial classification (e.g. (Assuncao et al. 2006; Oden et al. 1993)), the proposed SPODT R-package provides a classification of a spatial area based on the spatial variability of a dependant variable. Space splitting can be oblique and this classification can be adjusted on covariates and gather similar adjacent classes. Associated functions (spodt.tree and spodtSpatialLines) are useful for graphical representations of the classification, and the spodt.test function provides a test of the oblique decision tree algorithm. SPODT R-package is povided with a real example set of malaria cases observed in Mali. Using this set and others, SpODT detected spatial and spatio-temporal clusters more accurately than CART algorithm in all performed comparisons. 6. Acknowledgement The authors thank Dr Bernard Fichet for many valuable discussions, the reviewers and the editor for their helpful comments. This work was supported by the AMMA consortium (African Monsoon Multidisciplinary Analysis). Dr Jean Gaudart was also supported by the ADEREM association for biological and medical research development (Association pour le Developpement des Recherches biologiques et Medicales). The Malaria incidence field study (Bandiagara, Mali) was coordinated by the Malaria Research and Training Center (MRTC, Bamako, Mali), supported by cooperative agreement 5U01AI065683 from the National Institute of Allergy and Infectious Diseases and the grant D43TW001589 from the Fogarty International Center, National Institutes of Health. References Anselin L (1995). “Local Indicators of Spatial Association : LISA.” Geogr Anal, 27, 93–116. Assuncao R, Neves M, Camara G, da Costa Freitas C (2006). “Efficient regionalization techniques for socio-economic geographical units using minimum spanning trees.” Int J Geogr Inf Sci, 20(7), 797–811. Breiman L, Friedman J, Olshen R, Stone C (1993). Classification and Regression Trees. Chapman and Hall. Cantu-Paz E, Kamath C (2003). “Inducing Oblique Decision Trees with Evolutionary Algorithms.” IEEE Trans Evol Comput, 7, 54–68. Carter R, Mendis K, Roberts D (2000). “Spatial Targeting of Interventions Against Malaria.” Bull World Health Organ, 78, 1401. Chirpaz E, Colonna M, Viel J (2004). “Cluster Analysis in Geographical Epidemiology : The Use of Several Statistical Methods and Comparison of Their Results.” Rev Epidemiol Sante Publique, 52, 139–149. Coleman M, Mabuza A, Kok G, Coetzee M, Durrheim D (2009). “Using the SaTScan Method to Detect Local Malaria Clusters for Guiding Malaria Control Programs.” Malar J, 8, 68. 22 SPODT: Spatial Partitioning Colonna M, Esteve J, Menegoz F (1993). “Detection of Spatial Autocorrelation in Cancer Hazard with Hetergogeneous Population.” Rev Epidemiol Sante Publique, 41, 235–240. Coulibaly D, Travassos M, Rebaudet S, Laurens M, Tolo Y, Kone A, Traore K, Guindo A, Diarra I, Niangaly A, Daou M, Dembele A, Cissoko M, Kouriba B, Dessay N, Gaudart J, Thera M, Piarroux R, Plowe C, Doumbo O (2013). “Spatial and Temporal Patterns of Malaria Incidence in Bandiagara, Mali.” Malaria J, 12, 82. Crichton N, Hinde J, Marchini J (1997). “Models for Diagnosing Chest Pain : Is CART Helpful ?” Statist Med, 16, 717–727. Elliott P, Martuzzi M, Shaddick G (1995). “Spatial Statistical Methods in Environmental Epidemiology : A Critique.” Stat Methods Med Res, 4, 13759. Ernst K, Lindblade K, Koech D, Sumba P, Kuwuor D, John C, Wilson M (2009). “Environmental, Socio-Demographic and Behavioural Determinants of Malaria Risk in the Western Kenyan Highlands: A Case-Control Study.” Trop Med Int Health, 14, 1258–1265. Fichet B, Gaudart J, Giusiano B (2006). “Bivariate CART with Oblique Regression Trees.” In International Conference of Data Science and Classification. International Federation of Classification Societies, Ljubljana, Slovenia. Gaudart J, Poudiougou B, Dicko A, Ranque S, Sagara I, Diallo M, Diawara S, Ouattara A, Diakite M, Doumbo O (2006a). “Space-Time Clustering of Childhood Malaria at the Household Level: A Dynamic Cohort.” BMC Public Health, 6, 286. Gaudart J, Poudiougou B, Ranque S, Doumbo O (2005). “Oblique Decision Trees for Spatial Pattern Detection: Optimal Algorithm and Application to Malaria Risk.” BMC Medical Research Methodology, 5, 22. Gaudart J, Ramatriravo N, Giusiano B (2006b). “Spatial Pattern Detection: Power Evaluation of Scan Methods and Regression Trees.” Rev Epidemiol Sante Publique, 54(HS2), 31. Gey S (2002). Bornes de Risque, Detection de Ruptures Boosting : Trois Themes Statistiques Autour de CART en Regression. Ph.D. thesis, University of Paris XI, Paris, France. Greenwood B (1989). “The Microepidemiology of Malaria and its Importance to Malaria Control.” Trans R Soc Trop Med Hyg, 83, 25–29. Gregorio D, Samociuk H, DeChello L, Swede H (2006). “Effects of Study Area Size on Geographic Characterizations of Health Events: Prostate Cancer Incidence in Southern New England, USA, 1994–1998.” Int J Health Geogr, 5, 8. Koram K, Bennett S, Adiamah J, Greenwood B (1995). “Socio-Economic Risk Factors for Malaria in a Peri-Urban Area of The Gambia.” Trans R Soc Trop Med Hyg, 89, 146–150. Kulldorff M (1997). “A Spatial Scan Statistic.” Commun Stat Theory and Methods, 26, 1481–1496. Murthy S, Kasif M, Salzberg S (1994). “A System for Induction of Oblique Decision Trees.” J Artif Intell Res, 2(1-32). 23 Journal of Statistical Software Oden N, Sokal R, Fortin M, Goebl H (1993). “Categorical Wombling: Detecting Regions of Significant Change in Spatially Located Categorical Variables.” Geogr Anal, 25(4), 315–336. Tango T (2002). “Score Tests for Detecting Excess Risks Around Putative Sources.” Statist Med, 21, 497–514. Tiefeldorf M (2002). “The Saddlepoint Approximation of Moran’s I and Mocal Moran’s I ’s Reference Distribution and their Numerical Evaluation.” Geogr Anal, 34, 187–206. Wakefield J, Quinn M, Rabb G (2001). “Disease Clusters and Ecological Studies.” J R Stat Soc [Ser A], 164, 1–2. Waller L, Gotway C (2004). Applied Spatial Statistics for Public Health Data. John Wiley & Sons, Hoboken New Jersey. Affiliation: Jean Gaudart Aix-Marseille University UMR912 SESSTIM (INSERM IRD AMU) Faculty of Medicine 27 Bd Jean Moulin 13005 Marseille, France E-mail: [email protected] URL: http://www.sesstim-orspaca.org Journal of Statistical Software published by the American Statistical Association Volume VV, Issue II MMMMMM YYYY http://www.jstatsoft.org/ http://www.amstat.org/ Submitted: yyyy-mm-dd Accepted: yyyy-mm-dd V.3 Adaptation de la méthode SpODT à la survie nette 3 Adaptation de la méthode SpODT à la survie nette L’objectif de ce travail était de proposer une méthode fournissant des clusters spatiaux pouvant contenir des patients similaires en termes de survie nette pour une période de suivi donnée sans pré-spécification de frontières ou de tailles des clusters potentiels. Nous avons adapté à l’analyse de la survie nette l’approche par arbre de décision oblique SpODT. Nous avons pour cela utilisé le test de comparaison de distributions de survie nette, dont la construction a été exposée au Chapitre IV. Cette partie de notre travail s’inscrit dans le cadre du projet DISSNET (Spatial health DISparities : method for analysis of geographic variations of NET cancer survival), coordonné par le Pr. Roch Giorgi et financé par le Cancéropôle PACA. 3.1 Idée générale L’adaptation de la méthode à la survie nette implique un autre choix pour le critère de découpage. Dans la méthode SpODT originelle, la maximisation de l’inertie interclasses s’interprétait comme la maximisation de la différence entre deux classes adjacentes. Ici, il s’agit d’avoir deux classes les plus différentes possibles en termes de survie nette. La première possibilité est de maximiser les différences de survie nette à un temps t prédéfini. Pour cela, on peut utiliser la statistique du Z-test exposé au Chapitre IV. En utilisant la maximisation de cette statistique de test comme critère de découpage, nous avons obtenu des résultats préliminaires, qui ont donné lieu à une communication orale à l’ISCB (Grafféo N, Gaudart J, NDiaye K, Giorgi R and the CENSUR working survival group. Oblique Decision Trees for Spatial Clusters Detection of Net Cancer Survival Rates. 35th annual conference of International Society for Clinical Biostatistics, Vienne (Autriche, 2014)). La seconde possibilité est de maximiser les différences de survie nette sur la période de suivi en termes de distributions. Par rapport à l’approche précédente, un test de type log-rank est préférable car il permet de prendre en compte l’information sur toute la période de suivi. Maximiser les différences entre les classes revient alors à maximiser la statistique du test exposé au Chapitre IV, sur la période d’étude, entre chaque découpage potentiel d’un secteur angulaire. C’est cette approche que nous avons privilégiée et à laquelle nous nous référerons lorsque nous emploierons l’expression SpODT « survie nette ». Notons que la greffe est réalisée si deux classes adjacentes sont similaires en termes de survie nette, c’est-à-dire lorsque l’hypothèse nulle (IV.2) du test précité n’est pas rejetée. Pour une explication détaillée de l’algorithme et du choix des découpages, on se réfèrera à l’Annexe B. 148 V.3 Adaptation de la méthode SpODT à la survie nette Reprenons, à titre illustratif, l’exemple donné en introduction et résumé par la figure V.1. Le découpage final est représenté par l’arbre de la figure V.14. Le découpage sans greffe est représenté par la figure V.15. Le découpage avec greffe (figure V.16) montre que nous retrouvons le résultat que nous attendions (cf. figure V.2). Figure V.14 – Exemple d’arbre de régression produit par l’algorithme SpODT « survie nette ». Nous avons testé les performances de la méthode SpODT « survie nette » en termes de sensibilité et de spécificité. L’étude des performances comporte deux composantes : (1) les performances de l’estimation (relatives à l’utilisation du test exposé au Chapitre IV) ; et (2) les performances purement « géométriques » de la méthode. Pour le premier point, nous avons comparé la méthode SpODT « survie nette » à la méthode SpODT « survie observée », i.e. la méthode SpODT appliquée aux données du monde hypothétique. Plus précisément, dans l’esprit des simulations du Chapitre IV où nous avions utilisé les temps et statuts du monde hypothétique où l’on ne décède que du cancer étudié, nous avons construit une version de la méthode SpODT où le critère de découpage était la maximisation de la statistique du log-rank usuel sur les données du monde hypothétique. Notons que la méthode SpODT « survie observée » ne représente pas un « gold standard », comme cela pouvait être le cas avec le log-rank appliqué aux données du monde hypothétique. En effet, on ne s’intéresse plus à la puissance du test mais à la façon dont les différentes valeurs des statistiques de test sont ordonnées. Nous avons remarqué que cela conduit à des découpages différents, sans que l’un soit obligatoirement meilleur que l’autre. En fait, les performances de la méthode « survie 149 V.3 Adaptation de la méthode SpODT à la survie nette Figure V.15 – Exemple de découpage produit par l’algorithme SpODT « survie nette » sans greffe. Figure V.16 – Exemple de découpage produit par l’algorithme SpODT « survie nette » avec greffe. nette » peuvent être considérées comme satisfaisantes lorsque les résultats produits sont proches de ceux obtenus par la méthode SpODT « survie observée ». Pour le second point, nous avons comparé les méthodes SpODT « survie observée » et CART appliquées aux données du monde hypothétique. 150 V.3 Adaptation de la méthode SpODT à la survie nette Nous présentons maintenant une étude de cas et des résultats préliminaires obtenus sur simulations. L’étude de cas correspond à une étude empirique sur des données dont nous avons contrôlé la génération selon quatre scénarios différents. Elle a été réalisée afin de comprendre le fonctionnement des trois méthodes précitées, et donc d’obtenir des éléments pour orienter notre stratégie d’analyse. Afin d’obtenir des résultats plus robustes en termes d’évaluation des performances, nous avons ensuite procédé à des études de simulations. Nous présentons dans ce manuscrit les résultats obtenus sur un seul scénario. Cette partie de notre travail a été réalisée en collaboration avec Khadim NDiaye, ingénieur d’étude recruté dans le cadre du projet DISSNET ; nous avons contribué à la direction de son travail. 3.2 Étude des performances de SpODT « survie nette » Nous avons exploré quatre formes de clusters de survie nette faible dans l’étude de cas, à savoir : (1) une bande ; (2) un disque ; (3) un « V » (que nous appelons « V-shape ») ; et (4) l’image d’un carré par rotation de centre le centre du carré et d’angle 45° (que nous appelons « rotated square ») – figures V.17, V.18, V.19 et V.20. Dans l’étude de simulations, nous avons exploré une seule forme de cluster correspondant à une bande (figure V.21). Le principe de génération des données était le même dans l’étude de cas et dans l’étude de simulations. Nous avons généré un jeu de données pour l’étude de cas (pour chaque forme de cluster étudiée) et 1050 pour l’étude de simulations : 50 pour choisir les critères d’arrêt pour les méthodes SpODT ou le paramètre de complexité pour la méthode CART ; 1000 pour l’étude de simulations à partir des paramètres précédemment choisis. 3.2.1 Principe de générations des données Le principe général était de construire un cluster de la forme souhaitée dans une grille 4×4 9 . Notre plan de génération était le suivant : 1. Choix du nombre de communes : Le cluster comportait des nombres prédéfinis de communes de tailles petites, moyennes et grandes. La zone hors-cluster 10 contenait aussi ces trois types de communes. Chaque 9. Il s’agit de coordonnées cartésiennes dans le plan. 10. La zone hors-cluster est, en fait, un cluster de survie nette élevée. Cependant, notre intérêt portant uniquement sur la détection du cluster de survie nette faible, nous nous référons à cette zone comme étant la zone hors-cluster. 151 V.3 Adaptation de la méthode SpODT à la survie nette 4 4 3 3 2 2 1 1 0 1 2 3 4 0 Figure V.17 – Bande. 4 3 3 2 2 1 1 1 2 3 2 3 4 Figure V.18 – Disque. 4 0 1 4 Figure V.19 – V-shape. 0 1 2 3 4 Figure V.20 – Rotated Square 152 V.3 Adaptation de la méthode SpODT à la survie nette 4 3 2 1 0 1 2 3 4 Figure V.21 – Bande « élargie ». cluster contenait 100 communes pour l’étude de cas et 50 communes pour l’étude de simulations. Plus précisément, nous avons généré pour l’étude de cas 20 communes dans le cluster et 80 en dehors et pour l’étude de simulations seulement 10 dans le cluster et 40 en dehors. Le nombre de communes dans les simulations a été réduit pour des raisons de temps de calcul. La répartition des communes dans et hors-cluster est décrite dans les tableaux V.2 et V.3. 2. Génération du nombre de patients : Nous avons généré, de façon aléatoire, un nombre de patients de façon à respecter la distribution imposée par la règle définie dans les tableaux V.2 et V.3. Nous avons ainsi obtenu un nombre fixe de patients dans les petites, moyennes et grandes communes dans et hors-cluster, d’où un nombre total de patients fixé. Notons cette quantité ntotal . 3. Génération des covariables : Nous avons généré pour chaque patient i (avec 1 ≤ i ≤ ntotal ) une variable sexe (avec la même proportion d’hommes et de femmes) et une variable age. La distribution de cette cette variable représentait approximativement la distribution des âges (au diagnostic) de patients atteints de cancer colorectal dans les registres français (voir, Chapitre II, section 3.1.2). 4. Génération des coordonnées : Nous avons généré des coordonnées pour chaque commune (identiques pour tous les patients d’une même commune) 11 selon la forme du cluster retenu et la distribution des communes dans et hors-cluster déterminée à l’étape (1). 5. Génération des temps de survie : 11. Il s’agissait de reproduire une situation que l’on pourrait rencontrer avec des données réelles issues d’un registre de cancer, à savoir une connaissance de la localisation géographique des patients restreinte au centroïde de leur commune de résidence. 153 V.3 Adaptation de la méthode SpODT à la survie nette Nous avons généré des temps de survie suivant la méthode exposée au Chapitre III (section 3.1.2). Afin de simuler une survie nette plus faible à l’intérieur du cluster, nous avons introduit une covariable binaire cluster représentant l’appartenance au cluster. Nous avons fixé βcluster = ln(2) : un individu hors cluster a donc deux fois moins de chance de décéder du cancer (les autres causes de décès étant éliminées) qu’un individu du cluster ayant les mêmes caractéristiques. Nous avons également introduit un effet de l’âge et un effet du sexe sur la mortalité en excès : βage = ln(1, 03), βsexe = ln(2). De plus, nous avons généré les temps et statuts du monde hypothétique où l’on ne pourrait décéder que du cancer étudié, comme cela a été fait dans le Chapitre IV (section 2.1.3). Taille Nombre dans Petite 3 Moyenne 4 Grande 3 Total 10 Communes Patients le cluster Nombre hors-cluster Nombre par commune 17 entre 10 et 30 16 entre 31 et 50 7 entre 51 et 100 40 Tableau V.2 – Répartiton du nombre de communes de petites, moyennes et grandes tailles dans et hors-cluster dans l’étude de cas. Taille Communes Nombre dans le cluster Nombre Petite 5 Moyenne 10 Grande 5 Total 20 Patients hors-cluster Nombre par commune 25 entre 10 et 30 30 entre 31 et 50 25 entre 51 et 100 80 Tableau V.3 – Répartiton du nombre de communes de petites, moyennes et grandes tailles dans et hors-cluster dans l’étude de simulations. 3.2.2 Choix des critères d’arrêt et du paramètre de complexité Pour chaque forme de cluster, nous avons comparé les méthodes : (1) SpODT « survie nette » ; (2) SpODT « survie observée » (sur données du monde hypothétique) ; et (3) CART (sur données du monde hypothétique). Notons qu’à ce jour et à notre connaissance, les méthodes de détection de clusters ne bénéficient d’aucune recommandation méthodologique, aussi bien dans le schéma des simulations que dans la mesure des performances. Nous avons choisi de nous intéresser aux quantités suivantes : 154 V.3 Adaptation de la méthode SpODT à la survie nette – les vrais positifs (VP) qui représentent le nombre de communes appartenant au cluster simulé (construit dans l’étape de génération) et au cluster détecté par la méthode de découpage ; – les faux positifs (FP) qui représentent le nombre de communes n’appartenant pas au cluster simulé mais appartenant au cluster détecté ; – les faux négatifs (FN) qui représentent le nombre de communes appartenant au cluster simulé mais n’appartenant pas au au cluster détecté ; – les vrais négatifs (VN) qui représentent le nombre de communes n’appartenant ni au cluster simulé ni au cluster détecté ; – la sensibilité, ou la probabilité qu’une commune appartienne au cluster détecté si elle est VP ; dans le cluster simulé. Elle est donnée par V P + FN – la spécificité, ou la probabilité qu’une commune n’appartienne pas au cluster détecté si VN elle n’est pas dans le cluster simulé. Elle est donnée par ; V N + FP FP + FN – le taux d’erreur, i.e. la proportion de mal classés. Il est donné par . V P + FP + FN + V N Le cluster détecté était choisi comme celui contenant le plus de VP. En cas d’égalité pour les VP, le cluster choisi était celui qui contenait le moins de FP. Pour chacune des méthodes, nous avons choisi les paramètres (critères d’arrêt pour les méthodes SpODT ou paramètre de complexité pour la méthode CART) permettant d’obtenir les meilleurs découpages en termes de sensibilité (puis de spécificité en cas d’égalité pour la sensibilité). Les critères d’arrêt retenus pour les méthodes SpODT « survie observée » et SpODT « survie nette » sont de la forme (p1 , p2 , p3 ) où p1 désigne la profondeur maximale de l’arbre, p2 la taille minimale d’un nœud père et p3 la taille minimale d’un nœud fils. Le paramètre à déterminer pour la méthode CART était le paramètre de complexité CP (défini dans la section 1.3). Pour les méthodes SpODT, nous avons considéré 440 combinaisons (p1 , p2 , p3 ) où : – la profondeur, p1 , pouvait varier de 3 à 10 ; – la taille minimale du nœud fils, p3 , pouvait varier de 1 à 10 ; – la taille minimale du nœud père, p2 , pouvait varier de p3 à 10. L’absence de découpage aurait pu être interprétée comme la détection d’un seul cluster impliquant une sensibilité de 100%. En l’absence de recommandations méthodologiques, nous avons choisi de pénaliser l’absence de découpage en considérant qu’elle correspondait à une sensibilité 155 V.3 Adaptation de la méthode SpODT à la survie nette nulle. Par conséquent, nous n’avons pas retenu les paramètres pour lesquels il y a eu absence de découpage. 3.2.3 Méthodes de lecture d’un arbre Méthode de lecture d’un arbre issu des méthodes SpODT Chaque nœud contient : – le nombre de patients ; – le nombre de communes ; – l’équation de la droite de découpage ; – la statistique de test maximale retenue (qui a conduit à ce découpage). Chaque feuille contient : – l’identifiant de la feuille ; – le nombre de patients ; – le nombre de communes. Méthode de lecture d’un arbre issu de la méthode CART Chaque nœud indique l’équation de la droite de découpage. Chaque feuille contient le taux représentant le nombre d’évènements sur le nombre de personnes à risque et le risque relatif de la feuille par rapport au nœud racine. 3.2.4 Résultats de l’étude de cas Nous présentons ici les résultats de l’étude de cas par forme de cluster étudié. Notons que dans toutes les cartes, nous avons représenté le cluster simulé par une bordure rouge et les découpages résultant de chacune des trois méthodes par des segments blancs. Bande Les paramètres retenus étaient : – pour SpODT « survie nette » : (p1 , p2 , p3 ) = (3, 1, 1); – pour SpODT « survie observée » : (p1 , p2 , p3 ) = (3, 10, 10); – pour CART : CP = 0,002. Les résultats obtenus par les trois méthodes sont représentés graphiquement par les figures V.22, V.23 et V.24. Ici, même si les méthodes SpODT « survie nette » et SpODT « survie observée » sur données du monde hypothétique produisaient des statistiques de test différentes, elles aboutissaient au même découpage. En matière de performances, le tableau V.4 montre 156 V.3 Adaptation de la méthode SpODT à la survie nette que, pour cette forme de cluster, la méthode SpODT « survie observée » était meilleure que la méthode CART puisqu’elle détectait toutes les communes du cluster simulé et ne produisait qu’un seul FP. Plus précisément, la méthode CART produisait des sensibilité et spécificité quasiment réduites de moitié par rapport à la méthode SpODT « survie observée ». Cela met en évidence l’intérêt d’un découpage oblique quand la forme du cluster est une bande. Nous pouvons remarquer que les trois méthodes détectaient d’autres clusters que celui simulé. En effet, puisque nous avons généré les temps de survie à partir d’un modèle multivarié avec des effets des variables age et sexe sur la mortalité en excès, les variations de mortalité ne sont pas dues au seul fait de l’appartenance ou non au cluster. L’aléa dû à l’âge et au sexe n’a pas été pris en compte car la méthode SpODT « survie nette » est en phase de développement et n’offre pas encore la possibilité d’ajuster sur des covariables. Le tableau V.4 montre aussi un problème majeur dans l’implémentation de SpODT « survie nette » concernant les temps de calcul 12 . En effet, si le temps relatif à la méthode SpODT « survie observée » pouvait sembler raisonnable (2,8 minutes), son exécution était toutefois 1783 fois plus lente que celle de la méthode CART. L’utilisation du test développé au Chapitre IV a ralenti considérablement l’algorithme avec un temps de calcul de plus de 3 heures. Ce problème a été observé dans l’ensemble des études de cas. Méthode Sensibilité (%) SpODT « survie nette » 100 SpODT « survie observée » 100 CART 55 Spécificité FP FN (%) 98,75 1 0 98,75 1 0 42,50 46 9 Taux Temps de calcul d’erreur (secondes) 0,01 11451,83 0,01 124,80 0,55 0,07 Tableau V.4 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est une bande. Disque Les paramètres retenus étaient : – pour SpODT « survie nette » : (p1 , p2 , p3 ) = (5, 1, 1); – pour SpODT « survie observée » : (p1 , p2 , p3 ) = (5, 1, 1); – pour CART : CP = 0,002. Les résultats obtenus par les trois méthodes sont représentés graphiquement par les figures V.25, V.26 et V.27. On peut noter que la méthode SpODT « survie nette » produisait de bons résultats : les sensibilité et spécificité obtenues étaient très proches de celles obtenues par la 12. R 3.0.3, Windows 7 Professionnel, Intel® Core TM i7-4770 CPU @ 3.40 GHz, 64-bit, RAM 16.0 Go 157 V.3 Adaptation de la méthode SpODT à la survie nette Figure V.22 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (3, 1, 1) lorsque le cluster est une bande. Figure V.23 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (3, 10, 10) lorsque le cluster est une bande. Figure V.24 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,002 lorsque le cluster est une bande. 158 V.3 Adaptation de la méthode SpODT à la survie nette méthode SpODT « survie observée » sur les données du monde hypothétique. C’est un résultat que nous avons retrouvé dans les deux études de cas suivantes. Le tableau V.5 montre que, pour cette forme de cluster, les performances de la méthode CART sont similaires à celles de la méthode SpODT « survie observée ». Ainsi, la possibilité de découper de façon oblique n’a pas amélioré les résultats. Cela peut s’expliquer par une faible densité des communes qui ne permettait pas d’obtenir une forme circulaire dans la représentation graphique des points. Méthode Sensibilité (%) SpODT « survie nette » 85 SpODT « survie observée » 90 CART 90 Spécificité FP FN (%) 95 4 3 98,75 1 2 100 0 2 Taux Temps de calcul d’erreur (secondes) 0,07 11925,71 0,03 142,90 0,02 0,05 Tableau V.5 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est un disque. V-shape Les paramètres retenus étaient : – pour SpODT « survie nette » : (p1 , p2 , p3 ) = (4, 1, 1); – pour SpODT « survie observée » : (p1 , p2 , p3 ) = (4, 1, 1); – pour CART : CP = 0,01. Les résultats obtenus par les trois méthodes sont représentés graphiquement par les figures V.28, V.29 et V.30. En matière de performances, le tableau V.6 montre que, pour cette forme de cluster, la méthode SpODT « survie observée » était meilleure que la méthode CART puisqu’elle détectait toutes les communes du cluster simulé et ne prenaient qu’un FP lorsque la méthode CART en prenait 9. Ces résultats mettent en évidence l’intérêt du découpage oblique pour cette forme de cluster. Méthode Sensibilité (%) SpODT « survie nette » 90 SpODT « survie observée » 95 CART 55 Spécificité FP FN (%) 100 0 2 100 0 1 100 0 9 Taux Temps de calcul d’erreur (secondes) 0,02 18780,92 0,01 217,49 0,09 0,07 Tableau V.6 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est un V-shape. 159 V.3 Adaptation de la méthode SpODT à la survie nette Figure V.25 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (5, 1, 1) lorsque le cluster est un disque. Figure V.26 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (5, 1, 1) lorsque le cluster est un disque. Figure V.27 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,002 160 lorsque le cluster est un disque. V.3 Adaptation de la méthode SpODT à la survie nette Figure V.28 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (4, 1, 1) lorsque le cluster est un V-shape. Figure V.29 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (4, 1, 1) lorsque le cluster est un V-shape. Figure V.30 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,01 lorsque le cluster est un V-shape. 161 V.3 Adaptation de la méthode SpODT à la survie nette Rotated square Les paramètres retenus étaient : – pour SpODT « survie nette » : (p1 , p2 , p3 ) = (5, 1, 1); – pour SpODT « survie observée » : (p1 , p2 , p3 ) = (5, 1, 1); – pour CART : CP = 0,004. Les résultats obtenus par les trois méthodes sont représentés graphiquement par les figures V.31, V.32 et V.33. En matière de performances, le tableau V.7 montre que, pour cette forme de cluster, la méthode CART avait une meilleure sensibilité que la méthode SpODT « survie observée » mais lorsque nous regardons le taux d’erreur, cette dernière était un peu meilleure. Tout comme pour le disque, la possibilité d’avoir des découpages obliques n’a pas amélioré les performances. Cela peut encore s’expliquer par une trop faible densité des communes. Méthode Sensibilité (%) SpODT « survie nette » 90 SpODT « survie observée » 90 CART 95 Spécificité FP FN (%) 100 0 2 100 0 2 96,25 3 1 Taux Temps de calcul d’erreur (secondes) 0,02 12800,12 0,02 151,13 0,04 0,05 Tableau V.7 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster est un rotated square. 162 V.3 Adaptation de la méthode SpODT à la survie nette Figure V.31 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec paramètres (5, 1, 1) lorsque le cluster est un rotated square. Figure V.32 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (5, 1, 1) lorsque le cluster est un rotated square. Figure V.33 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,004 lorsque le cluster est un rotated square. 163 V.3 Adaptation de la méthode SpODT à la survie nette 3.2.5 Résultats de l’étude de simulations Choix des critères d’arrêt et du paramètre de complexité Pour la méthode SpODT « survie nette », le tableau C.1 en Annexe C, dont un extrait est donné dans le tableau V.8, montrait que sur 50 simulations la plus grande sensibilité (91,4%) était obtenue avec les critères d’arrêt (p1 , p2 , p3 ) égaux à (4, 10, 10), (5, 10, 10), (6, 10, 10), (7, 10, 10) et (8, 10, 10). Augmenter la profondeur n’impactait pas les résultats lorsque p2 = p3 = 10. Ainsi, nous avons retenu la combinaison (4, 10, 10). Critères d’arrêt Sensibilité 3_10_10 4_10_10 5_10_10 6_10_10 7_10_10 8_10_10 0,904 0,914 0,914 0,914 0,914 0,914 Spécificité Moyenne FP 0,8945 4,22 0,9075 3,70 0,9075 3,70 0,9075 3,70 0,9075 3,70 0,9075 3,70 Moyenne FN 0,96 0,86 0,86 0,86 0,86 0,86 Moyenne Taux d’erreur 0,1036 0,0912 0,0912 0,0912 0,0912 0,0912 Tableau V.8 – Choix des meilleurs paramètres (extrait) pour la méthode SpODT « survie nette » sur 50 jeux de données pour un cluster de la forme d’une bande. Pour la méthode SpODT « survie observée » sur données du monde hypothétique, nous avons aussi retenu la combinaison (4, 10, 10). Nous montrons un extrait de cette recherche dans le tableau V.9. Critères d’arrêt Sensibilité 3_10_10 4_10_10 5_10_10 6_10_10 7_10_10 8_10_10 9_10_10 10_10_10 0,836 0,880 0,880 0,880 0,880 0,880 0,880 0,880 Spécificité Moyenne FP 0,9245 3,02 0,9075 3,70 0,9075 3,70 0,9075 3,70 0,9075 3,70 0,9075 3,70 0,9075 3,70 0,9075 3,70 Moyenne FN 1,64 1,20 1,20 1,20 1,20 1,20 1,20 1,20 Moyenne Taux d’erreur 0,0932 0,0980 0,0980 0,0980 0,0980 0,0980 0,0980 0,0980 Tableau V.9 – Choix des meilleurs paramètres (extrait) parmi 440 combinaisons pour la méthode SpODT « survie observée » sur 50 jeux de données pour un cluster de la forme d’une bande. La recherche des paramètres a montré que, pour de nombreux paramètres de complexité, il 164 V.3 Adaptation de la méthode SpODT à la survie nette n’y avait pas de découpage (voir tableau V.10) 13 . Pour la méthode CART, le meilleur paramètre était CP = 0, 002. CP Sensibilité 0,001 0,002 0,003 0,004 0,005 0,006 0,007 0,008 0,009 0,010 0,011 0,012 0,013 0,015 0,016 0,470 0,502 0,542 0,594 0,410 0,268 0,242 0,188 0,094 0,058 0,046 0,046 0,034 0,012 0 Spécificité Moyenne FP 0,8690 0,8285 0,7605 0,6765 0,7560 0,8425 0,8510 0,8920 0,9650 0,9795 0,9780 0,9780 0,9800 0,9995 1 5,24 6,86 9,58 12,94 9,76 6,30 5,96 4,32 1,40 0,82 0,88 0,88 0,80 0,02 0 Moyenne FN 5,30 4,98 4,58 4,06 5,90 7,32 7,58 8,12 9,06 9,42 9,54 9,54 9,66 9,88 10 Moyenne Taux d’erreur 0,21 0,24 0,28 0,34 0,31 0,27 0,27 0,25 0,21 0,20 0,21 0,21 0,21 0,20 0,20 Absence de découpage) (nombre/50) 0 0 1 4 19 30 32 36 42 45 46 46 47 49 50 Tableau V.10 – Choix des meilleurs paramètres pour la méthode CART sur 50 jeux de données pour un cluster de la forme d’une bande. Simulations sur 1000 jeux de données Nous avons appliqué les trois méthodes avec les paramètres retenus à l’étape précédente sur 1000 jeux de données. Les résultats sont présentés dans le tableau V.11. Nous avons retrouvé les mêmes tendances que dans l’étude de cas. D’une part, la méthode SpODT « survie nette » produisait de bons résultats en comparaison avec la méthode SpODT « survie observée ». Plus précisément, la méthode SpODT « survie nette » était meilleure en terme de sensibilité que la méthode SpODT « survie observée » (92,36% vs. 89,23%). Cependant, le résultat était inversé pour la spécificité. Dans les deux cas, les différences étaient faibles, ce que nous avons retrouvé dans les taux d’erreur qui sont égaux. D’autre part, pour la forme de cluster étudiée (bande), la méthode CART était ici aussi mise en défaut par la méthode SpODT « survie observée ». 13. Nous n’avons pas rencontré de situation avec absence de découpage dans les simulations utilisant les méthodes SpODT. 165 V.4 Discussion Méthode Sensibilité (%) SpODT « survie nette » 92,36 SpODT « survie observée » 89,23 CART 49,16 Spécificité Moyenne (%) FP 90,39 3,84 91,28 3,49 88,61 4,56 Moyenne FN 0,76 1,08 5,08 Moyenne Taux d’erreur 0,09 0,09 0,19 Tableau V.11 – Simulations : résultats pour 1000 jeux de données en termes de performances des trois méthodes lorsque le cluster est une bande. 4 Discussion Les études de cas et les simulations ont montré que les performances de la méthode SpODT « survie nette » sont bonnes. D’une part, les résultats étaient proches de ceux obtenus par la méthode SpODT « survie observée » aussi bien dans l’étude de cas que dans l’étude de simulations. Ainsi, nous n’avons pas constaté de perte de puissance due à l’utilisation (comme critère de découpage) du test construit au Chapitre IV par rapport à celle du log-rank appliqué sur les données du monde hypothétique. D’autre part, dans l’étude de cas, l’exploration des performances « géométriques » a montré que la méthode SpODT « survie observée » avait une meilleure sensibilité et une meilleure spécificité que la méthode CART lorsque le cluster était une bande ou avait une forme en « V ». Notons que, pour les autres formes (disque et rotated square), les résultats étaient proches. Dans l’étude de cas, la dispersion des communes simulées favorisait les découpages parallèles aux axes. Par exemple, nous avons généré un cluster de survie nette faible ayant une forme de disque mais les communes ne remplissaient pas le cercle, permettant ainsi un découpage rectangulaire (voir la carte V.27). Des études sur simulations sont nécessaires pour explorer les autres formes étudiées dans l’étude de cas. Nous avons commencé ces études mais les temps de calcul sont élevés 14 . L’adaptation de la méthode SpODT à la survie nette est, à notre connaissance, la seule méthode de détection de clusters pour la survie nette. Néanmoins, des méthodes existent pour la survie brute (voir par exemple Therneau and Atkinson, 2014; Huang et al., 2007; Cook et al., 2007) et l’on peut penser qu’elles seraient adaptables à la survie nette. Par exemple, Cook et al. (2007) utilisent un modèle de Cox dans lequel, pour chaque cluster potentiel, ils intègrent une covariable binaire désignant l’appartenance au cluster. Ils testent ensuite la nullité de l’effet de cette variable sur la mortalité par un test du score. Ainsi, une piste serait d’utiliser le modèle multivarié et un test de rapport de vraisemblance pour étendre leur proposition à la survie nette. 14. Les temps de calcul nous ont amenés à utiliser le Mésocentre d’Aix-Marseille Université (https: //equipex-mesocentre.univ-amu.fr/) 166 V.4 Discussion Les simulations exposées dans le Chapitre V présentent trois limitations. La première est l’absence d’études d’autres formes géométriques. Celles similaires à l’étude de cas (disque, V-shape et rotated square) n’ont pas été présentées dans ce manuscrit 15 . En outre, il serait intéressant, par exemple, d’étudier la présence de deux clusters de même forme ayant des distributions de survie nette élevée et faible. Nous n’avons pas réalisé ce type de simulations car il serait trop complexe d’interpréter ces résultats. La deuxième limitation réside dans le temps de calcul qui est un obstacle à l’augmentation du nombre de communes 16 . En effet, l’étude pourrait être complétée par des simulations où la densité des communes serait plus élevée dans et hors-cluster afin d’avoir un cluster simulé correspondant mieux à la forme géométrique annoncée. Enfin, la troisième limitation réside dans le choix des critères d’arrêt et du paramètre de complexité : nous avons retenu ceux qui maximisaient la sensibilité (puis la spécificité en cas d’égalité). Cependant, ces choix ne reposent sur aucune recommandation. Ainsi, en l’absence de méthodologie pour étudier les performances des méthodes de détection de clusters, il serait intéressant d’appliquer des développements récents proposant de nouveaux indicateurs (Takahashi and Tango, 2006; Guttmann et al., 2013). Les auteurs proposent de remplacer la puissance usuelle (i.e. la probabilité de rejet de l’hypothèse nulle d’absence de cluster) par une puissance étendue. En effet, la puissance usuelle n’est pas toujours appropriée car elle ne mesure pas la précision dans la détection des clusters. Dans la nouvelle mesure, différents poids sont introduits afin de pénaliser les nombres de faux positifs et de faux négatifs. Nous avons choisi de greffer deux classes adjacentes lorsque l’hypothèse nulle du test construit au Chapitre IV n’est pas rejetée. Une limite potentielle de ce choix est qu’il favorise inévitablement la greffe des zones contenant des effectifs faibles. Un autre choix aurait été d’adapter à la survie nette un test d’équivalence (Wellek, 1993), pour lequel une hypothèse nulle s’écrirait : (H0 ) : sup | SE,1 (t) − SE,2 (t) | ≥ δ. t>0 Notons que ce test aurait nécessité une extension de l’étude du choix des paramètres, c’est-à-dire des critères d’arrêt de la méthode SpODT « survie nette », pour choisir la marge d’équivalence δ. Nous n’avons pas retenu ce type de test car, d’un point de vue épidémiologique, il est difficile d’interpréter des classes où les effectifs sont trop faibles. Une seconde raison est que le choix de 15. Ces résultats ont été obtenus après la rédaction du manuscrit, ils seront intégrées dans l’article - en cours de rédaction. 16. Selon l’algorithme détaillé dans l’Annexe B, pour un nœud donné et en présence de n communes, il y n(n − 1) pentes à trier, donc autant de tests à réaliser. Lorsque n = 100, l’étude de cas a montré que la a 2 méthode SpODT « survie nette » nécessitait un temps de calcul d’environ 3 heures. Dans ce contexte, étudier (par exemple) n = 400 communes avec 440 critères d’arrêt à comparer sur 50 jeux de données semble difficile. 167 V.4 Discussion δ repose sur des critères épidémiologiques difficiles à définir a priori. Une application sur données réelles est en cours de réalisation afin de compléter notre étude de cas et nos simulations. Nous avons utilisé les données du registre des cancers de l’Isère utilisées dans l’application de la méthode SpODT au cancer qui a été évoquée à la section 2.2. Des résultats préliminaires sont présentés en Annexe D. Les paramètres de la méthode SpODT « survie nette » ont été choisis en réalisant des analyses de sensibilité. Cependant, l’interprétation nécessite une collaboration étroite avec un épidémiologiste connaissant le département, tant sur des aspects spatiaux que sur des aspects en lien avec le système de soin. Ainsi, nous étudierons quels peuvent être les indicateurs permettant de mieux comprendre les clusters de survie nette, par exemple en les confrontant à une carte de clusters d’incidence ou une carte d’offres de soins. Enfin, plusieurs pistes sont envisagées pour améliorer l’algorithme sous-jacent à la méthode SpODT « survie nette » et le rendre disponible sous forme de package : 1. l’introduction d’une pondération pour pénaliser les unités spatiales de faible effectif ; 2. l’ajustement sur des variables qualitatives et quantitatives permettant d’introduire dans le découpage spatial un découpage suivant ces variables. Il serait ainsi possible d’appliquer la méthode sans puis avec ajustement sur une covariable telle que l’âge par exemple. Si un découpage spatial disparaît avec cet ajustement, nous pourrons en déduire que les différences de survie nette provenaient d’une distribution hétérogène de l’âge dans la zone étudiée ; 3. l’optimisation du code afin de diminuer le temps de calcul. Un article est en cours de rédaction pour présenter l’étude des performances par simulations et l’étude sur les données réelles. 168 Conclusion générale et perspectives Dans la recherche contre le cancer, la survie nette est un indicateur clé de l’efficacité des systèmes de soins. Concept théorique, elle représente la mortalité que l’on observerait dans un monde hypothétique où le cancer serait la seule cause possible de décès. Dans le contexte des études sur population, la cause de décès est souvent inconnue ou peu fiable. De façon générale, tous les pays n’ont pas les moyens soit techniques, soit légaux (cas de la France) de renseigner la cause de décès. En France, dans la base commune FRANCIM, l’information « cause de décès » n’est pas disponible du fait de l’anonymat des certificats de décès. Notons que le Centre d’épidémiologie sur les causes médicales de décès (CépiDc) peut fournir un codage précis de la cause initiale de décès au niveau national. On peut imaginer que ces données pourraient être appariées avec celles des registres. Cela suppose cependant un changement de cadre légal. Cependant, même avec cet appariement, lorsqu’un patient ayant un cancer décède d’une crise cardiaque, il sera toujours impossible de dire avec certitude si, par exemple, ce décès est dû aux suites d’une chimiothérapie ou non. Depuis le milieu du XXème siècle, pour pallier ce manque d’information, des méthodes ne nécessitant pas la connaissance de la cause de décès ont été proposées pour estimer cette survie nette (voir, par exemple, Berkson, 1942; Berkson and Gage, 1950; Ederer and Heise, 1959; Ederer et al., 1961; Hakulinen, 1982; Esteve et al., 1990; Giorgi et al., 2003; Lambert et al., 2005; Abrahamowicz and Mackenzie, 2007; Remontet et al., 2007; Mahboubi et al., 2011; Perme et al., 2012). Cette thèse a été motivée par la nécessité de développer des méthodes, complémentaires de celles existantes, afin de proposer des outils statistiques pouvant aider les épidémiologistes et les décideurs en Santé Publique à étudier et à améliorer la qualité de la prise en charge des patients atteints d’un cancer. La première problématique que nous avons étudiée est celle du manque d’information dans les tables de mortalité, indispensables dans les estimations de la survie nette. Nous avons vu que des méthodes existaient pour construire des tables de mortalité stratifiées sur certains facteurs 169 Conclusion générale et perspectives pronostiques. Cependant, ces méthodes reposent sur l’existence de données brutes qui ne sont pas toujours disponibles, comme c’est le cas pour l’ethnie en France. Nous avons quantifié le biais des estimations des effets des facteurs pronostiques sur la mortalité en excès lorsque des tables insuffisamment stratifiées sont utilisées. Pour cela, nous avons utilisé un modèle multivarié additif sur les taux, qui ne diffère de celui proposé par Esteve et al. (1990) que par la façon dont le taux de base en excès est modélisé. Par des études de simulations, confortées par une application sur des données réelles françaises et américaines provenant respectivement du registre des cancers digestifs de Bourgogne et de 17 registres américains du SEER (SEER Program, 2006), nous avons montré que le manque de stratification par un facteur pronostique biaise les estimations des effets de cette variable sur la mortalité en excès et, dans une moindre mesure, les estimations des effets des autres variables sur la mortalité en excès (Grafféo et al., 2012). Pour corriger ces biais, nous nous sommes intéressés à un travail de Cheuvart and Ryan (1991). Dans le cadre d’essais cliniques, les auteurs avaient introduit un paramètre additionnel dans le modèle multivarié pour permettre à la mortalité attendue chez les patients étudiés de différer de celle attendue dans la population générale. La suite de ce travail est en cours. Il a déjà permis d’étendre leur modèle en permettant à la mortalité attendue de différer de celle donnée par la table de mortalité par un paramètre dépendant des modalités de la variable manquante dans la table de mortalité. Par ailleurs, une autre piste de recherche serait la construction de tables de mortalité en France à partir d’un indicateur socio-économique tel que celui de Townsend (1987) ou celui de Pornet et al. (2012). La deuxième problématique de ce manuscrit était la construction d’un test permettant la comparaison de distributions de survie nette. Nous avons choisi d’utiliser l’estimateur PoharPerme (Perme et al., 2012) qui est un estimateur consistant de la survie nette. Cet estimateur a été adopté en France (voir, par exemple, Monnereau et al., 2013; Roche et al., 2013; Jooste et al., 2013) et suscite un grand intérêt au niveau international (voir, par exemple, Bossard et al., 2013, projet du groupe EUROCARE). Nous avons adapté un Z-test permettant ainsi la comparaison d’estimations de survie nette à un temps t prédéfini. Mais ce type de test ne prend pas en compte l’information disponible sur toute la période de suivi. Nous avons ainsi développé un test de type log-rank, en choisissant une approche par processus stochastiques. Cette approche s’est imposée comme étant la plus directe. Nous avons montré que ce test a des performances comparables à celles du log-rank usuel appliqué à des données du monde hypothétique, où l’on ne décède que du cancer. Son implémentation est envisagée : (1) dans le package relsurv de R (Pohar-Perme, 2013) en collaboration avec Maja Pohar-Perme ; et (2) dans la commande stns de Stata (Clerc-Urmes et al., 2014) en collaboration avec Michel Grzebyk. Une faiblesse de ce test est la perte de puissance constatée lors de son utilisation sur 170 Conclusion générale et perspectives des patients âgés. Une autre faiblesse réside dans le fait que lorsque les risques ne sont pas proportionnels, ce test n’est pas optimal, comme c’est le cas pour le log-rank usuel. Dans le cadre de la survie brute, pour pallier cette insuffisance, d’autres tests ont été proposés. Dans la famille des log-rank pondérés, on peut citer, par exemple, des tests qui sont puissants quand : (1) les risques ne sont pas proportionnels et que les différences entre les groupes sont précoces (i.e. lorsque les effectifs à risque sont encore grands) (Gehan, 1965) ; (2) les différences entre groupes sont petites au début et à la fin de la période de suivi et maximales entre les deux (Tarone and Ware, 1977) ; et (3) lorsque les différences sont tardives (Harrington and Fleming, 1982; Garès et al., 2014). Notons que lorsque les risques ne sont pas proportionnels, une autre possibilité est d’utiliser la version Supremum du log-rank (Gill, 1980; Eng and Kosorok, 2005). Une perspective pour la suite de ce travail est donc l’adaptation à la survie nette de l’un de ces tests. Par ailleurs, l’estimateur Pohar-Perme pourrait être utilisé dans les études sur population pour d’autres maladies, comme l’échinococcose alvéolaire (Torgerson et al., 2008; Piarroux et al., 2011) ou l’insuffisance rénale chronique. De ce fait, il pourrait être opportun d’appliquer le test que nous proposons à d’autres pathologies que le cancer ou dans le cadre des essais cliniques. La troisième problématique abordée dans nos travaux est la recherche de zones différentes en termes de survie nette. Bien qu’a priori différentes, ces deux dernières problématiques sont complémentaires en ce sens qu’elles visent toutes deux la détection de groupes/zones/régions où la survie nette serait plus faible, permettant ainsi à l’épidémiologiste de savoir où mener des investigations pour améliorer la prise en charge des patients. À cette fin, nous nous sommes intéressés à une méthode de détection de clusters qui avait été développée pour des pathologies aiguës. Nous avons ainsi été impliqués dans la création d’un package (Gaudart et al., 2014). Les programmes sous-jacents ont été améliorés afin de correspondre aux « standards » existants dans le cadre de l’analyse spatiale. Nous avons prouvé l’efficacité de l’adaptation de cette méthode à la survie nette par une étude de cas. Toutefois, des simulations complémentaires (dont certaines sont en cours) sont nécessaires pour comparer cette nouvelle méthode à d’autres. Cependant, il faut noter qu’il n’existe pas de méthodologie de référence pour l’évaluation des méthodes de détection de clusters en épidémiologie spatiale ; il s’agit d’un champ d’étude en développement (on se réfèrera notamment aux travaux de Guttmann et al., 2013). Comme nous l’avons mentionné, il est possible d’utiliser la survie nette et, de ce fait, les méthodes que nous avons mises en œuvre, pour d’autres pathologies chroniques (Torgerson et al., 2008; Piarroux et al., 2011). On peut aussi citer une étude commandée par la municipalité de Paris et effectuée par des membres du « CENSUR working survival group ». Ils ont démontré que chez les égoutiers, la mortalité en excès liée à plusieurs maladies (en particulier, le cancer 171 Conclusion générale et perspectives de l’œsophage, le cancer du poumon, les maladies chroniques du foie et toutes les maladies liées à l’alcool) augmentait avec la durée de l’emploi (Bourgkard et al., 2014). Par ailleurs, il semble naturel de se poser la question de l’intérêt de la survie nette si l’évènement d’intérêt n’est pas le décès. Par exemple, on pourrait étudier l’apparition d’une maladie dans un monde hypothétique où les autres pathologies n’existeraient pas. Dans ce cas, il faudrait disposer d’une table des risques globaux (i.e. une table de morbidité) pour modéliser ce risque non létal. Toutefois, l’intérêt clinique d’une telle analyse, qui est la première condition à ce type d’étude, reste à démontrer. Dans le cadre de nos travaux, nous nous sommes intéressés aux estimateurs de la survie nette, et plus particulièrement à l’estimateur Pohar-Perme (Perme et al., 2012). Nous avons été amenés à nous poser la question de la pertinence des autres estimateurs non paramétriques précédemment proposés (Ederer and Heise, 1959; Ederer et al., 1961; Hakulinen, 1982). Danieli et al. (2012) ont comparé par simulations les estimations obtenues par ces quatre estimateurs à la survie nette théorique. Ils ont montré que, dans la plupart des scénarios étudiés, l’estimateur Pohar-Perme était meilleur en termes de RMSE mais l’estimateur Ederer II avait des résultats assez proches. Lors d’une communication orale, Dickman and Lambert (2014a) ont proposé une adaptation d’Ederer II avec une méthode qu’ils appellent « standardisation interne ». Il serait intéressant de comprendre cette méthode et d’étudier ses performances. Dans l’attente de nouvelles informations, nous pensons qu’il est préférable d’utiliser l’estimateur Pohar-Perme. Pour conclure, tout au long de ce travail de thèse nous avons aussi été amenés à nous questionner sur le concept même de la survie nette. En effet, quel intérêt pour un patient de connaître sa probabilité de survie dans un monde qui n’existe pas ? En fait, dans le cadre d’aide à la décision, la survie nette associée aux autres causes de décès que le cancer étudié présente un intérêt, par exemple pour décider de la thérapie à suivre en fonction des avantages et des effets négatifs potentiels (Mariotto et al., 2013). Au niveau de la population, comme cela a été souligné dans ce manuscrit, la comparaison de survie nette entre plusieurs groupes revêt un intérêt particulier. Dans ce contexte, les méthodes fondées sur la survie nette sont essentielles pour étudier la qualité de la prise en charge des patients. 172 Annexe A Nous présentons ici un extrait d’un rapport national américain contenant les tables de mortalité officielles pour l’année 2009 (Arias, 2014). Nous avons vu au Chapitre III que chaque entrée de la table est une probabilité pour les vivants d’âge x de décéder avant l’âge x + 1. Notons cette probabilité q(x). Elle est calculée en supposant que les décès entre les âges x et x + 1 ont lieu à l’âge x + 1/2. On a alors : l(x) = L(x) + d(x)/2, où l(x) est le nombre de survivants à l’âge x, d(x) est le nombre de décès ayant lieu entre les âges x et x + 1 et L(x) est le nombre moyen de personnes à risque entre les âges x et x + 1. On en déduit : d(x) d(x) = . q(x) = l(x) L(x) + d(x)/2 173 Revised_Tables_2009 1 of 54 Spreadsheet version available from: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/NVSR/62_07/ Table 1. Life table for the total population: United States, 2009 Age 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 9-10 10-11 11-12 12-13 13-14 14-15 15-16 16-17 17-18 18-19 19-20 20-21 21-22 22-23 23-24 24-25 25-26 26-27 27-28 28-29 29-30 30-31 31-32 32-33 33-34 34-35 35-36 36-37 37-38 38-39 39-40 Probablity Number of dying Number dying between surviving to between ages x to x+1 age x ages x to x+1 q(x) l(x) d(x) 0.006372 100,000 637 0.000429 99,363 43 0.000288 99,320 29 0.000219 99,292 22 0.000168 99,270 17 0.000156 99,253 15 0.000139 99,238 14 0.000125 99,224 12 0.000110 99,211 11 0.000095 99,200 9 0.000085 99,191 8 0.000091 99,183 9 0.000122 99,174 12 0.000185 99,161 18 0.000268 99,143 27 0.000355 99,117 35 0.000438 99,081 43 0.000520 99,038 51 0.000600 98,986 59 0.000679 98,927 67 0.000765 98,860 76 0.000848 98,784 84 0.000911 98,701 90 0.000944 98,611 93 0.000953 98,518 94 0.000956 98,424 94 0.000963 98,330 95 0.000972 98,235 96 0.000988 98,139 97 0.001010 98,043 99 0.001038 97,943 102 0.001070 97,842 105 0.001111 97,737 109 0.001152 97,629 112 0.001202 97,516 117 0.001262 97,399 123 0.001335 97,276 130 0.001421 97,146 138 0.001522 97,008 148 0.001643 96,860 159 Person-years lived between ages x to x+1 L(x) 99,444 99,341 99,306 99,281 99,261 99,245 99,231 99,218 99,206 99,196 99,187 99,178 99,167 99,152 99,130 99,099 99,060 99,012 98,957 98,894 98,822 98,742 98,656 98,564 98,471 98,377 98,282 98,187 98,091 97,993 97,893 97,789 97,683 97,572 97,457 97,337 97,211 97,077 96,934 96,781 Source: CDC/NCHS, National Vital Statistics System, Mortality Total number of person-years Expectation lived above of life age x at age x T(x) e(x) 7,851,473 78.5 7,752,029 78.0 7,652,687 77.1 7,553,381 76.1 7,454,101 75.1 7,354,839 74.1 7,255,594 73.1 7,156,363 72.1 7,057,146 71.1 6,957,940 70.1 6,858,744 69.1 6,759,557 68.2 6,660,379 67.2 6,561,212 66.2 6,462,059 65.2 6,362,930 64.2 6,263,831 63.2 6,164,771 62.2 6,065,759 61.3 5,966,802 60.3 5,867,909 59.4 5,769,086 58.4 5,670,344 57.4 5,571,688 56.5 5,473,124 55.6 5,374,654 54.6 5,276,277 53.7 5,177,995 52.7 5,079,807 51.8 4,981,716 50.8 4,883,724 49.9 4,785,831 48.9 4,688,041 48.0 4,590,359 47.0 4,492,786 46.1 4,395,329 45.1 4,297,991 44.2 4,200,780 43.2 4,103,703 42.3 4,006,769 41.4 Revised_Tables_2009 2 of 54 Spreadsheet version available from: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/NVSR/62_07/ Table 1. Life table for the total population: United States, 2009 Age 40-41 41-42 42-43 43-44 44-45 45-46 46-47 47-48 48-49 49-50 50-51 51-52 52-53 53-54 54-55 55-56 56-57 57-58 58-59 59-60 60-61 61-62 62-63 63-64 64-65 65-66 66-67 67-68 68-69 69-70 70-71 71-72 72-73 73-74 74-75 75-76 76-77 77-78 78-79 79-80 Probablity Number of dying Number dying between surviving to between ages x to x+1 age x ages x to x+1 q(x) l(x) d(x) 0.001778 96,701 172 0.001933 96,529 187 0.002118 96,343 204 0.002332 96,139 224 0.002564 95,915 246 0.002796 95,669 267 0.003034 95,401 289 0.003297 95,112 314 0.003600 94,798 341 0.003938 94,457 372 0.004306 94,085 405 0.004682 93,680 439 0.005058 93,241 472 0.005424 92,770 503 0.005794 92,266 535 0.006186 91,732 567 0.006622 91,164 604 0.007102 90,561 643 0.007630 89,917 686 0.008205 89,231 732 0.008826 88,499 781 0.009495 87,718 833 0.010217 86,885 888 0.011010 85,997 947 0.011896 85,051 1,012 0.012923 84,039 1,086 0.014095 82,953 1,169 0.015356 81,784 1,256 0.016682 80,528 1,343 0.018072 79,184 1,431 0.019630 77,753 1,526 0.021430 76,227 1,634 0.023431 74,594 1,748 0.025763 72,846 1,877 0.028364 70,969 2,013 0.031060 68,956 2,142 0.034041 66,814 2,274 0.037491 64,540 2,420 0.041456 62,120 2,575 0.045793 59,545 2,727 Person-years lived between ages x to x+1 L(x) 96,615 96,436 96,241 96,027 95,792 95,535 95,256 94,955 94,627 94,271 93,882 93,460 93,005 92,518 91,999 91,448 90,862 90,239 89,574 88,865 88,109 87,302 86,441 85,524 84,545 83,496 82,368 81,156 79,856 78,469 76,990 75,410 73,720 71,907 69,963 67,885 65,677 63,330 60,833 58,182 Source: CDC/NCHS, National Vital Statistics System, Mortality Total number of person-years Expectation lived above of life age x at age x T(x) e(x) 3,909,988 40.4 3,813,373 39.5 3,716,937 38.6 3,620,696 37.7 3,524,670 36.7 3,428,878 35.8 3,333,343 34.9 3,238,087 34.0 3,143,132 33.2 3,048,505 32.3 2,954,234 31.4 2,860,351 30.5 2,766,891 29.7 2,673,886 28.8 2,581,368 28.0 2,489,369 27.1 2,397,921 26.3 2,307,058 25.5 2,216,819 24.7 2,127,245 23.8 2,038,380 23.0 1,950,271 22.2 1,862,969 21.4 1,776,528 20.7 1,691,004 19.9 1,606,459 19.1 1,522,963 18.4 1,440,595 17.6 1,359,439 16.9 1,279,583 16.2 1,201,114 15.4 1,124,124 14.7 1,048,714 14.1 974,994 13.4 903,087 12.7 833,124 12.1 765,239 11.5 699,562 10.8 636,232 10.2 575,400 9.7 Revised_Tables_2009 3 of 54 Spreadsheet version available from: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/NVSR/62_07/ Table 1. Life table for the total population: United States, 2009 Age 80-81 81-82 82-83 83-84 84-85 85-86 86-87 87-88 88-89 89-90 90-91 91-92 92-93 93-94 94-95 95-96 96-97 97-98 98-99 99-100 100 and over Probablity Number of dying Number dying between surviving to between ages x to x+1 age x ages x to x+1 q(x) l(x) d(x) 0.050433 56,818 2,866 0.055465 53,953 2,992 0.061442 50,960 3,131 0.068173 47,829 3,261 0.075594 44,568 3,369 0.085081 41,199 3,505 0.094567 37,694 3,565 0.104921 34,129 3,581 0.116177 30,549 3,549 0.128366 26,999 3,466 0.141504 23,534 3,330 0.155599 20,204 3,144 0.170641 17,060 2,911 0.186606 14,149 2,640 0.203453 11,509 2,341 0.221119 9,167 2,027 0.239527 7,140 1,710 0.258577 5,430 1,404 0.278157 4,026 1,120 0.298135 2,906 866 1.000000 2,040 2,040 Person-years lived between ages x to x+1 L(x) 55,385 52,456 49,395 46,199 42,884 39,447 35,912 32,339 28,774 25,267 21,869 18,632 15,604 12,829 10,338 8,154 6,285 4,728 3,466 2,473 4,785 Source: CDC/NCHS, National Vital Statistics System, Mortality Total number of person-years Expectation lived above of life age x at age x T(x) e(x) 517,218 9.1 461,833 8.6 409,376 8.0 359,982 7.5 313,783 7.0 270,899 6.6 231,452 6.1 195,541 5.7 163,202 5.3 134,428 5.0 109,161 4.6 87,293 4.3 68,661 4.0 53,056 3.7 40,228 3.5 29,890 3.3 21,736 3.0 15,451 2.8 10,724 2.7 7,258 2.5 4,785 2.3 Annexe B Dans cette annexe, nous allons décrire, à l’aide de l’exemple utilisé dans le Chapitre V, la procédure de découpage de SpODT « survie nette ». Notons que la méthode « géométrique » est la même que dans SpODT originel et que la différence provient du critère de découpage, qui est la maximisation de la statistique du test présenté dans le Chapitre IV. Rappelons cet exemple : nous supposons que nous étudions une aire géographique contenant plusieurs communes contenant chacune des patients atteints d’un cancer donné et pour lesquels nous connaissons les données de survie jusqu’à une certaine date. Cet exemple est représenté par la figure B.1. Si les localisations en rouge correspondent à des taux de survie nette faibles Figure B.1 – Exemple illustratif d’une zone géographique présentant trois communes où la survie nette est élevée. alors que les localisations en vert correspondent à des taux de survie nette élevés, la question était de savoir comment obtenir un découpage du plan séparant les localisations différentes en termes de survie nette. 177 1 Définitions préliminaires 1 Définitions préliminaires Nous reprenons ici les définitions introduites par Fichet and Gaudart (2005). L’angle critique θ16 associé aux points (M1 , M6 ) est l’angle formé par l’axe des abscisses et la perpendiculaire à la droite (M1 , M6 ) passant par l’origine. Un exemple est donné dans la figure B.2. u16 5 4 3 M6 2 M1 1 θ16 −2 0 −1 1 2 3 4 5 6 7 −1 Figure B.2 – Angle critique θ16 . Comme le montrent les figures B.3 et B.4, l’angle critique θ16 est l’angle minimal de la rotation à appliquer à l’axe des abscisses pour que les points M1 et M6 voient leurs abscisses x1 et x6 être permutées. L’angle critique θ16 est défini par la droite (u16 ). Plus précisément, chaque angle critique est défini par une droite passant par l’origine et ces droites permettent de découper le plan en plusieurs secteurs angulaires. Au sein de ces secteurs, l’ordre des abscisses est inchangé (Gaudart, 2007). L’algorithme sépare les points par des droites perpendiculaires à une droite obtenue par rotation de l’axe des abscisses. Les permutations dans l’ordre des abscisses lorsque leur axe balaye [0, π[ caractérisent les découpages distincts qu’il est possible d’obtenir et qui seront testés (par un critère dépendant de la méthode, à savoir la variance interclasses pour le SpODT originel et la statistique du test de type log-rank pour l’adaptation de SpODT à la survie nette). Nous allons détailler cela sur un exemple. 178 1 Définitions préliminaires u16 5 4 x6 3 2 M6 x1 M1 1 −2 0 −1 1 2 3 4 5 6 7 −1 Figure B.3 – Rotation de l’axe des abscisses d’angle θ inférieur à θ16 . u16 5 4 3 2 M6 1 M1 x1 x6 −2 0 −1 1 2 3 4 5 6 7 −1 Figure B.4 – Rotation de l’axe des abscisses d’angle θ supérieur à θ16 . 179 2 Application sur un exemple 2 Application sur un exemple L’algorithme dispose au départ de 8 points ordonnés de façon croissante (par rapport à leurs abscisses, puis à leurs ordonnées en cas d’égalité). Ces points sont représentés par la figure B.5. M8 M7 5 M4 4 M5 M2 3 M3 M6 2 M1 1 O −2 0 −1 1 2 3 4 5 6 7 −1 Figure B.5 – Exemple naïf : 8 points à « séparer ». Comme expliqué précédemment, nous avons donc un découpage du plan en plusieurs secteurs angulaires, comme le montre la figure B.6. M8 u36 u25 u16 u26 M7 5 u47 M4 4 M5 u27 u48 u28 M3 u13578 u24 2 u14 u12 u68 uu 3467 −2 u56 u46 M2 3 M6 1 −1 M1 0 1 2 3 4 5 6 7 u45u23−1 Figure B.6 – Découpage du plan en plusieurs secteurs angulaires. On procède à une rotation de l’axe des abscisses d’angle θ. À chaque fois que θ augmente et 180 2 Application sur un exemple dépasse un angle critique, l’ordre des projections des points sur la droite est modifié, produisant ainsi une partition du plan. Pour mieux comprendre cela, examinons le premier découpage. Avant rotation, les abscisses sont (x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 ), comme le montre la figure B.7. u47 6 u25 u16 u36 M8 u26 5 u27 u48 u28 M7 M4 4 M5 u13578 u24 3 u14 2 M2 M3 M6 u12 u68 u34 u67 1 M1 x1 −3 −2 0 −1 u56 u46 1 x2 2 x3 3 4 x8 x7 x4 x5 x6 5 6 7 −1 u45u23 Figure B.7 – Ordre des abscisses avant rotation. Le premier angle critique est θ56 , correspondant à la droite (u56 ). Quand θ dépasse θ56 , l’ordre des points projetés devient (x1 , x2 , x3 , x4 , x6 , x5 , x7 , x8 ), comme le montre la figure B.8. L’algorithme teste alors les distributions de survie nette entre deux groupes formés par les communes localisées par les points (M1 , M2 , M3 , M4 , M6 ) versus celles localisées par les points (M5 , M7 , M8 ). Il trouve une statistique de test égale à 0, 6036. L’algorithme continue ensuite en augmentant la valeur de θ et en testant les deux groupes obtenus. Dans notre exemple, la statistique maximale est obtenue avec le découpage (M8 , M7 ) versus (M6 , M5 , M4 , M3 , M2 , M1 ) et vaut 30, 7580. C’est donc ce découpage qui est retenu. En pratique, on fixe la droite obtenue par rotation comme étant la bissectrice entre la droite (uij ) qu’elle vient de « dépasser » et la suivante. Dans notre exemple, il s’agit du dernier découpage. Nous choisissons alors de fixer la droite obtenue par rotation comme étant la bissectrice entre la droite (u67 ) 1 qu’elle vient de « dépasser » et l’axe des abscisses. Pour découper le plan, nous prenons la médiatrice du segment [x7 , x6 ]. C’est la droite violette de la figure B.9. 1. Nous avons ici un cas où les droites (u34 ) et (u67 ) sont confondues. Cela vient du fait que (M3 M4 ) est parallèle à (M6 M7 ). Dans ce cas, seul est modifié l’ordre des points M3 et M4 d’une part, et M6 et M7 d’autre part. L’ordre des points des 2 sous-ensembles est conservé. 181 2 Application sur un exemple u47 6 u25 u16 u36 M8 u26 5 u27 u48 u28 M7 M4 4 M5 u13578 u24 3 u14 2 x8 M2 x7 M3 M6x5 x4x6 u12 u68 u34 u67 1 x2 x3 M1 x1 −3 −2 0 −1 u56 u46 1 2 3 4 5 6 7 −1 u45u23 Figure B.8 – Ordre des « abscisses » projetées sur l’axe des abscisses qui a subi une rotation de θ avec θ > θ16 . u47 6 u25 u16 u36 M8 u26 5 u27 u48 u28 M7 M4 4 M5 u13578 u24 3 u14 2 M2 M3 M6 u12 u68 u34 u67 −3 1 −2 0 −1 u56 u46 M1 x1 1 x2 x3 2 x4 x53 4 x 6 x7 5 x8 6 7 −1 u45u23 Figure B.9 – Premier découpage défini par la droite violette. L’algorithme passe alors à l’itération suivante. Il rejette le découpage entre M7 et M8 car la statistique de test est inférieure à 3.84 (seuil du χ21 à 95%). Parmi tous les découpages possibles des points (M1 , M2 , M3 , M4 , M5 , M6 ), celui qui a la plus grande statistique de test est celui qui découpe les points (M1 , M3 ) versus les points (M2 , M6 , M5 , M4 ). Elle vaut 15, 7807. On obtient ainsi un second découpage représenté par une deuxième droite violette dans la figure B.10. 182 2 Application sur un exemple 6 u25 u16 u36 u26 5 x4M 4 x5 4 M5 x M2 6 x2 x3 M 3 u13578 u24 u14 3 2 M6 u12 u34 −3 x1 M1 1 −2 1 0 −1 u56 u46 2 3 4 5 6 7 −1 u45u23 Figure B.10 – Les deux premiers découpages définis par les droites violettes. L’algorithme ne découpe pas les communes représentées par les points (M2 , M6 , M5 , M4 ) car il ne trouve pas de découpage significatif. Inversement, la statistique de test correspondant au découpage M1 versus M3 vaut 5, 6942, d’où le dernier découpage représenté dans la figure B.11 par la troisième droite violette. 6 5 4 3 u13578 M3 2 1 −3 −2 M1 0 −1 x1 1x3 2 3 4 5 6 7 −1 Figure B.11 – Les trois découpages définis par les droites violettes. 183 2 Application sur un exemple On retrouve ainsi la carte V.15 du chapitre Chapitre V. La carte V.16 a été obtenue en utilisant l’option greffer de l’algorithme. Plus précisément, l’algorithme recherche parmi tous les segments communs à deux classes s’ils sont significatifs, i.e. si la statistique du test de type log-rank entre les villes constituant les classes est supérieure à 3,84. Si ce n’est pas le cas, le segment est supprimé. Ainsi, la carte B.12 montre que 5 segments sont candidats à la greffe : [A, E], [E, D], [C, F ], [B, F ] et [F, E]. Parmi les 5 statistiques de test calculées, seules 2 sont supérieures à 3.84 ; ce sont celles relatives aux segments [E, D] et [F, E], ce qui correspond à la greffe des feuilles 12 et 2, et 7 et 13 respectivement (cf. arbre V.14). P A 6 M8 5 M7 B M4 4 M5 M2 F M3 3 2 M6 E 1 −2 M1 0 −1 C 1 2 3 D 4 M 5 6 7 8 −1 Figure B.12 – Découpages et segments candidats à la greffe. 184 Annexe C Cette annexe contient le choix des paramètres sur 50 fichiers pour la méthode SpODT « survie nette » (Chapitre V, section 3.2.5). 185 Critères d’arrêt 3_6_6 3_7_6 3_8_6 3_9_6 3_10_6 3_7_7 3_8_7 3_9_7 3_10_7 3_8_8 3_9_8 3_10_8 3_9_9 3_10_9 3_10_10 4_6_6 4_7_6 4_8_6 4_9_6 4_10_6 4_7_7 4_8_7 4_9_7 4_10_7 4_8_8 4_9_8 4_10_8 4_9_9 4_10_9 4_10_10 5_6_6 5_7_6 5_8_6 5_9_6 5_10_6 5_7_7 5_8_7 5_9_7 5_10_7 5_8_8 5_9_8 5_10_8 5_9_9 5_10_9 5_10_10 Sensibilité 0,856 0,856 0,856 0,856 0,856 0,860 0,860 0,860 0,860 0,878 0,878 0,878 0,890 0,890 0,904 0,788 0,788 0,788 0,788 0,788 0,856 0,856 0,856 0,856 0,900 0,900 0,900 0,894 0,894 0,914 0,822 0,822 0,822 0,822 0,822 0,870 0,870 0,870 0,870 0,908 0,908 0,908 0,894 0,894 0,914 Spécificité Moyenne(FP) Moyenne(FN) 0,8920 4,32 1,44 0,8920 4,32 1,44 0,8920 4,32 1,44 0,8920 4,32 1,44 0,8920 4,32 1,44 0,9030 3,88 1,40 0,9030 3,88 1,40 0,9030 3,88 1,40 0,9030 3,88 1,40 0,8940 4,24 1,22 0,8940 4,24 1,22 0,8940 4,24 1,22 0,9040 3,84 1,10 0,9040 3,84 1,10 0,8945 4,22 0,96 0,9635 1,46 2,12 0,9635 1,46 2,12 0,9635 1,46 2,12 0,9635 1,46 2,12 0,9635 1,46 2,12 0,9470 2,12 1,44 0,9470 2,12 1,44 0,9470 2,12 1,44 0,9470 2,12 1,44 0,9310 2,76 1,00 0,9310 2,76 1,00 0,9310 2,76 1,00 0,9290 2,84 1,06 0,9290 2,84 1,06 0,9075 3,70 0,86 0,9655 1,38 1,78 0,9655 1,38 1,78 0,9655 1,38 1,78 0,9655 1,38 1,78 0,9655 1,38 1,78 0,9465 2,14 1,30 0,9465 2,14 1,30 0,9465 2,14 1,30 0,9465 2,14 1,30 0,9290 2,84 0,92 0,9290 2,84 0,92 0,9290 2,84 0,92 0,9290 2,84 1,06 0,9290 2,84 1,06 0,9075 3,70 0,86 Suite sur la page suivante. . . Taux d’erreur 0,1152 0,1152 0,1152 0,1152 0,1152 0,1056 0,1056 0,1056 0,1056 0,1092 0,1092 0,1092 0,0988 0,0988 0,1036 0,0716 0,0716 0,0716 0,0716 0,0716 0,0712 0,0712 0,0712 0,0712 0,0752 0,0752 0,0752 0,0780 0,0780 0,0912 0,0632 0,0632 0,0632 0,0632 0,0632 0,0688 0,0688 0,0688 0,0688 0,0752 0,0752 0,0752 0,0780 0,0780 0,0912 186 Critères d’arrêt 6_6_6 6_7_6 6_8_6 6_9_6 6_10_6 6_7_7 6_8_7 6_9_7 6_10_7 6_8_8 6_9_8 6_10_8 6_9_9 6_10_9 6_10_10 7_6_6 7_7_6 7_8_6 7_9_6 7_10_6 7_7_7 7_8_7 7_9_7 7_10_7 7_8_8 7_9_8 7_10_8 7_9_9 7_10_9 7_10_10 8_6_6 8_7_6 8_8_6 8_9_6 8_10_6 8_7_7 8_8_7 8_9_7 8_10_7 8_8_8 8_9_8 8_10_8 8_9_9 8_10_9 8_10_10 Sensibilité 0,822 0,822 0,822 0,822 0,822 0,870 0,870 0,870 0,870 0,908 0,908 0,908 0,894 0,894 0,914 0,822 0,822 0,822 0,822 0,822 0,870 0,870 0,870 0,870 0,908 0,908 0,908 0,894 0,894 0,914 0,822 0,822 0,822 0,822 0,822 0,870 0,870 0,870 0,870 0,908 0,908 0,908 0,894 0,894 0,914 Spécificité Moyenne(FP) 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9465 2,14 0,9465 2,14 0,9465 2,14 0,9465 2,14 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9075 3,70 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9465 2,14 0,9465 2,14 0,9465 2,14 0,9465 2,14 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9075 3,70 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9655 1,38 0,9465 2,14 0,9465 2,14 0,9465 2,14 0,9465 2,14 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9290 2,84 0,9075 3,70 Moyenne(FN) 1,78 1,78 1,78 1,78 1,78 1,30 1,30 1,30 1,30 0,92 0,92 0,92 1,06 1,06 0,86 1,78 1,78 1,78 1,78 1,78 1,30 1,30 1,30 1,30 0,92 0,92 0,92 1,06 1,06 0,86 1,78 1,78 1,78 1,78 1,78 1,30 1,30 1,30 1,30 0,92 0,92 0,92 1,06 1,06 0,86 Taux d’erreur 0,0632 0,0632 0,0632 0,0632 0,0632 0,0688 0,0688 0,0688 0,0688 0,0752 0,0752 0,0752 0,0780 0,0780 0,0912 0,0632 0,0632 0,0632 0,0632 0,0632 0,0688 0,0688 0,0688 0,0688 0,0752 0,0752 0,0752 0,0780 0,0780 0,0912 0,0632 0,0632 0,0632 0,0632 0,0632 0,0688 0,0688 0,0688 0,0688 0,0752 0,0752 0,0752 0,0780 0,0780 0,0912 Tableau C.1 – Choix des meilleurs paramètres parmi 90 combinaisons pour la méthode SpODT « survie nette » sur 50 jeux de données pour un cluster de la forme d’une bande. 187 Annexe D Cette annexe contient des résultats préliminaires de la méthode SpODT « survie nette » exposée au Chapitre V et appliquée sur données réelles. Les résultats obtenus récemment seront interprétés dans le cadre d’une collaboration avec Marc Colonna. 1 Description des données Les données proviennent du registre des cancers de l’Isère. Elles ont déjà été utilisées dans une étude où les auteurs étudiaient la répartition spatiale en Isère de l’incidence du cancer pour quatre localisations - colon-rectum, poumon, prostate et vessie - (Colonna and Sauleau, 2013). Nous avons choisi de présenter ici l’étude relative au colon-rectum. Le jeu de données comportait 3084 patients masculins atteints d’un cancer colorectal et diagnostiqués entre 1999 et 2007 dans 425 communes de l’Isère. La date de point était le 1/1/2008 et nous avons étudié la survie nette à 5 ans. Nous avons observé 1188 décès, i.e. 38,52% de la population initiale. Cette population initiale était constituée de : (1) 701 patients (22,73 %) âgés de moins de 60 ans au moment du diagnostic ; (2) 1792 patients (58,11 %) ayant entre 61 et 79 ans ; et (3) 591 (19,16 %) patients ayant au moins 80 ans. Pour cette analyse, nous avons utilisé une table de mortalité de l’Isère stratifiée sur l’âge et sur les années. 2 Choix des paramètres et résultats Nous avons réalisé une recherche de paramètres et nous avons retenu ceux qui nous présentaient le meilleur « compromis » entre le nombre de découpages et les différences entre les courbes de survie nette des classes ainsi obtenues. La profondeur maximale de l’arbre et les minima des nœuds père et fils étaient fixés à 10. 188 2 Choix des paramètres et résultats L’arbre D.1 montre que la méthode a détecté neuf classes avant greffe. Après greffe, il restait cinq classes (18 ; 44 ; 93 = {10, 90} ; 97 = {8, 19} et 99 = {3, 23, 91}) représentées sur la carte D.2. Nous avons représenté sur la figure D.3 les distributions de survie nette estimées par l’estimateur Pohar-Perme pour ces classes. Nous pouvons ainsi noter que la méthode a détecté un cluster de faible survie nette, représenté en rouge sur la figure D.2 et correspondant à la classe 93. Pour interpréter ce cluster et proposer des explications à cette différence de survie nette, l’intervention d’un épidémiologiste connaissant notamment les caractéristiques socio-démographiques de ce département est indispensable. Figure D.1 – Arbre obtenu par la méthode SpODT « survie nette » sur données réelles de l’Isère (patients atteints d’un cancer colo-rectal). 189 2 Choix des paramètres et résultats Figure D.2 – Carte obtenue par la méthode SpODT « survie nette » après greffe sur données réelles de l’Isère (patients atteints d’un cancer colo-rectal). 190 2 Choix des paramètres et résultats Figure D.3 – Estimations de la survie nette estimées par l’estimateur Pohar-Perme (PPE) pour les cinq classes obtenues par la méthode SpODT « survie nette » sur données réelles de l’Isère (patients atteints d’un cancer colo-rectal). Les couleurs des cinq courbes représentent les cinq classes trouvées par la méthode et illustrées par des couleurs identiques sur la figure D.2. 191 Références bibliographiques Aalen, O. (1978). Nonparametric inference for a family of counting processes. The Annals of Statistics, 6(4) :701–726. 20 Aalen, O., Borgan, O., and Gjessing, H. (2008). Survival and event history analysis : a process point of view. Springer. 69, 107 Abrahamowicz, M. and Mackenzie, T. A. (2007). Joint estimation of time-dependent and nonlinear effects of continuous covariates on survival. Statistics in medicine, 26(2) :392–408. 27, 169 Abrahamowicz, M., Mackenzie, T. A., and Esdaile, J. M. (1996). Time-dependent hazard ratio : modeling and hypothesis testing with application in lupus nephritis. Journal of the American Statistical Association, 91(436) :1432–1439. 30 Andersen, P. K., Borgan, O., Gill, R. D., and Keiding, N. (1993). Statistical models based on counting processes. Springer. 8, 9, 69, 70 Andersen, P. K., Geskus, R. B., de Witte, T., and Putter, H. (2012). Competing risks in epidemiology : possibilities and pitfalls. International Journal of Epidemiology, 41(3) :861– 870. 23 Arias, E. (2014). United states life tables, 2009. National vital statistics reports : from the Centers for Disease Control and Prevention, National Center for Health Statistics, National Vital Statistics System, 62(7) :1–63. 173 Baili, P., Micheli, A., Montanari, A., and Capocaccia, R. (2005). Comparison of four methods for estimating complete life tables from abridged life tables using mortality data supplied to EUROCARE-3. Mathematical Population Studies, 12(4) :183–198. 32, 33 Banerjee, S., Wall, M. M., and Carlin, B. P. (2003). Frailty modeling for spatially correlated survival data, with application to infant mortality in Minnesota. Biostatistics, 4(1) :123–142. 110 192 Références bibliographiques Barbet, G. (2008). L’algorithme SpODT (Spatial Oblique Decision Tree) : Optimisation, extension et implémentation. Mémoire de master, Université de la Méditerranée. 124 Belot, A. (2009). Modélisation flexible des données de survie en présence de risques concurrents et apports de la méthode du taux en excès. PhD thesis, Aix Marseille 2. 21 Belot, A., Abrahamowicz, M., Remontet, L., and Giorgi, R. (2010). Flexible modeling of competing risks in survival analysis. Statistics in medicine, 29(23) :2453–2468. 43, 45 Berkson, J. (1942). The calculation of survival rates. In Carcinoma and Other Malignant Lesions of the Stomach, pages 467–484. (eds) W. Wlaters, HK Gray and JT Priestly, Philadelphia : Sanders, 1942. 15, 169 Berkson, J. and Gage, R. P. (1950). Calculation of survival rates for cancer. In Proceedings of the staff meetings. Mayo Clinic, volume 25, pages 270–286. 15, 169 Binder-Foucard, F., Belot, A., Delafosse, P., Remontet, L., Woronoff, A., and Bossard, N. (2013). Estimation nationale de l’incidence et de la mortalité par cancer en France entre 1980 et 2012. Partie 1–Tumeurs solides. Institut de veille sanitaire, Saint-Maurice (France). 1 Binquet, C., Abrahamowicz, M., Mahboubi, A., Jooste, V., Faivre, J., Bonithon-Kopp, C., and Quantin, C. (2008). Empirical study of the dependence of the results of multivariable flexible survival analyses on model selection strategy. Statistics in medicine, 27(30) :6470–6488. 30 Bivand, R. S., Pebesma, E., and Gomez-Rubio, V. (2013). Applied spatial data analysis with R, Second edition. Springer, NY. 124 Blakely, T., Soeberg, M., Carter, K., Costilla, R., Atkinson, J., and Sarfati, D. (2012). Bias in relative survival methods when using incorrect life-tables : Lung and bladder cancer by smoking status and ethnicity in New Zealand. International Journal of Cancer, 131(6) :E974– E982. 66 Bolard, P., Quantin, C., Abrahamowicz, M., Esteve, J., Giorgi, R., Chadha-Boreham, H., Binquet, C., and Faivre, J. (2001). Assessing time-by-covariate interactions in relative survival models using restrictive cubic spline functions. Journal of cancer epidemiology and prevention, 7(3) :113–122. 45 Bossard, N. et al. (2013). BETWEEN project. http://www.eurocare.it/Eurocare5/ ProtocolsEU5/tabid/89/Default.aspx, Accessed : 2014-09-20. 26, 107, 170 Bourgkard, E., Colin, R., Grzebyk, M., Urmes, I., and Hedelin, G. (2014). Mortality study among Paris sewage workers. Occupational and environmental medicine, 71(Suppl 1) :A12– A12. 172 Brass, W. et al. (1971). On the scale of mortality. Biological aspects of demography, pages 69–110. 33 193 Références bibliographiques Breiman, L. (1996). Bagging predictors. Machine learning, 24(2) :123–140. 111 Breiman, L. (2001). Random forests. Machine learning, 45(1) :5–32. 111 Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A. (1984). Classification and regression trees. CRC press. 112 Breslow, N. (1972). Discussion on Professor Cox’s Paper. Journal of the Royal Statistical Society : Series B, 34 :187–220. 10 Brown, C. C. (1983). 39(4) :941–948. 68 The statistical comparison of relative survival rates. Biometrics, Brown, P. and Hijmans, R. (2014). geostatsp : Geostatistics using SpatialPoints and rasters. R package version 1.1.0. 124 Buckley, J. (1984). Additive and multiplicative models for relative survival rates. Biometrics, 40(1) :51–62. 68 Carter, K. N., Blakely, T., Soeberg, M., Carter, K., Wilson, N., Edwards, R., Woodward, A., Thomson, G., and Sarfati, D. (2010). Trends in survival and life expectancy by ethnicity, income and smoking in New Zealand : 1980s to 2000s. The New Zealand Medical Journal, 123. 34 Cheuvart, B. and Ryan, L. (1991). Adjusting for age-related competing mortality in long-term cancer clinical trials. Statistics in medicine, 10(1) :65–77. 66, 170 Chirpaz, E., Colonna, M., and Viel, J. (2004). Cluster analysis in geographical epidemiology : the use of several statistical methods and comparison of their results. Revue d’épidemiologie et de santé publique, 52(2) :139–149. 111 Clegg, L. X., Li, F. P., Hankey, B. F., Chu, K., and Edwards, B. K. (2002). Cancer survival among US whites and minorities : a SEER (Surveillance, Epidemiology, and End Results) program population-based study. Archives of Internal Medicine, 162(17) :1985–1993. 32 Clerc-Urmes, I., Grzebyk, M., and Hedelin, G. (2014). Net survival estimation with stns. Stata Journal, 14(1) :87–102. 170 Coleman, M. P., Quaresma, M., Berrino, F., Lutz, J.-M., De Angelis, R., Capocaccia, R., Baili, P., Rachet, B., Gatta, G., Hakulinen, T., et al. (2008). Cancer survival in five continents : a worldwide population-based study (CONCORD). The Lancet Oncology, 9(8) :730–756. 3, 14 Colonna, M. and Sauleau, E.-A. (2013). How to interpret and choose a bayesian spatial model and a Poisson regression model in the context of describing small area cancer risks variations. Revue d’épidémiologie et de santé publique, 61(6) :559–567. 124, 188 Cook, A. J., Gold, D. R., and Li, Y. (2007). Spatial cluster detection for censored outcome data. Biometrics, 63(2) :540–549. 166 194 Références bibliographiques Corazziari, I., Quinn, M., and Capocaccia, R. (2004). Standard cancer patient population for age standardising survival ratios. European Journal of Cancer, 40(15) :2307–2316. 68 Cox, D. (1972). Regression models and life tables (with discussion). Journal of the Royal Statistical Society B, 34 :187–220. 10 Danieli, C., Remontet, L., Bossard, N., Roche, L., and Belot, A. (2012). Estimating net survival : the importance of allowing for informative censoring. Statistics in medicine, 31(8) :775–786. 3, 25, 26, 30, 172 De Angelis, R., Sant, M., Coleman, M. P., Francisci, S., Baili, P., Pierannunzio, D., Trama, A., Visser, O., Brenner, H., Ardanaz, E., et al. (2014). Cancer survival in europe 1999–2007 by country and age : results of EUROCARE-5 - a population-based study. The Lancet Oncology, 15(1) :23–34. 2, 3, 14, 68 De Boor, C. et al. (1978). A practical guide to splines. 28 Dickman, P. W., Auvinen, A., Voutilainen, E. T., and Hakulinen, T. (1998). Measuring social class differences in cancer patient survival : is it necessary to control for social class differences in general population mortality ? A Finnish population-based study. Journal of Epidemiology and Community Health, 52(11) :727–734. 32 Dickman, P. W. and Lambert, P. C. (2014a). Model-based vs. non-parametric estimators of net survival. http://www.epaac.eu/news/359-epaac-wp9-satellite-meeting-stateof-art-of-methods-for-the-analysis-of\-population-based-cancer-data-ispra22-23-january-2014, Accessed : 2014-09-20. 26, 172 Dickman, P. W. and Lambert, P. C. (2014b). Session 18 : Estimating net survival–past and present. http://www.pauldickman.com/teaching/index.php/, Accessed : 2014-09-20. 26 Dickman, P. W., Sloggett, A., Hills, M., and Hakulinen, T. (2004). Regression models for relative survival. Statistics in medicine, 23(1) :51–64. 27, 44 Doubeni, C. A., Field, T. S., Buist, D. S., Korner, E. J., Bigelow, C., Lamerato, L., Herrinton, L., Quinn, V. P., Hart, G., Hornbrook, M. C., et al. (2007). Racial differences in tumor stage and survival for colorectal cancer in an insured population. Cancer, 109(3) :612–620. 32 Durrleman, S. and Simon, R. (1989). Flexible regression models with cubic splines. Statistics in medicine, 8(5) :551–561. 30 Ederer, F., Axtell, L. M., and Cutler, S. J. (1961). The relative survival rate : a statistical methodology. National Cancer Institute Monograph, 6 :101–121. 23, 169, 172 Ederer, F. and Heise, H. (1959). The effect of eliminating deaths from cancer on general population survival rates. Methodological Note No, 11. 23, 169, 172 Elandt-Johnson, R. C. (1980). Survival models and data analysis, volume 110. John Wiley & Sons. 33 195 Références bibliographiques Ellison, L. F. (2014). Estimating relative survival for cancer : An analysis of bias introduced by outdated life tables. Health reports, 25(2) :13–19. 66 Eng, K. H. and Kosorok, M. R. (2005). A sample size formula for the supremum log-rank statistic. Biometrics, 61(1) :86–91. 171 Esteve, J., Benhamou, E., Croasdale, M., and Raymond, L. (1990). Relative survival and the estimation of net survival : elements for further discussion. Statistics in medicine, 9(5) :529– 538. 27, 44, 169, 170 Estève, J., Benhamou, E., and Raymond, L. (1993). Méthodes statistiques en épidémiologie descriptive. 107 Ewbank, D. C., Gomez De Leon, J. C., and Stoto, M. A. (1983). A reducible four-parameter system of model life tables. Population Studies, 37(1) :105–127. 33 Fichet, B. and Gaudart, J. (2005). Extension de CART dans le cas bivarié : partition optimale du plan. XIIème congrès de la Société francophone de Classification, Montréal, Québec. 118, 178 Fichet, B., Gaudart, J., and Giusiano, B. (2006). Bivariate CART with oblique regression trees. In International conference of Data Science and Classification, International Federation of Classification Societies, Ljubljana, Slovenia. 110, 122 Fleming, T. R. and Harrington, D. P. (1984). Nonparametric estimation of the survival distribution in censored data. Communications in Statistics-Theory and Methods, 13(20) :2469–2486. 10 Fleming, T. R. and Harrington, D. P. (2011). Counting processes and survival analysis, volume 169. John Wiley & Sons. 69 Garès, V., Andrieu, S., Dupuy, J.-F., Savy, N., et al. (2014). A comparison of the constant piecewise weighted logrank and fleming-harrington tests. Electronic Journal of Statistics, 8 :841–860. 171 Gaudart, J. (2007). Analyse spatio-temporelle et modélisation des épidémies : application au paludisme à P. falciparum. PhD thesis, Aix Marseille 2. 110, 122, 178 Gaudart, J., Giorgi, R., Poudiougou, B., Toure, O., Ranque, S., Doumbo, O., and Demongeot, J. (2007). Détection de clusters spatiaux sans point source prédéfini : utilisation de cinq méthodes et comparaison de leurs résultats. Revue d’épidémiologie et de santé publique, 55(4) :297–306. 110, 111, 122 Gaudart, J., Grafféo, N., Barbet, G., Fichet, B., and Giorgi, R. (2014). SPODT : Spatial Oblique Decision Tree. R package version 0.9. 124, 171 196 Références bibliographiques Gaudart, J., Poudiougou, B., Ranque, S., and Doumbo, O. (2005). Oblique decision trees for spatial pattern detection : optimal algorithm and application to malaria risk. BMC Medical Research Methodology, 5(1) :22. 110, 122 Gehan, E. A. (1965). A generalized wilcoxon test for comparing arbitrarily singly-censored samples. Biometrika, 52(1-2) :203–223. 171 Gill, R. D. (1980). Censoring and stochastic integrals. Statistica Neerlandica, 34(2) :124–124. 20, 171 Giorgi, R., Abrahamowicz, M., Quantin, C., Bolard, P., Esteve, J., Gouvernet, J., and Faivre, J. (2003). A relative survival regression model using B-spline functions to model nonproportional hazards. Statistics in medicine, 22(17) :2767–2784. 27, 28, 30, 169 Giorgi, R., Belot, A., Gaudart, J., and Launoy, G. (2008). The performance of multiple imputation for missing covariate data within the context of regression relative survival analysis. Statistics in medicine, 27(30) :6310–6331. 45 Goungounga, J. A. (2014). Analyse spatiale de l’incidence du cancer : implémentation par l’algorithme SpODT. Mémoire de master, Aix-Marseille Université. 124 Grafféo, N., Jooste, V., and Giorgi, R. (2012). The impact of additional life-table variables on excess mortality estimates. Statistics in medicine, 31(30) :4219–4230. 46, 170 Grosclaude, P., Bossard, N., Remontet, L., Belot, A., Arveux, P., Bouvier, A., Lauoy, G., Maynadié, M., Velten, M., Faivre, J., et al. (2007). Survie des patients atteints de cancer en France : étude des registres du réseau Francim. Springer. 2 Grosclaude, P., Remontet, L., Belot, A., Danzon, A., Rasamimanana, C. N., and Bossard, N. (2013). Survie des personnes atteintes de cancer en france, 1989-2007. Étude à partir des registres des cancers du réseau francim. http://opac.invs.sante.fr/doc_num.php? explnum_id=8758, Accessed : 2014-08-15. 3, 14, 25, 107 Guttmann, A., Ouchchane, L., Li, X., Perthus, I., Gaudart, J., Demongeot, J., and Boire, J.-Y. (2013). Performance map of a cluster detection test using extended power. International Journal of Health Geographics, 12(1) :47. 167, 171 Hakulinen, T. (1982). Cancer survival corrected for heterogeneity in patient withdrawal. Biometrics, 38(4) :933–942. 23, 169, 172 Hakulinen, T., Tenkanen, L., Abeywickrama, K., and Päivärinta, L. (1987). Testing equality of relative survival patterns based on aggregated data. Biometrics, 43(2) :313–325. 68 Harrington, D. P. and Fleming, T. R. (1982). A class of rank test procedures for censored survival data. Biometrika, 69(3) :553–566. 171 Hastie, T., Tibshirani, R., Friedman, J., Hastie, T., Friedman, J., and Tibshirani, R. (2009). The elements of statistical learning, volume 2. Springer. 115 197 Références bibliographiques Hess, K. R. (1994). Assessing time-by-covariate interactions in proportional hazards regression models using cubic spline functions. Statistics in medicine, 13(10) :1045–1062. 30 Hill, C., Com-Nougué, C., and Kramar, A. (1990). Analyse statistique des données de survie. INSERM ; Médecine-Sciences-Flammarion. 7 Howlader, N., Ries, L. A., Mariotto, A. B., Reichman, M. E., Ruhl, J., and Cronin, K. A. (2010). Improved estimates of cancer-specific survival rates from population-based data. Journal of the National Cancer Institute, 102(20) :1584–1598. 21 Huang, L., Kulldorff, M., and Gregorio, D. (2007). A spatial scan statistic for survival data. Biometrics, 63(1) :109–118. 166 International Agency for Research on Cancer (2014). GLOBOCAN 2012 : estimated cancer incidence, mortality and prevalence worldwide in 2012. World Health Organization, 9. Accessed October 4, 2014. 2 James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013a). An introduction to statistical learning. Springer. 112 James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013b). ISLR : Data for An Introduction to Statistical Learning with Applications in R. R package version 1.0. 112 Jooste, V., Grosclaude, P., Remontet, L., Launoy, G., Baldi, I., Molinié, F., Arveux, P., Bossard, N., Bouvier, A.-M., and Colonna, M. (2013). Unbiased estimates of long-term net survival of solid cancers in france. International Journal of Cancer, 132(10) :2370–2377. 26, 170 Kalbfleisch, J. D. and Prentice, R. L. (2002). The statistical analysis of failure time data. John Wiley & Sons. 9, 12 Klein, J. and Moeschberger, M. (2003). Survival analysis : statistical methods for censored and truncated data. Springer-Verlag, New York, NY. 69 Kulldorff, M. (1997). A spatial scan statistic. Communications in Statistics-Theory and methods, 26(6) :1481–1496. 111, 124 Lambert, P. C., Smith, L. K., Jones, D. R., and Botha, J. L. (2005). Additive and multiplicative covariate regression models for relative survival incorporating fractional polynomials for timedependent effects. Statistics in medicine, 24(24) :3871–3885. 27, 28, 169 Mahboubi, A., Abrahamowicz, M., Giorgi, R., Binquet, C., Bonithon-Kopp, C., and Quantin, C. (2011). Flexible modeling of the effects of continuous prognostic factors in relative survival. Statistics in medicine, 30(12) :1351–1365. 27, 28, 29, 169 Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising in its consideration. Cancer chemotherapy reports. Part 1, 50(3) :163–170. 69 198 Références bibliographiques Mariotto, A. B., Wang, Z., Klabunde, C. N., Cho, H., Das, B., and Feuer, E. J. (2013). Life tables adjusted for comorbidity more accurately estimate noncancer survival for recently diagnosed cancer patients. Journal of clinical epidemiology, 66(12) :1376–1385. 172 Micheli, A., Baili, P., Quinn, M., Mugno, E., Capocaccia, R., and Grosclaude, P. (2002). Life expectancy and cancer survival in the EUROCARE-3 cancer registry areas. Annals of oncology : official journal of the European Society for Medical Oncology/ESMO, 14 :v28–40. 32, 33 Monnereau, A., Troussard, X., Belot, A., Guizard, A.-V., Woronoff, A.-S., Bara, S., LapôtreLedoux, B., Iwaz, J., Tretarre, B., and Maynadié, M. (2013). Unbiased estimates of longterm net survival of hematological malignancy patients detailed by major subtypes in France. International Journal of Cancer, 132(10) :2378–2387. 26, 170 Mudholkar, G. S., Srivastava, D. K., and Kollia, G. D. (1996). A generalization of the Weibull distribution with application to the analysis of survival data. Journal of the American Statistical Association, 91(436) :1575–1583. 42 Nakache, J.-P. and Confais, J. (2003). Statistique explicative appliquée : analyse discriminante, modèle logistique, segmentation par arbre. Editions Technip. 118 Nativ, O., Raz, Y., Winkler, H., Hosaka, Y., Boyle, E., Therneau, T., Farrow, G., Meyers, R., Zincke, H., and Lieber, M. (1988). Prognostic value of flow cytometric nuclear DNA analysis in stage C prostate carcinoma. In Surgical Forum, pages 685–687. 120 Noble, M., Smith, G., Penhale, B., Wright, G., Dibben, C., Owen, T., and Lloyd, M. (2000a). Measuring multiple deprivation at the small area level : the indices of deprivation 2000. London : Department of the Environment, Transport and the Regions. 34 Noble, M., Smith, G., Wright, G., Dibben, C., Lloyd, M., and Penhale, B. (2000b). Welsh index of multiple deprivation 2000. Cardiff : The National Assembly for Wales. 34 Pebesma, E. J. (2004). Multivariable geostatistics in S : the gstat package. Computers & Geosciences, 30 :683–691. 124 Pebesma, E. J. and Bivand, R. S. (2005). Classes and methods for spatial data in R. R News, 5(2) :9–13. 124 Percy, C., Stanek 3rd, E., and Gloeckler, L. (1981). Accuracy of cancer death certificates and its effect on cancer mortality statistics. American Journal of Public Health, 71(3) :242–250. 15 Perme, M. P., Henderson, R., and Stare, J. (2009). An approach to estimation in relative survival regression. Biostatistics, 10(1) :136–146. 14 Perme, M. P., Stare, J., and Estève, J. (2012). On estimation in relative survival. Biometrics, 68(1) :113–120. 3, 16, 23, 24, 25, 68, 111, 169, 170, 172 199 Références bibliographiques Peto, R. and Peto, J. (1972). Asymptotically efficient rank invariant test procedures. Journal of the Royal Statistical Society. Series A (General), 135(2) :185–207. 69 Piarroux, M., Piarroux, R., Giorgi, R., Knapp, J., Bardonnet, K., Sudre, B., Watelet, J., Dumortier, J., Gérard, A., Beytout, J., et al. (2011). Clinical features and evolution of alveolar echinococcosis in France from 1982 to 2007 : results of a survey in 387 patients. Journal of Hepatology, 55(5) :1025–1033. 171 Pintilie, M. (2007). Analysing and interpreting competing risk data. Statistics in medicine, 26(6) :1360–1367. 21 Plan Cancer (Accessed October 4, 2014). Plan cancer 2014–2019. http://www.social-sante. gouv.fr/IMG/pdf/2014-02-03_Plan_cancer.pdf. 2 Pohar-Perme, M. (2013). relsurv : Relative survival. R package version 2.0-4. 170 Pornet, C., Delpierre, C., Dejardin, O., Grosclaude, P., Launay, L., Guittet, L., Lang, T., and Launoy, G. (2012). Construction of an adaptable European transnational ecological deprivation index : the French version. Journal of epidemiology and community health, 66(11) :982– 989. 170 Potthoff, R. F. and Whittinghill, M. (1966). Testing for homogeneity : II. The Poisson distribution. Biometrika, 53(1) :183–190. 111 Ramsay, J. O. (1988). Monotone regression splines in action. Statistical science, 3(4) :425–441. 30 Remontet, L., Bossard, N., Belot, A., and Esteve, J. (2007). An overall strategy based on regression models to estimate relative survival and model the effects of prognostic factors in cancer survival studies. Statistics in medicine, 26(10) :2214–2228. 27, 28, 29, 30, 45, 169 Richardson, S. (1992). Modélisation statistique des variations géographiques en épidémiologie. Revue d’épidémiologie et de santé publique, 40(1) :33–45. 111 Robins, J. M. (1993). Information recovery and bias adjustment in proportional hazards regression analysis of randomized trials using surrogate markers. In Proceedings of the Biopharmaceutical Section, American Statistical Association, volume 24, page 3. American Statistical Association. 25 Roche, L., Danieli, C., Belot, A., Grosclaude, P., Bouvier, A.-M., Velten, M., Iwaz, J., Remontet, L., and Bossard, N. (2013). Cancer net survival on registry data : Use of the new unbiased Pohar-Perme estimator and magnitude of the bias with the classical methods. International Journal of Cancer, 132(10) :2359–2369. 26, 170 Ross, S. (2006). Simulation. Statistical Modeling and Decision Science. Elsevier Science. 43 Royston, P., Altman, D. G., and Sauerbrei, W. (2006). Dichotomizing continuous predictors in multiple regression : a bad idea. Statistics in medicine, 25(1) :127–141. 30 200 Références bibliographiques Sant, M., Aareleid, T., Berrino, F., Lasota, M. B., Carli, P., Faivre, J., Grosclaude, P., Hedelin, G., Matsuda, T., Møller, H., et al. (2003). EUROCARE-3 : survival of cancer patients diagnosed 1990–94 - results and commentary. Annals of Oncology, 14(suppl 5) :v61–v118. xii, 16 Sarfati, D., Blakely, T., and Pearce, N. (2010). Measuring cancer survival in populations : relative survival vs cancer-specific survival. International Journal of Epidemiology, 39(2) :598– 610. 15 Schaffar, R., Rapiti, E., Rachet, B., and Woods, L. (2013). Accuracy of cause of death data routinely recorded in a population-based cancer registry : impact on cause-specific survival and validation using the Geneva cancer registry. BMC Cancer, 13(1) :609. 21 SEER (2014a). Expected survival life tables. http://seer.cancer.gov/expsurvival/, Accessed : 2014-07-24. 33 SEER (2014b). Seer cause-specific death classification. causespecific/, Accessed : 2014-07-25. 21 http://seer.cancer.gov/ SEER Program (based on the submission November 2006). SEER*Stat Database : Incidence - SEER 17 Regs Research Data, Nov 2006 Sub (1973-2004 varying) - Linked To County Attributes - Total U.S., 1969-2004 Counties, National Cancer Institute, DCCPS, Surveillance Research Program, Cancer Statistics Branch, released April 2007. www.seer.cancer.gov. 2, 64, 170 SEER Program : comparative staging guide for cancer (1993). NIH Publication No. 93-3640. 64 Takahashi, K. and Tango, T. (2006). An extended power of cluster detection tests. Statistics in medicine, 25(5) :841–852. 167 Talbäck, M. and Dickman, P. W. (2011). Estimating expected survival probabilities for relative survival analysis–exploring the impact of including cancer patient mortality in the calculations. European Journal of Cancer, 47(17) :2626–2632. 15 Tarone, R. E. and Ware, J. (1977). On distribution-free tests for equality of survival distributions. Biometrika, 64(1) :156–160. 171 Therneau, T. (2013). A package for survival analysis in S. R package version 2.37-4. 35, 64 Therneau, T., Atkinson, B., and Ripley, B. (2013). rpart : Recursive Partitioning. R package version 4.1-3. 118 Therneau, T. M. and Atkinson, E. J. (2014). An introduction to recursive partitioning using the rpart routines. 120, 166 201 Références bibliographiques Torgerson, P. R., Schweiger, A., Deplazes, P., Pohar, M., Reichen, J., Ammann, R. W., Tarr, P. E., Halkik, N., and Müllhaupt, B. (2008). Alveolar echinococcosis : from a deadly disease to a well-controlled infection. Relative survival and economic analysis in Switzerland over the last 35 years. Journal of Hepatology, 49(1) :72–77. 171 Townsend, P. (1987). Deprivation. Journal of Social Policy, 16(02) :125–146. 170 Van Rompaye, B., Jaffar, S., and Goetghebeur, E. (2012). Estimation with cox models : causespecific survival analysis with misclassified cause of failure. Epidemiology (Cambridge, Mass.), 23(2) :194–202. 22 Walters, S., Maringe, C., Butler, J., Rachet, B., Barrett-Lee, P., Bergh, J., Boyages, J., Christiansen, P., Lee, M., Wärnberg, F., et al. (2013). Breast cancer survival and stage at diagnosis in Australia, Canada, Denmark, Norway, Sweden and the UK, 2000-2007 : a population-based study. British Journal of Cancer, 108(5) :1195–1208. 26 Wellek, S. (1993). A log-rank test for equivalence of two survivor functions. Biometrics, 49(3) :877–881. 167 White, A., Vernon, S. W., Franzini, L., and Du, X. L. (2010). Racial disparities in colorectal cancer survival. Cancer, 116(19) :4622–4631. 21, 32 Woods, L. M., Rachet, B., Riga, M., Stone, N., Shah, A., and Coleman, M. P. (2005). Geographical variation in life expectancy at birth in England and Wales is largely explained by deprivation. Journal of Epidemiology and Community Health, 59(2) :115–120. 33 Wynant, W. and Abrahamowicz, M. (2014). Impact of the model-building strategy on inference about nonlinear and time-dependent covariate effects in survival analysis. Statistics in medicine, 33(19) :3318–3337. 30 Young, J. L., Ries, L. G., Silverberg, E., Horm, J. W., and Miller, R. W. (1986). Cancer incidence, survival, and mortality for children younger than age 15 years. Cancer, 58(S2) :598– 602. 3, 14 202 Dans la recherche contre le cancer, la survie nette est un indicateur clé de l’efficacité des systèmes de soin. C’est un concept théorique représentant la survie que l’on observerait dans un monde hypothétique où le cancer étudié serait la seule cause possible de décès. En s’affranchissant de la mortalité due à d’autres causes que ce cancer, la survie nette permet des comparaisons entre pays et périodes. Dans cette thèse, après présentation théorique du concept et des méthodes d’estimation de la survie nette dans un contexte où la cause de décès est inconnue, nous nous intéressons à trois problématiques complémentaires. La première porte sur les tables de mortalité utilisées pour estimer la survie nette. En France, ces tables sont stratifiées sur l’âge, le sexe, l’année et le département. D’autres facteurs pronostiques impactant la mortalité, il serait intéressant d’utiliser des tables stratifiées sur certains de ces facteurs, comme c’est le cas aux États-Unis où des états produisent des tables stratifiées sur l’ethnie. Nous étudions l’impact du manque de stratification sur les estimations des effets des facteurs pronostiques sur la mortalité en excès (i.e. celle due au cancer en l’absence des autres causes de décès) par des études de simulations et sur données réelles. En 2012, la survie nette a bénéficié de la construction d’un estimateur non paramétrique de la survie nette, l’estimateur Pohar-Perme. La deuxième problématique de cette thèse porte sur la construction d’un test de type log-rank pour comparer des distributions de survie nette estimées par cet estimateur entre plusieurs groupes. Une démarche complémentaire, constituant notre troisième problématique, est de rechercher dans une aire géographique étudiée des zones différentes en termes de survie nette. Nous adaptons une méthode de détection de clusters à la survie nette en utilisant le test précédemment développé comme critère de découpage. Ce travail propose ainsi de nouveaux développements et de nouveaux outils pouvant aider les épidémiologistes à étudier et à améliorer la qualité de la prise en charge des patients atteints d’un cancer. Le travail effectué au cours de cette thèse est applicable à d’autres maladies chroniques. Mots clés : cancer, survie nette, mortalité en excès, tables de mortalité, test, processus, arbres de régression, clusters In cancer research, net survival is a key indicator of the efficiency of care. This theoretical concept is the survival that would be observed in an hypothetical world where the disease under study would be the only possible cause of death. In population-based studies, where cause of death is unknown, net survival allows us to compare cancer survival between different groups by removing the effect of death from causes other than cancer. In this work, after presenting the concept and the estimation methods of net survival, we focus on three complementary issues. The first one is about the life tables used in the estimates of net survival. In France, these tables are stratified by age, sex, year and département. We know that other prognostic factors impact on mortality. So it would be interesting to use life tables stratified by some of these factors, as it is the case in the US, where some states produce life tables stratified by ethnicity. We study the impact of the lack of stratification in life tables on the estimates of the effects of prognostic factors on excess mortality by simulation and real data studies. In 2012, the Pohar-Perme estimator was proposed. It is a consistent non parametric estimator of net survival. The second issue involves the building of a log-rank type test to compare distributions of net survival (estimated by the Pohar-Perme estimator) between several groups. A complementary approach, which is our third issue, is to propose a method providing potential spatial clusters which could contain patients with similar net cancer survival rates at a given time. We adapt a clustering method using the test we have built as a splitting criterion. This work proposes new developments and new tools to help epidemiologists to study and improve the quality of care for cancer patients. These methods are suitable to other chronic diseases. Keywords : cancer, net survival, excess mortality, life tables, test, processus, regression trees, clusters