Here - Thèses

AIX-MARSEILLE UNIVERSITE
FACULTE DE MEDECINE DE MARSEILLE
ECOLE DOCTORALE DES SCIENCES DE LA VIE ET DE LA SANTE
THÈSE
Présentée et soutenue publiquement devant
LA FACULTE DE MEDECINE DE MARSEILLE
Le 12 Décembre 2014
Par Mlle Nathalie GRAFFEO
Née le 14 Décembre 1975 à MARSEILLE
Méthodes d’analyse de la survie nette :
utilisation des tables de mortalité, test de comparaison
et détection d’agrégats spatiaux
Pour obtenir le grade de DOCTORAT d’AIX-MARSEILLE UNIVERSITE
SPECIALITE: RECHERCHE CLINIQUE ET SANTE PUBLIQUE
Laboratoire d’accueil:
UMR912 - SESSTIM (Sciences Economiques & Sociales de la Santé & Traitement de
l’Information Médicale)
JURY
Fabienne CASTELL
Marc COLONNA
Roch GIORGI
Aurélien LATOUCHE
Catherine LEGRAND
Virginie RONDEAU
Philippe SAINT PIERRE
PR, Aix-Marseille Université
Directeur du Registre du Cancer de l’Isère, Grenoble
PU-PH, Aix-Marseille Université
PR, Cnam, Paris
PR, Université Catholique de Louvain
DR, INSERM, ISPED, Bordeaux
MCF, Université Pierre et Marie Curie, Paris
Examinateur
Examinateur
Directeur
Rapporteur
Rapporteur
Examinateur
Examinateur
Remerciements
La thèse n’est pas un travail individuel. Toutes les personnes que je remercie ici (et elles
sont nombreuses) ont contribué, pour diverses raisons, à l’aboutissement de ce long travail de
fond.
Je remercie en premier lieu mon directeur de thèse, le Professeur Roch Giorgi, pour sa
patience inﬁnie, pour la conﬁance qu’il m’a accordée et pour ses qualités pédagogiques et
scientiﬁques. J’ai eu la chance d’avoir un directeur de thèse compétent et rigoureux. Travailler
à ses côtés fut un réel plaisir que j’espère renouveler bientôt.
Merci aux Professeurs Aurélien Latouche et Catherine Legrand qui m’ont fait l’honneur
d’être les rapporteurs de ma thèse. Je me réjouis de l’intérêt que vous portez à ce travail et
vous remercie beaucoup pour vos commentaires qui ont permis d’enrichir ce manuscrit.
Je remercie vivement les Docteurs Marc Colonna, Virginie Rondeau et Philippe Saint-Pierre
qui ont accepté de participer à ce jury.
Un merci tout particulier au Professeur Fabienne Castell qui a contribué à une partie de ce
travail : il y a 10 ans, je n’aurais même pas envisagé la possibilité de co-écrire un article avec
vous. Merci pour votre gentillesse, votre rigueur et votre bonne humeur. Vous avez su garder le
sourire et être indulgente face à toutes mes questions : cette thèse, je la dois à vous aussi.
Je remercie les Professeurs Marius Fieschi et Jean-Paul Moatti de m’avoir accueillie au sein
du LERTIM et du SESSTIM.
Merci à mon « comité scientiﬁque » constitué des Docteurs Aurélien Belot et Jean Gaudart.
J’ai beaucoup appris en travaillant à vos côtés et en lisant vos travaux. Merci à vous deux pour
i
Remerciements
votre gentillesse et toutes ces discussions enrichissantes qui ont mené à des collaborations.
Merci à tous les membres du « CENSUR working survival group ». Je suis maintenant
convaincue qu’un groupe de travail international peut arriver à regrouper ses forces pour produire de belles choses. Je remercie spécialement les Lyonnais 1 pour leurs encouragements permanents et leur disponibilité. Les discussions avec Laurent Remontet et Jacques Estève ont été
fructueuses et ont permis de venir à bout de la construction du test. La participation de Maja
Pohar-Perme et l’aide de Janez Stare ont aussi grandement participé à l’aboutissement de ce
travail. À chacun des membres du groupe : soyez assurés que travailler avec vous a été et sera
toujours un vrai bonheur.
Je dois ici mentionner tous les membres, passés et présents, du groupe YROS (Young Researchers On Survival) : Amel, Audrey, Célia, Coraline, Isabelle, Juste, Khadim, Morgane,
Noémie et Saïd. Vous m’avez tous et toutes apporté énormément de soutien méthodologique
« mais pas que »... Amel, Coraline, Isabelle et Morgane : merci pour ces mails et conversations
téléphoniques. Vos idées, questions et remarques m’ont fait avancer. J’espère que notre groupe
nous « survivra » !
La vie au laboratoire n’aurait pas été la même sans la présence des doctorants avec qui nous
avons partagé nos souﬀrances autour d’un café ! Issaka, Kankoé, Martine, Seydou, Sissoko :
merci pour tous ces moments de détente, pour les répétitions mais aussi les ballades dans les
calanques (à refaire absolument).
Parmi tous les stagiaires qui sont passés par Marseille, je tenais à mentionner Juste devenu
thésard, Claire la marathonienne toujours prête à expliquer les stats et Romain aussi fort en
« vannes » qu’en connaissance approfondie de la Grande Comore. Merci pour vos encouragements et vos conseils. Avec ou sans les stats, on va se revoir, j’en suis certaine.
Merci à mes anciens collègues de bureau qui m’ont initiée aux pauses café, Anna et Hocine.
Merci à Khadim qui a su me supporter moi et mes nombreux changements d’algorithme. Merci
pour ta patience et ton esprit d’équipe (même si tu soutiens le PSG, mais c’est un autre
débat...).
Merci aux membres du SESSTIM et plus particulièrement à ceux que j’ai côtoyés à la
Timone : Jean-Charles, Julien, Gérard, Bernard, Alain et surtout Farida et Geneviève. Vous
avez tous joué un rôle clé à diﬀérents moments de ce parcours du combattant et m’avez soutenue
mentalement et techniquement !
1. membres des Hospices Civils de Lyon
ii
Remerciements
Je n’aurais jamais fait cette thèse sans les membres du CMI 2 : Laurent Cavalier, Florent
Autin, Etienne Pardoux, Marie-Christine Roubaud, Thomas Willer et Bernard Coupet (pour
ne citer qu’eux). Vous m’avez ré-orientée (bien malgré moi au début) vers un domaine que je
ne connaissais pas et que vous m’avez fait découvrir et aimer. Tout simplement, merci !
Adil, tu as été un conﬁdent incroyable et tu m’as toujours donné de bons conseils. Je t’en
remercie et espère avoir de nouveau l’occasion d’écouter tes histoires autour d’un bon café !
Célia, est-il vraiment utile de te dire que ta venue au SESSTIM a été une bénédiction pour
moi (et pour les autres aussi) ? J’ai trouvé en toi une collègue de travail géniale, une femme
intelligente et... une partenaire de tennis avec qui j’ai eu les plus grands fous rire au cours de
cette dernière année. Merci pour tout. J’ai rarement trouvé des collègues avec qui j’étais autant
« compatible ». J’espère que notre binôme pourra se reformer, autant sur le terrain que devant
un écran d’ordinateur.
Merci aux amis de toujours, qui m’ont portée et supportée : la famille Ledain (mes jambes
vous remercient encore pour Platé), Valérie et Christophe (promis, on va se voir plus souvent),
Roxane et Jérémy (à quand une partie de football américain avec Léo et Lisannna ?) et Stéphane Brull (j’ai ﬁnalement suivi ta voie !).
Un merci tout particulier à Monsieur le Professeur Gérard Fardoux : vous avez cru en moi alors
que je faisais mes premiers pas à la fac, et vous n’avez cessé d’y croire.
Merci à ma famille : les Grecs de Grèce, les Grecs de Paris, les Marseillais-Corses et les
Marseillais-Italiens ! Nathalie, on reprend notre série de concerts bientôt, compte sur moi !
Merci à mes ﬁlleules, Julie et Noélie qui, malgré leur jeune âge, ont compris que Marraine
devait travailler. « Le temps perdu ne se rattrape plus » mais on va essayer !
Enﬁn, Je n’aurais pas survécu à ces quatre années sans Claudine et ma mère. Claudine, tu
m’as poussée et soutenue comme toi seule sais le faire. Sans toi, je ne serais pas là. Maman,
ne minimise pas ta participation à ce travail qui n’aurait jamais abouti sans ta patience sans
limite et ton amour.
2. Centre de Mathématiques et d’Informatique
iii
Table des matières
Table des ﬁgures
viii
Liste des tableaux
xii
Valorisation
xiv
Abréviations
xvi
Introduction générale
I
Notions préliminaires
1
Notations et déﬁnitions . . . . . . . . . . . . .
2
Distribution d’une durée de survie . . . . . . .
3
Le concept de censure . . . . . . . . . . . . .
4
Méthodes d’estimation en analyse de survie .
4.1
Modèles univariés . . . . . . . . . . . .
4.1.1
L’estimation de Kaplan-Meier
4.1.2
L’estimation de Nelson-Aalen
4.2
Modèle multivarié : le modèle de Cox .
1
.
.
.
.
.
.
.
.
5
5
6
7
9
9
9
10
10
II La survie nette
1
Concepts de survie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
La survie observée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
La survie nette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
13
13
13
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
iv
Table des matières
.
.
.
.
.
.
.
.
.
.
15
17
17
19
20
21
21
23
26
30
III Tables de mortalité
1
Déﬁnition et problématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
Construction de tables de mortalité stratiﬁées sur
un/des facteurs pronostiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur l’eﬀet
des facteurs pronostiques sur la mortalité en excès . . . . . . . . . . . . . . . . .
3.1
Étapes communes aux diﬀérentes simulations . . . . . . . . . . . . . . .
3.1.1
Construction des tables de mortalité . . . . . . . . . . . . . . .
3.1.2
Génération des données de survie . . . . . . . . . . . . . . . . .
3.1.3
Estimation des eﬀets de facteurs pronostiques sur la mortalité
en excès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.4
Mesures du biais . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2
Principaux résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3
Simulations complémentaires . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.1
Variation des proportions . . . . . . . . . . . . . . . . . . . . .
3.3.2
Augmentation de l’eﬀet de X sur la mortalité en excès . . . . .
3.4
Analyse sur données réelles complémentaires . . . . . . . . . . . . . . . .
4
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
31
2
3
4
1.3
La survie relative . . . . . . . . . . . .
Notations et déﬁnitions . . . . . . . . . . . . .
2.1
Au niveau individuel . . . . . . . . . .
2.2
Au niveau de la population . . . . . . .
2.3
Un pas vers les processus de comptage
Méthodes d’analyse de la survie nette . . . . .
3.1
Survie cause-spéciﬁque . . . . . . . . .
3.2
Méthodes non paramétriques . . . . . .
3.3
Méthodes paramétriques . . . . . . . .
Discussion . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
IV Comparaison de distributions de survie nette
1
Comparaison de survies nettes à temps ﬁxé . . . . . . . . . . . .
2
Comparaison de distributions de survie nette . . . . . . . . . . .
2.1
Un test de type log-rank pour comparer des distributions
2.1.1
Le test du log-rank usuel . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
32
35
35
35
40
44
45
46
60
60
63
64
66
68
. . . . . . . . . 69
. . . . . . . . . 69
de survie nette 70
. . . . . . . . . 70
v
Table des matières
3
2.1.2
Adaptation à la survie nette . . . . . . . . . . . . . . . . . . . .
2.1.3
Génération des données de survie pour les études de simulations
2.2
Simulations complémentaires . . . . . . . . . . . . . . . . . . . . . . . . .
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
71
107
107
V Études des variations spatiales
109
1
La méthode CART . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
1.1
Principe général de la méthode CART et vocabulaire relatif aux arbres
de décision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
1.1.1
Construction de l’« arbre maximal » . . . . . . . . . . . . . . . 114
1.1.2
Élagage et arbre ﬁnal . . . . . . . . . . . . . . . . . . . . . . . 115
1.2
CART : une méthode de détection de clusters . . . . . . . . . . . . . . . 118
1.3
CART : application à des données de survie brute . . . . . . . . . . . . . 118
2
La méthode SpODT pour les pathologies aiguës . . . . . . . . . . . . . . . . . . 122
2.1
La méthode initiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
2.2
Les améliorations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
3
Adaptation de la méthode SpODT à la survie nette . . . . . . . . . . . . . . . . 148
3.1
Idée générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
3.2
Étude des performances de SpODT « survie nette » . . . . . . . . . . . . 151
3.2.1
Principe de générations des données . . . . . . . . . . . . . . . 151
3.2.2
Choix des critères d’arrêt et du paramètre de complexité . . . . 154
3.2.3
Méthodes de lecture d’un arbre . . . . . . . . . . . . . . . . . . 156
3.2.4
Résultats de l’étude de cas . . . . . . . . . . . . . . . . . . . . . 156
3.2.5
Résultats de l’étude de simulations . . . . . . . . . . . . . . . . 164
4
Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Conclusion générale et perspectives
169
Annexe A
173
Annexe B
177
1
Déﬁnitions préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
2
Application sur un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
Annexe C
185
vi
Annexe D
188
1
Description des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188
2
Choix des paramètres et résultats . . . . . . . . . . . . . . . . . . . . . . . . . . 188
Références bibliographiques
192
Table des figures
8
I.1
Exemple de fonctions de risque instantané. . . . . . . . . . . . . . . . . . . . .
II.1
Modèle à deux risques concurrents : le cancer étudié et les autres causes de
décès. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
III.1 Taux de mortalité d’individus masculins issus des tables américaines entre
1940 et 2004. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
III.2 Taux de mortalité d’individus masculins issus des tables américaines stratiﬁées
sur l’ethnie en 2004. Comparaison avec les taux de la population globale. . . .
III.3 Taux de mortalité d’individus masculins issus des tables construites et des
tables américaines stratiﬁées ou non sur l’ethnie en 2004. . . . . . . . . . . . .
III.4 Répartition de la variable X selon la classe de la variable age en cas de corrélation positive et négative. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
III.5 Forme du taux de base λ0 choisi pour générer les temps de survie en excès,
TE,i : fonction de Weibull généralisée avec ρ = 0, 5, α = 0, 2 et κ = 2. . . . . .
III.6 Biais relatifs pour l’estimation de l’eﬀet de age sur la mortalité en excès dans
la simulation de référence et dans la simulation où des tables diﬀérentes sont
utilisées dans les étapes de génération et d’estimation. . . . . . . . . . . . . .
III.7 Biais relatifs pour l’estimation de l’eﬀet de X sur la mortalité en excès dans
la simulation de référence et dans la simulation où des tables diﬀérentes sont
utilisées dans les étapes de génération et d’estimation. . . . . . . . . . . . . .
III.8 Tables construites pour l’étape de génération dans les cas où la proportion
d’individus ayant la modalité X = 0 est de 10% et de 90%. . . . . . . . . . . .
36
37
39
41
43
61
62
63
V.1
V.2
V.3
V.4
V.5
V.6
V.7
V.8
V.9
V.10
V.11
V.12
V.13
V.14
V.15
V.16
V.17
V.18
Exemple illustratif d’une zone géographique présentant des communes où la
survie nette est élevée (en vert) ou faible (en rouge). . . . . . . . . . . . . . . 109
Exemple illustratif de découpage d’une zone géographique présentant deux
clusters où la survie nette est élevée (cluster avec communes en vert) ou faible
(cluster avec communes en rouge). . . . . . . . . . . . . . . . . . . . . . . . . 110
Salaire de joueurs de baseball en fonction du nombre de coups sûrs et du
nombre d’années passées en ligue majeure. Les salaires les plus faibles sont en
violet et bleu, les salaires « moyens » sont en vert et les plus élevés sont en
orange et rouge. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
Un arbre de régression obtenu à partir du jeu de données « Hitters ». . . . . . 114
« Arbre maximal » obtenu à partir du jeu de données « Hitters » avec 6 variables explicatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données
« Hitters » avec 6 variables explicatives. . . . . . . . . . . . . . . . . . . . . . 117
Arbre optimal obtenu à partir du jeu de données « Hitters » avec 6 variables
explicatives. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Exemple illustratif : création, à partir du jeu de données « Hitters », d’un
cluster géographique de salaires élevés (zone grise). . . . . . . . . . . . . . . . 118
Arbre maximal obtenu à partir du jeu de données « Hitters » avec 8 variables
explicatives, dont des coordonnées planaires. . . . . . . . . . . . . . . . . . . . 119
Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données
« Hitters » avec 8 variables explicatives, dont des coordonnées planaires. . . . 120
Arbre optimal obtenu à partir du jeu de données « Hitters » avec 8 variables
explicatives, dont des coordonnées planaires. . . . . . . . . . . . . . . . . . . . 120
Découpage géographique obtenu à partir du jeu de données « Hitters » avec 8
variables explicatives, dont des coordonnées planaires. . . . . . . . . . . . . . 121
Arbre obtenu à partir du jeu de données « Stage C prostate cancer » avec
CP =0,042. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Exemple d’arbre de régression produit par l’algorithme SpODT « survie nette ».149
Exemple de découpage produit par l’algorithme SpODT « survie nette » sans
greﬀe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Exemple de découpage produit par l’algorithme SpODT « survie nette » avec
greﬀe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Bande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
Disque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
V.19
V.20
V.21
V.22
V.23
V.24
V.25
V.26
V.27
V.28
V.29
V.30
V.31
V.32
V.33
B.1
B.2
B.3
B.4
B.5
B.6
V-shape. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rotated Square . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Bande « élargie ». . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette »
avec paramètres (3, 1, 1) lorsque le cluster est une bande. . . . . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (3, 10, 10) lorsque le cluster est une bande. . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre
CP =0,002 lorsque le cluster est une bande. . . . . . . . . . . . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette »
avec paramètres (5, 1, 1) lorsque le cluster est un disque. . . . . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (5, 1, 1) lorsque le cluster est un disque. . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre
CP =0,002 lorsque le cluster est un disque. . . . . . . . . . . . . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette »
avec paramètres (4, 1, 1) lorsque le cluster est un V-shape. . . . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (4, 1, 1) lorsque le cluster est un V-shape. . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre
CP =0,01 lorsque le cluster est un V-shape. . . . . . . . . . . . . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette »
avec paramètres (5, 1, 1) lorsque le cluster est un rotated square. . . . . . . . .
Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec paramètres (5, 1, 1) lorsque le cluster est un rotated square. . . . .
Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre
CP =0,004 lorsque le cluster est un rotated square. . . . . . . . . . . . . . . .
Exemple illustratif d’une zone géographique présentant trois communes
survie nette est élevée. . . . . . . . . . . . . . . . . . . . . . . . . . . .
Angle critique θ16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rotation de l’axe des abscisses d’angle θ inférieur à θ16 . . . . . . . . . .
Rotation de l’axe des abscisses d’angle θ supérieur à θ16 . . . . . . . . .
Exemple naïf : 8 points à « séparer ». . . . . . . . . . . . . . . . . . . .
Découpage du plan en plusieurs secteurs angulaires. . . . . . . . . . . .
où la
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
152
152
153
158
158
158
160
160
160
161
161
161
163
163
163
177
178
179
179
180
180
B.7
B.8
Ordre des abscisses avant rotation. . . . . . . . . . . . . . . . . . . . . . . . .
Ordre des « abscisses » projetées sur l’axe des abscisses qui a subi une rotation
de θ avec θ > θ16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
B.9 Premier découpage déﬁni par la droite violette. . . . . . . . . . . . . . . . . .
B.10 Les deux premiers découpages déﬁnis par les droites violettes. . . . . . . . . .
B.11 Les trois découpages déﬁnis par les droites violettes. . . . . . . . . . . . . . .
B.12 Découpages et segments candidats à la greﬀe. . . . . . . . . . . . . . . . . . .
D.1
D.2
D.3
181
182
182
183
183
184
Arbre obtenu par la méthode SpODT « survie nette » sur données réelles de
l’Isère (patients atteints d’un cancer colo-rectal). . . . . . . . . . . . . . . . . 189
Carte obtenue par la méthode SpODT « survie nette » après greﬀe sur données
réelles de l’Isère (patients atteints d’un cancer colo-rectal). . . . . . . . . . . . 190
Estimations de la survie nette estimées par l’estimateur Pohar-Perme (PPE)
pour les cinq classes obtenues par la méthode SpODT « survie nette » sur
données réelles de l’Isère (patients atteints d’un cancer colo-rectal). Les couleurs des cinq courbes représentent les cinq classes trouvées par la méthode et
illustrées par des couleurs identiques sur la ﬁgure D.2. . . . . . . . . . . . . . 191
Liste des tableaux
II.1
III.1
III.2
III.3
III.4
Survies observée (obs) et relative (rel) en Europe pour les néoplasmes malins
diagnostiqués entre 1990 et 1994 – tableau extrait de Sant et al. (2003). . . . . 16
Une observation non « splittée ». . . . . . . . . . . . . . . . . . . . . . . . . .
Une observation « splittée ». . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tableau récapitulatif des diﬀérentes scénarios étudiées dans l’article. . . . . .
Description des données du SEER : patients atteints d’un cancer colorectal
diagnostiqué en 1998. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
III.5 Résultats des analyses sur données réelles du SEER. . . . . . . . . . . . . . .
44
45
59
65
65
IV.1 Comparaison de 2 groupes : proportion de rejet de l’hypothèse nulle au seuil de
signiﬁcativité de 5% pour 2000 simulations de 1000 patients ((H0 ) : ΛE,G=1 =
ΛE,G=2 pour le test proposé et (H0 ) : βG = 0 pour le test du rapport de
vraisemblance). Distribution de l’âge spéciﬁque à chaque scénario : Scénario
1 : 25% de patients entre 40 et 64 ans, 35% de patients entre 65 et 74 ans
et 40% entre 75 et 85 ans ; Scénario 2 : 30 ≤ age ≤ 40 (uniforme) ; Scénario
3 : 65 ≤ age ≤ 80 (uniforme). † : Hazard Ratio de G sur la mortalité en
excès utilisé dans l’étape de génération, où G est la variable représentant les
groupes ; ‡ : Intervalle de conﬁance à 95%. . . . . . . . . . . . . . . . . . . . . 108
V.1
Tableau des paramètres de complexité (sortie R) pour l’exemple des données
« Stage C prostate cancer » où CP désigne le paramètre de complexité, nsplit
désigne le nombre de découpages, rel error mesure l’erreur apparente (erreur
d’entraînement), xerror mesure le taux d’erreur dans la validation croisée et
xstd est l’écart-type de l’erreur de validation croisée. . . . . . . . . . . . . . .
V.2 Répartiton du nombre de communes de petites, moyennes et grandes tailles
dans et hors-cluster dans l’étude de cas. . . . . . . . . . . . . . . . . . . . . .
V.3 Répartiton du nombre de communes de petites, moyennes et grandes tailles
dans et hors-cluster dans l’étude de simulations. . . . . . . . . . . . . . . . . .
V.4 Étude de cas : résultats en termes de performances des trois méthodes lorsque
le cluster est une bande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
V.5 Étude de cas : résultats en termes de performances des trois méthodes lorsque
le cluster est un disque. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
V.6 Étude de cas : résultats en termes de performances des trois méthodes lorsque
le cluster est un V-shape. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
V.7 Étude de cas : résultats en termes de performances des trois méthodes lorsque
le cluster est un rotated square. . . . . . . . . . . . . . . . . . . . . . . . . . .
V.8 Choix des meilleurs paramètres (extrait) pour la méthode SpODT « survie
nette » sur 50 jeux de données pour un cluster de la forme d’une bande. . . .
V.9 Choix des meilleurs paramètres (extrait) parmi 440 combinaisons pour la méthode SpODT « survie observée » sur 50 jeux de données pour un cluster de
la forme d’une bande. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
V.10 Choix des meilleurs paramètres pour la méthode CART sur 50 jeux de données
pour un cluster de la forme d’une bande. . . . . . . . . . . . . . . . . . . . . .
V.11 Simulations : résultats pour 1000 jeux de données en termes de performances
des trois méthodes lorsque le cluster est une bande. . . . . . . . . . . . . . . .
C.1
121
154
154
157
159
159
162
164
164
165
166
Choix des meilleurs paramètres parmi 90 combinaisons pour la méthode SpODT
« survie nette » sur 50 jeux de données pour un cluster de la forme d’une bande.187
Valorisation scientifique
Publications
• Graﬀéo, N., Jooste, V., and Giorgi, R. (2012). The impact of additional life-table variables on excess mortality estimates. Statistics in medicine, 31(30) :4219-4230
• Gaudart, J., Graﬀéo, N., Coulibaly, D., Barbet, G., Rebaudet, R., Dessay, N., Doumbo
O.K. and Giorgi, R. SPODT : an R-package to perform spatial partitioning. (révisions
mineures dans Journal of Statistical Software)
• Graﬀéo, N., Castell, F., Belot, A. and Giorgi, R. A log-rank type test to compare net
survival distributions. (soumis)
Communications orales
• (Invitée) Graﬀéo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net
survival distributions. Statistics seminars / ARC Seminar « Semiparametric inference for
survival and cure models », Université Catholique de Louvain (Belgique, 2014)
• Graﬀéo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net survival
distributions. ENCR Scientiﬁc Meeting and General Assembly, Ispra (Italie, 2014))
• Graﬀéo N, Castell F, Belot A, Giorgi R and the CENSUR working survival group.
Generalization of a log-rank type test to compare net survival distributions. 35th annual
conference of International Society for Clinical Biostatistics, Vienne (Autriche)
• Graﬀéo N, Gaudart J, NDiaye K, Giorgi R and the CENSUR working survival group.
Oblique Decision Trees for Spatial Clusters Detection of Net Cancer Survival Rates. 35th
annual conference of International Society for Clinical Biostatistics, Vienne (Autriche,
2014))
• Touraine C, Graﬀéo N, Giorgi R and the CENSUR working survival group. An excess
hazard model adjusting for lack of additional life table variables. 35th annual conference
of International Society for Clinical Biostatistics, Vienne (Autriche, 2014)
• (Invitée) Graﬀéo N, Giorgi R. Non-matching life tables and impact. European Partnership for Action Against Cancer WP9 Satellite Meeting, State of Art of Methods for the
Analysis of Population-Based Cancer Data, Ispra (Italie, 2014)
• Graﬀéo N, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. 34th annual conference of International Society for Clinical Biostatistics, Munich
(Allemagne, 2013)
• Giorgi R, Graﬀéo N. The impact of additional life table variables on excess mortality estimates. 32th annual conference of International Society for Clinical Biostatistics, Ottawa
(Canada, 2011)
• Giorgi R, Graﬀéo N. The impact of additional life table variables on excess mortality
estimates. Workshop on Methods for investigation of the inﬂuence of social environment
on cancer risk, management and prognosis with data from cancer registries. Groupe des
Registres de Langue Latine, Caen (France, 2011)
Package
• Gaudart, J., Graﬀéo, N., Barbet, G., Fichet, B., and Giorgi, R. (2014). SPODT : Spatial
Oblique Decision Tree. R package version 0.9.
Abréviations et notations
Projets/Financements
CENSUR
Challenges in the Estimation of Net SURvival
ANR-12-BSV1-0028
coord : Pr. Roch Giorgi
COMPNETS Tests de comparaisons de la survie nette par cancer INCa SHS-E-SP 2013
coord : Pr. Roch Giorgi
DISSNET
Spatial health DISparities : method for analysis
Cancéropôle PACA
of geographic variations of NET cancer survival
coord : Pr. Roch Giorgi
MESURE
Méthodes d’Estimation de la SURvie RElative
ANR-09-BLAN-0357-01
coord : Pr. Roch Giorgi
Abréviations
CART
EUROCARE
FN
FP
Francim
GLM
HCL
HR
IC95%
INCa
InVS
RMSE
SEER
SpODT
VN
VP
vs.
Classiﬁcation And Regression Tree
EUROpean CAncer REgistry
Faux Négatifs
Faux Positifs
France–cancer–incidence et mortalité
Modèle linéaire généralisé (Generalized Linear Model)
Hospices Civils de Lyon
Rapport des risques instantanés (Hazard ratios)
Intervalle de conﬁance au seuil de signiﬁcativité 0,95
Institut National du Cancer
Institut national de Veille Sanitaire
Erreur quadratique moyenne (Root Mean Square Error)
Surveillance, Epidemiology and End Results
Spatial Oblique Decision Tree
Vrais Négatifs
Vrais Positifs
versus
Notations
1()
u+
n
Ti
Ci
Ui
δi
TE,i
TP,i
Xi
Di
fonction indicatrice
= 1 si u > 0
= 0 sinon
eﬀectif
durée de survie du patient i
temps de censure du patient i
temps d’observation du patient i
statut du patient i
temps de survie du patient i lié au cancer
temps de survie du patient i lié à la mortalité attendue dans la population générale
vecteur des covariables (facteurs pronostiques) du patient i
vecteur des covariables démographiques du patient i
Au niveau individuel
S̃O,i
S̃E,i
S̃P,i
λ̃O,i
λ̃E,i
λ̃P,i
Λ̃O,i
Λ̃E,i
Λ̃P,i
fonction de survie observée individuelle du patient i
fonction de survie nette individuelle du patient i
fonction de survie attendue individuelle du patient i
taux instantané de mortalité observée individuel du patient i
taux instantané de mortalité en excès individuel du patient i
taux instantané de mortalité attendue individuel du patient i
taux cumulé de mortalité observée individuel du patient i
taux cumulé de mortalité en excès individuel du patient i
taux cumulé de mortalité attendue individuel du patient i
Au niveau de la population
SO
SE
SP
λO
λE
λP
ΛO
ΛE
ΛP
fonction de survie observée
fonction de survie nette
fonction de survie attendue
taux instantané de mortalité observée
taux instantané de mortalité en excès
taux instantané de mortalité attendue
taux cumulé de mortalité observée
taux cumulé de mortalité en excès
taux cumulé de mortalité attendue
Introduction générale
Le cancer, maladie décrite depuis l’Antiquité, doit son nom à Hippocrate (460-377 avant
J-C) qui, en comparant l’aspect de certaines tumeurs à un crabe, leur a donné les noms grecs
de « karkinos » et « karkinoma ». Sur le plan biologique, la maladie se caractérise par une
production cellulaire excessive, anarchique et incontrôlée ; on parle alors de tumeur maligne par
opposition aux tumeurs bénignes qui sont limitées et localisées. En l’absence d’intervention ou
en cas d’échec thérapeutique, la maladie évolue. Pour décrire le « niveau » de la maladie, on
distingue des stades, qui dépendent de l’étendue et du volume de la tumeur. Grossièrement 3 ,
les quatre stades sont d’après l’Institut National du Cancer (INCa) 4
1. le stade I qui correspond à une tumeur unique et de petite taille ;
2. le stade II qui correspond à un volume local plus important ;
3. le stade III qui correspond à un envahissement des ganglions lymphatiques ou des tissus
avoisinants ;
4. le stade IV qui correspond à une extension plus large dans l’organisme sous forme de
métastases.
Dans une étude de l’Institut de Veille Sanitaire (InVS) sur l’incidence des cancers et la
mortalité en France entre 1980 et 2012, Binder-Foucard et al. (2013) ont estimé le nombre de
nouveaux cas de cancer à 355 354, ce qui constitue une hausse d’environ 110% par rapport à
l’année 1980. Ils ont expliqué cette hausse par l’augmentation et le vieillissement de la population (la majorité des cas survenant chez les patients âgés).
3. Il existe une déﬁnition médicale plus rigoureuse qui repose sur le TNM, système de classement combinant
l’extension tumorale locale (T1 à T4), régionale – ganglionnaire – (N0 à N3) et métastatique (M0 ou M1).
4. http://www.e-cancer.fr/cancerinfo/les-cancers/generalites/les-etapes-de-la-maladie
1
Introduction générale
Première cause de mortalité en France chez les hommes et deuxième chez les femmes, les cancers causent près de 150 000 décès chaque année. Dans le monde, en 2012, les cancers ont
causé 8,2 millions de décès (International Agency for Research on Cancer, 2014). Une étude
du groupe EUROCARE (EUROpean CAncer REgistry) a montré que la mortalité associée au
cancer diminue en Europe, même si des diﬀérences subsistent entre pays (De Angelis et al.,
2014). Ce recul est attribué à des avancées majeures dans le traitement du cancer mais aussi à
l’instauration de programmes de dépistage. Des disparités se retrouvent, à un niveau moindre,
en France où le troisième Plan cancer 2014-2019 accorde une place importante à la lutte contre
les inégalités face au cancer (Plan Cancer, 2014) : « Le combat contre les inégalités de santé et
d’accès aux soins constitue l’un des enjeux prioritaires de la stratégie nationale de santé. C’est
également une priorité ﬁxée par le président de la République pour ce Plan cancer conçu comme
« un véritable Plan de lutte contre les inégalités ». La volonté de réduire les inégalités sociales,
territoriales et économiques face à la maladie se traduit dans tous les domaines, qu’il s’agisse
de prévention, de dépistages ou de soins. »
Au niveau mondial, ce sont les registres de cancer qui sont chargés de la surveillance épidémiologique des cancers et du recueil des nouveaux cas dans une zone géographiquement déﬁnie.
On peut notamment citer le programme américain SEER (Surveillance, Epidemiology and End
Results) qui collecte et publie des données sur l’incidence des cancers et des données de survie
à partir de registres de cancer, recouvrant ainsi 28% de la population des États-Unis (SEER
Program, 2006). Un autre exemple est celui du groupe EUROCARE dont la base de données
contient approximativement 22 millions de patients diagnostiqués entre 1975 et 2007 (données
fournies par 177 registres de cancer de 29 pays européens). En France, les registres de cancer
sont regroupés dans le réseau Francim (FRANce-Cancer-Incidence et Mortalité). En 2012, le
réseau comportait 14 registres généraux métropolitains couvrant 15 départements répartis sur
l’ensemble du territoire et 12 registres spécialisés dont 2 registres nationaux de l’enfant 5 . Les
données collectées par les registres sont rassemblées dans une base commune gérée par le service
de Biostatistique des Hospices civils de Lyon (HCL). Cette base est administrée par le réseau
Francim, les HCL, l’InVS et l’INCa. Cette approche centralisée a facilité l’émergence de projets
collaboratifs. Ainsi, la première étude de survie portant sur l’ensemble des données des registres
de cancer du réseau Francim a été publiée en 2007 (Grosclaude et al., 2007).
5. Données provenant du site de l’InVS, accessibles via l’url
http://www.invs.sante.fr/Dossiers-thematiques/Maladies-chroniques-et-traumatismes/Cancers/
Surveillance-epidemiologique-des-cancers/Incidence-observee-dans-les-registres/Incidenceobservee-dans-les-departements-couverts-par-les-registres-Francim-entre-1978-1982-et-20082009
2
Introduction générale
Une mesure clé de l’eﬃcacité des systèmes de soins de santé utilisée par les registres de cancer
dans le monde et, plus généralement, dans les études sur population, est l’estimation de la survie
nette. La survie nette représente la survie qui serait observée dans un monde hypothétique
où l’on ne pourrait décéder que de la maladie étudiée. Ce concept purement théorique est
essentiel dès que l’on souhaite comparer la survie associée au cancer étudié entre plusieurs
périodes, plusieurs pays ou plusieurs zones d’un même pays (voir par exemple Grosclaude
et al., 2013; De Angelis et al., 2014; Coleman et al., 2008; Young et al., 1986). En eﬀet, parmi
les causes identiﬁées de l’inégalité face à la mortalité due au cancer, on retrouve notamment des
facteurs socio-économiques, l’ethnicité ou encore des facteurs environnementaux. Cependant,
ces facteurs peuvent aussi impacter la mortalité de toute une population et lorsque l’on observe
une diﬀérence de mortalité entre des patients suivis par deux registres de cancer par exemple,
il est nécessaire de diﬀérencier :
– la part due à la mortalité générale i.e. à d’autres causes de décès que le cancer étudié
(auxquelles toute la population est soumise) ;
– la part due au cancer étudié, appelée mortalité en excès.
Ainsi, en s’aﬀranchissant des autres causes de décès, la survie nette se situe dans un cadre qui
ne correspond pas à la réalité mais qui permet des comparaisons entre pays et périodes. Par
exemple, supposons que l’on souhaite étudier l’eﬃcacité d’une campagne de dépistage à une
période donnée et que l’on constate une amélioration de la survie après la mise en œuvre de
cette campagne : elle peut être le résultat d’une diminution de la mortalité de la population
générale ou à une diminution de la mortalité due à ce cancer (ou les deux). Mais si l’on constate
une amélioration de la survie nette après la mise en œuvre de cette campagne, cela signiﬁe que
la mortalité associée au cancer était plus élevée avant la mise en œuvre de cette campagne.
Danieli et al. (2012) ont montré que, parmi les estimateurs existants, il n’y a que deux estimateurs consistants de la survie nette : (1) l’estimateur non paramétrique Pohar-Perme (Perme
et al., 2012) ; et (2) l’estimateur paramétrique reposant sur un modèle multivarié ajusté sur des
covariables démographiques (telles que l’âge ou le sexe).
L’objectif de cette thèse était triple :
1. Les deux estimateurs précités reposent sur l’utilisation des tables de mortalité pour approcher la mortalité attendue dans la population générale. Or, ces tables ne fournissent
pas toutes la même « quantité d’information ». Nous avons voulu étudié l’impact que
peut avoir un tel manque d’information sur l’estimation de la survie nette. Nous avons
choisi de le faire en utilisant un modèle multivarié (méthode paramétrique) car notre
intérêt portait plus particulièrement sur les biais potentiels dans l’estimation des eﬀets
3
Introduction générale
des facteurs pronostiques sur la mortalité en excès. C’est ce que nous présentons dans le
Chapitre III.
2. Le principal intérêt de la survie nette résidant dans le fait qu’elle permet des comparaisons entre pays ou régions d’étude (indépendamment de la mortalité attendue dans
les zones considérées), nous avons construit un test statistique permettant de comparer
des distributions de survie nette entre plusieurs groupes. Ce test repose sur l’estimateur
Pohar-Perme et fait l’objet du Chapitre IV.
3. Enﬁn, l’existence de disparités spatiales en matière de survie nette nous a conduit à utiliser le test que nous avions construit dans une méthode de détection de clusters. Nous
présentons cette partie de notre travail dans le Chapitre V.
Les deux premiers chapitres de ce manuscrit constituent une introduction à la survie nette,
concept qui est le cœur de cette thèse. Dans le Chapitre I, nous exposons les notions préliminaires d’analyse de survie que nous utiliserons par la suite. Dans le Chapitre II, nous déﬁnissons
diﬀérents concepts de survie, parmi lesquels celui de la survie nette. Un historique des diﬀérents estimateurs qui ont été proposés pour estimer la survie nette permet de bien comprendre
l’intérêt des estimateurs que nous avons choisi d’utiliser dans nos travaux. Le Chapitre III
est consacré aux tables de mortalité qui sont indispensables dans les estimations de la survie
nette. Nous expliquons le « manque d’information » que peuvent présenter certaines tables et
les méthodes qui ont été proposées pour y remédier. Ces méthodes n’étant généralement pas
applicables par manque de données brutes, nous étudions l’impact de ce manque d’information
sur les estimations des eﬀets de facteurs pronostiques sur la mortalité en excès. Le Chapitre IV
présente deux tests reposant sur l’estimateur Pohar-Perme de la survie nette. Le premier est
une adaptation d’un Z-test et compare des estimations de survie nette à un temps t prédéﬁni.
Le second est un test de type log-rank qui compare les distributions de survie nette entre plusieurs groupes. Sa construction a nécessité une approche utilisant les processus stochastiques.
Enﬁn, dans le Chapitre V, nous proposons une méthode de détection de clusters de survie nette.
Cette méthode est une adaptation de la méthode SpODT (Spatial Oblique Decision Tree), qui
est elle-même une extension de la méthode CART (Classiﬁcation And Regression Tree). La
méthode SpODT fournit des découpages obliques de l’espace, qui sont des zones « diﬀérentes »
en termes de risques ou de survie nette. Notons que du fait de notre intérêt pour cette méthode,
nous avons été impliqués dans certains développements, notamment la création d’un package
R. Les annexes fournissent des compléments et seront indiquées dans les chapitres concernés.
4
Chapitre I
Notions préliminaires
L’analyse de survie est usuellement déﬁnie comme l’étude du délai de la survenue au cours du
temps d’un événement d’intérêt, comme une panne de machine dans le domaine de la ﬁabilité,
ou un décès, une rechute ou une rémission dans le domaine médical. Dans le cadre de cette
thèse, nous considérons que l’évènement d’intérêt est le décès. La caractéristique principale des
données de survie est la présence de « données incomplètes » lorsque l’évènement d’intérêt n’a
pas encore été observé à la ﬁn de l’analyse. Ces données sont dites censurées ; nous reviendrons
plus en détails sur ce phénomène dans un prochain paragraphe.
Dans ce chapitre, nous énoncerons les notions de base requises pour la compréhension des
autres chapitres et donnerons les expressions mathématiques des fonctions d’intérêt en analyse
de survie. Enﬁn, nous exposerons, très brièvement, les principales méthodes d’estimation de la
survie.
1
Notations et déﬁnitions
Pour mener à bien une analyse de survie sur population, il est nécessaire de connaître pour
chaque patient quelques données.
La date d’origine est la date à partir de laquelle le patient est observé. Dans notre cas, cela
correspondra à la date de diagnostic de cancer. Dans le cadre d’essais cliniques, il peut s’agir
de la date d’entrée dans l’étude.
La date des dernières nouvelles est la date la plus récente à laquelle on a recueilli des informations sur le patient. À cette date, nous disposons du statut aux dernières nouvelles. Dans notre
cas, cela signiﬁe que l’on sait si le patient est vivant ou décédé.
La date de point est commune à tous les individus de la cohorte puisqu’il s’agit de la date
d’arrêt de l’étude. À partir de cette date, on ne tient plus compte des informations dont on
peut éventuellement disposer sur certains patients.
5
I.2 Distribution d’une durée de survie
Ces données nous permettent de calculer le recul, qui est le délai entre la date d’origine et la
date de point.
Enﬁn, il est possible de calculer le temps de suivi qui est la durée entre la date d’origine et
– la date des dernières nouvelles si celle-ci est antérieure à la date de point ;
– la date de point sinon.
La durée de survie est la durée entre la date d’origine et la survenue de l’évènement d’intérêt,
c’est-à-dire du décès. Elle correspond au temps de suivi lorsque le décès est observé avant la
date de point.
2
Distribution d’une durée de survie
Soit T une variable aléatoire positive ou nulle représentant une durée de survie. Nous supposerons tout au long de cette thèse que T est absolument continue. Déﬁnissons les fonctions
qui caractérisent la loi de probabilité de T . Notons que chacune d’entre elles peut être obtenue
à partir de l’une des autres.
La fonction de survie S fait correspondre à un temps t la probabilité de survivre jusqu’à l’instant
t:
S(t) = P (T > t).
C’est une fonction monotone, décroissante et continue vériﬁant :
S(0) = 1 et lim S(t) = 0
t→∞
(I.1)
La fonction de répartition F fait correspondre à un temps t la probabilité de décéder avant le
temps t :
F (t) = P (T ≤ t) = 1 − S(t).
La densité de probabilité f est la fonction de t déﬁnie par :
P (t ≤ T < t + h)
.
hց 0
h
f (t) = lim
Elle représente la probabilité instantanée de décéder dans un petit intervalle de temps après
t. En tout point t de continuité de f , on a F dérivable en t et f (t) = F ′ (t) = −S ′ (t). Dans
ce manuscrit, nous ferons l’hypothèse que les durées de survie ont une densité de probabilité
continue.
La fonction de risque instantané, aussi appelée taux instantané ou encore taux de mortalité
6
I.3 Le concept de censure
instantané 1 , et notée λ, est la fonction de t déﬁnie par :
f (t)
d
P (t ≤ T < t + h|T ≥ t)
=
= − ln(S(t)).
hց 0
h
S(t)
dt
λ(t) = lim
Elle représente la probabilité de décéder dans un petit intervalle de temps après t, conditionnellement au fait d’avoir survécu jusqu’au temps t.
La fonction de risque cumulé, aussi appelée taux de mortalité cumulé, est la fonction de t déﬁnie
par :
Z
Λ(t) =
t
0
λ(u)du = − ln(S(t)).
La fonction de survie s’exprime donc en fonction du taux de mortalité cumulé (ou du taux
instantané) par la relation suivante :
S(t) = exp(−Λ(t)) = exp −
Z t
0
λ(u)du .
(I.2)
Hill et al. (1990) citent des exemples concrets de description d’une distribution de survie par
la fonction de risque instantané. Ainsi, un risque constant, représenté par les points bleus sur la
ﬁgure I.1, indique que le risque instantané est indépendant du temps. C’est le cas chez les 5-15
ans dans les populations occidentales où la mortalité est principalement due aux accidents. Un
risque croissant, représenté par les points noirs sur la ﬁgure I.1, est typiquement observé chez
les adultes. À l’inverse, un risque décroissant, représenté par les points rouges sur la ﬁgure I.1,
est caractéristique de la mortalité chez les enfants de moins d’un an.
3
Le concept de censure
La spéciﬁcité des données de survie est que l’on dispose de « données incomplètes » dans
le sens où le décès n’est pas forcément observé durant le temps de suivi. Plusieurs types de
censure existent et nous nous limiterons, dans le cadre de cette thèse, à la censure dite censure
aléatoire à droite.
Soit Ci une variable aléatoire positive ou nulle représentant le temps de censure pour le patient i
et Ti sa durée de survie. La durée Ti est dite censurée à droite si Ci < Ti . Le temps d’observation
du patient i est alors Ui := min(Ti , Ci ) et son statut est donné par δi := 1(Ti ≤ Ci ) qui vaut 1
si le patient est décédé et 0 s’il est censuré.
Les causes de censure à droite sont variées. Dans nos études, nous rencontrerons principa1. Notons que l’on rencontre aussi le terme taux de hasard, anglicisme relatif au terme « hazard rate ».
7
I.3 Le concept de censure
Figure I.1 – Exemple de fonctions de risque instantané.
lement deux causes : la perte de vue et la ﬁn de l’étude. Ainsi, un patient est perdu de vu s’il
quitte l’étude avant observation de l’évènement d’intérêt (ici, le décès). Il est exclu-vivant s’il
est encore vivant à la date de point.
Dans les modèles classiques d’analyse de survie, on fait l’hypothèse de la censure indépendante. La censure est dite indépendante si, sachant qu’une personne est vivante en t et
connaissant ses caractéristiques individuelles, le fait de savoir que cette personne n’est pas censurée ne change pas son taux de mortalité instantané (Andersen et al., 1993). Un exemple de
censure indépendante est donné par une étude où l’on censurerait des patients qui partent vivre
dans un autre pays 2 . À l’inverse, un exemple de censure dépendante est donné par une étude où
l’on censurerait tous les patients dont l’état de santé se dégrade. Les patients qui restent dans
l’étude ne sont plus représentatifs du groupe qui aurait été observé en l’absence de censure :
on s’expose à un biais de sélection et il est probable que l’on surestime alors la survie. Lorsque
2. La censure n’est cependant pas indépendante si le déménagement fait suite à une dégradation de l’état
des patients qui partent ﬁnir leurs jours dans cet autre pays.
8
I.4 Méthodes d’estimation en analyse de survie
Ci et Ti sont indépendants (au sens usuel en probabilité), la censure est indépendante (au sens
déﬁni ci-dessus). C’est une condition suﬃsante mais pas nécessaire. Nous y reviendrons dans la
remarque I.2 (section 4.2) où nous développerons cette notion d’indépendance dans le cas où
l’on prend en compte les caractéristiques individuelles des patients.
Notons qu’il existe une notion « voisine » qui est celle de la censure non informative. Nous
adoptons la déﬁnition selon laquelle la censure est non informative si la connaissance de la loi
de la durée de survie n’apporte aucune information sur celle du temps de censure, et réciproquement. Même si ces deux notions (« indépendante » vs. « non informative ») ne sont théoriquement pas équivalentes, elles sont souvent confondues en pratique 3 . En fait, des exemples
réalistes de mécanismes informatifs mais indépendants sont diﬃciles à construire (voir Kalbﬂeisch and Prentice, 2002). Aﬁn d’éviter toute confusion, nous éviterons le terme de « censure
non informative » dans cette thèse et, lorsqu’il sera employé, nous considérerons qu’il s’agit en
fait de « censure indépendante ».
4
Méthodes d’estimation en analyse de survie
Nous mentionnons ici, très succinctement, les principales méthodes d’estimation en analyse
de survie. En eﬀet, celles-ci trouvent des développements dans notre travail.
4.1
4.1.1
Modèles univariés
L’estimation de Kaplan-Meier
L’estimateur de Kaplan-Meier est un estimateur non paramétrique de la fonction de survie.
Le principe de la méthode repose sur l’idée qu’être encore en vie après un instant t, c’est être
en vie juste avant cet instant t et ne pas mourir à cet instant. Ainsi, la survie à un instant
quelconque est le produit de probabilités conditionnelles de survie de chacun des instants précédents.
Il en découle l’estimateur :
b
S(t)
=
Y
ni − di
,
ni
ti <t
3. Des déﬁnitions plus rigoureuses existent (voir, par exemple, Andersen et al., 1993). Elles s’appuient sur
des concepts avancés dans la théorie des processus, concepts que nous avons choisi de ne pas exposer dans le
cadre de cette thèse.
9
I.4 Méthodes d’estimation en analyse de survie
où
– ti représente le temps de suivi depuis l’inclusion dans l’étude pour chaque patient i ;
– ni est le nombre de sujets à risque de présenter l’évènement étudié à l’instant ti , i.e. le
nombre de patients n’ayant pas encore subi l’évènement ni la censure juste avant ti ;
– di est le nombre de décès au temps ti .
L’évolution de l’estimation de la survie par l’estimateur de Kaplan-Meier en fonction du temps
est représentée par une courbe « en escalier », avec une marche à chaque temps de décès observé.
Pour comparer plusieurs courbes de survie, on peut utiliser le test du log-rank, test que nous
exposerons au Chapitre IV.
4.1.2
L’estimation de Nelson-Aalen
Une autre estimation du risque cumulé est donné par l’estimateur de Nelson-Aalen déﬁni
par :
X di
b
A(t)
=
.
ti <t ni
Nous reviendrons sur l’estimateur de Nelson-Aalen dans le chapitre suivant.
Remarque I.1 On peut se demander quel est le lien avec l’estimateur de Kaplan-Meier. En
b
fait, Breslow (1972) a suggéré un estimateur de la fonction de survie, noté
! SB (t), déﬁni à partir
Y
di
b
de l’estimateur de Nelson-Aalen : SbB (t) = exp(−A(t))
=
exp −
. Lorsque le nombre de
ni
ti <t
personnes à risque de présenter l’évènement est « grand » par rapport au nombre de décès, les
di
sont voisins de 0. Dans ce cas, les estimateurs de Breslow et Kaplan-Meier sont proches 4
ni
(car au voisinage de 0, exp(−x) est équivalent à 1 − x).
4.2
Modèle multivarié : le modèle de Cox
Le modèle de Cox (1972) permet la prise en compte simultanée de plusieurs covariables sans
faire d’hypothèse sur la forme des fonctions de survie.
Il s’agit d’une méthode de régression multivariée qui, comme une régression linéaire, consiste
à modéliser une variable dépendante (le risque instantané de décès) par une fonction des cova4. Pour une étude détaillée, on se réfèrera à Fleming and Harrington (1984) qui ont étudié et comparé
numériquement ces deux estimateurs.
10
I.4 Méthodes d’estimation en analyse de survie
riables (les facteurs pronostiques 5 qui agissent sur la survie).
On dispose des données usuelles de survie pour chacun des n sujets (la date d’origine, la date
des dernières nouvelles, le statut vital).
En notant Z le vecteur colonne des facteurs pronostiques, le modèle s’écrit :
∀t > 0 λ(t | Z) = λ0 (t) exp(β ′ Z),
(I.3)
où
−
→
– λ0 est le taux de mortalité de base correspondant aux patients pour lesquels Z = 0
(fonction de risque de base commune à tous les patients, ne dépendant que du temps) ;
– β ′ est le vecteur-ligne des paramètres de régression du modèle.
Plus précisément, β ′ = (βj )1≤j≤m où le paramètre βj représente l’eﬀet ajusté du facteur pronostique Zj sur le risque instantané, et m est le nombre de facteurs dans le modèle.
Si Zj est un facteur binaire dont les valeurs 0 et 1 déﬁnissent deux groupes de patients, exp(βj )
est le risque relatif de décès entre ces deux groupes (patients tels que Zj = 1 par rapport aux
patients tels que Zj = 0), ajusté sur les autres facteurs inclus dans le modèle.
Ce modèle sous-tend deux hypothèses :
– la log-linéarité
! de la relation entre fonction de risque instantané et facteurs de risque :
λ(t | Z)
= β ′ Z;
log
λ0 (t)
– la proportionnalité des risques : pour deux patients i et j de caractéristiques Zi et Zj , on
λ(t | Zi )
a:
= exp(β ′ (Zi − Zj )), i.e. les fonctions de risque instantané des deux individus
λ(t | Zj )
i et j sont proportionnelles, et leur rapport de proportionnalité est indépendant de t. Ce
rapport est appelé hazard ratio, et est noté HR.
Deux approches existent concernant l’estimation des paramètres du modèle. L’approche est
dite semi-paramétrique si l’on estime uniquement les HRs en considérant le taux de mortalité
de base comme un paramètre de nuisance. L’approche est dite paramétrique si l’on estime les
HRs et le taux de mortalité de base en supposant que ce dernier suit une loi particulière (loi
de Weibull ou loi exponentielle, par exemple).
Notons qu’il existe un modèle de Cox avec covariables dépendantes du temps. Les HRs
s’interprètent de la même manière. Nous utilisons ce modèle dans la remarque suivante.
Remarque I.2 Revenons à la censure indépendante et au lien entre « censure indépendante »
et « indépendance probabiliste ». Dans l’exemple de la section 3, nous considérions une étude
5. Un facteur pronostique est un aspect de la maladie d’intérêt ou une caractéristique de la personne qui
peut jouer un rôle dans la prévision (par le médecin) de l’évolution probable ou de l’issue de cette maladie.
11
I.4 Méthodes d’estimation en analyse de survie
dans laquelle les patients les plus à risque de décéder étaient censurés. Nous avons vu que la censure n’était pas indépendante. Reprenons maintenant cet exemple en introduisant une variable
x(t) qui représente un indicateur de « mauvaise santé » au temps t. Il n’y a pas indépendance
au sens probabiliste puisque la durée de survie et le temps de censure sont corrélées. Cependant,
l’information additionnelle de ne pas être censuré étant capturée par x(t), λ(t | x(t)) ne change
pas et la censure est indépendante (Kalbﬂeisch and Prentice, 2002). Notons que l’introduction
d’une telle variable modiﬁerait les estimations des eﬀets des autres covariables sur le risque
instantané et serait donc susceptible de masquer ces eﬀets.
12
Chapitre II
La survie nette
1
Concepts de survie
Dans le contexte médical, plusieurs concepts de survie coexistent et mesurent des phénomènes diﬀérents. Rappelons que, dans le cadre de cette thèse, nous considérons que l’évènement
d’intérêt est le décès.
1.1
La survie observée
La survie observée au temps t, ou survie brute, est la proportion de patients vivants au temps
t après le diagnostic, quelle que soit la cause de décès. Par exemple, une personne présentant
un cancer du colon peut décéder de cette maladie mais aussi d’autres causes, spéciﬁques ou
non à sa personne, comme un suicide ou une crise cardiaque. Ainsi, la survie observée est la
résultante de deux forces de mortalité, celle à laquelle nous sommes tous exposés et celle qui
est spéciﬁque à la maladie étudiée (le cancer du colon dans notre exemple). Son interprétation
est aisée mais ne reﬂète pas la mortalité réellement due au cancer.
La mortalité et la survie pouvant se déﬁnir l’une à partir de l’autre (équation I.2), on peut
dériver la mortalité observée de la survie observée.
1.2
La survie nette
La survie nette est la survie qui serait observée dans un monde hypothétique où l’on ne
pourrait décéder que de la maladie étudiée. C’est un concept purement théorique qui est crucial
du point de vue épidémiologique lorsque l’on désire faire des comparaisons entre populations
ou entre périodes dans une même zone géographique. Par exemple, supposons que l’on étudie
13
II.1 Concepts de survie
des patients présentant un cancer colorectal dans deux pays A et B, et que l’on constate une
meilleure survie (observée) dans le pays A. Nous ne savons pas si cette meilleure survie est due
à une faible mortalité de la population générale dans le pays A par rapport au pays B et/ou à
une meilleure eﬃcacité des soins pour ce cancer dans le pays A par rapport au pays B. Mais si
l’on sait que la survie nette est meilleure dans le pays A que dans le B, on peut alors dire que
la mortalité associée au cancer colorectal est plus élevée dans le pays B que dans le A et l’on
peut chercher les raisons de ce phénomène, comme l’utilisation d’un nouveau traitement dans
le pays A par exemple.
La survie nette liée au cancer est l’analogue en termes de survie de la mortalité en excès liée
au cancer.
Le cadre de recherche de cette thèse était l’étude de la survenue du décès après un diagnostic
de cancer dans des études sur population (registres de cancer). Plus précisément, nous nous
sommes intéressés principalement à des enquêtes de cohorte, même si certains points pourraient
être utiles dans le cadre d’essais cliniques, comme nous le verrons dans les chapitres suivants.
Au niveau mondial, les données issues de registres de cancer sont de plus en plus utilisées aﬁn,
notamment, d’étudier et d’améliorer la qualité de la prise en charge des patients au niveau de la
population. On peut citer les travaux du réseau des registres français de cancer FRANCIM, du
projet EUROCARE (EUROpean CAncer REgistry), du programme international CONCORD
et du programme américain SEER (Surveillance, Epidemiology, and End Results) –voir, par
exemple, Grosclaude et al. (2013), De Angelis et al. (2014), Coleman et al. (2008) et Young et al.
(1986). Dans ce contexte, les analyses sont généralement eﬀectuées en utilisant des méthodes
d’estimation de la survie nette, concept qui est le cœur de cette thèse.
Dans la recherche sur le cancer, estimer la survie nette revient à estimer la proportion
de patients qui décèdent, de façon directe ou indirecte (eﬀets du traitement, par exemple),
du cancer en l’absence des autres causes de décès. Il s’agit donc de s’aﬀranchir des autres
causes de décès de la population générale, c’est-à-dire de la mortalité en l’absence de cancer.
La mortalité autres causes est la mortalité que l’on observerait dans un monde hypothétique où
l’on ne pourrait pas décéder de la maladie étudiée. Nous faisons l’hypothèse usuelle que cette
mortalité autres causes est donnée par la mortalité attendue dans la population générale. Cette
dernière est déterminée à l’aide de tables de mortalité, qui seront déﬁnies au Chapitre III. La
maladie étudiée est supposée ne constituer qu’une faible proportion des décès contribuant à
la construction des tables de mortalité de sorte que ces dernières représentent eﬀectivement la
mortalité autres causes (voir, par exemple, Perme et al., 2009).
Remarque II.1 L’hypothèse selon laquelle la mortalité de la population générale est censée
14
II.1 Concepts de survie
reﬂéter la mortalité due aux autres causes de décès n’est parfois pas vériﬁée. C’est le cas, par
exemple, lorsque l’on considère des patients fumeurs atteints d’un cancer des poumons. La mortalité attendue dans la population générale (à sexe et âge identiques) sera plus faible que celle
qu’on attendrait chez ces patients en l’absence de cancer. La survie nette sera donc sous-estimée
pour ces patients.
D’autre part, supposer que la mortalité due à la maladie étudiée ne constitue qu’une faible proportion de la mortalité attendue dans la population générale est une hypothèse forte. Talbäck
and Dickman (2011) ont évalué sur données réelles le biais sur les ratios de survie relative obtenu en incluant dans la mortalité attendue de la population générale les patients atteints d’un
certain cancer. L’importance de ce biais a été interprétée par comparaison à l’amplitude des
intervalles de conﬁance à 95% des ratios de survie relative. Les auteurs ont conclu que le biais
pouvait être ignoré dans la plupart des cas. Ils ont cependant noté qu’il augmentait pour des
patients âgés et pour certains types de cancer (prostate et ensemble des localisations combinées).
En outre, ils ont proposé d’ajuster la mortalité attendue usuellement utilisée en tenant compte
de la proportion de décès dus au cancer étudié dans la population. Il serait intéressant d’étudier
par simulations l’impact d’un écart à cette hypothèse.
Une autre source de biais réside dans l’utilisation de tables de mortalité insuﬃsamment stratiﬁées. Ce problème est présenté et étudié dans le Chapitre III.
La première idée naturelle est d’« éliminer » les décès autres causes en censurant ces observations et d’eﬀectuer notre analyse avec les modèles usuels en survie brute. Cette méthode,
appelée méthode de la survie spéciﬁque, nécessite de connaître la cause exacte du décès. Mais
cette cause est souvent imprécise, dans le cas de pathologies multiples par exemple (Percy
et al., 1981). Un autre exemple est celui d’un décès faisant suite à des complications dues à une
chimiothérapie. La question qui se pose alors est de classer le cancer comme cause primaire du
décès ou non. Par ailleurs, la cause du décès est liée au codage qui peut varier d’un pays à un
autre. Dans ce contexte, la méthode de la survie spéciﬁque apparaît comme peu ﬁable (Sarfati
et al., 2010) et des méthodes ne requérant pas la connaissance de la cause du décès ont été
développées pour estimer la survie nette.
1.3
La survie relative
La notion de survie relative, ou survie corrigée, est apparue dès le milieu du XXème siècle
(Berkson, 1942; Berkson and Gage, 1950). La survie relative a été déﬁnie comme le ratio de la
survie observée pour le groupe de patients étudiés sur la survie attendue dans la population
15
II.1 Concepts de survie
Europe, country-weighted observed and relative survival (%), by age at diagnosis (years)
AGE
15-44
obs
45-54
55-64
65-74
75-99
rel
obs
rel
obs
rel
obs
rel
obs
rel
Men
One year
Three years
Five years
79 79
65 65
60 61
65
46
40
65
46
41
61
42
35
62
44
39
57
39
31
59
44
38
48
29
20
54
40
36
Women
One year
Three years
Five years
90 90
78 78
72 73
86
72
66
86
73
67
77
62
55
77
64
58
67
51
44
68
54
48
49
32
24
54
41
38
Persons
One year
Three years
Five years
84 84
71 71
66 67
75
58
52
75
59
53
68
52
45
69
53
48
62
45
37
63
49
43
49
30
22
54
41
37
Tableau II.1 – Survies observée (obs) et relative (rel) en Europe pour les néoplasmes malins diagnostiqués
entre 1990 et 1994 – tableau extrait de Sant et al. (2003).
générale, l’hypothèse étant faite que la population générale a une mortalité similaire à celle du
groupe de patients étudiés s’ils n’avaient pas la maladie. On dit que la survie de la cohorte
est « corrigée » par sa survie attendue issue des tables de mortalité de la population générale.
Pour des patients « jeunes », les survies observée et relative sont proches. Ainsi, dans une étude
analysant la survie de 1 815 584 patients adultes avec un diagnostic de cancer établi entre
1990 et 1994 dans 22 pays européens, Sant et al. (2003) ont montré que survie relative et
survie observée pour tous les néoplasmes malins ne diﬀèrent qu’à partir de 55 ans, âge à partir
duquel la mortalité autres causes devient suﬃsamment élevée pour impacter ces résultats (voir
le tableau II.1).
Historiquement, la survie spéciﬁque et le ratio de survie relative étaient considérés comme des
estimateurs de la survie nette. Mais, en 2012, Perme et al. (2012) ont établi de façon théorique
que, la plupart du temps, ces estimateurs n’estiment pas la survie nette. Nous allons brièvement
passer en revue les principaux estimateurs qui ont été proposés pour estimer la survie nette.
16
II.2 Notations et déﬁnitions
Pour cela, nous avons d’abord besoin de poser quelques notations et déﬁnitions supplémentaires.
2
Notations et déﬁnitions
Soit une cohorte de n patients atteints d’un cancer donné dans le contexte d’une étude sur
population. Plaçons-nous tout d’abord au niveau individuel.
2.1
Au niveau individuel
Comme nous l’avons fait dans le Chapitre I, notons Ti et Ci la durée de survie et le temps
de censure pour un patient i. Nous avons vu dans le paragraphe précédent que le patient peut
décéder de son cancer ou d’une autre cause. Un décès « autre cause » empêchant la survenue
d’un décès dû au cancer (et réciproquement), Ti apparaît comme le minimum de deux temps
distincts : TE,i son temps de survie lié au cancer et TP,i son temps de survie lié à la mortalité
attendue dans la population générale. Le temps observé est donc Ui = min(TE,i , TP,i , Ci ) et
son statut est donné par δi = 1(Ti ≤ Ci ).
Pour chaque patient étudié, nous connaissons le temps de suivi, le statut vital et la date d’origine. Certaines caractéristiques démographiques comme le sexe et l’âge sont aussi disponibles.
D’autres caractéristiques sont potentiellement connues : certaines relatives au cancer étudié
(par exemple, le stade) et d’autres plus générales (par exemple, le statut marital). Nous disposons ainsi, pour chaque patient i, d’un vecteur de covariables noté Xi . Considérons Di le
sous-vecteur de Xi constitué des covariables démographiques, de sorte que TP,i est indépendant
de Xi \ Di .
Nous supposons que :
– les (TE,i , TP,i , Ci , Xi )i sont i.i.d. (indépendants et identiquement distribués) ;
– les temps de survie TE,i et TP,i sont conditionnellement indépendants sachant Xi ;
– les temps de censure Ci sont indépendants du couple (Ti , Xi ).
On en déduit que la fonction de censure est déﬁnie par :
∀i ∈ [[1; n]], SC (t) = SC,i (t) = P (Ci > t).
Dans la suite de ce manuscrit, nous utiliserons le symbole « ~ » pour indiquer que la fonction
d’intérêt est déﬁnie conditionnellement aux covariables.
17
II.2 Notations et déﬁnitions
La fonction de survie observée individuelle 1 est déﬁnie par :
∀i ∈ [[1; n]], S̃O,i (t) = P (Ti > t | Xi )
La fonction de survie nette individuelle fait correspondre à un temps t la probabilité de survivre
au cancer conditionnellement à ses covariables :
∀i ∈ [[1; n]], S̃E,i (t) = P (TE,i > t | Xi ).
Notons que la lettre « E » indique qu’il s’agit de la survie associée à la mortalité en excès. Λ̃E,i
et λ̃E,i désignent alors, respectivement, le taux cumulé de mortalité en excès individuel et le
taux instantané de mortalité en excès individuel correspondants.
De la même façon, la fonction de survie attendue individuelle est la fonction qui fait correspondre à un temps t la probabilité de survivre à des décès autres que le cancer étudié
conditionnellement aux covariables :
∀i ∈ [[1; n]], S̃P,i (t) = P (TP,i > t | Xi ).
Notons que S̃P,i (t) = P (TP,i > t | Di ), puisque TP,i est indépendant de Xi \ Di . Λ̃P,i et
λ̃P,i désignent alors, respectivement, le taux cumulé de mortalité attendue individuel et le taux
instantané de mortalité attendue individuel correspondants.
Puisque TE,i et TP,i sont conditionnellement indépendants sachant Xi , on a :
∀i ∈ [[1; n]], S̃E,i (t) =
S̃O,i (t)
.
S̃P,i (t)
Notons que nous retrouvons ici le ratio de survie relative. Plus précisément, au niveau individuel,
la survie relative et la survie nette coïncident.
De façon équivalente, si λ̃O,i désigne le taux instantané de mortalité observée individuel, en
utilisant la relation (I.2), on obtient un modèle additif sur les taux, c’est-à-dire :
∀i ∈ [[1; n]], λ̃O,i (t) = λ̃P,i (t) + λ̃E,i (t).
(II.1)
1. De façon rigoureuse, il s’agirait plutôt de la survie individuelle « observable » puisque relative à Ti et non
pas à Ui . Cependant, nous adoptons la terminologie usuelle de survie observée.
18
II.2 Notations et déﬁnitions
2.2
Au niveau de la population
Pour l’ensemble de la cohorte, la survie nette est déﬁnie par :
SE (t) = P (TE,1 > t),
et l’on a :
SE (t) = E S̃E,1 (t) .
En eﬀet, puisque les TE,i ont la même distribution (∀i ∈ [[1; n]]), on a :
E S̃E,1 (t) = E {E [1(TE,1 > t) | X1 ]} = E [1(TE,1 > t)] = P (TE,1 > t).
On note ΛE le taux cumulé de mortalité en excès et λE le taux instantané en excès associés.
Plus précisément, d’après la relation I.2, on a :
SE (t) = exp(−ΛE (t)) = exp −
On en déduit que λE (t) =
SE′ (t)
E λ̃E,1 (t)S̃E,1 (t)
E S̃E,1 (t)
Z t
0
λE (u)du .
sous de « bonnes conditions » 2 . En eﬀet, on sait
Z t
et SE (t) = E exp − λ̃E,1 (u)du
SE (t)
0
est majoré par une fonction intégrable sur R+ .
De la même façon, on déﬁnit la survie attendue par :
que : λE (t) = −
, d’où le résultat si |λ̃E,1 (t)S̃E,1 (t)|
SP (t) = P (TP,1 > t) = E S̃P,1 (t) .
On note ΛP le taux cumulé de mortalité attendue.
Enﬁn, la survie observée est déﬁnie par :
SO (t) = P (T1 > t) = E S̃O,1 (t) .
On note ΛO le taux cumulé de mortalité observée.
Notons qu’au niveau de la population, la survie relative et la survie nette ne coïncident pas. En
2. Notons que cette relation reste vraie en substituant E par P ou O, avec les quantités déﬁnies ci-après, et
en faisant des hypothèses similaires.
19
II.2 Notations et déﬁnitions
eﬀet, le ratio de survie relative est déﬁni par :
SRS (t) =
!
E S̃O,1 (t)
SO (t)
,
= SP (t)
E S̃P,1 (t)
S̃O,1 (t)
ratio qui est diﬀérent de E
.
S̃P,1 (t)
Notons que le taux cumulé de la survie relative est donné par :
ΛRS (t) = ΛO (t) − ΛP (t).
2.3
Un pas vers les processus de comptage
Aux cours de nos travaux, nous avons été amenés à travailler avec des processus stochastiques, tout d’abord parce que certains estimateurs de survie nette sont écrits sous forme de
processus (comme nous le verrons dans la section suivante), mais aussi parce que, malgré une
apparente complexité, certaines démonstrations sont plus directes (comme nous le verrons dans
le Chapitre IV). Nous introduisons ici uniquement les notions nécessaires à la compréhension
des développements de notre travail 3 .
Soit un n-échantillon soumis à une censure à droite. Deux processus de comptage, N et Y ,
vont intervenir systématiquement dès que nous écrirons des processus.
Le nombre de décès au temps t est donné par :
N (t) =
n
X
Ni (t) où Ni (t) = 1(Ti ≤ t, Ti ≤ Ci ) = 1(Ui ≤ t, δi = 1).
i=1
Le nombre de patients à risque au temps t, ou eﬀectif à risque, est donné par :
Y (t) =
n
X
Yi (t) où Yi (t) = 1(Ti ≥ t, Ci ≥ t) = 1(Ui ≥ t).
i=1
Notons que l’estimateur de Nelson-Aalen, que nous allons retrouver dans l’expression de certains
estimateurs de la survie nette, s’écrit alors :
b
A(t)
=
Z t
0
J(u)
dN (u)
,
Y (u)
3. Aalen (1978) a été le premier à introduire l’étude de la survie en utilisant les processus stochastiques. Son
approche a permis de simpliﬁer des démonstrations antérieures à ses travaux et a ouvert la voie à de nombreuses
applications, comme l’étude du test du log-rank par Gill (1980).
20
II.3 Méthodes d’analyse de la survie nette
J(u)
= 0 si Y (u) = 0.
Y (u)
Par ailleurs, lorsque nous nous intéressons à la survie nette, un autre processus de comptage
intervient. Ainsi, nous pouvons déﬁnir le nombre de décès en excès au temps t, i.e. le nombre
de décès dus au cancer au temps t, par :
où J(u) := 1(Y (u) > 0) et avec la convention
NE (t) =
n
X
1(Ti ≤ t, Ti ≤ Ci , TE,i ≤ TP,i ).
i=1
Remarque II.2 Les processus peuvent être modélisés par la donnée d’un espace probabilisé
(Ω, A, P ), d’un espace probabilisable (E, E), d’un ensemble T et d’une famille de v.a. (Xt )t∈T
de (Ω, A, P ). Dans le cadre de cette thèse, nous nous intéressons à la modélisation des occurrences d’évènements aléatoires dans le temps. Ainsi, nous avons été amenés à étudier des
temps d’évènements continus (T = R+ ) et des espaces d’états dénombrables (E = N) mais aussi
continus (E = R) lorsque nous avons travaillé avec l’estimateur Pohar-Perme déﬁni dans la
section suivante.
3
Méthodes d’analyse de la survie nette
Nous présentons ici les principaux estimateurs qui ont été proposés pour estimer la survie
nette. Comme pour la plupart des méthodes « classiques » en analyse de survie, les méthodes
d’estimation de la survie nette ne sont valides qu’en cas de censure indépendante.
3.1
Survie cause-spéciﬁque
La méthode de survie spéciﬁque suppose la connaissance de la cause du décès et consiste à
censurer les patients qui décèdent d’une autre cause que de la maladie étudiée. Il suﬃt alors de
traiter ces données avec le modèle de Cox (voir équation I.3). Cependant, comme nous l’avons
déjà discuté, supposer la connaissance de la cause du décès est critiquable car cette cause,
lorsqu’elle est disponible, est peu ﬁable. La méthode reste néanmoins utilisée (voir, par exemple,
Pintilie, 2007; Belot, 2009; White et al., 2010). Ayant conscience de ses défauts, Howlader et al.
(2010) ont construit une variable qui prend en compte, à la fois, la cause de décès déclarée, le fait
de savoir si la tumeur est unique ou si elle est suivie d’autres tumeurs, la localisation d’origine
au diagnostic du cancer et la comorbidité. Cette variable est utilisée par le SEER (2014b).
Schaﬀar et al. (2013) disposaient de la cause oﬃcielle de décès et d’une cause « révisée » par
l’examen, en particulier, des certiﬁcats de décès, des rapports d’autopsie ou des informations
21
II.3 Méthodes d’analyse de la survie nette
provenant du médecin généraliste. Ils ont étudié l’impact de l’utilisation de ces deux causes sur
la survie cause-spéciﬁque. Ils ont conclu qu’utiliser la cause « révisée » avait peu d’impact sur
la survie cause-spéciﬁque globale, mais conduisait à de plus fortes diﬀérences lorsque l’analyse
était faite sur des sous-groupes (patients âgés par exemple). Par ailleurs, Van Rompaye et al.
(2012) ont proposé une méthode fondée sur la connaissance de la ﬁabilité de l’information (i.e.
le taux de « mauvaise classiﬁcation ») et un modèle de Cox corrigé.
Mais, la plupart du temps, la méthode de survie spéciﬁque ne respecte pas l’hypothèse de
censure indépendante. Prenons l’exemple d’une cohorte comportant des personnes âgées. La
mortalité « autres causes » de ces patients étant élevée, il y aura beaucoup de décès dus à
d’autres causes que le cancer étudié, et donc beaucoup de censures dues à l’âge. Autrement dit,
la probabilité de survenue d’une censure liée à un décès « autres causes » est dépendante de
l’âge du patient.
Pour comprendre ce qui est réellement estimé lorsque cette méthode est utilisée, écrivons
les quantités d’intérêt dans le cadre des risques concurrents, cadre sur lequel repose cette méthode. Dans ce cadre, un décès dû à une cause autre que le cancer étudié est vu comme un
évènement concurrent, puisque les décès cancer et « autres causes » s’empêchent mutuellement
de se produire. Ce modèle à deux risques concurrents est représenté par la ﬁgure II.1.
Décès cancer : C = K
Patient atteint d’un cancer
Décès « autres causes » : C = K
Figure II.1 – Modèle à deux risques concurrents : le cancer étudié et les autres causes de décès.
On peut s’intéresser à l’incidence cumulée de la cause K en t notée FK et déﬁnie par
P (T ≤ t, C = K). La fonction de risque spéciﬁque à la cause K en présence des autres causes
est déﬁnie par :
P (t ≤ T < t + h, C = K | T ≥ t)
.
λK (t) = lim
hց 0
h
De façon similaire, la fonction de risque spéciﬁque aux autres causes K en présence de K est
donnée par :
P (t ≤ T < t + h, C = K | T ≥ t)
.
λK (t) = lim
hց 0
h
On note ΛK et ΛK les fonctions de risque cumulé spéciﬁques aux causes K et K. Notons que
la survie observée (globale), correspondant à la probabilité d’être encore en vie au temps t, est
donnée par SO (t) = exp (−ΛK (t) − ΛK (t)).
22
II.3 Méthodes d’analyse de la survie nette
Pour calculer l’incidence cumulée FK , nous avons aussi besoin de ΛK (Andersen et al., 2012).
Plus précisément, on a :
Z
FK (t) =
t
0
λK (u)SO (u)du.
En fait, la relation (I.2) n’est plus valide en présence de risque concurrent et 1 − FK (t) n’est pas
une probabilité de survie. En eﬀet, la propriété (I.1) selon laquelle une fonction de survie tend
vers 0 quand le temps devient grand n’est pas vériﬁée, la réalisation de K étant empêchée par
celle de K. Dans la méthode cause-spéciﬁque, l’analyste ne s’intéresse qu’à l’évènement K et le
suivi du patient est censuré par l’occurrence de K. La quantité estimée est exp(−ΛK ) appelée
survie nette observable ; elle ne coïncide avec la survie nette que lorsque λP et λE ne sont pas
aﬀectés par des covariables communes (Perme et al., 2012).
Dans le cadre de nos travaux, nous n’avons pas étudié la méthode de survie spéciﬁque
puisqu’il s’agissait d’étudier des estimateurs consistants de survie nette.
3.2
Méthodes non paramétriques
Historiquement, pour estimer la survie nette, des estimateurs non paramétriques ont d’abord
été proposés : l’estimateur Ederer I (Ederer et al., 1961), l’estimateur Ederer II (Ederer and
Heise, 1959), et l’estimateur d’Hakulinen (Hakulinen, 1982). Examinons chacun d’entre eux.
L’estimateur Ederer I
Il est déﬁni, pour tout t dans R+ , par :
Z t
0
dN (u) Z t
−
Y (u)
0
Pn
i=1
S̃P,i (u)λ̃P,i (u)
du.
i=1 S̃P,i (u)
Pn
Le premier terme correspond à l’estimateur de Nelson-Aalen (cf. paragraphe 2.3). Puisqu’il
s’agit
consistant du taux cumulé de mortalité observée et que λP (u) vaut
d’un estimateur
E S̃P,1 (u)λ̃P,1 (u)
, en faisant tendre n vers l’inﬁni, on obtient que l’estimateur Ederer I est un
E S̃P,1 (u)
estimateur consistant de ΛO (t) − ΛP (t), i.e. du taux cumulé de survie relative.
Une limite de cette méthode est qu’elle ne tient pas compte du temps de suivi des patients
puisqu’un patient décédé avant t participe au calcul de SP (t).
23
II.3 Méthodes d’analyse de la survie nette
L’estimateur Ederer II
Il est déﬁni, pour tout t dans R+ , par :
Z t
0
dN (u) Z t
−
Y (u)
0
Pn
i=1
Yi (u)λ̃P,i (u)
du.
i=1 Yi (u)
Pn
D’après la loi des grands nombres :
n
1X
Yi (u) tend p.s. quand n tend vers l’inﬁni vers E [E (1(T1 ≥ u, C ≥ u|X1 )] i.e. vers
•
n i=1
SC (u)E S̃O,1 (u) ;
n
i
h
1X
Yi (u)λ̃P,i (u) tend p.s. quand n tend vers l’inﬁni vers E λ̃P,1 (u)E (1(T1 ≥ u, C ≥ u|X1 )
•
n i=1
i.e. vers SC (u)E S̃O,1 (u)λ̃P,1 (u) .
L’estimateur Ederer II est donc un estimateur consistant de ΛO (t) −
i.e. de
Z t
E S̃O,1 (u)λ̃E,1 (u)
0
E S̃O,1 (u)
0
E S̃O,1 (t)λ̃P,1 (u)
E S̃O,1 (u)
du,
du, qui représente la survie nette observable. En eﬀet, dans le
cadre des risques concurrents, on a λK (t) =
Z t
Z t
E S̃O,1 (u)λ̃K,1 (u)
Z t
1 dFK (t)
λK (u)SO (u)du, donc
et FK (t) =
SO (t) dt
0
du. Lorsque nous considérons deux causes de décès (cancer et
E S̃O,1 (u)
« autres causes »), λ̃K,1 correspond à λ̃E,1 (car les temps populationnels et en excès sont indépendants conditionnellement aux covariables).
Contrairement au précédent, cet estimateur prend en compte le temps de suivi des patients.
ΛK (t) =
0
L’estimateur d’Hakulinen
Notons, pour chaque patient i, τi son temps de suivi potentiel, i.e. le temps entre son entrée
dans l’étude et la date de point. L’estimateur d’Hakulinen est déﬁni, pour tout t dans R+ , par :
Z t
0
dN (u) Z t
−
Y (u)
0
où
Yi∗∗ (u) =


Pn
i=1
Yi∗∗ (u)λ̃P,i (u)
du,
∗∗
i=1 Yi (u)
Pn
S̃P,i (u)1(min(Ci , τi ) ≥ u) si δi = 0;
 S̃ (u)1(τ ≥ u) sinon .
P,i
i
Sous l’hypothèse d’indépendance des temps de censure et des durées de survie, les estimateurs
d’Hakulinen et Ederer I estiment la même quantité (Perme et al., 2012).
24
II.3 Méthodes d’analyse de la survie nette
Remarque II.3 En utilisant l’équation (I.2), la survie estimée via chacun des ces estimateurs
peut s’écrire comme un ratio de la survie observée estimée et de la survie attendue estimée. La
diﬀérence entre les trois estimateurs vient de la façon dont ils estiment cette survie attendue
(Danieli et al., 2012) :
n
X
S̃P,i (t)
– ŜP (t) =
pour Ederer I ;
n
i=1
Pn
Yi (t)S̃P,i (t)
∗
pour Ederer II ;
– ŜP (t) = i=1
Pn
Yi (t)
i=1
Pn
Ci (t)S̃P,i (t)
∗∗
où Ci (t) = 1(t ≤ τi ) pour Hakulinen.
– ŜP (t) = i=1
Pn
i=1 Ci (t)
L’estimateur Pohar-Perme
Les travaux de Perme et al. (2012) et Danieli et al. (2012) suggèrent que ces estimateurs
ne sont pas des « estimateurs de survie nette » et surestiment en général la survie nette, en
particulier chez les personnes âgées. En eﬀet, l’âge inﬂue sur la mortalité associée au cancer mais
aussi sur la mortalité due aux autres causes. Un décès dû à un âge élevé empêche l’observation
d’un décès qui serait dû au cancer et ceci de façon non aléatoire car les personnes les plus à risque
de décéder du cancer sont aussi les personnes qui sortent de l’étude prématurément à cause
d’un décès autre cause dû à leur âge. L’estimateur Pohar-Perme corrige ce biais en appliquant le
principe de pondération par l’inverse de la probabilité de survie attendue à l’estimateur Ederer
II (Robins, 1993). Il est donné par :
b
Λ
E (t)
n
X
=
Z t
0
dN w (u) Z t
−
Y w (u)
0
n
X
Pn
i=1
Yiw (u)λ̃P,i (u)du
,
Y w (u)
(II.2)
dNi (u)
Yi (u)
, et Yiw (u) =
.
S̃P,i (u)
S̃P,i (u)
i=1
i=1
Intuitivement, en divisant le nombre de personnes à risque par la probabilité de survie attendue
issue des tables de mortalité, on réintroduit de façon ﬁctive dans cet ensemble des personnes
à risque des personnes qui sortent prématurément de l’étude à cause d’une mortalité attendue
élevée. L’estimateur Pohar-Perme est un estimateur consistant de la survie nette.
Du fait de ses qualités (démontrées par Danieli et al., 2012), l’estimateur Pohar-Perme a été
choisi en France et est, notamment, utilisé par les registres français. Une étude collaborative
du réseau FRANCIM, du service de Biostatistique des HCL (Hospices Civils de Lyon), de
l’InVS (Institut de Veille Sanitaire) et de l’INCa (Institut National du Cancer) a été menée et
a produit, via l’estimateur Pohar-Perme, des estimations de survie nette à 5 et 10 ans pour des
patients diagnostiqués entre 1989 et 2004 pour 47 localisations de cancer (Grosclaude et al.,
w
où N (u) =
Niw (u),
w
Y (u) =
Yiw (u) avec dNiw (u) =
25
II.3 Méthodes d’analyse de la survie nette
2013). Ce travail a donné lieu à 3 publications utilisant ce nouvel estimateur (Roche et al.,
2013; Monnereau et al., 2013; Jooste et al., 2013). Des travaux internationaux commencent
aussi à utiliser l’estimateur Pohar-Perme (voir, par exemple, Walters et al., 2013). Par ailleurs,
le groupe EUROCARE a un projet visant à comparer l’impact de l’utilisation de l’estimateur
Ederer II par rapport à l’estimateur Pohar-Perme (Bossard et al., 2013).
Remarque II.4 La question de savoir s’il est préférable d’utiliser l’estimateur Pohar-Perme
plutôt que les estimateurs Ederer I, Ederer II et Hakulinen est discutée par certains. En eﬀet,
selon Dickman and Lambert (2014b), ces derniers estimateurs produisent un biais plus grand
que celui obtenu avec l’estimateur Pohar-Perme pour estimer la survie nette mais une variance
plus faible. Danieli et al. (2012) ont montré, sur une étude de simulations, que les RMSE
(« Root Mean Square Error ») 4 sont, dans la plupart des cas, plus faibles pour l’estimateur
Pohar-Perme (vs. les trois autres) ou très proches dans les autres cas. Ils préconisent donc
l’utilisation de ce nouvel estimateur. Notons qu’il y a un consensus autour du fait que les biais
obtenus en utilisant Ederer II sont faibles 5 .
3.3
Méthodes paramétriques
Les méthodes non paramétriques ont l’avantage de ne nécessiter aucun choix de modélisation. Cependant, lorsque l’on souhaite étudier les eﬀets de certains facteurs pronostiques sur la
mortalité en excès, il devient indispensable d’utiliser des méthodes paramétriques. Nous avons
vu dans le Chapitre I que le modèle de Cox (I.3) permet de modéliser les eﬀets des facteurs
pronostiques dans le cadre de la survie brute. Des modèles, qui peuvent être vus comme des
extensions de ce modèle, ont été proposés dans le cadre de la survie nette. Nous les présentons
ici de façon très succincte. Notons que nous n’abordons que les modèles utilisant les données
individuelles. Ils ont l’avantage, par rapport aux modèles dans lesquels l’unité statistique est
un groupe de patients, de ne pas restreindre l’analyse à des covariables catégorielles.
Les modèles présentés dans ce manuscrit reposent sur l’additivité des taux (II.1) et ne diﬀèrent
que par la façon dont est modélisé le taux instantané en excès. Danieli et al. (2012) ont montré
que l’estimateur reposant sur un modèle multivarié ajusté sur les covariables démographiques
r
2
1 PM où M est le nombre de simulations, ŜE,j (t)
j=1 ŜE,j (t) − SE (t)
M
est l’estimation de la survie nette en t pour la jème simulation, et SE (t) est la valeur théorique de la survie
nette en t.
5. En 2014, au cours du meeting « EPAAC WP9 Satellite Meeting State of Art of Methods for the Analysis
of Population-Based Cancer Data », Dickman and Lambert (2014a) ont présenté une adaptation d’Ederer II
avec une méthode qu’ils appellent « standardisation interne ». Cette nouvelle méthode reste assez ﬂoue et
nécessiterait des analyses sur simulations pour étudier ses performances.
4. Les RMSE sont donnés par
26
II.3 Méthodes d’analyse de la survie nette
(i.e. celles contenues dans la table de mortalité utilisée) est un estimateur consistent de la survie
nette. Nous présentons ici le modèle princeps qui est un modèle multivarié sur données individuelles (Esteve et al., 1990). Par la suite, des modèles ont été construits à partir de ce dernier,
permettant une modélisation plus souple du taux de mortalité de base et s’aﬀranchissant des
hypothèses de proportionnalité et de log-linéarité des risques. Parmi les approches proposées
(Giorgi et al., 2003; Dickman et al., 2004; Lambert et al., 2005; Abrahamowicz and Mackenzie,
2007; Remontet et al., 2007; Mahboubi et al., 2011), nous présentons quatre modèles multivariés
qui ont permis l’ajout de la ﬂexibilité dans la forme du taux de base instantané en excès et/ou
dans l’eﬀet des facteurs pronostiques. Notons que, dans le Chapitre III, nous parlerons d’un
cinquième modèle, présenté dans l’article du même chapitre, et qui est dans la continuité de
celui d’Esteve et al. (1990), dont il ne diﬀère que par la modélisation du taux de base instantané
en excès.
Le modèle d’Estève et al.
Sous l’hypothèse de proportionnalité des risques, Esteve et al. (1990) ont proposé d’écrire, pour
un patient i, le taux instantané en excès en fonction du vecteur β des coeﬃcients associés aux
facteurs pronostiques Zi :

P
λ̃E,i (t) = 
J
X
j=1

′
τj 1(t ∈ Ij ) exp(β Zi ),
où Jj=1 τj 1(t ∈ Ij ) représente le taux de base de mortalité en excès, supposé constant pour
chacun des J intervalles de temps Ij .
Les estimations des paramètres β et τ := (τj )(1≤j≤J) s’obtiennent par maximisation de la
vraisemblance. La log-vraisemblance (en omettant la quantité liée au taux cumulé attendu qui
est indépendante des paramètres) s’écrit :
L(β, τ ) = −
n
X
i=1
Λ̃P,i (t) +
n
X
i=1
h
i
δi log λ̃P,i (t) + λ̃E,i (t) .
Le modèle ﬂexible de Giorgi et al.
Giorgi et al. (2003) ont proposé un modèle dans lequel le taux de base est ﬂexible et l’eﬀet
des covariables peut dépendre du temps, les deux étant modélisés par des fonctions B-splines
quadratiques. Pour écrire le modèle, nous avons besoin de déﬁnir les fonctions qui ont été
27
II.3 Méthodes d’analyse de la survie nette
utilisées. Les fonctions B-splines ont été introduites par De Boor et al. (1978). Giorgi et al.
(2003) ont utilisé des B-splines quadratiques (i.e. d’ordre 3) et ont déﬁni deux nœuds intérieurs
t1 et t2 . Si l’on note [t0 , t3 ] l’intervalle considéré, en posant t−2 = t−1 = t0 et t5 = t4 = t3 , les
cinq fonctions de base (Bj,3 )−2≤j≤2 étaient liées par la relation de récurrence :
∀j ∈ [[−2; 2]] : Bj,3 (t) =
t − tj
tj+3 − t
Bj,2 (t) +
Bj+1,2 (t),
tj+2 − tj
tj+3 − tj+1
avec Bj,1 (t) = 1 si t était dans [tj , tj+1 [, et Bj,1 (t) = 0 sinon. Une fonction B-spline quadratique
avec deux nœuds intérieurs était alors déﬁnie, pour t dans [t0 , t3 ], par une combinaison linéaire
des B-splines de base.
Pour un patient i ayant pour vecteur de covariables (Zi,k )(1≤k≤p) (avec p le nombre de ces
covariables), le taux instantané en excès s’écrivait alors :
λ̃E,i (t) =
2
X
j=−2

νj Bj,3 (t) exp 
p X
2
X
k=1 j=−2

αkj Bj,3 (t)Zi,k  .
L’estimation des paramètres de ce modèle repose sur la méthode du maximum de vraisemblance.
Notons que Lambert et al. (2005) ont proposé un modèle similaire en utilisant des polynômes fractionnaires, que nous ne développerons pas ici.
Ces modèles ne supposent plus que les eﬀets des covariables sont constants par rapport au
temps mais ils supposent toujours que ces eﬀets sont linéaires. Plus précisément, si l’on note
βage l’eﬀet de la covariable age sur la mortalité en excès, que l’on considère deux patients 1 et
2 ayant pour âge a1 et a2 , et que l’on suppose que Z = age, on a :
λ̃E,2 (t)
log
λ̃E,1 (t)
!
= βage (a2 − a1 ).
Par exemple, le taux de mortalité en excès lié à une diﬀérence d’âge de a2 − a1 = 10 ans est
le même que le patient 1 ait a1 = 30 ou a1 = 70 ans. Des modèles ont été proposés pour
s’aﬀranchir de ces deux hypothèses : le modèle additif de Remontet et al. (2007) et le modèle
multiplicatif de Mahboubi et al. (2011).
Le modèle ﬂexible additif de Remontet et al.
Remontet et al. (2007) ont modélisé les eﬀets d’une covariable continue, par exemple age pour
l’âge au diagnostic, avec des fonctions splines cubiques. Une spline est un polynôme par mor-
28
II.3 Méthodes d’analyse de la survie nette
ceaux qui, de même que ses deux dérivées premières, est continue en (ti )1≤m où les ti sont les
m nœuds. Les splines sont des fonctions pouvant approcher un grand nombre de courbes et qui
présentent l’avantage d’être faciles à implémenter. Une spline cubique à un nœud, t1 , est une
fonction de t déﬁnie par :
µ0 + µ1 t + µ2 t2 + µ3 t3 + θ1 (t − t1 )3+ ,
avec
u+ =



(II.3)
si u est strictement positif
si u est négatif
u
0
Pour un patient i, le taux instantané de mortalité en excès au temps t s’écrit alors :
λ̃E,i (t) = λ0E (t) × exp (g(agei ) + h(t) × agei ) ,
où λ0E désigne le taux de base de mortalité en excès. Pour un suivi à 5 ans, par exemple, on
supposera que λ0E et h sont des splines cubiques avec un nœud à 1 an et que g est une spline
cubique avec un nœud à l’âge moyen.
Reprenons l’exemple étudié ci-dessus de deux patients 1 et 2 ayant pour âge centré a1 et a2 .
Avec le modèle de Remontet et al. (2007), on a alors :
λ̃E,2 (t)
log
λ̃E,1 (t)
!
= g(a2 ) − g(a1 ) + h(t)(a2 − a1 ).
g décrit le changement de l’eﬀet de la covariable age sur la mortalité en excès pour des valeurs
croissantes (ou décroissantes) de cette covariable alors que h capture les changements dans le
temps de l’eﬀet de age sur la mortalité en excès.
De façon plus générale, si Z désigne le vecteur des covariables et que l’on note p sa taille, pour
un patient i ayant pour covariables (Zk,i )(1≤k≤p) , le taux instantané en excès s’écrit :
λ̃E,i (t) =
λ0E (t)
× exp
" p
X
k=1
#
(gk (Zk,i ) + hk (t) × Zk,i ) .
Le modèle ﬂexible multiplicatif de Mahboubi et al.
Mahboubi et al. (2011) ont proposé un modèle qui diﬀère du précédent seulement par la
« forme », dans le sens où il est multiplicatif sur les eﬀets des covariables (plutôt qu’additif).
29
II.4 Discussion
Pour un patient i ayant pour covariables (Zk,i )(1≤k) , le modèle s’écrit :
λ̃E,i (t) =
λ0E (t)
× exp
" p
X
k=1
#
(gk (Zk,i ) × hk (t)) .
Les fonctions λ0E , gk et hk sont modélisées par des fonctions B-splines, exposées lors de la
présentation du modèle de Giorgi et al. (2003).
Remarque II.5 Dans le cadre du projet MESURE (Méthodes d’Estimation de la SURvie RElative, ANR-09-BLAN-0357-01, projet coordonné par le Pr. Roch Giorgi), une étude a été
conduite pour comparer les deux modèles précités. Les résultats obtenus sur des jeux de données
réelles sont similaires à ceux obtenus avec le modèle additif.
Remarque II.6 De façon générale, la modélisation par des splines pose la problématique du
choix du nombre de nœuds et de leur position. Dans certains cas, le choix de la position d’un
nœud peut se faire sur une information a priori, par exemple lorsqu’un changement est attendu
au moment de la prise d’un nouveau traitement. Mais, dans la plupart des cas, nous ne disposons pas de cette information a priori et la position des nœuds est choisie à l’aide de critères
dépendants des données (Ramsay, 1988), selon la distribution empirique des temps de décès
observés (Abrahamowicz et al., 1996) ou la distribution empirique des temps de décès observés
et des temps de censure (Hess, 1994; Durrleman and Simon, 1989).
4
Discussion
Danieli et al. (2012) ont montré que, parmi les estimateurs existants, il n’y a que deux
estimateurs consistants de la survie nette : l’estimateur non paramétrique Pohar-Perme et l’estimateur paramétrique fondé sur le modèle multivarié ajusté sur les covariables démographiques.
Le principal avantage de l’estimateur Pohar-Perme est l’absence de stratégie de modélisation.
En eﬀet, un statisticien qui utilise le modèle multivarié ignore les « vraies » formes du taux de
base et des eﬀets des facteurs pronostiques sur la mortalité en excès. En revanche, l’utilisation
de ce modèle a l’avantage de lui fournir une estimation de ces eﬀets. Notons que dans le cadre
de la survie brute comme dans celui de la survie nette, la stratégie de modélisation a donné
lieu à de nombreux travaux (voir, par exemple, Remontet et al., 2007; Royston et al., 2006;
Binquet et al., 2008; Wynant and Abrahamowicz, 2014). Le choix entre les deux estimateurs
précités doit être réalisé en fonction des objectifs de l’étude.
30
Chapitre III
Tables de mortalité
Que ce soit en utilisant un modèle paramétrique ou non, l’estimation de la survie nette
repose sur l’utilisation de tables de mortalité. Ces tables de mortalité de la population générale
sont supposées reﬂéter la mortalité due aux autres causes de décès que la maladie étudiée,
c’est-à-dire la mortalité du patient si la maladie d’intérêt n’existait pas. Cependant, la plupart
du temps, ces tables ne contiennent « pas assez d’information » dans un sens que nous allons
déﬁnir dans ce chapitre. Nous avons étudié l’impact de ce manque d’information, à partir d’un
modèle paramétrique, sur les estimations des eﬀets des facteurs pronostiques sur la mortalité en
excès. Nous avons réalisé cette étude par des simulations dont nous allons expliquer le principe
dans la deuxième partie de ce chapitre. Nous avons complété ce travail par des analyses sur
données réelles.
Nous commençons par poser la problématique et à exposer quelques solutions qui ont été mises
en oeuvre dans des cas bien particuliers.
1
Déﬁnition et problématique
Une table de mortalité est une table donnant, pour chaque âge, un taux de décès déﬁni
comme le rapport de l’eﬀectif des décès observés durant l’année à l’eﬀectif de la population
moyenne durant l’année. Plus précisément, chaque entrée de la table est une probabilité pour
les vivants d’âge x de décéder avant l’âge x + 1. Compte tenu du faible nombre de décès par
rapport aux eﬀectifs de la population, les taux de décès sont souvent donnés pour 100 000
personnes (le numérateur est multiplié par 105 ). Un exemple de table de mortalité est donné
en Annexe A.
Les données nationales pour la France métropolitaine sont transmises par le CépiDc (Centre
d’épidémiologie sur les causes médicales de Décès) de l’INSERM. Elles sont stratiﬁées par âge,
sexe, année, région et département.
31
III.2 Construction de tables de mortalité stratiﬁées sur
un/des facteurs pronostiques
Il serait cependant intéressant d’avoir des tables de mortalité stratiﬁées par d’autres facteurs
pronostiques ayant un impact sur la mortalité. La mortalité due au cancer pouvant varier avec
l’ethnie (Clegg et al., 2002; Doubeni et al., 2007; White et al., 2010), des tables stratiﬁées par ce
facteur pronostique présentent un intérêt. Ainsi, de telles tables sont produites aux États-Unis.
Par ailleurs, d’autres variables comme le niveau socio-économique ou le niveau d’études atteint
peuvent avoir un impact sur la mortalité. Dès 1998, dans une étude empirique comparant trois
méthodes utilisées pour étudier la survie associée au cancer par classe sociale, Dickman et al.
(1998) concluaient que les taux de survie relative sans correction liée à la classe sociale surestimaient les diﬀérences socio-économiques et devraient être utilisés avec précaution. C’est un
résultat assez intuitif. En eﬀet, considérons un patient ayant un faible niveau socio-économique.
Si, à un temps t ﬁxé, on note SP1 (t) sa survie attendue dans la population générale issue des
tables de mortalité non stratiﬁées par le niveau socio-économique, et si l’on note SP2 (t) sa
« véritable » survie dans la population générale des personnes ayant un faible niveau socioSO (t)
SO (t)
< 2 , ce qui correspond à une
économique, alors on a SP2 (t) < SP1 (t). On a donc 1
SP (t)
SP (t)
sous-estimation du ratio de survie relative pour ce patient. Réciproquement, le ratio de survie
relative pour un patient ayant un fort niveau socio-économique sera surestimé. En conclusion,
la diﬀérence des ratios de survie relative entre deux patients appartenant à ces deux classes
sera surestimée. L’utilisation de taux de mortalité ajustés par classe sociale est ainsi conseillée.
2
Construction de tables de mortalité stratiﬁées sur
un/des facteurs pronostiques
Lorsque certaines sources d’information sont disponibles, il est possible de construire ou
« compléter » des tables de mortalité.
En ce qui concerne le cas particulier des tables de mortalité incomplètes, EUROCARE utilise
des méthodes d’interpolation mathématiques. Micheli et al. (2002) ont résumé les principaux
problèmes rencontrés et les méthodes utilisées pour y remédier. Baili et al. (2005) ont décrit
plus longuement ces méthodes :
– l’interpolation linéaire pour construire des tables à des années manquantes. Reprenons
l’exemple donné par Micheli et al. (2002). Connaissant les probabilités de décès qx à l’âge
x pour les années 1979 et 1982, on en déduit, par interpolation, les probabilités de décès
pour les années 1980 et 1981 :
2
1
1
2
qx (1980) = qx (1979) + qx (1982) et qx (1981) = qx (1979) + qx (1982).
3
3
3
3
32
III.2 Construction de tables de mortalité stratiﬁées sur
un/des facteurs pronostiques
– la méthode Elandt-Johnson (Elandt-Johnson, 1980; Baili et al., 2005) est utilisée pour
produire des tables complètes à partir de tables abrégées, où les taux sont donnés entre
certains âges pivots, espacés de cinq ou dix ans au-delà de l’enfance. La méthode d’interpolation dépend de l’âge manquant. Ainsi, lorsque x < 74, les données de la table
abrégée et des coeﬃcients prédéterminés sont combinés linéairement pour obtenir les estimations des taux de la table complète. Ces coeﬃcients diﬀèrent selon la tranche d’âge
de x (x ∈ [2; 9] ou x ∈ [10; 74]). Lorsque x ≥ 75, on suppose que la distribution de la
R
ax
x
fonction de survie suit une loi de Gompertz S(x) = e a (1−e ) = b1−c où x > 0, R > 0,
R
a > 0, b = e a et c = ea . Pour estimer b et c, on utilise des valeurs de la table abrégée.
Micheli et al. (2002) produisent des tables de mortalité pour tous les âges de 0 à 99 ans.
En eﬀet, les estimations à des âges supérieurs ne sont pas ﬁables, ce qui a poussé le SEER
à ramener sa limite d’âge maximal de 118 à 99 ans (SEER, 2014a).
– la méthode Ewbank et al. (1983) pour obtenir des tables régionales à partir de tables
nationales. Il s’agit d’une extension de la méthode Brass logit (Brass et al., 1971). Ainsi,
connaissant les tables de mortalité par région pour l’année 1990 seulement, Micheli et al.
(2002) ont pu estimer les tables complètes pour les années 1978 – 1995 à partir des tables
nationales pour ces années. La formule liant les tables régionales aux tables « standard »
nationales ainsi que la méthode de résolution de cette équation à 4 inconnues sont développées dans l’article de Ewbank et al. (1983, pages 107 et 127).
Par ailleurs, des méthodes permettant de construire des tables de mortalité stratiﬁées par
certains facteurs pronostiques ont été proposées. Woods et al. (2005) ont ainsi présenté une
méthode pour construire des tables de mortalité stratiﬁées par niveau de pauvreté (« deprivation ») et région en Angleterre et au Pays de Galles en utilisant des données brutes sur des
circonscriptions électorales. Plus précisément, les tables ont été construites pour trois groupes :
(1) les circonscriptions électorales ; (2) les quintiles de « deprivation » ; et (3) les combinaisons
de ces circonscriptions électorales et quintiles de « deprivation ». Pour chacun de ces groupes,
il s’agissait d’obtenir le nombre de décès par âge et sexe pour une année donnée (ce qui constituait le numérateur) ainsi qu’une estimation de la taille de la population dans ce groupe à
un temps correspondant au milieu de l’année considérée (ce qui constituait le dénominateur).
Schématiquement, on peut distinguer les étapes suivantes :
– calcul des quantités nécessaires au numérateur :
• considération du nombre moyen de décès annuels enregistrés par groupe d’âge, sexe,
et année (1997, 1998 ou 1999) pour chacune des 9309 circonscriptions électorales.
– calcul des quantités nécessaires au dénominateur :
• considération des tailles de population pour chacune des circonscriptions électorales
33
III.2 Construction de tables de mortalité stratiﬁées sur
un/des facteurs pronostiques
en 1998, données pour 3 tranches d’âge (0-15, 16-59 et plus de 60 ans), sans distinction
du sexe ;
• utilisation du recensement de 2001 (le plus proche de 1998) pour estimer le proﬁl
âge-sexe de chacune des circonscriptions électorales ;
• estimation de la taille de la population de chacune des circonscriptions électorales par
âge et sexe à partir des 2 points précédents.
– construction de 5 groupes de circonscriptions en fonction de l’indice de « deprivation » :
• classement des circonscriptions électorales par ordre croissant de leur indice de « deprivation » (la construction de ces indices est détaillée dans Noble et al. (2000a) et Noble
et al. (2000b)) ;
• création de 5 quintiles : le premier contenait les 20% des circonscriptions les plus riches
et le dernier les 20% des circonscriptions où la population était la plus démunie.
Prenons l’exemple d’une table stratiﬁée par la région i et le quintile j. Le taux de décès par âge
et sexe s’obtenait comme le quotient de 2 sommes sur toutes les circonscriptions appartenant
à la région i et au quintile j.
En Nouvelle-Zélande, Carter et al. (2010) ont proposé une méthode pour construire des
tables stratiﬁées sur l’ethnie, les revenus et le statut fumeur/non-fumeur. Pour cela, ils ont
utilisé :
1. les tables de mortalité de Nouvelle-Zélande stratiﬁées par sexe et année. Notons mx le
taux de mortalité à l’âge x pour un individu de sexe donné et pour une année donnée.
2. le rapport de la sous-population concernée sur la population totale. Notons, par exemple,
pM et pM les proportions de population Māori et non-Māori respectivement.
3. un modèle de régression pour obtenir les ratios des taux de mortalité à un âge donné.
Notons, par exemple, RRM , le ratio où la modalité de référence serait « non-Māori ».
Ils voulaient obtenir mx,M et mx,M les taux de mortalité à l’âge x pour les Māori et nonMāori respectivement. Ils ont déduit ces quantités des relations pM mx,M + pM mx,M = mx et
mx,M = mx,M RRM .
Les méthodes décrites ci-dessus reposent sur l’existence de liens entre données de mortalité
et données de recensement. Mais ces données ne sont en général pas disponibles. Par exemple,
en France, aucune donnée n’est disponible sur l’ethnie. Par ailleurs, toujours en France, si les
données de mortalité sont connues par les registres, elles sont rendues anonymes. De ce fait, il
est impossible de les fusionner avec des données de recensement au niveau individuel.
Ces méthodes ne sont donc pas toujours applicables en pratique, par manque de données brutes.
Ce constat amène à se poser la question de l’impact de l’utilisation de tables de mortalité non
34
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
appropriées, i.e. insuﬃsamment stratiﬁées, sur les estimations des eﬀets des facteurs pronostiques sur la mortalité en excès. Nous avons étudié ce problème par des études sur simulations
et sur données empiriques.
3
Étude de l’impact du manque de stratiﬁcation des
tables de mortalité sur l’eﬀet des facteurs pronostiques
sur la mortalité en excès
Dans ce travail, nous avons réalisé plusieurs études par simulations pouvant représenter des
situations plausibles d’un point de vue épidémiologique.
Supposons que l’on ait une variable binaire X représentant, par exemple, l’ethnie (codée en
individus d’ethnie blanche vs. individus d’ethnie noire) ou le statut socio-économique (codé en
favorisés vs. défavorisés). Dans la réalité, nous ne disposons pas de table de mortalité stratiﬁée
sur cette variable. Ainsi, dans le cadre des simulations, dans un premier temps, nous nous
sommes placés dans un monde « idéal » en générant des données de survie avec une table de
mortalité stratiﬁée sur X. Dans un deuxième temps, nous avons estimé les eﬀets des facteurs
pronostiques sur la mortalité en excès avec une table dont nous disposerions dans la réalité,
c’est-à-dire une table non stratiﬁée sur X. Enﬁn, la troisième et dernière étape consistait à
mesurer le biais observé sur les estimations des eﬀets des facteurs pronostiques sur la mortalité
en excès. Notons que nous n’avons pas étudié les phénomènes d’exposition (comme le statut
fumeur/non-fumeur).
3.1
Étapes communes aux diﬀérentes simulations
Nous avons construit diﬀérents scénarios suivant un schéma commun que nous exposons
ci-dessous.
3.1.1
Construction des tables de mortalité
Fondements épidémiologiques
Aﬁn d’avoir des données plausibles d’un point de vue épidémiologique, nous avons utilisé des
tables réelles pour construire nos propres tables. Nous avons choisi d’utiliser les tables américaines fournies par le package survival du logiciel R (Therneau, 2013) : survexp.us (population globale) et survexp.usr avec un niveau additionnel de stratiﬁcation par l’ethnie (individus
d’ethnie blanche ou noire).
35
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Figure III.1 – Taux de mortalité d’individus masculins issus des tables américaines entre 1940 et 2004.
L’étude de ces tables aux diﬀérentes années fournies (1940 à 2004) nous a permis d’envisager
diﬀérentes formes possibles concernant l’évolution des taux de mortalité en fonction de l’âge.
Ainsi, comme le montre la ﬁgure III.1, lorsque l’on considère les tables globales (i.e. non stratiﬁées sur l’ethnie), les représentations des taux de mortalité en échelle logarithmique pour des
individus masculins et des âges compris entre 40 et 100 ans étaient quasiment linéaires. La
diﬀérence notable en parcourant ces tables de 1940 à 2004 était la diminution de la mortalité
à chaque année. La ﬁgure III.2 montre qu’en 2004, les allures des courbes pour les individus
d’ethnies noire et blanche sont similaires à celle de la population globale. Elle montre aussi que
les individus d’ethnie noire sont minoritaires dans la population globale. Notons enﬁn que des
résultats similaires ont été obtenus pour toutes les courbes représentant des individus féminins.
Pour ces raisons, nous avons limité notre étude à des hommes d’âges compris entre 40 et
100 ans et utilisé les dernières tables à notre disposition, i.e. celles datant de 2004. Par ailleurs,
par souci de simplicité, nos représentations graphiques des taux de mortalité sont en échelle
logarithmique, ceci nous permettant de modéliser une évolution linéaire.
36
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Figure III.2 – Taux de mortalité d’individus masculins issus des tables américaines stratiﬁées sur l’ethnie
en 2004. Comparaison avec les taux de la population globale.
37
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Nous allons maintenant expliquer le principe général de construction des tables de mortalité
utilisées dans nos simulations. Pour se placer dans un cadre plus général, nous avons considéré
une variable binaire X. La modalité 0 de X correspondait aux individus d’ethnie blanche des
tables américaines. Ainsi, la modalité de référence correspond aux individus ayant les taux de
mortalité les moins élevés. Par conséquent, la modalité 1 de X correspondait aux individus
d’ethnie noire, individus ayant les taux de mortalité les plus élevés. Par la suite, pour plus
de généralité, nous ne ferons plus la distinction entre individus d’ethnie blanche et individus
d’ethnie noire.
Construction de la « Table Globale »
La construction de la table de mortalité attendue dans la population générale non stratiﬁée sur
X, appelée « Table Globale », a été obtenue à l’aide de la table américaine stratiﬁée seulement
sur l’âge et le sexe (survexp.us). En eﬀectuant une régression linéaire de l’âge sur les taux de
mortalité contenus dans la table, nous avons obtenu la droite, (D), d’équation :
y = −4 + 0, 035 × âge (D).
Nous avons alors supposé que les taux de la mortalité globale étaient donnés par :
T auxGlobal = 10−4+0,035×âge
Construction de la « Table Stratiﬁée »
De la même façon que pour la table globale, nous avons utilisé la table de mortalité survexp.usr
stratiﬁée sur l’âge, le sexe mais également sur l’ethnie (Blanc/Noir) aﬁn de créer une table de
mortalité attendue pour la population générale, stratiﬁée sur X et appelée « Table Stratiﬁée ».
Aﬁn de construire les taux de mortalité attendus pour X = 0 (puis pour X = 1), nous avons
choisi une droite parallèle à la droite (D), passant au plus près de la droite de régression
obtenue à partir de survexp.usr 1 . Notons ces droites respectivement (D0 ) et (D1 ). Elles ont
pour équation :
1. Nous avons choisi de ne considérer que des droites parallèles aﬁn de faciliter l’interprétation des résultats.
Cependant, ce choix n’étant pas très « réaliste », nous avons aussi étudié un scénario dans lequel la « Table
Stratiﬁée » est construite à partir de droites non parallèles.
38
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès


y

y
= −4, 05 + 0, 035 × âge
(D0 )
= −3, 80 + 0, 035 × âge
(D1 )
Les taux ainsi obtenus sont :


T aux0

T aux1
= 10−4,05+0,035×âge
= 10−3,80+0,035×âge
La ﬁgure III.3 montre les vraies valeurs issues de survexp.us et de survexp.usr et les droites
de régression obtenues.
Figure III.3 – Taux de mortalité d’individus masculins issus des tables construites et des tables américaines stratiﬁées ou non sur l’ethnie en 2004.
Enﬁn, notons p0 (respectivement p1 ) la proportion dans la population générale d’individus
39
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
ayant la modalité X = 0 (respectivement X = 1). La solution du système :


p0
+ p1 = 1

T auxGlobal
= p0 × T aux0 + p1 × T aux1
10−4 − 10−3,80
nous permet de conclure que p0 = −4,05
= 0, 8432. Autrement dit, il y a environ 84%
10
− 10−3,80
d’individus ayant la modalité de X = 0 dans la population générale représentée dans « Table
Globale » (et 16% ayant la modalité X = 1).
Par ailleurs, l’écart (diﬀérence entre les ordonnées à l’origine) entre (D0 ) et (D1 ) est de 0,25.
Dans nos simulations, comme nous allons le voir dans les paragraphes suivants, nous avons fait
varier ces deux quantités (écart et proportions).
3.1.2
Génération des données de survie
La construction des tables de mortalité faisait référence à la population générale. Nous
présentons ici la génération des données de survie, i.e. la génération de la population étudiée et
de leurs caractéristiques. Cette étape de génération suit un schéma général. Pour chaque patient
i, nous avons généré des variables : age (l’âge au diagnostic, considéré comme une variable
quantitative) et, possiblement, une variable binaire X. Plus précisément, la distribution de la
variable age a été choisie de façon à représenter approximativement la distribution des âges de
patients atteints de cancer colorectal dans les registres français. Ainsi, au moment du diagnostic,
25% des patients avaient entre 40 et 64 ans, 35% avaient entre 65 et 74 ans et 40% avaient plus
de 75 ans. La variable X a été générée :
– soit de façon indépendante de age, auquel cas on imposait P (X = 0) = P (X = 1) = 1/2,
i.e. la même proportion de patients ayant la modalité X = 0 que de patients ayant la
modalité X = 1 ;
– soit de façon à être corrélée avec age, positivement ou négativement. Pour une corrélation
positive, on imposait : (1) P (X = 0) = 3/4 si l’âge était compris entre 40 et 64 ans ; (2)
P (X = 0) = 4/10 si l’âge était compris entre 65 et 74 ans ; et (3) P (X = 0) = 2/10 si l’âge
était supérieur à 75 ans. Pour une corrélation négative, on imposait : (1) P (X = 0) = 2/10
si l’âge était compris entre 40 et 64 ans ; (2) P (X = 0) = 6/10 si l’âge était compris entre
65 et 74 ans ; et (3) P (X = 0) = 8/10 si l’âge était supérieur à 75 ans. Les distributions
de X correspondantes sont représentées sur la ﬁgure III.4. Elles ne sont pas symétriques
de façon à étudier plusieurs « niveaux » de corrélation.
40
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Figure III.4 – Répartition de la variable X selon la classe de la variable age en cas de corrélation positive
et négative.
41
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Nous avons généré des temps de survie à partir du modèle multivarié 2 . Comme cela a été
introduit au Chapitre II, pour chaque patient i, le taux instantané associé au temps de décès
Ti est la somme de deux composantes :
λ̃P,i (t) + λ̃E,i (t),
où t est le temps depuis le diagnostic, λ̃P,i (t) et λ̃E,i (t) étant les taux instantanés attendus et
en excès conditionnellement aux covariables. Ainsi, pour générer Ti :
1. nous avons généré TP,i à partir de notre « Table Stratiﬁée ». L’algorithme utilisé est :
(a) initialiser TP,i et un compteur cpt à 0 ;
(b) lire dans la table la probabilité pour un individu d’âge age′i de décéder avant l’âge
age′i + 1, à savoir qi = P (TP,i ≤ 1 | TP,i > 0, age′i ) où age′i représente l’âge au
diagnostic, agei , arrondi à l’entier le plus proche 3 ;
(c) générer uatt,i suivant une loi uniforme sur [0; 1] ;
(d) si uatt,i ≤ qi : alors le patient i est décédé durant la première année. On obtient TP,i
à partir d’une loi uniforme sur [0; 1].
(e) sinon, tant que uatt,i > qi :
i. le patient a survécu une année supplémentaire. Ajouter 1 à TP,i et 1 à cpt ;
ii. générer un nouveau uatt,i suivant une loi uniforme sur [0; 1] ;
iii. lire dans la « Table Stratiﬁée », qi à l’âge age′i + cpt.
On a alors : qi = P (TP,i ≤ 1 + cpt | TP,i > cpt, age′i + cpt).
La ﬁn de cette boucle signiﬁe que le décès a eu lieu dans l’année. On ajoute donc à TP,i
un nombre obtenu à partir d’une loi uniforme sur [0; 1].
2. nous avons généré TE,i en supposant un modèle à risque en excès proportionnel :
λ̃E,i (t) = λ0 (t) exp(βage agec,i + βX 1(Xi = 1)),
où βage et βX sont les eﬀets de l’âge (au diagnostic) centré, agec , et de X sur la mortalité
en excès, i.e. les logarithmes des hazard ratios (HR) des covariables agec et X. Dans le
cadre de ces simulations, nous avons ﬁxé βage = ln(1, 03) et βX = ln(2). Le taux de base
λ0 a été modélisé suivant une distribution de Weibull généralisée (Mudholkar et al., 1996;
2. La méthode de génération est reprise dans chacun des articles sur la survie eﬀectués dans le cadre de cette
thèse. Nous la détaillons ici et nous nous y réfèrerons dans les chapitres suivants.
3. Plus précisément, la table contient T auxAtti qui est relié à qi par qi = 1 − exp (−365, 24 × T auxAtti ) .
42
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
κρκ tκ−1
avec ρ = 0, 5, α = 0, 2 et κ = 2 (voir
(ρt)κ
1+
α
ﬁgure III.5). Ce choix repose sur la forme de la distribution du taux instantané en France
pour des patients atteints d’un cancer colorectal. Nous avons ensuite utilisé la méthode
par inversion de la fonction de répartition (Ross, 2006). Après génération d’une variable
ui suivant une loi uniforme sur [0; 1], TE,i s’obtient par
Belot et al., 2010) déﬁnie par t 7−→
TE,i
 
1 
1
= 
α
−1 +


ρ
1 − ui
1

1
κ

α. exp(βage .agec,i + βX .1(Xi = 1)) 
 .

3. nous avons généré des temps de censure à droite Ci à partir d’une loi uniforme sur [0, b],
où b a été choisi de façon à obtenir environ 0%, 30% ou 50% de censure.
Ainsi, le temps « observable » de décès était déterminé par Ti = min(TP,i , TE,i ) et le temps
observé de décès par Ui = min(TP,i , TE,i , Ci ). De plus, tous les sujets encore à risque à 6 ans
ont été censurés, aﬁn de représenter une censure administrative.
Figure III.5 – Forme du taux de base λ0 choisi pour générer les temps de survie en excès, TE,i : fonction
de Weibull généralisée avec ρ = 0, 5, α = 0, 2 et κ = 2.
43
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
3.1.3
Estimation des eﬀets de facteurs pronostiques sur la mortalité en excès
Pour estimer les eﬀets de facteurs pronostiques sur la mortalité en excès, nous avons utilisé
l’approche de Dickman et al. (2004) qui s’appuie sur le modèle de Esteve et al. (1990). Dickman
et al. (2004) ont proposé une approche dans laquelle le « split des données » et un jeu d’écriture
sur la vraisemblance permettaient de se placer dans le cadre des modèles linéaires généralisés
(GLM), faciles à implémenter et oﬀrant tous les champs d’action des GLM.
Détaillons cette approche du « split des données ». L’estimation du modèle est simpliﬁée
si chaque observation est scindée en plusieurs observations pour chaque intervalle de temps,
pour un nombre prédéﬁni maximal d’intervalles. Plutôt que d’évaluer la log-vraisemblance
pour chaque patient et de la sommer (sur tous les patients), on évalue la log-vraisemblance
sur chaque sous-intervalle.
Prenons l’exemple simple d’un sujet qui décède 4,5 ans après le diagnostic. Cette observation
peut être scindée en 5 sous-observations :
– pour les quatre premières : temps d’observation d’un an et statut δ = 0
– pour la dernière : temps d’observation de 6 mois et statut δ = 1
Plutôt que de s’intéresser au taux de décès attendu (T auxAtt), on va alors regarder le nombre
de décès par intervalle (dcAtt), ce qui correspond au produit du taux de décès attendu par la
durée (tik ) pendant laquelle un patient i est soumis au risque dans l’intervalle k :
dcAtt = T auxAtt × tik .
Prenons maintenant un autre exemple d’un sujet qui décède 5,61567 ans après le diagnostic,
lors d’une étude menée sur 6 ans.
Avant le « split des données », on a les données de la table III.1 :
Temps Statut
5,61567
1
AgeCentré X
-25,67
1
T auxAtt
0,006992353
Tableau III.1 – Une observation non « splittée ».
Découpons les intervalles de la façon suivante 4 :
– [0 ; 2] en pas de 0,05
– [2, 1 ; 6] en pas de 0,1
On obtient alors les 77 observations scindées comme le montre le tableau III.2. Ainsi,
chacune des sous-observations conserve les covariables de l’observation originale.
4. Notons qu’ici, le nombre prédéﬁni maximal d’intervalles est égal à 80.
44
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Intervalle
Statut
(0 ; 0, 05]
0
(0, 05 ; 1]
0
...
0
(5, 4 ; 5, 5]
0
(5, 5 ; 5, 6]
0
(5, 6 ; 5, 61567]
1
AgeCentré X
-25,67
1
-25,67
1
-25,67
1
-25,67
1
-25,67
1
-25,67
1
dcAtt
0,0003496176
0,0003496176
...
0,0006992353
0,0006992353
0,0001095728
Tableau III.2 – Une observation « splittée ».
Dickman et al. (2004) ont montré que lorsque λE est une fonction en escalier, la vraisemblance du modèle peut être considérée comme celle d’un GLM (en supposant que le nombre de
décès dk dans chaque intervalle k suit une loi de Poisson de paramètre µk ) :
– la variable de réponse est le statut δ ;
– les variables explicatives sont les covariables ;
– la fonction de lien est de forme logarithmique 5 ;
– on prend un oﬀset de ln(tik ) où tik désigne la durée pendant laquelle le patient i est soumis
au risque dans l’intervalle k.
Comme dans de nombreuses études, aussi bien sur la survie brute que sur la survie nette,
nous avons considéré des splines de régression pour modéliser le taux de base, λ0 .
En eﬀet, lorsque l’on prend pour taux de base une fonction en escalier, le choix des intervalles se
révèle problématique lorsque les données sont clairsemées (Bolard et al., 2001; Remontet et al.,
2007). Une approche permettant d’obtenir une estimation lissée, ﬂexible et représentant une
forme plausible d’un point de vue épidémiologique repose sur l’utilisation de splines. Notre choix
s’est porté sur des splines de régression cubique avec un seul nœud, t1 , à un an car elles avaient
déjà été utilisées dans d’autres études avec un comportement satisfaisant (voir, par exemple,
Giorgi et al., 2008; Belot et al., 2010). Nous les avons déﬁnies au Chapitre II (équation (II.3)).
3.1.4
Mesures du biais
Les critères retenus pour estimer la qualité des estimateurs étaient :
1. le biais β̂ − β, où β̂ est la moyenne des estimations de la vraie valeur β ;
β̂ − β
;
β
3. le taux de recouvrement empirique, à savoir la proportion de simulations telles que les
intervalles de conﬁance à 95% contiennent β.
2. le biais relatif :
5. Plus précisément, il s’agit d’une fonction de lien modiﬁée de la forme ln(µk − dcAttk ) où dcAttk représente
le nombre de décès attendus dans l’intervalle k.
45
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
3.2
Principaux résultats
Nous présentons ici un article publié dans Statistics in Medicine (Graﬀéo et al., 2012) dans
lequel nous avons étudié ce problème sur des simulations (selon cinq scénarios) et des données
réelles françaises.
Le tableau III.3 page 59 résume les scénarios étudiés dans l’article.
Ce travail a été valorisé dans diﬀérentes conférences :
– Giorgi R, Graﬀéo N. The impact of additional life table variables on excess mortality estimates. 32th annual conference of International Society for Clinical Biostatistics, Ottawa
(Canada, 2011)
– Giorgi R, Graﬀéo N. The impact of additional life table variables on excess mortality
estimates. Workshop on Methods for investigation of the inﬂuence of social environment
on cancer risk, management and prognosis with data from cancer registries. Groupe des
Registres de Langue Latine, Caen (France, 2011)
– (Invitée) Graﬀéo N, Giorgi R. Non-matching life tables and impact. European Partnership for Action Against Cancer WP9 Satellite Meeting, State of Art of Methods for the
Analysis of Population-Based Cancer Data, Ispra (Italie, 2014)
46
Special Issue Paper
Received 28 October 2011,
Accepted 25 May 2012
Published online in Wiley Online Library
(wileyonlinelibrary.com) DOI: 10.1002/sim.5493
The impact of additional life-table
variables on excess mortality estimates
Nathalie Grafféo,a,b,c Valérie Joosted and Roch Giorgia,b,c,e * †
Regression-based relative survival models are commonly used in population-based cancer studies to estimate the
real impact on the excess mortality of covariates that influence overall mortality. Usually, the mortality observed
in a study cohort is corrected by the expected mortality hazard in the general population, which is given by life
tables provided by national statistics institutes. These life tables are stratified by age, sex, calendar year, and,
sometimes, other demographic data (ethnicity, deprivation, and others). However, in most cases, the same demographic data are not available for the study cohort and the general population; this leads to differences between
the expected mortality of the general population and that of the study cohort. More generally, the absence of
some demographic variables in life tables may introduce a measurement bias into the estimation of the excess
mortality. In the present article, we used a simulation approach with different plausible scenarios to evaluate the
impact of an additional life-table variable on excess mortality estimates and study the extent and the direction of
the biases in estimating the effect of each covariate on the excess mortality. We showed that the use of life table
that lacks stratification by a variable present in the excess hazard model results in a measurement bias not only
in the estimate of the effect of this variable but also, to a lesser extent, in the estimates of the effects of the other
covariates included in the model. We also demonstrated this measurement bias by a population-based colorectal
cancer analysis. Copyright © 2012 John Wiley & Sons, Ltd.
Keywords:
life tables; excess mortality; bias (epidemiology); colon cancer; population-based study
1. Introduction
Relative survival is commonly used in population-based studies [1–3]. Within the context of a given
disease, the method provides estimates of patients’ survivals corrected for the effects of other independent causes of death by using the overall mortality in the general population, without needing the
exact causes of death [4]. The method is especially suited for comparisons between countries [5, 6].
Historically, several relative survival models have been proposed; the earliest relied on unifactorial
methods [4, 7, 8], but the subsequent ones took into account several prognostic factors in multifactorial
regression models [9, 10]. The latter models provide measures of excess mortality in patients under
study. Interestingly, they estimate the real impact of the covariates that influence overall mortality on
the disease-specific mortality [11]. Roughly, to obtain the excess death rate, the mortality observed in
a study cohort is corrected by subtracting from it the natural mortality given by the life tables of the
corresponding general population.
In France, the life tables provided by the Institut National de la Santé et de la Recherche Médicale
are stratified by variables known to influence the overall mortality: age, sex, calendar year, and region
or Département (a territorial and administrative division of the country). Thus, French population-based
studies of cancer mortality use these life tables to determine the proper effects of those variables on the
a Aix-Marseille
Univ, UMR 912, SESSTIM, F-13284, Marseille, France
UMR 912, SESSTIM, F-13284, Marseille, France
c IRD, UMR 912, SESSTIM, F-13284, Marseille, France
d Registre Bourguignon des Cancers Digestifs, Inserm U866, “Lipides, Nutrition, Cancer”, CHU Dijon, 21079 Dijon, France
e APHM, hôpital Timone, Service de Santé Publique et d’Information Médicale, F-13005, Marseille, France
*Correspondence to: Roch Giorgi, SESSTIM Sciences Economiques & Sociales de la Santé & Traitement de l’Information
Médicale, UMR 912 Inserm/IRD/Aix-Marseille Université Faculté de Médecine, 27 Boulevard Jean Moulin F-13385
Marseille Cedex, France.
† E-mail: [email protected]
b Inserm,
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
excess mortality [12]. However, it could be interesting to have life tables stratified by additional prognostic factors likely to influence overall mortality. For example, because of the influence of ethnicity on
the overall mortality and potentially on various cancer survivals [13, 14], some US life tables produced
by the National Center for Health Statistics are also stratified by ethnicity and were used in some US
population-based studies of excess cancer-specific mortality (see the SEER Cancer Statistics Review
[15]). However, even in these States, reliable life tables are not available for some ethnic groups such as
Hispanic whites, Hawaiian natives, American Indians, Alaskan natives, and Asian Americans [16].
Similarly, deprivation is known to affect the overall mortality, and in some types of cancer, low
socioeconomic classes have been positively associated with high mortality rates [17, 18]. This means
that a subpopulation with a lower socioeconomic status than that of the general population has a higher
expected mortality. If the deprivation status is not taken into account by a stratification of the life
table, the relative survival for this subpopulation will be underestimated. An empirical study on data
from the Finnish Cancer Registry was performed to compare the relative survival, the cause-specific
survival, and the relative survival adjusted for social class differences in general mortality. The relative survival adjusted for social class differences in general mortality was recommended to estimate
social-class-specific survival [19]. Also, life tables stratified by an indicator of deprivation were used
in population-based survival studies that required an estimation of socioeconomic differences between
cancer patients [20–22].
In fact, very often, demographic data that influence overall mortality are not available. This may
lead to unreliable relative survival estimates. An appropriate analysis should account for this lack of
information in the life tables. This was confirmed by a comparative study of the CONCORD Working
Group showing a difference between the relative survival estimates obtained by the SEER approach
(with the use of an ‘overall US national, race-specific life table centered on the most recent census, for all
cancer registry areas in the SEER Program and over a decade’) and those obtained by the CONCORD
approach (with the use of complete life tables stratified by sex, cancer registry area, calendar year,
and ethnicity) [23].
In the present article, we show how the lack of an additional life-table variable may impact the estimates of the effect of each of the prognostic factors on the excess mortality. We use a simulation approach
to assess the bias due to the use of a life table that lacks stratification by a variable present in the excess
hazard model.
We studied both the bias in the estimation of the effect of an additional variable and the biases in the
estimations of the effects of the other covariates included in the model. The following section presents
the relative survival regression model that relies on the excess mortality approach proposed by Remontet
et al. [24]. Section 3 summarizes the methods and the results of the simulations. Section 4 presents an
example based on real data from France. The article concludes with a brief discussion about the findings
of the study and some suggestions for the future.
2. The excess hazard model
In its classical additive form [9, 10], the observed hazard for total mortality, O , at time t after diagnosis
of an individual aged a at diagnosis and given a vector of covariates ´, which could contain age, is
defined as the sum of two components:
O .t; ´; a/ D P .t C a; ´s / C C .t; ´/
The first component, P , is the population hazard function; that is, the expected mortality for similar
individuals in the general population. It is assumed to be known and may be obtained from published
vital statistics [9]. Vector ´s contains the population characteristics (or prognostic factors) available in a
given life table among all possible characteristics. This means that ´s D ´ or ´s ´.
The second component, C , is the disease-related mortality hazard function or the excess hazard
function. This function may be modeled with the standard approach proposed by Remontet et al., which
relies on the framework of the generalized linear models [24, 25]. Thus, C is the product of the baseline
excess hazard function by a function that depends only on the covariates whose effects on the excess
hazard function are of interest:
C .t; ´/ D f .t /: exp.ˇ:´/
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
ˇ is a vector that contains the log hazard ratios (HR) of the covariates. Function f is modeled by a cubic
regression spline [26] with one knot located at 1 year. Precisely, a cubic regression spline with R knots
.t1 ; : : : ; tR / may be written as follows:
log.f .t // D 0 C 1 t C 2 t 2 C 3 t 3 C
R
X
ıj .t tj /3C ;
j D1
where subscript ‘C’ corresponds to uC D u if u > 0 and uC D 0 if u 6 0. A cubic regression spline
is a smooth piecewise polynomial function of order 4 in which the constraint is that the function and
its first two derivatives should be continuous at the knots where the adjacent pieces of the polynomial
join [27, 28]. The location of the interior knot at 1 year was considered because, in many cancers, especially colorectal cancer, a high proportion of deaths is observed during the first year after diagnosis
[2] and because the estimations of the covariate effects on early mortality (mostly due to postsurgical
complications during the first year) differ from those made during late mortality reflecting disease
progression [29, 30].
3. Simulation studies
We conducted simulation studies to assess the impact of an additional life-table variable on the estimates
of excess mortality. Our strategy consisted in, first, generating life tables and survival times according to
different scenarios, and then using different schemes of analysis to estimate the effects of the prognostics
factors of the model on excess mortality. We generated the data using a life table stratified by a binary
variable X . We obtained the estimates using a life table possibly not stratified by X .
3.1. Data generation
3.1.1. Construction of life tables. To study different possible situations with an epidemiological
perspective, we used the American life tables provided by the survival package in R software [31],
first to obtain information on plausible relationships between some variables and mortality hazard rates,
then to construct the life tables to be used in the simulations. Life tables provide overall mortality hazard
rates for every year of age and are stratified by sex (survexp.us). An additional level of stratification
is provided by ethnicity (white and black people; survexp.usr).
The main information obtained by the plot of the American mortality hazard rates according to sex,
ethnicity, and year of death was that the general and the ethnic-specific curves of the mortality rates had
a quasilinear representation between 40 and 100 years old, using a base 10 logarithmic scale. Hence, in
our study, age ranged from 40 to 100 years. Also, to simplify both calculations and interpretations, we
only used the American life tables of 2004 for men. We selected the binary variable ‘ethnicity’ as the
possible additional life-table variable, which was denoted X in the simulations.
Two types of life tables were necessary: (1) an overall life table (OLT) containing the mortality hazard
rates for men by age; and (2) an X -specific life table (XsLT); that is, a life table with an additional level of
stratification by the binary variable X . We obtained OLT by a linear regression on the log10 of the mortal
ity hazard rates contained in survexp.us. The fitted linear equation was .D/ W y D 104:00C0:035 age .
Similarly, we obtained XsLT using mortality hazard rates contained in survexp.usr. First, we
obtained two lines .d0 / and .d1 / by linear regression (with X D 0 and X D 1, respectively), and
then we chose .D0 / and .D1 / as the two lines parallel to .D/—with a logarithmic scale for the
vertical axis—that best approach .d0 / and .d1 /. We obtained .D0 / W y D 104:05C0:035 age and
.D1 / W y D 103:80C0:035 age . We defined space 0 as the difference between .D/ and .D0 / on a logarithmic scale; that is, 0 D 0:05 (1 D 0:20 for the space between .D/ and .D1 /). Finally, we found
a relationship between the lines: 104:00C0:035 age 0:84 104:05C0:035 age C 0:16 103:80C0:035 age ,
meaning that nearly 84% of the general population had modality X D 0.
3.1.2. Survival data generation. The time to death, T , was assumed to depend on the age at diagnosis
(a continuous covariate) and, eventually, on the binary variable X . We generated age so as to represent
approximately the empirical distribution of the ages of colon cancer patients in the French registries
[32]: 25% of patients aged 40–64 years, 35% aged 65–74 years, and 40% aged 75 years and above.
Generally, X was independent from age and generated from a binomial distribution with P .X D 0/ D
P .X D 1/ D 0:5. But, in some simulations, X was as follows: (1) positively correlated with age; that is,
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
P .X D 0/ D 0:75 when age was between 40 and 64 years, P .X D 0/ D 0:4 when age was between 65
and 74 years, and P .X D 0/ D 0:2 when age was 75 years and above; or (2) negatively correlated with
age; that is, P .X D 0/ D 0:2 when age was between 40 and 64 years, P .X D 0/ D 0:6 when age was
between 65 and 74 years, and P .X D 0/ D 0:8 when age was 75 years and above.
In agreement with Le Teuff [32], we considered that the time to death is the minimum of two distinct
times: TP due to the ‘population hazard’ and TC due to the ‘excess death’; thus, T D min .TP ; TC /.
For each subject, TP was obtained from the life tables used for this data generation step (LTG), and TC
was generated from a generalized Weibull distribution [33] using the inverse transform method [34]. The
estimation of the effect of each covariate on the time to death was assumed proportional with constant
log HRs .ln.1:03/ for each 1-year increase in age and ln.2/ for X , when present).
We generated individual censoring times from a uniform distribution U[0,a], where the upper
boundary a was selected so as to obtain approximately 0%, 30%, or 50% overall censoring level.
Then, each individual’s observed time was TO;i D min.Ti ; Ci /, where Ti and Ci denote the individual’s
survival and censoring time, respectively. In addition, we censored all subjects still at risk at 6 years.
Each simulation run consisted of 1000 independent samples of size 1000. Furthermore, to reduce
the bias due to differences between random draws in generated survival data, we used the same file of
covariates in each scenario.
The code and the .RData files are available upon request.
3.2. Design of the evaluation
We performed the analyses using the previously described relative survival regression model. We chose
the life tables used for this parameter estimation step (LTE) according to one of the following scenarios:
(1) LTE D LTG (with OLT or XsLT) or (2) LTE ¤ LTG, LTE being the version of LTG not stratified
by X (with OLT). The values of OLT were given by the equation of (D) and those of XsLT by (D1 )
and (D0 ).
^
^
The criteria used to assess the errors were as follows: (1) the bias of the estimates ˇ ˇ (where ˇ is
^
the mean of the estimates of the true values of ˇ); (2) the relative bias of the estimates (i.e., .ˇ ˇ/=ˇ/;
and (3) the empirical coverage rate (ECR) (i.e., the proportion of samples in which the 95% confidence
interval includes ˇ/.
We also investigated the estimate of the baseline excess mortality hazard function by plotting the mean
of 1000 estimates of the baseline excess mortality hazard function.
3.3. Scenarios and results
For each of the following scenarios, we first explain the principle then present the results. As the results
concerning our main objectives were equivalent with the three censoring levels, we show only those
related to 30% censoring.
Scenarios 1: performance of the model
We obtained information about the performance of the excess hazard model in simple situations with
the use of the same life table for both steps: generation and estimation. We examined two situations
depending on the presence of the binary variable X in the life table: (1A) LTG D LTE D OLT and (1B)
LTG D LTE D XsLT, with 0 D 0:05 and 1 D 0:20 as in Section 3.1.1.
With a 30% overall censoring level, when X and age were not correlated, and in the absence of a
life table stratified by X (scenario 1A, Table I), the model performed relatively well with small relative
biases in the log HR of age and X (0.0444 and 0:0164, respectively) and high ECR (93.1% and 94.4%,
respectively). The use of an XsLT (scenario 1B) had no significant effect on the performance of the
model (Table I).
The results were quite similar when X and age were correlated. In all cases, the estimated baseline
excess hazard function was close to the simulated one (data not shown). Therefore, the regression model
was considered efficient.
Scenario 2: impact of the lack of an additional life-table variable in a simple case
Here, we used different life tables for generation and estimation steps; precisely, we used LTG D XsLT
(0 D 0:05 and 1 D 0:20) in the generation step and LTE D OLT in the estimation step. This
indicates that, independently of age, the expected mortality hazard rates used in the estimation step
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
Table I. Bias, relative bias, and empirical coverage rate obtained in the simulation studies by
generating survival data and estimating the effects of the covariates on the excess mortality
with the same life table (scenarios 1A and 1B) and by generating with a life table stratified by
a binary variable X while estimating with a life table not stratified by X (scenario 2).
Bias
Relative bias
ECR
Corr
(X , age)
Age
X
Age
X
Age
X
1A
D0
>0
<0
0.0013
0.0013
0.0013
0:0114
0:0072
0:0066
0.0444
0.0450
0.0439
0:0164
0:0103
0:0095
0.931
0.937
0.936
0.944
0.933
0.938
1B
D0
>0
<0
0.0020
0.0025
0.0020
0.0182
0.0067
0.0216
0.0675
0.0832
0.0669
0.0262
0.0097
0.0311
0.890
0.907
0.917
0.931
0.938
0.924
2
D0
>0
<0
0.0039
0.0049
0.0031
0.1427
0.1115
0.1407
0.1303
0.1673
0.1046
0.2059
0.1608
0.2029
0.815
0.734
0.882
0.702
0.833
0.736
Scenario
ECR, empirical coverage rate.
Correlation between X D 1 and age.
were systematically increased by 100:05 in patients with X D 0 but reduced by 100:20 in patients with
X D 1, which resulted in a measurement error. For example, a male patient aged 60 years with X D 0
had a 0.0112 expected mortality hazard rate in the generation step but a rate equal to 0.0126 in the
estimation step.
Compared with the results obtained in scenarios 1 (30% overall censoring level, X and age
uncorrelated), the absolute relative bias related to the log HR of age was two to three times larger,
whereas the one related to X was nearly 10 times larger (Table I). Specifically, the effect of age on
the excess mortality was overestimated by 0.0039, whereas that of X was overestimated by 0.1427.
Additionally, the ECR decreased to 81.5% and to 70.2% for the log HR of age and X , respectively. This
highlighted the impact of the absence of the additional life-table variable X not only on the estimate of
the effect of X on excess mortality but also on that of age (although to a lesser extent). In comparison
with a zero correlation, the case where age and X were positively correlated (i.e., where the proportion of
people with X D 1 varied in the same direction as age) produced better results concerning the estimation
of the effect of X , with a lower bias (0.1115 vs. 0.1427) and a higher ECR (83.3% vs. 70.2%). However,
this impact was compensated by a worse estimate of the effect of age with a higher bias (0.0049 vs.
0.0039) and a lower ECR (73.4% vs. 81.5%). On the contrary, in comparison with a zero correlation, a
negative correlation had hardly any impact on the estimation of the effect of X but a lower impact on the
estimation of the effect of age (Bias D 0:0031 and ECR D 88:2%). Here again, the estimated baseline
excess hazard function was close to the simulated one (data not shown).
Scenario 3: impact of the lack of an additional life-table variable in case of variations of the expected
mortality hazard rates for a single fixed modality of X
To assess the impact of variations of the expected mortality hazard rates independently of the levelspecific effects of variable X on the overall mortality hazard rates, we considered a situation with a
single fixed modality of X (X D 0). In the generation step, we took for LTG stratified life tables using
XsLT whose values were given by the equation of .D0 /. To this end, we made the expected mortality
hazard rates for X D 0 fluctuate by moving (D0 ) in a parallel direction to .D/, using the representation
on a logarithmic scale. We chose to make 0 vary from 0:30 to C0:30 by increments of 0.10 (e.g.,
when 0 D 0, .D/ and .D0 / superimposed). Then, in the estimation step, we used LTE D OLT. Therefore, independently of age, the measurement error in the mortality hazard rates ranged from 100:30 to
100:30 . The only covariate studied in this scenario was age.
The more distant .D0 / was from .D/, the worse were the estimates. Thus the relative bias for
the log HR of age varied from 0.5522 .0 D 0:30/ to 0:2631 .0 D 0:30/ with a minimum
(in absolute value) of 0.0629 when 0 D 0:10 (Table II). Besides, there was no symmetry, because
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
the case .0 > 0/ corresponded to less biased estimates. More interestingly, slight fluctuations in the
mortality tables impact the parameter estimations (ECR .0 D 0/ D 90:8% vs. ECR .0 D 0:10/ D
60:9%).
When 0 > 0, the baseline excess hazard function was underestimated. On the contrary, when
0 < 0, it was overestimated. The error was greater in the latter case than in the former (see figure
in Web-Appendix B).‡
Scenario 4: impact of the lack of an additional life-table variable in case of opposed variations of the
expected mortality hazard rates according to the modality of X
To assess the impact of the variations of the expected mortality hazard rates and the level-specific
effects of the binary variable X on the overall mortality hazard rates, we used in the generation step
LTG D XsLT with different spaces imposed between .D/ and .D0 / and between .D/ and .D1 /. To this
end, with a proportion of patients with modality X D 0 fixed at 84%, we moved these two lines apart;
that is, made 0 and 1 vary simultaneously. First, we made 0 vary from 0.01 to 0.13 by increments
of 0.03. Then, we chose LTE D OLT in the estimation step. For example, with 0 D 0:01, the measurement error in the mortality hazard rates using .D/ instead of .D0 / was equal to 100:01 , whereas the error
due to the use of .D/ instead of .D 1 / was equal to 100:05 .
As noticed in the former simulations, the impact of the absence of the additional life-table variable X
was bigger on the estimate of the effect of X on the excess mortality than on the estimate of the effect
of age. Indeed, the absolute relative bias in the log HR of X increased from 0.0276 to 0.4760, whereas
that of age increased from 0.0683 to 0.2522 (Table II). Similarly, the ECR related to the estimation of
the effect of X decreased from 94.5% to 10.0% (vs. 90.3% to 44.0% for the ECR of the estimation
of the effect of age). The impacts on both estimations of the effects of X and age increased with the
space between the expected mortality used in the generation step and the expected mortality used in the
estimation step.
There were underestimations of the baseline excess hazard function when the spaces increased
(in absolute values; see figure in Web-Appendix B).
Table II. Bias, relative bias, and empirical coverage rate obtained in the simulation studies
(scenarios 3 and 4) by generating with life tables stratified by a binary variable X and
estimating with a life table, which is not stratified by X.
Bias
Scenario
0
1
Age
3
0:30
0:20
0:10
0.00
0.10
0.20
0.30
–
–
–
–
–
–
–
0.0163
0.0109
0.0063
0.0019
0:0019
0:0053
0:0078
4
0.01
0.04
0.07
0.10
0.13
0:05
0:17
0:26
0:32
0:38
0.0020
0.0035
0.0049
0.0062
0.0075
Relative bias
X
Age
X
0.5522
0.3703
0.2135
0.0655
0:0629
0:1796
0:2631
0.0192
0.1136
0.1893
0.2691
0.3299
0.0683
0.1188
0.1641
0.2114
0.2522
ECR
Age
X
0.005
0.195
0.609
0.908
0.903
0.741
0.530
0.0276
0.1640
0.2731
0.3883
0.4760
0.903
0.824
0.716
0.566
0.440
0.945
0.791
0.548
0.246
0.100
ECR, empirical coverage rate.
In scenario 3, only one modality of X was considered (X D 0) and values used to generate differed
from the ones used to estimate by 100 .
In scenario 4, the mortality rates of people having modality X equal to 0 (respectively 1) differed from
the mortality rates used to estimate by 100 (respectively 101 ).
‡
Supporting information may be found in the online version of this article.
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
Table III. Bias, relative bias, and empirical coverage rate obtained in the simulation studies
(scenario 5) by generating with life tables stratified by a binary variable X and by estimating with
a life table, which was not stratified by X.
Intersection
Scenario
5
at
age D 50
age D 70
age D 90;
Bias
Relative bias
ECR
Age
X
Age
X
Age
X
0.0036
0.0031
0:2306
0:2015
0.1222
0.1056
0:3327
0:2907
0.820
0.833
0.368
0.463
0.0013
0.0283
0.0448
0.0408
0.926
0.931
0.0003
0.0970
0.0114
0.1399
0.951
0.834
Close
age D 90;
Distant
ECR, empirical coverage rate.
Representations of mortality hazard rates, in a logarithmic scale, intersect at three different ages, with a
quasi-constant angle between the lines related to X D 0 and X D 1.
The ‘close’ case is associated with a small angle, whereas the ‘distant’ case is associated with a large angle.
Scenario 5: impact of the lack of an additional life-table variable when level-specific mortality rates of
X intersected
We considered the most common situation when .D/, .D0 /, and .D 1 / intersected. More precisely, we
studied the situations where .D0 / and .D1 / were not parallel anymore. For this purpose, we chose their
equations so as to obtain an intersection of .D/, .D0 /, and .D1 / at ages equal to 50, 70, and 90 years.
We denoted by the angle between .D0 / and .D 1 / and kept it small and approximately constant in these
three situations (‘close’ cases). With regard to age 90 years, we also considered another case where .D0 /
and .D 1 / were distant from .D/. Precisely, in comparison with ‘close’, ‘distant’ meant a larger . Then,
as in the previous scenarios, LTG D XsLT, with the new .D0 / and .D1 /, was used in the generation step
and LTE D OLT was used in the estimation step.
As noticed in the former simulations, in all cases, the impact of the absence of X in the life table
was bigger on the estimate of the effect of X on the excess mortality than on the estimate of the
effect of age (Table III). Moreover, in comparison with the cases where intersection occurred at low
ages, an intersection at advanced ages produced smaller biases in both the log HR of age and X .
Indeed, the relative biases in the estimation of the effect of X were 0.0408 (ECR D 93.1%) and 0.1399
(ECR D 83.4%) for an intersection at 90 years old, in the ‘close’ and in the ‘distant’ cases, respectively, whereas they increased drastically to 0:2907 and 0:3327 for 70 and 50 years old, respectively
(ECR D 46.3% and 36.8%, respectively). Similarly, the relative biases for the estimation of the effect
of age were 0.0448 and 0.0114 for an intersection at 90 years old, in the ‘close’ and ‘distant’ cases,
respectively (ECR > 92%), whereas they were equal to 0.1056 and 0.1222 for 70 and 50 years old,
respectively (ECR D 83.3% and 82.0%, respectively). Besides, comparing the ‘close’ intersection at
90 years old with the ‘distant’ one, the impact of the absence of X in the life table on the estimation
of the effect of X on the excess mortality was lower, but it was higher for the estimation of the effect
of age.
4. Application to colorectal cancer data
We used in this application a French real data set on a cohort of patients with surgically treated colorectal
cancer. We considered only the first tumor occurring in each patient. Our analysis strategy was, first, to
use the excess hazard model (Section 2) and a cubic regression spline with one interior knot at 1 year
to model the baseline excess hazard. Then, we made different choices concerning the life tables: (1) a
life table stratified by calendar year and another variable of interest that we considered as the reference
because it carries the major part of the information; and (2) some others with a lower level of stratification (calendar year, Département). In all analyses, we restricted patient follow-up to the first 5 years
after diagnosis and censoring set at 5 years in still alive patients.
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
4.1. Methods
For this analysis, we considered mortality data on 13,472 patients with colorectal cancer diagnosed
between January 1, 1982 and December 31, 2002. (Data obtained from the Registre des Cancers
Digestifs de Bourgogne, Dijon, France, that covers two Départements Côte d’Or and Saône-et-Loire.)
From this cohort, we excluded 3597 patients who had no curative resection, 53 patients who had
lymphoma, six patients younger than 20 years or older than 99 years, and 289 patients with missing
values regarding cancer stage at diagnosis or the vital status at 5 years after diagnosis. This left 9527
patients for analysis. The covariates used were age at diagnosis, sex, tumor location, cancer stage at
diagnosis, Département of residence, and year of diagnosis (categorized into three periods of 7 years).
For this analysis, the Service de Biostatistique des Hospices Civils de Lyon (France) built the life
tables using French vital statistics published by the Institut National de la Statistique et des Études
Économiques. We considered as reference an analysis that used a French-Département-specific life table
stratified by calendar year, from 1982 to 2007. Then, we compared with this reference an analysis that
used the French national life table stratified by year of diagnosis (model 1) and an analysis that used the
1994 French-Département-specific life table (model 2).
4.2. Results
At 5 years, there were 4260 deaths (44.7% of the 9527 included patients). Whatever the life table used
in the analysis, the statistically significant covariates were age, tumor location, year of diagnosis, and
cancer stage at diagnosis, the latter being the most aggravating factor (Table IV).
Compared with the reference analysis, model 1 produced mainly overestimations of the effects of
cancer stage on the excess mortality. However, there was hardly any impact on the estimations of the
effects of age, gender, tumor location, Département of residence, or year of diagnosis (see model 1 in
Table IV. Log hazard ratios and their 95% confidence intervals obtained by regression analysis of relative
survival in a population-based study of French colorectal cancer.
Reference analysisa
Model 1b
Model 2c
Covariate
log HR
95% CI
log HR
95% CI
log HR
95% CI
Age
0.0215
0.0178; 0.0251
0.0208
0.0171; 0.0245
0.0232
0.0196; 0.0269
Sex
Men
Women
0
0:001
0:081; 0.079
0
0:006
0:087; 0.074
0
0:019
0:098; 0.060
Localization
1
2
0
0.154
0.071; 0.237
0
0.155
0.072; 0.239
0
0.149
0.067; 0.231
Stage
I
II
III
IV
0
1.181
1.937
2.721
1.035; 1.327
1.794; 2.080
2.498; 2.945
0
1.213
1.977
2.766
1.064; 1.362
1.831; 2.122
2.540; 2.992
0
1.133
1.877
2.657
0.992; 1.275
1.738; 2.015
2.436; 2.878
0
0:000215
0:002; 0.001
0
0.000152
0:001; 0.002
0
0:000353
0:002; 0.001
0
0:1958
0:5712
0:289; 0:103
0:670; 0:472
0
0:1942
0:5712
0:288; 0:100
0:671; 0:471
0
0:2342
0:6553
0:325; 0:143
0:754; 0:557
Départements
1
2
Period
1982–1988
1989–1995
1996–2002
log HR, log hazard ratios; 95% CI, the 95% confidence intervals.
a Analysis using the Département-specific life table stratified by year.
b Analysis using the national life table.
c Analysis using the 1994 Département-specific life table.
Localization 1, colon; localization 2, rectum and rectosigmoid junction.
Year of diagnosis.
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
Figure 1. Estimates of the baseline hazard function in the analysis of the French population-based data on
colorectal cancer.
Table IV). In terms of bias, the impact of the absence of a stratification by Département in the life table
was higher on the estimations of the effects of cancer stage (0.032, 0.040, and 0.045 bias related to stages
II, III, and IV versus stage I, respectively) than on the other covariates (0:005 bias in the estimation of
the effect of sex). More interestingly, model 2 produced overestimations of the effects of the period and
underestimations of the effects of cancer stage on cancer-related mortality (see model 2 in Table IV).
The highest biases were respectively equal to 0:038 and 0:084 for the estimations of the effects of
periods 1989–1995 and 1996–2002 versus period 1982–1988, whereas the biases related to stages II, III,
and IV were equal to 0:048, 0:060, and 0:064, respectively. In addition, the latter values seemed
higher (in absolute values) than those obtained with model 1.
As shown in Figure 1, the use of model 1 underestimated the baseline excess hazard function.
On the contrary, the use of model 2 overestimated it. Model 2 overestimation was larger than
model 1 underestimation.
5. Discussion
In the present article, we show that the use of life table that lacks stratification by a variable present in the
excess hazard model results in a measurement bias not only in the estimate of the effect of this variable
but also, to a lesser extent, in the estimates of the effects of the other covariates included in the model.
Our simulation results help evaluating the impact of the absence of an additional life-table variable
on the excess mortality estimates under several scenarios. To the best of our knowledge, such a detailed
assessment has not been made yet. In fact, some authors have discussed this impact in cancer studies
made with life tables not stratified by deprivation [19] or not stratified by calendar year and cancer
registry [23]. In addition, the EUROCARE Working Group has established that comparisons of relative
survivals between countries could be badly confounded by the use of inaccurate life tables and that
detailed area-specific life tables are required for reliable estimations of cancer survival [35]. By calculating the relative survival rate, other authors have investigated the error due to the difference between
the expected mortality in the general population and that in the population under study (mortality from
other causes than cancer) [36]. However, they considered only the relative survival rate without taking
into account the prognostic factors. In fact, there are complex links between the information provided
by life tables and its impact on the estimate of the effect of prognostic factors on the excess mortality
hazard. More precisely, there is no simple analytic form, even in a very simple model (excess hazard
model with constant baseline excess hazard function and only one covariate). Thus, the major interest
of our study is the use of simulations that allow a better understanding of these links. First, we demonstrated the performance of the regression model used in this article, especially with scenarios 1A and 1B,
but we dealt essentially with linear representations of the mortality rates on logarithmic scales—which
were almost always parallel—to simplify the calculations and the interpretations. Scenario 2 confirmed
that not only the effect of the absent variable was biased, as expected, but also the effects of the other
covariates of the model and that the magnitude of these biases depended on the correlation introduced
between age and the additional variable used to model the excess mortality hazard. More precisely, in
the presence of such a correlation, there was a residual confounding. For example, with a positive
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
correlation, the overestimation of the effect of age compensated the underestimation of the effect of
the additional variable.
In scenarios 3–5, we carried out simulations of plausible situations. For further discussions on such
situations, see Web-Appendix A in the web-based supporting materials.
Overall, all these scenarios led to the same conclusion: the misuse of a life table for a given population having different expected mortality rates than those contained in this table biases the estimates
of the effects of all the prognostic variables of the excess hazard model and the bias increases with the
difference between the two mortality rates. It is also appropriate to stress that slight fluctuations in the
mortality tables might have a significant impact on the parameter estimation.
The application to colon cancer (Section 4) confirmed the main results obtained in our simulations.
Thus, in comparison with the reference analysis, estimating with the French Département-specific life
table for 1994 produced biases especially on the estimate of the effect of the additional life-table
variable (i.e., the period) but also, to a lower extent, on the estimates of the effects of the other covariates involved in the model (especially cancer stage). This makes sense, especially under Scenario 2
(cf. Section 3.3). Roughly speaking, 1994 was not representative of the 1988–2002 period. On the
contrary, the analysis of the French data that used the national life table showed nearly no impact on
the estimation of the effects of each of the covariates, except that of cancer stage, because the expected
mortality rates in the two studied Départements were very close to that of whole France. In addition,
concerning the directions of the biases, not stratifying by an additional life-table variable (namely,
period) resulted in an overestimation of the effect of this additional variable on the excess mortality.
Thus, in comparison with the reference analysis, in model 2 with the French data, the period had a more
protective effect. However, (1) this impact was compensated by an underestimation of the effect of cancer stage, and (2) the baseline excess hazard obtained with life tables not stratified by the additional
variable (namely, period) overestimated the excess hazard produced by the reference analysis. Interestingly, the log HR of stage II in model 2 could not be statistically significant at 5% level, whereas in the
reference analysis and in model 1, this log HR is statistically significant.
In several articles, various solutions have been suggested to build life tables stratified by more
demographic characteristics in order to compensate for this measurement bias. This was the reason
for the construction of life tables stratified by deprivation linking geographical areas and socioeconomic
indicators and starting from raw data on individual deaths [20, 21]. However, depending on the country,
the use of such raw data could be impracticable with other prognostic variables (e.g., ethnicity in France).
Methods of building life tables stratified by cancer registry area and by calendar year have been also
presented [23, 35], but they required a start from a ‘true’ complete life table. EUROCARE obtained
French life tables stratified by cancer registry and by calendar year (1978 to 1995) from the cancer
registry-specific life table for 1990 and the national life tables that were available for each calendar year
using the Brass’ logit method based on the link between the cancer registry-specific and the National life
tables for 1990 [35]. However, such adequate population mortality data are rarely encountered. This is
why CONCORD life tables did not include socioeconomic variables [23].
Together with improving life tables, some authors have suggested another way to deal with unavailable
mortality data by using cause-specific survival instead of relative survival [37]. This approach required
a new death classification variable and gave attractive results, but the reliability of death certificates in
population-based studies remains an important obstacle [38,39]. Another drawback is that cause-specific
survival should be avoided in descriptive studies with poor or moderate survivals [36].
Stratifying life tables by all possible prognostic factors is not relevant, especially stratification by
variables too specific of a given disease. This would lead to the loss of the classical hypothesis in the
framework of relative survival that the studied group and the general population are similar with respect
to various factors that may affect survival during the early observation period, except for the disease
under study. Nevertheless, it would be of great interest to use life tables stratified by sociodemographic
and geographic covariates likely to impact overall mortality in order to provide more accurate estimates of the effects of these variables and of almost every other effect of the covariates involved in the
regression model.
As a perspective, one could think about an adaptation of the regression model used in this article to
correct the measurement bias. Indeed, some authors presented a generalization of the model proposed
by Hakulinen and Tenkanen [10] allowing to take into account the differences between the real expected
mortality of patients involved in cancer clinical trials and the mortality of the general population [40]. In
this approach, the ‘competing’ mortality was assumed to be proportional to the overall expected mortality, regardless of age. Within our context, this assumption is too strong. Thus, it would be interesting to
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
investigate some new flexible models that allow for an age-dependent effect of an additional variable on
the overall mortality.
List of abbreviations
OLT:
XsLT:
overall life table (mortality hazard rates for men by age).
X -specific life table (D OLT with an additional level of stratification by the
binary variable X).
.D/ W
equation of a line whose values are used to build OLT.
.D0 / and .D1 /:
equation of parallel lines whose values are used to build XsLT.
0 (respectively 1 /: space between .D/ and .D0 / (.D/ and .D1 / respectively).
LTG:
life table used for the data generation step.
LTE:
life table used for the parameter estimation step.
Acknowledgements
The authors thank the ANR (Agence Nationale de la Recherche) for supporting the present study. The work of
the first author was funded by grants from MESURE group (ANR grant number ANR-09-BLAN-0357-01).
The authors are also very grateful to the Editor, the Associate Editor, and the referee for their helpful comments
and to Jean Iwaz, PhD, Hospices Civils de Lyon, for revising the manuscript.
Conflict of interest
The authors have declared no conflict of interest.
References
1. Grosclaude P, Colonna M, Hedelin G, Tretarre B, Arveux P, Mace Lesec’h J, Raverdy N, Sauvage-Machelard M. Survival
of women with breast cancer in France: variation with age, stage and treatment. Breast Cancer Research and Treatment
2001; 70(2):137–143. DOI: 10.1023/A:1012974728007.
2. Bossard N, Velten M, Remontet L, Belot A, Maarouf N, Bouvier AM, Guizard AV, Tretarre B, Launoy G, Colonna M,
Danzon A, Molinie F, Troussard X, Bourdon-Raverdy N, Carli PM, Jaffre A, Bessaguet C, Sauleau E, Schvartz C,
Arveux P, Maynadie M, Grosclaude P, Esteve J, Faivre J. Survival of cancer patients in France: a population-based
study from the association of the French cancer registries (FRANCIM). European Journal of Cancer 2007; 43:149–160.
DOI: 10.1016/j.ejca.2006.07.021.
3. Coleman MP, Quaresma M, Berrino F, Lutz J, De Angelis R, Capocaccia R, Baili P, et al. Cancer survival in five
continents: a worldwide population-based study (CONCORD). Lancet Oncology 2008; 9(8):730–756. DOI: 10.1016/
S1470-2045(08)70179-7.
4. Ederer F, Heise H. The effect of eliminating deaths from cancer in general population survival rates, August 1959.
methodological note 11, End Result Evaluation Section, National Cancer Institute.
5. Engeland A, Haldorsen T, Dickman PW, Hakulinen T, Moller TR, Storm HH, Tulunius H. Relative survival of Cancer
Patients. A comparison between Denmark and the Other Nordic Countries. Acta Oncologica 1998; 37:49–59.
DOI: 10.1080/028418698423177.
6. Sant M, Capocaccia R, Verdecchia A, Esteve J, Gatta G, Micheli A, Coleman MP, Berrino F. Survival of women with
breast cancer in Europe: variation with age, year of diagnosis and country. The EUROCARE Working Group. International
Journal of Cancer 1998; 77:679–683. DOI: 10.1002/(SICI)1097-0215(19980831)77:5<679::AID-IJC3> 3.0.CO;2-S.
7. Ederer F, Axtell LM, Cutler SJ. The relative survival rate: a statistical methodology. National Cancer Institute Monograph
1961; 6:101–121.
8. Hakulinen T. Cancer survival corrected for heterogeneity in patient withdrawal. Biometrics 1982; 38:933–942.
9. Esteve J, Benhamou E, Croasdale M, Raymond L. Relative survival and the estimation of net survival: elements for further
discussion. Statistics in Medicine 1990; 9:529–538. DOI: 10.1002/sim.4780090506.
10. Hakulinen T, Tenkanen L. Regression analysis of relative survival rates. Applied Statistics 1987; 36:309–317.
DOI: 10.2307/2347789.
11. Monnet E, Boutron MC, Arveux P, Milan C, Faivre J. Different multiple regression models for estimating survival:
use in a population-based series of colorectal cancers. Journal of Clinical Epidemiology 1992; 45:267–273.
DOI: 10.1016/0895-4356(92)90086-3.
12. Rèseau F. Survie des Patients Atteints de Cancer en France. Étude des Registres de Cancers du Réseau Francim.
Springer-Verlag: France Paris, 2007.
13. Dignam JJ, Colangelo L, Tian W, Jones J, Smith R, Wickerham DL, Wolmark N. Outcomes among African-Americans
and Caucasians in colon cancer adjuvant therapy trials: findings from the National Surgical Adjuvant Breast and Bowel
Project. Journal of National Cancer Institute 1999; 91(22):1933–1940. DOI: 10.1093/jnci/91.22.1933.
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
N. GRAFFÉO, V. JOOSTE AND R. GIORGI
14. Gregorio DI, Cummings KM, Michalek A. Delay, stage of disease, and survival among white and black women with breast
cancer. American Journal of Public Health 1983; 73:590–593.
15. Howlader N, Noone AM, Krapcho M, Neyman N, Aminou R, Waldron W, Altekruse SF, Kosary CL, Ruhl J, Tatalovich Z,
Cho H, Mariotto A, Eisner MP, Lewis DR, Chen HS, Feuer EJ, Cronin KA, Edwards BK (eds). SEER Cancer Statistics
Review, 1975-2008, 2011. National Cancer Institute. Bethesda, MD , http://seer.cancer.gov/csr/1975_2008/, based on
November 2010 SEER data submission, posted to the SEER web site (accessed April, 2012).
16. Clegg LX, Li FP, Hankey BF, Chu K, Edwards BK. Cancer survival among US whites and minorities: a SEER
(Surveillance, Epidemiology, and End Results) program population-based study. Archives of Internal Medicine 2002;
162:1985–1993.
17. Schrijvers CT, Mackenbach JP. Cancer patient survival by socioeconomic status in seven countries: a review for six
common cancer sites. Journal of Epidemiology and Community Health 1994; 48:441–446.
18. Chirikos TN, Horner RD. Economic status and survivorship in digestive system cancers. Cancer 1985; 56:210–217.
DOI: 10.1002/1097-0142(19850701)56:1<210::AID-CNCR2820560136> 3.0.CO;2-E.
19. Dickman PW, Auvinen A, Voutilainen ET, Hakulinen T. Measuring social class differences in cancer patient survival:
is it necessary to control for social class differences in general population mortality? A Finnish population-based study.
Journal of Epidemiology and Community Health 1998; 52:727–734. DOI: 10.1136/jech.52.11.727.
20. Coleman MP, Babb P, Sloggett A, Quinn M, De Stavola B. Socioeconomic inequalities in cancer survival in England and
Wales. Cancer 2001; 91(Suppl 1):208–216. DOI: 10.1002/1097-0142(20010101)91:1+<208::AID-CNCR6>3.0.CO;2-E.
21. Rachet B, Ellis L, Maringe C, Chu T, Nur U, Quaresma M, Shah A, Walters S, Woods L, Forman D, Coleman MP.
Socioeconomic inequalities in cancer survival in England after the NHS cancer plan. British Journal of Cancer 2010;
103:446–453. DOI: 10.1038/sj.bjc.6605752.
22. Møller H, Sandlin F, Robinson D, Bray F, Klint Â, Linklater KM, Lambert PC, Påhlman L, Holmberg L, Morris E.
Colorectal cancer survival in socioeconomic groups in England: variation is mainly in the short term after diagnosis.
European Journal of Cancer 2012; 48(1):46–53. DOI: 10.1016/j.ejca.2011.05.018.
23. Baili P, Micheli A, De Angeli R, Weir HK, Francisci S, Santaquilani M, Hakulinen T, Quaresma M, Coleman MP, and the
CONCORD Working Group. Life tables for world-wide comparison of relative survival for cancer (CONCORD study).
Tumori 2008; 94:658–668.
24. Remontet L, Bossard N, Belot A, Estève J, and the French network of cancer registries FRANCIM. An overall strategy
based on regression models to estimate relative survival and model the estimation of the effects of prognostic factors in
cancer survival studies. Statistics in Medicine 2007; 26:2214–2228. DOI: 10.1002/sim.2656.
25. Dickman PW, Sloggett A, Hills M, Hakulinen T. Regression models for relative survival. Statistics in Medicine 2004;
23(1):51–64. DOI: 10.1002/sim.1597.
26. Smith PL. Splines: as a useful and convenient statistical tool. The American Statistician 1979; 33(2):57–62.
27. Durrleman S, Simon R. Flexible regression model with cubic splines. Statistics in Medicine 1989; 8:551–561.
DOI: 10.1002/sim.4780080504.
28. Abrahamowicz M, MacKenzie T, Esdaile JM. Time-dependent hazard ratio: modeling and hypothesis testing with
application in lupus nephritis. Journal of the American Statistical Association 1996; 91:1432–1439.
29. Quantin C, Abrahamowicz M, Moreau T, Bartlett G, MacKenzie T, Tazi MA, Lalonde L, Faivre J. Variation overtime of
the estimation of the effects of prognostic factors in a population-based study of colon cancer: comparison of statistical
models. American Journal of Epidemiology 1999; 150:1188–1200.
30. Giorgi R, Abrahamowicz M, Quantin C, Bolard P, Esteve J, Gouvernet J, Faivre J. A relative survival regression
model using B-spline functions to model non-proportional hazards. Statistics in Medicine 2003; 22:2767–2784.
DOI: 10.1002/sim.1484.
31. R Development Core Team. R: A language and environment for statistical computing, R Foundation for Statistical
Computing, Vienna, Austria, 2009. Available on line at http://www.r-project.org/ (accessed April 2012).
32. Le Teuff G, Abrahamowicz M, Bolard P, Quantin C. Comparison of Cox’s and relative survival models when estimating
the estimation of the effects of prognostic factors on disease-specific mortality: a simulation study under proportional
excess hazards. Statistics in Medicine 2005; 24:3887–3909. DOI: 10.1002/sim.2656.
33. Mudholkar GS, Srivastava DK, Kollia GD. A generalization of the Weibull distribution with application to the analysis of
survival data. Journal of the American Statistical Association 1996; 91:1575–1583. DOI: 10.2307/2291583.
34. Ross SM. Simulation, Fourth Edition. Elsevier Academic Press: Amsterdam, 2006.
35. Micheli A, Baili P, Quinn M, Mugno E, Capocaccia R, Grosclaude P, and the EUROCARE Working Group. Life
expectancy and cancer survival in the EUROCARE-3 cancer registry areas. Annals of Oncology 2003; 14(Suppl
5):v28—v40. DOI: 10.1093/annonc/mdg752.
36. Sarfati D, Blakelyl T, Pearce N. Measuring cancer survival in populations: relative survival vs cancer-specific survival.
International Journal of Epidemiology 2010; 39:598–610. DOI: 10.1093/ije/dyp392.
37. Howlader N, Ries LAG, Mariotto AB, Reichman ME, Ruhl J, Cronin KA. Improved estimates of cancer-specific survival
rates from population-based data. Journal of National Cancer Institute 2010; 102:1584–1598. DOI: 10.1093/jnci/djq366.
38. Ashworth TG. Inadequacy of death certification: proposal for change. Journal of Clinical Pathology 1991; 44:265–268.
DOI: 10.1136/jcp.44.4.265.
39. Percy C, Stanek EI, Gloeckler L. Accuracy of cancer death certificates and its effect on cancer mortality statistics.
American Journal of Public Health 1981; 71:242–250.
40. Cheuvart B, Ryan L. Adjusting for age-related competing mortality in long-term cancer clinical trials. Statistics in
Medicine 1991; 10:65–77. DOI: 10.1002/sim.4780100112.
Copyright © 2012 John Wiley & Sons, Ltd.
Statist. Med. 2012
Estimation
Tables de mortalité
Table Globale : (D)
Table Stratiﬁée : (D0 ) et (D1 )
Table Globale : (D)
Table Globale : (D)
Variables
age, X
age, X
age, X
age
Table Globale : (D)
age, X
Table Globale : (D)
age, X
Tableau III.3 – Tableau récapitulatif des diﬀérentes scénarios étudiées dans l’article.
59
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Génération
Tables de mortalité
Variables Étude cas corrélé
Scenario 1A
Table Globale : (D)
age, X
oui
Scenario 1B
Table Stratiﬁée : (D0 ) et (D1 )
age, X
oui
Scenario 2
Table Stratiﬁée : (D0 ) et (D1 )
age, X
oui
Scenario 3
tables stratiﬁées sur X :
age
non
translations de (D0 )
Scenario 4
Table Stratiﬁée :
age, X
non
(D0 ) et (D1 ) avec diﬀérents écarts
(84% ∗ (D0 ) + 16% ∗ (D1 ) = (D))
Scenario 5
Table Stratiﬁée :
age, X
non
(D0 ) et (D1 ) non parallèles
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
3.3
Simulations complémentaires
Le tableau III.3 résume les scénarios étudiés dans l’article. Nous avons également étudié
d’autres scénarios que nous exposons ci-après. Du fait de la multiplicité des paramètres qui
entraient en jeu, les interprétations des résultats étaient complexes et ne permettaient pas de
donner une explication détaillée. Toutefois, ces scénarios présentent un intérêt car ils reﬂètent
des situations plausibles d’un point de vue épidémiologique.
3.3.1
Variation des proportions
Nous avions, dans le scénario 2, généré des taux attendus dans une population générale
qui serait constituée à 84% de patients ayant la modalité X = 0. Cependant, comme nous
l’avons déjà mentionné, X peut tout aussi bien représenter l’ethnie, que la catégorie socioprofessionnelle etc. Cela induit que les proportions de X = 0 dans la population générale
peuvent diﬀérer en fonction de ce que X représente. Il nous a donc paru judicieux de faire
varier ces proportions, en gardant la même « évolution » des taux et en gardant une certaine
« maîtrise » sur les valeurs. Précisons ce que cela implique dans la construction des tables
utilisées dans l’étape de génération des données de survie. Aﬁn de conserver l’« évolution » des
taux, nous avons gardé, dans un premier temps, le principe du parallélisme des droites. Dans un
second temps, pour avoir une certaine « maîtrise » sur les valeurs, nous avons décidé de garder
constant l’écart entre (D0 ) et (D1 ). Enﬁn, nous avons fait varier les proportions de X = 0 entre
10% et 90% par pas de 10%.
Plus précisément, comme notiﬁé en (III.3), la solution du système :


p0
+ p1 = 1

T auxGlobal
= p0 × T aux0 + p1 × T aux1
nous permet de conclure qu’il y a 84% d’individus ayant la modalité X = 0 dans la population
générale représentée dans « Table Globale » (et 16% pour X = 1).
Par ailleurs, on avait :
– (D) : y = 10−4+0,035×age
– (D0 ) : y = 10−4,05+0,035×age
– (D1 ) : y = 10−3,8+0,035×age
et un « écart » entre (D0 ) et (D1 ) de : −3, 8 − (−4, 05) = 0, 25.
′
′
Aﬁn de faire varier les proportions, il s’agissait donc de trouver les équations de (D0 ) et (D1 )
60
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
telles que :
et





(D0 ) : y = 10−β +0,035×age
 (D ′ ) : y = 10−γ ′ +0,035×age
1
′
′
γ ′ − β ′ = 0, 25
′
10−4 − 10γ


= "proportion choisie de X=0"
10β ′ − 10γ ′
Comme précédemment, les estimations ont été réalisées avec « Table Globale ». Mais nous avons
aussi contrôlé nos résultats en faisant une simulation où nous avons généré et estimé les eﬀets
des facteurs pronostiques sur la mortalité en excès avec les mêmes tables de mortalité attendue,
′
′
données par (D0 ) et (D1 ).
Nous avons constaté une augmentation du biais relatif lié à la covariable age lorsque la
proportion d’individus présentant la modalité X = 0 augmentait. Ce biais relatif variait entre
-0,04 et 0,16 alors que, dans la simulation de contrôle, il variait entre 0,027 et 0,073 (voir ﬁgure
III.6). Concernant X, le biais relatif était plus important puisqu’il variait entre 0,160 et 0,126
alors que, dans la simulation de contrôle, il variait entre 0,003 et 0,015 (voir ﬁgure III.7).
Figure III.6 – Biais relatifs pour l’estimation de l’eﬀet de age sur la mortalité en excès dans la simulation
de référence et dans la simulation où des tables diﬀérentes sont utilisées dans les étapes de génération et
d’estimation.
61
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Figure III.7 – Biais relatifs pour l’estimation de l’eﬀet de X sur la mortalité en excès dans la simulation
de référence et dans la simulation où des tables diﬀérentes sont utilisées dans les étapes de génération et
d’estimation.
Ces résultats étant trop complexes pour être complètement expliqués, nous avons voulu
donner des pistes de réﬂexion en regardant les résultats obtenus à partir des deux tables « extrêmes » ayant servi dans l’étape de génération et construites avec :
cas 1 : p0 = 10% et p1 = 90%,
cas 2 : p0 = 90% et p1 = 10%.
Elles sont représentés dans la ﬁgure III.8. Au temps t, le taux instantané de mortalité observée
est donné par :



pour un patient i tel que Xi = 0 :
λ̃0P,i (t) + λ0 (t) exp(βage agec,i ) (éq. 1)
pour un patient j tel que Xj = 1 :
λ̃1P,j (t) + λ0 (t) exp(βage agec,j + βX ) (éq. 2)
(III.1)
où
(respectivement
représente la mortalité attendue pour l’individu i (respectivement
′
′
j) donnée par la table représentée par (D0 ) (respectivement (D1 )).
′
Dans le « cas 1 », (D), qui représente la « Table Globale », est très proche de (D1 ) alors
′
qu’elle est « très » au-dessus de (D0 ). λ̃0P,i étant surestimée, on déduit de l’équation 1 du système III.1 que, par compensation, le taux de base, λ0 , et βage sont sous-estimés. Inversement,
λ̃0P,i
λ̃1P,j )
62
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Figure III.8 – Tables construites pour l’étape de génération dans les cas où la proportion d’individus
ayant la modalité X = 0 est de 10% et de 90%.
λ̃1P,j est bien estimée. Comme λ0 et βage sont sous-estimés, on déduit alors de l’équation 2 du
système III.1 que, par compensation, βX est surestimé.
′
′
Dans le « cas 2 », (D) est très proche de (D0 ) alors qu’elle est « très » au-dessous de (D1 ). λ̃1P,j
étant sous-estimée, on déduit de l’équation 2 du système III.1 que, par compensation, βage et
βX sont surestimés. Puisque λ̃0P,i est bien estimée, l’équation 1 du système III.1 implique que,
par compensation, le taux de base est sous-estimé.
3.3.2
Augmentation de l’eﬀet de X sur la mortalité en excès
Nous avons étudié le scénario 2 lorsque βX = ln(4). Concernant l’âge, le biais relatif était
réduit en comparaison avec le cas où l’on avait βX = ln(2), avec un facteur multiplicatif de 2/3.
Concernant X, on observait le même phénomène avec un facteur multiplicatif de 1/3.
Une augmentation de l’eﬀet de X sur la mortalité en excès résultait donc en une réduction du
biais des eﬀets de X et de age sur la mortalité en excès.
En eﬀet, plus l’eﬀet de X sur la mortalité en excès est petit, moins il y a de décès dus au
cancer (par comparaison aux décès « autres causes »). Ainsi, quand βX = ln(2), on a une perte
63
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
d’information pour estimer les eﬀets des facteurs pronostiques sur la mortalité en excès (par
rapport au cas où βX = ln(4)).
3.4
Analyse sur données réelles complémentaires
Dans l’article ci-dessus, nous avions étudié sur des données françaises l’impact d’une absence de stratiﬁcation de la table de mortalité sur le département et l’impact d’une absence
de stratiﬁcation sur l’année. Nous avons constaté que ne pas utiliser une table stratiﬁée sur
l’année avait un impact « important » sur les estimations des eﬀets des facteurs pronostiques
sur la mortalité en excès, sans doute parce que l’année choisie n’était pas représentative de
la période étudiée. Aﬁn de compléter cette étude, nous avons voulu considérer l’impact d’une
absence de stratiﬁcation sur la variable qui a conduit notre stratégie dans l’étude sur simulations, à savoir l’ethnie. Ainsi, nous avons étudié des données réelles provenant du SEER (SEER
Program, 2006). Ces données rassemblaient 9123 patients de 17 registres des États-Unis avec
un diagnostic de cancer colorectal en 1998. La date de point a été ﬁxée à 5 ans.
Les covariables étaient l’âge au diagnostic, le sexe, le stade du cancer au moment du diagnostic
(en 4 stades I à IV selon la classiﬁcation du « American Joint Committee on Cancer » utilisé
par les registres du SEER (SEER Program : comparative staging guide for cancer, 1993)) et
l’ethnie (patients d’ethnie noire ou blanche). Ces données sont décrites dans le tableau III.4.
Ne disposant pas des tables de mortalité pour les registres concernés, nous avons choisi
d’utiliser les tables de mortalité américaines fournies par le package survival du logiciel R,
survexp.us et survexp.usr (Therneau, 2013). Plus précisément, nous avons utilisé les tables
de mortalité stratiﬁées sur l’ethnie et l’année (de 1998 à 2003), mais aussi la table de 2001
stratiﬁée sur l’ethnie et les tables stratiﬁées sur l’année mais pas sur l’ethnie.
Nous avons considéré comme référence l’analyse utilisant les tables stratiﬁées sur l’ethnie et
l’année. Dans le modèle 1, nous avons utilisé les tables stratiﬁées uniquement sur l’année. Dans
le modèle 2, nous avons utilisé la table de 2001 stratiﬁée sur l’ethnie. Aﬁn d’étudier l’impact
d’une absence de stratiﬁcation de la table de mortalité sur l’ethnie et l’impact d’une absence
de stratiﬁcation sur l’année, nous avons comparé ces deux modèles avec le modèle de référence.
Les résultats sont présentés dans le tableau III.5.
Quelle que soit la table utilisée dans l’analyse, la variable sexe n’avait aucun impact sur
la mortalité associée au cancer colorectal alors que toutes les autres covariables utilisées dans
les analyses étaient statistiquement signiﬁcatives, y compris l’ethnie qui était notre variable
d’intérêt. Les HRs les plus élevés ont été obtenus pour les estimations des eﬀets du stade
tumoral au diagnostic sur la mortalité en excès.
64
III.3 Étude de l’impact du manque de stratiﬁcation des tables de mortalité sur
l’eﬀet des facteurs pronostiques sur la mortalité en excès
Facteurs pronostiques
Nombres
Age
≤ 60
2385
61 − 79
4704
> 79
2034
Sexe
Homme
4722
Femme
4401
Ethnie
Noire
902
Blanche
8221
Stade tumoral au diagnostic
Stade I
2132
Stade II
2880
Stade III
2669
Stade IV
1442
Total
9123
(%)†
Décès à 5 ans
(%)‡
(26,1)
(51,6)
(22,3)
795
2077
1349
(33,3)
(44,2)
(66,3)
(51,8)
(48,2)
2137
2084
(45,3)
(47,4)
(9,9)
(90,1)
471
3750
(52,2)
(45,6)
(23,4)
(31,6)
(29,2)
(15,8)
(100)
501
1008
1385
1327
4221
(23,5)
(35,0)
(51,9)
(92,0)
(46,3)
† : Pourcentage parmi les 9123 patients ; ‡ : Pourcentage parmi les 9123 patients qui sont
décédés dans les 5 années suivant le diagnostic.
Tableau III.4 – Description des données du SEER : patients atteints d’un cancer colorectal diagnostiqué
en 1998.
Référence
β
IC95%†
0,0187 0,0155 ; 0,0218
Modèle 1
β1
IC95%†
0,0190 0,0159 ; 0,0222
Modèle 2
β2
IC95%†
0,0191 0,0159 ; 0,0223
0
-0,002
-0,077 ; 0,081
0
-0,004
-0,075 ; 0,083
0
-0,005
-0,073 ; 0,084
0
1,272
2,427
4,015
1,026 ; 1,517
2,195 ; 2,659
3,783 ; 4,246
0
1,230
2,368
3,951
0,991 ; 1,469
2,143 ; 2,593
3,726 ; 4,176
0
1,233
2,371
3,951
0,995 ; 1,472
2,146 ; 2,597
3,726 ; 4,176
0
0,211
0,093 ; 0,329
0
0,268
0,153 ; 0,382
0
0,212
0,095 ; 0,330
∗
Age
Sexe
Homme
Femme
Stade
Stade
Stade
Stade
Stade
I
II
III
IV
Ethnie
blanche
noire
† : Intervalles de conﬁance à 95%.
Tableau III.5 – Résultats des analyses sur données réelles du SEER.
65
III.4 Discussion
En comparaison avec l’analyse de référence, l’impact du manque de stratiﬁcation de la table
de mortalité par une variable additionnelle (l’ethnie et l’année calendaire, respectivement) sur
l’estimation de l’eﬀet de l’ethnie était plus importante avec le modèle 1 qu’avec le modèle 2
(biais de 0,057 et 0,001, respectivement). Les estimations des eﬀets des autres covariables sur
la mortalité en excès étaient similaires. Plus précisément, en comparaison avec l’analyse de
référence, le modèle 1 a surestimé l’eﬀet de l’ethnie sur la mortalité en excès mais a sous-estimé
les eﬀets du stade et, dans une moindre proportion, a surestimé les eﬀets des covariables age
et sexe. Le taux de base était surestimé à la fois par les modèles 1 et 2.
4
Discussion
Nous avons montré que le manque de stratiﬁcation d’une table de mortalité par un facteur
pronostique biaise les estimations des eﬀets de cette variable sur la mortalité en excès et, dans
une moindre mesure, les estimations des eﬀets des autres variables sur la mortalité en excès.
Notons que nous n’avons pas étudié les cas où les eﬀets des variables ne respectaient pas les
hypothèses de log-linéarité et de proportionnalité car cela nous permettait d’interpréter plus
facilement nos résultats.
À notre connaissance, il s’agit de la seule étude de simulations mesurant ce type de biais. Néanmoins, des études empiriques existent et montrent que le problème est toujours d’actualité. Par
exemple, Blakely et al. (2012) ont montré que les ratios de mortalité en excès comparant les
fumeurs aux non-fumeurs d’une part, et les Māori et non-Māori d’autre part, sont surestimés
lorsque des tables stratiﬁées seulement sur le sexe sont utilisées. Plus récemment, Ellison (2014)
a montré que l’utilisation de tables anciennes résulte en une surestimation des ratios de survie
relative en comparaison avec l’utilisation de tables actuelles.
Même si des méthodes d’interpolation existent pour « compléter » des tables, le problème réside dans le manque de données brutes qui permettraient de construire des tables stratiﬁées
sur certains facteurs pronostiques en liant des données de mortalité à des recensements, par
exemple.
La suite de ce travail consiste à proposer un modèle corrigeant les biais observés. Cette suite
fait partie du projet CENSUR (Challenges in the Estimation of Net SURvival, Grant : ANR12-BSV1-0028, coordonné par le Pr. Roch Giorgi) et est en cours de réalisation dans le cadre
d’un post-doctorat.
L’idée de départ repose sur un travail réalisé par Cheuvart and Ryan (1991). Dans le cadre d’essais cliniques, les auteurs ont proposé un modèle permettant de prendre en compte la diﬀérence
66
III.4 Discussion
de mortalité attendue chez les patients étudiés par rapport à celle de la population générale. À
cette ﬁn, elles ont introduit un facteur multiplicatif devant le taux de mortalité attendue instantané (dans le modèle où les taux sont additifs). Leur travail a été fait sur données groupées et
nécessitait l’emploi d’un algorithme EM (Expectation/Maximization). Plus précisément, elles
distinguaient les causes de décès pour scinder la vraisemblance et pouvoir utiliser deux GLM.
Le travail actuellement en cours a permis d’étendre sur données individuelles leur modèle en
permettant à la mortalité attendue de diﬀérer de celle donnée par la table de mortalité par
un facteur multiplicatif, ce qui suppose l’introduction d’un eﬀet proportionnel. Les estimations
sont obtenues en utilisant une approche de maximisation de la vraisemblance. La suite du travail a permis à la mortalité attendue de diﬀérer de celle donnée par la table de mortalité par un
paramètre dépendant des modalités de la variable X manquante dans la table de mortalité. Des
résultats préliminaires ont été obtenus et présentés à l’ISCB (Touraine C, Graﬀéo N, Giorgi R
and the CENSUR working survival group. An excess hazard model adjusting for lack of additional life table variables. 35th annual conference of International Society for Clinical Biostatistics,
Vienne (Autriche, 2014)). Des résultats supplémentaires ont été présentés sous forme de poster
lors d’un meeting de l’« European Network of Cancer Registries » (Touraine C, Graﬀéo N,
Giorgi R and the CENSUR working survival group. An excess hazard model adjusting for lack
of additional life table variables. ENCR Scientiﬁc Meeting and General Assembly, Ispra (Italie,
2014)).
67
Chapitre IV
Comparaison de distributions de survie nette
La survie nette est un concept majeur pour les registres de cancer et, plus généralement,
pour les études sur population dès qu’il s’agit de comparer plusieurs groupes en s’aﬀranchissant
des causes de décès autres que le cancer étudié. Par exemple, le groupe EUROCARE a constaté
que, malgré une amélioration globale de la survie nette associée au cancer, des disparités entre
pays persistaient (De Angelis et al., 2014). Plus précisément, les pays d’Europe de l’Est présentaient une survie nette à 5 ans après le diagnostic inférieure à la moyenne européenne, en
particulier pour les cancers ayant un pronostic bon ou intermédiaire ; la survie nette était plus
élevée dans les pays d’Europe du Nord, d’Europe du Sud et d’Europe Centrale. Bien que, pour
améliorer la comparabilité, les estimations de survie nette aient été pondérées par la taille de
la population de chaque pays et aient été standardisés sur l’âge selon Corazziari et al. (2004),
les comparaisons ne reposaient sur aucun test statistique.
Notre objectif a donc été de proposer un test statistique pour comparer la survie nette de plusieurs groupes, à un temps ﬁxé mais aussi sur l’ensemble de la période de suivi. Historiquement,
Brown (1983), Buckley (1984) et Hakulinen et al. (1987) ont proposé des méthodes pour tester
l’égalité des ratios de survie relative entre plusieurs groupes. Mais nous avons vu qu’au niveau
de la population, le ratio de survie relative ne correspond pas à la survie nette (Chapitre II,
section 2.2). Pour répondre à notre objectif, nous avons utilisé l’estimateur Pohar-Perme, estimateur non paramétrique consistant de la survie nette (Perme et al., 2012), décrit au Chapitre
II (équation (II.2)).
Cette partie de notre travail s’inscrit dans le cadre du projet COMPNETS (Tests de comparaisons de la survie nette par cancer, Grant : INCa SHS-E-SP 2013), coordonné par le Pr. Roch
Giorgi et ﬁnancé par l’INCa.
68
IV.1 Comparaison de survies nettes à temps ﬁxé
1
Comparaison de survies nettes à temps ﬁxé
Deux estimations de survie brute peuvent être comparées à un temps t ﬁxé à l’aide d’un
Z-test usuel. Klein and Moeschberger (2003) ont généralisé ce test à la comparaison d’estimations de survie brute à un temps t ﬁxé pour plus de deux groupes.
Dans un premier temps, nous avons adapté ce Z-test en remplaçant les estimations de survie
brute par les estimations obtenues par l’estimateur Pohar-Perme.
Soit t ﬁxé. Supposons que l’on ait à comparer k ≥ 2 groupes, contenant chacun nk patients.
On veut tester :
(H0 ) : SE,1 (t) = . . . = SE,k (t),
où, pour h dans [[1; k]], SE,h désigne la survie nette au temps t pour le groupe h.
On déﬁnit : (1) le vecteur Θ̂ comme le vecteur contenant les estimations de la survie nette dans
chaque groupe, obtenues par l’estimateur Pohar-Perme ; et (2) C une matrice de contraste. On
a ainsi :




1 0 0 . . . 0 −1


Ŝ


 E,1 
0
1
0
.
.
.
0
−1


 .. 
.

Θ̂ =  .  et C = 
.



..




ŜE,k
0 0 0 . . . 1 −1
On note V la matrice de variance-covariance de Θ̂. La statistique de test est alors donnée par :
h
T := CΘ̂
i′ h
′
CVC
i−1
CΘ̂.
On rejette (H0 ) au seuil de α = 5% lorsque T est supérieure à χ2α;k−1 .
Nous avons utilisé cette adaptation (Chapitre V, section 3), mais notre objectif était d’utiliser toute l’information disponible.
2
Comparaison de distributions de survie nette
Plutôt que de comparer la survie nette à un temps t ﬁxé, il est plus pertinent de comparer
des distributions de survie nette sur la période de suivi. Nous avons choisi une approche de type
log-rank pour trois raisons. Tout d’abord, le test du log-rank (Mantel, 1966; Peto and Peto,
1972) est le test le plus couramment utilisé lorsque l’on souhaite comparer des distributions de
survie brute. Par ailleurs, il est fondé sur la fonction de risque cumulé et peut être représenté
par des processus stochastiques (Aalen et al., 2008; Fleming and Harrington, 2011; Andersen
69
IV.2 Comparaison de distributions de survie nette
et al., 1993). Puisque l’estimateur Pohar-Perme estime en fait le taux cumulé en excès et qu’il
s’écrit sous forme de processus (équation (II.2)), utiliser le log-rank nous a permis d’introduire
les poids utilisés dans l’estimateur Pohar-Perme dans les processus correspondants.
2.1
Un test de type log-rank pour comparer des distributions de
survie nette
La construction du test est détaillée dans l’article qui est présenté à la ﬁn de cette section.
Cet article a été soumis pour publication. Nous mentionnons ici les idées principales.
Les notations diﬀèrent de celles du Chapitre II car un indice supplémentaire h est introduit ; il
correspond à l’indice du groupe à tester 1 .
On se place dans le cas où l’on veut comparer les distributions de survie nette de k ≥ 2 groupes
contenant chacun nh patients (pour h dans [[1; k]]), sur une durée de suivi T .
2.1.1
Le test du log-rank usuel
L’hypothèse nulle du test du log-rank est :
(H0 ) :
∀t ∈ [0, T ] , Λ1 (t) = . . . = Λk (t),
où Λh est le taux cumulé de mortalité observée du groupe h (pour h dans [[1; k]]).
Il est fondé sur la statistique (voir par exemple Andersen et al., 1993) :
Zh (T ) =
Z T
0
1(Y. (u) > 0)dNh (u) −
Z T
0
1(Y. (u) > 0)
Yh (s)
dN. (u),
Y. (u)
(IV.1)
où h ∈ [[1; k]], Nh et Yh sont les processus de comptage du nombre de décès et de l’eﬀectif à
risque pour le groupe h, et Y. et N. sont les sommes de ces processus sur l’ensemble des groupes
à comparer. Notons que Zh (T ) représente la diﬀérence entre le nombre de décès observés dans
le groupe h et les valeurs attendues correspondantes.
2.1.2
Adaptation à la survie nette
Nous posons l’hypothèse nulle :
(H0 ) :
∀t ∈ [0, T ] , ΛE,1 (t) = . . . = ΛE,k (t),
(IV.2)
1. Par exemple, S̃P,h,i désigne la survie attendue individuelle du patient i appartenant au groupe h.
70
IV.2 Comparaison de distributions de survie nette
où ΛE,h est le taux cumulé de mortalité en excès du groupe h (pour h dans [[1; k]]).
Rappelons que l’estimateur Pohar-Perme de survie nette corrige l’estimateur Ederer II via une
pondération par l’inverse de la probabilité de survie attendue. Ces poids sont appliqués aux
processus de comptage du nombre de décès, Nh , et du nombre de personnes à risque, Yh . Il est
ainsi donné par :
∀k ≥ 2, ∀h ∈ [[1; k]], Λ̃E,h (t) =
où Nhw (u) =
n
X
w
Nh,i
(u) et Yhw (u) =
n
X
Z t
0
dNhw (u) Z t
−
Yhw (u)
0
Pnh
i=1
w
w
Yh,i
(u) avec dNh,i
(u) =
i=1
i=1
w
Yh,i
(u)λ̃P,h,i (u)du
.
Yhw (u)
Yh,i (u)
dNh,i (u)
w
et Yh,i
(u) =
.
S̃P,h,i (u)
S̃P,h,i (u)
Nous avons introduit NE,h , le processus de comptage des décès dus au cancer dans le groupe
h et avons utilisé le même procédé de pondération que dans l’estimateur Pohar-Perme. Le
processus pondéré du nombre de décès dus au cancer est alors donné par
w
NE,h
(u)
=
dNE,h,i (u)
w
avec dNE,h,i
(u) =
. La statistique de test proposée est la suivante :
S̃P,h,i (u)
Zhw (T )
w
où Y. (u) =
=
k
X
Z T
0
w
1(Y. (u) >
Yhw (u)
et
w
0)dNE,h
(u)
w
dNE,.
(u)
=
k
X
−
Z T
0
1(Y.w (u) > 0)
nh
X
w
NE,h,i
(u)
i=1
Yhw (u)
dN w (u),
Y.w (u) E,.
(IV.3)
w
dNE,h
(s) pour k ≥ 2.
h=1
h=1
La statistique (IV.3) est similaire à la statistique (IV.1) en ce sens qu’elle représente la diﬀérence
entre le nombre pondéré de décès dus au cancer dans le groupe h et les valeurs attendues
correspondantes.
Nous avons également obtenu un estimateur de la variance de cette statistique et la distribution
de la statistique de test ﬁnale U w (T ) via la théorie des processus stochastiques :
Sous (H0 ),
2.1.3
U w (T ) ∼ χ2 (k − 1) quand n −→ ∞.
Génération des données de survie pour les études de simulations
Nous avons réalisé des simulations aﬁn d’étudier les performances de notre test, à savoir
l’erreur de type I et la puissance, selon plusieurs scénarios.
Nous avons généré des temps de survie à partir du modèle multivarié selon la méthode exposée
au Chapitre III (section 3.1.2). Puis, nous avons comparé les performances de notre test à un
« gold standard », à savoir le test du log-rank usuel appliqué aux données du monde hypothé-
71
IV.2 Comparaison de distributions de survie nette
tique où le cancer serait la seule cause de décès possible. Plus précisément, pour chaque patient
′
i, nous avons utilisé le temps de décès dans le monde hypothétique : Ui = min(TE,i , Ci ). À partir de ce temps, nous avons obtenu un nouveau statut vital correspondant au statut qu’aurait
le patient i dans le monde hypothétique. Notons que cela n’est possible que dans le cadre de
simulations.
Enﬁn, nous avons réalisé une étude sur données réelles provenant de 17 registres américains,
étude exposée dans l’article qui suit.
Ces résultats ont donné lieu à plusieurs communications orales :
• Graﬀéo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net survival
distributions. Statistics seminars / ARC Seminar « Semiparametric inference for survival
and cure models », Université Catholique de Louvain (Belgique, 2014)
• Graﬀéo N, Castell F, Belot A, Giorgi R. A log-rank type test to compare net survival
distributions. ENCR Scientiﬁc Meeting and General Assembly, Ispra (Italie, 2014)
• Graﬀéo N, Castell F, Belot A, Giorgi R and the CENSUR working survival group.
Generalization of a log-rank type test to compare net survival distributions. 35th annual
conference of International Society for Clinical Biostatistics, Vienne (Autriche, 2014)
• Graﬀéo N, Belot A, Giorgi R. A log-rank type test to compare net survival distributions. 34th annual conference of International Society for Clinical Biostatistics, Munich
(Allemagne, 2013)
72
1–19
DOI: 000
A log-rank type test to compare net survival distributions
Nathalie Grafféo1,2 , Fabienne Castell3 , Aurélien Belot4,5,6, and Roch Giorgi1,2,7,∗
1
INSERM, UMR912 ” Economics and Social Sciences Applied to Health & Analysis of Medical Information ”
(SESSTIM), 13006 Marseille, France
2
3
Aix Marseille University, UMR S912, IRD, 13006, Marseille, France
Aix Marseille University, CNRS, Centrale Marseille, I2M, UMR 7373, 13453 Marseille, France
4
5
Hospices Civils de Lyon, Service de Biostatistique, Lyon, France
University Lyon 1, UMR 5558 Laboratoire Biostatistique-Santé, , Villeurbanne, France
6
Institut de Veille Sanitaire, DMCT, Saint-Maurice, France
7
APHM, Hôpital Timone, BIOSTIC, Marseille, France
*email: [email protected]
Summary:
In population-based cancer studies, it is often of interest to compare cancer survival between different
populations. However, in such studies the exact causes of death are often unavailable or unreliable. Net survival
methods were developed to overcome this difficulty. Net survival is the survival that would be observed, in a
hypothetical world, if the studied disease were the only possible cause of death. The Pohar-Perme estimator is a
non-parametric consistent estimator of net survival. In this paper, we present a log-rank-type test for comparing net
survival functions estimated by this estimator between several groups. We expressed our test in the counting process
framework to introduce the inverse probability weighting procedure as done in the Pohar-Perme estimator. We built
a stratified version to control for categorical covariates affecting the outcome. Simulation studies were performed to
evaluate the performance of our test and an application on real data is provided.
Key words:
Cancer; Log-rank; Net survival; Pohar-Perme estimator; Stochastic process; Test.
A test to compare net survival distributions
1
1. Introduction
Net survival, the survival associated to the excess mortality hazard, is the survival observed
in an hypothetical world where the disease of interest would be the only possible cause
of death. The observed survival, which is the most frequently used, is the result of two
main survival components. One part comes from the studied disease whereas the second
part comes from all other causes that we are all exposed (Esteve et al., 1990; Perme, Stare,
and Estève, 2012).On one hand, the observed survival do not distinguish between death
from the disease of interest (or excess death) and death from other causes. On the other
hand, net survival evaluates the burden of this disease independently of the differences in
general population mortality given by life tables, that is to say the mortality due to other
causes. In cancer research, the idea of net cancer survival is to study the proportion of
cancer deaths, that is to say patients dying, directly or indirectly, from cancer. So, this
epidemiological indicator, routinely estimated in cancer registries and in population-based
studies (see e.g. the EUROCARE program (De Angelis et al., 2014), the US SEER program
(Howlader et al., 2011) or the CONCORD programme (Coleman et al., 2008)), is crucial
for comparison between different populations (Perme et al., 2012; Danieli et al., 2012). For
instance, when comparing patterns of care between countries, it is essential to take into
account the general population mortality because of its weight on observed survival.
In population-based studies the exact causes of death are often unavailable (Percy et al.,
1981) and, when available, it is often difficult to state whether they are disease related
(Berkson and Gage, 1950). Net survival methods were developed to overcome this difficulty
(Esteve et al., 1990). Historically, several non-parametric estimators have been proposed to
estimate net survival (Ederer and Heise, 1959; Ederer, Axtell, and Cutler, 1961; Hakulinen,
1982). But in 2012 Perme et al. (2012) argued that, in most cases, these estimators do not
estimate net survival. They proposed a non-parametric estimator that corrects the Ederer II
2
estimator (Ederer and Heise, 1959). For instance, because high ages may prevent cancer
deaths in a non random way, excess mortality and other causes mortality share the influence
of age. So Perme et al. used population mortality information to weight and correct for those
who left the sample due to deaths of other causes. In addition, Danieli et al. (2012) showed by
a simulation study that the Pohar-Perme estimator is a consistent non-parametric estimator
of net survival, which may be preferred to the other existing non-parametric estimators. The
Pohar-Perme estimator assesses a hypothetical quantity which allows comparison across
populations. However, to the best of our knowledge, it is not yet possible to compare
distributions of net survival over a given period. We can only compare two estimates at
a given time t with a classical Z-test.
In this paper, we propose a log-rank type test to compare distributions of net survival
estimated by the Pohar-Perme estimator between at least 2 groups over a defined follow-up
period. This choice was made for several reasons. First, the log-rank test (Mantel, 1966;
Peto and Peto, 1972) is the most commonly used test to compare distributions of observed
survival between at least two groups. Secondly, the log-rank test uses the cumulative hazard
function and can be represented with stochastic processes (Aalen, Borgan, and Gjessing,
2008; Fleming and Harrington, 2011; Gill, Keiding, and Andersen, 1993). Finally, because
the Pohar-Perme estimator is developed on that scale and is written with stochastic processes,
the log-rank test allows to introduce easily the weights of the Pohar-Perme estimator in the
corresponding counting processes.
The remaining part of this paper is organized as follows. In section 2 we present the building
of our proposed log-rank type test and we propose a stratified version of this test in Section
3. Section 4 presents a simulation study where we investigated the performance of our test
and Section 5 provides an application to a colorectal cancer data set. We conclude this paper
with a brief discussion.
A test to compare net survival distributions
3
2. A log-rank type test for k > 2 groups
The proposed test compares the distribution of net survival estimated by the Pohar-Perme
estimator (Perme et al., 2012) between k > 2 groups over a defined follow-up period. Assume
that observations are made on nh patients from group h with h ∈ [[1; k]] and k > 2. Let
k
X
nh denote the total number of patients. Let’s also assume (Fleming, Harrington,
n=
h=1
and O’sullivan, 1987)
nh
= αh ; αh ∈ ]0; 1[ .
n→∞ n
∀h ∈ [[1; k]], lim
Note that under these assumptions: lim min nh = ∞.
n→∞
h
2.1 Notations and model
For each patient i in the group h, we consider that the time to death, Th,i , is the minimum
of two distinct times: TPh,i due to ”population hazard” and TEh,i due to ”excess hazard”.
Let Ch,i denote the time to censoring and define Uh,i = min(Th,i , Ch,i ) the follow-up time of
patient i. δ̃h,i denotes the failure indicator equal to 1 if the true failure time, Th,i , is observed
and 0 if patient i is censored. Each patient i in a group h has covariates denoted by the
vector Xh,i . Dh,i is a sub-vector of Xh,i describing all the demographic covariates so that
Xh,i \ Dh,i and TPh,i are independent. We assume that:
(1) (TPh,i , TEh,i , Ch,i , Xh,i )h,i are mutually independent;
(2) (TPh,i , TEh,i , Ch,i , Xh,i )i have the same distribution;
(3) TEh,i and TPh,i are conditionally independent given Xh,i ;
(4) censoring times Ch,i are independent of the pair (Th,i , Xh,i ).
Further, we assume that the censoring process is independent of the group and is non
informative i.e. SC (t) := SCh,i (t) = P (Ch,i > t) (∀i ∈ [[1; n]], ∀h ∈ [[1; k]]). The observed
data are given by (Uh,i , δ̃h,i , Xh,i )h,i for each patient i in group h. The conditional net
survival function of TEh,i corresponding to every patient i belonging to group h is denoted
4
by S̃E,h,i (t) = P (TEh,i > t | Xh,i ). The corresponding conditional cumulative excess hazard
is denoted by Λ̃E,h,i. In the same way, we can define the conditional population all-cause
survival as S̃P,h,i (t) = P (TPh,i > t | Xh,i ) which equals P (TPh,i > t | Dh,i ) since Xh,i \ Dh,i
and TPh,i are assumed to be independent. The corresponding conditional population all-cause
cumulative hazard is denoted by Λ̃P,h,i. We use life tables to calculate conditional population
all-cause hazard functions according to individual demographic covariates such as age, sex
and year of diagnosis that can be found in Dh,i . Further, for each group h, the net survival
function is defined as SE,h (t) = P (TEh,1 > t) and we have SE,h (t) = E(S̃E,h,1(t)). Let
ΛE,h denote the corresponding cumulative excess hazard. In the same way, we define the
population all-cause survival by SP,h (t) = P (TPh,1 > t) and the corresponding population
all-cause cumulative hazard by ΛP,h . Note that λ̃E,h,i, λ̃P,h,i , λE,h and λP,h denote the
instantaneous hazards related to Λ̃E,h,i, Λ̃P,h,i, ΛE,h and ΛP,h respectively. We assumed that
the conditional observed mortality hazard is the sum of the conditional population mortality
hazard and the conditional excess mortality hazard.
Besides, we will also use the following additional assumptions to prove the asymptotic χ2
distribution of our test statistic under the null:
a)
Z
T
0
SE,h (s)λ2E,h (s)ds < ∞,
b) ∀h ∈ [[1; k]], E(
c) ∀h ∈ [[1; k]], E(
Z
T
0
1
) < ∞,
S̃P,h,1(T )3
(1)
λ̃P,h,1(s)2 ds
) < ∞.
S̃P,h,1(s)3
where T is the follow-up time. Note that these assumptions require that T is not too long
compared with TP or TE . For instance, a) is not satisfied if TE < T (a.s.) and b) is not
satisfied if TP < T (a.s.).
A test to compare net survival distributions
5
2.2 The log-rank type statistic
The usual log-rank test compares k cumulative observed hazard functions over [0, T ]. Let
[0, T ] denote the follow-up period. The k-sample log-rank test is a test for the null hypothesis
(H0 ) : ∀t ∈ [0, T ] , Λ1 (t) = . . . = Λk (t) where k > 2 is the number of groups to compare and
Λh (h ∈ [[1; k]]) is the cumulative observed hazard. Using counting process representations
(see e.g. Gill et al., 1993), the log-rank test is based on the following statistic:
Z T
Z T
Yh (s)
dN. (s),
Zh (T ) =
1(Y. (s) > 0)dNh (s) −
1(Y. (s) > 0)
Y.(s)
0
0
where h ∈ [[1; k]], Nh,i (s) = 1(Th,i 6 s, Th,i 6 Ch,i ) = 1(Uh,i 6 s, δ̃h,i = 1),
nh
nh
k
X
X
X
Yh (s)
Yh,i (s), Y. =
Yh,i (s) = 1(Th,i > s, Ch,i > s), Nh (s) =
Nh,i (s), Yh (s) =
i=1
and N. =
k
X
i=1
h=1
Nh (s) for k > 2. Zh (T ) represents the difference between the number of
h=1
observed deaths in the group h and the corresponding expected values.
Here, our goal is to test the null hypothesis
(H0 ) : ∀t ∈ [0, T ] , ΛE,1(t) = . . . = ΛE,k (t)
where k > 2. More precisely, we want to compare k cumulative excess hazard functions over
this period using Pohar-Perme estimator (Perme et al., 2012). The Pohar-Perme estimator,
Λ̂E,h, is a consistent estimator of ΛE,h. It corrects the Ederer II estimator for those who left
the sample due to deaths of other causes using the inverse probability weighting procedure
(Robins, 1993). The weights are the survival probabilities of other causes and are applied
dNh,i (s)
w
to the counting and the at-risk processes. More precisely, we have dNh,i
(s) =
,
S̃P,h,i (s)
nh
nh
X
X
Yh,i (s)
w
w
w
Yh,i
(s) =
, Nhw (s) =
Nh,i
(s), and Yhw (s) =
Yh,i
(s) for h ∈ [[1; k]] and k > 2.
S̃P,h,i (s)
i=1
i=1
The Pohar-Perme estimator is given by:
Z t
Z t Pnh w
dNhw (s)
i=1 Yh,i (s)λ̃P,h,i (s)ds
∀k > 2, ∀h ∈ [[1; k]], Λ̃E,h (t) =
−
.
w
Yhw (s)
0 Yh (s)
0
To build our log-rank type test, we first have to consider another stochastic process related
6
nh
X
to the expected number of deaths due to cancer NE,h (s) =
NE,h,i (s) where NE,h,i (s)
i=1
Rs
is given by Nh,i (s) − 0 Yh,i (u)λ̃P,h,i(u)du for each patient i and for each group h ∈ [[1; k]].
Second, we use the same weighting procedure as in the Pohar-Perme estimator. The expected
nh
X
w
w
weighted number of deaths due to cancer is then defined by NE,h (s) =
NE,h,i
(s) with
i=1
dNE,h,i (s)
w
. For all h ∈ [[1; k]], we now consider the statistic
dNE,h,i
(s) =
S̃P,h,i (s)
Z T
Z T
Yhw (s) w
w
w
w
w
Zh (T ) =
1(Y. (s) > 0)dNE,h(s) −
1(Y. (s) > 0) w dNE,. (s),
Y. (s)
0
0
w
where Y. (s) =
k
X
h=1
Yhw (s)
and
w
dNE,.
(s)
=
k
X
(2)
w
dNE,h
(s) for k > 2.
h=1
Note that when k = 2, Z1w (T ) is given by
Z T
Z T
Y w (s)
w
w
w
w
1(Y. (s) > 0)dNE,1(s) −
1(Y.w (s) > 0) w 1
dNE,1
(s) + dNE,2
(s)
w
Y1 (s) + Y2 (s)
0
0
Z T
w
Y1w (s)
Y2 (s)
w
w
w
dN (s) − w
dN (s) .
=
1(Y. (s) > 0)
Y1w (s) + Y2w (s) E,1
Y1 (s) + Y2w (s) E,2
0
The proposed test will be called log-rank type test because of the similarity between the two
w
dNE,h
(s)
is a consistent estimator of the instantaneous excess hazard
tests. For h ∈ [[1; k]],
w
Yh (s)
dNh (s)
which is a
at time s, λE,h (s) (Perme et al., 2012). It serves the same purpose as
Yh (s)
consistent estimator of the instantaneous observed hazard at time s, λh (s).
2.3 Estimate of the variance of Zhw under the null
We used martingale theory to estimate the variance of the statistic Zhw (T ) under the null.
We start by looking at the case where TEh and Xh are independent for each h ∈ [[1; k]] i.e. we
assume homogeneity in each group. This is a strong assumption usually made when studying
the usual log-rank test (see e.g. Gill et al., 1993). In fact TE and X can be dependent, for
example when cancer death is related to sex of patients. We will deal with this general case
by building a stratified test presented in the next section.
Following the idea of the calculation of the estimate of the variance of the Pohar-Perme
A test to compare net survival distributions
7
estimator (Perme et al., 2012), we introduce
def
Mh,i (s)
Nh,i (s) −
=
Z
0
NE,h,i (s) −
=
s
Z
Yh,i (u) λ̃P,h,i (u) + λE,h (u) du
s
Yh,i (u)λE,h(u)du.
0
Mh,i (s) is a local square integrable martingale with respect to the filtration
Fs = σ (Xh,i , 1(Uh,i 6 u, Uh,i = Th,i ) : 0 6 u 6 s; h ∈ [[1; k]]; 1 6 i 6 nh ). Its predictable
Rs
variation process hMh,i i is given by 0 Yh,i (u) λ̃P,h,i (u) + λE,h (u) du. Note that S̃P,h,i is
(F0 ) − measurable so that we can define
def
dMhw (s) =
nh
X
dMh,i (s)
S̃P,h,i (s)
i=1
w
= dNE,h
(s) − Yhw (s)λE,h (s)ds,
(3)
and Mhw (s) is a local square integrable martingale with respect to (Fs )s .
Let ΛE and λE denote ΛE,h and λE,h under the null (∀h ∈ [[1; k]]). Then we have
k
X
w
dNE,.
(s) =
w
dNE,h
(s) =
h=1
k
X
dMhw (s) + λE (s)
k
X
Yhw (s)ds.
(4)
h=1
h=1
Introducing (3) and (4) in formula (2), we obtain under the null
Zhw (T )
=
k Z
X
l=1
T
Yhw (s)
dMlw (s),
1(Y. (s) > 0) δhl − w
Y. (s)
w
0
with δhl being the Kronecker delta. For all h ∈ [[1; k]], Zhw are local square integrable
martingales with respect
to (Fs )s . We have EhZhw i(T ) < ∞ since
(
) ∀h ∈ [[1; k]]
Z
k
T
X
SC (s)SE (s)
nl E
EhZhw i(T ) 6
λ̃P,l,1 (s) + λE (s) ds < ∞ (see Web Appendix A).
S̃P,l,1
0
l=1
So the Zhw are square integrable over [0, T ].
As the first and second order moments of the Zhw exist, we have
cov Zhw (T ), Zjw (T )
[Zhw , Zjw ](T ) =

k 
Z T
X
l=1


0
= E[Zhw , Zjw ](T ),

n
l

w
w
X dNl,i (s) 
Y
(s)
Y
(s)
j
h
w
δjl − w
1(Y. (s) > 0) δhl − w
2 .

Y. (s)
Y. (s) i=1
S̃P,l,i (s) 
8
Note that, when k = 2, we have
[Z1w , Z1w ](T )
=
Z
T



Y2w (s)
1(Y. (s) > 0)
w
w

 Y1 (s) + Y2 (s)
w
0
+
2 X
n1
i=1
dN1,i (s)
2
S̃P,1,i (s)
Y1w (s)
Y1w (s) + Y2w (s)
2.4 The test statistic
2 X
n2
i=1


dN2,i (s) 
2 .

S̃P,2,i (s) 
Following closely the usual log-rank test (Gill et al., 1993), and knowing that
k
X
Zhw (T ) = 0, we propose to test the null hypothesis with the statistic
h=1
−1 w
U w (T ) = Z0w (T )t Σ̂2,w
0 (T ) Z0 (T ),
(5)
t
w
being the matrix of general term
Z1w (T ), . . . , Zk−1
(T ) and Σ̂2,w
0




Z
n
k
l

T
X
Yjw (s) X dNl,i (s) 
Yhw (s)
2,w
w
1(Y. (s) > 0) δhl − w
σ̂h,j (T ) =
δjl − w
2


Y. (s)
Y. (s) i=1
l=1  0
S̃P,l,i (s) 
with Z0w (T ) =
for (h, j) ∈ [[1; k − 1]]2 .
Under the assumptions (1) we can show that, under the null, U w (T ) ∼ χ2 (k − 1) when
n −→ ∞ (see proof in Web Appendix B).
3. Stratified version of the test
We made the strong assumption of independence between TE and X to estimate the variance of Zhw under the null. Now we look at the general case where TE and X can be
dependent. We define a set partition of the covariates set by (I1 , . . . , Im ) and we assume
m
X
P (TEh > t | Xh ∈ Is ). 1 (Xh ∈ Is ). The (Is )16s6m are called
that P (TEh > t | Xh ) =
s=1
strata of one or more covariate. When cancer death is related to sex of patients, for example,
we would consider 2 strata for men and women. Thus we assume homogeneity within each
stratum but we allow heterogeneity between strata. We define ΛE,h,s as the cumulative excess
hazard corresponding to the net survival function SE,h,s(t) = P (TEh > t | Xh ∈ Is ).
A test to compare net survival distributions
9
We want to test (H0 ) : ∀t ∈ [0, T ] , ∀s ∈ [[1; m]] ΛE,1,s(t) = . . . = ΛE,k,s(t).
nh
k
X
X
Yh,i (u)
w
w
w
1(Xh,i ∈ Is ). In the same way,
We define Y.,s (u) =
Yh,s (u) with Yh,s(u) =
S̃P,h,i (u)
i=1
h=1
k
X
w
w
dNE,h,s
we define dNE,.,s(u) =
(u). Following Gill et al. (1993), we define the statistics
h=1
w
Zh,s
(T )
=
Z
T
w
1(Y.,s
(u)
>
w
0)dNE,h,s
(u)
0
−
Z
T
w
1(Y.,s
(u) > 0)
0
w
Yh,s
(u) w
(u),
dN
w
Y.,s (u) E,.,s
(6)
and
2,w
σ̂h,j,s
(T )
k Z
X
=
l=1
w
w
(u)
Yh,s
Yj,s
(u)
δjl − w
> 0) δhl − w
Y.,s (u)
Y.,s (u)
0


nl

X
dNl,i (u)
×
2 1(Xl,i ∈ Is ) .


i=1
S̃P,l,i (u)
T
w
(u)
1(Y.,s
(7)
We denote for s ∈ [[1; m]] the vectors and matrices with elements given by (6) and (7) by Zsw
2,w
and Σ̂s . Then we will test the null hypothesis with the statistic
!t
!
!−1
m
m
m
X
X
X
2,w
w
w
Σ̂s,0 (T )
Zs,0
(T ) .
.
Zs,0
(T ) ,
s=1
s=1
s=1
2
which has asymptotic χ distribution with (k − 1) degrees of freedom under the null. Note
t
2,w
w
w
w
that, for s ∈ [[1; m]], Zs,0
(T ) = Z1,s
(T ), . . . , Zk−1,s
(T ) and Σ̂s,0 is the same matrix as
2,w
Σ̂s
without the last row and the last column.
4. Simulations
We evaluated the performance of the proposed log-rank type test by simulation studies in
the cases where TE and X were (1) independent when k = 2 and k = 3; and (2) dependent
when k = 2.
4.1 Data generation and simulations design
For each patient i, we independently generated covariates sex, age and G, which represents
the groups (G had k = 2 or k = 3 levels). Covariate sex was generated from a binomial
distribution with P (man) = P (woman) = 1/2. Covariate G was generated to study balanced
10
cases (P (G = 0) = P (G = 1) when k = 2 or P (G = 0) = P (G = 1) = P (G = 2) when
k = 3) or unbalanced cases only when k = 2 (P (G = 0) = 1/4 and P (G = 1) = 3/4).
Because TP depends on age, we studied 3 scenarios : (1) in the first scenario, we generated
covariate age to represent approximately the empirical distribution of the ages of colon cancer
patients in the French registries (25 percent of patients aged 40-64 years, 35 percent aged
65-74 years, and 40 percent aged 75 years and over); (2) in the second scenario, we studied
a young population using a uniform distribution between 30 and 40; and (3) in the third
scenario we studied an old population using a uniform distribution between 65 and 80.
Danieli et al. (2012) showed that the multivariable modelling estimator, which is based on
the multivariable additive excess hazard model, is a consistent parametric estimator of net
survival when adjusting for demographic covariates. Thus, we generated survival times from
this model. In its classical additive form (Esteve et al., 1990), the observable hazard related
to the individual time of death, Ti , is defined as the sum of two components:
λ̃P,i (t) + λ̃E,i (t),
where t is the time after diagnosis, and, for each patient i, λ̃P,i and λ̃E,i are the instantaneous
conditional population all-cause and excess hazards. Ti was generated as follows: firstly, for
each patient i, the time to death due to population hazard, TPi , was obtained from the
2004 American life table, survexp.us, stratified by Di = (agei , sexi ), and provided by
the survival package in R software (R Core Team, 2014). Secondly, for each patient i,
the time to death due to cancer, TEi , was obtained from λ̃E,i modelled with the standard
approach (see e.g. Giorgi et al., 2003) and using the inverse transformation method
! (Ross,
k−1
X
βG,l 1(Gi = l) where
2006). More precisely, λ̃E,i (t) = f (t). exp βsex 1(sexi = man) +
l=1
βsex and βG,l are the log hazard ratios (HR) of the covariates. The baseline hazard function
f was modelled with a generalized Weibull distribution (Mudholkar, Srivastava, and Kollia,
A test to compare net survival distributions
11
κρκ tκ−1
with ρ = 0.5, α = 0.2 and κ = 2. The
(ρt)κ
1+
α
distributions of net survival between the groups that are defined by the levels of G vary when
1996; Belot et al., 2010) chosen as t 7−→
the effects of G on excess mortality vary. More precisely, the null is true when the HR(s) of
G equal 1. Conversely, the farther the HR(s) are from 1, the more different are the groups
in terms of net survival and the farther we are from the null. When k = 2, the HR of G
belonged to {0.7; 0.8; 0.9; 1; 1.2; 1.4; 1.6}. When k = 3, the HRs of G, (HR1 , HR2 ), belonged
to {(1, 0.7); (1, 1); (1, 1.2); (1, 1.4); (1, 1.6); (0.9, 1.2); (0.8, 1.4); (0.7, 1.6)}. In addition, when
studying the case where TE and X were independent, we did not introduce effects of age
and sex on excess mortality to meet the assumption of homogeneity. Conversely, to study
the case where TE and X were dependent, we set the HR of sex equal to 2 and 3 and we
chose to assume independence with respect to age. But this could be done in the same way
as done for sex. The bigger is the HR of sex, the more different are the distributions of the
time to death due to cancer between men and women in the group h. Finally, individual
censoring times, Ci , were generated from a uniform distribution U[0; b], where the upper
boundary b was selected to obtain approximately 0% or 30% overall censoring levels. Then,
each individual’s observable time of death was Ti = min(TPi , TEi ) whereas each individual’s
observed time of death was Ui = min(TPi , TEi , Ci ). In addition, all subjects still at risk at
5 years were censored.
Moreover, we defined an individual’s hypothetical time of death as the minimum of the
excess death and censoring times. According to this time, we obtained another vital status
corresponding to the hypothetical world where cancer would be the only cause of death.
Thus, we could compare our test to the usual log-rank one applied on data from hypothetical
world. We will refer to them as ”data from hypothetical world” and we will consider that
the usual log-rank on these data is the gold standard. Note that this is only possible within
a simulation framework.
12
Each simulation run consisted of 2000 independent samples. Each of them contained 1000
patients.
4.2 Simulation results
Results obtained with no censoring were roughly equivalent to those obtained with 30%
censoring. So we show only those related to 30% censoring level.
When studying the comparison of 2 groups, the estimation of the one-type error of our logrank type test was good. In table 1, at a 5% level of significance, the confidence intervals
for the estimation of the one-type error contain the nominal level of 5% for our test and
the usual log-rank applied on data from hypothetical world. In comparison with the usual
log-rank, our test performed well in terms of power in the first two scenarios (table 1). In
the second scenario, where the patients under study are young, the results were nearly the
same for both tests. Nevertheless, there was a loss of power for our proposed test in the third
scenario.
[Table 1 about here.]
As expected, whatever the scenario, both tests were more powerful when the number of
patients increased from 500 to 2000 (results not shown) and they performed worse when the
cases were unbalanced (Web Table A).
When studying the comparison of 3 groups, the estimation of the one type error was close
to the nominal level of 5% (table 2). In terms of power, in the first scenario, table 2 shows
that our proposed test performed worse than the usual log-rank, especially when the 3
distributions of net survival were not really away from each other ((HR1 , HR2 ) = (1, 0.7) or
(0.9, 1.2)). In the other cases, the results of both tests were similar. In addition, as previously,
our test performed as well as the usual log-rank when patients were young and we observed
a loss of power in scenario 3 (Web Table B). We did not study unbalanced case because
results would be similar as in the comparison of 2 groups.
A test to compare net survival distributions
13
[Table 2 about here.]
When studying the comparison of 2 groups when TE and the covariate sex were dependent,
we compared results from the stratified version of our test with the not-stratified version. As
expected, there was a loss of power when using the test which was not stratified (table 3). The
farther βsex is from 0, the bigger was this loss of power. More interestingly, as shown in table 3,
when the conditional distributions of TE were the most different (HRsex = 3), the estimation
of the one type error was equal to 2.95, 95% Confidence Interval (CI) = [2.21; 3.69], when
using the not stratified version of our test vs 4.60, 95%CI = [3.68; 5.52], with the stratified
version. However, it was equal to 4.80, 95%CI = [3.86; 5.74], vs 5.45, 95%CI = [4.46; 6.44],
when HRsex = 2. Thus, the stratified log-rank type test has to be used when the stratum
variable has an important impact on net survival.
[Table 3 about here.]
5. Application
We applied the proposed test in one application for illustration. This analysis considered
survival data on 10,108 patients with colorectal cancer diagnosed in 1998. These data came
from 17 US registries obtained from the Surveillance, Epidemiology, and End Results (SEER)
Program (2006) in the US. From this cohort, we excluded 816 patients who had no surgical
procedure of the primary site, 2 patients in whom the use of a surgical procedure was
not certain, and 167 patients with in situ tumors. Patient follow-up was restricted to the
first five years after diagnosis and censoring set at five years in still alive patients. This
left 9,123 patients for analysis. The covariates used were age at diagnosis, sex, ethnicity
(black or white), and cancer stage at diagnosis (in four stages I to IV according to the stage
classification of the American Joint Committee on Cancer used by SEER registries (SEER
Program: comparative staging guide for cancer, 1993)). This data set is described in Web
14
Table C.
We used the American life tables provided by R software survexp.usr, that is to say ethnicspecific life tables stratified by calendar year, from 1998 to 2003.
We used our test to compare net survival distributions between Black and White patients
stratified on stage, which is known to have an important effect on net cancer survival.
Thus, as we know that stage may affect the result of the test, we considered 2 strata (stage
I-II vs. stage III-IV). Figure 1 shows the impact of stages on net survival for these real
data. When running our test stratified on stage, we found a test statistic equal to 9.06
(p-value = 2.6 × 10−3 ). We can note that using a test not stratified on stage produces a
test statistic equal to 20.02 (p-value = 7.7 × 10−6 ). In fact, there were 426 (47%) Black
patients with stage I-II and 476 (53%) with stage III-IV whereas there were 4586 (56%)
White patients with stage I-II and 3635 (44%) with stage III-IV respectively. Thus, even if
we rejected the null at the 5% level in both cases, stratifying allowed to eliminate the weight
of strata and to assess the true difference between net survival distributions of Black and
White people.
[Figure 1 about here.]
6. Discussion
Our proposed test compares distribution of net survival estimated by the Pohar-Perme
distributions (Perme et al., 2012). The simulation study showed that the estimation of the
one type error is correct. Our test also performs well in terms of power even if we observed
a loss of power when the studied patients were old. This loss of power could be explained by
the fact that elderly patients have higher expected mortality rates, that is to say there are
more deaths due to other causes. Thus, there is a loss of information and higher variability
in the estimates of net survival.
A test to compare net survival distributions
15
The stratified version is useful when dealing with covariates impacting strongly on net
survival, that is to say when there is one or more covariate having different distributions
in the groups to compare (see e.g. Aalen et al., 2008, p. 110-111). The decision to use the
stratified version should be based on epidemiological considerations depending on studied
covariates. The application on real data showed that part of difference in net cancer survival
between Black and White patients is due to differences in stages.
We made assumptions (1) in the proof of the asymptotic distribution of the statistic under
the null. These are reasonable assumptions on follow-up time because they require to use
small follow-up times compared with TP given D or TE .
A possible limitation of our work is that we only studied simulations favourable to our
test. Indeed, the usual log-rank is optimal under the assumption of proportional hazard
rates but performs poorly when this assumption does not hold (Qiu and Sheng, 2008).
Several approaches have been proposed to deal with this problem (see e.g. Fleming et al.,
1980; Mantel and Stablein, 1988 ; Breslow, Edler, and Berger, 1984; Qiu and Sheng, 2008).
Further studies are needed to adapt our proposed test starting from one of these procedures.
In addition, the formula we proposed was developed with a continuous underline process
(without ties). Nevertheless, event times are usually assumed to be discrete when testing
(Aalen et al., 2008). A tie-corrected estimator adapted from the one presented by Gill et al.
(1993) may be of interest in such situations.
Since our test compares favorably with the usual log-rank on data from hypothetical world,
as shown in the simulation study, it may be helpful for cancer registries to compare net
cancer survival between countries or areas. In addition, it may be applied to other chronic
diseases for which net survival should be used.
16
Acknowledgements
The work of the first author was funded by grants from INCa (COMPNETS project, INCa
SHS-E-SP 2013). The authors are also very grateful to the CENSUR working survival group
for their helpful comments.
Supplementary Materials
Web Appendices and Tables referenced in Sections 2.3, 2.4, 4.2 and 5 are available with this
paper at the xxx website on Wiley Online Library.
References
Aalen, O., Borgan, O., and Gjessing, H. (2008). Survival and event history analysis: a process
point of view. Springer.
Belot, A., Abrahamowicz, M., Remontet, L., and Giorgi, R. (2010). Flexible modeling of
competing risks in survival analysis. Statistics in medicine 29, 2453–2468.
Berkson, J. and Gage, R. P. (1950). Calculation of survival rates for cancer. In Proceedings
of the staff meetings. Mayo Clinic, volume 25, pages 270–286.
Breslow, N. E., Edler, L., and Berger, J. (1984). A two-sample censored-data rank test for
acceleration. Biometrics 40, 1049–1062.
Coleman, M. P., Quaresma, M., Berrino, F., Lutz, J.-M., De Angelis, R., Capocaccia, R.,
et al. (2008). Cancer survival in five continents: a worldwide population-based study
(CONCORD). The Lancet Oncology 9, 730–756.
Danieli, C., Remontet, L., Bossard, N., Roche, L., and Belot, A. (2012). Estimating net
survival: the importance of allowing for informative censoring. Statistics in medicine 31,
775–786.
De Angelis, R., Sant, M., Coleman, M. P., Francisci, S., Baili, P., Pierannunzio, D., et al.
A test to compare net survival distributions
17
(2014). Cancer survival in Europe 1999–2007 by country and age: results of EUROCARE5a population-based study. The Lancet Oncology 15, 23–34.
Ederer, F., Axtell, L. M., and Cutler, S. J. (1961). The relative survival rate: a statistical
methodology. National Cancer Institute Monograph 6, 101–121.
Ederer, F. and Heise, H. (1959). The effect of eliminating deaths from cancer on general population survival rates, methodological note 11: End results evaluation section. The effect
of eliminating deaths from cancer on general population survival rates, methodological
note 11: End results evaluation section .
Esteve, J., Benhamou, E., Croasdale, M., and Raymond, L. (1990). Relative survival and
the estimation of net survival: elements for further discussion. Statistics in medicine 9,
529–538.
Fleming, T. R. and Harrington, D. P. (2011). Counting processes and survival analysis. John
Wiley & Sons.
Fleming, T. R., Harrington, D. P., and O’sullivan, M. (1987). Supremum versions of the logrank and generalized Wilcoxon statistics. Journal of the American Statistical Association
82, 312–320.
Fleming, T. R., O’Fallon, J. R., O’Brien, P. C., and Harrington, D. P. (1980). Modified
Kolmogorov-Smirnov test procedures with application to arbitrarily right-censored data.
Biometrics 36, 607–625.
Gill, R. D., Keiding, N., and Andersen, P. K. (1993). Statistical models based on counting
processes. Springer.
Giorgi, R., Abrahamowicz, M., Quantin, C., Bolard, P., Esteve, J., Gouvernet, J., et al.
(2003). A relative survival regression model using B-spline functions to model nonproportional hazards. Statistics in medicine 22, 2767–2784.
Hakulinen, T. (1982). Cancer survival corrected for heterogeneity in patient withdrawal.
18
Biometrics 38, 933–942.
Howlader, N., Noone, A., Krapcho, M., Neyman, N., Aminou, R., Waldron, W., et al. (2011).
SEER cancer statistics review, 1975–2008. Bethesda, MD: National Cancer Institute .
Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising in
its consideration. Cancer chemotherapy reports. Part 1 50, 163–170.
Mantel, N. and Stablein, D. M. (1988).
The crossing hazard function problem.
The
Statistician 37, 59–64.
Mudholkar, G. S., Srivastava, D. K., and Kollia, G. D. (1996). A generalization of the Weibull
distribution with application to the analysis of survival data. Journal of the American
Statistical Association 91, 1575–1583.
Percy, C., Stanek 3rd, E., and Gloeckler, L. (1981). Accuracy of cancer death certificates and
its effect on cancer mortality statistics. American Journal of Public Health 71, 242–250.
Perme, M. P., Stare, J., and Estève, J. (2012). On estimation in relative survival. Biometrics
68, 113–120.
Peto, R. and Peto, J. (1972). Asymptotically efficient rank invariant test procedures. Journal
of the Royal Statistical Society, Series A (General) 135, 185–207.
Qiu, P. and Sheng, J. (2008). A two-stage procedure for comparing hazard rate functions.
Journal of the Royal Statistical Society: Series B (Statistical Methodology) 70, 191–208.
R Core Team (2014).
R: A Language and Environment for Statistical Computing.
R
Foundation for Statistical Computing, Vienna, Austria.
Robins, J. M. (1993). Information recovery and bias adjustment in proportional hazards
regression analysis of randomized trials using surrogate markers. In Proceedings of the
Biopharmaceutical Section, American Statistical Association, pages 24–33. Alexandria,
Virgnia, U.S.
Ross, S. (2006). Simulation. Statistical Modeling and Decision Science. Elsevier Science.
A test to compare net survival distributions
19
SEER Program: comparative staging guide for cancer (1993). NIH Publication No. 93-3640.
Surveillance, Epidemiology, and End Results (SEER) Program (Based on the submission
November 2006). SEER*Stat Database: Incidence - SEER 17 Regs Research Data, Nov
2006 Sub (1973-2004 varying) - Linked To County Attributes - Total U.S., 1969-2004
Counties, National Cancer Institute, DCCPS, Surveillance Research Program, Cancer
Statistics Branch, released April 2007.
0.6
0.4
0.0
0.2
Estimated net survival
0.8
1.0
20
0
500
1000
1500
Follow−up in days
Figure 1. Net survival estimated by the Pohar-Perme estimator for:
, Black patients
with stages I-II;
, White patients with stages I-II;
, Black patients with stages
III-IV;
, White patients with stages III-IV
A test to compare net survival distributions
21
Table 1
Comparison of 2 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000
simulations of 1000 patients. Distribution of age specific to each scenario: Scenario 1: 25% aged [40 − 64], 35% aged
[65 − 74], and 40% aged [75 − 85]; Scenario 2: 30 6 age 6 40 (uniform); Scenario 3: 65 6 age 6 80 (uniform).
HRa
Proportion of rejection of the following tests (95%CI)
Proposed test
a
0.7
0.8
0.9
1
1.2
1.4
1.6
81.50
44.85
15.55
5.20
35.95
88.30
99.50
0.7
0.8
0.9
1
1.2
1.4
1.6
91.80
56.90
18.15
4.15
47.80
94.90
99.90
0.7
0.8
0.9
1
1.2
1.4
1.6
82.20
47.85
13.85
5.35
39.20
88.20
99.10
Usual log-rank on data from
hypothetical world
Scenario 1: balanced caseb
(79.80;83.20)
93.05
(42.67;47.03)
59.85
(13.96;17.14)
20.35
(4.23;6.17)
5.30
(33.85;38.05)
46.70
(86.89;89.71)
95.05
(99.19;99.81)
100
Scenario 2: balanced caseb
(90.60;93.00)
92.20
(54.73;59.07)
57.60
(16.46;19.84)
18.25
(3.28;5.02)
4.35
(45.61;49.99)
48.45
(93.94;95.86)
95.30
(99.64;99.97)
99.90
Scenario 3: balanced caseb
(80.52;83.88)
92.00
(45.66;50.04)
58.75
(12.34;15.36)
17.10
(4.36;6.34)
4.30
(37.06;41.34)
48.75
(86.79;89.61)
95.25
(98.69;99.51)
99.85
(91.94;94.16)
(57.70;62.00)
(18.59;22.11)
(4.32;6.28)
(44.51;48.89)
(94.10;96.00)
(99.81;100)
(91.02;93.38)
(55.43;59.77)
(16.56;19.94)
(3.46;5.24)
(46.26;50.64)
(94.37;96.23)
(99.64;99.97)
(90.81;93.19)
(56.59;60.91)
(15.45;18.75)
(3.41;5.19)
(46.56;50.94)
(94.32;96.18)
(99.56;99.95)
: Hazard Ratio of the level of G on excess mortality used in data generation, where G is
the covariate representing the groups;
b
: Balanced cases correspond to the cases where groups are similar in size with
P (G = 0) = P (G = 1).
22
Table 2
Comparison of 3 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000
simulations of 1000 patients. Distribution of age (scenario 1): 25% aged [40 − 64], 35% aged [65 − 74], and 40% aged
[75 − 85].
(HR1 , HR2 )a
Proportion of rejection of the following tests (95%CI)
Proposed test
(1, 0.7)
(1, 1)
(1, 1.2)
(1, 1.4)
(1, 1.6)
(0.9, 1.2)
(0.8, 1.4)
(0.7, 1.6)
a
66.75
5.10
26.20
74.65
97.20
42.40
96.10
100
Scenario 1: balanced caseb
(64.69;68.81)
(4.14;6.06)
(24.27;28.13)
(72.74;76.56)
(96.48;97.92)
(40.23;44.57)
(95.25;96.95)
(99.81;100)
Usual log-rank on data from
hypothetical world
82.90
4.95
35.80
87.35
99.70
58.20
98.90
100
(81.25;84.55)
(4.00;5.90)
(33.70;37.90)
(85.89;88.81)
(99.46;99.94)
(56.04;60.36)
(98.44;99.36)
(99.81;100)
: Hazard Ratios of the levels of G on excess mortality used in data generation, where G is
the covariate representing the groups;
b
: Balanced cases correspond to the cases where groups are similar in size with P (G = 0) =
P (G = 1) = P (G = 2).
A test to compare net survival distributions
23
Table 3
Comparison of 2 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000
simulations of 1000 patients when sex has an impact on excess mortality in the data generation. Distribution of age
specific to scenario 1: 25% aged [40 − 64], 35% aged [65 − 74], and 40% aged [75 − 85].
HRa
Proportion of rejection of the following tests (95%CI)
Proposed stratified test
a
0.7
0.8
0.9
1
1.2
1.4
1.6
90.60
57.90
18.00
5.45
46.50
95.00
99.90
0.7
0.8
0.9
1
1.2
1.4
1.6
93.70
61.80
18.25
4.60
50.30
95.35
100
Proposed test (not stratified)
Scenario 1: HRsex = 2
(89.32;91.88)
88.55
(55.74;60.06)
53.25
(16.32;19.68)
16.40
(4.46;6.44)
4.80
(44.31;48.69)
43.50
(94.04;95.96)
93.35
(99.64;99.97)
99.85
Scenario 2: HRsex = 3
(92.74;94.76)
88.30
(59.67;63.93)
51.25
(16.56;19.94)
14.15
(3.68;5.52)
2.95
(48.11;52.49)
40.90
(94.43;96.27)
91.40
(99.81;100)
99.90
(87.15;89.95)
(51.06;55.44)
(14.78;18.02)
(3.86;5.74)
(41.33;45.67)
(92.26;94.44)
(99.56;99.95)
(86.89;89.71)
(49.06;53.44)
(12.62;15.68)
(2.21;3.69)
(38.75;43.05)
(90.17;92.63)
(99.64;99.97)
: Hazard Ratios of the levels of G on excess mortality used in data generation, where G is
the covariate representing the groups.
1–6
DOI: 000
Web-based Supplementary Materials for ”A log-rank type test to compare net
survival distributions” by
Nathalie Grafféo1,2 , Fabienne Castell3 , Aurélien Belot4,5,6, and Roch Giorgi1,2,7,∗
1
INSERM, UMR912 ” Economics and Social Sciences Applied to Health & Analysis of Medical Information ”
(SESSTIM), 13006 Marseille, France
2
3
Aix Marseille University, UMR S912, IRD, 13006, Marseille, France
Aix Marseille University, CNRS, Centrale Marseille, I2M, UMR 7373, 13453 Marseille, France
4
5
Hospices Civils de Lyon, Service de Biostatistique, Lyon, France
University Lyon 1, UMR 5558 Laboratoire Biostatistique-Santé, , Villeurbanne, France
6
Institut de Veille Sanitaire, DMCT, Saint-Maurice, France
7
APHM, Hôpital Timone, BIOSTIC, Marseille, France
*email: [email protected]
1
Web Appendix A. Proof of E hZhw i < ∞




Z
n
k
2
l

T
X
Yhw (s) X d hMl,i i (s) 
w
w
We have hZh i (T ) =
1(Y. (s) > 0) δhl − w
2 .


Y. (s)
i=1
l=1  0
S̃P,l,i (s) 
2
Yhw (s)
w
Note that ∀s ∈ [0, T ] 1(Y. (s) > 0) δhl − w
6 1. Thus,
Y. (s)



Z
k

 T

X
Yl,1 (s) w
E hZh i (T ) 6
nl E
2 λ̃P,l,1 (s) + λE (s) ds .



 0
l=1
S̃P,l,1 (s)
As TE , TP and C are conditionally independent given X, we can write
E (Yl,1(s) | Xl,1 ) = SC (s)SE (s)S̃P,l,1(s).
Using that 0 6 SC , SE 6 1, we get
E hZhw i (T ) 6
k
X
l=1
nl E
(Z
T
0
λ̃P,l,1(s)
ds +
S̃P,l,1 (s)
Z
0
T
)
SE (s)λE (s)
ds .
S̃P,l,1(s)
Z T
h
iT
1
λ̃P,l,1 (s)
ds =
− 1.
λ̃P,l,1(s)eΛ̃P,l,1 (s) ds = eΛ̃P,l,1 (s) =
Note that
0
S̃P,l,1(T )
0
0 S̃P,l,1 (s)
RT
Moreover, for 0 6 s 6 T , S̃P,l,1 (s)
>
S̃
(T
)
and
SE (s)λE (s)ds = 1 − SE (T ), we get
P,l,1
0
!
k
X
nl
, which is finite according to the second assumption in (1)
E hZhw i (T ) 6 2E
S̃
(T
)
P,l,1
l=1
in the main document.
Z
T
Web Appendix B. Proof of the asymptotic distribution of the test statistic
under the null
Let us define y.w : s ∈ R 7−→ SC (s)SE (s). By law of large numbers, under the null, ∀h ∈ [[1; k]],
Yhw (s) (a.s.)
−→ αh y.w (s). Hence, we introduce
n n→∞
nl Z
k
X
X
Vh :=
(δhl − αh )
l=1
i=1
0
T
1(y.w (s) > 0)
dMl,i (s)
.
S̃P,l,i (s)
We can write Zhw (T ) = Vh + RTh , where
nl Z T k X
X
Yhw (s)
dMl,i (s)
w
h
w
1(Y. (s) > 0) δhl − w
RT =
.
− 1(y. (s) > 0) (δhl − αh )
Y
(s)
S̃
(s)
0
.
P,l,i
l=1 i=1
2
Let us denote
σl2 (T ) := E
= E


Z
T

 0
(Z
0
Σ2hj (T )
:=
k
X
l=1
T


d hMl,i i (s) 
w
1(y. (s) > 0) 2 ,

S̃P,l,i(s) 
SC (s)SE (s) 1(y.w (s) > 0)
λ̃P,l,1(s) + λE (s) ds
S̃P,l,1 (s)
)
.
(δhl − αh )(δjl − αj )αl σl2 (T ) .
Using assumptions (1) in the main document, σl2 (T ) < +∞. We are going to prove
Lemma 1:
1
(d)
√ (V1 , · · · , Vk ) −→ N (0, Σ2 (T )), where Σ2 (T ) is the matrix whose entries
n→∞
n
are the Σ2hj (T ).
Lemma 2:
1
L2
Under the null, √ RTh −→ 0.
n→∞
n
By Slutsky’s lemma, these two lemmas imply that under the null,
1
(d)
√ (Z1w (T ), · · · , Zkw (T )) −→ N 0, Σ2 (T ) .
n→∞
n
(1)
Proof of Lemma 1.
Let us denote
Wl,i :=
Z
T
1(y.w (s) > 0)
0
dMl,i (s)
.
S̃P,l,i (s)
For any l ∈ [[1; k]], (Wl,i )16i6nl are centered independent identically distributed, with variance
σl2 (T ). Moreover, the (Wl,i )16l6k,16i6nl are independent. Therefore, the random vector
P l
Wl,i )16l6k converges in distribution to the centered Gaussian vector with
W = ( √1n ni=1
diagonal covariance matrix whose entries are (αl σl2 (T ))16l6k . Lemma 1 follows since



 

1 

√ 
n

V1  

 

..  = Id − 



.  

 

Vk
α1 · · · α1 

..  W .
.. . .
. . 
.


αk · · · αk
3
Proof of Lemma 2.
Let us denote
nl Z
X
h,l
RT =
i=1
T
0
dMl,i (s)
Yhw (s)
w
− 1(y. (s) > 0) (δhl − αh )
1(Y. (s) > 0) δhl − w
,
Y. (s)
S̃P,l,i (s)
w
Pk
so that RTh = l=1 RTh,l . We have
"Z
2
T
1 h,l
= E
fn (s, ω)2
E √ RT
n
0
! #
nl
λ̃P,l,i(s) + λE (s)
1X
ds .
Yl,i (s)
2
n i=1
(s)
S̃P,l,i
Yhw (s)
w
where fn : (s, ω) ∈ (R × Ω) 7→ 1(Y. (s) > 0) δhl − w
− 1(y.w (s) > 0) (δhl − αh ). Then
Y. (s)
by Cauchy-Schwarz inequality:
v 
!2 
u
2 s Z T
nl
u Z T

X
1
λ̃P,l,i (s) + λE (s)
1
u
ds
.
fn (s, ω)4ds tE
Yl,i (s)
E √ RTh,l 6 E
2

 0
n
n i=1
S̃P,l,i
0
By law of large numbers, under the null, fn (s, ω) −→ 0 a.s.. Moreover, ∀(s, ω) ∈ (R × Ω),
n→∞
| fn (s, ω) |6 2. By Lebesgue’s dominated convergence theorem, we get
Z T
4
E
fn (s, ω) ds −→ 0 under the null.
n→∞
0
On the other hand, since
we have:
nl
1X
λ̃P,l,i(s) + λE (s)
Yl,i (s)
2
n i=1
(s)
S̃P,l,i

Z
!2
nl
Yl,i2 (s) 2
nl X
2
62 2
λ̃P,l,i (s) + λE (s)
4
n i=1 S̃P,l,i
(s)
!2 
nl

X
λ̃P,l,i (s) + λE (s)
1
Yl,i (s)
E
ds
2
 0

n i=1
(s)
S̃P,l,i
)
(
Z
SC (s)SE (s)S̃P,l,1(s) 2
n2l T
2
ds
λ̃P,l,1(s) + λE (s)
E
6 2 2
4
n 0
(s)
S̃P,l,1
!
RT
Z T 2
λ̃P,l,1(s)
SE (s)λ2E (s)ds
0
6 2E
+
ds
3
3
(T )
S̃P,l,1
0 S̃P,l,1 (s)
T
< ∞ , according to assumptions (1) in the main document.
1 h,l
L2
We deduce from this that under the null, √ RT
−→ 0, ∀(l, h) ∈ [[1; k]]2 , which ends
n→∞
n
n
the proof of Lemma 2.
Using (1), to prove that the asymptotic distribution of the test statistic is χ2k−1 , it remains
to prove
4
Lemma 3:
P
1 2,w
σ̂ (T ) −→
n h,j
n→∞
(1)
Σ2hj (T ).
(2) The matrix Σ20 (T ) = (Σ2hj (T ))16h,j6k−1 is a symmetric positive definite matrix.
Point (2) of Lemma 3 ensures that we can delete the last row and the last column to use
matrix Σ̂2,w
0 (T ) in formula (5) in the main document.
Proof of Lemma 3.
(1)
1 2,w
σ̂ (T ) =
n h,j
=
1 w w
Z , Z (T )
n h j
nl
k Z T
X
Yjw (s) X
Yhw (s)
dNl,i (s)
w
1(Y. (s) > 0) δhl − w
δjl − w
2
Y. (s)
Y. (s) i=1 S̃P,l,i
(s)
l=1 0
=: NT − QT
with
NT =
k Z
X
T
1(y.w (s)
0
l=1
> 0)(δhl − αh )(δjl − αj )
nl
X
dNl,i (s)
i=1
2
(s)
S̃P,l,i
and
QT =
k Z
X
l=1
Yjw (s)
Yhw (s)
δjl − w
1(Y. (s) > 0) δhl − w
Y. (s)
Y. (s)
0
X
nl
dNl,i (s)
−1(y.w (s) > 0)(δhl − αh )(δjl − αj ) ×
2
S̃P,l,i
(s)
i=1
T
w
Firstly, by the law of large numbers, we have
n
l
1X
n i=1
(a.s.)
Thus n1 NT −→
n→∞
Pk
l=1 (δhl
Z
0
T
1(y.w (s) > 0)
dNl,i (s) (a.s.)
−→ αl σl2 (T ) .
2
S̃P,l,i
(s) n→∞
− αh )(δjl − αj )αl σl2 (T ) = Σ2hj (T ).
5
1
L1
Secondly, we can show that QT −→ 0. Indeed,
n→∞
n
(n Z
k
l
T
X1
X
Yjw (s)
1
Yhw (s)
w
δjl − w
E|QT | 6
E
1(Y. (s) > 0) δhl − w
n
n
Y. (s)
Y. (s)
i=1 0
l=1
)
λ̃ (s) + λ (s)
P,l,i
E
ds
− 1(y.w (s) > 0)(δhl − αh )(δjl − αj )Yl,i
2
S̃P,k,i
(s)
k
X
p
nl p
6
E(AT ) × (E(BT ))
n
l=1
with
AT =
Z
T
Z
T
0
BT =
0
Yjw (s)
Yhw (s)
w
δjl − w
1(Y. (s) > 0) δhl − w
Y. (s)
Y. (s)
2
−1(y.w (s) > 0)(δhl − αh )(δjl − αj ) ds
SC (s)SE (s) λ̃
(s)
+
λ
(s)
ds
P,l,1
E
3
S̃P,l,1
(a.s.)
We have AT −→ 0 and E(BT ) < ∞ (see the proof of Lemma 2). So we have shown that
n→∞
1 w w
P
Zh , Zj (T ) −→ Σ2hj (T )
n→∞
n
(2) Let us denote by 1I and ~u the vectors of Rk given by
 
 
1
 α1 
 
 
 .. 
 
1I :=  .  , ~u :=  ...  .
 
 
 
 
1
αk
We have seen that the asymptotic distribution of √1n (Z1w (T ), . . . , Zkw (T )) is the one of
 
 

 D1 
1 − α1 −α1 −α1  D1 
 
 

 ..
..   ..  = Id − ~u 1It  .. , where (D )
..


 . 

 .
.
l 16l6k are independent
.  . 
 

 
 

Dk
Dk
−αk −αk 1 − αk
random variables with distribution N 0, αl .σl2 (T ) . Hence, the asymptotic covariance
matrix is given by
Σ2 (T ) = A∆.At , with ∆ = diag(αl .σl2 (T ))
Since
Pk
h=1
16l6k
, and A = Id − ~u 1It .
Zhw (T ) = 0, we already know that Σ2 (T ) 1I = 0, and that rank(Σ2 (T )) 6 k− 1.
We are now going to prove that rank(Σ2 (T )) > k − 1. To this purpose, we assume that
6
∀l ∈ [[1; k]], αl σl2 (T ) > 0, so that ∆ is invertible. Thus rank(Σ2 (T )) = rank(A.∆.At ) =
rank(A). Let ~v be orthogonal to 1I. Then, A.~v = ~v −~u h 1I, ~vi = ~v , so that rank(A) > k−1.
Hence, rank(Σ2 (T )) = k − 1, and Ker(Σ2 (T )) = Vect { 1I} is not a linear subspace
of Vect {e1 , · · · , ek−1}, (e1 , · · · , ek ) being the canonical basis of Rk . This implies that
rank(Σ20 (T )) = k − 1.
Web Table A
[Table 1 about here.]
Web Table B
[Table 2 about here.]
Web Table C
[Table 3 about here.]
7
Table 1
Comparison of 2 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000
simulations of 1000 patients. Distribution of age specific to each scenario: Scenario 1: 25% aged [40 − 64], 35% aged
[65 − 74], and 40% aged [75 − 85]; Scenario 2: 30 6 age 6 40 (uniform); Scenario 3: 65 6 age 6 80 (uniform).
HRa
Proportion of rejection of the following tests (95%CI)
Proposed test
a
0.7
0.8
0.9
1
1.2
1.4
1.6
63.85
34.50
10.90
4.45
31.45
78.65
97.90
0.7
0.8
0.9
1
1.2
1.4
1.6
82.80
47.15
11.35
5.25
40.70
89.15
99.40
0.7
0.8
0.9
1
1.2
1.4
1.6
65.50
33.55
10.95
4.30
31.95
77.15
97.70
Usual log-rank on data from
hypothetical world
Scenario 1: unbalanced caseb
(61.74;65.96)
84.50
(32.42;36.58)
50.80
(9.53;12.27)
16.40
(3.55;5.35)
4.50
(29.42;33.48)
36.25
(76.85;80.45)
87.40
(97.27;98.53)
99.30
Scenario 2: unbalanced caseb
(81.15;84.45)
85.90
(44.96;49.34)
52.20
(9.96;12.74)
13.95
(4.27;6.23)
5.05
(38.55;42.85)
37.55
(87.79;90.51)
87.85
(99.06;99.74)
99.45
Scenario 3: unbalanced caseb
(63.42;67.58)
83.70
(31.48;35.62)
48.60
(9.58;12.32)
15.75
(3.41;5.19)
5.05
(29.91;33.99)
37.45
(75.31;78.99)
84.70
(97.04;98.36)
99.35
(82.91;86.09)
(48.61;52.99)
(14.78;18.02)
(3.59;5.41)
(34.14;38.36)
(85.95;88.85)
(98.93;99.67)
(84.37;87.43)
(50.01;54.39)
(12.43;15.47)
(4.09;6.01)
(35.43;39.67)
(86.42;89.28)
(99.13;99.77)
(82.08;85.32)
(46.41;50.79)
(14.15;17.35)
(4.09;6.01)
(35.33;39.57)
(83.12;86.28)
(99.00;99.70)
: Hazard Ratio of the level of G on excess mortality used in data generation, where G is
the covariate representing the groups;
b
: Unbalanced cases correspond to the cases where groups are not similar in size with
P (G = 0) = 1/4 and P (G = 1) = 3/4.
8
Table 2
Comparison of 3 groups: proportion of rejection of the null hypothesis at the 5% level of significance for 2000
simulations of 1000 patients. Distribution of age specific to each scenario: Scenario 2: 30 6 age 6 40 (uniform);
Scenario 3: 65 6 age 6 80 (uniform).
(HR1 , HR2 )a
Proportion of rejection of the following tests (95%CI)
Proposed test
a
(1, 0.7)
(1, 1)
(1, 1.2)
(1, 1.4)
(1, 1.6)
(0.9, 1.2)
(0.8, 1.4)
(0.7, 1.6)
84.45
4.70
34.60
88.00
99.55
56.40
99.35
100
(1, 0.7)
(1, 1)
(1, 1.2)
(1, 1.4)
(1, 1.6)
(0.9, 1.2)
(0.8, 1.4)
(0.7, 1.6)
69.60
4.50
26.45
76.90
96.75
47.70
97.20
100
Scenario 2: balanced caseb
(82.86;86.04)
(3.77;5.63)
(32.52;36.68)
(86.58;89.42)
(99.26;99.84)
(54.23;58.57)
(99.00;99.70)
(99.81;100)
Scenario 3: balanced caseb
(67.58;71.62)
(3.59;5.41)
(24.52;28.38)
(75.05;78.75)
(95.97;97.53)
(45.51;49.89)
(96.48;97.92)
(99.81;100)
Usual log-rank on data from
hypothetical world
84.60
4.90
36.30
89.80
99.70
57.10
99.50
100
(83.02;86.18)
(3.95;5.85)
(34.19;38.41)
(88.47;91.13)
(99.46;99.94)
(54.93;59.27)
(99.19;99.81)
(99.81;100)
83.15
4.20
33.95
88.50
99.30
60.45
99.40
100
(81.51;84.79)
(3.32;5.08)
(31.87;36.03)
(87.10;89.90)
(98.93;99.67)
(58.31;62.59)
(99.06;99.74)
(99.81;100)
: Hazard Ratio of the level of G on excess mortality used in data generation, where G is
the covariate representing the groups;
b
: Balanced cases correspond to the cases where groups are similar in size with
P (G = 0) = P (G = 1) = P (G = 2).
9
Table 3
Description of the real dataset from the SEER made of patients diagnosed with colorectal cancer in 1998.
Prognostic factors
Age
6 60
61 − 79
> 79
Sex
Man
Woman
Ethnicity
Black
White
Tumor Stage at diagnosis
Stage I
Stage II
Stage III
Stage IV
Overall
a
b
Numbers
(%)a
Deaths at 5 years
(%)b
2385
4704
2034
(26.1)
(51.6)
(22.3)
795
2077
1349
(33.3)
(44.2)
(66.3)
4722
4401
(51.8)
(48.2)
2137
2084
(45.3)
(47.4)
902
8221
(9.9)
(90.1)
471
3750
(52.2)
(45.6)
2132
2880
2669
1442
9123
(23.4)
(31.6)
(29.2)
(15.8)
(100)
501
1008
1385
1327
4221
(23.5)
(35.0)
(51.9)
(92.0)
(46.3)
: Percentage of all 9123 patients;
: Percentage of patients in a given category who died within the first 5 years after diagnosis.
IV.3 Discussion
2.2
Simulations complémentaires
En survie brute, la statistique du log-rank peut être déduite du test du score pour le modèle
de Cox à taux proportionnels (voir par exemple Estève et al., 1993). De ce fait, le test du
log-rank est asymptotiquement équivalent au test du rapport de vraisemblance fondé sur ce
modèle. Il est donc intéressant d’étudier le comportement du modèle multivarié par rapport
au test que nous proposons. Plus précisément, nous avons appliqué le modèle GLM décrit au
Chapitre III (section 3.1.3). Nous avons introduit un eﬀet du groupe G sur la mortalité en excès
et nous avons calculé, pour les trois scénarios étudiés dans l’article, la proportion de rejet de
l’hypothèse nulle (H0 ) : βG = 0 via le test du rapport de vraisemblance. Les résultats sont
présentés dans le tableau IV.1.
Les intervalles de conﬁance à 95% autour de l’estimation de l’erreur de type I obtenue par
le test du rapport de vraisemblance contiennent la valeur de 5% dans tous les cas. Les résultats
concernant la puissance sont très proches de ceux obtenus par le test que nous avons construit.
Sachant que le modèle GLM est optimal dans le sens où la forme des données générées est
connue et que, de ce fait, nous n’avons pas eu à faire un travail de modélisation, on peut
conclure que le test que nous proposons est performant.
3
Discussion
Nous avons construit un test aux performances similaires à celui du log-rank usuel. Nous
pouvons toutefois noter une puissance faible lorsque les patients étudiés sont âgés. Cela peut
s’expliquer par le fait que, pour ces patients, les décès autres causes sont nombreux. Il y a donc
une perte d’information dans les estimations de la survie nette. Par ailleurs, l’utilisation de
la version stratiﬁée apparaît indispensable lorsqu’un facteur pronostique a un impact « important » sur la mortalité en excès. C’est le cas pour le log-rank usuel (voir par exemple Aalen
et al., 2008, p. 110–111). Il est d’usage que le statisticien (ou l’épidémiologiste) décide de la
nécessité ou non de stratiﬁer, selon ses connaissances des facteurs pronostiques.
À notre connaissance, il s’agit à ce jour du seul test pouvant comparer des distributions de
survie nette estimées par l’estimateur Pohar-Perme. Cet estimateur est déjà utilisé dans les
registres français (Grosclaude et al., 2013) et le groupe EUROCARE étudie la possibilité de
produire des résultats à partir de cet estimateur (Bossard et al., 2013). Ainsi, notre test apparaît
comme un outil très utile dès à présent en France et potentiellement en Europe. Par ailleurs,
il pourrait être appliqué à la comparaison de survies associées à d’autres maladies chroniques,
pour lesquelles il serait intéressant d’utiliser l’estimateur Pohar-Perme.
107
IV.3 Discussion
Proportion de rejet des tests (95%IC)‡
HR†
Test proposé
0,7
0,8
0,9
1
1,2
1,4
1,6
81,50
44,85
15,55
5,20
35,95
88,30
99,50
0,7
0,8
0,9
1
1,2
1,4
1,6
91,80
56,90
18,15
4,15
47,80
94,90
99,90
0,7
0,8
0,9
1
1,2
1,4
1,6
82,20
47,85
13,85
5,35
39,20
88,20
99,10
Test du rapport de vraisemblance
(modèle multivarié)
Scénario 1
83,20)
84,65
47,03)
48,20
17,14)
16,95
6,17)
5,65
38,05)
38,00
89,71)
89,40
99,81)
99,60
Scénario 2
(90,60 ; 93,00)
91,90
(54,73 ; 59,07)
56,85
(16,46 ; 19,84)
18,45
(3,28 ;5.02)
4,20
(45,61 ; 49,99)
47,80
(93,94 ; 95,86)
94,95
(99,64 ; 99,97)
99,90
Scénario 3
(80,52 ; 83,88)
82,70
(45,66 ; 50,04)
49,60
(12,34 ; 15,36)
14,35
(4,36 ; 6,34)
5,65
(37,06 ; 41,34)
40,05
(86,79 ; 89,61)
89,00
(98,69 ; 99,51)
99,30
(79,80 ;
(42,67 ;
(13,96 ;
(4,23 ;
(33,85 ;
(86,89 ;
(99,19 ;
(83,07 ;
(46,01 ;
(15,31 ;
(4,64 ;
(35,87 ;
(88,05 ;
(99,32 ;
86,23)
50,39)
18,59)
6,66)
40,13)
90,75)
99,88)
(90,70 ;
(54,68 ;
(16,75 ;
(3,32 ;
(45,61 ;
(93,99 ;
(99,64 ;
93,10)
59,02)
20,15)
5,08)
49,99)
95,91)
99,97)
(81,04 ;
(47,41 ;
(12,81 ;
(4,64 ;
(37,90 ;
(87,63 ;
(98,93 ;
84,36)
51,79)
15,89)
6,66)
42,20)
90,37)
99,67)
Tableau IV.1 – Comparaison de 2 groupes : proportion de rejet de l’hypothèse nulle au seuil de signiﬁcativité de 5% pour 2000 simulations de 1000 patients ((H0 ) : ΛE,G=1 = ΛE,G=2 pour le test proposé
et (H0 ) : βG = 0 pour le test du rapport de vraisemblance). Distribution de l’âge spéciﬁque à chaque
scénario : Scénario 1 : 25% de patients entre 40 et 64 ans, 35% de patients entre 65 et 74 ans et 40% entre
75 et 85 ans ; Scénario 2 : 30 ≤ age ≤ 40 (uniforme) ; Scénario 3 : 65 ≤ age ≤ 80 (uniforme).
† : Hazard Ratio de G sur la mortalité en excès utilisé dans l’étape de génération, où G est la variable
représentant les groupes ; ‡ : Intervalle de conﬁance à 95%.
108
Chapitre V
Études des variations spatiales
Des variations spatiales de la survie liée au cancer peuvent exister, pouvant engendrer des
agrégats, i.e. des zones géographiques où la mortalité en excès est plus faible/forte. La détermination de telles variations spatiales est intéressante d’un point de vue épidémiologique. En
eﬀet, cibler des zones où la mortalité en excès est élevée rend possible la recherche d’éventuels
facteurs causant un excès de mortalité.
Dans ce chapitre, nous nous intéressons encore aux diﬀérences de survie nette entre groupes
mais d’un point de vue spatial. Plus précisément, pour une aire géographique donnée, nous
voulons déterminer des clusters de survie nette c’est-à-dire des zones similaires en termes de
survie nette. Les groupes à comparer correspondent alors à des zones potentiellement diﬀérentes
en termes de survie nette.
Prenons l’exemple d’une aire géographique contenant plusieurs localisations (par exemple, des
communes). Supposons que chaque localisation contient des patients atteints d’un cancer donné
et pour lesquels nous connaissons les données de survie jusqu’à une certaine date. Cet exemple
est représenté sur la ﬁgure V.1. Si les localisations en rouge ont des taux de survie nette faibles
Figure V.1 – Exemple illustratif d’une zone géographique présentant des communes où la survie nette
est élevée (en vert) ou faible (en rouge).
109
alors que les localisations en vert ont des taux de survie nette élevés, la question était de savoir
comment obtenir un découpage du plan séparant les localisations diﬀérentes en termes de survie
nette. Un exemple de découpage possible est donnée par la ﬁgure V.2.
Figure V.2 – Exemple illustratif de découpage d’une zone géographique présentant deux clusters où la
survie nette est élevée (cluster avec communes en vert) ou faible (cluster avec communes en rouge).
Notre question était double au sens qu’elle comportait : (1) une problématique géographique
et algorithmique (choix de la méthode de découpage), et (2) une problématique analytique
(choix du critère de découpage).
Concernant le premier point, des méthodes utilisant des aires géographiques prédéterminées
– la plupart du temps, de façon administrative – existent (voir par exemple Banerjee et al., 2003,
dans le cadre de la survie brute). Cependant, quel que soit le niveau administratif choisi comme
unité géographique d’intérêt, ce choix n’est fondé sur aucune raison valide d’un point de vue épidémiologique. Il est évident qu’une épidémie ne s’arrêtera pas aux frontières d’un département.
De la même façon, l’impact d’une source environnementale sur la survie nette liée au cancer
(pollution atmosphérique, champs électromagnétiques ou présence de substances cancérigènes,
par exemple) ne se borne pas à des frontières administratives. Les méthodes de détection de
clusters, qui ne s’appuient pas sur un découpage géographique arbitraire, s’aﬀranchissent de ce
problème. Nous avons choisi d’adapter à la survie nette la méthode SpODT (Spatial Oblique
Decision Tree). Il s’agit d’une méthode de détection de clusters, proposée et développée par
Jean Gaudart, dans le contexte de données d’incidence pour des pathologies infectieuses aiguës
(Gaudart et al., 2005; Fichet et al., 2006; Gaudart et al., 2007; Gaudart, 2007). Elle permet
d’obtenir des agrégats potentiels par des découpages obliques 1 de la zone géographique étudiée,
1. On retrouve parfois l’expression « partitions obliques » qui désigne une partition d’une aire géographique
par des découpages obliques.
110
V.1 La méthode CART
sans pré-spéciﬁcation de la forme, de la taille ou du centre des clusters à obtenir. Elle s’inscrit dans le cadre des méthodes de détection locale, comme la méthode de balayage de Kulldorﬀ
(1997) dont elle se diﬀérencie par l’absence du choix a priori de la forme des classes recherchées.
Remarque V.1 Les méthodes de détection de clusters sont usuellement classées selon trois
catégories (Gaudart et al., 2007) :
– les méthodes de détection locale d’agrégats de cas autour d’une source potentielle (voir,
par exemple, Chirpaz et al., 2004) ;
– les méthodes de détection globale d’agrégations de cas. On retrouve parmi ces méthodes le
test d’auto-corrélation de Moran (Richardson, 1992) et le test d’hétérogénéité de Potthoﬀ
and Whittinghill (1966) ;
– les méthodes de détection locale d’agrégats, sans spéciﬁcation a priori d’une source.
Concernant le second point, nous avons choisi d’utiliser l’estimateur Pohar-Perme (Perme
et al., 2012) car c’est un estimateur consistant de la survie nette, mais aussi parce qu’il est
non paramétrique et, de ce fait, ne nécessite pas de stratégie de modélisation. Ainsi, le test
de type log-rank qui a été exposé au Chapitre IV nous a fourni un critère de découpage que
nous avons intégré dans l’algorithme SpODT, comme nous allons l’expliquer dans les prochains
paragraphes.
Dans les sections suivantes, nous allons exposer la méthode CART, méthode de construction
d’un arbre de régression qui est à l’origine de la méthode SpODT. Ensuite, nous approfondirons
la méthode SpODT telle qu’elle a été développée pour les pathologies aiguës. Enﬁn, nous
terminerons ce chapitre en décrivant notre adaptation de SpODT à la survie nette.
1
La méthode CART
Un arbre de décision est un outil d’aide à la décision et à l’exploration de données. Cet arbre
fournit un modèle pour classer de nouveaux échantillons. Sa lisibilité graphique rend facile son
interprétation. Notons qu’en matière de prédiction, il n’est pas aussi précis que d’autres méthodes, comme le « bagging » ou les forêts aléatoires qui combinent un grand nombre d’arbres
aﬁn d’obtenir une prédiction plus précise, aux dépens de l’interprétation 2 . Notons aussi qu’il
existe deux types d’arbres de décision : les arbres de régression et les arbres de classiﬁcation.
2. Pour plus de précisions sur ces méthodes, on pourra se référer à Breiman (1996) et Breiman (2001).
111
V.1 La méthode CART
Ces derniers sont caractérisés par le fait que la variable réponse est une variable catégorielle,
contrairement aux arbres de régression pour lesquels la variable réponse est quantitative. Dans
le cadre de notre travail, nous nous intéressons uniquement aux arbres de régression.
La méthode CART (Classiﬁcation And Regression Tree) introduite par Breiman et al. (1984)
permet de construire des arbres de classiﬁcation et de régression.Nous allons introduire cette
méthode lorsque la variable à expliquer est quantitative. Nous avons fait le choix pédagogique
d’utiliser un exemple ne portant pas sur le domaine de la survie aﬁn d’amener le lecteur du
domaine général de l’apprentissage automatique à celui, plus spéciﬁque, des méthodes de détection de clusters géographiques. Nous terminerons cette section en étudiant un cas où la méthode
est appliquée à des données de survie brute.
1.1
Principe général de la méthode CART et vocabulaire relatif aux
arbres de décision
Nous utilisons ici l’exemple introduit par James et al. (2013a) pour introduire le vocabulaire et la méthode. Il s’agit de prédire une variable quantitative, Y , représentant les salaires de
joueurs de baseball par des variables explicatives X1 , ..., Xp de nature quelconque, représentant,
par exemple, le nombre de coups sûrs (« Hits ») réalisés l’année précédente (« Years ») ou le
nombre d’années passées en ligue majeure (« major league »). Le jeu de données « Hitters » est
issu du package ISLR (James et al., 2013b). Sur la représentation graphique V.3, trois zones
semblent se dégager. Les joueurs avec moins d’expérience ont un salaire plus faible que les
joueurs expérimentés. Parmi ces derniers, ce sont ceux qui ont frappé le plus de coups sûrs qui
ont les salaires les plus élevés. Nous allons expliquer, à partir de cet exemple, le principe de la
méthode CART.
Construire un arbre revient, sur la base d’un ensemble d’apprentissage, à appliquer un processus récursif de division binaire à l’espace des prédicteurs, produisant ainsi une séquence de
sous-régions appelées nœuds. Ainsi, un nœud correspond à un découpage en deux classes d’un
sous-ensemble des variables explicatives. La racine désigne le nœud initial contenant l’ensemble
des variables explicatives. Le découpage se fait selon un critère qui doit retenir, parmi tous les
découpages possibles, le « meilleur », dans un sens que nous allons déﬁnir. Un ou des critère(s)
d’arrêt forment une règle pour décider de l’arrêt du découpage ; on obtient alors des nœuds
terminaux appelés feuilles. Elles contiennent une valeur de la variable à expliquer. Chaque segment joignant deux nœuds est appelé branche.
112
V.1 La méthode CART
Figure V.3 – Salaire de joueurs de baseball en fonction du nombre de coups sûrs et du nombre d’années
passées en ligue majeure. Les salaires les plus faibles sont en violet et bleu, les salaires « moyens » sont en
vert et les plus élevés sont en orange et rouge.
Revenons à notre exemple issu du jeu de données « Hitters ». La ﬁgure V.4 montre l’arbre obtenu en réduisant le nombre de variables explicatives à 2 (X1 = Years et X2 = Hits) et en ﬁxant
comme critère d’arrêt la profondeur maximale de l’arbre à 2 (i.e. le nombre de découpages maximal pour une branche). L’arbre a deux nœuds et trois feuilles. Le premier découpage produit une
branche à gauche correspondant à X1 < 4.5 et une branche à droite correspondant à X1 ≥ 4.5.
Le second découpage (dans la branche droite) produit une branche à gauche correspondant à
X2 < 117.5 et une branche à droite correspondant à X2 ≥ 117.5. Les feuilles contiennent la
valeur moyenne du salaire pour les joueurs appartenant à un des trois sous-ensembles ainsi
déﬁnis. Plus précisément, pour chaque joueur i ayant pour covariables (X1,i , X2,i ), les trois
sous-ensembles, qui déﬁnissent ainsi une partition de l’ensemble des covariables, sont :
{(X1 , X2 )|X1 < 4.5}, {(X1 , X2 )|X1 ≥ 4.5, X2 < 117.5} et {(X1 , X2 )|X1 ≥ 4.5, X2 ≥ 117.5}.
Nous avons arbitrairement borné la profondeur de l’arbre à 2. D’autres critères d’arrêt, tel
que la taille minimale d’un nœud permettant un découpage ou le nombre minimal d’observations
que doit contenir une feuille (sous peine de rejeter le découpage) ont une inﬂuence sur la « taille »
de l’arbre. Un arbre « trop détaillé » serait, par exemple, obtenu si chaque feuille correspondait à
une observation. La recherche de l’arbre optimal consiste à construire un arbre maximal, puis à
sélectionner un sous-arbre selon une procédure d’élagage que nous allons détailler. Commençons
par expliquer la construction de l’arbre maximal et, plus précisément, le choix du critère de
découpage.
113
V.1 La méthode CART
Figure V.4 – Un arbre de régression obtenu à partir du jeu de données « Hitters ».
1.1.1
Construction de l’« arbre maximal »
Notons n le nombre d’individus du jeu de données. Cette étape consiste à diviser l’espace
des prédicteurs (i.e. des variables explicatives) en J zones rectangulaires, R1 , . . . , RJ , de taille
nj . Ces zones rectangulaires correspondent aux feuilles, i.e. aux nœuds terminaux. On a donc
n=
J
X
nj . Notons, pour l’individu i appartenant à la zone j, Yij la valeur théorique de Y , et
j=1
yij la valeur observée.
À la première étape, on considère l’ensemble des prédicteurs X := (Xj )(1≤j≤p) . On découpe
récursivement l’espace des prédicteurs : à chaque étape, le découpage aboutit à deux nouveaux
nœuds, appelés ﬁls gauche et ﬁls droit, par exemple {X|Xj < s} et {X|Xj ≥ s}. Parmi tous
les découpages possibles, i.e. parmi toutes les valeurs possibles des j et des seuils s, la méthode
retient celui qui aboutit aux nœuds ﬁls les plus « homogènes » possibles 3 . Autrement dit,
l’objectif est de maximiser la diﬀérence d’hétérogénéité entre un ensemble complet (nœud père)
et un ensemble découpé (nœuds ﬁls).
Écrivons plus précisément les quantités en jeu. L’hétérogénéité du nœud j est donnée par :
nj
X
(Yij − Y.j )2 ,
i=1
3. Un nœud est dit homogène lorsque tous les individus qu’il contient prennent la même valeur de Y.
114
V.1 La méthode CART
où Y.j =
nj
X
Yij . L’hétérogénéité de la partition (R1 , . . . , RJ ) est ainsi donnée par :
i=1
nj
J X
X
(Yij − Y.j )2 ,
j=1 i=1
appelée inertie intra-classe, quantité analogue à la variance intra-classe.
La diﬀérence d’hétérogénéité entre l’ensemble complet et l’ensemble découpé selon une partition
(R1 , . . . , RJ ) s’écrit :
∆=
nj
J X
X
2
(Yij − Y.. ) −
j=1 i=1
nj
J X
X
(Yij − Y.j )2 ,
j=1 i=1
J
X
1 PJ Pnj
nj (Y.. − Y.j )2 , inertie interclasses, quantité analogue à
où Y.. =
i=1 Yij . On a ∆ =
j=1
n
j=1
la variance interclasses.
Ainsi, à la première étape, on cherche j et s qui minimisent :
X
i/xi ∈R1 (j,s)
(yij − y.j )2 +
X
(yij − y.j )2 ,
i/xi ∈R2 (j,s)
où R1 (j, s) = {X|Xj < s} et R2 (j, s) = {X|Xj ≥ s}.
Les étapes suivantes consistent à découper, de la même façon, les deux classes obtenues (qui
sont des sous-ensembles de l’ensemble des prédicteurs), jusqu’à atteindre un critère d’arrêt (par
exemple, lorsque les feuilles ne contiennent pas plus de 5 observations).
La ﬁgure V.5 montre l’arbre obtenu par cette méthode sur le jeu de données Hitters pour un
sous-ensemble de 6 variables explicatives (prédicteurs). On considère les observations (xi , yi )(1≤i≤n)
où x = (xi,1 , . . . , xi,p ). Si l’on note ĉj le salaire moyen pour l’ensemble des joueurs de la
1 X
yi . La valeur prédite est alors modélisée
feuille j, avec 1 ≤ j ≤ 12, on a : cj =
nj i/xi ∈Rj
par f (x) :=
12
X
ĉj 1(x ∈ Rj ).
j=1
1.1.2
Élagage et arbre ﬁnal
L’arbre produit par cette méthode a tendance au surapprentissage, du fait d’un nombre
trop élevé de feuilles. Une étape supplémentaire de la méthode CART consiste à élaguer l’arbre
(maximal) que nous venons de construire. Notons cet arbre T0 . La méthode, détaillée par Hastie
115
V.1 La méthode CART
Figure V.5 – « Arbre maximal » obtenu à partir du jeu de données « Hitters » avec 6 variables explicatives.
et al. (2009), consiste à minimiser le coût-complexité qui est de la forme :
D(T ) + α|T |,
où T est un sous-arbre de T0 ayant |T | feuilles, D(T ) =
J
X
Dj (T ) et Dj (T ) est la déviance ou
j=1
le coût de mauvais classement de la feuille j de l’arbre T . Pour α = 0, d’après la construction
précédente, T0 minimise la complexité de l’arbre. D(T ) décroît lorsque |T | augmente, comme le
montre la ﬁgure V.6 4 . Sur cette ﬁgure, on peut voir que, pour notre exemple, l’arbre optimal
est obtenu pour 5 feuilles. L’arbre ainsi retenu est représenté par la ﬁgure V.7. Nous pouvons
remarquer que, du fait du nombre de variables considérées comme prédicteurs, cet arbre est
plus grand que celui que nous avions obtenu, « à la main », avec seulement deux prédicteurs.
4. Rigoureusement, pour ne pas avoir une déviance trop « optimiste », le calcul devrait se faire sur un
échantillon de validation (diﬀérent de l’échantillon d’apprentissage qui serait utilisé dans la construction de
l’« arbre maximal »).
116
V.1 La méthode CART
Cependant, les deux premiers découpages correspondent bien à ceux que nous avions « prédits ».
Figure V.6 – Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données « Hitters »
avec 6 variables explicatives.
Figure V.7 – Arbre optimal obtenu à partir du jeu de données « Hitters » avec 6 variables explicatives.
117
V.1 La méthode CART
1.2
CART : une méthode de détection de clusters
La méthode CART peut être facilement appliquée à la recherche de clusters géographiques.
Pour cela, il suﬃt d’introduire les coordonnées comme variables explicatives.
À titre illustratif, nous avons créé un cluster géographique contenant les salaires les plus élevés,
représenté sur la ﬁgure V.8.
4
3
2
1
0
1
2
3
4
Figure V.8 – Exemple illustratif : création, à partir du jeu de données « Hitters », d’un cluster géographique de salaires élevés (zone grise).
L’arbre maximal obtenu est représenté dans la ﬁgure V.9 et le graphique des déviances en
fonction du nombre de feuilles est donné par la ﬁgure V.10. On obtient alors un arbre maximal,
représenté par la ﬁgure V.11 et une carte représentée par la ﬁgure V.12. L’arbre optimal montre
que le cluster géographique est bien détecté avec un salaire moyen de 973600 dollars. Notons
que les deux autres feuilles correspondent à des salaires moyens similaires.
La méthode CART a été construite de sorte que, lors de l’introduction de coordonnées
comme variables explicatives, les partitions sont faites orthogonalement à ces variables, comme
le montre la ﬁgure V.12. Or, rien a priori ne justiﬁe ce type de découpages lorsque l’on étudie
la propagation d’une épidémie (Fichet and Gaudart, 2005). C’est ce qui a motivé la méthode
SpODT (Spatial Oblique Decision Tree), adaptation de la méthode CART permettant la recherche de découpages obliques, qui sera présentée dans la section 2.
1.3
CART : application à des données de survie brute
La méthode CART peut être appliquée à des données de survie brute. Son implémentation
peut se faire notamment via la fonction rpart du package du même nom du logiciel R (Therneau
et al., 2013). Dans ce package, la méthode par défaut est la méthode exponentielle, détaillée
dans l’ouvrage de Nakache and Confais (2003). Nous la résumons ci-dessous car nous nous y
réfèrerons dans la suite de ce manuscrit (cf. section 3).
118
V.1 La méthode CART
Figure V.9 – Arbre maximal obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives,
dont des coordonnées planaires.
Nous avons vu dans les deux paragraphes précédents que le critère de découpage était
la minimisation de l’inertie intra-classe (ou la maximisation de l’inertie interclasses). Dans le
contexte de la survie, pour découper en fonction d’une variable explicative, on s’intéresse à la
comparaison de la survie entre les deux groupes créés, notés R1 et R2 . Cette comparaison est
faite via le test du rapport de vraisemblance. Si l’on note d1 et d2 le nombre de décès dans R1
et R2 , t1 et t2 les sommes des temps de suivi, la statistique de test s’écrit :
"
d2
2 d2 ln
t2
!
d1
+ d1 ln
t1
!
d
− d ln
t
!#
,
où d = d1 + d2 et t = t1 + t2 . Cette statistique de test suit une loi du χ2 à un degré de
liberté. Le meilleur découpage est celui qui produit la statistique de test maximale parmi tous
les découpages possibles.
Comme précédemment, la construction de l’arbre maximal s’arrête lorsque les conditions d’arrêt
119
V.1 La méthode CART
Figure V.10 – Déviance en fonction du nombre de feuilles obtenue à partir du jeu de données « Hitters »
avec 8 variables explicatives, dont des coordonnées planaires.
Figure V.11 – Arbre optimal obtenu à partir du jeu de données « Hitters » avec 8 variables explicatives,
dont des coordonnées planaires.
sont atteintes et la procédure d’élagage consiste à trouver le sous-arbre qui minimise le coûtcomplexité. Dans rpart, cela revient à trouver le paramètre de complexité qui minimise l’erreur
de validation croisée. Un exemple d’application est donné par Therneau and Atkinson (2014)
avec le jeu de données « Stage C prostate cancer » (Nativ et al., 1988). Le tableau V.1 des
120
V.1 La méthode CART
Figure V.12 – Découpage géographique obtenu à partir du jeu de données « Hitters » avec 8 variables
explicatives, dont des coordonnées planaires.
paramètres de complexité, CP , montre que l’erreur 5 est minimale pour CP = 0, 04205598,
d’où l’arbre retenu représenté par la ﬁgure V.13.
CP
nsplit
0,12945955
0
0,04205598
1
0,02919986
2
0,01798864
3
0,01540577
4
0,01335393
5
0,01150598
7
0,01000000
8
rel error
1,0000000
0,8705405
0,8284845
0,7992846
0,7812960
0,7658902
0,7391823
0,7276764
xerror
1,0070205
0,8933413
0,9350145
0,9698372
1,0150718
1,0276956
1,0438313
1,0433441
xstd
0,07066791
0,07416861
0,08095818
0,08378479
0,08959893
0,08995911
0,09019657
0,09015052
Tableau V.1 – Tableau des paramètres de complexité (sortie R) pour l’exemple des données « Stage
C prostate cancer » où CP désigne le paramètre de complexité, nsplit désigne le nombre de découpages,
rel error mesure l’erreur apparente (erreur d’entraînement), xerror mesure le taux d’erreur dans la validation
croisée et xstd est l’écart-type de l’erreur de validation croisée.
5. Dans la sortie produite par R, xerror mesure le taux d’erreur dans la validation croisée à 10 plis. On le
considère comme un estimateur correct de l’erreur réelle et c’est lui qu’il faut minimiser.
121
V.2 La méthode SpODT pour les pathologies aiguës
Figure V.13 – Arbre obtenu à partir du jeu de données « Stage C prostate cancer » avec CP =0,042.
2
2.1
La méthode SpODT pour les pathologies aiguës
La méthode initiale
Nous présentons ici la méthode, adaptée de CART, que nous avons choisi d’étendre à la
survie nette. La méthode SpODT, pour Spatial Oblique Decision Tree, repose sur un modèle de
régression non paramétrique qui fournit des agrégats avec des découpages obliques de l’espace
(Gaudart et al., 2005; Fichet et al., 2006; Gaudart et al., 2007; Gaudart, 2007), et non plus
seulement des rectangles. Conçue à des ﬁns épidémiologiques, la méthode SpODT permet de
découper une aire géographique en fonction du risque associé à une épidémie. Globalement, elle
est implémentée à l’aide d’un algorithme itératif qui cherche à découper le plan selon un critère
qui est la maximisation de la variance interclasses. L’algorithme détecte les découpages à tester
en utilisant des permutations dans l’ordre des abscisses sur leurs axes, en utilisant le fait que
toute permutation de support ﬁni peut être décomposée en un produit de transpositions. Pour
plus de détails sur le fonctionnement de l’algorithme sous-jacent à la méthode, on pourra se
122
V.2 La méthode SpODT pour les pathologies aiguës
référer à l’exemple développé en Annexe B 6 .
Les critères d’arrêt sont :
– la profondeur maximale de l’arbre ;
– la taille minimale d’un nœud père ;
– la taille minimale d’un nœud ﬁls ;
– l’amélioration minimale du R2 (variance expliquée).
Comme dans la méthode CART, le découpage se fait de manière descendante, i.e. lorsque l’on
est dans un sous-arbre droit, on ne s’occupe plus des sous-arbres gauches de même niveau (ou
de niveau inférieur). Ainsi, deux classes similaires peuvent se retrouver dans deux feuilles et
être séparées par un segment (elles sont dans deux sous-arbres diﬀérents). La méthode SpODT
se diﬀérencie ici de CART par le fait qu’elle oﬀre la possibilité de « retravailler le découpage
géographique » par la méthode de la greﬀe. Le principe de la greﬀe est de vériﬁer si toutes les
classes adjacentes sont diﬀérentes et, dans le cas contraire, de supprimer les segments correspondants. Plus précisément, l’algorithme calcule le R2 global pour chaque greﬀe possible. La
greﬀe est réalisée si l’amélioration du R2 (par rapport à celui calculé avant greﬀe) est suﬃsante.
Elle permet ainsi d’agréger des classes qui n’ont pas de relation hiérarchique, à la diﬀérence de
l’élagage de la méthode CART où l’on choisit l’arbre optimal parmi des sous-arbres de l’arbre
maximal. Notons que la procédure d’élagage ne peut être appliquée dans SpODT après une
greﬀe. En eﬀet, elle nécessite de travailler à partir de l’arbre maximal (ou d’un sous-arbre) et
la greﬀe élimine la hiérarchisation des classes. Il serait toutefois possible de l’appliquer avant la
greﬀe mais cela réduirait le bénéﬁce de celle-ci. Notons aussi que la greﬀe pourrait être appliquée à la méthode CART. Ainsi, dans l’exemple représenté par la ﬁgure V.12, on obtiendrait
deux clusters : « salaires élevés » (cluster en bas à gauche) vs. « salaires faibles » (greﬀe du
cluster en haut à gauche avec le cluster de droite).
Une autre diﬀérence entre les deux méthodes est que la méthode SpODT travaille dans le plan,
contrairement à la méthode CART où les coordonnées ne sont que des variables quantitatives
parmi d’autres. Ainsi, la méthode SpODT n’est applicable que pour des coordonnées planaires ;
en présence de coordonnées sphériques, une projection doit être réalisée avant toute analyse.
Enﬁn, une pondération a été introduite dans la méthode SpODT, permettant de « pénaliser »
les classes de faible eﬀectif et contenant des localisations dispersées.
6. L’exemple proposé s’appuie sur l’adaptation de SpODT à la survie, dont nous parlerons dans la prochaine
section. Cependant, l’algorithme de découpage est le même, seul le critère de découpage change.
123
V.2 La méthode SpODT pour les pathologies aiguës
2.2
Les améliorations
Compte tenu de l’un des objectifs de cette thèse qui était d’adapter la méthode SpODT à
la survie nette, nous avons été impliqués dans la création du package SPODT (Gaudart et al.,
2014).
La méthode était implémentée à partir de fonctions existantes programmées en C et dans R 7 .
Une part importante de notre travail a consisté à optimiser certaines fonctionnalités et à créer le
package. Nous avons notamment construit le package dans l’esprit des packages existants dans
l’analyse spatiale – voir par exemple les packages gstat (modélisation géostatistique spatiale
et spatio-temporelle, prévision et simulation, Pebesma, 2004) et geostatsp (géostatistique et
données raster, Brown and Hijmans, 2014) qui s’appuient sur le package sp (classes et méthodes
pour données spatiales, Pebesma and Bivand, 2005; Bivand et al., 2013).
Le package SPODT est disponible sur le site du CRAN :
http://cran.r-project.org/web/packages/SPODT/index.html.
Les fonctions et arguments sont présentés dans l’article qui suit. Il a le statut « (conditional)
accept » (modiﬁcations mineures – de style – à apporter) dans la revue Journal of Statistical
Software.
Notons que ce package a permis de contribuer au travail d’un étudiant de master 8 . Il
s’agissait de comparer les résultats obtenus par la méthode SpODT sur des données réelles d’une
pathologie chronique (cancers du poumon, de la vessie, de la prostate et du colon-rectum) avec
ceux obtenus par la méthode de balayage de Kulldorﬀ (Kulldorﬀ, 1997) et le lissage bayésien
hiérarchique utilisés sur ces données (Colonna and Sauleau, 2013).
7. Ces programmes avaient été construits lors d’un stage de master (Barbet, 2008).
8. Ce travail est exposé dans un mémoire (Goungounga, 2014).
124
Journal of Statistical Software
JSS
MMMMMM YYYY, Volume VV, Issue II.
http://www.jstatsoft.org/
SPODT: An R-Package to Perform Spatial
Partitioning
Jean Gaudart
Nathalie Graffeo
Drissa Coulibaly
Guillaume Barbet
Aix-Marseille Univ
Aix-Marseille Univ
MRTC, USTT Bamako
Aix-Marseille Univ
Stanilas Rebaudet
Nadine Dessay
Ogobara K Doumbo
Roch Giorgi
Aix-Marseille Univ
IRD
MRTC, USTT Bamako
Aix-Marseille Univ
Abstract
Spatial cluster detection is a classical question in epidemiology: are cases located near
other cases? In order to classify a study area into zones of different risks and determine
their boundaries, we have developed a spatial partitioning method based on oblique decision trees, which is called Spatial Oblique Decision Tree (SpODT). This non-parametric
method is based on the Classification and Regression Tree (CART) approach introduced
by L. Breiman. Applied to epidemiological spatial data, the algorithm recursively searches
among the coordinates for a threshold or a boundary between zones, so that the risks estimated in these zones are as different as possible. While the CART algorithm leads to
rectangular zones, providing perpendicular splits of longitudes and latitudes, the SpODT
algorithm provides oblique splitting of the study area, which is more appropriate and accurate for spatial epidemiology. Oblique decision trees can be considered as non-parametric
regression models. Beyond the basic function, we have developed a set of functions that
enable extended analyses of spatial data, providing: inference, graphical representations,
spatio-temporal analysis, adjustments on covariates, spatial weighted partition, and the
gathering of similar adjacent final classes. In this paper, we propose a new R-package,
SPODT, which provides an extensible set of functions for partitioning spatial and spatiotemporal data. The implementation and extensions of the algorithm are described. Function usage examples are proposed, looking for clustering malaria episodes in Bandiagara,
Mali, and samples showing three different cluster shapes. The SPODT package is freely
available on the CRAN website (http://cran.r-project.org).
Keywords: spatial, partitionning, malaria, oblique decision tree, R-package.
2
SPODT: Spatial Partitioning
1. Introduction
Spatial cluster detection is a classical question in epidemiology: are cases located near other
cases? Among various approaches, general methods allow us to detect high risk zones of unspecified locations within a study area, without specifying any a priori point source (Colonna
et al. 1993; Elliott et al. 1995; Wakefield et al. 2001; Waller and Gotway 2004; Chirpaz et al.
2004; Gaudart et al. 2006b). Global detection methods, such as Moran’s or Tango’s ones
(Tiefeldorf 2002; Tango 2002), test a statistic estimated over the entire study area, whereas
local detection methods, such as Anselin’s or Kulldorff’s ones (Anselin 1995; Kulldorff 1997),
test several statistics estimated over distinct zones within the study area. By scanning the
study region with a circular or elliptic window, the SaTScan algorithm (Kulldorff 1997) compares observed and expected cases, inside and outside each potential cluster. It has the
advantage of not depending on the underlying spatial architecture, although the choice of
windowing is often critical and sensitive to edge effects (Gregorio et al. 2006). These methods
are also sensitive to geographical constraints, such as rivers, mountains, seas, or walls and
corridors for outbreaks in buildings (e.g., healthcare-associated infections, or legionellosis).
We have introduced a spatial partitioning method based on oblique decision trees, called
Spatial Oblique Decision Tree (SpODT), in order to classify a study area into zones of different risks and determine their boundaries, while being less sensitive to edge effects (Gaudart
et al. 2006b). This non-parametric method is based on the Classification and Regression Tree
(CART) approach introduced by L. Breiman (Breiman et al. 1993). Beyond the basic function, we have developed a set of functions for an extended analysis of spatial data, providing:
inference, graphical representations, spatio-temporal analysis, adjustments on quantitative
covariates, spatial weighted partition, and the gathering of similar adjacent final classes.
In this paper, we propose a new R-package, SPODT, which provides an extensible set of
functions for partitioning spatial and spatio-temporal data. The implementation and extensions of the algorithm are described and function usage are proposed based on a field
observation datafile (malaria episodes in Mali) (Coulibaly et al. 2013) and samples showing three different cluster shapes. The results are compared to the CART approach using
the tree R-package. All results were obtained using R 3.1.0 (Windows 7®, Intel®Core™i7,
CPU Q820 @1.73GHz, 64-bit). The SPODT package is freely available on the CRAN website
(http://cran.r-project.org).
2. Method
2.1. Basic algorithm
This non-parametric method is based on Classification and Regression Tree (CART) (Breiman
et al. 1993; Crichton et al. 1997; Gaudart et al. 2005). For each covariate, the CART algorithm searches for the threshold to split the covariate space into two classes, which optimizes a
defined criteria (such as interclass variance). Then, the CART algorithm pursues recursively
the binary partition of the covariate space, reaching stopping rules. Applied to epidemiological spatial data, the CART algoritm searches among the planar coordinates {xi , yi } (of
each location Mi ) for a threshold or boundary between two spatial classes (two geographic
zones), so that the risks estimated in these two classes are as different as possible (maximum
interclass variance or sum of squared errors SSEinter ). The algorithm then continues splitting
Journal of Statistical Software
3
recursively each of these two classes, and stops when reaching stopping rules. The root of the
resulting regression tree is the entire study area. The final classes are sub-classes splitting the
whole study area. Regression trees estimate changing lines of a constant function in each class
of R2 (Gey 2002), interpreted as boundaries between zones (spatial classes) of different risks.
However, the CART algorithm leads to rectangular classes (Murthy et al. 1994; Cantu-Paz
and Kamath 2003), providing perpendicular splits of the projected longitudes and latitudes.
The SpODT (Spatial Oblique Decision Tree) algorithm (Gaudart et al. 2005) is a modification of the CART algorithm providing oblique splitting of the study area, which is more
appropriate and accurate for spatial epidemiology. Oblique decision trees can be considered
as non-parametric regression models. The functional form can be written as follows:
zi = f (xi , yi ) + εi , where {xi , yi } are the planar coordinates of each point location Mi , i =
1...N , and εi ∈ R. These coordinates have to be euclidean coordinates in case of small area
(e.g. hospital wards, rooms within buildings) or projections of geographical coordinates. Note
that the use of non projected geographical coordinates may lead to erroneous results.
The function f (xi , yi ) can be written as follows:
f (xi , yi ) =
P
X
j=1
z̄j I{Mi (xi ,yi )∈classj }
where class
P j , for j = 1, ...P , are the final P classes after splitting the whole study area;
z̄j = N1j Mi ∈classj zi is the mean of observed values at Nj locations Mi ∈ class j.
In other words, for each point location Mi belonging to a class j, the predicted risk will be
zi = z̄j ± εi .
The main problem is to determine the class set {classj , j = 1, ..., P }. Boundaries between
classes are linear functions sj (xi , yi ) of the planar coordinates (axi + byi + c = 0). These
boundaries, or splitting directions, are recursively determined for each location sample, also
called node ξ, corresponding to the whole study area at the beginning of the algorithm, or
corresponding to a zone (geographical class) issued from a previous split. This node ξ is split
into two classes by the partition direction sj (xi , yi ). If sj (xi , yi ) < 0, then the location Mi
will belong to the left ”child” class jl of the tree. If not, the location Mi will belong to the
right ”child” class jr. For each node ξ constituted by a set of n(ξ) locations, the algorithm
searches, among the S set of every linear functions of (xi , yi ), for the function sj (xi , yi ) such
as:
SSEinter (sj , ξ) = max{SSEinter }
s∈S
We have shown (Gaudart et al. 2005; Fichet et al. 2006) that S, the set of every linear
functions splitting a finite set of points in R2 , is a finite set. There are an infinite number
of lines splitting a set of points into two sub-sets. However, several lines lead to the same
classification, splitting the point set identically. Therefore, the algorithm has to identify the
possible lines to analyze only once each separate partition. For that purpose, the algorithm
uses properties related to the order of abscissas of the points to be split, after rotation of
the x-axis. Then, the algorithm performs vertical splitting of images of the x-axis for each
rotation. To determine the angles of these rotations, critical angles associated to each pair of
points are defined. They allow to define angular sectors within which the image of the axis
preserves the order of the point abscissas. Indeed, during a rotation center O of the x-axis,
the order of the point abscissas can be changed. For two points M1 and M2 , the critical angle
θ12 , associated with the pair (M1 , M2 ), defines the minimum angle of rotation to be applied
4
SPODT: Spatial Partitioning
to the x-axis so that points M1 and M2 have their abscissas u1 and u2 permuted (Figure 1
and Figure 2). During the passage of the x-axis image from an angular sector to the next,
only the points associated to the critical angle, formed by the line delimiting the two angular
sectors, have their abscissa order changed. The algorithm splits the plane perpendicularly to
x-axis and x-axis images after rotations. Thus, permutations in the abscissa order scan the
interval [0, π[, and characterize distinct splits that will be tested to maximize the interclass
variance of the generated classes.
Figure 1: Determination of the critical angle θ12 and line (red) associated to pairs
(M1 , M2 ).
In green: image of the x-axis before rotation and projections of point M1 (u1 ) and
M2 (u2 ), before rotation.
Figure 2: Determination of the critical angle θ12 and line (red) associated to pairs
(M1 , M2 ).
In green: image of the x-axis after rotation
and projections of point M1 (u1 ) and M2
(u2 ), after rotation.
After splitting the initial set into 2 classes, the algorithm continues recursively. The number
P of final classes (or zones) is recursively defined by the number of terminal nodes of the
regression tree, after reaching stopping criteria.
A node ξ is a terminal node if one of the following criteria is reached:
1. SSEinter (sj , ξ) ≤ Rc2 × SSEtotal (ξ) ⇐⇒ Rξ2 ≤ Rc2 i.e., a new partition will not explain
enough variance; where Rξ2 is the explained variance calculated over the split of a node
ξ and Rc2 is the minimal explained variance (fixed by the user).
2. n(ξ) ≤ nc1 , where n(ξ) is the size of node ξ and nc1 is the fixed minimal size of a node
below which the splitting algorithm is stopped (fixed by the user).
3. (n(classjl ) ≤ nc2 ) ∨ (n(classjr ) ≤ nc2 ), where classjl and classjr are the two children
classes issued from the split of node ξ. The fixed value nc2 is the minimal size of children
classes below which the split is rejected (fixed by the user).
4. the maximal number of tree levels (fixed by the user).
Journal of Statistical Software
5
Once the oblique regression tree is obtained (partition of the entire area into spatial classes of
different risk), the main feature of this model is the overall variance explained in the depen2
dent variable by the terminal classification, Rglobal
, defined as the ratio of the sum of squared
deviations between classes (calculated on the overall terminal classes) to the total sum of
squares.
This approach, defined as a general method detecting spatial clusters, can be interpreted
either as a global assessment of a spatial structure, or as a local analysis producing a map of
the response variable.
2.2. Program developments
We have developed different R-functions for a complete analysis of spatial data, according to
our method. On the basis of the basic algorithm, several extensions have been developed:
• Spatio-temporal analysis: integration of splits of a time covariate. The statistical
unit is then defined by planar coordinates and a date. On an unique location different
values can be observed at different dates. As CART algorithm, SpODT algorithm can
thus provide a spatial splitting or a temporal splitting.
• Adjustments: following the same procedure, the SpODT algorithm can provide a
classification of different quantitative covariates. For these covariates, the standard
CART algorithm is applied (i.e., no oblique split is performed).
• Gathering similar adjacent final classes: this option makes possible to gather
similar adjacent classes at the end of the recursive splitting algorithm. Indeed, because
of the recursiveness of the algorithm, the left branch of the tree ignores the right branch
and conversely. This can lead to a final classification with similar adjacent classes, only
2
separated because of the recursion. In this approach, the global Rglobal
is calculated
after grafting these two adjacent classes, and this grafted new classification is kept if
2
this new global Rglobal
is not sufficiently different from the previous one (without grafting
classes).
• Weighting the classification criterion: in the basic SpODT algorithm, the calculation of the interclass variance doesn’t take into account the child class sizes nor
the spatial distribution of the locations within each child class. However, a class is
all the less important in the analysis as its size is small and its locations are dispersed. We
sum of squared error written as follows:
P2have then developed a weighted
2
SSEjα = j=1 αj n(classj ) (z̄j − z̄) . The weight function αj has to be a continuous
non-decreasing bounded function of the size n(classj ) (size of the class j ∈ 1, 2) and the
spatial dispersion δj . The weight function actually proposed is written as follows:
n(class )
αj =
j
}
exp{ n(classj )+δ
j
n(class )
j
1 + exp{ n(classj )+δ
}
j
where δj = det(Vj ) and Vj is the variance-covariance matrix for each class j.
• Inference: a ”test” function has been developed in order to test the final SpODT
classification using a Monte-Carlo approach. This test function simulates a specified
6
SPODT: Spatial Partitioning
number of data sets under a specified null hypothesis conditionally to the location, and
the spodt function provides a classification tree for each of the simulated data set. The
2
empirical distribution of the global Rglobal
under the null hypothesis is obtained and,
then, the test function provides a p-value.
3. Overview of the functions
3.1. Basic function
The spodt function performs the classification of the data set.
R > spodt(z ~ 1, data, weight = FALSE, graft = 0, level.max = 5,
+
min.parent = 10, min.child = 5, rtwo.min = 0.001)
Arguments:
• z ~ 1: a formula, using the formula {stats} function, with a response but no interaction terms. The left hand side has to contain a quantitative response variable (numeric).
The right hand side should contain the quantitative and qualitative variables to be split
according to a non oblique algorithm (e.g. z ~ V1 + V2). For single spatial analysis
(with no cofactor) the right hand side should be z ~ 1.
• data: a SpatialPointsDataFrame containing the coordinates and the variables. SpODT
functions need planar coordinates. Geographic coordinates have to be projected. Otherwise, euclidian coordinates can be used (for small area analysis such as rooms within
buildings).
• weight: a logical value indicating whether the interclass variances should be weighted
or not.
2
• graft: a numerical value between 0 and 1 indicating the minimal modification of Rglobal
required to grafted the final classes. If graft = 0 the algorithm will not graft any
adjacent classes.
• level.max: the maximal level of the regression tree above which the splitting algorithm
is stopped.
• min.parent: the minimal size of a node below which the splitting algorithm is stopped
(nc1 ).
• min.child: the minimal size of the children classes below which the split is refused and
the algorithm is stopped (nc2 ).
• rtwo.min: Rc2 , the minimal value of Rξ2 above which the node split is refused and the
algorithm is stopped. Specified as a numerical value between 0 and 1.
Journal of Statistical Software
7
Value:
The spodt function computes an object of class spodt with the different components of the
classification tree, i.e., i) at each step: the point locations within each class, Rξ2 , coefficients
2
of the splitting line; ii) global results: the global Rglobal
(object@R2), the final partition
(object@partition) including the graft results.
3.2. Tree and spatial lines
R > spodt.tree(object)
This graphical function provides the tree issued from the spodt function. Each step of the
classification is presented with main statistics. object is an object of class spodt, usually
a result of a call to spodt. For graphical convenience, grafted classes are not presented but
only indicated by their id number.
R > spodtSpatialLines(object, data)
This function provides the SpatialLines object (see the R-package sp) that contains the
boundaries of the spatial classification issued from the spodt function. object is an object of
class spodt, usually a result of a call to spodt. data is the initial SpatialPointsDataFrame
containing the planar coordinates and the variables. The SpatialLines object obtained can
be used, for example to obtain maps.
3.3. Hypothesis testing
The test.spodt function provides a Monte Carlo hypothesis test of the final classification
issued from the spodt function. This function performs simulations of the specified null
hypothesis and the classification of each simulated data set, using the same rules as the
observed data set classification.
R > test.spodt(z ~ 1, data, obs.R2, rdist, par.rdist, nb.sim,
+
weight, graft, level.max, min.parent, min.child, rtwo.min)
Arguments:
• z ~ 1: a formula, such as in the spodt function, with a response but no interaction
terms. The left hand side has to contain a quantitative response variable (numeric).
The right hand side should contain the quantitative and qualitative variables to be split
according to a non oblique algorithm (e.g. z ~ V1 + V2). For single spatial analysis
(with no cofactor) the right hand side should be z ~ 1.
• data: a SpatialPointsDataFrame containing the coordinates and the variables. SpODT
functions need planar coordinates. Geographic coordinates have to be projected. Otherwise, euclidian coordinates can be used (for small area analysis such as rooms within
buildings).
8
SPODT: Spatial Partitioning
2
• obs.R2: the global Rglobal
issued from the previous spodt final classification of the
observed data set. Specified as a numerical value between 0 and 1.
• rdist: a description of the distribution of the dependent variable under the null hypothesis. This can be a character string naming a random generation of a specified
distribution, such as "rnorm" (Gaussian distribution), "rpois" (Poisson distribution),
"rbinom" (binomial distribution), "runif" (uniform distribution) ... .
• par.rdist: a list of the parameters needed for the random generation, depending on
the null hypothesis distribution, such as c(n, mean, sd) (Gaussian distribution), c(n,
lambda) (Poisson distribution), c(n, size, prob) (binomial distribution), c(n, min,
max) (uniform distribution) ... .
• nb.sim: the number of simulations, specified as a positive integer.
• weight, graft, level.max, min.parent, min.child, rtwo.min: these arguments have
to be specified, similarly to the previous spodt classification of the observed data set.
Value:
The test.spodt function computes classification trees for the simulated data sets. It pro2
empirical distribution under the null hypothesis, compared to the
vides the global Rglobal/H0
2
observed global Rglobal , and a p-value.
4. Data examples
4.1. Clustering malaria episodes (Bandiagara, Mali)
Malaria parasite transmission and clinical disease are characterized by important microgeographic variations, often between adjacent villages, households or families (Greenwood 1989;
Carter et al. 2000; Gaudart et al. 2006a). This local heterogeneity is driven by a variety
of factors including distance to breeding sites, housing constructions and socio-behavioral
characteristics (Koram et al. 1995; Coleman et al. 2009; Ernst et al. 2009). The study was
conducted in Bandiagara, Mali, following a cohort of 300 children, at 168 locations. The
household of each child was geo-located (decimal degrees). Approval from Institutional review boards at the Faculty of Medicine, Pharmacy and Dentistry of the University of Mali,
community approval and written informed consents from parents were obtained before inclusion (see Coulibaly et al. 2013, for further details). We applied SPODT functions to classify
the entire area into different risk zones with homogeneous number of malaria episodes per
child at each household, from November to December 2009. We used the spodt function to
provide a spatial classification of the study site, with no covariates, with a weighted classification criterion, 7 tree levels, a minimal parent size of nc1 = 25, a minimal child size of
2
nc2 = 2, and with a minimal Rc2 = 0.01. We also used the grafting option (minimal Rglobal
improvement of 0.13). After projection, the function can be written as follows, and results
were obtained in 0.53 seconds:
9
Journal of Statistical Software
R
R
R
R
+
R
+
>
>
>
>
data("dataMALARIA")
coordinates(dataMALARIA) <- c("x", "y")
proj4string(dataMALARIA) <- "+proj=longlat +datum=WGS84 +ellps=WGS84"
dataMALARIA <- spTransform(dataMALARIA, CRS("+proj=merc +datum=WGS84
+ellps=WGS84"))
> spodt.results <- spodt(z ~ 1, data = dataMALARIA, graft = 0.13,
level.max = 7, min.parent = 25, min.child = 2, rtwo.min = 0.01)
Graft number
1
2
3
4
5
6
id class1
55
104
12
108
53
7
id class2
105
111
113
115
117
119
id class∗12
111
113
115
117
119
121
Table 1: Grafting classes, malaria episodes. ∗ class12 = class1 ∪ class2 .
The tree (Figure 4.1) and the map (Figure 4.1) were obtained by the following R-codes:
R
R
R
R
>
>
>
>
spodt.tree(spodt.results)
SSL.result <- spodtSpatialLines(spodt.results, dataMALARIA)
plot(SSL.result)
points(dataMALARIA, cex = log(dataMALARIA@data$z*10))
The non-grafted tree (Figure 4.1) showed 12 final classes with different risks before grafting
(Figure 4.1). Adjacent classes were grafted according to the graft criteria described in Ta2
= 0.49 (given by R > spodt.results@R2).
ble 4.1, which finally provides 6 classes, with Rglobal
This result shows that spatial variations can explain an important part of the malaria risk
variability, although other factors remain such as behaviors, genetic, personal medical history,
household characteristics etc. The spatial classification (Figure 4.1) highlighted a central low
risk cluster (class id 109) with a mean malaria episode of 0.08 per child (95% confidence interval, CI[0.04-0.11]) (Table 4.1), with a polygonal and asymmetric shape. Around this low risk
cluster, the mean malaria episodes per child was higher (0.47 [0.39-0.55]). Note that there is
a pond in the north of the city and a river in the south, which are breeding sites for malaria
transmission mosquitoes (Coulibaly et al. 2013). The remaining zone showed an alternation
of high and low risk clusters.
10
SPODT: Spatial Partitioning
Figure 3: Classification tree (spodt.tree(object)) of malaria episodes in Bandiagara, Mali.
This classification was obtained by using the SPODT package. Each node
(excluding terminal nodes) is presented with its id number, mean, variance and
local Rξ2 after splitting, as well as the function of the splitting line. Each terminal
node is presented with its id number, number of locations, mean and variance.
Figure 4: Mapping of the SpODT classification (spodtSpatialLines(object,
data)).
Each location (circles) is presented according to its projected coordinates.The lines
represent the borders of each class. The circle size represents the mean number of
malaria episodes at each location.
Journal of Statistical Software
Figure 5: Testing of the classification (test.spodt(object)).
2
The histogram of the Rglobal/H0
obtained after 99 simulations, is presented
2
together with the observed Rglobal
(red line).
Figure 6: Mapping of the SpODT classification (spodtSpatialLines(object,
data)) with no graft option.
11
12
SPODT: Spatial Partitioning
The test of the tree algorithm was performed using 99 simulated samples following a Poisson
distribution and with the same criteria as previously, such as follows (results were obtained
in 28.46 seconds):
R > test.spodt(z ~ 1, data = dataMALARIA, spodt.results@R2, "rpois",
+
c(length(dataMALARIA@data$loc), mean(dataMALARIA@data$z)), 99,
+
weight = TRUE, graft = 0.13, level.max = 7, min.parent = 25,
+
min.child = 2, rtwo.min = 0.01)
With a p-value of 0.01, the classification obtained by the spodt function was significantly
different from a homogeneous spatial distribution of malaria episodes (Figure 4.1).
Among the different tuning parameters of the spodt function, level.max, min.parent,
min.child and rtwo.min are similar to those of the tree package, and have to be chosen
similarly to CART approaches. In the SPODT package, as we have introduced a gathering
option, a graft tuning parameter has been added. In order to assess the sensitivity of the
SpODT algorithm to this option, we ran it with different values of graft ranging from 0.0
to 1 (with a step of 0.001), the other tuning parameters being fixed as previously. We also
assessed the sensitivity of the SpODT algorithm to rtwo.min values, running the algorithm
with values ranging from 0.0 to 1 (with a step of 0.001), the other tuning parameters being
fixed as previously (graft = 0.13).
Final class id
5
8
18
19
109
121
Global
Location
count
6
4
20
7
52
79
168
Mean[95%CI]*
1.92 [1.77-2.07]
1.58 [1.14-2.03]
0.69 [0.49-0.89]
0
0.08 [0.04-0.11]
0.47 [0.39-0.55]
0.43 [0.37-0.50]
Table 2: Mean malaria episodes per child, SpODT classification. *95% CI: 95% confidence
intervals.
Journal of Statistical Software
graft
0.0-0.047
0.047-0.062
0.062-0.103
0.103-0.105
0.105-0.123
0.123-0.154
0.154-0.190
0.190-0.270
0.270-0.426
0.426-1.0
2
Rglobal
0.601
0.596
0.585
0.565
0.535
0.494
0.489
0.403
0.359
0.003
Number of classes
12
11
10
8
7
6
5
4
3
2
Table 3: Tuning parameter of the spodt function: the graft option.
min.parent = 25; min.child = 7; rtwo.min = 0.01.
rtwo.min
0.0-0.068
0.068-0.149
0.149-1.0
2
Rglobal
0.494
0.408
0
13
level.max = 7;
Number of classes
6
5
1
Table 4: Tuning parameter of the spodt function: the rtwo.min option. level.max = 7;
min.parent = 25; min.child = 7; graft = 0.13.
Figure
7:
Classification
tree
(plot.tree(object)) of malaria episodes in
Bandiagara, Mali.
This classification was obtained by using the
tree package.
Figure 8: Mapping of the CART classification (partition.tree(object)).
Each location is presented according to its
coordinates and the circle size represents the
mean number of malaria episodes. The lines
represent the borders of each class.
14
SPODT: Spatial Partitioning
2
The Rglobal
obtained ranged from 0.6 (12 final classes) to 0.003 (2 final classes), showing a
step decrease of the number of classes (Table 4.1) when graft increased. When rtwo.min
increased, the algorithm stopped rapidly with no classification (Table 4.1). Choice of the
tuning parameters has thus to be made between no classes and too many classes, such as for
CART approaches. From a practical point of view, together with field knowledge, the number
2
of final classes, the Rglobal
and the test procedure provided by this package can guide the user
in this choice. Note that the choice of a deep tree will be corrected by the graft parameter.
The results were compared to the CART approach, using the tree package, tuning parameters
being set as follows: mincut = 5, minsize = 10, mindev = 0.01. The CART approach
showed a less accurate classification with 16 final classes (Table 4.1 and Figure 7). A central
low risk cluster was also detected (class id 27) as well as the alternation of high and low risk
clusters in the South, but this approach failed to detect the polygonal shape and to gather
similar adjacent classes (Figure 8). From an epidemiological point of view, numerous small
classes is not very useful in this context. Note that changes in the tuning parameters did not
change the global interpretation of the results. In the case of a greater mindev value (e.g. >
0.0134), the central low risk cluster was not detected (data not shown).
Final class id
3
4
7
10
11
13
14
20
22
23
24
25
27
29
30
31
Global
Location
count
13
5
5
6
8
5
12
14
5
7
12
5
50
9
5
7
168
Mean[95%CI]*
1.24 [0.87-1.6]
0.3 [0-0.69]
1.0 [0.38-1.62]
0.0
0.75 [0.11-1.39]
1.0 [0.38-1.62]
0.59 [0.35-0.84]
0.21 [0.02-0.4]
1.0 [0.38-1.62]
0.39 [0.03-0.76]
0.07 [0-0.16]
0.73 [0.51-0.96]
0.12 [0.05-0.19]
0.56 [0.25-0.86]
0.1 [0-0.3]
0.71 [0.2-1.23]
0.43 [0.37-0.50]
Table 5: Mean malaria episodes per child, CART classification. *95% CI: 95% confidence
intervals.
Journal of Statistical Software
15
4.2. Different cluster shapes and levels
We assessed the SPODT functions analyzing three different situations, and in comparison to
the CART algorithm (tree package). The following situations have been studied:
• Clustered data with a high level within a centered rotated square, and a low level
outside.
• Clustered data with a low level inside a centered ball shape, and a high level outside.
• Clustered data with a high level under a ”V” shape border, and a low level above.
For each situation, samples (n = 300) were provided:
• Planar coordinates following a uniform distribution (1, −1).
• A dependent variable following a Gaussian distribution with a constant variance (0.09)
and a constant mean for the two level zones: µ1 = 1 for the low level zone, µ2 = 1 + β
for the high level zone. For each situation, we used four samples: β = 0 (no cluster),
β = 0.5, β = 1.5 and β = 2.
As planar coordinates were used, no projection were applyed to the SpatialPointsDataFrame.
This provides a warning message when using spodt and test.spodt functions.
For both SpODT and CART approaches, default tuning parameters were used, except for
graft = 0.2 (SpODT algorithm). Changing these parameters did not greatly change the
interpretation of the comparisons.
Whathever the shape was, the SpODT algorithm did not show any significant cluster for
β = 0 (Figures 9, 12, 15, β = 0 panels). A contrario, the CART algorithm split the
spatial area even with no cluster (Figures 10, 13, 16, β = 0 panels). According to the
spodt test procedure, SpODT classes showed no significant classification for β = 0, and then
progressively significant results as β increased (Figures 11, 14, 17).
• Rotated square shape situation: the SpODT algorithm did show the central cluster
even for low values in the high level cluster (Figure 9, β = 0.5, β = 1.5 and β = 2 panels).
But the obtained shape was only approximatively a rotated square. A contrario, the
shape obtained with the CART algorithm was accurate only for higher values (β = 2),
but showed no rotated square (Figure 10).
• Ball shape situation: the SpODT and the CART algorithms failed to precisely detect
this particular form, but precisely located square clusters (Figures 12, 13, β = 0.5,
β = 1.5 and β = 2 panels). Again, CART failed to detect only two levels: it detected
few classes in the high level zone only for β = 2.
• ”V” shape border: The SpODT algorithm detected a very accurate border even for
low values in the high level zone (β = 0.5). The CART algorithm failed to detect such
a particular shape. Nevertheless, it showed lower values in the north, higher values in
the south, and a mitigate central band (with numerous different classes).
16
SPODT: Spatial Partitioning
Figure 9: Rotated square situation: Mapping
of the SpODT classification.
Figure 11: Rotated square situation: Testing
of the SpODT classification.
Figure 10: Rotated square situation: Mapping of the CART classification.
Journal of Statistical Software
Figure 12: Ball shape situation: Mapping of
the SpODT classification.
Figure 14: Ball shape situation: Testing of
the SpODT classification.
17
Figure 13: Ball shape situation: Mapping of
the CART classification.
18
SPODT: Spatial Partitioning
Figure 15: ”V” shape border situation: Mapping of the SpODT classification.
Figure 17: ”V” shape border situation: Testing of the SpODT classification.
Figure 16: ”V” shape border situation: Mapping of the CART classification.
Journal of Statistical Software
19
4.3. Spatial partition with a time covariate
A sample was build that concatenates 6 different situations: 2 rotated square situations (β = 2
and β = 1.5), 2 ”no cluster” situations (β = 0), and two ”V” shape situations (β = 2 and
β = 1.5), which thus form a numeric time covariate (1 unit of time up to 6). The spodt
function was used to provide a classification of the area, including this time covariate, with a
weighted classification criteria, a maximum of 5 tree levels, a minimal parent size of nc1 = 10,
a minimal child size of nc2 = 5, a minimal Rc2 = 0.001, and a grafting option of graf t = 0.2.
The function can be written as follows:
R > data("dataCOV")
R > coordinates(dataCOV) <- c("x", "y")
R > spodt.results.cov <- spodt(z ~ V1, data = dataCOV, weight = TRUE,
+
graft = 0.2, level.max = 5, min.parent = 10, min.child = 5,
+
rtwo.min = 0.001)
The non-grafted tree (Figure 20), provided by the SpODT algorithm, showed 16 final classes,
with 2 time splits: less than 2 and less than 5. These 3 time periods was related to 3
situations: rotated square with high values (β = 2), ”no cluster” or rotated square with
medium values(β = 1.5), and ”V” shape situation (β = 1.5 and β = 2). The graft option led
to two main classes (Figure 18), a high level zone in the South and a low level zone in the
north, which highlight the impact of the ”V” shape situation in this exemple (more locations
showing high values in this part of the area at this period). The CART algorithm provided a
similar tree with the same time splits (Figure 19), but 15 different spatial classes.
20
SPODT: Spatial Partitioning
Figure 18: Space-time situation: Mapping of
the grafted-SpODT classification.
Figure 19: Space-time situation: CART classification tree.
Figure 20: Space-time situation: SpODT classification tree.
Journal of Statistical Software
21
5. Conclusion
Among the different tools used dedicated to spatial classification (e.g. (Assuncao et al. 2006;
Oden et al. 1993)), the proposed SPODT R-package provides a classification of a spatial area
based on the spatial variability of a dependant variable. Space splitting can be oblique and this
classification can be adjusted on covariates and gather similar adjacent classes. Associated
functions (spodt.tree and spodtSpatialLines) are useful for graphical representations of
the classification, and the spodt.test function provides a test of the oblique decision tree
algorithm. SPODT R-package is povided with a real example set of malaria cases observed in
Mali. Using this set and others, SpODT detected spatial and spatio-temporal clusters more
accurately than CART algorithm in all performed comparisons.
6. Acknowledgement
The authors thank Dr Bernard Fichet for many valuable discussions, the reviewers and the
editor for their helpful comments. This work was supported by the AMMA consortium
(African Monsoon Multidisciplinary Analysis). Dr Jean Gaudart was also supported by the
ADEREM association for biological and medical research development (Association pour le
Developpement des Recherches biologiques et Medicales). The Malaria incidence field study
(Bandiagara, Mali) was coordinated by the Malaria Research and Training Center (MRTC,
Bamako, Mali), supported by cooperative agreement 5U01AI065683 from the National Institute of Allergy and Infectious Diseases and the grant D43TW001589 from the Fogarty
International Center, National Institutes of Health.
References
Anselin L (1995). “Local Indicators of Spatial Association : LISA.” Geogr Anal, 27, 93–116.
Assuncao R, Neves M, Camara G, da Costa Freitas C (2006). “Efficient regionalization techniques for socio-economic geographical units using minimum spanning trees.” Int J Geogr
Inf Sci, 20(7), 797–811.
Breiman L, Friedman J, Olshen R, Stone C (1993). Classification and Regression Trees.
Chapman and Hall.
Cantu-Paz E, Kamath C (2003). “Inducing Oblique Decision Trees with Evolutionary Algorithms.” IEEE Trans Evol Comput, 7, 54–68.
Carter R, Mendis K, Roberts D (2000). “Spatial Targeting of Interventions Against Malaria.”
Bull World Health Organ, 78, 1401.
Chirpaz E, Colonna M, Viel J (2004). “Cluster Analysis in Geographical Epidemiology : The
Use of Several Statistical Methods and Comparison of Their Results.” Rev Epidemiol Sante
Publique, 52, 139–149.
Coleman M, Mabuza A, Kok G, Coetzee M, Durrheim D (2009). “Using the SaTScan Method
to Detect Local Malaria Clusters for Guiding Malaria Control Programs.” Malar J, 8, 68.
22
SPODT: Spatial Partitioning
Colonna M, Esteve J, Menegoz F (1993). “Detection of Spatial Autocorrelation in Cancer
Hazard with Hetergogeneous Population.” Rev Epidemiol Sante Publique, 41, 235–240.
Coulibaly D, Travassos M, Rebaudet S, Laurens M, Tolo Y, Kone A, Traore K, Guindo A,
Diarra I, Niangaly A, Daou M, Dembele A, Cissoko M, Kouriba B, Dessay N, Gaudart
J, Thera M, Piarroux R, Plowe C, Doumbo O (2013). “Spatial and Temporal Patterns of
Malaria Incidence in Bandiagara, Mali.” Malaria J, 12, 82.
Crichton N, Hinde J, Marchini J (1997). “Models for Diagnosing Chest Pain : Is CART
Helpful ?” Statist Med, 16, 717–727.
Elliott P, Martuzzi M, Shaddick G (1995). “Spatial Statistical Methods in Environmental
Epidemiology : A Critique.” Stat Methods Med Res, 4, 13759.
Ernst K, Lindblade K, Koech D, Sumba P, Kuwuor D, John C, Wilson M (2009). “Environmental, Socio-Demographic and Behavioural Determinants of Malaria Risk in the Western
Kenyan Highlands: A Case-Control Study.” Trop Med Int Health, 14, 1258–1265.
Fichet B, Gaudart J, Giusiano B (2006). “Bivariate CART with Oblique Regression Trees.”
In International Conference of Data Science and Classification. International Federation of
Classification Societies, Ljubljana, Slovenia.
Gaudart J, Poudiougou B, Dicko A, Ranque S, Sagara I, Diallo M, Diawara S, Ouattara
A, Diakite M, Doumbo O (2006a). “Space-Time Clustering of Childhood Malaria at the
Household Level: A Dynamic Cohort.” BMC Public Health, 6, 286.
Gaudart J, Poudiougou B, Ranque S, Doumbo O (2005). “Oblique Decision Trees for Spatial
Pattern Detection: Optimal Algorithm and Application to Malaria Risk.” BMC Medical
Research Methodology, 5, 22.
Gaudart J, Ramatriravo N, Giusiano B (2006b). “Spatial Pattern Detection: Power Evaluation
of Scan Methods and Regression Trees.” Rev Epidemiol Sante Publique, 54(HS2), 31.
Gey S (2002). Bornes de Risque, Detection de Ruptures Boosting : Trois Themes Statistiques
Autour de CART en Regression. Ph.D. thesis, University of Paris XI, Paris, France.
Greenwood B (1989). “The Microepidemiology of Malaria and its Importance to Malaria
Control.” Trans R Soc Trop Med Hyg, 83, 25–29.
Gregorio D, Samociuk H, DeChello L, Swede H (2006). “Effects of Study Area Size on
Geographic Characterizations of Health Events: Prostate Cancer Incidence in Southern
New England, USA, 1994–1998.” Int J Health Geogr, 5, 8.
Koram K, Bennett S, Adiamah J, Greenwood B (1995). “Socio-Economic Risk Factors for
Malaria in a Peri-Urban Area of The Gambia.” Trans R Soc Trop Med Hyg, 89, 146–150.
Kulldorff M (1997). “A Spatial Scan Statistic.” Commun Stat Theory and Methods, 26,
1481–1496.
Murthy S, Kasif M, Salzberg S (1994). “A System for Induction of Oblique Decision Trees.”
J Artif Intell Res, 2(1-32).
23
Journal of Statistical Software
Oden N, Sokal R, Fortin M, Goebl H (1993). “Categorical Wombling: Detecting Regions of
Significant Change in Spatially Located Categorical Variables.” Geogr Anal, 25(4), 315–336.
Tango T (2002). “Score Tests for Detecting Excess Risks Around Putative Sources.” Statist
Med, 21, 497–514.
Tiefeldorf M (2002). “The Saddlepoint Approximation of Moran’s I and Mocal Moran’s I ’s
Reference Distribution and their Numerical Evaluation.” Geogr Anal, 34, 187–206.
Wakefield J, Quinn M, Rabb G (2001). “Disease Clusters and Ecological Studies.” J R Stat
Soc [Ser A], 164, 1–2.
Waller L, Gotway C (2004). Applied Spatial Statistics for Public Health Data. John Wiley &
Sons, Hoboken New Jersey.
Affiliation:
Jean Gaudart
Aix-Marseille University
UMR912 SESSTIM (INSERM IRD AMU)
Faculty of Medicine
27 Bd Jean Moulin
13005 Marseille, France
E-mail: [email protected]
URL: http://www.sesstim-orspaca.org
Journal of Statistical Software
published by the American Statistical Association
Volume VV, Issue II
MMMMMM YYYY
http://www.jstatsoft.org/
http://www.amstat.org/
Submitted: yyyy-mm-dd
Accepted: yyyy-mm-dd
V.3 Adaptation de la méthode SpODT à la survie nette
3
Adaptation de la méthode SpODT à la survie nette
L’objectif de ce travail était de proposer une méthode fournissant des clusters spatiaux pouvant contenir des patients similaires en termes de survie nette pour une période de suivi donnée
sans pré-spéciﬁcation de frontières ou de tailles des clusters potentiels. Nous avons adapté à
l’analyse de la survie nette l’approche par arbre de décision oblique SpODT. Nous avons pour
cela utilisé le test de comparaison de distributions de survie nette, dont la construction a été
exposée au Chapitre IV.
Cette partie de notre travail s’inscrit dans le cadre du projet DISSNET (Spatial health DISparities : method for analysis of geographic variations of NET cancer survival), coordonné par le
Pr. Roch Giorgi et ﬁnancé par le Cancéropôle PACA.
3.1
Idée générale
L’adaptation de la méthode à la survie nette implique un autre choix pour le critère de
découpage. Dans la méthode SpODT originelle, la maximisation de l’inertie interclasses s’interprétait comme la maximisation de la diﬀérence entre deux classes adjacentes. Ici, il s’agit
d’avoir deux classes les plus diﬀérentes possibles en termes de survie nette.
La première possibilité est de maximiser les diﬀérences de survie nette à un temps t prédéﬁni. Pour cela, on peut utiliser la statistique du Z-test exposé au Chapitre IV. En utilisant la
maximisation de cette statistique de test comme critère de découpage, nous avons obtenu des
résultats préliminaires, qui ont donné lieu à une communication orale à l’ISCB (Graﬀéo N,
Gaudart J, NDiaye K, Giorgi R and the CENSUR working survival group. Oblique Decision
Trees for Spatial Clusters Detection of Net Cancer Survival Rates. 35th annual conference of
International Society for Clinical Biostatistics, Vienne (Autriche, 2014)).
La seconde possibilité est de maximiser les diﬀérences de survie nette sur la période de suivi
en termes de distributions. Par rapport à l’approche précédente, un test de type log-rank est
préférable car il permet de prendre en compte l’information sur toute la période de suivi. Maximiser les diﬀérences entre les classes revient alors à maximiser la statistique du test exposé au
Chapitre IV, sur la période d’étude, entre chaque découpage potentiel d’un secteur angulaire.
C’est cette approche que nous avons privilégiée et à laquelle nous nous référerons lorsque nous
emploierons l’expression SpODT « survie nette ». Notons que la greﬀe est réalisée si deux classes
adjacentes sont similaires en termes de survie nette, c’est-à-dire lorsque l’hypothèse nulle (IV.2)
du test précité n’est pas rejetée. Pour une explication détaillée de l’algorithme et du choix des
découpages, on se réfèrera à l’Annexe B.
148
V.3 Adaptation de la méthode SpODT à la survie nette
Reprenons, à titre illustratif, l’exemple donné en introduction et résumé par la ﬁgure V.1.
Le découpage ﬁnal est représenté par l’arbre de la ﬁgure V.14. Le découpage sans greﬀe est
représenté par la ﬁgure V.15. Le découpage avec greﬀe (ﬁgure V.16) montre que nous retrouvons
le résultat que nous attendions (cf. ﬁgure V.2).
Figure V.14 – Exemple d’arbre de régression produit par l’algorithme SpODT « survie nette ».
Nous avons testé les performances de la méthode SpODT « survie nette » en termes de
sensibilité et de spéciﬁcité. L’étude des performances comporte deux composantes : (1) les performances de l’estimation (relatives à l’utilisation du test exposé au Chapitre IV) ; et (2) les
performances purement « géométriques » de la méthode.
Pour le premier point, nous avons comparé la méthode SpODT « survie nette » à la méthode
SpODT « survie observée », i.e. la méthode SpODT appliquée aux données du monde hypothétique. Plus précisément, dans l’esprit des simulations du Chapitre IV où nous avions utilisé les
temps et statuts du monde hypothétique où l’on ne décède que du cancer étudié, nous avons
construit une version de la méthode SpODT où le critère de découpage était la maximisation de
la statistique du log-rank usuel sur les données du monde hypothétique. Notons que la méthode
SpODT « survie observée » ne représente pas un « gold standard », comme cela pouvait être le
cas avec le log-rank appliqué aux données du monde hypothétique. En eﬀet, on ne s’intéresse
plus à la puissance du test mais à la façon dont les diﬀérentes valeurs des statistiques de test
sont ordonnées. Nous avons remarqué que cela conduit à des découpages diﬀérents, sans que
l’un soit obligatoirement meilleur que l’autre. En fait, les performances de la méthode « survie
149
V.3 Adaptation de la méthode SpODT à la survie nette
Figure V.15 – Exemple de découpage produit par l’algorithme SpODT « survie nette » sans greﬀe.
Figure V.16 – Exemple de découpage produit par l’algorithme SpODT « survie nette » avec greﬀe.
nette » peuvent être considérées comme satisfaisantes lorsque les résultats produits sont proches
de ceux obtenus par la méthode SpODT « survie observée ».
Pour le second point, nous avons comparé les méthodes SpODT « survie observée » et CART
appliquées aux données du monde hypothétique.
150
V.3 Adaptation de la méthode SpODT à la survie nette
Nous présentons maintenant une étude de cas et des résultats préliminaires obtenus sur
simulations. L’étude de cas correspond à une étude empirique sur des données dont nous avons
contrôlé la génération selon quatre scénarios diﬀérents. Elle a été réalisée aﬁn de comprendre
le fonctionnement des trois méthodes précitées, et donc d’obtenir des éléments pour orienter
notre stratégie d’analyse. Aﬁn d’obtenir des résultats plus robustes en termes d’évaluation des
performances, nous avons ensuite procédé à des études de simulations. Nous présentons dans
ce manuscrit les résultats obtenus sur un seul scénario.
Cette partie de notre travail a été réalisée en collaboration avec Khadim NDiaye, ingénieur
d’étude recruté dans le cadre du projet DISSNET ; nous avons contribué à la direction de son
travail.
3.2
Étude des performances de SpODT « survie nette »
Nous avons exploré quatre formes de clusters de survie nette faible dans l’étude de cas, à
savoir : (1) une bande ; (2) un disque ; (3) un « V » (que nous appelons « V-shape ») ; et (4)
l’image d’un carré par rotation de centre le centre du carré et d’angle 45° (que nous appelons
« rotated square ») – ﬁgures V.17, V.18, V.19 et V.20. Dans l’étude de simulations, nous avons
exploré une seule forme de cluster correspondant à une bande (ﬁgure V.21).
Le principe de génération des données était le même dans l’étude de cas et dans l’étude de
simulations. Nous avons généré un jeu de données pour l’étude de cas (pour chaque forme de
cluster étudiée) et 1050 pour l’étude de simulations : 50 pour choisir les critères d’arrêt pour les
méthodes SpODT ou le paramètre de complexité pour la méthode CART ; 1000 pour l’étude
de simulations à partir des paramètres précédemment choisis.
3.2.1
Principe de générations des données
Le principe général était de construire un cluster de la forme souhaitée dans une grille 4×4 9 .
Notre plan de génération était le suivant :
1. Choix du nombre de communes :
Le cluster comportait des nombres prédéﬁnis de communes de tailles petites, moyennes
et grandes. La zone hors-cluster 10 contenait aussi ces trois types de communes. Chaque
9. Il s’agit de coordonnées cartésiennes dans le plan.
10. La zone hors-cluster est, en fait, un cluster de survie nette élevée. Cependant, notre intérêt portant
uniquement sur la détection du cluster de survie nette faible, nous nous référons à cette zone comme étant la
zone hors-cluster.
151
V.3 Adaptation de la méthode SpODT à la survie nette
4
4
3
3
2
2
1
1
0
1
2
3
4
0
Figure V.17 – Bande.
4
3
3
2
2
1
1
1
2
3
2
3
4
Figure V.18 – Disque.
4
0
1
4
Figure V.19 – V-shape.
0
1
2
3
4
Figure V.20 – Rotated Square
152
V.3 Adaptation de la méthode SpODT à la survie nette
4
3
2
1
0
1
2
3
4
Figure V.21 – Bande « élargie ».
cluster contenait 100 communes pour l’étude de cas et 50 communes pour l’étude de
simulations. Plus précisément, nous avons généré pour l’étude de cas 20 communes dans
le cluster et 80 en dehors et pour l’étude de simulations seulement 10 dans le cluster et
40 en dehors. Le nombre de communes dans les simulations a été réduit pour des raisons
de temps de calcul. La répartition des communes dans et hors-cluster est décrite dans les
tableaux V.2 et V.3.
2. Génération du nombre de patients :
Nous avons généré, de façon aléatoire, un nombre de patients de façon à respecter la
distribution imposée par la règle déﬁnie dans les tableaux V.2 et V.3. Nous avons ainsi
obtenu un nombre ﬁxe de patients dans les petites, moyennes et grandes communes dans
et hors-cluster, d’où un nombre total de patients ﬁxé. Notons cette quantité ntotal .
3. Génération des covariables :
Nous avons généré pour chaque patient i (avec 1 ≤ i ≤ ntotal ) une variable sexe (avec la
même proportion d’hommes et de femmes) et une variable age. La distribution de cette
cette variable représentait approximativement la distribution des âges (au diagnostic) de
patients atteints de cancer colorectal dans les registres français (voir, Chapitre II, section
3.1.2).
4. Génération des coordonnées :
Nous avons généré des coordonnées pour chaque commune (identiques pour tous les patients d’une même commune) 11 selon la forme du cluster retenu et la distribution des
communes dans et hors-cluster déterminée à l’étape (1).
5. Génération des temps de survie :
11. Il s’agissait de reproduire une situation que l’on pourrait rencontrer avec des données réelles issues d’un
registre de cancer, à savoir une connaissance de la localisation géographique des patients restreinte au centroïde
de leur commune de résidence.
153
V.3 Adaptation de la méthode SpODT à la survie nette
Nous avons généré des temps de survie suivant la méthode exposée au Chapitre III (section
3.1.2). Aﬁn de simuler une survie nette plus faible à l’intérieur du cluster, nous avons introduit une covariable binaire cluster représentant l’appartenance au cluster. Nous avons
ﬁxé βcluster = ln(2) : un individu hors cluster a donc deux fois moins de chance de décéder
du cancer (les autres causes de décès étant éliminées) qu’un individu du cluster ayant les
mêmes caractéristiques. Nous avons également introduit un eﬀet de l’âge et un eﬀet du
sexe sur la mortalité en excès : βage = ln(1, 03), βsexe = ln(2). De plus, nous avons généré
les temps et statuts du monde hypothétique où l’on ne pourrait décéder que du cancer
étudié, comme cela a été fait dans le Chapitre IV (section 2.1.3).
Taille
Nombre dans
Petite
3
Moyenne
4
Grande
3
Total
10
Communes
Patients
le cluster Nombre hors-cluster Nombre par commune
17
entre 10 et 30
16
entre 31 et 50
7
entre 51 et 100
40
Tableau V.2 – Répartiton du nombre de communes de petites, moyennes et grandes tailles dans et
hors-cluster dans l’étude de cas.
Taille
Communes
Nombre dans le cluster Nombre
Petite
5
Moyenne
10
Grande
5
Total
20
Patients
hors-cluster Nombre par commune
25
entre 10 et 30
30
entre 31 et 50
25
entre 51 et 100
80
Tableau V.3 – Répartiton du nombre de communes de petites, moyennes et grandes tailles dans et
hors-cluster dans l’étude de simulations.
3.2.2
Choix des critères d’arrêt et du paramètre de complexité
Pour chaque forme de cluster, nous avons comparé les méthodes : (1) SpODT « survie
nette » ; (2) SpODT « survie observée » (sur données du monde hypothétique) ; et (3) CART
(sur données du monde hypothétique).
Notons qu’à ce jour et à notre connaissance, les méthodes de détection de clusters ne bénéﬁcient
d’aucune recommandation méthodologique, aussi bien dans le schéma des simulations que dans
la mesure des performances. Nous avons choisi de nous intéresser aux quantités suivantes :
154
V.3 Adaptation de la méthode SpODT à la survie nette
– les vrais positifs (VP) qui représentent le nombre de communes appartenant au cluster
simulé (construit dans l’étape de génération) et au cluster détecté par la méthode de
découpage ;
– les faux positifs (FP) qui représentent le nombre de communes n’appartenant pas au
cluster simulé mais appartenant au cluster détecté ;
– les faux négatifs (FN) qui représentent le nombre de communes appartenant au cluster
simulé mais n’appartenant pas au au cluster détecté ;
– les vrais négatifs (VN) qui représentent le nombre de communes n’appartenant ni au
cluster simulé ni au cluster détecté ;
– la sensibilité, ou la probabilité qu’une commune appartienne au cluster détecté si elle est
VP
;
dans le cluster simulé. Elle est donnée par
V P + FN
– la spéciﬁcité, ou la probabilité qu’une commune n’appartienne pas au cluster détecté si
VN
elle n’est pas dans le cluster simulé. Elle est donnée par
;
V N + FP
FP + FN
– le taux d’erreur, i.e. la proportion de mal classés. Il est donné par
.
V P + FP + FN + V N
Le cluster détecté était choisi comme celui contenant le plus de VP. En cas d’égalité pour
les VP, le cluster choisi était celui qui contenait le moins de FP.
Pour chacune des méthodes, nous avons choisi les paramètres (critères d’arrêt pour les
méthodes SpODT ou paramètre de complexité pour la méthode CART) permettant d’obtenir
les meilleurs découpages en termes de sensibilité (puis de spéciﬁcité en cas d’égalité pour la
sensibilité). Les critères d’arrêt retenus pour les méthodes SpODT « survie observée » et SpODT
« survie nette » sont de la forme (p1 , p2 , p3 ) où p1 désigne la profondeur maximale de l’arbre,
p2 la taille minimale d’un nœud père et p3 la taille minimale d’un nœud ﬁls. Le paramètre à
déterminer pour la méthode CART était le paramètre de complexité CP (déﬁni dans la section
1.3).
Pour les méthodes SpODT, nous avons considéré 440 combinaisons (p1 , p2 , p3 ) où :
– la profondeur, p1 , pouvait varier de 3 à 10 ;
– la taille minimale du nœud ﬁls, p3 , pouvait varier de 1 à 10 ;
– la taille minimale du nœud père, p2 , pouvait varier de p3 à 10.
L’absence de découpage aurait pu être interprétée comme la détection d’un seul cluster impliquant une sensibilité de 100%. En l’absence de recommandations méthodologiques, nous avons
choisi de pénaliser l’absence de découpage en considérant qu’elle correspondait à une sensibilité
155
V.3 Adaptation de la méthode SpODT à la survie nette
nulle. Par conséquent, nous n’avons pas retenu les paramètres pour lesquels il y a eu absence
de découpage.
3.2.3
Méthodes de lecture d’un arbre
Méthode de lecture d’un arbre issu des méthodes SpODT
Chaque nœud contient :
– le nombre de patients ;
– le nombre de communes ;
– l’équation de la droite de découpage ;
– la statistique de test maximale retenue (qui a conduit à ce découpage).
Chaque feuille contient :
– l’identiﬁant de la feuille ;
– le nombre de patients ;
– le nombre de communes.
Méthode de lecture d’un arbre issu de la méthode CART
Chaque nœud indique l’équation de la droite de découpage. Chaque feuille contient le taux
représentant le nombre d’évènements sur le nombre de personnes à risque et le risque relatif de
la feuille par rapport au nœud racine.
3.2.4
Résultats de l’étude de cas
Nous présentons ici les résultats de l’étude de cas par forme de cluster étudié.
Notons que dans toutes les cartes, nous avons représenté le cluster simulé par une bordure rouge
et les découpages résultant de chacune des trois méthodes par des segments blancs.
Bande
Les paramètres retenus étaient :
– pour SpODT « survie nette » : (p1 , p2 , p3 ) = (3, 1, 1);
– pour SpODT « survie observée » : (p1 , p2 , p3 ) = (3, 10, 10);
– pour CART : CP = 0,002.
Les résultats obtenus par les trois méthodes sont représentés graphiquement par les ﬁgures
V.22, V.23 et V.24. Ici, même si les méthodes SpODT « survie nette » et SpODT « survie
observée » sur données du monde hypothétique produisaient des statistiques de test diﬀérentes,
elles aboutissaient au même découpage. En matière de performances, le tableau V.4 montre
156
V.3 Adaptation de la méthode SpODT à la survie nette
que, pour cette forme de cluster, la méthode SpODT « survie observée » était meilleure que la
méthode CART puisqu’elle détectait toutes les communes du cluster simulé et ne produisait
qu’un seul FP. Plus précisément, la méthode CART produisait des sensibilité et spéciﬁcité
quasiment réduites de moitié par rapport à la méthode SpODT « survie observée ». Cela met
en évidence l’intérêt d’un découpage oblique quand la forme du cluster est une bande. Nous
pouvons remarquer que les trois méthodes détectaient d’autres clusters que celui simulé. En
eﬀet, puisque nous avons généré les temps de survie à partir d’un modèle multivarié avec des
eﬀets des variables age et sexe sur la mortalité en excès, les variations de mortalité ne sont pas
dues au seul fait de l’appartenance ou non au cluster. L’aléa dû à l’âge et au sexe n’a pas été
pris en compte car la méthode SpODT « survie nette » est en phase de développement et n’oﬀre
pas encore la possibilité d’ajuster sur des covariables. Le tableau V.4 montre aussi un problème
majeur dans l’implémentation de SpODT « survie nette » concernant les temps de calcul 12 . En
eﬀet, si le temps relatif à la méthode SpODT « survie observée » pouvait sembler raisonnable
(2,8 minutes), son exécution était toutefois 1783 fois plus lente que celle de la méthode CART.
L’utilisation du test développé au Chapitre IV a ralenti considérablement l’algorithme avec un
temps de calcul de plus de 3 heures. Ce problème a été observé dans l’ensemble des études de
cas.
Méthode
Sensibilité
(%)
SpODT « survie nette »
100
SpODT « survie observée »
100
CART
55
Spéciﬁcité FP FN
(%)
98,75
1
0
98,75
1
0
42,50
46
9
Taux
Temps de calcul
d’erreur
(secondes)
0,01
11451,83
0,01
124,80
0,55
0,07
Tableau V.4 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster
est une bande.
Disque
Les paramètres retenus étaient :
– pour SpODT « survie nette » : (p1 , p2 , p3 ) = (5, 1, 1);
– pour SpODT « survie observée » : (p1 , p2 , p3 ) = (5, 1, 1);
– pour CART : CP = 0,002.
Les résultats obtenus par les trois méthodes sont représentés graphiquement par les ﬁgures
V.25, V.26 et V.27. On peut noter que la méthode SpODT « survie nette » produisait de bons
résultats : les sensibilité et spéciﬁcité obtenues étaient très proches de celles obtenues par la
12. R 3.0.3, Windows 7 Professionnel, Intel® Core
TM
i7-4770 CPU @ 3.40 GHz, 64-bit, RAM 16.0 Go
157
V.3 Adaptation de la méthode SpODT à la survie nette
Figure V.22 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec
paramètres (3, 1, 1) lorsque le cluster est une bande.
Figure V.23 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec
paramètres (3, 10, 10) lorsque le cluster est une bande.
Figure V.24 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,002
lorsque le cluster est une bande.
158
V.3 Adaptation de la méthode SpODT à la survie nette
méthode SpODT « survie observée » sur les données du monde hypothétique. C’est un résultat
que nous avons retrouvé dans les deux études de cas suivantes. Le tableau V.5 montre que,
pour cette forme de cluster, les performances de la méthode CART sont similaires à celles de
la méthode SpODT « survie observée ». Ainsi, la possibilité de découper de façon oblique n’a
pas amélioré les résultats. Cela peut s’expliquer par une faible densité des communes qui ne
permettait pas d’obtenir une forme circulaire dans la représentation graphique des points.
Méthode
Sensibilité
(%)
SpODT « survie nette »
85
SpODT « survie observée »
90
CART
90
Spéciﬁcité FP FN
(%)
95
4
3
98,75
1
2
100
0
2
Taux
Temps de calcul
d’erreur
(secondes)
0,07
11925,71
0,03
142,90
0,02
0,05
Tableau V.5 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster
est un disque.
V-shape
Les paramètres retenus étaient :
– pour SpODT « survie nette » : (p1 , p2 , p3 ) = (4, 1, 1);
– pour SpODT « survie observée » : (p1 , p2 , p3 ) = (4, 1, 1);
– pour CART : CP = 0,01.
Les résultats obtenus par les trois méthodes sont représentés graphiquement par les ﬁgures
V.28, V.29 et V.30. En matière de performances, le tableau V.6 montre que, pour cette forme de
cluster, la méthode SpODT « survie observée » était meilleure que la méthode CART puisqu’elle
détectait toutes les communes du cluster simulé et ne prenaient qu’un FP lorsque la méthode
CART en prenait 9. Ces résultats mettent en évidence l’intérêt du découpage oblique pour cette
forme de cluster.
Méthode
Sensibilité
(%)
SpODT « survie nette »
90
SpODT « survie observée »
95
CART
55
Spéciﬁcité FP FN
(%)
100
0
2
100
0
1
100
0
9
Taux
Temps de calcul
d’erreur
(secondes)
0,02
18780,92
0,01
217,49
0,09
0,07
Tableau V.6 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster
est un V-shape.
159
V.3 Adaptation de la méthode SpODT à la survie nette
Figure V.25 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec
paramètres (5, 1, 1) lorsque le cluster est un disque.
Figure V.26 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec
paramètres (5, 1, 1) lorsque le cluster est un disque.
Figure V.27 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,002
160
lorsque le cluster est un disque.
V.3 Adaptation de la méthode SpODT à la survie nette
Figure V.28 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec
paramètres (4, 1, 1) lorsque le cluster est un V-shape.
Figure V.29 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec
paramètres (4, 1, 1) lorsque le cluster est un V-shape.
Figure V.30 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,01
lorsque le cluster est un V-shape.
161
V.3 Adaptation de la méthode SpODT à la survie nette
Rotated square
Les paramètres retenus étaient :
– pour SpODT « survie nette » : (p1 , p2 , p3 ) = (5, 1, 1);
– pour SpODT « survie observée » : (p1 , p2 , p3 ) = (5, 1, 1);
– pour CART : CP = 0,004.
Les résultats obtenus par les trois méthodes sont représentés graphiquement par les ﬁgures
V.31, V.32 et V.33. En matière de performances, le tableau V.7 montre que, pour cette forme
de cluster, la méthode CART avait une meilleure sensibilité que la méthode SpODT « survie
observée » mais lorsque nous regardons le taux d’erreur, cette dernière était un peu meilleure.
Tout comme pour le disque, la possibilité d’avoir des découpages obliques n’a pas amélioré les
performances. Cela peut encore s’expliquer par une trop faible densité des communes.
Méthode
Sensibilité
(%)
SpODT « survie nette »
90
SpODT « survie observée »
90
CART
95
Spéciﬁcité FP FN
(%)
100
0
2
100
0
2
96,25
3
1
Taux
Temps de calcul
d’erreur
(secondes)
0,02
12800,12
0,02
151,13
0,04
0,05
Tableau V.7 – Étude de cas : résultats en termes de performances des trois méthodes lorsque le cluster
est un rotated square.
162
V.3 Adaptation de la méthode SpODT à la survie nette
Figure V.31 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie nette » avec
paramètres (5, 1, 1) lorsque le cluster est un rotated square.
Figure V.32 – Étude de cas : arbre et carte obtenus par la méthode SpODT « survie observée » avec
paramètres (5, 1, 1) lorsque le cluster est un rotated square.
Figure V.33 – Étude de cas : arbre et carte obtenus par la méthode CART avec paramètre CP =0,004
lorsque le cluster est un rotated square.
163
V.3 Adaptation de la méthode SpODT à la survie nette
3.2.5
Résultats de l’étude de simulations
Choix des critères d’arrêt et du paramètre de complexité
Pour la méthode SpODT « survie nette », le tableau C.1 en Annexe C, dont un extrait est
donné dans le tableau V.8, montrait que sur 50 simulations la plus grande sensibilité (91,4%)
était obtenue avec les critères d’arrêt (p1 , p2 , p3 ) égaux à (4, 10, 10), (5, 10, 10), (6, 10, 10),
(7, 10, 10) et (8, 10, 10). Augmenter la profondeur n’impactait pas les résultats lorsque
p2 = p3 = 10. Ainsi, nous avons retenu la combinaison (4, 10, 10).
Critères d’arrêt
Sensibilité
3_10_10
4_10_10
5_10_10
6_10_10
7_10_10
8_10_10
0,904
0,914
0,914
0,914
0,914
0,914
Spéciﬁcité Moyenne
FP
0,8945
4,22
0,9075
3,70
0,9075
3,70
0,9075
3,70
0,9075
3,70
0,9075
3,70
Moyenne
FN
0,96
0,86
0,86
0,86
0,86
0,86
Moyenne
Taux d’erreur
0,1036
0,0912
0,0912
0,0912
0,0912
0,0912
Tableau V.8 – Choix des meilleurs paramètres (extrait) pour la méthode SpODT « survie nette » sur
50 jeux de données pour un cluster de la forme d’une bande.
Pour la méthode SpODT « survie observée » sur données du monde hypothétique, nous
avons aussi retenu la combinaison (4, 10, 10). Nous montrons un extrait de cette recherche dans
le tableau V.9.
Critères d’arrêt
Sensibilité
3_10_10
4_10_10
5_10_10
6_10_10
7_10_10
8_10_10
9_10_10
10_10_10
0,836
0,880
0,880
0,880
0,880
0,880
0,880
0,880
Spéciﬁcité Moyenne
FP
0,9245
3,02
0,9075
3,70
0,9075
3,70
0,9075
3,70
0,9075
3,70
0,9075
3,70
0,9075
3,70
0,9075
3,70
Moyenne
FN
1,64
1,20
1,20
1,20
1,20
1,20
1,20
1,20
Moyenne
Taux d’erreur
0,0932
0,0980
0,0980
0,0980
0,0980
0,0980
0,0980
0,0980
Tableau V.9 – Choix des meilleurs paramètres (extrait) parmi 440 combinaisons pour la méthode SpODT
« survie observée » sur 50 jeux de données pour un cluster de la forme d’une bande.
La recherche des paramètres a montré que, pour de nombreux paramètres de complexité, il
164
V.3 Adaptation de la méthode SpODT à la survie nette
n’y avait pas de découpage (voir tableau V.10) 13 . Pour la méthode CART, le meilleur paramètre
était CP = 0, 002.
CP
Sensibilité
0,001
0,002
0,003
0,004
0,005
0,006
0,007
0,008
0,009
0,010
0,011
0,012
0,013
0,015
0,016
0,470
0,502
0,542
0,594
0,410
0,268
0,242
0,188
0,094
0,058
0,046
0,046
0,034
0,012
0
Spéciﬁcité Moyenne
FP
0,8690
0,8285
0,7605
0,6765
0,7560
0,8425
0,8510
0,8920
0,9650
0,9795
0,9780
0,9780
0,9800
0,9995
1
5,24
6,86
9,58
12,94
9,76
6,30
5,96
4,32
1,40
0,82
0,88
0,88
0,80
0,02
0
Moyenne
FN
5,30
4,98
4,58
4,06
5,90
7,32
7,58
8,12
9,06
9,42
9,54
9,54
9,66
9,88
10
Moyenne
Taux
d’erreur
0,21
0,24
0,28
0,34
0,31
0,27
0,27
0,25
0,21
0,20
0,21
0,21
0,21
0,20
0,20
Absence
de découpage)
(nombre/50)
0
0
1
4
19
30
32
36
42
45
46
46
47
49
50
Tableau V.10 – Choix des meilleurs paramètres pour la méthode CART sur 50 jeux de données pour
un cluster de la forme d’une bande.
Simulations sur 1000 jeux de données
Nous avons appliqué les trois méthodes avec les paramètres retenus à l’étape précédente sur
1000 jeux de données. Les résultats sont présentés dans le tableau V.11. Nous avons retrouvé
les mêmes tendances que dans l’étude de cas. D’une part, la méthode SpODT « survie nette »
produisait de bons résultats en comparaison avec la méthode SpODT « survie observée ». Plus
précisément, la méthode SpODT « survie nette » était meilleure en terme de sensibilité que la
méthode SpODT « survie observée » (92,36% vs. 89,23%). Cependant, le résultat était inversé
pour la spéciﬁcité. Dans les deux cas, les diﬀérences étaient faibles, ce que nous avons retrouvé
dans les taux d’erreur qui sont égaux. D’autre part, pour la forme de cluster étudiée (bande),
la méthode CART était ici aussi mise en défaut par la méthode SpODT « survie observée ».
13. Nous n’avons pas rencontré de situation avec absence de découpage dans les simulations utilisant les
méthodes SpODT.
165
V.4 Discussion
Méthode
Sensibilité
(%)
SpODT « survie nette »
92,36
SpODT « survie observée »
89,23
CART
49,16
Spéciﬁcité Moyenne
(%)
FP
90,39
3,84
91,28
3,49
88,61
4,56
Moyenne
FN
0,76
1,08
5,08
Moyenne
Taux d’erreur
0,09
0,09
0,19
Tableau V.11 – Simulations : résultats pour 1000 jeux de données en termes de performances des trois
méthodes lorsque le cluster est une bande.
4
Discussion
Les études de cas et les simulations ont montré que les performances de la méthode SpODT
« survie nette » sont bonnes. D’une part, les résultats étaient proches de ceux obtenus par
la méthode SpODT « survie observée » aussi bien dans l’étude de cas que dans l’étude de
simulations. Ainsi, nous n’avons pas constaté de perte de puissance due à l’utilisation (comme
critère de découpage) du test construit au Chapitre IV par rapport à celle du log-rank appliqué
sur les données du monde hypothétique. D’autre part, dans l’étude de cas, l’exploration des
performances « géométriques » a montré que la méthode SpODT « survie observée » avait une
meilleure sensibilité et une meilleure spéciﬁcité que la méthode CART lorsque le cluster était une
bande ou avait une forme en « V ». Notons que, pour les autres formes (disque et rotated square),
les résultats étaient proches. Dans l’étude de cas, la dispersion des communes simulées favorisait
les découpages parallèles aux axes. Par exemple, nous avons généré un cluster de survie nette
faible ayant une forme de disque mais les communes ne remplissaient pas le cercle, permettant
ainsi un découpage rectangulaire (voir la carte V.27). Des études sur simulations sont nécessaires
pour explorer les autres formes étudiées dans l’étude de cas. Nous avons commencé ces études
mais les temps de calcul sont élevés 14 .
L’adaptation de la méthode SpODT à la survie nette est, à notre connaissance, la seule
méthode de détection de clusters pour la survie nette. Néanmoins, des méthodes existent pour
la survie brute (voir par exemple Therneau and Atkinson, 2014; Huang et al., 2007; Cook et al.,
2007) et l’on peut penser qu’elles seraient adaptables à la survie nette. Par exemple, Cook et al.
(2007) utilisent un modèle de Cox dans lequel, pour chaque cluster potentiel, ils intègrent une
covariable binaire désignant l’appartenance au cluster. Ils testent ensuite la nullité de l’eﬀet de
cette variable sur la mortalité par un test du score. Ainsi, une piste serait d’utiliser le modèle
multivarié et un test de rapport de vraisemblance pour étendre leur proposition à la survie
nette.
14. Les temps de calcul nous ont amenés à utiliser le Mésocentre d’Aix-Marseille Université (https:
//equipex-mesocentre.univ-amu.fr/)
166
V.4 Discussion
Les simulations exposées dans le Chapitre V présentent trois limitations. La première est
l’absence d’études d’autres formes géométriques. Celles similaires à l’étude de cas (disque,
V-shape et rotated square) n’ont pas été présentées dans ce manuscrit 15 . En outre, il serait
intéressant, par exemple, d’étudier la présence de deux clusters de même forme ayant des distributions de survie nette élevée et faible. Nous n’avons pas réalisé ce type de simulations car
il serait trop complexe d’interpréter ces résultats. La deuxième limitation réside dans le temps
de calcul qui est un obstacle à l’augmentation du nombre de communes 16 . En eﬀet, l’étude
pourrait être complétée par des simulations où la densité des communes serait plus élevée dans
et hors-cluster aﬁn d’avoir un cluster simulé correspondant mieux à la forme géométrique annoncée. Enﬁn, la troisième limitation réside dans le choix des critères d’arrêt et du paramètre
de complexité : nous avons retenu ceux qui maximisaient la sensibilité (puis la spéciﬁcité en
cas d’égalité). Cependant, ces choix ne reposent sur aucune recommandation. Ainsi, en l’absence de méthodologie pour étudier les performances des méthodes de détection de clusters, il
serait intéressant d’appliquer des développements récents proposant de nouveaux indicateurs
(Takahashi and Tango, 2006; Guttmann et al., 2013). Les auteurs proposent de remplacer la
puissance usuelle (i.e. la probabilité de rejet de l’hypothèse nulle d’absence de cluster) par une
puissance étendue. En eﬀet, la puissance usuelle n’est pas toujours appropriée car elle ne mesure
pas la précision dans la détection des clusters. Dans la nouvelle mesure, diﬀérents poids sont
introduits aﬁn de pénaliser les nombres de faux positifs et de faux négatifs.
Nous avons choisi de greﬀer deux classes adjacentes lorsque l’hypothèse nulle du test construit
au Chapitre IV n’est pas rejetée. Une limite potentielle de ce choix est qu’il favorise inévitablement la greﬀe des zones contenant des eﬀectifs faibles. Un autre choix aurait été d’adapter à la
survie nette un test d’équivalence (Wellek, 1993), pour lequel une hypothèse nulle s’écrirait :
(H0 ) : sup | SE,1 (t) − SE,2 (t) | ≥ δ.
t>0
Notons que ce test aurait nécessité une extension de l’étude du choix des paramètres, c’est-à-dire
des critères d’arrêt de la méthode SpODT « survie nette », pour choisir la marge d’équivalence
δ. Nous n’avons pas retenu ce type de test car, d’un point de vue épidémiologique, il est diﬃcile
d’interpréter des classes où les eﬀectifs sont trop faibles. Une seconde raison est que le choix de
15. Ces résultats ont été obtenus après la rédaction du manuscrit, ils seront intégrées dans l’article - en cours
de rédaction.
16. Selon l’algorithme détaillé dans l’Annexe B, pour un nœud donné et en présence de n communes, il y
n(n − 1)
pentes à trier, donc autant de tests à réaliser. Lorsque n = 100, l’étude de cas a montré que la
a
2
méthode SpODT « survie nette » nécessitait un temps de calcul d’environ 3 heures. Dans ce contexte, étudier
(par exemple) n = 400 communes avec 440 critères d’arrêt à comparer sur 50 jeux de données semble diﬃcile.
167
V.4 Discussion
δ repose sur des critères épidémiologiques diﬃciles à déﬁnir a priori.
Une application sur données réelles est en cours de réalisation aﬁn de compléter notre étude
de cas et nos simulations. Nous avons utilisé les données du registre des cancers de l’Isère utilisées dans l’application de la méthode SpODT au cancer qui a été évoquée à la section 2.2.
Des résultats préliminaires sont présentés en Annexe D. Les paramètres de la méthode SpODT
« survie nette » ont été choisis en réalisant des analyses de sensibilité. Cependant, l’interprétation nécessite une collaboration étroite avec un épidémiologiste connaissant le département,
tant sur des aspects spatiaux que sur des aspects en lien avec le système de soin. Ainsi, nous
étudierons quels peuvent être les indicateurs permettant de mieux comprendre les clusters de
survie nette, par exemple en les confrontant à une carte de clusters d’incidence ou une carte
d’oﬀres de soins.
Enﬁn, plusieurs pistes sont envisagées pour améliorer l’algorithme sous-jacent à la méthode
SpODT « survie nette » et le rendre disponible sous forme de package :
1. l’introduction d’une pondération pour pénaliser les unités spatiales de faible eﬀectif ;
2. l’ajustement sur des variables qualitatives et quantitatives permettant d’introduire dans
le découpage spatial un découpage suivant ces variables. Il serait ainsi possible d’appliquer
la méthode sans puis avec ajustement sur une covariable telle que l’âge par exemple. Si
un découpage spatial disparaît avec cet ajustement, nous pourrons en déduire que les
diﬀérences de survie nette provenaient d’une distribution hétérogène de l’âge dans la zone
étudiée ;
3. l’optimisation du code aﬁn de diminuer le temps de calcul.
Un article est en cours de rédaction pour présenter l’étude des performances par simulations et
l’étude sur les données réelles.
168
Conclusion générale et perspectives
Dans la recherche contre le cancer, la survie nette est un indicateur clé de l’eﬃcacité des
systèmes de soins. Concept théorique, elle représente la mortalité que l’on observerait dans un
monde hypothétique où le cancer serait la seule cause possible de décès. Dans le contexte des
études sur population, la cause de décès est souvent inconnue ou peu ﬁable. De façon générale,
tous les pays n’ont pas les moyens soit techniques, soit légaux (cas de la France) de renseigner
la cause de décès. En France, dans la base commune FRANCIM, l’information « cause de
décès » n’est pas disponible du fait de l’anonymat des certiﬁcats de décès. Notons que le Centre
d’épidémiologie sur les causes médicales de décès (CépiDc) peut fournir un codage précis de
la cause initiale de décès au niveau national. On peut imaginer que ces données pourraient
être appariées avec celles des registres. Cela suppose cependant un changement de cadre légal.
Cependant, même avec cet appariement, lorsqu’un patient ayant un cancer décède d’une crise
cardiaque, il sera toujours impossible de dire avec certitude si, par exemple, ce décès est dû aux
suites d’une chimiothérapie ou non.
Depuis le milieu du XXème siècle, pour pallier ce manque d’information, des méthodes ne
nécessitant pas la connaissance de la cause de décès ont été proposées pour estimer cette
survie nette (voir, par exemple, Berkson, 1942; Berkson and Gage, 1950; Ederer and Heise,
1959; Ederer et al., 1961; Hakulinen, 1982; Esteve et al., 1990; Giorgi et al., 2003; Lambert
et al., 2005; Abrahamowicz and Mackenzie, 2007; Remontet et al., 2007; Mahboubi et al., 2011;
Perme et al., 2012). Cette thèse a été motivée par la nécessité de développer des méthodes,
complémentaires de celles existantes, aﬁn de proposer des outils statistiques pouvant aider les
épidémiologistes et les décideurs en Santé Publique à étudier et à améliorer la qualité de la
prise en charge des patients atteints d’un cancer.
La première problématique que nous avons étudiée est celle du manque d’information dans
les tables de mortalité, indispensables dans les estimations de la survie nette. Nous avons vu que
des méthodes existaient pour construire des tables de mortalité stratiﬁées sur certains facteurs
169
Conclusion générale et perspectives
pronostiques. Cependant, ces méthodes reposent sur l’existence de données brutes qui ne sont
pas toujours disponibles, comme c’est le cas pour l’ethnie en France. Nous avons quantiﬁé
le biais des estimations des eﬀets des facteurs pronostiques sur la mortalité en excès lorsque
des tables insuﬃsamment stratiﬁées sont utilisées. Pour cela, nous avons utilisé un modèle
multivarié additif sur les taux, qui ne diﬀère de celui proposé par Esteve et al. (1990) que par
la façon dont le taux de base en excès est modélisé. Par des études de simulations, confortées
par une application sur des données réelles françaises et américaines provenant respectivement
du registre des cancers digestifs de Bourgogne et de 17 registres américains du SEER (SEER
Program, 2006), nous avons montré que le manque de stratiﬁcation par un facteur pronostique
biaise les estimations des eﬀets de cette variable sur la mortalité en excès et, dans une moindre
mesure, les estimations des eﬀets des autres variables sur la mortalité en excès (Graﬀéo et al.,
2012). Pour corriger ces biais, nous nous sommes intéressés à un travail de Cheuvart and Ryan
(1991). Dans le cadre d’essais cliniques, les auteurs avaient introduit un paramètre additionnel
dans le modèle multivarié pour permettre à la mortalité attendue chez les patients étudiés de
diﬀérer de celle attendue dans la population générale. La suite de ce travail est en cours. Il a déjà
permis d’étendre leur modèle en permettant à la mortalité attendue de diﬀérer de celle donnée
par la table de mortalité par un paramètre dépendant des modalités de la variable manquante
dans la table de mortalité. Par ailleurs, une autre piste de recherche serait la construction
de tables de mortalité en France à partir d’un indicateur socio-économique tel que celui de
Townsend (1987) ou celui de Pornet et al. (2012).
La deuxième problématique de ce manuscrit était la construction d’un test permettant la
comparaison de distributions de survie nette. Nous avons choisi d’utiliser l’estimateur PoharPerme (Perme et al., 2012) qui est un estimateur consistant de la survie nette. Cet estimateur
a été adopté en France (voir, par exemple, Monnereau et al., 2013; Roche et al., 2013; Jooste
et al., 2013) et suscite un grand intérêt au niveau international (voir, par exemple, Bossard
et al., 2013, projet du groupe EUROCARE). Nous avons adapté un Z-test permettant ainsi
la comparaison d’estimations de survie nette à un temps t prédéﬁni. Mais ce type de test ne
prend pas en compte l’information disponible sur toute la période de suivi. Nous avons ainsi
développé un test de type log-rank, en choisissant une approche par processus stochastiques.
Cette approche s’est imposée comme étant la plus directe. Nous avons montré que ce test a
des performances comparables à celles du log-rank usuel appliqué à des données du monde
hypothétique, où l’on ne décède que du cancer. Son implémentation est envisagée : (1) dans
le package relsurv de R (Pohar-Perme, 2013) en collaboration avec Maja Pohar-Perme ; et
(2) dans la commande stns de Stata (Clerc-Urmes et al., 2014) en collaboration avec Michel
Grzebyk. Une faiblesse de ce test est la perte de puissance constatée lors de son utilisation sur
170
Conclusion générale et perspectives
des patients âgés. Une autre faiblesse réside dans le fait que lorsque les risques ne sont pas
proportionnels, ce test n’est pas optimal, comme c’est le cas pour le log-rank usuel. Dans le
cadre de la survie brute, pour pallier cette insuﬃsance, d’autres tests ont été proposés. Dans la
famille des log-rank pondérés, on peut citer, par exemple, des tests qui sont puissants quand :
(1) les risques ne sont pas proportionnels et que les diﬀérences entre les groupes sont précoces
(i.e. lorsque les eﬀectifs à risque sont encore grands) (Gehan, 1965) ; (2) les diﬀérences entre
groupes sont petites au début et à la ﬁn de la période de suivi et maximales entre les deux
(Tarone and Ware, 1977) ; et (3) lorsque les diﬀérences sont tardives (Harrington and Fleming,
1982; Garès et al., 2014). Notons que lorsque les risques ne sont pas proportionnels, une autre
possibilité est d’utiliser la version Supremum du log-rank (Gill, 1980; Eng and Kosorok, 2005).
Une perspective pour la suite de ce travail est donc l’adaptation à la survie nette de l’un
de ces tests. Par ailleurs, l’estimateur Pohar-Perme pourrait être utilisé dans les études sur
population pour d’autres maladies, comme l’échinococcose alvéolaire (Torgerson et al., 2008;
Piarroux et al., 2011) ou l’insuﬃsance rénale chronique. De ce fait, il pourrait être opportun
d’appliquer le test que nous proposons à d’autres pathologies que le cancer ou dans le cadre
des essais cliniques.
La troisième problématique abordée dans nos travaux est la recherche de zones diﬀérentes
en termes de survie nette. Bien qu’a priori diﬀérentes, ces deux dernières problématiques sont
complémentaires en ce sens qu’elles visent toutes deux la détection de groupes/zones/régions
où la survie nette serait plus faible, permettant ainsi à l’épidémiologiste de savoir où mener des
investigations pour améliorer la prise en charge des patients. À cette ﬁn, nous nous sommes
intéressés à une méthode de détection de clusters qui avait été développée pour des pathologies
aiguës. Nous avons ainsi été impliqués dans la création d’un package (Gaudart et al., 2014). Les
programmes sous-jacents ont été améliorés aﬁn de correspondre aux « standards » existants dans
le cadre de l’analyse spatiale. Nous avons prouvé l’eﬃcacité de l’adaptation de cette méthode à
la survie nette par une étude de cas. Toutefois, des simulations complémentaires (dont certaines
sont en cours) sont nécessaires pour comparer cette nouvelle méthode à d’autres. Cependant,
il faut noter qu’il n’existe pas de méthodologie de référence pour l’évaluation des méthodes de
détection de clusters en épidémiologie spatiale ; il s’agit d’un champ d’étude en développement
(on se réfèrera notamment aux travaux de Guttmann et al., 2013).
Comme nous l’avons mentionné, il est possible d’utiliser la survie nette et, de ce fait, les
méthodes que nous avons mises en œuvre, pour d’autres pathologies chroniques (Torgerson
et al., 2008; Piarroux et al., 2011). On peut aussi citer une étude commandée par la municipalité
de Paris et eﬀectuée par des membres du « CENSUR working survival group ». Ils ont démontré
que chez les égoutiers, la mortalité en excès liée à plusieurs maladies (en particulier, le cancer
171
Conclusion générale et perspectives
de l’œsophage, le cancer du poumon, les maladies chroniques du foie et toutes les maladies liées
à l’alcool) augmentait avec la durée de l’emploi (Bourgkard et al., 2014).
Par ailleurs, il semble naturel de se poser la question de l’intérêt de la survie nette si l’évènement
d’intérêt n’est pas le décès. Par exemple, on pourrait étudier l’apparition d’une maladie dans
un monde hypothétique où les autres pathologies n’existeraient pas. Dans ce cas, il faudrait
disposer d’une table des risques globaux (i.e. une table de morbidité) pour modéliser ce risque
non létal. Toutefois, l’intérêt clinique d’une telle analyse, qui est la première condition à ce type
d’étude, reste à démontrer.
Dans le cadre de nos travaux, nous nous sommes intéressés aux estimateurs de la survie
nette, et plus particulièrement à l’estimateur Pohar-Perme (Perme et al., 2012). Nous avons
été amenés à nous poser la question de la pertinence des autres estimateurs non paramétriques
précédemment proposés (Ederer and Heise, 1959; Ederer et al., 1961; Hakulinen, 1982). Danieli
et al. (2012) ont comparé par simulations les estimations obtenues par ces quatre estimateurs à
la survie nette théorique. Ils ont montré que, dans la plupart des scénarios étudiés, l’estimateur
Pohar-Perme était meilleur en termes de RMSE mais l’estimateur Ederer II avait des résultats
assez proches. Lors d’une communication orale, Dickman and Lambert (2014a) ont proposé
une adaptation d’Ederer II avec une méthode qu’ils appellent « standardisation interne ». Il
serait intéressant de comprendre cette méthode et d’étudier ses performances. Dans l’attente de
nouvelles informations, nous pensons qu’il est préférable d’utiliser l’estimateur Pohar-Perme.
Pour conclure, tout au long de ce travail de thèse nous avons aussi été amenés à nous
questionner sur le concept même de la survie nette. En eﬀet, quel intérêt pour un patient de
connaître sa probabilité de survie dans un monde qui n’existe pas ? En fait, dans le cadre d’aide
à la décision, la survie nette associée aux autres causes de décès que le cancer étudié présente
un intérêt, par exemple pour décider de la thérapie à suivre en fonction des avantages et des
eﬀets négatifs potentiels (Mariotto et al., 2013). Au niveau de la population, comme cela a été
souligné dans ce manuscrit, la comparaison de survie nette entre plusieurs groupes revêt un
intérêt particulier. Dans ce contexte, les méthodes fondées sur la survie nette sont essentielles
pour étudier la qualité de la prise en charge des patients.
172
Annexe A
Nous présentons ici un extrait d’un rapport national américain contenant les tables de
mortalité oﬃcielles pour l’année 2009 (Arias, 2014).
Nous avons vu au Chapitre III que chaque entrée de la table est une probabilité pour les
vivants d’âge x de décéder avant l’âge x + 1. Notons cette probabilité q(x). Elle est calculée en
supposant que les décès entre les âges x et x + 1 ont lieu à l’âge x + 1/2. On a alors :
l(x) = L(x) + d(x)/2,
où l(x) est le nombre de survivants à l’âge x, d(x) est le nombre de décès ayant lieu entre les
âges x et x + 1 et L(x) est le nombre moyen de personnes à risque entre les âges x et x + 1. On
en déduit :
d(x)
d(x)
=
.
q(x) =
l(x)
L(x) + d(x)/2
173
Revised_Tables_2009
1 of 54
Spreadsheet version available from: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/NVSR/62_07/
Table 1. Life table for the total population: United States, 2009
Age
0-1
1-2
2-3
3-4
4-5
5-6
6-7
7-8
8-9
9-10
10-11
11-12
12-13
13-14
14-15
15-16
16-17
17-18
18-19
19-20
20-21
21-22
22-23
23-24
24-25
25-26
26-27
27-28
28-29
29-30
30-31
31-32
32-33
33-34
34-35
35-36
36-37
37-38
38-39
39-40
Probablity
Number
of dying
Number
dying
between
surviving to
between
ages x to x+1
age x
ages x to x+1
q(x)
l(x)
d(x)
0.006372
100,000
637
0.000429
99,363
43
0.000288
99,320
29
0.000219
99,292
22
0.000168
99,270
17
0.000156
99,253
15
0.000139
99,238
14
0.000125
99,224
12
0.000110
99,211
11
0.000095
99,200
9
0.000085
99,191
8
0.000091
99,183
9
0.000122
99,174
12
0.000185
99,161
18
0.000268
99,143
27
0.000355
99,117
35
0.000438
99,081
43
0.000520
99,038
51
0.000600
98,986
59
0.000679
98,927
67
0.000765
98,860
76
0.000848
98,784
84
0.000911
98,701
90
0.000944
98,611
93
0.000953
98,518
94
0.000956
98,424
94
0.000963
98,330
95
0.000972
98,235
96
0.000988
98,139
97
0.001010
98,043
99
0.001038
97,943
102
0.001070
97,842
105
0.001111
97,737
109
0.001152
97,629
112
0.001202
97,516
117
0.001262
97,399
123
0.001335
97,276
130
0.001421
97,146
138
0.001522
97,008
148
0.001643
96,860
159
Person-years
lived
between
ages x to x+1
L(x)
99,444
99,341
99,306
99,281
99,261
99,245
99,231
99,218
99,206
99,196
99,187
99,178
99,167
99,152
99,130
99,099
99,060
99,012
98,957
98,894
98,822
98,742
98,656
98,564
98,471
98,377
98,282
98,187
98,091
97,993
97,893
97,789
97,683
97,572
97,457
97,337
97,211
97,077
96,934
96,781
Source: CDC/NCHS, National Vital Statistics System, Mortality
Total
number of
person-years Expectation
lived above
of life
age x
at age x
T(x)
e(x)
7,851,473
78.5
7,752,029
78.0
7,652,687
77.1
7,553,381
76.1
7,454,101
75.1
7,354,839
74.1
7,255,594
73.1
7,156,363
72.1
7,057,146
71.1
6,957,940
70.1
6,858,744
69.1
6,759,557
68.2
6,660,379
67.2
6,561,212
66.2
6,462,059
65.2
6,362,930
64.2
6,263,831
63.2
6,164,771
62.2
6,065,759
61.3
5,966,802
60.3
5,867,909
59.4
5,769,086
58.4
5,670,344
57.4
5,571,688
56.5
5,473,124
55.6
5,374,654
54.6
5,276,277
53.7
5,177,995
52.7
5,079,807
51.8
4,981,716
50.8
4,883,724
49.9
4,785,831
48.9
4,688,041
48.0
4,590,359
47.0
4,492,786
46.1
4,395,329
45.1
4,297,991
44.2
4,200,780
43.2
4,103,703
42.3
4,006,769
41.4
Revised_Tables_2009
2 of 54
Spreadsheet version available from: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/NVSR/62_07/
Table 1. Life table for the total population: United States, 2009
Age
40-41
41-42
42-43
43-44
44-45
45-46
46-47
47-48
48-49
49-50
50-51
51-52
52-53
53-54
54-55
55-56
56-57
57-58
58-59
59-60
60-61
61-62
62-63
63-64
64-65
65-66
66-67
67-68
68-69
69-70
70-71
71-72
72-73
73-74
74-75
75-76
76-77
77-78
78-79
79-80
Probablity
Number
of dying
Number
dying
between
surviving to
between
ages x to x+1
age x
ages x to x+1
q(x)
l(x)
d(x)
0.001778
96,701
172
0.001933
96,529
187
0.002118
96,343
204
0.002332
96,139
224
0.002564
95,915
246
0.002796
95,669
267
0.003034
95,401
289
0.003297
95,112
314
0.003600
94,798
341
0.003938
94,457
372
0.004306
94,085
405
0.004682
93,680
439
0.005058
93,241
472
0.005424
92,770
503
0.005794
92,266
535
0.006186
91,732
567
0.006622
91,164
604
0.007102
90,561
643
0.007630
89,917
686
0.008205
89,231
732
0.008826
88,499
781
0.009495
87,718
833
0.010217
86,885
888
0.011010
85,997
947
0.011896
85,051
1,012
0.012923
84,039
1,086
0.014095
82,953
1,169
0.015356
81,784
1,256
0.016682
80,528
1,343
0.018072
79,184
1,431
0.019630
77,753
1,526
0.021430
76,227
1,634
0.023431
74,594
1,748
0.025763
72,846
1,877
0.028364
70,969
2,013
0.031060
68,956
2,142
0.034041
66,814
2,274
0.037491
64,540
2,420
0.041456
62,120
2,575
0.045793
59,545
2,727
Person-years
lived
between
ages x to x+1
L(x)
96,615
96,436
96,241
96,027
95,792
95,535
95,256
94,955
94,627
94,271
93,882
93,460
93,005
92,518
91,999
91,448
90,862
90,239
89,574
88,865
88,109
87,302
86,441
85,524
84,545
83,496
82,368
81,156
79,856
78,469
76,990
75,410
73,720
71,907
69,963
67,885
65,677
63,330
60,833
58,182
Source: CDC/NCHS, National Vital Statistics System, Mortality
Total
number of
person-years Expectation
lived above
of life
age x
at age x
T(x)
e(x)
3,909,988
40.4
3,813,373
39.5
3,716,937
38.6
3,620,696
37.7
3,524,670
36.7
3,428,878
35.8
3,333,343
34.9
3,238,087
34.0
3,143,132
33.2
3,048,505
32.3
2,954,234
31.4
2,860,351
30.5
2,766,891
29.7
2,673,886
28.8
2,581,368
28.0
2,489,369
27.1
2,397,921
26.3
2,307,058
25.5
2,216,819
24.7
2,127,245
23.8
2,038,380
23.0
1,950,271
22.2
1,862,969
21.4
1,776,528
20.7
1,691,004
19.9
1,606,459
19.1
1,522,963
18.4
1,440,595
17.6
1,359,439
16.9
1,279,583
16.2
1,201,114
15.4
1,124,124
14.7
1,048,714
14.1
974,994
13.4
903,087
12.7
833,124
12.1
765,239
11.5
699,562
10.8
636,232
10.2
575,400
9.7
Revised_Tables_2009
3 of 54
Spreadsheet version available from: ftp://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/NVSR/62_07/
Table 1. Life table for the total population: United States, 2009
Age
80-81
81-82
82-83
83-84
84-85
85-86
86-87
87-88
88-89
89-90
90-91
91-92
92-93
93-94
94-95
95-96
96-97
97-98
98-99
99-100
100 and over
Probablity
Number
of dying
Number
dying
between
surviving to
between
ages x to x+1
age x
ages x to x+1
q(x)
l(x)
d(x)
0.050433
56,818
2,866
0.055465
53,953
2,992
0.061442
50,960
3,131
0.068173
47,829
3,261
0.075594
44,568
3,369
0.085081
41,199
3,505
0.094567
37,694
3,565
0.104921
34,129
3,581
0.116177
30,549
3,549
0.128366
26,999
3,466
0.141504
23,534
3,330
0.155599
20,204
3,144
0.170641
17,060
2,911
0.186606
14,149
2,640
0.203453
11,509
2,341
0.221119
9,167
2,027
0.239527
7,140
1,710
0.258577
5,430
1,404
0.278157
4,026
1,120
0.298135
2,906
866
1.000000
2,040
2,040
Person-years
lived
between
ages x to x+1
L(x)
55,385
52,456
49,395
46,199
42,884
39,447
35,912
32,339
28,774
25,267
21,869
18,632
15,604
12,829
10,338
8,154
6,285
4,728
3,466
2,473
4,785
Source: CDC/NCHS, National Vital Statistics System, Mortality
Total
number of
person-years Expectation
lived above
of life
age x
at age x
T(x)
e(x)
517,218
9.1
461,833
8.6
409,376
8.0
359,982
7.5
313,783
7.0
270,899
6.6
231,452
6.1
195,541
5.7
163,202
5.3
134,428
5.0
109,161
4.6
87,293
4.3
68,661
4.0
53,056
3.7
40,228
3.5
29,890
3.3
21,736
3.0
15,451
2.8
10,724
2.7
7,258
2.5
4,785
2.3
Annexe B
Dans cette annexe, nous allons décrire, à l’aide de l’exemple utilisé dans le Chapitre V, la
procédure de découpage de SpODT « survie nette ». Notons que la méthode « géométrique »
est la même que dans SpODT originel et que la diﬀérence provient du critère de découpage,
qui est la maximisation de la statistique du test présenté dans le Chapitre IV.
Rappelons cet exemple : nous supposons que nous étudions une aire géographique contenant
plusieurs communes contenant chacune des patients atteints d’un cancer donné et pour lesquels
nous connaissons les données de survie jusqu’à une certaine date. Cet exemple est représenté
par la ﬁgure B.1. Si les localisations en rouge correspondent à des taux de survie nette faibles
Figure B.1 – Exemple illustratif d’une zone géographique présentant trois communes où la survie nette
est élevée.
alors que les localisations en vert correspondent à des taux de survie nette élevés, la question
était de savoir comment obtenir un découpage du plan séparant les localisations diﬀérentes en
termes de survie nette.
177
1 Déﬁnitions préliminaires
1
Déﬁnitions préliminaires
Nous reprenons ici les déﬁnitions introduites par Fichet and Gaudart (2005).
L’angle critique θ16 associé aux points (M1 , M6 ) est l’angle formé par l’axe des abscisses et
la perpendiculaire à la droite (M1 , M6 ) passant par l’origine. Un exemple est donné dans la
ﬁgure B.2.
u16
5
4
3
M6
2
M1
1
θ16
−2
0
−1
1
2
3
4
5
6
7
−1
Figure B.2 – Angle critique θ16 .
Comme le montrent les ﬁgures B.3 et B.4, l’angle critique θ16 est l’angle minimal de la
rotation à appliquer à l’axe des abscisses pour que les points M1 et M6 voient leurs abscisses
x1 et x6 être permutées.
L’angle critique θ16 est déﬁni par la droite (u16 ). Plus précisément, chaque angle critique
est déﬁni par une droite passant par l’origine et ces droites permettent de découper le plan
en plusieurs secteurs angulaires. Au sein de ces secteurs, l’ordre des abscisses est inchangé
(Gaudart, 2007).
L’algorithme sépare les points par des droites perpendiculaires à une droite obtenue par
rotation de l’axe des abscisses. Les permutations dans l’ordre des abscisses lorsque leur axe
balaye [0, π[ caractérisent les découpages distincts qu’il est possible d’obtenir et qui seront
testés (par un critère dépendant de la méthode, à savoir la variance interclasses pour le SpODT
originel et la statistique du test de type log-rank pour l’adaptation de SpODT à la survie nette).
Nous allons détailler cela sur un exemple.
178
1 Déﬁnitions préliminaires
u16
5
4
x6
3
2
M6
x1
M1
1
−2
0
−1
1
2
3
4
5
6
7
−1
Figure B.3 – Rotation de l’axe des abscisses d’angle θ inférieur à θ16 .
u16
5
4
3
2
M6
1
M1
x1
x6
−2
0
−1
1
2
3
4
5
6
7
−1
Figure B.4 – Rotation de l’axe des abscisses d’angle θ supérieur à θ16 .
179
2 Application sur un exemple
2
Application sur un exemple
L’algorithme dispose au départ de 8 points ordonnés de façon croissante (par rapport à leurs
abscisses, puis à leurs ordonnées en cas d’égalité). Ces points sont représentés par la ﬁgure B.5.
M8
M7
5
M4
4
M5
M2
3
M3
M6
2
M1
1
O
−2
0
−1
1
2
3
4
5
6
7
−1
Figure B.5 – Exemple naïf : 8 points à « séparer ».
Comme expliqué précédemment, nous avons donc un découpage du plan en plusieurs secteurs
angulaires, comme le montre la ﬁgure B.6.
M8
u36
u25
u16
u26
M7
5
u47
M4
4
M5
u27
u48
u28
M3
u13578
u24
2
u14
u12
u68
uu
3467
−2
u56
u46
M2
3
M6
1
−1
M1
0
1
2
3
4
5
6
7
u45u23−1
Figure B.6 – Découpage du plan en plusieurs secteurs angulaires.
On procède à une rotation de l’axe des abscisses d’angle θ. À chaque fois que θ augmente et
180
2 Application sur un exemple
dépasse un angle critique, l’ordre des projections des points sur la droite est modiﬁé, produisant
ainsi une partition du plan.
Pour mieux comprendre cela, examinons le premier découpage. Avant rotation, les abscisses
sont (x1 , x2 , x3 , x4 , x5 , x6 , x7 , x8 ), comme le montre la ﬁgure B.7.
u47
6
u25
u16
u36
M8
u26
5
u27
u48
u28
M7
M4
4
M5
u13578
u24
3
u14
2
M2
M3
M6
u12
u68
u34
u67
1
M1
x1
−3
−2
0
−1
u56
u46
1
x2
2
x3
3
4
x8
x7
x4 x5 x6
5
6
7
−1
u45u23
Figure B.7 – Ordre des abscisses avant rotation.
Le premier angle critique est θ56 , correspondant à la droite (u56 ). Quand θ dépasse θ56 ,
l’ordre des points projetés devient (x1 , x2 , x3 , x4 , x6 , x5 , x7 , x8 ), comme le montre la ﬁgure B.8.
L’algorithme teste alors les distributions de survie nette entre deux groupes formés par les
communes localisées par les points (M1 , M2 , M3 , M4 , M6 ) versus celles localisées par les points
(M5 , M7 , M8 ). Il trouve une statistique de test égale à 0, 6036. L’algorithme continue ensuite
en augmentant la valeur de θ et en testant les deux groupes obtenus. Dans notre exemple, la
statistique maximale est obtenue avec le découpage (M8 , M7 ) versus (M6 , M5 , M4 , M3 , M2 , M1 )
et vaut 30, 7580. C’est donc ce découpage qui est retenu. En pratique, on ﬁxe la droite obtenue
par rotation comme étant la bissectrice entre la droite (uij ) qu’elle vient de « dépasser » et la
suivante. Dans notre exemple, il s’agit du dernier découpage. Nous choisissons alors de ﬁxer
la droite obtenue par rotation comme étant la bissectrice entre la droite (u67 ) 1 qu’elle vient
de « dépasser » et l’axe des abscisses. Pour découper le plan, nous prenons la médiatrice du
segment [x7 , x6 ]. C’est la droite violette de la ﬁgure B.9.
1. Nous avons ici un cas où les droites (u34 ) et (u67 ) sont confondues. Cela vient du fait que (M3 M4 ) est
parallèle à (M6 M7 ). Dans ce cas, seul est modiﬁé l’ordre des points M3 et M4 d’une part, et M6 et M7 d’autre
part. L’ordre des points des 2 sous-ensembles est conservé.
181
2 Application sur un exemple
u47
6
u25
u16
u36
M8
u26
5
u27
u48
u28
M7
M4
4
M5
u13578
u24
3
u14
2
x8
M2
x7
M3
M6x5
x4x6
u12
u68
u34
u67
1
x2 x3
M1
x1
−3
−2
0
−1
u56
u46
1
2
3
4
5
6
7
−1
u45u23
Figure B.8 – Ordre des « abscisses » projetées sur l’axe des abscisses qui a subi une rotation de θ avec
θ > θ16 .
u47
6
u25
u16
u36
M8
u26
5
u27
u48
u28
M7
M4
4
M5
u13578
u24
3
u14
2
M2
M3
M6
u12
u68
u34
u67
−3
1
−2
0
−1
u56
u46
M1
x1
1 x2 x3
2 x4 x53
4
x 6 x7
5
x8
6
7
−1
u45u23
Figure B.9 – Premier découpage déﬁni par la droite violette.
L’algorithme passe alors à l’itération suivante. Il rejette le découpage entre M7 et M8 car la
statistique de test est inférieure à 3.84 (seuil du χ21 à 95%). Parmi tous les découpages possibles
des points (M1 , M2 , M3 , M4 , M5 , M6 ), celui qui a la plus grande statistique de test est celui qui
découpe les points (M1 , M3 ) versus les points (M2 , M6 , M5 , M4 ). Elle vaut 15, 7807. On obtient
ainsi un second découpage représenté par une deuxième droite violette dans la ﬁgure B.10.
182
2 Application sur un exemple
6
u25
u16
u36
u26
5
x4M
4
x5
4
M5
x
M2 6
x2
x3 M
3
u13578
u24
u14
3
2
M6
u12
u34
−3
x1
M1
1
−2
1
0
−1
u56
u46
2
3
4
5
6
7
−1
u45u23
Figure B.10 – Les deux premiers découpages déﬁnis par les droites violettes.
L’algorithme ne découpe pas les communes représentées par les points (M2 , M6 , M5 , M4 ) car
il ne trouve pas de découpage signiﬁcatif. Inversement, la statistique de test correspondant au
découpage M1 versus M3 vaut 5, 6942, d’où le dernier découpage représenté dans la ﬁgure B.11
par la troisième droite violette.
6
5
4
3
u13578
M3
2
1
−3
−2
M1
0
−1
x1
1x3
2
3
4
5
6
7
−1
Figure B.11 – Les trois découpages déﬁnis par les droites violettes.
183
2 Application sur un exemple
On retrouve ainsi la carte V.15 du chapitre Chapitre V. La carte V.16 a été obtenue en
utilisant l’option greffer de l’algorithme. Plus précisément, l’algorithme recherche parmi tous
les segments communs à deux classes s’ils sont signiﬁcatifs, i.e. si la statistique du test de type
log-rank entre les villes constituant les classes est supérieure à 3,84. Si ce n’est pas le cas, le
segment est supprimé. Ainsi, la carte B.12 montre que 5 segments sont candidats à la greﬀe :
[A, E], [E, D], [C, F ], [B, F ] et [F, E]. Parmi les 5 statistiques de test calculées, seules 2 sont
supérieures à 3.84 ; ce sont celles relatives aux segments [E, D] et [F, E], ce qui correspond à la
greﬀe des feuilles 12 et 2, et 7 et 13 respectivement (cf. arbre V.14).
P
A
6
M8
5
M7
B
M4
4
M5
M2
F
M3
3
2
M6
E
1
−2
M1
0
−1
C
1
2
3
D
4
M
5
6
7
8
−1
Figure B.12 – Découpages et segments candidats à la greﬀe.
184
Annexe C
Cette annexe contient le choix des paramètres sur 50 ﬁchiers pour la méthode SpODT
« survie nette » (Chapitre V, section 3.2.5).
185
Critères d’arrêt
3_6_6
3_7_6
3_8_6
3_9_6
3_10_6
3_7_7
3_8_7
3_9_7
3_10_7
3_8_8
3_9_8
3_10_8
3_9_9
3_10_9
3_10_10
4_6_6
4_7_6
4_8_6
4_9_6
4_10_6
4_7_7
4_8_7
4_9_7
4_10_7
4_8_8
4_9_8
4_10_8
4_9_9
4_10_9
4_10_10
5_6_6
5_7_6
5_8_6
5_9_6
5_10_6
5_7_7
5_8_7
5_9_7
5_10_7
5_8_8
5_9_8
5_10_8
5_9_9
5_10_9
5_10_10
Sensibilité
0,856
0,856
0,856
0,856
0,856
0,860
0,860
0,860
0,860
0,878
0,878
0,878
0,890
0,890
0,904
0,788
0,788
0,788
0,788
0,788
0,856
0,856
0,856
0,856
0,900
0,900
0,900
0,894
0,894
0,914
0,822
0,822
0,822
0,822
0,822
0,870
0,870
0,870
0,870
0,908
0,908
0,908
0,894
0,894
0,914
Spéciﬁcité Moyenne(FP) Moyenne(FN)
0,8920
4,32
1,44
0,8920
4,32
1,44
0,8920
4,32
1,44
0,8920
4,32
1,44
0,8920
4,32
1,44
0,9030
3,88
1,40
0,9030
3,88
1,40
0,9030
3,88
1,40
0,9030
3,88
1,40
0,8940
4,24
1,22
0,8940
4,24
1,22
0,8940
4,24
1,22
0,9040
3,84
1,10
0,9040
3,84
1,10
0,8945
4,22
0,96
0,9635
1,46
2,12
0,9635
1,46
2,12
0,9635
1,46
2,12
0,9635
1,46
2,12
0,9635
1,46
2,12
0,9470
2,12
1,44
0,9470
2,12
1,44
0,9470
2,12
1,44
0,9470
2,12
1,44
0,9310
2,76
1,00
0,9310
2,76
1,00
0,9310
2,76
1,00
0,9290
2,84
1,06
0,9290
2,84
1,06
0,9075
3,70
0,86
0,9655
1,38
1,78
0,9655
1,38
1,78
0,9655
1,38
1,78
0,9655
1,38
1,78
0,9655
1,38
1,78
0,9465
2,14
1,30
0,9465
2,14
1,30
0,9465
2,14
1,30
0,9465
2,14
1,30
0,9290
2,84
0,92
0,9290
2,84
0,92
0,9290
2,84
0,92
0,9290
2,84
1,06
0,9290
2,84
1,06
0,9075
3,70
0,86
Suite sur la page suivante. . .
Taux d’erreur
0,1152
0,1152
0,1152
0,1152
0,1152
0,1056
0,1056
0,1056
0,1056
0,1092
0,1092
0,1092
0,0988
0,0988
0,1036
0,0716
0,0716
0,0716
0,0716
0,0716
0,0712
0,0712
0,0712
0,0712
0,0752
0,0752
0,0752
0,0780
0,0780
0,0912
0,0632
0,0632
0,0632
0,0632
0,0632
0,0688
0,0688
0,0688
0,0688
0,0752
0,0752
0,0752
0,0780
0,0780
0,0912
186
Critères d’arrêt
6_6_6
6_7_6
6_8_6
6_9_6
6_10_6
6_7_7
6_8_7
6_9_7
6_10_7
6_8_8
6_9_8
6_10_8
6_9_9
6_10_9
6_10_10
7_6_6
7_7_6
7_8_6
7_9_6
7_10_6
7_7_7
7_8_7
7_9_7
7_10_7
7_8_8
7_9_8
7_10_8
7_9_9
7_10_9
7_10_10
8_6_6
8_7_6
8_8_6
8_9_6
8_10_6
8_7_7
8_8_7
8_9_7
8_10_7
8_8_8
8_9_8
8_10_8
8_9_9
8_10_9
8_10_10
Sensibilité
0,822
0,822
0,822
0,822
0,822
0,870
0,870
0,870
0,870
0,908
0,908
0,908
0,894
0,894
0,914
0,822
0,822
0,822
0,822
0,822
0,870
0,870
0,870
0,870
0,908
0,908
0,908
0,894
0,894
0,914
0,822
0,822
0,822
0,822
0,822
0,870
0,870
0,870
0,870
0,908
0,908
0,908
0,894
0,894
0,914
Spéciﬁcité Moyenne(FP)
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9465
2,14
0,9465
2,14
0,9465
2,14
0,9465
2,14
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9075
3,70
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9465
2,14
0,9465
2,14
0,9465
2,14
0,9465
2,14
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9075
3,70
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9655
1,38
0,9465
2,14
0,9465
2,14
0,9465
2,14
0,9465
2,14
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9290
2,84
0,9075
3,70
Moyenne(FN)
1,78
1,78
1,78
1,78
1,78
1,30
1,30
1,30
1,30
0,92
0,92
0,92
1,06
1,06
0,86
1,78
1,78
1,78
1,78
1,78
1,30
1,30
1,30
1,30
0,92
0,92
0,92
1,06
1,06
0,86
1,78
1,78
1,78
1,78
1,78
1,30
1,30
1,30
1,30
0,92
0,92
0,92
1,06
1,06
0,86
Taux d’erreur
0,0632
0,0632
0,0632
0,0632
0,0632
0,0688
0,0688
0,0688
0,0688
0,0752
0,0752
0,0752
0,0780
0,0780
0,0912
0,0632
0,0632
0,0632
0,0632
0,0632
0,0688
0,0688
0,0688
0,0688
0,0752
0,0752
0,0752
0,0780
0,0780
0,0912
0,0632
0,0632
0,0632
0,0632
0,0632
0,0688
0,0688
0,0688
0,0688
0,0752
0,0752
0,0752
0,0780
0,0780
0,0912
Tableau C.1 – Choix des meilleurs paramètres parmi 90 combinaisons pour la méthode SpODT
« survie nette » sur 50 jeux de données pour un cluster de la forme d’une bande.
187
Annexe D
Cette annexe contient des résultats préliminaires de la méthode SpODT « survie nette »
exposée au Chapitre V et appliquée sur données réelles. Les résultats obtenus récemment seront
interprétés dans le cadre d’une collaboration avec Marc Colonna.
1
Description des données
Les données proviennent du registre des cancers de l’Isère. Elles ont déjà été utilisées dans
une étude où les auteurs étudiaient la répartition spatiale en Isère de l’incidence du cancer pour
quatre localisations - colon-rectum, poumon, prostate et vessie - (Colonna and Sauleau, 2013).
Nous avons choisi de présenter ici l’étude relative au colon-rectum.
Le jeu de données comportait 3084 patients masculins atteints d’un cancer colorectal et diagnostiqués entre 1999 et 2007 dans 425 communes de l’Isère. La date de point était le 1/1/2008
et nous avons étudié la survie nette à 5 ans. Nous avons observé 1188 décès, i.e. 38,52% de la
population initiale. Cette population initiale était constituée de : (1) 701 patients (22,73 %)
âgés de moins de 60 ans au moment du diagnostic ; (2) 1792 patients (58,11 %) ayant entre 61
et 79 ans ; et (3) 591 (19,16 %) patients ayant au moins 80 ans.
Pour cette analyse, nous avons utilisé une table de mortalité de l’Isère stratiﬁée sur l’âge et sur
les années.
2
Choix des paramètres et résultats
Nous avons réalisé une recherche de paramètres et nous avons retenu ceux qui nous présentaient le meilleur « compromis » entre le nombre de découpages et les diﬀérences entre les
courbes de survie nette des classes ainsi obtenues. La profondeur maximale de l’arbre et les
minima des nœuds père et ﬁls étaient ﬁxés à 10.
188
2 Choix des paramètres et résultats
L’arbre D.1 montre que la méthode a détecté neuf classes avant greﬀe. Après greﬀe, il restait cinq classes (18 ; 44 ; 93 = {10, 90} ; 97 = {8, 19} et 99 = {3, 23, 91}) représentées sur la
carte D.2. Nous avons représenté sur la ﬁgure D.3 les distributions de survie nette estimées
par l’estimateur Pohar-Perme pour ces classes. Nous pouvons ainsi noter que la méthode a
détecté un cluster de faible survie nette, représenté en rouge sur la ﬁgure D.2 et correspondant à la classe 93. Pour interpréter ce cluster et proposer des explications à cette diﬀérence
de survie nette, l’intervention d’un épidémiologiste connaissant notamment les caractéristiques
socio-démographiques de ce département est indispensable.
Figure D.1 – Arbre obtenu par la méthode SpODT « survie nette » sur données réelles de l’Isère (patients
atteints d’un cancer colo-rectal).
189
2 Choix des paramètres et résultats
Figure D.2 – Carte obtenue par la méthode SpODT « survie nette » après greﬀe sur données réelles de
l’Isère (patients atteints d’un cancer colo-rectal).
190
2 Choix des paramètres et résultats
Figure D.3 – Estimations de la survie nette estimées par l’estimateur Pohar-Perme (PPE) pour les cinq
classes obtenues par la méthode SpODT « survie nette » sur données réelles de l’Isère (patients atteints
d’un cancer colo-rectal). Les couleurs des cinq courbes représentent les cinq classes trouvées par la méthode
et illustrées par des couleurs identiques sur la ﬁgure D.2.
191
Références bibliographiques
Aalen, O. (1978). Nonparametric inference for a family of counting processes. The Annals of
Statistics, 6(4) :701–726. 20
Aalen, O., Borgan, O., and Gjessing, H. (2008). Survival and event history analysis : a process
point of view. Springer. 69, 107
Abrahamowicz, M. and Mackenzie, T. A. (2007). Joint estimation of time-dependent and nonlinear eﬀects of continuous covariates on survival. Statistics in medicine, 26(2) :392–408. 27,
169
Abrahamowicz, M., Mackenzie, T. A., and Esdaile, J. M. (1996). Time-dependent hazard ratio :
modeling and hypothesis testing with application in lupus nephritis. Journal of the American
Statistical Association, 91(436) :1432–1439. 30
Andersen, P. K., Borgan, O., Gill, R. D., and Keiding, N. (1993). Statistical models based on
counting processes. Springer. 8, 9, 69, 70
Andersen, P. K., Geskus, R. B., de Witte, T., and Putter, H. (2012). Competing risks in
epidemiology : possibilities and pitfalls. International Journal of Epidemiology, 41(3) :861–
870. 23
Arias, E. (2014). United states life tables, 2009. National vital statistics reports : from the
Centers for Disease Control and Prevention, National Center for Health Statistics, National
Vital Statistics System, 62(7) :1–63. 173
Baili, P., Micheli, A., Montanari, A., and Capocaccia, R. (2005). Comparison of four methods
for estimating complete life tables from abridged life tables using mortality data supplied to
EUROCARE-3. Mathematical Population Studies, 12(4) :183–198. 32, 33
Banerjee, S., Wall, M. M., and Carlin, B. P. (2003). Frailty modeling for spatially correlated
survival data, with application to infant mortality in Minnesota. Biostatistics, 4(1) :123–142.
110
192
Références bibliographiques
Barbet, G. (2008). L’algorithme SpODT (Spatial Oblique Decision Tree) : Optimisation, extension et implémentation. Mémoire de master, Université de la Méditerranée. 124
Belot, A. (2009). Modélisation ﬂexible des données de survie en présence de risques concurrents
et apports de la méthode du taux en excès. PhD thesis, Aix Marseille 2. 21
Belot, A., Abrahamowicz, M., Remontet, L., and Giorgi, R. (2010). Flexible modeling of
competing risks in survival analysis. Statistics in medicine, 29(23) :2453–2468. 43, 45
Berkson, J. (1942). The calculation of survival rates. In Carcinoma and Other Malignant Lesions
of the Stomach, pages 467–484. (eds) W. Wlaters, HK Gray and JT Priestly, Philadelphia :
Sanders, 1942. 15, 169
Berkson, J. and Gage, R. P. (1950). Calculation of survival rates for cancer. In Proceedings of
the staﬀ meetings. Mayo Clinic, volume 25, pages 270–286. 15, 169
Binder-Foucard, F., Belot, A., Delafosse, P., Remontet, L., Woronoﬀ, A., and Bossard, N.
(2013). Estimation nationale de l’incidence et de la mortalité par cancer en France entre
1980 et 2012. Partie 1–Tumeurs solides. Institut de veille sanitaire, Saint-Maurice (France).
1
Binquet, C., Abrahamowicz, M., Mahboubi, A., Jooste, V., Faivre, J., Bonithon-Kopp, C., and
Quantin, C. (2008). Empirical study of the dependence of the results of multivariable ﬂexible
survival analyses on model selection strategy. Statistics in medicine, 27(30) :6470–6488. 30
Bivand, R. S., Pebesma, E., and Gomez-Rubio, V. (2013). Applied spatial data analysis with
R, Second edition. Springer, NY. 124
Blakely, T., Soeberg, M., Carter, K., Costilla, R., Atkinson, J., and Sarfati, D. (2012). Bias
in relative survival methods when using incorrect life-tables : Lung and bladder cancer by
smoking status and ethnicity in New Zealand. International Journal of Cancer, 131(6) :E974–
E982. 66
Bolard, P., Quantin, C., Abrahamowicz, M., Esteve, J., Giorgi, R., Chadha-Boreham, H., Binquet, C., and Faivre, J. (2001). Assessing time-by-covariate interactions in relative survival
models using restrictive cubic spline functions. Journal of cancer epidemiology and prevention, 7(3) :113–122. 45
Bossard, N. et al. (2013). BETWEEN project. http://www.eurocare.it/Eurocare5/
ProtocolsEU5/tabid/89/Default.aspx, Accessed : 2014-09-20. 26, 107, 170
Bourgkard, E., Colin, R., Grzebyk, M., Urmes, I., and Hedelin, G. (2014). Mortality study
among Paris sewage workers. Occupational and environmental medicine, 71(Suppl 1) :A12–
A12. 172
Brass, W. et al. (1971). On the scale of mortality. Biological aspects of demography, pages
69–110. 33
193
Références bibliographiques
Breiman, L. (1996). Bagging predictors. Machine learning, 24(2) :123–140. 111
Breiman, L. (2001). Random forests. Machine learning, 45(1) :5–32. 111
Breiman, L., Friedman, J., Stone, C. J., and Olshen, R. A. (1984). Classiﬁcation and regression
trees. CRC press. 112
Breslow, N. (1972). Discussion on Professor Cox’s Paper. Journal of the Royal Statistical
Society : Series B, 34 :187–220. 10
Brown, C. C. (1983).
39(4) :941–948. 68
The statistical comparison of relative survival rates.
Biometrics,
Brown, P. and Hijmans, R. (2014). geostatsp : Geostatistics using SpatialPoints and rasters. R
package version 1.1.0. 124
Buckley, J. (1984). Additive and multiplicative models for relative survival rates. Biometrics,
40(1) :51–62. 68
Carter, K. N., Blakely, T., Soeberg, M., Carter, K., Wilson, N., Edwards, R., Woodward, A.,
Thomson, G., and Sarfati, D. (2010). Trends in survival and life expectancy by ethnicity,
income and smoking in New Zealand : 1980s to 2000s. The New Zealand Medical Journal,
123. 34
Cheuvart, B. and Ryan, L. (1991). Adjusting for age-related competing mortality in long-term
cancer clinical trials. Statistics in medicine, 10(1) :65–77. 66, 170
Chirpaz, E., Colonna, M., and Viel, J. (2004). Cluster analysis in geographical epidemiology :
the use of several statistical methods and comparison of their results. Revue d’épidemiologie
et de santé publique, 52(2) :139–149. 111
Clegg, L. X., Li, F. P., Hankey, B. F., Chu, K., and Edwards, B. K. (2002). Cancer survival
among US whites and minorities : a SEER (Surveillance, Epidemiology, and End Results)
program population-based study. Archives of Internal Medicine, 162(17) :1985–1993. 32
Clerc-Urmes, I., Grzebyk, M., and Hedelin, G. (2014). Net survival estimation with stns. Stata
Journal, 14(1) :87–102. 170
Coleman, M. P., Quaresma, M., Berrino, F., Lutz, J.-M., De Angelis, R., Capocaccia, R., Baili,
P., Rachet, B., Gatta, G., Hakulinen, T., et al. (2008). Cancer survival in ﬁve continents : a
worldwide population-based study (CONCORD). The Lancet Oncology, 9(8) :730–756. 3, 14
Colonna, M. and Sauleau, E.-A. (2013). How to interpret and choose a bayesian spatial model
and a Poisson regression model in the context of describing small area cancer risks variations.
Revue d’épidémiologie et de santé publique, 61(6) :559–567. 124, 188
Cook, A. J., Gold, D. R., and Li, Y. (2007). Spatial cluster detection for censored outcome
data. Biometrics, 63(2) :540–549. 166
194
Références bibliographiques
Corazziari, I., Quinn, M., and Capocaccia, R. (2004). Standard cancer patient population for
age standardising survival ratios. European Journal of Cancer, 40(15) :2307–2316. 68
Cox, D. (1972). Regression models and life tables (with discussion). Journal of the Royal
Statistical Society B, 34 :187–220. 10
Danieli, C., Remontet, L., Bossard, N., Roche, L., and Belot, A. (2012). Estimating net survival :
the importance of allowing for informative censoring. Statistics in medicine, 31(8) :775–786.
3, 25, 26, 30, 172
De Angelis, R., Sant, M., Coleman, M. P., Francisci, S., Baili, P., Pierannunzio, D., Trama, A.,
Visser, O., Brenner, H., Ardanaz, E., et al. (2014). Cancer survival in europe 1999–2007 by
country and age : results of EUROCARE-5 - a population-based study. The Lancet Oncology,
15(1) :23–34. 2, 3, 14, 68
De Boor, C. et al. (1978). A practical guide to splines. 28
Dickman, P. W., Auvinen, A., Voutilainen, E. T., and Hakulinen, T. (1998). Measuring social
class diﬀerences in cancer patient survival : is it necessary to control for social class diﬀerences
in general population mortality ? A Finnish population-based study. Journal of Epidemiology
and Community Health, 52(11) :727–734. 32
Dickman, P. W. and Lambert, P. C. (2014a). Model-based vs. non-parametric estimators of
net survival. http://www.epaac.eu/news/359-epaac-wp9-satellite-meeting-stateof-art-of-methods-for-the-analysis-of\-population-based-cancer-data-ispra22-23-january-2014, Accessed : 2014-09-20. 26, 172
Dickman, P. W. and Lambert, P. C. (2014b). Session 18 : Estimating net survival–past and
present. http://www.pauldickman.com/teaching/index.php/, Accessed : 2014-09-20. 26
Dickman, P. W., Sloggett, A., Hills, M., and Hakulinen, T. (2004). Regression models for
relative survival. Statistics in medicine, 23(1) :51–64. 27, 44
Doubeni, C. A., Field, T. S., Buist, D. S., Korner, E. J., Bigelow, C., Lamerato, L., Herrinton,
L., Quinn, V. P., Hart, G., Hornbrook, M. C., et al. (2007). Racial diﬀerences in tumor stage
and survival for colorectal cancer in an insured population. Cancer, 109(3) :612–620. 32
Durrleman, S. and Simon, R. (1989). Flexible regression models with cubic splines. Statistics
in medicine, 8(5) :551–561. 30
Ederer, F., Axtell, L. M., and Cutler, S. J. (1961). The relative survival rate : a statistical
methodology. National Cancer Institute Monograph, 6 :101–121. 23, 169, 172
Ederer, F. and Heise, H. (1959). The eﬀect of eliminating deaths from cancer on general
population survival rates. Methodological Note No, 11. 23, 169, 172
Elandt-Johnson, R. C. (1980). Survival models and data analysis, volume 110. John Wiley &
Sons. 33
195
Références bibliographiques
Ellison, L. F. (2014). Estimating relative survival for cancer : An analysis of bias introduced
by outdated life tables. Health reports, 25(2) :13–19. 66
Eng, K. H. and Kosorok, M. R. (2005). A sample size formula for the supremum log-rank
statistic. Biometrics, 61(1) :86–91. 171
Esteve, J., Benhamou, E., Croasdale, M., and Raymond, L. (1990). Relative survival and the
estimation of net survival : elements for further discussion. Statistics in medicine, 9(5) :529–
538. 27, 44, 169, 170
Estève, J., Benhamou, E., and Raymond, L. (1993). Méthodes statistiques en épidémiologie
descriptive. 107
Ewbank, D. C., Gomez De Leon, J. C., and Stoto, M. A. (1983). A reducible four-parameter
system of model life tables. Population Studies, 37(1) :105–127. 33
Fichet, B. and Gaudart, J. (2005). Extension de CART dans le cas bivarié : partition optimale
du plan. XIIème congrès de la Société francophone de Classiﬁcation, Montréal, Québec. 118,
178
Fichet, B., Gaudart, J., and Giusiano, B. (2006). Bivariate CART with oblique regression trees.
In International conference of Data Science and Classiﬁcation, International Federation of
Classiﬁcation Societies, Ljubljana, Slovenia. 110, 122
Fleming, T. R. and Harrington, D. P. (1984). Nonparametric estimation of the survival distribution in censored data. Communications in Statistics-Theory and Methods, 13(20) :2469–2486.
10
Fleming, T. R. and Harrington, D. P. (2011). Counting processes and survival analysis, volume
169. John Wiley & Sons. 69
Garès, V., Andrieu, S., Dupuy, J.-F., Savy, N., et al. (2014). A comparison of the constant
piecewise weighted logrank and ﬂeming-harrington tests. Electronic Journal of Statistics,
8 :841–860. 171
Gaudart, J. (2007). Analyse spatio-temporelle et modélisation des épidémies : application au
paludisme à P. falciparum. PhD thesis, Aix Marseille 2. 110, 122, 178
Gaudart, J., Giorgi, R., Poudiougou, B., Toure, O., Ranque, S., Doumbo, O., and Demongeot,
J. (2007). Détection de clusters spatiaux sans point source prédéﬁni : utilisation de cinq
méthodes et comparaison de leurs résultats. Revue d’épidémiologie et de santé publique,
55(4) :297–306. 110, 111, 122
Gaudart, J., Graﬀéo, N., Barbet, G., Fichet, B., and Giorgi, R. (2014). SPODT : Spatial Oblique
Decision Tree. R package version 0.9. 124, 171
196
Références bibliographiques
Gaudart, J., Poudiougou, B., Ranque, S., and Doumbo, O. (2005). Oblique decision trees for
spatial pattern detection : optimal algorithm and application to malaria risk. BMC Medical
Research Methodology, 5(1) :22. 110, 122
Gehan, E. A. (1965). A generalized wilcoxon test for comparing arbitrarily singly-censored
samples. Biometrika, 52(1-2) :203–223. 171
Gill, R. D. (1980). Censoring and stochastic integrals. Statistica Neerlandica, 34(2) :124–124.
20, 171
Giorgi, R., Abrahamowicz, M., Quantin, C., Bolard, P., Esteve, J., Gouvernet, J., and Faivre,
J. (2003). A relative survival regression model using B-spline functions to model nonproportional hazards. Statistics in medicine, 22(17) :2767–2784. 27, 28, 30, 169
Giorgi, R., Belot, A., Gaudart, J., and Launoy, G. (2008). The performance of multiple imputation for missing covariate data within the context of regression relative survival analysis.
Statistics in medicine, 27(30) :6310–6331. 45
Goungounga, J. A. (2014). Analyse spatiale de l’incidence du cancer : implémentation par
l’algorithme SpODT. Mémoire de master, Aix-Marseille Université. 124
Graﬀéo, N., Jooste, V., and Giorgi, R. (2012). The impact of additional life-table variables on
excess mortality estimates. Statistics in medicine, 31(30) :4219–4230. 46, 170
Grosclaude, P., Bossard, N., Remontet, L., Belot, A., Arveux, P., Bouvier, A., Lauoy, G.,
Maynadié, M., Velten, M., Faivre, J., et al. (2007). Survie des patients atteints de cancer en
France : étude des registres du réseau Francim. Springer. 2
Grosclaude, P., Remontet, L., Belot, A., Danzon, A., Rasamimanana, C. N., and Bossard,
N. (2013). Survie des personnes atteintes de cancer en france, 1989-2007. Étude à partir
des registres des cancers du réseau francim. http://opac.invs.sante.fr/doc_num.php?
explnum_id=8758, Accessed : 2014-08-15. 3, 14, 25, 107
Guttmann, A., Ouchchane, L., Li, X., Perthus, I., Gaudart, J., Demongeot, J., and Boire, J.-Y.
(2013). Performance map of a cluster detection test using extended power. International
Journal of Health Geographics, 12(1) :47. 167, 171
Hakulinen, T. (1982). Cancer survival corrected for heterogeneity in patient withdrawal. Biometrics, 38(4) :933–942. 23, 169, 172
Hakulinen, T., Tenkanen, L., Abeywickrama, K., and Päivärinta, L. (1987). Testing equality
of relative survival patterns based on aggregated data. Biometrics, 43(2) :313–325. 68
Harrington, D. P. and Fleming, T. R. (1982). A class of rank test procedures for censored
survival data. Biometrika, 69(3) :553–566. 171
Hastie, T., Tibshirani, R., Friedman, J., Hastie, T., Friedman, J., and Tibshirani, R. (2009).
The elements of statistical learning, volume 2. Springer. 115
197
Références bibliographiques
Hess, K. R. (1994). Assessing time-by-covariate interactions in proportional hazards regression
models using cubic spline functions. Statistics in medicine, 13(10) :1045–1062. 30
Hill, C., Com-Nougué, C., and Kramar, A. (1990). Analyse statistique des données de survie.
INSERM ; Médecine-Sciences-Flammarion. 7
Howlader, N., Ries, L. A., Mariotto, A. B., Reichman, M. E., Ruhl, J., and Cronin, K. A. (2010).
Improved estimates of cancer-speciﬁc survival rates from population-based data. Journal of
the National Cancer Institute, 102(20) :1584–1598. 21
Huang, L., Kulldorﬀ, M., and Gregorio, D. (2007). A spatial scan statistic for survival data.
Biometrics, 63(1) :109–118. 166
International Agency for Research on Cancer (2014). GLOBOCAN 2012 : estimated cancer incidence, mortality and prevalence worldwide in 2012. World Health Organization, 9. Accessed
October 4, 2014. 2
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013a). An introduction to statistical
learning. Springer. 112
James, G., Witten, D., Hastie, T., and Tibshirani, R. (2013b). ISLR : Data for An Introduction
to Statistical Learning with Applications in R. R package version 1.0. 112
Jooste, V., Grosclaude, P., Remontet, L., Launoy, G., Baldi, I., Molinié, F., Arveux, P., Bossard,
N., Bouvier, A.-M., and Colonna, M. (2013). Unbiased estimates of long-term net survival
of solid cancers in france. International Journal of Cancer, 132(10) :2370–2377. 26, 170
Kalbﬂeisch, J. D. and Prentice, R. L. (2002). The statistical analysis of failure time data. John
Wiley & Sons. 9, 12
Klein, J. and Moeschberger, M. (2003). Survival analysis : statistical methods for censored and
truncated data. Springer-Verlag, New York, NY. 69
Kulldorﬀ, M. (1997). A spatial scan statistic. Communications in Statistics-Theory and methods, 26(6) :1481–1496. 111, 124
Lambert, P. C., Smith, L. K., Jones, D. R., and Botha, J. L. (2005). Additive and multiplicative
covariate regression models for relative survival incorporating fractional polynomials for timedependent eﬀects. Statistics in medicine, 24(24) :3871–3885. 27, 28, 169
Mahboubi, A., Abrahamowicz, M., Giorgi, R., Binquet, C., Bonithon-Kopp, C., and Quantin, C.
(2011). Flexible modeling of the eﬀects of continuous prognostic factors in relative survival.
Statistics in medicine, 30(12) :1351–1365. 27, 28, 29, 169
Mantel, N. (1966). Evaluation of survival data and two new rank order statistics arising in its
consideration. Cancer chemotherapy reports. Part 1, 50(3) :163–170. 69
198
Références bibliographiques
Mariotto, A. B., Wang, Z., Klabunde, C. N., Cho, H., Das, B., and Feuer, E. J. (2013). Life
tables adjusted for comorbidity more accurately estimate noncancer survival for recently
diagnosed cancer patients. Journal of clinical epidemiology, 66(12) :1376–1385. 172
Micheli, A., Baili, P., Quinn, M., Mugno, E., Capocaccia, R., and Grosclaude, P. (2002). Life
expectancy and cancer survival in the EUROCARE-3 cancer registry areas. Annals of oncology : oﬃcial journal of the European Society for Medical Oncology/ESMO, 14 :v28–40. 32,
33
Monnereau, A., Troussard, X., Belot, A., Guizard, A.-V., Woronoﬀ, A.-S., Bara, S., LapôtreLedoux, B., Iwaz, J., Tretarre, B., and Maynadié, M. (2013). Unbiased estimates of longterm net survival of hematological malignancy patients detailed by major subtypes in France.
International Journal of Cancer, 132(10) :2378–2387. 26, 170
Mudholkar, G. S., Srivastava, D. K., and Kollia, G. D. (1996). A generalization of the Weibull distribution with application to the analysis of survival data. Journal of the American
Statistical Association, 91(436) :1575–1583. 42
Nakache, J.-P. and Confais, J. (2003). Statistique explicative appliquée : analyse discriminante,
modèle logistique, segmentation par arbre. Editions Technip. 118
Nativ, O., Raz, Y., Winkler, H., Hosaka, Y., Boyle, E., Therneau, T., Farrow, G., Meyers, R.,
Zincke, H., and Lieber, M. (1988). Prognostic value of ﬂow cytometric nuclear DNA analysis
in stage C prostate carcinoma. In Surgical Forum, pages 685–687. 120
Noble, M., Smith, G., Penhale, B., Wright, G., Dibben, C., Owen, T., and Lloyd, M. (2000a).
Measuring multiple deprivation at the small area level : the indices of deprivation 2000.
London : Department of the Environment, Transport and the Regions. 34
Noble, M., Smith, G., Wright, G., Dibben, C., Lloyd, M., and Penhale, B. (2000b). Welsh index
of multiple deprivation 2000. Cardiﬀ : The National Assembly for Wales. 34
Pebesma, E. J. (2004). Multivariable geostatistics in S : the gstat package. Computers &
Geosciences, 30 :683–691. 124
Pebesma, E. J. and Bivand, R. S. (2005). Classes and methods for spatial data in R. R News,
5(2) :9–13. 124
Percy, C., Stanek 3rd, E., and Gloeckler, L. (1981). Accuracy of cancer death certiﬁcates and
its eﬀect on cancer mortality statistics. American Journal of Public Health, 71(3) :242–250.
15
Perme, M. P., Henderson, R., and Stare, J. (2009). An approach to estimation in relative
survival regression. Biostatistics, 10(1) :136–146. 14
Perme, M. P., Stare, J., and Estève, J. (2012). On estimation in relative survival. Biometrics,
68(1) :113–120. 3, 16, 23, 24, 25, 68, 111, 169, 170, 172
199
Références bibliographiques
Peto, R. and Peto, J. (1972). Asymptotically eﬃcient rank invariant test procedures. Journal
of the Royal Statistical Society. Series A (General), 135(2) :185–207. 69
Piarroux, M., Piarroux, R., Giorgi, R., Knapp, J., Bardonnet, K., Sudre, B., Watelet, J., Dumortier, J., Gérard, A., Beytout, J., et al. (2011). Clinical features and evolution of alveolar
echinococcosis in France from 1982 to 2007 : results of a survey in 387 patients. Journal of
Hepatology, 55(5) :1025–1033. 171
Pintilie, M. (2007). Analysing and interpreting competing risk data. Statistics in medicine,
26(6) :1360–1367. 21
Plan Cancer (Accessed October 4, 2014). Plan cancer 2014–2019. http://www.social-sante.
gouv.fr/IMG/pdf/2014-02-03_Plan_cancer.pdf. 2
Pohar-Perme, M. (2013). relsurv : Relative survival. R package version 2.0-4. 170
Pornet, C., Delpierre, C., Dejardin, O., Grosclaude, P., Launay, L., Guittet, L., Lang, T., and
Launoy, G. (2012). Construction of an adaptable European transnational ecological deprivation index : the French version. Journal of epidemiology and community health, 66(11) :982–
989. 170
Potthoﬀ, R. F. and Whittinghill, M. (1966). Testing for homogeneity : II. The Poisson distribution. Biometrika, 53(1) :183–190. 111
Ramsay, J. O. (1988). Monotone regression splines in action. Statistical science, 3(4) :425–441.
30
Remontet, L., Bossard, N., Belot, A., and Esteve, J. (2007). An overall strategy based on
regression models to estimate relative survival and model the eﬀects of prognostic factors in
cancer survival studies. Statistics in medicine, 26(10) :2214–2228. 27, 28, 29, 30, 45, 169
Richardson, S. (1992). Modélisation statistique des variations géographiques en épidémiologie.
Revue d’épidémiologie et de santé publique, 40(1) :33–45. 111
Robins, J. M. (1993). Information recovery and bias adjustment in proportional hazards regression analysis of randomized trials using surrogate markers. In Proceedings of the Biopharmaceutical Section, American Statistical Association, volume 24, page 3. American Statistical
Association. 25
Roche, L., Danieli, C., Belot, A., Grosclaude, P., Bouvier, A.-M., Velten, M., Iwaz, J., Remontet,
L., and Bossard, N. (2013). Cancer net survival on registry data : Use of the new unbiased
Pohar-Perme estimator and magnitude of the bias with the classical methods. International
Journal of Cancer, 132(10) :2359–2369. 26, 170
Ross, S. (2006). Simulation. Statistical Modeling and Decision Science. Elsevier Science. 43
Royston, P., Altman, D. G., and Sauerbrei, W. (2006). Dichotomizing continuous predictors in
multiple regression : a bad idea. Statistics in medicine, 25(1) :127–141. 30
200
Références bibliographiques
Sant, M., Aareleid, T., Berrino, F., Lasota, M. B., Carli, P., Faivre, J., Grosclaude, P., Hedelin,
G., Matsuda, T., Møller, H., et al. (2003). EUROCARE-3 : survival of cancer patients
diagnosed 1990–94 - results and commentary. Annals of Oncology, 14(suppl 5) :v61–v118.
xii, 16
Sarfati, D., Blakely, T., and Pearce, N. (2010). Measuring cancer survival in populations : relative survival vs cancer-speciﬁc survival. International Journal of Epidemiology, 39(2) :598–
610. 15
Schaﬀar, R., Rapiti, E., Rachet, B., and Woods, L. (2013). Accuracy of cause of death data
routinely recorded in a population-based cancer registry : impact on cause-speciﬁc survival
and validation using the Geneva cancer registry. BMC Cancer, 13(1) :609. 21
SEER (2014a). Expected survival life tables. http://seer.cancer.gov/expsurvival/, Accessed : 2014-07-24. 33
SEER (2014b).
Seer cause-speciﬁc death classiﬁcation.
causespecific/, Accessed : 2014-07-25. 21
http://seer.cancer.gov/
SEER Program (based on the submission November 2006). SEER*Stat Database : Incidence
- SEER 17 Regs Research Data, Nov 2006 Sub (1973-2004 varying) - Linked To County
Attributes - Total U.S., 1969-2004 Counties, National Cancer Institute, DCCPS, Surveillance
Research Program, Cancer Statistics Branch, released April 2007. www.seer.cancer.gov. 2,
64, 170
SEER Program : comparative staging guide for cancer (1993). NIH Publication No. 93-3640.
64
Takahashi, K. and Tango, T. (2006). An extended power of cluster detection tests. Statistics
in medicine, 25(5) :841–852. 167
Talbäck, M. and Dickman, P. W. (2011). Estimating expected survival probabilities for relative survival analysis–exploring the impact of including cancer patient mortality in the
calculations. European Journal of Cancer, 47(17) :2626–2632. 15
Tarone, R. E. and Ware, J. (1977). On distribution-free tests for equality of survival distributions. Biometrika, 64(1) :156–160. 171
Therneau, T. (2013). A package for survival analysis in S. R package version 2.37-4. 35, 64
Therneau, T., Atkinson, B., and Ripley, B. (2013). rpart : Recursive Partitioning. R package
version 4.1-3. 118
Therneau, T. M. and Atkinson, E. J. (2014). An introduction to recursive partitioning using
the rpart routines. 120, 166
201
Références bibliographiques
Torgerson, P. R., Schweiger, A., Deplazes, P., Pohar, M., Reichen, J., Ammann, R. W., Tarr,
P. E., Halkik, N., and Müllhaupt, B. (2008). Alveolar echinococcosis : from a deadly disease
to a well-controlled infection. Relative survival and economic analysis in Switzerland over the
last 35 years. Journal of Hepatology, 49(1) :72–77. 171
Townsend, P. (1987). Deprivation. Journal of Social Policy, 16(02) :125–146. 170
Van Rompaye, B., Jaﬀar, S., and Goetghebeur, E. (2012). Estimation with cox models : causespeciﬁc survival analysis with misclassiﬁed cause of failure. Epidemiology (Cambridge, Mass.),
23(2) :194–202. 22
Walters, S., Maringe, C., Butler, J., Rachet, B., Barrett-Lee, P., Bergh, J., Boyages, J., Christiansen, P., Lee, M., Wärnberg, F., et al. (2013). Breast cancer survival and stage at diagnosis
in Australia, Canada, Denmark, Norway, Sweden and the UK, 2000-2007 : a population-based
study. British Journal of Cancer, 108(5) :1195–1208. 26
Wellek, S. (1993). A log-rank test for equivalence of two survivor functions. Biometrics,
49(3) :877–881. 167
White, A., Vernon, S. W., Franzini, L., and Du, X. L. (2010). Racial disparities in colorectal
cancer survival. Cancer, 116(19) :4622–4631. 21, 32
Woods, L. M., Rachet, B., Riga, M., Stone, N., Shah, A., and Coleman, M. P. (2005). Geographical variation in life expectancy at birth in England and Wales is largely explained by
deprivation. Journal of Epidemiology and Community Health, 59(2) :115–120. 33
Wynant, W. and Abrahamowicz, M. (2014). Impact of the model-building strategy on inference about nonlinear and time-dependent covariate eﬀects in survival analysis. Statistics in
medicine, 33(19) :3318–3337. 30
Young, J. L., Ries, L. G., Silverberg, E., Horm, J. W., and Miller, R. W. (1986). Cancer
incidence, survival, and mortality for children younger than age 15 years. Cancer, 58(S2) :598–
602. 3, 14
202
Dans la recherche contre le cancer, la survie nette est un indicateur clé de l’eﬃcacité des systèmes de soin.
C’est un concept théorique représentant la survie que l’on observerait dans un monde hypothétique où le cancer
étudié serait la seule cause possible de décès. En s’aﬀranchissant de la mortalité due à d’autres causes que ce
cancer, la survie nette permet des comparaisons entre pays et périodes. Dans cette thèse, après présentation
théorique du concept et des méthodes d’estimation de la survie nette dans un contexte où la cause de décès est
inconnue, nous nous intéressons à trois problématiques complémentaires. La première porte sur les tables de
mortalité utilisées pour estimer la survie nette. En France, ces tables sont stratiﬁées sur l’âge, le sexe, l’année et
le département. D’autres facteurs pronostiques impactant la mortalité, il serait intéressant d’utiliser des tables
stratiﬁées sur certains de ces facteurs, comme c’est le cas aux États-Unis où des états produisent des tables
stratiﬁées sur l’ethnie. Nous étudions l’impact du manque de stratiﬁcation sur les estimations des eﬀets des
facteurs pronostiques sur la mortalité en excès (i.e. celle due au cancer en l’absence des autres causes de décès)
par des études de simulations et sur données réelles. En 2012, la survie nette a bénéﬁcié de la construction
d’un estimateur non paramétrique de la survie nette, l’estimateur Pohar-Perme. La deuxième problématique de
cette thèse porte sur la construction d’un test de type log-rank pour comparer des distributions de survie nette
estimées par cet estimateur entre plusieurs groupes. Une démarche complémentaire, constituant notre troisième
problématique, est de rechercher dans une aire géographique étudiée des zones diﬀérentes en termes de survie
nette. Nous adaptons une méthode de détection de clusters à la survie nette en utilisant le test précédemment
développé comme critère de découpage. Ce travail propose ainsi de nouveaux développements et de nouveaux
outils pouvant aider les épidémiologistes à étudier et à améliorer la qualité de la prise en charge des patients
atteints d’un cancer. Le travail eﬀectué au cours de cette thèse est applicable à d’autres maladies chroniques.
Mots clés : cancer, survie nette, mortalité en excès, tables de mortalité, test, processus, arbres de régression,
clusters
In cancer research, net survival is a key indicator of the eﬃciency of care. This theoretical concept is the survival
that would be observed in an hypothetical world where the disease under study would be the only possible cause
of death. In population-based studies, where cause of death is unknown, net survival allows us to compare cancer
survival between diﬀerent groups by removing the eﬀect of death from causes other than cancer. In this work,
after presenting the concept and the estimation methods of net survival, we focus on three complementary
issues. The ﬁrst one is about the life tables used in the estimates of net survival. In France, these tables are
stratiﬁed by age, sex, year and département. We know that other prognostic factors impact on mortality. So it
would be interesting to use life tables stratiﬁed by some of these factors, as it is the case in the US, where some
states produce life tables stratiﬁed by ethnicity. We study the impact of the lack of stratiﬁcation in life tables
on the estimates of the eﬀects of prognostic factors on excess mortality by simulation and real data studies. In
2012, the Pohar-Perme estimator was proposed. It is a consistent non parametric estimator of net survival. The
second issue involves the building of a log-rank type test to compare distributions of net survival (estimated
by the Pohar-Perme estimator) between several groups. A complementary approach, which is our third issue, is
to propose a method providing potential spatial clusters which could contain patients with similar net cancer
survival rates at a given time. We adapt a clustering method using the test we have built as a splitting criterion.
This work proposes new developments and new tools to help epidemiologists to study and improve the quality
of care for cancer patients. These methods are suitable to other chronic diseases.
Keywords : cancer, net survival, excess mortality, life tables, test, processus, regression trees, clusters