R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE
Revue comparative des modèles régressifs de survie brute et de survie
relative
Regression models for crude and for relative survival: a comparative review
R. GIORGI(1), A. ARMANET(1), J. GOUVERNET(1), P. BONNIER(2), M. FIESCHI(1)
(1) Laboratoire d’Enseignement et de Recherche sur le Traitement de l’Information
Médicale, Faculté de médecine, Université de la méditerranée, 27 Bd Jean Moulin, 13005
Marseille, France. Email : roch.giorg[email protected]
(2) Service de Gynécologie-Obstétrique, Hôpital de la Conception, 147 Bd Baille, 13005
Marseille, France.
Background: Statistical analysis of lifetime data is frequently used in the biomedical
field. Our objective is to present a comparative review of the different regression models
according to the survival concept (crude survival or relative survival) in order to express
guidelines.
Methods: In a methodological point of view, we present and compare a regressive
crude survival model (Cox model) and regressive relative survival models for grouped
data (Hakulinen and Tenkanen) and for individuals data (Esteve et al.). Our study is
illustrated by an analysis of survival data of 3,555 incident cases of breast cancer
identified by a hospital registry. Comportment of the models was studied in situation where
censors rates ranged from 31.7 to 96.5%.
Results: Because relative survival analysis (Hakulinen and Tenkanen, Esteve et al.)
takes into account the natural mortality, the risk of death for women older than 50 years is
smaller than this for women aged from 35 to 49, which was not pointed out in the crude
survival analysis (Cox). Estimations obtained from Cox model are more accurate than
those obtained from both studied regressive relative survival models. Estimations obtained
from Esteve et al. model were not very different than those obtained from Hakulinen and
Tenkanen model and they were more accurate.
Conclusion: By definition, analysis of relative survival is more appropriate to estimate
survival for a specific cause of death. It is preferable to use models based on individual
estimation when the data set is small or when the number of individual per strata is small.
Crude survival. Relative survival. Survival analysis. Proportional hazards models. Non-proportional
hazards models.
Position du problème : L’analyse statistique des durées de vie est relativement
fréquente dans le domaine biomédical. L’objectif de cet article est de présenter une revue
comparative des différents modèles régressifs en fonction du type de survie analysée
(survie brute ou survie relative) afin de guider l’utilisateur dans son choix.
Méthodes : Nous présentons et comparons d’un point de vue méthodologique un modèle
régressif de survie brute (modèle de Cox) et les principaux modèles régressifs de survie
relative sur données groupées (Hakulinen et Tenkanen) et sur données individuelles
(Estève et coll.). Notre étude est illustrée à partir des 3 355 cas de cancer du sein
provenant d’un registre hospitalier. Les comportements sont étudiés dans des situations où
les taux de censures varient de 31,7 à 96,5 %.
Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 1
R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE
Résultats : L’analyse par la survie relative (Hakulinen et Tenkanen, Estève et coll.)
montre qu’une fois la mortalité naturelle prise en compte le risque de décès par cancer du
sein chez les patientes âgées de plus de 50 ans est plus faible que celui des patientes de la
tranche d’âge 35 - 49 ans, ce qui n’était pas mis en évidence dans l’analyse par la survie
brute (Cox). Les estimations obtenues par le modèle de Cox sont plus précises que celles
obtenues par les deux modèles régressifs de survie relative. Les estimations obtenues par
la méthode d’Estève et coll. sont peu différentes et plus précises que celles obtenues par la
méthode d’Hakulinen et Tenkanen.
Conclusion : L’analyse de la survie relative, par définition, est plus à même d’étudier
un phénomène de mortalité lié à une pathologie donnée. Il vaut mieux utiliser des modèles
basés sur l’estimation individuelle lorsque l’on dispose d’échantillons de faible taille ou
bien lorsque le nombre d’individus dans les différentes strates de l’étude est petit.
Survie brute. Survie relative. Analyse de survie. Modèles à taux proportionnels. Modèles à taux non-
proportionnels.
Introduction
L’analyse statistique des durées de vie est fréquente dans le domaine biomédical. Les
différents modèles et méthodes existantes sont largement utilisés, que ce soit au cours
d’essais thérapeutiques ou bien dans les registres de populations (registres du cancer et
registres de morbidité) et d’une manière plus générale en épidémiologie descriptive ou
analytique. Le type de données ainsi étudiées ne se limite pas à l’événement fatal d’une
pathologie létale (la survenue du décès) mais peut s’étendre à tout autre événement faisant
intervenir le temps (la récidive ou la guérison d’une maladie donnée, la normalisation d’un
paramètre biologique après une certaine action, …).
Les premiers modèles d’analyse de survie ont été développés afin de modéliser, d’une
manière unifactorielle, la survie observée dans le cadre de l’estimation de la survie
brute [1,2]. Puis, devant les besoins cliniques et épidémiologiques de prendre en compte
simultanément plusieurs facteurs, le modèle régressif semi-paramétrique de Cox [3] a été
développé, ce qui constitue une des recherches majeures en biostatistique [4,5].
Vers les années 1950 est apparu le concept de la survie relative [6] afin de tenir compte des
risques différentiels de décès pour fournir une estimation de la survie nette. Il s’agit en
effet de pouvoir estimer la survie pour une pathologie donnée en l’absence des autres
causes de décès. Des méthodes de calcul unifactoriel, reposant sur des statistiques non
paramétriques, ont ensuite été développées [7-9]. Là encore, les besoins d’estimer la survie
en fonction de plusieurs facteurs pronostiques à partir de modèles statistiquement puissants
sont à l’origine de modèles régressifs de survie relative [10,11].
Dans cet article nous présentons une revue à visée comparative des différents modèles de
régression en fonction du type de survie analysée (survie brute ou survie relative) afin de
Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 2
R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE
guider l’utilisateur dans son choix. Les modèles régressifs étudiés sont, d’une part le
modèle de Cox [3] pour l’analyse de la survie brute, et d’autre part le modèle d’Estève et
coll. [10] et le modèle d’Hakulinen et Tenkanen [11] pour l’analyse de la survie relative.
Ces trois modèles reposent sur l’hypothèse des risques proportionnels qui considère que le
rapport des taux de décès entre deux sous-groupes de patients reste constant au cours du
temps. L’utilisation de ces modèles est illustrée à partir de données de cancer du sein.
Définitions des différents concepts de survie
Lorsque l’on parle d’analyse de survie d’un collectif il faut au préalable préciser du type de
survie dont il s’agit. En effet, on peut distinguer deux concepts selon que l’on parle de
survie brute ou de survie nette [12].
La survie brute (ou survie globale) représente la survie en prenant en compte toutes les
causes de décès. Par exemple, une personne présentant un cancer du sein est soumise à une
certaine force de mortalité liée à son cancer mais elle est également soumise à d’autres
forces de mortalités, spécifiques à sa personne ou non spécifiques, comme c’est le cas pour
l’ensemble de la population générale. La survie brute mesure la résultante de l’ensemble de
ces forces de mortalité.
Le concept de la survie nette diffère dans la mesure où l’on conçoit que la pathologie
faisant l’objet de l’étude de survie ne soit pas l’unique source de mortalité à laquelle sont
exposés, ou par laquelle sont décédés, les individus du collectif étudié. La survie nette
représente donc la survie d’une cause donnée lorsque toutes les autres causes de décès ont
été éliminées. Pour pouvoir l’estimer, on considère que la cause spécifique de décès que
l’on étudie est indépendante des autres causes de décès. La survie nette peut être estimée
par deux méthodes : (1) La méthode de la survie spécifique nécessite de savoir si la cause
du décès est directement imputable à la pathologie étudiée (les décès pour d’autres causes
sont traités comme des données censurées) ; (2) La méthode de la survie relative, ou survie
corrigée, ne nécessite pas de savoir si la cause du décès est directement imputable à la
pathologie étudiée puisque la survie observée du collectif étudié est « corrigée » par sa
survie attendue issue des tables de mortalité de la population générale.
Méthodes d'estimation
Survie brute
Modèle de Cox
Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 3
R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE
Le modèle régressif semi-paramétrique de Cox établit une relation entre le risque
instantané et les facteurs pronostiques qui agissent sur la survie brute. Ce modèle s’écrit :
λ
(t,z) =
λ
0(t)exp(β’z)
λ
0(t), fonction laissée indéterminée et dépendant uniquement du temps, est le risque
instantané de base correspondant aux individus pour qui le vecteur-colonne des facteurs
pronostiques z est nul, et β est le vecteur-ligne des paramètres de régression du modèle.
Le paramètre
β
j représente l’effet propre du facteur pronostique zj sur le risque instantané.
Si zj est un facteur binaire dont les valeurs 0 ou 1 définissent deux groupes de patients,
exp(
β
jzj) est le risque relatif de décès entre ces deux groupes, ajusté sur les autres facteurs
inclus dans le modèle. Le modèle suppose que l’effet
β
j de chaque zj est constant au cours
du temps, de sorte que le rapport des risques instantanés correspondant à deux « profils »
de facteurs caractérisés par deux vecteurs z1 et z2 ne dépend que des valeurs des facteurs
qui composent z1 et z2 (modèle « à risques proportionnels »).
Survie relative
La survie relative (Sc(t)) vise à « corriger » la survie observée du collectif étudié (So(t)) par
la survie attendue dans une population générale en l’absence de la maladie étudiée (Sa(t)).
La survie relative au temps t vaut :
()
(
)
()
tS tS
tS
a
o
c= (1)
En notant respectivement
λ
o(t),
λ
a(t) et
λ
c(t) le risque instantané observé du collectif suivi,
attendu, et spécifique à la pathologie étudiée, la relation (1) est équivalente à :
λ
o(t) =
λ
a(t) +
λ
c(t) (2)
Le calcul de Sa(t) ou
λ
a(t) est effectué à partir des fonctions de survie, ou d’incidence,
issues des tables de mortalité de la population générale pour des sous-populations
présentant des caractéristiques identiques, excepté la maladie étudiée, à celles du collectif
suivi, comme le sexe et l’âge [7-9]. Les fonctions calculées sont alors considérées comme
des constantes, et non des estimations, égales à Sa(t) ou
λ
a(t), en faisant l’hypothèse que le
risque étudié est faible par rapport à l’ensemble des autres causes compétitives de mortalité
de la population générale.
Pour exprimer la survie relative en fonction de facteurs pronostiques, les deux principaux
modèles de régression reposant sur les relations (1) ou (2) qui ont été décrits sont ceux de
Estève et coll. [10] et de Hakulinen et Tenkanen [11]. Tous deux sont des modèles
paramétriques à risques proportionnels, exponentiel par intervalle pour le premier, et
Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 4
R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE
discret pour le second. Ils permettent d’exprimer l’excès de risque auquel est soumis le
collectif étudié.
Modèle d’Estève et coll.
Ce modèle régressif de survie relative repose sur l’équation (2) en exprimant
λ
c(t) en
fonction des facteurs pronostiques selon une relation à risques proportionnels avec un
risque instantané de base constant par intervalles de temps. Chacun de ces intervalles,
notés [tk, tk+1), k = 0, …, K, avec t0 =0 et tk+1 = résulte d’un découpage a priori du temps
de suivi. Le modèle s’écrit :
λ
o(t ; x, z) =
λ
a(x + t ; zs) +
α
kexp(β’z), tk, t < tk+1 ; k = 0, …, K
x est l’âge des individus à l’entrée dans l’étude et qui vaut x + t après un suivi de
longueur t, zs est un sous vecteur de z (zs correspond le plus souvent au sexe) et
α
k
représente le risque instantané spécifique de base supposé constant sur le kème intervalle. Le
risque attendu
λ
a(x + t ; zs) est connu pour chaque sujet du collectif étudié, et considéré
comme constant sur le kème intervalle, k = 1, ..., K+1 : c’est l’incidence obtenue à partir des
tables de mortalité de la population générale pour les sujets présentant les facteurs zs et
d’âge (x + tk) au temps calendaire correspondant à tk. Pour estimer les paramètres inconnus
et effectuer des tests d’hypothèse, la vraisemblance est maximisée sous le modèle en
imposant une contrainte de positivité aux paramètres
α
k.
Modèle d’Hakulinen et Tenkanen
Ce modèle, comme le précédent, repose sur l’équation (2) avec une expression à risques
proportionnels pour le risque spécifique selon :
λ
c(t ; z) = exp(
µ
(t) + β’z) (3)
µ
(t) es tune fonction non précisée du temps. Le modèle est particulièrement adapté au
cas où les durées de suivi ne sont pas connues exactement, mais groupées par intervalles de
temps [tk, tk+1). Il utilise les probabilités conditionnelles de survies après tk +1 sachant que la
durée de survie est supérieure à tk, définies par :
()
{
}
1
exp k
k
t
ok o
t
St
λ
+
=−
dt
()
{
}
1
exp k
k
t
ak a
t
St
λ
+
=−
dt
()
{
}
1
exp k
k
t
ck c
t
St
λ
+
=−
dt
et qui conduisent finalement à définir le modèle qui s’écrit, compte tenu de (1) et (3) :
Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 5
1 / 14 100%