Estimation du Point de Saut de la Fonction de Hasard sur

publicité
RÉPUBLIQUE ALGÉRIENNE DÉMOCRATIQUE ET POPULAIRE
MINISTÈRE DE L’ENSEIGNEMENT SUPÉRIEUR ET DE LA RECHERCHE SCIENTIFIQUE
UNIVERSITÉ DES SCIENCES ET TECHNOLOGIE DE HOUARI BOUMEDIENNE
FACULTÉ DES MATHÉMATIQUES
DÉPARTEMENT DES PROBABILITÉS STATISTIQUES
RÉSUMÉ DU MÉMOIRE DE MAGISTER EN MATHEMATIQUE
SPÉSIALITÉ : STATISTIQUES & PROBABILITÉS
PRÉSENTÉ PAR1:
Nassima ZABOOT
Thème
Estimation du Point de Saut de la Fonction de Hasard pour des
Données Censurées
Résumé :
Dans cette étude, on s’intéressera à l’estimation du point de saut de la fonction de hasard
pour
des données censurées, en considérant un modèle de survie avec un risque instantané constant et
un seul point de rupture. Ce modèle est à trois paramètres 𝛽, 𝜃 et 𝜏 qui représentent
respectivement : la valeur du taux de hasard avant le saut, la taille ou la mesure du saut, et le
point de saut.
D’une
part on procédera à l’estimation paramétrique de 𝛽, 𝜃 et 𝜏 par trois méthodes : le
maximum de vraisemblance en considérant la fonction log vraisemblance proposée par Gijbels et
Gurler (2003),la procédure d’estimation de Chang, Chen et Hsiung fondée sur l’estimateur de
Nelson-Aalen (1978) de la fonction de hasard cumulée, où le point de saut représente un
maximum local et par la suite, la méthode d’estimation par les moindres carrés en considérant
une partition d’un intervalle contenant 𝜏.
D’autre part, on se penchera sur l’estimation non paramétrique du point de saut 𝜏, en localisant
l’extrémum de l’estimateur à noyau de la dérivée de la fonction de hasard.
Nous illustrerons notre étude par des
simulations afin de vérifier les propriétés des estimateurs
étudiés à taille finie.
Mots clés :
Consistance, données censurées, estimateur de Kaplan Meier, estimateur de Nelson Aalen,
estimation non paramétrique, fonction de hasard, fonction de hasard cumulée, fonction noyau,
maximum de vraisemblance, modèle de survie, moindres carrés, normalité, point de rupture .
Sous la direction de : Ourida SADKI, M.C.A à l’Université d’Oum El Bouagui
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
2
1. Introduction à l’analyse de survie
L’analyse de la survie est née au vingtième siècle et a connu un développement
important dans la seconde moitié du siècle. Les développements dans ce domaine ont eu un
impact profond sur les essais cliniques notamment, la méthode de Kaplan Meier (1958)
pour l’estimation de la fonction de survie qui sera abordée dans le premier chapitre du
mémoire.
1.1.
Données de survie
Le terme de durée de vie est employé de manière générale pour désigner le temps
qui s’écoule jusqu’à l’arrivée d’un événement particulier, autrement dit les données de
survie représentent le temps écoulé entre le début d’une observation et l’arrivée d’un
événement qui n’est pas forcement la mort, mais peut être la guérison, l’apparition d’une
maladie ou de complications. Dans l’industrie, il peut s’agir d’un bris d’une machine ou en
économie, du temps écoulé pour qu’une personne trouve un travail.
La variable représentative est notée 𝑋, sa caractéristique fondamentale est que
cette variable (durée de vie) est positive ou nulle.
1.1.1. Données censurées
Les données censurées sont des observations pour lesquelles la valeur exacte d’un
événement n’est pas toujours connue. Cependant, on dispose tout de même d’une
information partielle permettant de fixer une borne inférieure (censure à droite) ou une
borne supérieure (censure à gauche).
Les raisons de cette censure peuvent être le fait que le patient soit toujours vivant
ou non malade à la fin de l’étude ou qu’il se soit retiré de l’étude pour des raisons
personnelles (immigration, mutation professionnelle ;…etc.).
Type de données censurées
Il existe trois catégories de censures qu’on nomme censure à droite, censure à
gauche et censure par intervalle (lorsqu’on connait la borne supérieure et la borne inférieure
d’un événement)
Il existe différents types de censures à l’intérieur de ces trois catégories :
A- Censure de type I, censure fixe
Etant donné un nombre positif fixé 𝐶 et un n-échantillon X1 , … , Xn , on observe
Ti = Xi ∧ C et δi = I X i =C
Tel que : a ∧ b représente le minimum (a, b)
Le temps de censure est fixé par le chercheur comme étant la fin de l’étude
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
3
B- Censure de type III : jusqu’au rième « décès »
Etant donné un entier positif r fixé, un n-échantillon 𝑋1 , … , 𝑋𝑛 d’une variable
aléatoire positive 𝑋 et les statistiques d’ordre 𝑋(1) , … , 𝑋(𝑛) , on observe :
𝑇𝑖 = 𝑋𝑖 ∧ 𝑋(𝑟)
𝑒𝑡
𝛿𝑖 = 𝐼 𝑋 𝑖 =𝑇𝑖
Autrement dit, ce genre de censure se caractérise par le fait que l’étude cesse
aussitôt qu’a eu lieu un nombre d’événements prédéterminés par l’expérimentateur.
C- Censure de type II, censure aléatoire
Soit 𝑖 tel qu’à chaque 𝑖 = 1, … , 𝑛 est associé un couple de variables aléatoires non
nul Xi , Ci où seul le minimum est observé c'est-à-dire qu’on observe :
Ti = Xi ∧ Ci
et
δi = I X i ≤C i
Où δi est un indicateur de censure tel que :
δi =
1
0
si
si
Xi ≤ Ci
Xi > Ci
Où Xi est l’instant de l’événement.
Ci est l’instant de censure.
Remarque
Le phénomène de troncature est très différent de celui de la censure, car, dans le
cas de la censure, on sait que la variable X, non observée, est supérieure ou inférieure à une
valeur C qui elle a été observée. La troncature élimine de l’étude une partie des X, ce qui a
pour conséquence que l’analyse pourra porter seulement sur la loi de X conditionnellement
à l’événement (c < 𝑋 < 𝐶) en cas de troncature gauche et droite simultanées.
Notre étude portera sur des données censurées aléatoirement en considérant des
couples de variables 𝑇𝑖 , 𝛿𝑖 où: 𝑇𝑖 = min⁡
(𝑋𝑖 , 𝐶𝑖 ) et 𝛿𝑖 (𝑖 = 1, … , 𝑛) est la fonction
indicatrice de censure.
On définit :
𝐹 La fonction distribution des 𝑋𝑖
𝐺 La fonction distribution des 𝐶𝑖
Tel que les 𝐶𝑖 soient indépendantes des 𝑋𝑖
2. Fonction de Hasard
On considère les variables aléatoires X et C absolument continues de fonction de
répartition F et G respectivement où on suppose pour l’identification du modèle que ces
variables sont indépendantes.
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
4
Une des fonctions caractérisant le comportement probabiliste des observations est
la fonction de hasard, définie pour tout 𝑡 de R+ par :
ℎ 𝑡 = 𝑙𝑖𝑚∆𝑡→0
𝑃 𝑡≤𝑋<𝑡+∆𝑡/𝑋≥𝑡
∆𝑡
Ce conditionnement successif fait en sorte que la fonction de risque est un
concept très pertinent, car il décrit la probabilité qu’un décès (événement) ait lieu dans un
petit intervalle de temps, sachant que l’individu est vivant au temps t.
ℎ(𝑡) est donc le taux instantané de sortie d’un état à la date t (même si ℎ(𝑡) n’est
pas nécessairement inférieur à 1).
Fonction de hasard cumulée H
2.1.
C’est l’intégrale du taux de hasard ℎ, notée H t telle que :
t
h
0
H t =
x dx =
tf x
0S x
dx =
t
dS x
−Sx
0
dx
L’estimation de la fonction de hasard cumulée présente les mêmes difficultés que
celle d’une densité de probabilité, cependant, on peut estimer sans lissage la fonction de
hasard cumulée H t :
t
Comme S t = exp − 0 h x dx = e−H t
On peut prendre pour estimateur de la fonction de hasard cumulée :
H t =−
δ
T i<𝑡
i
log 1 − n−i+1
Où δi est une fonction indicatrice définie précédemment
En faisant l’hypothèse d’absence d’ex-æquo.
2.1.1. Estimateur de Nelson Aalen :
Nelson (1972) et Aalen (1978) ont proposé un estimateur de la fonction de risque
cumulée H t . Connu sous le nom d'estimateur de Nelson-Aalen, cet estimateur du taux
cumulé 𝐻 est de la forme suivante :
H t =
t dN (s)
o Y (s)
Qui peut aussi s’écrire, puisqu’il n’y a que des sauts :
H t =
∆N (t i )
i,t i ≤t Y (t )
i
Où ∆N t i représente le nombre de décès à l’instant t i et Yi t le nombre des sujets à
risque juste avant cet instant.
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
5
3. Notion de risque avec point de saut
Les problèmes de ruptures sont apparus dès 1938 sur des exemples de régressions
linéaires avec changement de ponte (Garnier et Hammond 1938) ; mais c’est E.S.Page
(1955) qui est considéré comme initiateur des modèles avec saut (rupture) en étudiant des
problèmes de contrôle de production ; de tels exemples existent dans d’autres domaines
notamment en économétrie où il arrive que les caractéristiques de la situation financière
subissent un changement après un crash financier où dans les traitements médicaux , plus
particulièrement le traitement de la leucémie, pour expérimenter les effets d’une nouvelle
thérapie, les chercheurs mesurent le temps de rechute du malade, après le début de
rémission.
Définition
Soient Θ un ouvert non vide de R+ et Pλ une famille de lois de probabilités (par
exemple), avecλ ∈ Θ.
On dira qu’il ya rupture dans le modèle s’il existe un instant τ sur l’intervalle
d’observation, et donc un indice k 1 < 𝑘 ≤ 𝑛 , et deux paramètres (λ1 et λ2 ) ∈ Θ
avec λ1 ≠ λ2 tel que les variables aléatoires X1 , … , X n soient indépendantes et loi des
Xi est Pλ 1 pour i ≤ k et Pλ 2 pour i > 𝑘.
Gijbels et Gurler (2003) ont proposé un modèle pour la distribution de X spécifié
par la fonction de risque suivante:
ℎ 𝑥 = 𝛽 + 𝜃𝐼 𝜏<𝑥
(3.1 )
Ce modèle est à trois paramètres β, θ et le point de saut τ tel que β > 0
et β + θ > 0, en d’autres termes on suppose que la fonction de hasard de la variable X est
constante en β (la valeur de la fonction de hasard avant le saut) jusqu’à τ avec un point de
saut θ (la taille ou la dimension du saut) ces paramètres sont tous inconnus à estimer.
Sous le modèle (3.1 ) la fonction de hasard cumulative est donnée par :
𝐻 𝑥 =
𝑥
0
ℎ 𝑡 𝑑𝑡 = 𝛽𝑥 + 𝜃 𝑥 − 𝜏 𝐼 𝜏<𝑥
Matthews, Farewell et Pyke (1985) ont testé l'hypothèse nulle d’un taux de hasard
constant contre l’alternative d’un taux d’échec qui implique une discontinuité ou un point
de changement (point de saut). Dans ce qui suit des estimateurs de ces paramètres seront
étudiées en utilisant le modèle (2.1).
4. Estimation paramétrique
Dans cette partie, on se penchera sur l’estimation paramétrique du point de saut τ,
on s’intéressera, aussi, à l’estimation de la valeur du taux de hasard β avant le saut et à
l’estimation de la dimension ou de la mesure du saut θ en τ.
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
6
L’estimation sera faite par trois méthodes:
1- Le maximum de vraisemblance,
2- La procédure proposée par Chang Chen et Hsiung(1994)
3- L’estimation basée sur les moindres carrés proposée par Gijbels et Gurler (2003).
Pour chacune des méthodes on se focalisera sur l’estimation du point de saut τ,
mais on s’intéressera aussi à l’estimation des paramètres θ et β.
Méthode d’estimation par maximum de vraisemblance :
4.1.
Pour la méthode du maximum de vraisemblance, les estimateurs obtenus pour θ
et β sont en fonction du point de saut τ.
Soit f x la fonction densité de la variable aléatoire d’intérêt X :
f x = λ x exp −
x
λ
0
t dt =
0
β exp −βx
β + θ exp −βx − θ x − τ
si x < 0
si 0 ≤ x ≤ τ
si x < 0
Où : X t = ni=1 I(Ti ≤ t)δi représente le nombre de morts jusqu’à l’instant t ;
Et soit nu le nombre d’observations non censurées.
Considérant le cas où la distribution des censures est indépendante des
paramètres τ, θ et β alors la fonction logarithme du maximum de vraisemblance est
donnée d’après Gijbels et Gurler 2003 sous la forme suivante:
n
i=1 min
log L β, θ, τ = X τ logβ + (nu − X τ ) log(β + θ) − β
(β + θ) ni=1 Ti − τ I(Ti > 𝜏)
Ti , τ −
(4.1)
Pour un point de rupture τ fixé, les estimateurs du maximum de vraisemblance
des paramètres β et θ sont :
β=
X τ
n
i=1
T i −τ
θ=
nμ − X τ
n
i=1
T i −τ I(T i >𝜏 )
−β
En remplaçant les estimateurs de β et θ dans la fonction maximum de
vraisemblance (4.1) on obtient la fonction objective suivante :
X τ
nu − X τ
log L τ = −nu + X τ log n
+ (nu − X τ ) log n
i=1 Ti − τ
i=1 Ti − τ I(Ti > 𝜏)
L’estimateur du point de saut τ est obtenu en maximisant la fonction objective cidessus, en fixant un intervalle τ0 , τ1 tel que 0 ≤ τ0 ≤ τ ≤ τ1 ≤ ∞ , où τ1 est
strictement plus petit que la plus grande observation censurée.
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
7
Méthode d’estimation de Chang, Chen et Hsiung
4.2.
Soit τ1 , τ2 deux constantes tel que :0 ≤ τ1 ≤ τ ≤ τ2 < ∞
La méthode d’estimation de Chang, Chen et Hsiung du point de saut τ est basée sur
l’estimateur de Nelson-Aalen de la fonction de hasard cumulative.
Soit la martingale de base suivante :
Mn t =
n
i=1 Ni
t −
t
0
n
i=1 Yi
s λ s ds
Où on définit pour rappel les notations suivantes :
Ni t = I T i ≤t,δ i =1 où N t i est le nombre de décès à l’instant t i
Et
Yi t = I T i >𝑡 est le nombre de sujets à risque juste avant l’instant t i
Soit la relation suivante :
Hn t ∧ T n
−H t∧Tn
=
t∧T n
0
n
i=1 Yi
s
−1
d Mn s
Est une martingale carrée intégrable à moyenne nulle, où : 𝑇 𝑛 = 𝑚𝑎𝑥 𝑇𝑖 , 1 ≤ 𝑖 ≤ 𝑛 .
Soit 𝑇 > 𝜏2 et 𝑔 𝑥 = 𝑥 𝑝 , 0 ≤ 𝑃 ≤ 1
Alors on définit la fonction Ψ tel que:
Ψn t =
Ψ t =
H n T −H n t
T−t
H T −H(t)
T−t
−
−
H n t −H n 0
t
H t −H(0)
t
g t T−t , 0 < 𝑡 <𝑇
g t T−t , 0<𝑡 <𝑇
T−τ
2
Ψ t = θ T−t g t T − t I t<𝜏 + θ T g(t T − t )I t>𝜏
On remarque que Ψ t est croissante sur 0, τ et elle est décroissante sur τ, T , de
là et dans le cas où θ > 0, l’estimateur du point de saut τ est considéré comme suit :
τn = inf t ∈ τ1 , τ2 : Ψn t +
− = supΨn u
Autrement dit c’est la première valeur où le sup est attient, et Ψn t +
−
la limite gauche ou droite en t.
représente
Cas où 𝜽 < 0:
Si θ < 0, alors la relation suivante :
Ψ t =
H T −H(t)
H t −H(0)
−
T−t
t
Présenté par Nassima ZABOOT
g t T−t
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
8
Est décroissante sur 0, τ et croissante sur τ, T , d’où l’estimateur du point de
saut est donné par la relation suivante :
τn = inf t ∈ τ1 , τ2 : Ψn t +
− = inf Ψn u , τ1 ≤ u ≤ τ2
Estimation par les moindres carrés
4.3.
Soit la fonction de base suivante :
Y 𝑥 =
H(𝑥)
𝑥
Où Y x représente la pente de la ligne liant les points 0, H 0
la courbe de la fonction de hasard cumulative H 𝑥 .
et 𝑥, H 𝑥
de
Sous le modèle de base considéré en l’occurrence :
λ 𝑥 = β + θI τ<𝑥
La fonction Y 𝑥 devient sous la forme suivante :
𝜏
𝑌 𝑥 = 𝛽 + 𝜃 1 − 𝑥 𝐼 𝜏<𝑥
On remarque que Y 𝑥 reste constante jusqu’à l’instant τ (avant le saut), et de là
(après le saut) Y 𝑥 est une fonction croissante selon que θ soit positive ou négative
(croissante si θ > 0, décroissante si θ < 0 ).
Notons par Yn 𝑥 la version empirique de Y 𝑥 obtenue en remplaçant la fonction
de hasard cumulative par la fonction donnée par Nelson Aalen, tel que :
Yn 𝑥 =
1
n
δi
i∶z i ≤𝑥 n−i+1
Où z(1) , z(2) , … , z(n) sont les statistiques d’ordre de T1 , T2 , … , Tn .
Remarque
Cette méthode d’estimation consiste à un ajustement avec les moindres carrés, par
une ligne constante avant le point de saut τ et après le point de saut par une fonction de la
forme β + θ 1 −
τ
x
à travers un ensemble de points (𝑥i , yn 𝑥i ) i = 1, … , ng , où 𝑥i
est une grille de point à choisir.
Soit un intervalle 𝜏0 , 𝜏1 , choisi de manière à contenir la valeur 𝜏 du point de saut ;
On considère en premier lieu une partition de cet intervalle représentée par une
grille de points 𝑛𝑔 notée par :
𝜏0 = 𝑥1 ≤ 𝑥2 ≤ ⋯ ≤ 𝑥𝑛 𝑔 = 𝜏1
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
-
9
Vu que 𝑌 𝑥 reste constante avant le saut, l’ajustement par les moindres carrés sera de
la forme d’une droite qui restera constante jusqu’à l’instant 𝜏, après le saut l’ajustement
nécessite plus de données (ajustement d’une fonction), d’où on considère des sousensembles de la partition initiale de points 𝑥1 , 𝑥2 , … , 𝑥n g .
Tel que :
nu : Représente le nombre d’observations non censurées dans l’échantillon.
T(1) ≤ T(2) ≤ ⋯ ≤ T(n u ) sont les observations ″non censurées″ ordonnées (statistiques
d’ordres).
-
L’estimateur de 𝜏 est recherché en réduisant au maximum l’ensemble de grilles de points
considérés au départ avec des portions gauche et droite α1 , α2 .
Gijbels et Gurler ont considéré le choix des portions suivantes :
α1 = 0
α2 > 0
Soit: ml = α1 x nu , mu = (1 − α2 )x nu et T(m l ) , T(m u )
Alors on pose :
𝑥𝑙 = Le plus petit élément de la partition qui dépasse T(m l )
𝑥𝑙 = min xj : j = 1, … , ng tel que: xj >, T(m l )
𝑥𝑢= Le plus grand élément de la partition qui ne dépasse pas T(m u )
𝑥𝑢=𝑚𝑎𝑥 xj : j = 1, … , ng tel que: xj <, T(m u )
Pour chaque xi ∈ Iα 1 ,α 2 Gijbels et Gurler ont considéré l’ajustement par les
moindres carrés suivant :
Soit la fonction de vraisemblance
i
j=1
L(xi , β, θ) =
Où :
𝑥
𝑥ij = 𝑥 i
2
Yn 𝑥j − β +
ng
j=i+1
Yn 𝑥j − β − θ(1 − 𝑥ij )
2
pour 𝑥j > 𝑥i , j = 1, … , ng
j
0
𝑠𝑖𝑛𝑜𝑛
Notant par :
n
g
Yn g = 1 ng j=1
Yn 𝑥j
Alors pour un 𝑥𝑖 fixé, les estimateurs par les moindres carrés de β et θ sont donnés par :
θ 𝑥i =
ng
𝑛𝑔
𝑌 𝑥 1−𝑥 𝑖𝑗 −Y n g j=i+1 1−𝑥 ij
𝑗 =𝑖+1 𝑛 𝑗
2
ng
ng
2
1−𝑥 ij −1 n g j=i+1 1−𝑥 ij
j=i+1
Présenté par Nassima ZABOOT
β(𝑥i ) = Yn g −
1
ng
θ 𝑥i
ng
(1
j=i+1
− 𝑥ij )
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
10
Ces estimateurs β et θ sont ainsi utilisés pour trouver l’ajustement de Y 𝑥j , quel
que soit la grille initiale de points 𝑥j et pour 𝑥i On a :
yn,x i 𝑥j = β 𝑥i + θ 𝑥i (1 − 𝑥ij )I 𝑥 i <𝑥 j
Pour chaque grille de points 𝑥j .
La somme des carrés résiduels pour l’estimation du point de saut 𝜏 obtenue par la
grille de points , donc la valeur prédite est :
RSS 𝑥i =
ng
j=1
yn 𝑥j − yn,x i 𝑥j
2
La fonction RSS 𝑥 calcul l’écart entre la mesure yn 𝑥j et la prédiction.
L’estimateur τLS ,α 1 ,α 2 de 𝜏 proposé par Gijbels et Gurler, est le point de la grille où la
fonction RSS 𝑥 atteint son minimum.
5. Estimation non paramétrique
Comme estimateur non paramétrique du point de saut Muller et Wang ont
proposé la localisation de l’extremum de l’estimateur non paramétrique de la dérivée de la
fonction de hasard; en utilisant la méthode du noyau pour l’estimation non paramétrique de
la dérivée du taux de hasard.
Matthews et Farewell (1982) ont introduit une forme spéciale d’un modèle de
changement de point pour l’analyse des données censurées du traitement de patients atteints
de leucémie en considérant le modèle suivant:
ℎ 𝑥 = 𝛽𝐼 0≤𝑥≤𝜏 + 𝜃𝐼 𝜏≤𝑥≤𝑇
(5.1)
On considère un estimateur lissé de la fonction de hasard, une estimation de τ est
alors obtenue en prenant le point où ce dernier change de concavité.
En se basant sur l’estimation de la fonction de hasard cumulée, traitée par Nelson
Aalen, on propose l’estimateur à noyau de la fonction de hasard obtenu comme convolution
de l’estimateur du taux de hasard cumulé et de la fonction noyau.
Notant par : ℎ(1) et ℎ(2) les dérivées premières et seconde de la fonction de
hasard ℎ
On suppose que pour 0 < τ < 𝑇 on a :
h1 τ
> h1 𝑥
( 𝑥 ≠ τ; 0 ≤ 𝑥 ≤ T)
(5.2)
L’estimation est restreinte à l’intervalle 0, T , tel que 𝑥𝜖 0, 𝑇 et 𝑇 > 0.
On admet que h(1) (τ) < 0 et que h(1) soit défini comme étant l’estimateur à noyau de
h(1) . On propose alors un estimateur de τ de la forme :
τ = inf y ∈ 0, T , h 1 y = inf 𝑥∈ 0,T h 1 𝑥
Présenté par Nassima ZABOOT
5.3
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
11
Et τ représente le point où h 1 atteint son minimum.
-
Remarquant que τ est aussi un point d’inflexion de ℎ vu que h(2) τ = 0 ; pour une
fonction taux de hasard ℎ lissée.
Soit ω ≥ 0 ; on pose K ω une fonction noyau et b= 𝑏(𝑛) une séquence de fenêtres.
Alors l’estimateur à noyau de h ω (x) est la convolution du noyau K ω avec l’estimateur Hn
de Nelson et qui est donné sous la forme suivante :
h ω (𝑥)=
1
b ω +1
Kω (
1
𝑥−μ
b
) dHn (μ)
n
i=1 K ω
h ω 𝑥 = b ω +1
𝑥−T i
b
δi
5.4
n−i+1
La fonction ℎ est ω fois différentiable et elle est 𝜅 fois continue et différentiable
sur 0, T , ∀ un entier 𝜅 ≥ ω + 2.
Pour le choix du noyau K ω ; on admet qu’il est à variation bornée et pour traiter le
biais on suppose que K ω est L2 intégrable.
Calcul du biais et de la variance de 𝐡 𝛚 (𝐱)
Sous des conditions de régularité de la fonction à noyau K ω et pour une séquence
de fenêtres b = b(n) Muller et Wang, proposent les formes ci-après du biais et de la
variance :
Bω,κ = (−1)κ κ!
Vω,κ =
Kω x
2
K ω 𝑥 𝑥 κ d𝑥
d𝑥
Alors le biais et la variance de h ω (𝑥) sont donnés sous la forme suivante :
biais h ω x = bκ−ω h(κ) 𝑥 Bω,κ + o(1)
1
var h ω 𝑥 = nb 2ω +1
h(𝑥)
L (𝑥)
Vω,κ + o(1)
0<𝑥≤𝑇
(5.5)
0≤𝑥≤T
(5.6)
Remarque
De ce qui précède, pour chaque compact inclus en 0, T et pour 𝑥 fixé ϵ C , il
découle les formes suivantes :
sup h ω y − h ω (y) = op 1
(5.7)
y∈C
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Estimation du Point de Saut de la Fonction de Hasard pour des Données Censurées
12
De plus en appliquant le théorème central limite on obtient :
nb2ω+1
1/2
h(𝑥)
h ω 𝑥 − h ω (𝑥) → N λh(κ) 𝑥 Bω,κ , L (𝑥) Vω,κ
(5.8)
Quand n → ∞ et λ2 = limn→∞ nb2κ+1
Normalité asymptotique
Pour la normalité asymptotique de τ, on rappelle qu’on admet la fonction noyau
K1 qui est deux (02) fois différentiable.
On choisit le noyau K j+1 ( j = 1,2) comme Jeme dérivée de K1 , d’où h(j+1) est la
Jeme dérivée de h(1) et h 2 τ = h 2 τ = 0 suivant la définition de τ et de τ .
En utilisant le développement de Taylor, Muller et Wong ont obtenu la relation
suivante :
τ−τ=
h 2 τ −h 2 τ
h 3 τ
+ Rn
Où
Rn = h 2 τ − h 2 τ
h3 τ −h3 τ / h3 τ h3 τ
Avec τ est une valeur intermédiaire entre τ et τ.
En utilisant la relation (5.7)et la consistance, on obtient :
h3 τ −h3 τ < h3 τ −h3 τ + h3 τ −h3 τ
< sup h 3 y − h 3 y + op 1 = op 1
yϵC
Et aussi sous la relation (5.8)et ω = 2 on a : nb5
nb5
1/2
(τ − τ) → N
λh κ τ
h 3 τ
Bω,κ ,
h(τ)
2
L (τ) h 3 τ
1/2
R n → 0 en probabilité, d’où on a :
Vω,κ Convergence en probabilité.
6. Simulation
Afin d’illustrer notre étude, de vérifier les propriétés des estimateurs étudiés et de les "
comparer" à taille finie, nous avons procédé à des simulations. Ces simulations nous ont permis
d’une part de comparer les estimateurs aux vraies valeurs des différents paramètres du modèle de
rupture et d’autre part de visualiser le comportement de ces estimateurs en termes de consistance et
de normalité asymptotique.
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Bibliographies
01 I-Shou Chang, Chen-Hsin Chen and Chao A. Hsiung (1994). Estimation in changepoint hazard rate models with random censorship. IMS Lecture Notes- Monograph Series,
vol (23), 78-92.
02 Xuan Chen, Michael Baron (2009). Change-Point Analysis of Survival Data with
application in Clinical Trials.
http://www.amstatonline.org/sections/qp/qprc/2009/papers/QPRC_Contributed_Session_4/Chen_QPRC_0524.pdf
03 Gilbert Colletaz (2012) Modèle de survie, notes de cours.
http://www.univ-orleans.fr/deg/masters/ESA/GC/sources/Survie_Sas.pdf
04
Arnaks
S.Dalalyan .Statistique
avancée :
méthodes
non
paramétriques
certis.enpc.fr/~dalalyan/Download/poly.pdf‎
[05] J.J. Droesbecke, B. Fichet et P. Tassi (1989). Analyse statistique des durées de vie;
Economica.
06 D.E.Matthews, V.T.Farwell and R.Pyke (1985) . Asymptotic score-static processes
and tests for constant hasard against a change-point alternative. Ann. Statistics Vol(13) pp
583-591.
07 Irenes Gijbels, Ulku Gurler (2003),"Estimation of a change point in a hazard function
based on censored data". Lifetime Data Analysis, 9, 395–411.
08 Zohra Guessoum (1992), Modèle de survie avec rupture, Thèse de magister -USTHB
09 Catherine Huber "Modèles pour des données de survie"
www.biomedicale.univ-paris5.fr/survie/enseign/survie_sansi.pdf‎
10 David G. Kleinbaum and Mitchel Klein,
Biology and Health″, Springer.
Survival Analysis (2005), ″Statistics for
11 John P.Klein and Melvin L. Moeschberger (2003). Survival Analysie, Techniques for
censored and truncated data, Springer-Verlag.
12 Albert W. Marshall. Ingram Olkins (2007), Life distributions, Structure of
nonparametric, Semi-parametric and Parametric families. Springer Series in Statistics.
Sous la direction de : Ourida SADKI, M.C.A à l’Université d’Oum El Bouagui
Bibliographies
14
13 Catherine Matias (2012). Introduction à la statistique non paramétrique.
http://stat.genopole.cnrs.fr/_media/members/cmatias/cours_stat_np.pdf
14 Hans-Georg Muller and Jane-Ling Wang (1990),"No parametric analysis of changes
in hazard rate for censored survival data: an alternative to change-point models".
Biometrika vol. 77 pp. 305– 314.
[15] H. G. Muller and J.-L. Wang (1994). Change-point models for hazard functions, in
Change-point problems, IMS Lecture Notes – Monograph Series vol. 23 pp. 224– 241.
16 Hadjira Ouedfeul et Nora Bouni, (2011), Simulation du comportement asymptotique
des estimateurs du maximum de vraisemblance des paramètres d’un modèle exponentiel de
rupture avec censure. Mémoire de master-USTHB.
17 Sidi Mohamed Ould Maouloud (2007), Quelque aspects fonctionnels et non
fonctionnels des grandes déviations modérées en estimation non paramétrique. Thèse de
Doctorat, Université Reims-Champagne-Ardenne.
18 Yassir Rabhi (2006), Modèles de survie avec un point de rupture. Mémoire,
Université du Québec, Montréal.
19 Ourida Sadki (2008), Estimation de la fonction des quantiles dans le modèle de
censure, Thèse de Doctorat-USTHB.
20 Xiaobing Zhao, Xianyi Wu and Xian Zhou (2009).A change-point model for survival
data with long-term survivors. Statistica Sinica 19, 377-390.
Présenté par Nassima ZABOOT
Sous la Direction de : Ourida SADKI
Téléchargement