Une classe d'intervalles bayésiens pour des espaces de paramètres restreints par Ehssan Ghashim

publicité
Une classe d'intervalles bayésiens pour des espaces de
paramètres restreints
par
Ehssan Ghashim
mémoire présenté au Département de mathématiques
en vue de l'obtention du grade de maître ès sciences (M.Sc.)
FACULTÉ DES SCIENCES
UNIVERSITÉ DE SHERBROOKE
Sherbrooke, Québec, Canada, décembre 2013
Le 11 décembre 2013
le jury a accepté le mémoire de Monsieur Ehssan Ghashim
dans sa version finale.
Membres du jury
Professeur Éric Marchand
Directeur de recherche
Département de mathématiques
Professeur William E Strawderman
Examinateur externe
Rutgers University
Professeur Taoufik Bouezmarni
Président rapporteur
Département de mathématiques
Je ne sais pas par quoi commencer lorsqu'on veut exprimer un sentiment très particulier pour un homme pas comme les autres : C'est lui qui m'a éduqué, il m'a protégé,
c'est lui qu'il m'a tracé mes premiers pas à l'école et dans la discipline du mathématiques. C'est mon père.
Maman, il se peut que je ne sois jamais capable de trouver les mots justes, mais cela
ne m'empêchera pas d'essayer. Toute ma vie, je m'eorcerai d'exprimer ces doux
remerciements avec chaque petit geste et chaque grand baiser ; parce que tu remplis
mon c÷ur de tant de joie et ma vie de tant d'amour.
Comment ne pas oublier mes s÷urs et mes frères qui n'ont cessé de me soutenir
pendant tout mon parcours. Je leur exprime toute ma gratitude pour leur soutien
moral, ce qui m'a permis d'être à ce niveau.
Ma ancée, merci d'être là, à côté de moi, avec toi c'est l'éternel bonheur à chaque
instant. Les moments passés près de toi je ne peux pas les oublier ! ! Ils resteront à
jamais gravés dans ma mémoire. Je t'aime.
MAHMOUD GHASHIM qu'Allah
RWIDA ZARNAJI, à ma ancée BANA
Tout ce travail est dédié, à mon chère père,
bénisse son âme, à ma chère mère
, et à mes s÷urs et mes frères.
SHAHHET
i
SOMMAIRE
Ce mémoire traite d'une méthode bayésienne, analysée par Marchand et Strawderman [1], pour la construction d'intervalles bayésiens pour des modèles de densités
continues avec contrainte sur l'espace des paramètres Θ. Notamment, on obtiendra
une classe d'intervalles bayésiens Iπ ,α(·), associés à la troncature d'une loi a priori
non-informative π0 et générés par une fonction de distribution α(·), avec une probabilité de recouvrement bornée inférieurement par 1−α
. Cette classe inclut la procédure
1+α
HPD donnée par Marchand et Strawderman [3] dans le cas où la densité sous-jacente
d'un pivot est symétrique. Plusieurs exemples y illustrent la théorie étudiée. Finalement, on présentera de nouveaux résultats pour la probabilité de recouvrement des
intervalles bayésiens appartenant à la classe étudiée pour des densités log-concaves.
Ces résultats établissent la borne inférieure à 1 − 3α2 et généralisent les résultats de
Marchand et al.[2] tenant sous une hypothèse de symétrie.
0
iii
GLOSSAIRE
Voici un glossaire utile pour les notions et dénitions utilisées dans ce mémoire.
: une fonction du paramètre θ à estimer.
(θ)
: un pivot linéaire du modèle de statistique f (x|θ).
• T (X, θ) = a (X)−τ
a (X)
• g : la densité du pivot linéaire T (X, θ).
• G : la fonction de répartition du T (X, θ).
• G−1 : la fonction de répartition inverse du T (X, θ).
• πH : la loi a priori de Haar invariante à droite.
• π0 : la loi a priori tronquée de πH sur l'espace des paramètres [0, ∞) et donnée par
π0 (θ) = πH (θ) I[0,∞) (τ (θ)).
• Iπ ,α(·) = lπ ,α(·) (x), uπ ,α(·) (x) : intervalle de conance bayésien associé à une loi
a priori π0 et généré par une fonction de distribution α(·).
• α(·) : fonction de distribution Rp → [0, α] et P τ (θ) ≥ uπ ,α(·) (x)|x = α(x).
• Cα(·) (θ) = Pθ Iπ ,α(·) (x) τ (θ) .
• C : une sous-classe d'intervalles bayésiens étudiée.
• Iπ ,α (·) (X) : l'intervalle bayésien à ailes égales généré par la fonction de distribution αég (x).
α
• t0 = −G−1 ( 1+α
) ≥ 0 : le point où α(x) = α pour x ≤ t0 .
• τ (θ)
1
2
0
0
0
0
0
0
ég
v
i
REMERCIEMENTS
En préambule à ce mémoire je remercie ALLAH qui m'aide et me donne la patience et
le courage durant ces longues années d'étude. Je souhaite adresser mes remerciements
les plus sincères aux personnes qui m'ont apporté leur aide et qui ont contribué à
l'élaboration de ce mémoire.
Je souhaite remercier en premier lieu mon directeur de recherche, Monsieur Éric
Marchand, professeur de statistique au Département de mathématiques de l'Université de Sherbrooke pour m'avoir accueilli au sein de son équipe. Je lui suis également
reconnaissant pour sa grande disponibilité au quotidien qu'il m'a accordée, ses qualités pédagogiques et scientiques, sa franchise et sa sympathie. J'ai beaucoup appris
à sa côté et je lui adresse ma gratitude pour tout cela. Je le remercie aussi pour le
soutien nancier qu'il m'a apporté.
Un grand remerciement très particulier premièrement, à mon pays la SYRIE et
surtout l'Université de DAMAS , pour la bourse qu'elle m'a accordée durant mes
études, et deuxièmement pour mes professeurs, Monsieur Bechir Ghorra, Monsieur
Hassaan Aakel, et Monsieur Ezat Kassem, ainsi que tous les membres du Département de statistiques de l'Université de DAMAS en SYRIE.
Mes plus vifs remerciements s'adressent aussi à tout le cadre professoral et adminisv
tratif de Département de mathématiques de l'Université de Sherbrooke et en particulier le professeur Taouk Bouezmarni pour ses encouragements et ses conseils. Merci
Marie-France Roy d'être toujours là.
Enn, je dois également souligner le support nancier de Département de mathématiques de l'Université de Sherbrooke.
Ehssan Ghashim
Sherbrooke, 2013
vi
TABLE DES MATIÈRES
SOMMAIRE
iii
GLOSSAIRE
iv
REMERCIEMENTS
v
TABLE DES MATIÈRES
vii
LISTE DES FIGURES
viii
INTRODUCTION
1
CHAPITRE 1 Notions Préliminaires
4
1.1
Dénitions et intervalles de conance . . . . . . . . . . . . . . . . .
4
1.2
L'inférence bayésienne . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.2.1
14
Intervalle de conance bayésien HPD . . . . . . . . . . . . .
vii
CHAPITRE 2 Probabilité de recouvrement fréquentiste de l'intervalle HPD
20
2.1
Illustration : cas d'une loi normale avec moyenne positive . . . . . .
21
2.2
Cadre général avec des densités symétriques : la borne inférieure
1−α
1+α
26
CHAPITRE 3 Probabilité de recouvrement fréquentiste pour une
classe d'intervalles bayésiens
33
3.1
3.2
Cadre général avec ou sans symétrie : la borne inférieure
1−α
1+α
pour la
probabilité de recouvrement fréquentiste . . . . . . . . . . . . . . . .
34
3.1.1
41
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Cadre général avec ou sans symétrie : la borne inférieure 1 − 3α
pour
2
la probabilité de recouvrement fréquentiste
. . . . . . . . . . . . . .
3.2.1
Dénitions et propriétés préliminaires
3.2.2
La borne inférieure 1 −
3α
2
56
. . . . . . . . . . . .
57
avec des densités log-concaves . .
59
CONCLUSION
75
BIBLIOGRAPHIE
77
viii
LISTE DES FIGURES
1.1
La longueur moyenne de l'intervalle de Pratt et de l'intervalle usuel
pour a = Φ−1 (1 − α) et 1-α=0.95.
. . . . . . . . . . . . . . . . . .
12
1.2
La crédibilité de l'intervalle de Pratt, loi a priori π(θ) = 1 et 1-α=0.95. 16
1.3
La probabilité de recouvrement de IπN et IπH pour 1-α=0.95. . . . .
18
2.1
L'intervalle HPD pour le modèle N( θ,1) et 1-α=0.90. . . . . . . . .
23
2.2
La probabilité de recouvrement fréquentiste de l'intervalle IHP D (X)
pour le modèle N(θ,1) et 1-α=0.9.
. . . . . . . . . . . . . . . . . .
25
2.3
L'intervalle HPD pour le modèle Logistique( θ,1) et 1-α=0.90. . . . .
31
2.4
La probabilité de recouvrement pour le modèle Logistique( θ,1) et 1-
α=0.90. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
3.2
32
Les fonctions de distribution α(·) pour le modèle Gamma(5, θ), θ ≥ 1,
et 1-α=0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
45
Intervalles bayésiens pour le modèle Gamma(5, θ), θ ≥ 1, 1-α=0.95. .
46
ix
3.3
Les probabilités de recouvrement associées aux intervalles bayésiens
pour le modèle Gamma(5, θ), θ ≥ 1 et 1-α=0.95. . . . . . . . . . . .
3.4
47
Les fonctions de distribution α(·) pour le modèle Fisher(4,12), θ ≥ 1,
et 1-α=0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
3.5
Intervalles bayésiens pour le modèle Fisher(4,12) et 1- α=0.95. . . .
50
3.6
Les probabilités de recouvrement associées aux intervalles bayésiens
pour le modèle Fisher(4,12), θ ≥ 1 et 1-α=0.95. . . . . . . . . . . .
3.7
51
Les fonctions de distributions α(·) pour le modèle N (θ, 1), θ ≥ 0, et
1-α=0.90. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
3.8
Intervalles bayésiens pour le modèle N (θ, 1), θ ≥ 0, et 1-α=0.90. . .
53
3.9
Les probabilités de recouvrement associées aux intervalles bayésiens
pour le modèle N (θ, 1), θ ≥ 0 et 1-α=0.90. . . . . . . . . . . . . . .
x
54
INTRODUCTION
Le but principal de la Statistique est d'obtenir, à partir d'un ensemble d'observations
d'un phénomène aléatoire, une inférence sur la distribution d'un échantillon d'un tel
phénomène. Il s'agit de décrire un phénomène passé ou d'obtenir une prédiction d'un
phénomène à venir de nature similaire. L'inférence statistique dépend d'un modèle de
probabilité du phénomène observé et implique nécessairement une étape de formalisation réductrice. Sans cette notion probabiliste, aucune conclusion utile ne pourra être
déduite. Face à cette réduction de la complication du phénomène observé, il existe
diverses approches statistiques : l'une d'elles est l'approche non paramétrique et une
autre représente la distribution d'un échantillon par une fonction de densité f (x|θ)
où le paramètre θ, qui est de dimension ni, est le seul inconnu. Cette approche
est dite l'approche paramétrique. Considérons cette dernière approche, il y a deux
méthodes pour estimer le paramètre θ, ou une fonction τ (θ) : la première est dite
l'estimation ponctuelle et la deuxième est l'estimation par intervalle. Concernant la
méthode de l'estimation par intervalle, on peut distinguer trois classes de méthodes
pour construire un intervalle (ou une région) de conance pour le paramètre θ : les
méthodes classiques dites aussi fréquentistes, La méthode de Fisher (appelée F iducial
intervals), et les méthodes bayésiennes qui considèrent que le paramètre θ inconnu
est aléatoire et que θ suit une loi a priori π sur l'espace des paramètres Θ.
1
Ce présent travail traite de l'estimation par intervalle dans le cas où l'espace des paramètres Θ est restreint. Par exemple, soit un modèle de statistique X ∼ Fθ (·), une
méthode pour trouver un intervalle de conance de niveau 1 − α, pour le paramètre
θ d'un tel espace Θ, est de tronquer un intervalle classique I(x) du θ qui préserve
toujours la probabilité de recouvrement fréquentiste. Toutefois, il peut arriver que
l'intervalle soit vide ou jugé trop court par l'utilisateur.
Ce problème a été traité par plusieurs auteurs dont Mandelkern [9], Roe et Woodroofe [4] et Zhang et Woodroofe ([5], [6]). En eet, ils ont étudié l'estimation par
intervalle bayésien associé à une loi a priori non-informative, et notamment la probabilité de recouvrement fréquentiste des intervalles bayésiens qui en découlent. En
fait, dans [9], Mandelkern traite deux problèmes d'estimation en physique dont le
premier est basé sur le modèle de loi normale X ∼ N(μ, 1), où μ ≥ 0 et le deuxième
concerne l'estimation du paramètre λ ≥ 0 d'un modèle de Poisson P0(λ + b) avec b
connue. Roe et Woodroofe [4] et Zhang et Woodroofe [5] ont utilisé l'inférence bayésienne pour trouver un intervalle de conance bayésien le plus court (HPD) de la
moyenne θ d'un modèle N(θ, σ2) (avec σ2 connue dans [4] et inconnue dans [5]) avec
la contrainte θ ≥ 0. Ils ont établi une borne inférieure 1−α
pour la probabilité de
1+α
recouvrement fréquentiste de cet intervalle. En 2006, Marchand et Strawderman [3]
ont étudié de façon générale ce type de problème. Notamment, ils ont construit une
procédure pour trouver un intervalle de conance bayésien HPD, associé à la loi a
priori non-informative tronquée de la mesure de Haar invariante à droite, pour des
lois admettant un pivot linéaire T (X, θ) ayant une densité continue et unimodale.
En plus, ils ont démontré que la borne inférieure 1−α
, de la probabilité de recouvre1+α
ment fréquentiste de l'intervalle HPD, est valable pour une grande classe de lois et
de contextes. Tandis que Marchand et al. [2] ont établi la borne inférieure 1 − 3α2 , qui
représente une amélioration signicative par rapport à la borne 1−α
lorsque α ≤ 13 ,
1+α
2
de la probabilité de recouvrement pour le cas où la densité d'un pivot est symétrique
et log-concave. Ces deux bornes demeurent non applicables pour les cas où la densité
du pivot sous-jacent n'est pas symétrique, même s'il est plausible (dans [3]) que la
probabilité de recouvrement minimale est bornée inférieurement par
1−α
.
1+α
Dans ce mémoire, divisé en trois chapitres, on traitera une méthode d'estimation par
intervalle bayésien avec contrainte sur l'espace des paramètres en se basant sur les
résultats de Marchand et Strawderman [1], où les lois a priori utilisées sont la troncature des densités Haar invariantes à droite. Notamment, on étudiera la probabilité de
recouvrement d'un tel intervalle bayésien Iπ0 ,α(·) associé à la loi a priori π0 et généré
par une fonction de distribution α(·) qu'on dénira au chapitre 3. Dans le premier
chapitre, on donnera quelques notions préliminaires en statistique qu'on a jugé intéressantes pour la compréhension des intervalles de conances bayésiens, l'intervalle
HPD, et leurs probabilités de recouvrement. Les méthodes de Roe et Woodroofe [4] et
Marchand et Strawderman [3], pour un problème particulier où la densité d'un pivot
sous-jacent est symétrique et unimodale, font partie du chapitre 2. Dans le troisième
chapitre, on exposera les résultats de Marchand et Strawderman [1]. Dans la Section
3.1, une classe d'intervalles bayésiens, qui inclut l'intervalle HPD dans le cas où
la densité du pivot sous-jacent est symétrique, avec une probabilité de recouvrement
supérieure à
1−α
,
1+α
est obtenue. De plus, à la Section 3.2, on présentera de nouveaux
résultats pour la probabilité de recouvrement et on établira la borne inférieure 1 − 3α
2
de la probabilité de recouvrement d'un intervalle bayésien à ailes égales dans le cas
où la densité du pivot T (X, θ) est unimodale en 0 et log-concave. Ces résultats font
l'objet d'une collaboration avec Bill Strawderman et Éric Marchand.
3
CHAPITRE 1
Notions Préliminaires
1.1 Dénitions et intervalles de conance
Dans cette section, on donne quelques dénitions et notions préliminaires qu'on a
jugé intéressantes pour la compréhension des intervalles de conance bayésiens et de
leurs probabilités de recouvrement fréquentiste.
Dénition 1. Une densité f sur R est dite symétrique par rapport à c ∈ R si :
f (t + c) = f (c − t),
pour tout t ∈ R.
Dénition 2. Une densité f de probabilité sur R est unimodale autour d'un mode,
m ∈
R, si la fonction de répartition de cette loi est convexe ( f croissante) sur
(−∞, m]
et concave (f décroissante) sur (m, ∞).
Exemple 1. La densité de loi normale N(μ, σ ) est symétrique et unimodale autour
2
de μ, la densité de loi Cauchy
de m.
1
π 1 + (x − m)2
4
est symétrique et unimodale autour
Dénition 3.
(a) Soit f0 (t) une densité. Alors la famille des densités f0 (t − μ),
indexée par le paramètre μ, −∞ < μ < ∞ , est dite une famille de position et
μ est dit le paramètre de position pour cette famille.
(b) Soit f0 (t) une densité. Alors la famille des densités ( σ1 )f0 ( σt ), indexée par le
paramètre σ > 0 , est dite une famille d'échelle et σ est dit le paramètre d'échelle
pour cette famille.
(c) Soit f0 (t) une densité. Alors la famille des densités ( σ1 )f0 ( t−μ
), indexée par le
σ
paramètre (μ, σ), −∞ < μ < ∞ et σ > 0, est dite une famille de positionéchelle ; μ est dit le paramètre de position et σ est dit le paramètre d'échelle.
Exemple 2. (a) Soit X ∼ Exp(1) dont sa densité est f (x) = e
0
−x
, x ≥ 0. Alors
pour obtenir une famille de position, on remplace x par x − μ et la densité de cette
famille de position est f (x, μ) = e−(x−μ) , x ≥ μ.
(b) Le modèle Gamma(r, θ), r connu, est un modèle à paramètre d'échelle θ > 0 où
la densité f est donnée par f (t) = 1θ f0 ( θt ) avec
tr−1 e−t
I(0,∞) (t).
f0 (t) =
Γ(r)
(c) Soit X ∼ Student de densité f0 (t) avec n − 1 degrés de liberté. On dit que
la famille des densités ( σ1 )f0 ( t−μ
) est Student avec paramètre de position μ et de
σ
paramètre d'échelle σ avec n − 1 degrés de liberté.
Dénition 4. Soit un modèle de probabilité X ∼ f (·),
θ
où (X1 , . . . , Xn ) ∼ f0 (·), θ ∈
Θ.
(a) On dit que la variable aléatoire T(X, θ) est un pivot si sa loi de probabilité est
indépendante de θ, ∀θ ∈ Θ.
(b) On dit que la variable aléatoire T (X, θ) est un pivot linéaire si elle est un pivot
5
qui s'écrit sous la forme suivante :
T (X, θ) =
a1 (X) − τ (θ)
,
a2 (X)
où a1 (·) et a2 (·) sont des fonctions de l'observé et τ (·) est une fonction de θ
prenant des valeurs dans
Exemple 3.
R.
Soit X=(X1 , . . . , Xn ) où X1 , . . . , Xn sont des variables aléatoires iid
X̄ − μ
√ est un pivot linéaire avec a1 (x) =
N(μ, σ 2 ) , σ connu. Posant θ = μ, on a que
σ/ n
√
x̄, a2 (x) = σ/ n, τ (θ) = μ et sa densité est N(0, 1). Si σ inconnu , posant θ = (μ, σ),
X̄ − μ
√
√ est un pivot linéaire avec a1 (x) = x̄, a2 (x) = S/ n, τ (θ) = μ et sa
on a que
S/ n
√
densité est Student centrée en x, de paramètre d'échelle s/ n, et avec n − 1 degrés
de liberté (Exemple 2).
Dénition 5.
Soit X=(X1 , . . . , Xn ) ∼ fθ (·) un n-échantillon, θ ∈ Θ. Supposons
qu'on désire à estimer τ (Θ) ⊆
R
et qu'on peut trouver deux fonctions de l'observé
a, b : Rn → R telles que :
Pθ (a(X) ≤ τ (θ) ≤ b(X)) ≥ 1 − α, ∀θ ∈ Θ.
(1.1)
L'intervalle [a(X), b(X)] est alors appelé un intervalle de conance pour τ (θ) avec
niveau de conance (1 − α).
Maintenant, si T (X, θ) est un pivot, alors on peut trouver a et b tels que :
P (T (X, θ) ∈ [a, b]) = 1 − α, pour tout θ ∈ Θ,
et ainsi P (I(X) τ (θ)) = 1 − α où I(x) = {τ (θ) : T (x, θ) ∈ [a, b]} est l'intervalle de
conance de niveau 1 − α. Dans le cas où T (X, θ) est un pivot linéaire avec a2 (·) > 0,
on obtient :
6
I(x) = θ :
a1 (x)−τ (θ)
a2 (x)
∈ [a, b] = [a1 (x) − b a2 (x), a1 (x) − a a2 (x)].
Il est possible qu'il y ait plusieurs intervalles de conance pour
de conance
(1 − α).
θ
avec le même niveau
Il est clair qu'on pourrait être intéressé par le plus court. Ce
problème admet une élégante solution lorsque la densité de
T (X, θ)
est unimodale.
Voici une illustration.
Exemple 4.
(a)
Soit
d'échelle. On a que
que
Pθ (a ≤
X
θ
X
θ
X ∼ Gamma(r, θ), r
∼ Gamma(r, 1)
≤ b) = 1 − α.
connu et
pour tout
θ,
θ > 0
est un paramètre
alors on peut trouver
Donc un intervalle de conance de niveau
(a, b)
1−α
tels
pour
θ
est
X
x x
I(x) = θ : a ≤
≤b =
,
,
θ
b a
et la longueur de cet intervalle est x a1 − 1b .
(b) Par ailleurs, T (X, θ) = log(X) − log(θ) est un pivot linéaire avec a1 (x) =
log(X), a2 (x) = 1, τ (θ) = log(θ) et T (X, θ) =d log(Y ) où Y ∼ Gamma(r, 1).
On peut trouver a et b tels que :
P (a ≤ log(Y ) ≤ b ) = 1 − α ⇒ Pθ (a ≤ log(X) − log(θ) ≤ b ) = 1 − α.
Donc un intervalle de conance pour τ (θ) = log(θ) est I (x) = [log(X) − b , log(X) −
a ] et la longueur de cet intervalle est b − a . On peut rapporter un intervalle de
X X
conance pour θ à partir du I (x) avec [elog(X)−b , elog(X)−a ] = [ , ] c'est-à-dire
eb ea
x x
de la forme [ b , a ].
On remarque que le problème de minimiser la longueur b − a est équivalent à mini-
x
miser le rapport
a
u(x)
= e = eb −a . Donc, on voit que l'intervalle ici dière de celui
l(x)
x
eb
en (a) et qu'un critère de minimisation de longueur dépend de la paramétrisation.
7
Une autre alternative est de distribuer également, sous la distribution du pivot, la probabilité α du complémentaire (a, b). C'est-à-dire de choisir a = G−1( α2 )
et b = G−1(1 − α2 ). Cet intervalle a l'avantage de ne pas dépendre de la paramétrisation et continue d'être raisonnable pour des paramétrisations monotones. Il est
couramment utilisé pour l'estimation de la variance d'une loi normale et est de la
forme
(c)
(n − 1)S 2
(n − 1)S 2
2
≤
σ
≤
,
X2n−1,1− α
X2n−1, α
2
2
où X1, · · · , Xn sont des variables aléatoires indépendantes de la loi N(θ, σ2), τ (θ) =
−X̄)
σ 2 , S 2 = ni=1 (Xn−1
et X2n−1,Δ est le quantile d'ordre Δ ∈ (0, 1) d'une loi Chi-deux
avec n − 1 degrés de liberté.
i
2
Le résultat suivant nous donne, pour les densités unimodales, l'intervalle de conance
pour τ (θ) le plus court parmi tous les intervalles de conance dénis en (1.1) .
Théorème 1. Soit f une densité unimodale et soit l'intervalle [a, b] satisfaisant :
(i)
b
a
f (x)dx = 1 − α,
(ii) f (a) = f (b) > 0,
(iii) a ≤ m ≤ b,
où m est le mode de f .
Alors [a, b] est l'intervalle le plus court parmi tous les intervalles satisfaisant
Démonstration : Voir Casella et Berger [8].
(i).
Le prochain corollaire est une application du Théorème 1 dans le cas où f une densité
symétrique.
Corollaire 1. Soit f une densité symétrique et unimodale. Pour α > 0 xé, considérons les intervalles [a, b] satisfaisant
b
a
f (x)dx = 1 − α.
8
L'intervalle le plus court
parmi cette classe est obtenu en choisissant a et b tels que
∞
f (x)dx = α2 .
b
a
−∞
f (x)dx =
α
2
et
Démonstration : Soit μ le point de la symétrie et mode, et soit b = 2μ − a, alors
∞
a
on a f (b) = f (2μ − a) = f (a) et 2μ−a f (x)dx = α2 . On a −∞ f (x)dx = α2 ≤
μ
1
=
f (x)dx, donc a ≤ μ et de même façon on obtient b ≥ μ. On a aussi que
2
−∞
a
f (a) ≥ f (x) pour tout x ≤ a et −∞ f (x)dx ≥ 0 ⇒ f (b) = f (a) > 0. Donc toutes les
conditions du Théorème 1 sont satisfaites.
Exemple 5.
Soit X un n-échantillon de loi normale N(μ, σ 2 ). On suppose que σ
est connu et que le paramètre est θ = μ. On prend T (X, θ) =
X̄−μ
√
σ/ n
comme fonction
pivotale. On a que T (X, θ) ∼ N(0, 1) pour tout θ. On cherche deux réels a, b tel que
a < b et
P (a ≤ G ≤ b)) = 1 − α, G ∼ N(0, 1),
d'où
Pμ (a ≤
X̄ − μ
√ ≤ b) = 1 − α,
σ/ n
donc
σ
σ
Pμ (X̄ − b √ ≤ μ ≤ X̄ − a √ ) = 1 − α,
n
n
c'est-à-dire
σ
σ
X̄ − b √ , X̄ − a √
n
n
est un intervalle de conance de θ de niveau 1 − α. Sa longueur est (b − a) √σn . Il faut
trouver a, b tels que Φ(b) − Φ(a) = 1 − α et tels que b − a soit minimum. On sait que
la densité de la loi normale est symétrique et unimodale. Alors, d'après le Corollaire
9
1, il sut de prendre a = −c, b = c > 0 où c est le quantile supérieur d'ordre 1 −
α
2
de la loi N(0, 1) noté z(1− α2 ) . Donc l'intervalle le plus court parmi cette classe est :
σ
σ
X̄ − z(1− α2 ) √ , X̄ + z(1− α2 ) √ .
n
n
On poursuit avec la probabilité de recouvrement, quelques propriétés utiles, et des
exemples.
Dénition 6. Soit X ∼ f (·) et I(X) = [L(X), U (X)] un intervalle de conance
θ
pour τ (θ) ∈ R. La probabilité de recouvrement de [L(X), U (X)] est la probabilité que
l'intervalle aléatoire I(X) contient τ (θ), et elle est donnée par Pθ ([L(X), U (X)] τ (θ)).
Proposition 1. Soit X ∼ f (·) et I(X) = [L(X), U (X)] un intervalle de conance
θ
pour τ (θ) ∈
R.
Supposons que les fonctions L(·) et U (·) sont continues et crois-
santes. Alors, à condition qu'il existe des inverses U −1 (τ (θ)) et L−1 (τ (θ)) ∀τ (θ), la
probabilité de recouvrement est donnée par :
C(θ) = Pθ ([L(X), U (X)] τ (θ)) = Pθ (X ∈ U −1 (τ (θ)), L−1 (τ (θ)) ).
(1.2)
Exemple 6. Soit X ∼ N(θ, 1) de densité φ(x − θ). L'intervalle usuel de θ de niveau
de conance 1 − α est Iusuel (X) = X ± Φ−1 (1 − α2 ) qui a une longueur constante
2Φ−1 (1 − α2 ) et une probabilité de recouvrement fréquentiste 1 − α. Un autre intervalle
intéressant de θ est l'intervalle de Pratt (voir Pratt [13]) qui est déni de la façon
suivante avec a = Φ−1 (1 − α) :
IP ratt (x) = {θ : min {0, (x − a)} ≤ θ ≤ max {0, (x + a)}} .
10
La longueur de IP ratt (x) est alors donnée par
⎧
a−x
⎪
⎪
⎪
⎪
⎨
2a
l(IP ratt (x)) =
⎪
⎪
⎪
⎪
⎩
x+a
si x ≤ −a
si x ∈ (−a, a)
si x ≥ a.
On s'intéresse à calculer la longueur espérée de IP ratt (X). On a
Eθ (l(IP ratt (X))) =
−a
a
∞
(a − x) φ(x − θ)dx + 2a
φ(x − θ)dx +
(a + x) φ(x − θ)dx
−∞
−a
a
−a
∞
a φ(x − θ)dx +
a φ(x − θ)dx
= 2a (Φ(a − θ) − Φ(−a − θ)) +
−∞
a
∞
−a
x φ(x − θ)dx −
x φ(x − θ)dx = a (1 + Φ(a − θ) − Φ(−a − θ)) + A.
(∗)
+
a
−∞
A
Du fait que
∞
∞
x
t φ(t)dt = φ(x),
−a
x φ(x − θ)dx
∞
∞
=
(x − θ) φ(x − θ)dx +
θ φ(x − θ)dx
a
a
−a
−a
−
(x − θ) φ(x − θ)dx +
θ φ(x − θ)dx
A =
x φ(x − θ)dx −
on a
a
=
−∞
∞
t φ(t)dt −
a−θ
−∞
−a−θ
−∞
−∞
−a
t φ(t)dt + θ Φ(x − θ)|∞
a − θ Φ(x − θ)|−∞
= φ(a − θ) + φ(a + θ) + θ − θ (Φ(a − θ) + Φ(−a − θ)) .
Donc, de (∗) et (∗∗), on obtient
Eθ (l(IP ratt (X))) = a + θ + (a − θ)Φ(a − θ) − (a + θ)Φ(−a − θ) + φ(a − θ) + φ(a + θ).
Maintenant, on calcule la probabilité de recouvrement fréquentiste de IP ratt (x) pour
tout θ. Pour θ = 0, on a 0 ∈ IP ratt (x) pour tout x ⇒ P (0 ∈ IP ratt (x)|θ = 0) = 1.
11
(∗∗)
Pour θ > 0, P (θ ∈ IP ratt (X)) = P (θ ≤ max {0, (X + a)}) = P (θ ≤ X + a) = P (Z ≥
−a) = 1 − α. De même façon on obtient P (θ ∈ IP ratt (X)) = 1 − α pour θ < 0.
Alors, l'intervalle de Pratt Ia (X) garantit une probabilité de recouvrement ≥ 1 − α
et admet une longueur espérée plus petite que l'intervalle usuel lorsque |θ| n'est pas
trop grand. En eet, la longueur espérée de IP ratt (X) atteint son minimum à θ =
0 et le rapport des longueurs moyennes de l'intervalle de Pratt et de l'intervalle
a(1 − α) + φ(a)
usuel est
≈ 0.85 avec 1 − α = 0.95. Voici une illustration pour a =
Φ−1 (1 − α2 )
Φ−1 (0.95) ≈ 1.645.
Figure 1.1 La longueur moyenne de l'intervalle de Pratt et de l'intervalle usuel pour
a = Φ−1 (1 − α) et 1-α=0.95.
12
1.2 L'inférence bayésienne
À la section précédente, on s'est placé dans un espace probabilisé paramétrique classique modélisé par X ∈ (X , B, {Pθ , θ ∈ Θ}), où X désigne l'espace des données, B
est la tribu borélienne dans Rp et Θ est l'espace des paramètres θ. Classiquement, le
but de l'analyse statistique est de faire de l'inférence sur θ, c'est-à-dire décrire un
phénomène passé ou à venir dans un cadre probabiliste. Pour l'approche bayésienne,
l'idée principale est de considérer le paramètre inconnu θ comme aléatoire : l'espace
des paramètres Θ est géré par une loi de probabilité π tel que (Θ, B, π) est un espace
probabilisé. On notera θ ∼ π. π est appelée loi a priori. Les prochaines dénitions
et propriétés sont connues en statistique bayésienne et peuvent être retrouvées dans
plusieurs livres dont les livres de Berger [7] et Robert [14].
Dénition 7. Le modèle est dit dominé s'il existe une mesure commune dominante
λ, c'est-à-dire pour tout θ, Pθ
admet une densité par rapport à λ : f (x|θ) = dPdλ . Cette
fonction τ (θ) = f (x|θ), vue comme une fonction de θ lorsqu'on observe X = x, est
appelée vraisemblance du modèle. C'est la loi de X conditionnellement à θ.
θ
Dénition 8. Dans le cas d'un modèle dominé, la loi jointe de (X, θ) s'écrit Ψ (X, θ) =
π
f (X|θ)dπ(θ) = f (X|θ)π(θ)dλ(θ),
la dernière égalité étant valable dans le cas absolument continue par rapport à λ, la mesure de Lebesgue. La densité a posteriori est
dénie par
π(θ|x) = f (x|θ)π(θ)
.
f (x|θ)dπ(θ)
Θ
La quantité mπ (x) = Θ f (x|θ)dπ(θ) est la densité marginale de X et est une constante
de standardisation de la loi a posteriori, indépendante de θ. On peut donc travailler
à une constante multiplicative près π(θ|x) ∝ f (x|θ)π(θ). On ajoute que par construction la loi a posteriori est absolument continue par rapport à la loi a priori π et
13
résume l'information ce que l'on peut utiliser pour construire des intervalles crédibles pour une fonction quelconque
La détermination de la loi
τ (θ) du paramètre θ.
a priori est l'étape la plus importante dans la mise en
÷uvre de l'inférence bayésienne. En souvent, il est nécessaire de faire un choix par
défaut ou arbitraire de loi
a priori, ce qui peut avoir un impact considérable sur l'in-
férence étudiée. Il y a plusieurs techniques usuelles dont l'approche
a priori conjuguée
qui nécessite une quantité limitée d'information, et l'approche non informative qui
est obtenue à partir de la densité de l'échantillon (pour plus de détails, voir Robert
[14] et Berger [7]). Considérant les lois a priori non-informatives, l'une des méthodes
pour choisir une loi
a priori est la mesure de Haar invariante à droite.
Exemple 7. (a) Considérons les familles de position-échelle, l'espace de paramètres
Θ est donné par Θ = {(θ, σ) : θ ∈ R, σ > 0}. La mesure a priori Haar invariante à
droite est donnée par
πH (θ, σ) =
1
σ
I(−∞,∞) (θ) I(0,∞) (σ).
(b) Considérons les familles d'échelle, l'espace de paramètres Θ est donné par Θ =
{σ : σ > 0, σ ∈ R}. Alors, dans ce cas, la mesure a priori Haar invariante à droite
est donnée par
πH (σ) =
1
σ
I(0,∞) (σ).
(c) Considérons les familles de position, l'espace de paramètres Θ est donné par
Θ = {θ : θ ∈ R}. La mesure a priori Haar invariante à droite est donnée par πH (θ) =
I(−∞,∞) (θ).
1.2.1 Intervalle de conance bayésien HPD
Dans cette sous-section, on donne des dénitions et des résultats pour la construction
d'intervalles bayésiens accompagnés d'exemples.
Dénition 9.
Un intervalle bayésien pour
14
τ (θ) associé à la loi a priori π(θ) de
niveau (1 − α) donné est un couple (l(x), u(x)) tel que :
P [l(x) ≤ τ (θ) ≤ u(x)|x] = 1 − α, pour tout x.
(1.3)
Dénition 10. Soit π(·|x) une densité a posteriori pour θ associée à la loi a priori
π . Soit A(x) une région telle que :
A(x) = {θ ∈ Θ| π(θ|x) ≥ c(x)} , c(x) ≥ 0.
(1.4)
Si la constante c(x) est choisie an de satisfaire l'équation (1.3), on dit que A(·) est
la région bayésienne de niveau de conance (1 − α) ayant la plus grande densité a
posteriori ou la région HPD (Highest Posterior Density).
Remarque 1. Si π (·|x) est unimodale dans le cas unidimensionnel, alors la région dénie par (1.4) est un intervalle et elle minimise la longueur parmi tous les
intervalles bayésiens de niveau 1 − α.
Remarque 2. La probabilité de recouvrement donnée par P (I (x) θ|θ) n'est pas
θ
π
nécessairement égale à 1 − α.
Dans l'exemple suivant, on va voir la diérence entre la crédibilité et la probabilité
de recouvrement fréquentiste.
Exemple 8. Dans l'Exemple 6, on a trouvé que la probabilité de recouvrement est
égale à 1 − α pour tout θ = 0 et égale à 1 quand θ = 0. Maintenant, pour la loi a
priori πH (θ) = I(−∞,+∞) (θ), la loi a posteriori est (pour x ∈ R) :
π(θ|x) ∝ π(θ)f (x|θ)
∝ e
− (θ−x)
2
15
2
I(−∞,+∞) (θ),
c'est-à-dire que θ|x ∼ N(x, 1). La crédibilité est
max(0,x+a)
min(0,x−a)
max(−x,a)
t2
1 − (θ−x)2
1
√ e 2 dθ =
√ e− 2 dt
2π
2π
min(−x,−a)
= P (min(−x, −a) ≤ Z ≤ max(−x, a)).
On a deux cas : (i) |x| ≤ a ⇒ la crédibilité = P (|Z| ≤ a) = 1 − 2α, (ii) |x| > a ⇒ la
crédibilité C(x) = P (−a ≤ Z ≤ |x|) croît en |x| et tend vers 1 − α lorsque |x| → ∞.
Voici un graphe pour 1 − α = 0.95.
Figure 1.2 La crédibilité de l'intervalle de Pratt, loi a priori
π(θ) = 1
et 1-α=0.95.
Dans les deux prochains exemples, on trouvera facilement, à l'aide du Corollaire 1,
l'intervalle HPD associé à la loi a priori π .
Exemple 9. (a) (i) Soit X ∼ N(θ, 1). Pour τ (θ) = θ et la mesure a priori πH (θ) =
1, la densité a posteriori selon l'Exemple 8 est θ|x ∼ N(x, 1). L'intervalle bayésien
16
HPD pour θ de niveau de conance (1 − α) est donc Iπ (X) = X ± z(1− ), où zΔ
est le quantile d'ordre Δ de la loi N(0, 1). Ceci coïncide avec l'intervalle standard en
vertu de la symétrie et l'unimodalité de la densité a posteriori et sa probabilité de
recouvrement est CIπ (θ) = 1 − α.
(ii) Maintenant, soit la mesure a priori πN (θ) ∼ N(0, 1). La densité a posteriori de
θ est donnée par
α
2
H
H
θ2
π(θ|x) ∝ e− 2 e−
∝ e
− 12
(x−θ)2
2
θ− x
2
√1
2
2
I(−∞,∞) (θ),
c'est-à-dire que θ|x ∼ N( x2 , 12 ). L'intervalle bayésien HPD pour θ de niveau de
conance (1 − α) est donc Iπ (X) = X2 ± √12 z(1− ) et la probabilité de recouvrement de cet intervalle est
α
2
N
1
1
X
X
CIπN (θ) = Pθ
− √ z(1− α2 ) ≤ θ ≤
+ √ z(1− α2 )
2
2
2
2
√
√
= P 2θ − 2 z(1− α2 ) ≤ X ≤ 2θ + 2 z(1− α2 ) (P roposition 1)
√
√
= Φ(θ + 2 z(1− α2 ) ) − Φ(θ − 2 z(1− α2 ) ).
Donc, la probabilité de recouvrement de Iπ dépend de θ et tend vers 0 lorsque |θ|
est grand. En comparant avec la probabilité de recouvrement de Iπ , on note que
CIπ est meilleur que CIπ pour petites valeurs de θ. Au titre d'illustration pour
1 − α = 0.95, voir le Figure 1.3.
N
H
N
H
Soient X1, · · · , Xn des variables aléatoires indépendantes de N(θ, σ2), avec θ, σ2
inconnues. On s'intéresse à construire l'intervalle HPD de niveau de conance 1 − α,
pour θ associé à la mesure a priori πH (θ, σ) = σ1 I(0,+∞)(σ)I(−∞,+∞)(θ). On pose
(X −X̄)
. On a :
X̄ = n1 i Xi et S 2 =
n−1
(b)
i
π(θ, σ|x) =
i
2
n
1
1
(2π)− 2 σ −n e 2
σ
(
Xi −θ 2
)
σ
I(0,+∞) (σ)I(−∞,+∞) (θ)
m(x)
17
,
Figure 1.3 La probabilité de recouvrement de
I πN
et Iπ pour 1-α=0.95.
H
2
s
à l'avant dernière ligne
avec le changement des variables t = n−1
2 σ2
+∞ +∞
n
1 xi −θ 2
m(x) =
(2π)− 2 σ −(n+1) e 2 ( σ ) dθdσ
−∞
0
+∞ +∞
1 2
2
n
=
(2π)− 2 σ −(n+1) e− 2σ2 ( (xi −x̄) +n(x̄−θ) ) dθdσ
0
−∞
√
+∞
1 x̄−θ
2
σ − n−1 ( s )2 +∞
n
√
− n−1
−(n+1)
√ e− 2 ( σ/ n ) dθ dσ
√ e 2 σ
(2π) 2 σ
=
n
σ 2π
0
−∞
=
=
− n−1
2
(2π)
√
2 n
− n−1
2
(2π)
√
2 n
1
(n − 1)s2
2
1
(n − 1)s2
2
=1
− n−1
2
+∞
t
− n−1
2
18
n−1
−1
2
0
Γ(
n−1
).
2
e−t dt
La densité a posteriori de (θ, σ) est donc donnée par
√
n−1
1 xi −θ 2
2 n
1
π(θ, σ|x) = n−1 √ ( (n − 1)s2 ) 2 σ −n−1 e− 2 ( σ ) I(0,+∞) (σ)I(−∞,+∞) (θ)
Γ(
) 2π 2
2
M
et la densité a posteriori marginale de θ est alors égale à
+∞
π(θ|x) = M
σ −(n+1) e−
(n−1)s2 +n(x̄−θ)2
2σ 2
dσ .
0
Posant A = (n − 1)s2 + n (x̄ − θ)2 , t =
A
2σ 2
, on obtient
+∞
1 n −1 A − n −t
t 2 ( ) 2 e dt
2
2
0
− n2
M A
n
=
Γ( )
2
2
2
√
n
− 1
nΓ( 2 ) n
x̄ − θ
1
= √
( √ )2 )− 2
(n − 1) s2 2 (1 +
n−1
n − 1 s/ n
πΓ( 2 )
π(θ|x) = M
K
= K(1 +
2
t − ν+1
) 2 I(−∞,+∞) (θ),
ν
√ , la densité a posteriori de θ n'est rien d'autre la distribution
avec ν = n − 1, t = s/x̄−θ
n
de Student centrée en x̄ et de paramètre d'échelle √sn avec (n − 1) degrés de liberté
(Exemple 2) et l'intervalle bayésien HPD pour θ de niveau de conance (1 − α) est :
S
S
Iπ (X) = X̄ − t(n−1,1− α2 ) √ , X̄ + t(n−1,1− α2 ) √ ,
n
n
ce qui correspond à l'intervalle usuel de Student.
19
CHAPITRE 2
Probabilité de recouvrement
fréquentiste de l'intervalle HPD
On a étudié au Chapitre 1 une méthode, appelée pivot, pour construire un intervalle
de conance du paramètre θ ∈ Θ de niveau 1 − α. Une méthode pour trouver un
intervalle de conance lorsqu'il y des contraintes sur le paramètre est de tronquer
l'intervalle de conance classique sur les valeurs possibles du paramètre. Toutefois,
il peut arriver que l'intervalle soit vide ou jugé trop court par l'observateur. Par
exemple, soit X ∼ N(θ, 1). Pour la loi a priori non-informative πH (θ) = IR(θ)
, la loi
a posteriori est
θ|x ∼ N(x, 1)
et l'intervalle HPD est
Cet intervalle de conance bayésien de crédibilité
conance usuel avec probabilité de recouvrement
sait au préalable que
θ
I0 (x) = x ± z1− α2
1−α
1 − α.
est assujetti à la restriction
correspond à l'intervalle de
Maintenant, supposons qu'on
θ ≥ 0.
La projection
est une alternative, garantit toujours une probabilité de recouvrement
pour tout
θ ≥ 0,
mais devient un intervalle trop court lorsque
20
(Exemple 9).
x
I0 (x) ∩ [0, ∞[
C(θ) = 1 − α
est petit. En eet,
il devient l'ensemble vide pour
x < −z1− α2 .
Roe et Woodroofe [4] ont utilisé une
méthode bayésienne pour trouver un intervalle de conance de la moyenne
modèle
N(θ, 1)
avec la contrainte
θ≥0
et il ont établi la borne inférieure
θ
d'un
1−α
pour
1+α
la probabilité de recouvrement fréquentiste de cet intervalle. Ce type de résultat est
étudié de façon générale par Marchand et Strawderman [3] qui ont démontré que
cette borne
1−α
est valable pour une grande classe de lois. Dans ce chapitre, nous
1+α
présenterons les résultats de Roe et Woodroofe [4] (Section 2.1) ainsi que Marchand
et Strawderman [3] (Section 2.2).
2.1 Illustration : cas d'une loi normale avec moyenne
positive
Nous étudions ici le cas simple de l'estimation par intervalle de la moyenne
N(θ, 1)
où
θ ≥ 0.
θ d'une loi
Ceci nous permettra de bien cerner la problématique et de premiers
résultats sur la probabilité de recouvrement fréquentiste de l'intervalle HPD ( Roe et
Woodroofe [4], Mandelkern [9] et Marchand et Strawderman [3]). Cette illustration
porte sur la loi normale avec variance connue tel que décrit par Roe et Woodroofe [4].
Soit
X ∼ N(θ, 1)
avec densité
f (x|θ) = φ (x − θ) =
√1
2π
e
−(x−θ)2
2
, x ∈ R.
Du point de
vue bayésien un choix par défaut plausible est l'intervalle HPD associé à la mesure a
priori tronquée
π0 (θ) = I(0,∞) (θ).
π (θ|x) = ∞
0
=
π0 ,
Pour la loi a priori
−(x−θ)
√1 e
2
2π
2
−(x−θ)
√1 e
2
2π
2
dθ
I(0,∞) (θ)
φ(θ − x)
I(0,∞) (θ).
Φ(x)
21
la densité a posteriori est :
Pour déterminer l'intervalle HPD qui correspond à cette loi normale tronquée sur
(0, ∞), on souhaite trouver des limites supérieure (u) et inférieure (l) pour lesquelles
on a :
P [l(x) ≤ θ ≤ u(x)|x] = 1 − α.
(2.1)
Pour minimiser la longueur de l'intervalle [l(x), u(x)], on choisit l'intervalle où la
densité π(·|x) est maximale, (Dénition 10), c'est-à-dire :
[l(x), u(x)] = {θ : π (θ|x) ≥ c(x)} .
On a deux cas à considérer :
(a)
l(x) > 0
: l'intervalle sera de la forme x ± Δ(x) et la condition (2.1) devient :
1−α=
π (θ|x) dθ =
x−Δ(x)
(b)
l(x) = 0
Δ(x)
φ (t)
2Φ (Δ(x)) − 1
dt =
;
Φ (x)
−Δ(x) Φ (x)
1
−1 1
=⇒ Δ(x) = Φ
+ (1 − α) Φ (x) .
2 2
x+Δ(x)
: l'intervalle sera de la forme
donne :
α=
∞
π (θ|x) dθ =
∞
Δ(x)
x+Δ(x)
[0, u(x) = x + Δ(x)]
et l'équation (2.1)
φ (t)
1 − Φ (Δ(x))
dt =
;
Φ (x)
Φ (x)
=⇒ Δ(x) = Φ−1 [1 − αΦ (x)] .
1
Φ(x)] ⇔ x ≥ d0 , où d0 = Φ−1 ( 1+α
).
On remarque que l(x) ≥ 0 ⇔ x ≥ Φ−1 [ 12 + (1−α)
2
Donc l'intervalle HPD du paramètre θ de crédibilité (1 − α) associé à la loi a priori
π0 est donné par IHP D (x) = [lHP D (x), uHP D (x)] avec :
0
x − Φ−1 ( 12 + 1−α
Φ(x))
2
x + Φ−1 (1 − αΦ(x))
uHP D (x) =
x + Φ−1 ( 12 + 1−α
Φ(x))
2
lHP D (x) =
22
si x ≤ d0
si x ≥ d0 ,
si x ≤ d0
si x ≥ d0 .
Figure 2.1 L'intervalle HPD pour le modèle N( θ,1) et 1-α=0.90.
La Figure 2.1 représente l'intervalle IHP D (x) du paramètre θ où α = 0.10 et d0 =
1
Φ−1 ( 1.1
) ≈ 1.335178. La Figure 2.1 illustre bien le comportement général de IHP D (x),
x ∈ R, et les deux formes [0, u(x)] et x ± Δ(x). On remarque que u(·) et l(·) sont des
fonctions croissantes sur R, strictement pour u et strictement pour l sur (d0 , ∞) avec
limx→−∞ u(x) = 0, limx→∞ u(x) = ∞, limx→∞ l(x) = ∞, ce qu'on démontrera plus
tard au chapitre suivant et ce qui servira pour analyser la probabilité du recouvrement
de IHP D (X) qui fait l'objet du prochain paragraphe. En utilisant les propriétés cidessus, on a
23
CHP D (θ) = Pθ (IHP D (X) θ)
= Pθ (u−1 (θ) ≤ X ≤ l−1 (θ)) = Pθ (u−1 (θ) − θ ≤ X − θ ≤ l−1 (θ) − θ)
= Φ(l−1 (θ) − θ) − Φ(u−1 (θ) − θ).
On note que l−1(θ) ≥ d0 pour tout θ ≥ 0, car l (x) = 0 pour x ≤ d0. Donc on a :
1 1
Φ(l−1 (θ) − θ) = Φ d l−1 (θ) = + (1 − α) Φ l−1 (θ) .
2 2
Pour u−1(θ), supposons que u−1(θ) ≤ d0. Alors, Φ (u−1(θ)) ≤ Φ (d0) ≤ Φ (l−1(θ)) et
on a :
Φ u−1 (θ) − θ = Φ −d u−1 (θ) = 1 − Φ d u−1 (θ) = αΦ u−1 (θ) ,
c'est-à-dire que :
1 1
+ (1 − α) Φ l−1 (θ) − αΦ u−1 (θ)
2 2
α
1 11−α
+
−
≥
2 21+α 1+α
1−α
=
.
1+α
Φ(l−1 (θ) − θ) − Φ(u−1 (θ) − θ) =
Et pour u−1(θ) > d0, on a Φ (l−1(θ)) ≥ Φ (u−1(θ)) ≥ Φ (d0),
−1
−1
Φ u (θ) − θ = Φ −d u (θ)
−1 1 1
+ (1 − α) Φ u (θ) ,
=1−
2 2
c'est-à-dire que :
1 (1 − α)
1 (1 − α) −1 +
Φ(l−1 (θ)) − 1 + [ +
Φ u (θ) ]
2
2
2
2
(1 − α)
Φ(u−1 (θ)) + Φ(l−1 (θ))
=
2
1−α
≥
.
1+α
Φ(l−1 (θ) − θ) − Φ(u−1 (θ) − θ) =
, pour tout θ ≥ 0.
Donc on a C (θ) ≥ 1−α
1+α
24
Figure 2.2 La probabilité de recouvrement fréquentiste de l'intervalle
pour le modèle N(θ,1) et 1-α=0.9.
IHP D (X)
La Figure 2.2 représente la probabilité de recouvrement de l'intervalle IHP D (X) pour
(1 − α = 0.90). La courbe C(θ) uctue de façon continue avec limθ→∞ C(θ) = 0.90.
On remarque aussi que la borne inférieure 1−α
= 0.90
≈ 0.818 est conservatrice et un
1+α
1.10
calcul numérique trouve une couverture minimale d'environ infθ≥0 c(θ) = 0.86. Une
amélioration (1 - 3α2 ) de la borne inférieure 1−α
fut obtenue par Marchand et al. [2]
1+α
pour les densités symétriques et fait l'objet d'une présentation à la Section 3.2 pour
des modèles de densité non symétrique.
25
2.2 Cadre général avec des densités symétriques : la
borne inférieure
1−α
1+α
Le but de cette section est d'exposer et d'illustrer une méthode de Marchand et Strawderman[3] pour trouver les intervalles HPD. On va généraliser les résultats ci-dessus
et la borne 1−α
pour la probabilité de recouvrement fréquentiste de l'intervalle HPD
1+α
à un grand nombre de modèles symétriques.
Soit X une variable aléatoire ayant la densité f0 (x − θ), x ∈ R . Supposant qu'il y
a une contrainte de la forme τ (θ) ≥ 0 et qu'il existe un pivot linéaire T (X, θ) admet
une fonction de répartition G et une densité g = G absolument continue, symétrique
et unimodale. Finalement on utilise la loi a priori π0 qui est tronquée de la loi a priori
de Haar invariante à droite.
Dénition 11. Soit G une fonction de répartition telle que G
α ∈ (0, 1)
est unimodale en 0,
et t ∈ R, on dénit :
1. d1 (t) = G−1 (1 − αG(t)) ;
G(t)) ;
2. d2 (t) = G−1 ( 12 + 1−α
2
3. d(t) = max(d1 (t), d2 (t))
Corollaire 2.
Pour tout (α, G),on a d (y) ≥ d (d0 ) avec G (·) continue et d0 =
1
). Ainsi d (y) = d1 (y) ssi y ≤ d0 .
G−1 ( 1+α
Démonstration
On note que d1 (·) est décroissante et d2 (·) est croissante, c'està-dire que d0 est donné par y telle que d1 (y) = d2 (y). Alors, on a :
1 1−α
d1 (y) = d2 (y) ⇔ G−1 (1 − αG(y)) = G−1 ( +
G(y))
2
2
1 1−α
1
⇔ 1 − αG(y) = +
G(y) ⇔ G(y) =
2
2
1+α
26
Donc, on a que d (y) = d1 (y) si et seulement si y ≤ d0.
Proposition 2. Pour X ∼ f0(x−θ), x ∈ R, la distribution du pivot T (X, θ) = X −θ
pour un θ donné, qui est indépendante de θ, coïncide avec la distribution a posteriori
T (X, θ) |x, s'il existe une loi a priori π telle que :
T (X, θ) = x − θ|x =d T (X, θ) |θ ∀θ ∈ Θ, x ∈ X.
(2.2)
Le prochain théorème donne, sous certaines conditions, une façon directe pour trouver les intervalle HPD où θ ≥ 0 est un paramètre de position et un pivot linéaire
T (X, θ) = X − θ. De plus, il donne une borne inférieure pour la probabilité de recouvrement fréquentiste ainsi que des résultats pour la probabilité de recouvrement
lorsque θ est grand et lorsque θ = 0. On généralisera ce théorème au Chapitre 3 pour
(θ)
un pivot linéaire T (X, θ) = a (x)−τ
ayant une densité symétrique ou non syméa (x)
trique.
1
2
Théorème 2. Pour X ∼ g(x − θ), θ ≥ 0, g est symétrique et unimodale en 0. Pour
la loi a priori π0 (θ) = I[0,∞) (θ), on a pour l'intervalle HPD Iπ :
(a) Iπ (X) = [l(X), u(X)], avec :
si x ≤ d0
l(x) = 0 −1 1 1−α
x − G ( 2 + 2 G(x)) si x ≥ d0
0
0
u(x) =
x + G−1 (1 − αG(x))
x + G−1 ( 12 + 1−α
G(x))
2
1
où d0 = G−1( 1+α
).
(b) C(θ) > 1−α
, pour tout θ ≥ 0 ;
1+α
1
(c) C(0) = 1+α
;
(d) limθ→∞ C(θ) = 1 − α.
27
si x ≤ d0
si x ≥ d0
Démonstration. (a) On pose h , H et H pour les fonctions de densité,de réparx
−1
x
x
tition et de répartition inverse de la loi a posteriori de θ associées à π et x. Selon
(2.2), on a, sous π , que :
Pπ (T (X, θ) ≤ a|x) = G (a) ⇒ Pπ (θ ≥ y|x) = G (x − y) ,
Car G est la fonction de répartition du pivot x − θ. On a pour y ≥ 0 :
Pπ0 (θ ≤ y|x) = 1 −
Hx (y) =
Pπ (θ ≥ y|x)
G (x − y)
=1−
Pπ (θ ≥ 0|x)
G (x)
G (x − y)
hx (y) =
I(0,∞) (y) ;
G (x)
et
Hx−1 (Δ) = x − G−1 ((1 − Δ) G (x)) .
On a que hx est unimodale en max (0, x) car la densité G est unimodale en 0. Alors,
selon la Remarque 1, l'intervalle HPD est de la forme {θ : hx (θ) ≥ c(x)} pour une
constante c(x). On a :
1.
l (x) = 0
et u (x) = H −1 (1 − α) = x − G−1 (αG (x)), ou
2.
l (x) = x − b (x)
et u (x) = x + b (x), pour b (x) tel que x − b (x) > 0.
Par la symétrie de G autour de 0, on a que : G (a) = 1 − G (−a) et G−1 (y) =
−G−1 (1 − y). Alors, on a en (1) que : u (x) = x + G−1 (1 − αG (x)) = x + d1 (x).
28
Pour (2), on a :
Pπ0 (x − b(x) ≤ θ ≤ x + b(x)|x) = 1 − α
⇔ Hx (x + b(x)) − Hx (x − b(x)) = 1 − α
⇔ G(b(x)) − G(−b(x)) = (1 − α)G(x)
1 1−α
G(x)) = d2 (x).
⇔ b(x) = G−1 ( +
2
2
De plus, la situation (2) se produit si et seulement si :
1 1−α
G (x) ⇔ x ≥ G−1
x ≥ d2 (x) ⇔ G (x) ≥ +
2
2
1
1+α
= d0 .
(2.3)
Enn, le résultat (a) du théorème découle de (1),(2) et du Corollaire 2.
(b) On observe que l'intervalle X ± d (x) a la même probabilité de recouvrement que
Iπ (X) pour les valeurs non négatives de θ, car la diérence entre eux peut augmenter
seulement la probabilité de recouvrement de valeurs négatives de θ. Maintenant, selon
la borne inférieure du Corollaire 2 et par la symétrie de G , on a :
0
Pθ (x − d(x) ≤ θ ≤ x + d(x)) = Pθ (|θ − x| ≤ d(x))
≥
Pθ (|θ − x| ≤ d0 ) = 2G(d0 ) − 1 = 2GG
=
1−α
.
1+α
La probabilité de recouvrement fréquentiste en
si l(x) = 0. On a par (2.3) :
(C)
θ=0
1
1+α
se produit si et seulement
P0 (Iπ0 (X) 0) = P0 (l(X) = 0) = P0 (x − 0 ≤ d0 ) = G(d0 ) =
(d)
−1
1
.
1+α
Comme X − θ est un pivot, on aura alors que x → ∞ et G(x) → 1 quand θ → ∞
29
ce qui implique que d(x) = G−1 ( 12 +
1−α
G(x))
2
= G−1 1 − α2 . Alors, on a :
limθ→∞ Pθ (Iπ0 (X) θ) = limθ→∞ Pθ (|θ − X| ≤ d(X))
α −1
1−
= Pθ |θ − X| ≤ G
2
α
−1
= 2GG
= 1 − α.
1−
2
Exemple 10. Soit X ∼ Logistique(θ, 1) avec θ ≥ 0 et la densité de X est :
f (x|θ) =
e−(x−θ)
.
(1 + e−(x−θ) )2
La variable aléatoire T (x, θ) = X − θ est un pivot linéaire et sa densité, les fonctions
de répartition et de répartition inverse de T (X, θ) sont données respectivement par :
(i) g(t) =
e−t
;
(1 + e−t )2
1
;
1 + e−t
1
(iii) G−1 (t) = −ln( − 1).
t
(ii) G(t) =
La densité du T (X, θ) est symétrique et unimodale autour de 0. Alors, sous la loi
a priori π0 (θ) = I[0,∞) (θ) et du Théorème 2, l'intervalle HPD de θ , avec d0 =
1
G−1 ( 1+α
) = −ln(α) et α = 0.10, est donné par :
0
si x ≤ d0
l(x) =
e−x +α
x + ln( 2+e−x +α ) si x ≥ d0
u(x) =
α
x − ln( 1−α+e
−x )
−x
e +α
x − ln( 2+e
−x +α )
si x ≤ d0
si x ≥ d0
La Figure 2.3 représente l'intervalle HPD pour α = 0.10.
30
Figure 2.3 L'intervalle HPD pour le modèle Logistique( θ,1) et 1-α=0.90.
Ayant l'intervalle HPD Iπ (X) = [l(X), u(X)] et à l'aide de la Proposition 1, on
peut trouver numériquement la probabilité de recouvrement fréquentiste pour θ xé.
La Figure 2.4 représente C(θ), θ ≥ 0 et α = 0.10.
(i) On remarque, quand θ est grand, que C(θ) ≈ 0.9 = 1 − α.
(ii) On note que C(θ) atteint son minimum à θ = 2d0 ≈ 4.61 à la valeur 0.859
qui est nettement plus grand que la borne inférieure 1−α
≈ 0.81. On va voir au
1+α
prochain chapitre que la borne inférieure 1 − 3α2 tient, ce qui améliore la borne
inférieure 1−α
pour α ≤ 13 .
1+α
0
31
Figure 2.4 La probabilité de recouvrement pour le modèle Logistique( θ,1) et 1α=0.90.
32
CHAPITRE 3
Probabilité de recouvrement
fréquentiste pour une classe
d'intervalles bayésiens
On a étudié au chapitre 2 la probabilité de recouvrement fréquentiste pour les intervalles HPD de crédibilité 1 − α et démontré, dans le cas où la densité g0 du pivot
T (X, θ) = X − θ est unimodale et symétrique, que la borne inférieure 1−α
s'applique.
1+α
D'autre part, Marchand et al. [2] ont établi la borne inférieure 1− 3α2 pour la probabilité
de recouvrement de l'intervalle HPD pour le cas où T (X, θ) = X − θ et g0 est logconcave et symétrique. Par contre, ces résultats théoriques ne s'appliquent pas pour
les cas où la densité du pivot T (X, θ) n'est pas symétrique, même s'il est plausible
(voir [3]) que la probabilité de recouvrement minimale est bornée inférieurement par
1−α
. Marchand et Strawderman [1] ont établi des résultats applicables à de tels cas,
1+α
mais pour d'autres estimateurs bayésiens. Notamment, ils démontrent que la borne
33
1−α
tient pour une classe d'intervalles bayésiens qui inclut l'intervalle HPD pour le
1+α
cas symétrique. Nous présenterons et illustrerons dans ce chapitre leurs résultats à
la Section
3.1.
Enn, à la Section 3.2, on va établir la borne inférieure
1−
3α
pour
2
certains intervalles parmi cette classe sous l'hypothèse additionnelle de log-concavité.
Ces développements sont originaux.
3.1 Cadre général avec ou sans symétrie : la borne
inférieure
1−α
1+α
pour la probabilité de recouvre-
ment fréquentiste
Les intervalles de crédibilité bayésiens de la forme
u(x)|x) = 1 − α,
α(x)
[0, l(x)) ∪ (u(x), ∞)
P (l(x) ≤ τ (θ) ≤
et la sélection de probabilités
respectivement sur ses deux parties disjointes, avec
densité a posteriori de
besgue sur
où
peuvent être décrits de façon alternative, et équivalente, par l'en-
semble complémentaire
et
[l(x), u(x)]
τ (θ)
α(x) ∈ [0, α].
α − α(x)
Lorsque la
est absolument continue par rapport à la mesure de Le-
R+ , le choix α(x) conduit à un choix unique de [l(x), u(x)], et vice-versa.
Nous désignerons cette fonction
Dénition 12.
α(·)
par fonction de distribution.
Pour une loi a priori
fonction de distribution
α(·)
:
π
donné pour
Rp → [0, α]
θ
et une crédibilité
la
est une fonction telle que, pour tout x,
Pπ (τ (θ) ≥ u(x)|x) = α(x), Pπ (τ (θ) ≤ l(x)|x) = α − α(x),
intervalle de crédibilité bayésien pour
1 − α,
et
[l(x), u(x)]
est un
τ (θ).
Voici maintenant un présupposé et une Proposition qui jouent un rôle important dans
le développement de cette section.
34
Hypothèse A. Soit un modèle X|θ ∼ f (x, θ) et une fonction paramétrique τ (θ) :
Rp → R telle que τ (θ) ≥ 0. On suppose qu'il existe un pivot linéaire T (X, θ) =
a1 (X)−τ (θ)
a2 (X)
(où a2 (·) > 0) tel que −T (X, θ)|θ a fonction de répartition G. De plus, on
suppose qu'il existe une loi a priori π telle que :
T (X, θ) |x =d T (X, θ) |θ, ∀θ, x,
(3.1)
c'est-à-dire que la distribution du pivot T (X, θ) pour un θ donné, qui est indépendante de θ, est la même que la distribution a posteriori T (X, θ) |x pour n'importe
quelle valeur de x ∈ X .
Une telle mesure a priori est la mesure de Haar invariante à droite ( voir [3]). Voici
une illustration.
Exemple 11.
Soient X ∼ fθ (·) où fθ (·) est une famille de position avec T (X, θ) =
X − θ et π(θ) = 1. On a bien que la densité de T (X, θ) = X − θ|θ est donnée
fθ (x)π(θ)
par fθ (x) = f0 (x − θ) et aussi la densité a posteriori π(θ|x) = =
f (x)π(θ)dθ
Θ θ
f (x − θ)
0
= f0 (x − θ).
f (x − θ)dθ
Θ 0
Remarque 3.
(θ)
Selon l'Hypothèse A et du fait que −T (x, θ) = − a1 (x)−τ
∼ G, la
a2 (x)
fonction de répartition a posteriori de τ (θ), sous πH (θ) = 1, est :
PπH (τ (θ) ≤ y|x) = G(
y − a1 (x)
).
a2 (x)
Maintenant, sous la troncature π0 (θ) = πH (θ)I[0,∞) (τ (θ)), on peut exprimer la distribution a posteriori de τ (θ) en fonction de πH et G. En eet, on a :
1 (x)
)
1 − G( y−a
PπH (τ (θ) ≥ y|x)
a2 (x)
Pπ0 (τ (θ) ≥ y|x) =
.
=
PπH (τ (θ) ≥ 0|x)
1 − G(− aa12 (x)
)
(x)
35
(3.2)
Remarque 4. Selon la Dénition 12, un intervalle bayésien pour τ (θ), de crédibilité
1 − α associé à la loi a priori π0 , peut être généré par une fonction de distribution
α(·) : Rp → [0, α], telle que Iπ0 ,α(·) (X) = [l(X), u(X)] avec Pπ (τ (θ) ≥ u(x)|x) = α(x).
Le Lemme 1 nous donne, sous l'Hypothèse A, les bornes l(x) et u(x) pour l'intervalle
bayésien Iπ0 ,α(·) .
Lemme 1. Pour la loi a priori π (θ) = π(θ)I
0
[0,∞) (τ (θ))
et fonction de distribution
α(·), les bornes de Iπ0 ,α(·) (x) sont données par :
lα(·) (x) = a1 (x) + a2 (x)G−1 {G(−t(x)) + (α − α(x))(1 − G(−t(x)))}
et
uα(·) (x) = a1 (x) + a2 (x)G−1 {1 − α(x)(1 − G(−t(x)))}, avec t(x) =
Démonstration. Avec la fonction de survie P
π0 (τ (θ)
≥ y|x) =
1−G(
a1 (x)
a2 (x)
y−a1 (x)
)
a2 (x)
1−G(−t(x))
.
, en (3.2),
on obtient, pour β ∈ (0, 1) :
Pπ0 (τ (θ) ≥ y|x) = β ⇐⇒ 1 − G(
y − a1 (x)
) = β − βG(−t(x))
a2 (x)
⇐⇒ y = a1 (x) + a2 (x)G−1 {1 − β + βG(−t(x))} ,
et le résultat tient avec les choix β = α(x) et β = 1 − (α − α(x)) pour les bornes u(x)
et l(x) respectivement.
Exemple 12. L'intervalle de conance bayésien HPD I
π0 ,αHP D (·)
est généré par le
choix αHP D (x) = arg minα(x) (uπ0 ,α(·) (x) − lπ0 ,α(·) (x)), où α(·) ∈ [0, α] minimise la
longueur de l'intervalle de crédibilité bayésien Iπ0 ,α(·) (x) pour tout x.
Les procédures HPD étudiées par MS (2006)(voir [3]) pour g0 symétrique et unimodale
36
en 0 sont données par les bornes
1 1−α
G(t(x)))
lHP D (x) = max 0, a1 (x) + a2 (x)G ( −
2
2
−1
et
1 1−α
uHP D (x) = a1 (x) + a2 (x)min G (1 − αG(t(x))), G ( +
G(t(x))) .
2
2
−1
−1
En faisant la correspondance avec la forme générale du Lemme 1 et par la symétrie
1
):
G(t(x)) = 1 − G(−t(x)), on obtient pour t(x) ≤ G−1 ( 1+α
G−1 (1 − α(x)(1 − G(−t(x)))) = G−1 (1 − α(1 − G(−t(x)))) ⇔ α(x) = α,
et
1 − α(x)(1 − G(−t(x))) =
1 1−α
α
G(−t(x))
+
G(t(x)) ⇔ α(x) = +
.
2
2
2 2(1 − G(−t(x)))
Alors, la fonction de distribution correspondante à l'intervalle HPD est égale à :
α
G(−t(x))
min α, +
2 2(1 − G(−t(x)))
,
α
1
avec α(x) = α ssi t(x) ≤ −G−1 ( 1+α
)(= G−1 ( 1+α
) car g0 est symétrique).
Dénition 13. Soient 1 − α ∈ (0, 1), une loi a priori π
0
et une fonction de dis-
tribution α(·). On dénit la sous-classe d'intervalles bayésiens C pour τ (θ) comme
suit :
C=
Iπ0 ,α(·)
α
) = t0 .
: α(x) = α pour tout x avec t(x) ≤ −G (
1+α
−1
Le prochain théorème nous donne une borne inférieure de la probabilité de recouvrement pour la sous-classe C ainsi que la probabilité de recouvrement lorsque θ est sur
la frontière de l'espace paramétrique.
37
Théorème 3.
Soit Iπ0 ,α(·) un intervalle de crédibilité bayésien de la sous-classe C.
Pour la probabilité de recouvrement fréquentiste Cα(·) (θ) = Pθ (Iπ0 ,α(·) (X) τ (θ)), on
a, sous l'Hypothèse A, que :
(a) C(θ) =
1
1+α
pour tout θ tel que τ (θ) = 0 ;
(b) C(θ) >
1−α
1+α
pour tout θ tel que τ (θ) ≥ 0 aussitôt que α(x) satisfait, pour tout
x,
(1 − α)G(−t(x)) +
1 − G(−t(x))
α2
1+α
≤ α(x) ≤
α
.
(1 + α)(1 − G(−t(x)))
(3.3)
(c) limτ (θ)→∞ Cα(·) (θ) = 1 − α, avec limt(x)→∞ α(x) existe et a2 (X) = 1.
Démonstration. (a) On observe, quand τ (θ) = 0, que −t(X) = −
a1 (X)
a2 (X)
a pour
fonction de répartition G. Alors, pour tout θ tel que τ (θ) = 0, on a :
Pθ (Iπ0 ,α(·) (X) θ) = Pθ (α(X) = α) = Pθ (t(X) ≤ t0 ) = 1 −
1
α
=
.
1+α
1+α
(b) Pour θ tel que τ (θ) ≥ 0, l'intervalle
α
1
I1 (X) = [l1 (X), u1 (X)] = max 0, a1 (x) + a2 (x)G−1 ( α+1
) , a1 (x) + a2 (x)G−1 ( α+1
)
a la même probabilité de recouvrement fréquentiste que l'intervalle I1∗ (X) = [a1 (x) +
α
1
a2 (x)G−1 ( α+1
), a1 (x) + a2 (x)G−1 ( α+1
)] et cette probabilité est égale à :
α
Pθ (G−1 ( α+1
)≤
τ (θ)−a1 (x)
a2 (x)
1
1
α
≤ G−1 ( α+1
)) = G(G−1 ( α+1
)) − G(G−1 ( α+1
)) =
note, de (3.3) et du Lemme 1, que uα(·) (x) ≥ a1 (x) + a2 (x)G−1 (1 −
α
)
α+1
1−α
1+α
. On
= u1 (x) et
2
α
lα(·) (x) ≤ a1 (x) + a2 (x)G−1 (G(−t(x)) + α(1 − G(−t(x))) − (1 − α)G(−t(x)) − 1+α
)=
α
) = l1 (x). Alors, la condition (3.3) sur α(·) implique que
a1 (x) + a2 (x)G−1 ( α+1
Iπ0 ,α(·) ⊇ I1 . Puisque l'inclusion est stricte avec une probabilité supérieure à 0 pour
tout θ, le résultat s'ensuit.
(c)
Comme T (X, θ) =
a1 (X)−τ (θ)
a2 (X)
= a1 (X) − τ (θ) est un pivot, on a alors que
t(x) = a1 (x) → ∞ et G(−t(X)) converge en probabilité vers 0 quand τ (θ) → ∞, ce
qui implique que lα(·) (x) − a1 (X) → G−1 (α − limt(x)→∞ α(x)) et uα(·) (x) − a1 (X) →
38
G−1 (1 − limt(x)→∞ α(x)).
On a donc :
Pθ (lα(·) (x) ≤ τ (θ) ≤ uα(·) (x)) = Pθ (lα(·) (x) − a1 (X) ≤ −T (X, θ) ≤ uα(·) (x) − a1 (X))
lim Cα(·) (θ) =
τ (θ)→∞
=
P
lim θ (lα(·) (x) − a1 (X) ≤ −T (X, θ) ≤ uα(·) (x) − a1 (X))
τ (θ)→∞
−1
−1
θ (G (α − lim α(x)) ≤ −T (X, θ) ≤ G (1 − lim α(x)))
t(x)→∞
t(x)→∞
−1
−1
P
= G(G (1 − lim α(x)))) − G(G (α − lim α(x)))
t(x)→∞
t(x)→∞
= 1 − lim α(x) − α + lim α(x) = 1 − α.
t(x)→∞
t(x)→∞
Maintenant, dans le contexte du Théorème 3, on peut dénir plusieurs fonctions de
distributions α(x) correspondantes aux intervalles de crédibilité bayésien de la sousclasse C pour τ (θ).
Dénition 14. (i) L'intervalle bayésien à ailes égales sous G, I
(X) est
donné par la fonction de distribution
π0 ,αég (·)
G(−t(x))
α
.
αég (x) = min α, +
2 2(1 − G(−t(x)))
La terminologie "ailes égales" ne signie pas α(x) = (ce qui est les ailes
égales sous la densité a posteriori de τ (θ) ), mais elle plutôt se reporte au choix
des quantiles d'ailes égales sous G ;
(ii) L'intervalle bayésien I
(X) est donné par la fonction de distribution
α
2
π0 ,αmax (·)
α
αmax (x) = min α,
(1 + α)(1 − G(−t(x)))
(iii) L'intervalle bayésien I
π0 ,αmin (·) (X)
;
est donné par la fonction de distribution
(1 − α)G(−t(x)) +
αmin (x) = min α,
1 − G(−t(x))
39
α2
1+α
;
(iv) L'intervalle bayésien
Iπ0 ,αopt (·) (X),
valles bayésiens de la classe
C,
de longueur minimale parmi tous les inter-
est donné par la fonction de distribution
αopt (x) = arg min(uπ0 ,α(·) (x) − lπ0 ,α(·) (x)),
avec
α(x) ∈ [αmin (x), αmax (x)].
α(x)
Losrque
αHP D (x) ∈ [αmin (x), αmax (x)],
cet intervalle coïncide avec l'intervalle
Iπ0 ,HP D .
Les intervalles correspondantes aux choix (i), (ii) et (iii) ci-dessus sont donnés en
(3.4), (3.5) et (3.6).
Corollaire 3. Sous l'Hypothèse A, l'intervalle Iπ ,α
0
une probabilité de recouvrement minimale
C(θ)
ég (·)
(X),
de crédibilité
supérieure à 1−α
pour tout
1+α
1 − α,
θ
a
tel que
τ (θ) ≥ 0.
Démonstration. Il sut que le choix αég (·) satisfasse la condition ( 3.3) pour tout
x tel que
t(x) ≥ t0 .
En eet, on a :
αég (x)(1 − G(−t(x))) =
α 1−α
α 1−α
α
+
G(−t(x)) ≤ +
G(−t0 ) =
,
2
2
2
2
1+α
et
αég (x)(1 − G(−t(x))) − (1 − α)G(−t(x)) −
Remarque 5.
α(1 − α) 1 − α
α2
=
−
G(−t(x))
1+α
2(1 + α)
2
α(1 − α) 1 − α
≥
−
G(−t0 ) = 0.
2(1 + α)
2
De façon analogue, les autres choix à la Dénition 14 satisfont la
comme borne inférieure pour la probabilité de recouvrement
condition (3.3) et ont 1−α
1+α
fréquentiste.
40
Le choix αég (·) est simple, attrayant et correspond à la procédure HPD sous la symétrie de la densité du pivot T (X, θ). Le choix αmax (·) maximise la probabilité a
posteriori P (τ (θ) ≥ u(x)|x) et pousse Iπ0 ,α(·) vers 0, tandis que le choix αmin (·) minimise la probabilité a posteriori P (τ (θ) ≤ l(x)|x) et éloigne Iπ0 ,α(·) de 0. Le choix
αopt (·) donne le plus court intervalle parmi la sous-classe C mais ce choix dépend de
la paramétrisation. Dans les prochains exemples, on va illustrer le fait que la borne
1−α
s'applique à chacun des choix, que l'intervalle Iπ0 ,αmax (·) a la meilleure probabilité
1+α
de recouvrement, que l'intervalle Iπ0 ,αég (·) a une longueur et une probabilité recouvrement près de celles des intervalles Iπ0 ,αopt (·) et Iπ0 ,αHP D (·) . Enn, l'intervalle Iπ0 ,αmin (·)
semble avoir la plus grande longueur parmi la sous-classe C et sa probabilité de re1
couvrement semble ne pas excéder 1+α
.
3.1.1 Exemples
Dans cette section, nous illustrons la théorie de la section précédente par des exemples
et diverses applications. L'Hypothèse A est satisfaite pour tous les exemples cidessous avec des familles soient de position, d'échelle, ou de position-échelle. Ces
derniers nous aideront à appliquer adéquatement le Lemme 1, le Théorème 3 et le
Corollaire 3. Pour tous les cas, le calcul numérique est nécessaire an de déterminer les intervalles de crédibilité bayésien de la sous-classe C et les probabilités de
recouvrement associées aux tels intervalles. Le calcul de Cα(·) (θ) est fait à l'aide de
la formule pour la probabilité de recouvrement du Corollaire 8 à la Section 3.2.
Exemple 13. (Famille de position) (a) Soit X ∼ fθ (·) = f0(x − θ) la famille des
distributions où fθ (·) est une famille de position avec T (X, θ) = X − θ, τ (θ) = θ,
πH (θ) = IR (θ) et la loi a priori π0 (θ) = I[0,∞) (θ). Dans ce cas, tous les intervalles
41
bayésiens, de la sous-classe C, Iπ0 ,α(·) (X), de crédibilité 1 − α, ont une probabilité de
recouvrement minimale C(θ) supérieure à
1−α
1+α
pour θ ≥ 0 et à l'aide des transforma-
tions X → X − a et X → X + a, on peut réduire les cas θ ≥ a et θ ≤ a au cas θ ≥ 0.
(b) Les résultats en (a) sont applicables pour le cas de plusieurs observations en
conditionnant sur une statistique invariante maximale V . En eet, supposons que
X = (X1 , . . . , Xn ) ∼ f0 (x1 −θ, . . . , xn −θ), où les Xi ne sont pas nécessairement indépendamment distribuées. La statistique V = (X2 −X1 , . . . , Xn −X1 ) est une statistique
invariante maximale. Pour une valeur donnée v de V , on peut trouver un intervalle
Iπ0 ,α(·,v) (X1 , v) comme dans le Lemme 1 avec G ≡ Gv qui est la fonction de répartition du pivot X1 − θ sachant V = v , et la fonction de distribution α(x, v) satisfaisant
les conditions du Théorème 3 et du fait que la distribution conjointe de (X1 − θ, V )
est indépendante de θ . On peut appliquer le Théorème 3 à la probabilité de recouvrement fréquentiste conditionnelle C(θ, v) = Pθ (Iπ0 ,α(·,v) (X1 , v) τ (θ)|V = v) >
1−α
1+α
pour tout θ ≥ 0. Puisque c'est vrai pour tout v , alors la probabilité de recouvrement
non conditionnelle C(θ) de l'intervalle Bayésien Iπ0 ,α(·,·) (X, V ) va dépasser la borne
1−α
1+α
pour tout θ ≥ 0. Voir Marchand et Strawderman [3] pour un exemple détaillé.
(c) Soient X = (X1 , . . . , Xp ) ∼ f0 (x1 − θ1 , . . . , xp − θp ), τ (θ) =
IRp (θ), π0 (τ (θ)) = I[0,∞) (θ), T (X, θ) = (
p
p
i=1
ai θi , πH (θ) =
ai Xi ) − τ (θ). Ici, les Xi ont des pa
ramètres θi qui dièrent, mais c'est la combinaison linéaire
i ai θi qui est bornée
i=1
inférieurement telle que pour le cas θ1 − θ2 ≥ 0.
Remarque 6. En lien avec la partie (c) ci-dessus, les résultats ne s'appliquent pas
en général pour estimer τ (θ) =
p
i=1 ai θi avec
i bi
θi ≥ 0. Par exemple, les résultats
ne s'appliquent pas pour estimer θ1 sous la contrainte θ1 − θ2 ≥ 0.
Exemple 14. (Famille d'échelle) (a) Soit X ∼
1
f ( x )I
(x)
θ 1 θ [0,∞)
avec θ ≥ a > 0,
τ (θ) = log(θ) − log(a) ≥ 0, T (X, θ) = log(X) − log(a) − τ (θ), π0 (θ) = 1θ I[0,∞) (τ (θ)).
42
On peut trouver un intervalle bayésien pour τ (θ) à partir d'un intervalle bayésien
de θ. On peut appliquer le Théorème 3 et le Corollaire 3 sur un échantillon X =
!
(X1 , . . . , Xn ) ∼ θ1 f1 ( xθ , . . . , xθ ) i I[0,∞) (xi ) en conditionnant sur la statistique invariante maximale V = ( XX , . . . , XX ) comme à l'exemple 13.
!
p
x
(b) Soient X = (X1 , . . . , Xp ) ∼ ( i θ1 )f1 ( xθ , . . . , θ ), τ (θ) = i=1 ai log(θi ), πH (θ) =
! 1
i θ I[0,∞) (θi ), π0 (θ) = πH (θ)I[0,∞) (τ (θ)). Par exemple, si p = 2, a1 = 1 et a2 = −1,
la théorie s'applique pour estimer le rapport θθ ≥ 1 des deux paramètres d'échelle.
n
n
1
n−1
1
n
n
p
1
1
i
p
i
2
1
Exemple 15. (Famille de position-échelle) (a) Soit (X1, X2) ∼ θ1 f2( x θ−θ , xθ ),
τ (θ) = θ1 ≥ 0, T (X, θ) = X X−θ , πH (θ) = θ1 I[0,∞) (θ2 )I(−∞,∞) (θ1 ), π0 (θ) = θ1 I[0,∞) (θ2 )I(0,∞) (θ1 ).
(b) Soient Xi ∼ind N (μ, σ), i = 1, . . . , n, θ = (μ, σ), τ (θ) = μ + ησ ≥ 0 avec η ≥ 0,
πH (θ) = θ1 I[0,∞) (θ2 )I(−∞,∞) (θ1 ), π0 (μ, σ) = σ1 I[0,∞) (σ)I(0,∞) (μ + ησ), la densité du
(X −X̄)
2
pivot T (X, θ) = X̄−μ−ησ
,
avec
S
=
, est la loi Student décentrée avec n − 1
S
n−1
degrés de liberté (voir [1]). Le Théorème 3 s'applique pour estimer les quantiles μ+ησ
et nous avons une classe d'intervalles bayésiens avec probabilité de recouvrement supérieure à 1−α
.
1+α
(c) De la partie (a) ou (b) avec η = 0, on déduit une classe d'intervalles bayésiens
pour estimer la moyenne μ sous la contrainte μ ≥ 0 avec probabilité de recouvrement
1−α
supérieure à 1+α
. Ce résultat dans ce cadre spécique fut démontré par Zhang et
Woodroofe [6].
1
2
2
1
1
2
2
2
1
2
2
2
i
i
2
2
Exemple 16. (a) Considérons X ∼ Gamma(r, θ) avec r connu et la contrainte
θ ≥ 1. On note que la variable aléatoire Xθ est un pivot d'une loi Gamma (r, 1) tel
que décrit à l'Exemple 14. Considérons le pivot linéaire T (X, θ) = log( Xr ) − log(θ)
(a1(x) = log( Xr ), a2(x) = 1 et τ (θ) = log(θ)). On a que les fonctions de densité et
de répartition de −T (X, θ) sont respectivement données par (voir aussi Bosa[7] et
Lmoudden[8]) :
43
r r −r(t+e−t )
e
;
Γ(r)
(a)
g(t) =
(b)
G(t) = 1−F (re−t ), avec F (·) étant la fonction de répartition d'une loi Gamma(r,1) ;
(c)
α
) ≈ 0.613 (avec α = 0.05
t0 = −G−1 ( 1+α
La loi a priori utilisée est
et
r = 5).
π0 (θ) = 1θ I(0,∞) (log(θ)).
L'intervalle HPD de crédibilité
1−α = 0.95 est un choix plausible mais il n'y a pas de résultat théorique pour la borne
. Mais on peut avoir d'autres intervalles bayésiens de la classe étudiée
inférieure 1−α
1+α
ci-dessus ayant des probabilité de recouvrement supérieure à 1−α
. En appliquant le
1+α
Lemme 1 avec les choix
αég , αmax
intervalles bayésiens suivants avec
Iπ0 ,αég (·) (x) =
Iπ0 ,αmax (·) (x) =
Iπ0 ,αmin (·) (x) =
et
(Dénition 14), on obtient les diérents
αmin
t(x) = log( xr )
:
⎧
⎨ lαég (x) (x) = t(x) + G−1 ( α2 +
⎩
1−α
G(−t(x)))
2
−1
uαég (x) (x) = t(x) + G (1 −
α
2
−
(3.4)
1−α
G(−t(x))),
2
⎧
α2
+ (1 − α)G(−t(x)))
⎨ lαmax (x) (x) = t(x) + G−1 ( 1+α
⎩
uαmax (x) (x) = t(x) + G
−1
(3.5)
1
( 1+α
),
⎧
−1 α
⎨ lαmin (x) (x) = t(x) + G ( 1+α )
⎩
uαmin (x) (x) = t(x) + G−1 (1 −
α2
1+α
(3.6)
− (1 − α)G(−t(x))).
Cas r = 1
Si on prend
et
r = 1, on obtient le modèle Exp( θ) avec θ ≥ 1. Alors le pivot
P ( Xθ ≥ t) = e−t .
Donc le pivot linéaire
de répartition et de répartition inverse du
(i)
(ii)
T (X, θ) = log(X) − log(θ)
−T (X, θ)
G(t) = P (−log( Xθ ) ≤ t) = P ( Xθ ≥ e−t ) = e−e
G−1 (t) = −log(−log(t)).
44
−t
∼ Exp(1)
et la fonction
sont données par :
;
X
θ
L'intervalle à ailes égales sous G est donné par :
Iπ0 ,αég (·) (x) =
⎧
⎨ lαég (x) (x) = log(x) − log(−log( α2 +
⎩
uαég (x) (x) = log(x) − log(−log(1 −
Figure 3.1 Les fonctions de distribution
α(·)
1−α −x
e ))
2
α
2
−
1−α −x
e )),
2
pour le modèle Gamma(5, θ ),
(3.7)
θ ≥ 1,
et 1-α=0.95.
Cas r = 5
La Figure 3.1 présente les diérents choix cités ci-dessus pour le cas où r = 5.
On note que le choix αHP D (·) n'est pas dans la sous-classe C. Alors, ce choix ne
satisfait pas la condition (3.3) du Théorème 3 mais on va voir à la Figure 3.3 que la
.
probabilité de recouvrement correspondante à ce choix excède la borne minimale 1−α
1+α
45
Les choix αHP D (·) et αopt (·) n'ont pas de forme close. On peut les trouver par le calcul
numérique. On note que ces deux choix coïncident sauf pour x ∈ (0.613, 0.715).
Figure 3.2 Intervalles bayésiens pour le modèle Gamma(5, θ), θ ≥ 1, 1-α=0.95.
La Figure 3.2 (A) présente les diérents intervalles bayésiens du paramètre θ en fonction de l'observation x avec les choix αég (x), αmax (x) et αmin (x) cités ci-dessus pour
le cas où r = 5. Il est à noter que ces intervalles Iπ0 ,α(·) (x) = [elπ0 ,α(·) (x) , euπ0 ,α(·) (x) ]
ont été construits à l'aide des intervalles bayésiens de log(θ) donnés par (3.4),
(3.5) et (3.6) cités ci-dessus pour le cas où r = 5. Par exemple, pour x = 11
on a Iπ0 ,αég (·) (11) ≈ [1.12, 6.32], Iπ0 ,αmax (·) (11) ≈ [1.01, 5.66] et Iπ0 ,αmin (·) (11) ≈
[1.19, 7.54]. La Figure 3.2 (B) illustre le rapport des longueurs des intervalles bayésiens Iπ0 ,αHP D (·) (x) et Iπ0 ,αég (·) (x). On note que l'intervalle Iπ0 ,αég (·) (x) a une longueur
46
semblable à celles des intervalles
paraissent croissantes en
IHP D
t(x), x ∈ R.
et Iopt . Enn, les fonctions lα(·) (x) et
uα(·) (x)
Ceci sera en eet démontré au Lemme 7 ainsi
que pour les pivots avec des densités log-concaves.
Figure 3.3 Les probabilités de recouvrement associées aux intervalles bayésiens pour
le modèle Gamma(5,θ), θ ≥ 1 et 1-α=0.95.
La Figure
3.3
présente les probabilités de recouvrement associées aux choix
ci-dessus. À la Figure
3.3 (A),
α(·)
cités
on note que la probabilité de recouvrement associée
au choix
αmax (·)
pour tout
τ (θ) ≥ 0, tandis que la probabilité de recouvrement associée au choix αmin (·)
est la meilleure parmi les autres choix et
est le moins bon choix parmi les autres choix et
Dans la Figure
3.3 (B),
Cαmax (·) (θ) ≥ 1 − α = 0.95
Cαmin (·) (θ) ≤
1
pour tout
1+α
la probabilité de recouvrement associée au choix
47
τ (θ) ≥ 0.
αHP D (·)
et
αopt (·)
se rapprochent sauf quand
Cαopt (·) (0) =
1
1+α
≈ 0.952.
aussi de celle pour
par
1 − 3α
,
2
τ (θ) = 0.
En eet, on a
CαHP D (·) (0) ≈ 0.975
Enn, la probabilité de recouvrement de
et
IαHP D
ainsi que pour
Iαopt .
CHP D
Iαég
se rapproche
De plus, il semble que le minimum de
et
Copt ,
ce qu'on va établir à la Section
cas et plus généralement pour le cas où la densité du pivot
T (X, θ)
et
Cαég
3.2
borné
pour ce
est log-concave.
(b) Avec une analyse semblable, comme le cas Gamme cité ci-dessus, on obtient des
résultats similaires pour un modèle Weibull avec densité
où
f1
Soit
X ∼ F isher(r, s)
est la densité de
s'intéresse à estimer
θ
π0 (θ) = 1θ I(0,∞) (log(θ)).
de paramètre d'échelle
F isher(r, s).
On suppose que
sous la contrainte
θ ≥ 1
r
et
sont connus et on
s
dont la loi a priori utilisée est
Cette situation paraît de façon naturelle pour des problèmes
la même démarche de l'Exemple 16, on prend le pivot linéaire
log(θ)(a1 (X) = log(X), a2 (X) = 1
et de répartition de
−T (X, θ)
G(t) = 1 − F1 (e−t ),
avec
[5]
F1 (·)
et
τ (θ) = log(θ))
[5]).
dont les fonctions de densité
g(t) = e−t f1 (e−t ),
étant la fonction de répartition d'une loi Fisher(r,s)
ont étudié l'intervalle HPD pour
θ,
modèle. Pour plus de détails, voir Bosa
et
s = 12).
Zhang et Woodroofe
pour la même loi a priori et pour le même
[11].
La Figure 3.4 présente les diérents choix
α(·)
de la Dénition 14 avec le choix
Comme dans le cas d'une loi Gamma, on note que le choix
pas dans la sous-classe
C
En suivant
T (X, θ) = log(X) −
sont respectivement données par
α
= −G−1 ( 1+α
) ≈ 1.199 (avec α = 0.05, r = 4
αHP D (·).
r
et de densité 1θ f1 ( xθ ),
θ
en analyse de variance à eets aléatoires (voir Zhang et Woodroofe
et t0
avec
θ ≥ 1.
connu et la contrainte
Exemple 17.
x r
f (x) = θr ( xθ )r−1 e−( θ )
αHP D (·)
n'est
mais que sa probabilité de recouvrement excède néanmoins
1−α
(voir Figure 3.6).
1+α
La Figure 3.5 (A) illustre les intervalles bayésiens de
48
τ (θ) = log(θ)
pour
r = 4,
Figure 3.4 Les fonctions de distribution α(·) pour le modèle Fisher(4,12), θ ≥ 1, et
1-α=0.95.
s = 12 et 1 − α = 0.95 associés aux choix αég (·), αmax (·) et αmin (·) et La Figure
3.5 (B) illustre les intervalles bayésiens associés aux choix αég (·), αHP D (·) et αopt (·).
Comme pour le cas Gamma étudié ci-dessus, on note que les intervalles IHP D , Iopt
et Iég se rapprochent.
Maintenant, la Figure 3.6 (A) illustre la probabilité de recouvrement de Iαég , Iαmax
et Iαmin , tandis que La Figure 3.6 (B) illustre la probabilité de recouvrement de
Iαég , IαHP D et Iαopt . Comme pour l'Exemple 16, on note que les probabilités de recouvrements de IαHP D et Iαopt se rapprochent sauf quand τ (θ) = 0 ( en eet, on a
CαHP D (·) (0) ≈ 0.973 et Cαopt (·) (0) =
1
1+α
≈ 0.952). La probabilité de recouvrement de
Iαég est proche de celles IαHP D et Iαopt . Enn, la probabilité de recouvrement de Iαmax
49
Figure 3.5 Intervalles bayésiens pour le modèle Fisher(4,12) et 1- α=0.95.
est la meilleure parmi les autres intervalles, tandis que la probabilité de recouvrement
de Iαmin est nettement moins élevée.
Exemple 18.
α
) =
Pour X ∼ N(θ, 1), θ ≥ 0, 1 − α = 0.90, on a t0 = −Φ−1 ( 1+α
1
Φ( 1+α
) ≈ 1.335. Alors, en appliquant le Lemme 1 avec les choix αég , αmax et αmin ,
on obtient les diérents intervalles bayésiens suivants :
Iπ0 ,αég (·) (x) =
Iπ0 ,αmax (·) (x) =
⎧
⎨ lαég (x) (x) = x + Φ−1 ( α2 +
⎩
uαég (x) (x) = x + Φ−1 (1 −
1−α
Φ(−x))
2
α
2
−
1−α
Φ(−x)),
2
⎧
α2
+ (1 − α)Φ(−x))
⎨ lαmax (x) (x) = x + Φ−1 ( 1+α
⎩
1
),
uαmax (x) (x) = x + Φ−1 ( 1+α
50
Figure 3.6 Les probabilités de recouvrement associées aux intervalles bayésiens pour
le modèle Fisher(4,12), θ ≥ 1 et 1-α=0.95.
Iπ0 ,αmin (·) (x) =
Ici le pivot
⎧
−1 α
⎨ lαmin (x) (x) = x + Φ ( 1+α )
⎩
uαmin (x) (x) = x + Φ−1 (1 −
X − θ ∼ N(0, 1)
α2
1+α
− (1 − α)Φ(−x)).
a une densité symétrique et les résultats des sections 2.1
et 3.1 s'appliquent.
La Figure
3.7
présente diérents choix
densité du pivot
T (X, θ),
α(·)
pour
on note que les choix
α = 0.10.
αég (x)
Figure 3.8 représente les intervalles bayésiens pour
51
θ
et
Avec la symétrie de la
αopt (x)
coïncident ici. La
associés aux choix
α(·)
cités
Figure 3.7 Les fonctions de distributions
1-α=0.90.
α(·)
pour le modèle
N (θ, 1), θ ≥ 0,
et
ci-dessus. On note que les longueurs des intervalle Iαmax et Iαmin sont égales. Au
prochain lemme, on va voir que ce résultat est vrai pour toutes les densités symétriques.
Lemme 2. Sous l'Hypothèse A avec G
symétrique, on a que les intervalles bayésiens
de la sous-classe C associés aux choix αmax (x) et αmin (x) ont des longueurs égales.
Démonstration. Du Lemme 1, les intervalles bayésiens associés aux choix α
52
max (·)
Figure 3.8 Intervalles bayésiens pour le modèle
N (θ, 1), θ ≥ 0,
et 1-α=0.90.
et α· (x) sont respectivement données par :
Iπ0 ,αmax (·) (x) =
⎧
α2
+ (1 − α)G(−t(x)))
⎨ lαmax (x) (x) = t(x) + G−1 ( 1+α
⎩
1
),
uαmax (x) (x) = t(x) + G−1 ( 1+α
et
Iπ0 ,αmin (·) (x) =
⎧
−1 α
⎨ lαmin (x) (x) = t(x) + G ( 1+α )
⎩
uαmin (x) (x) = t(x) + G−1 (1 −
α2
1+α
− (1 − α)G(−t(x))).
Par la symétrie de G , on a que G(x) = 1 − G(−x) et G−1 (y) = −G−1 (1 − y). Alors,
53
on obtient :
1
α2
) − G−1 (
+ (1 − α)G(−t(x)))
1+α
1+α
α
α2
= −G−1 (
) + G−1 (1 − (
+ (1 − α)G(−t(x))))
1+α
1+α
= uαmin (x) (x) − lαmin (x) (x).
uαmax (x) (x) − lαmax (x) (x) = G−1 (
Figure 3.9 Les probabilités de recouvrement associées aux intervalles bayésiens pour
le modèle N (θ, 1), θ ≥ 0 et 1-α=0.90.
La Figure 3.9 présente les probabilités de recouvrement associées aux choix α(·) cités
ci-dessus. Alors que les intervalles bayésiens associés aux choix αmax (·) et αmin (·)
ont des longueurs égales, leurs probabilités de recouvrement sont complètement différentes. En eet, Cαmax (θ) ≥ 1 − α pour tout τ (θ) ≥ 0 mais Cαmin (θ) ≤
54
1
1+α
pour
tout
θ ≥ 0.
Cαég (·) (θ) > 1 −
On remarque aussi que
3α
2
= 0.85
pour tout
Exemple 19. (a) Soit X ∼ P areto(1, γ), où la densité de X est
γ ∈ [1, γ0 ].
la contrainte
On sait que
γ0 log(X) ∼ Exp(θ)
on peut trouver un intervalle bayésien pour
θ.
γ
avec
θ ≥ 0.
γ
I[1,∞) (x) avec
xγ+1
γ0
≥ 1. Donc,
θ=
γ
à partir d'un intervalle bayésien de
En eet, de l'Exemple 16, l'intervalle bayésiens à ailes égales de
θ est [l1 (x) =
exp(lαég (x) (x)), u1 (x) = exp(uαég (x) (x))] avec lαég (x) (·) et uαég (x) (·) sont
" donnés par
#
γ
γ
0
0
(3.7). Alors, l'intervalle bayésien à ailes égales de γ est Iπ0 ,αég (·) (x) =
,
u1 (x) l1 (x)
qui a la même probabilité de recouvrement de θ car on a
P Iπ0 ,αég (·) (x) γ = P
$"
#
%
γ0
γ0
,
γ
=
u1 (x) l1 (x)
=
P
γ0
[l1 (x), u1 (x)] γ
P ([l1 (x), u1 (x)] θ) .
(b) Pour Xi ∼ind P areto(1, γ), i = 1, . . . , n avec γ ∈ [1, γ0 ], on procède de façon
pareille avec la statistique exhaustive γ0 i log(Xi ) de loi Gamma(n, θ) avec θ =
γ0
≥ 1.
γ
Exemple 20.
Soient Xi ∼ind U (0, θ), i = 1, . . . , n. On s'intéresse à estimer le
paramètre d'échelle θ lorsque θ ≥ 1. La statistique Y = log(maxXi ) est exhaustive
de loi Exp(θ , n1 ) (densité ne−n(y−θ ) I[θ ,∞) (y)) avec θ = log(θ). Donc, le Théorème
3, le Lemme 1 et le Corollaire 3 sont applicables et on obtient une classe d'intervalles
bayésiens pour θ avec une probabilité de recouvrement excède la borne
[3] qui analyse ce cas.
55
1−α
.
1+α
Voir aussi
3.2 Cadre général avec ou sans symétrie : la borne
inférieure 1 − 3α
2 pour la probabilité de recouvrement fréquentiste
Les nouveaux résultats de cette section, au niveau de la probabilité de recouvrement
fréquentiste associée à un intervalle bayésien de la sous-classe C cité à la Section 3.1
(Théorème 3), s'appliquent à des modèles de densité continue et log-concave. Il s'agit
d'un projet en collaboration avec les professeurs Éric Marchand et Bill Strawderman.
En relation avec les résultats de Marchand et al. [2], la symétrie n'est pas requière.
Les résultats s'appliquent donc pour les familles de position X ∼ f0 (x−θ) avec f0 une
fonction pas nécessairement pair. De plus, les résultats s'appliquent pour les familles
d'échelles X ∼ 1θ f1 ( xθ ) avec f1 log-concave dont le cas X ∼ Gamma(r, θ), avec θ ≥
0 et r connu. Tout au long de cette section, on va travailler avec le modèle X ∼ fθ (·),
(θ)
le pivot linéaire T (X, θ) = a1 (X)−τ
de densité G continue, unimodale en 0 et loga2 (X)
concave, et l'intervalle bayésien Iπ0 ,α(·) (X) (cité au Lemme 1) pour τ (θ), de crédibilité
1 − α associé à la loi a priori π0 et une fonction de distribution α(·) qui satisfait les
conditions du Théorème 3 ainsi que l' hypothèse suivante.
Hypothèse B. On suppose que la fonction de distribution α(x) est une fonction
continue de t(x) dont limt(x)→∞ α(x) existe et pour laquelle α(x)(1 − G(−t(x))) est
décroissante en t(x) pour t(x) ≥ t0 .
Remarque 7. L'unimodalité en 0 est une propriété qu'on peut supposer sans perte de
généralité car si T (X, θ) a un mode en b, alors le pivot T (X, θ)−b =
a1 (x) − τ (θ)
,
a2 (x)
a1 (x) − ba2 (x) − τ (θ)
=
a2 (x)
avec a1 (x) = a1 (x) − ba2 (x), a un mode en 0.
Remarque 8. On vérie aisément que les choix α
56
ég (·)
, αmax (·) et αmin (·) ( Déni-
tion 14) satisfont les conditions de l'Hypothèse B.
Nous établissons la borne inférieure de probabilité de recouvrement fréquentiste
pour le choix
1− 3α
2
αég (·) de la sous-classe C (Théorème 4) et donnerons un lemme (Lemme
15) utile pour déduire la borne inférieure de probabilité de recouvrement
d'autres choix de
α(·)
de
C
pour lesquels
C(θ), τ (θ) ≥ 0,
comportement de
α(·) ≥ αég (·).
1−
3α
pour
2
D'autres propriétés sur le
seront établis dans cette section.
3.2.1 Dénitions et propriétés préliminaires
Dans cette sous-section, on établit diverses propriétés et résultats préliminaires concernant les distributions log-concaves qui peuvent être retrouvées dans plusieurs ouvrages
dont les livres de Berger
Dénition 15.
tout
x, y
(f (λx
[7]
et de Fourdrinier
f :
On dit que la fonction
et pour tout
λ ∈ (0, 1)
on a
[15].
R→R
est concave (convexe) si pour
f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y)
+ (1 − λ)y) ≤ λf (x) + (1 − λ)f (y)).
Dénition 16.
Une densité
f :
R→R
de probabilité est dite log-concave si log( f )
est concave.
Lemme 3.
Soit
f
une fonction convexe. Pour tout
f (t + x2 ) − f (t + x1 )
Dénition 17.
croît en
en
x.
θ 2 , θ1
Une famille de densités
tel que
tels que
x2 ≥ x1 , la fonction
t.
X ∼ fθ (·), θ ∈ Θ
θ2 > θ1 , on a
est dite à rapport de
X (respectivement décroissant en X ) si
fθ2 (x)
est croissant (respectivement décroissant)
fθ1 (x)
vraisemblance monotone(RVM) croissant en
pour tout
x 1 , x2
57
Lemme 4. Soit h(·) une fonction croissante. Soit {fθ (·); θ ∈ Θ ⊆ R} une famille de
densité continues à RVM croissant dont le support est indépendant de θ. Si Eθ (h (X))
existe, alors Eθ (h (X)) est croissante en θ.
Démonstration. Voir Bosa[11] et Lmoudden [12].
Lemme 5. Soit f (x−θ) une fonction de densité d'un pivot linéaire X −θ. Si f0 (·) est
log-concave, alors la famille fθ (·) est à rapport de vraisemblance monotone (RVM)
croissant.
Démonstration. On peut écrire f (x) = e
θ1
fθ2 (x)
fθ1 (x)
−h(x−θ)
, où h est convexe. Mais ∀θ2 >
croît en x ssi h(x − θ1 ) − h(x − θ2 ) est croissant en x et cette croissance
découle du Lemme 3 avec x2 = −θ1 et x1 = −θ2 .
Corollaire 4. Soient fθ = f0 (x − θ), θ
∈ Θ, une densité de famille à position dont
QΔ,θ
le support est indépendant de θ et QΔ,θ les quantiles tels que −∞
fθ (x)dx = Δ,
Δ ∈ (0, 1). Si la famille {fθ (·); θ ∈ Θ} est à RVM croissant, alors QΔ,θ est croissant
en θ.
Démonstration. Soient θ ,
1
θ2 tels que θ2 ≥ θ1 et h(x) = I(QΔ,θ2 ,∞) (x). Puisque la
fonction indicatrice I(QΔ,θ2 ,∞) (x) est croissante en x, on a Eθ2 (h (X)) ≥ Eθ1 (h (X))
selon le Lemme 4 ce qui donne
1−Δ=
∞
−∞
I(QΔ,θ2 ,∞) (x)fθ2 (x)dx ≥
∞
−∞
I(QΔ,θ2 ,∞) (x)fθ1 (x)dx ⇒ QΔ,θ2 ≥ QΔ,θ1 .
Lemme 6. Soit Y une variable aléatoire de densité
e−h(y−θ) avec h une fonction
convexe. Pour toute densité a priori π (θ), la famille des lois a posteriori π (θ|y) est
à (RVM) croissante en θ avec paramètre y ∈ R.
58
Démonstration. Soient y
1
et y2 tels que y2 > y1 . On a :
e−h(y2 −θ) π(θ)
π(θ|y2 )
∝ −h(y1 −θ)
π(θ|y1 )
e
π(θ)
h(y1 −θ)−h(y2 −θ)
= e
= eh(θ−y1 )−h(θ−y2 ) .
La croissance de ce rapport en θ découle alors de la convexité de h et du Lemme 3.
3.2.2 La borne inférieure 1 − 3α
2 avec des densités log-concaves
Dans cette sous-section, nous voyons que la log-concavité de la densité du pivot
T (X, θ) joue un rôle important pour démontrer la croissance des bornes lα(·) et uα(·)
de l'intervalle Iπ0 ,α(·) donné par le Lemme 1, et pour étudier le comportement de la
probabilité de recouvrement Cα(·) (θ). Le prochain lemme précise le comportement de
ces bornes.
Lemme 7. Sous le contexte de l'Hypothèse A et l'Hypothèse B et pour une fonction
α
de distribution α(·), g = G unimodale et t0 = −G−1 ( 1+α
) ≥ 0, on a :
(a)
uα(·) (x)
a2 (x)
est croissante en t(x) pour t(x) > t0 ,
(b)
lα(·) (x)
a2 (x)
est croissante en t(x) lorsque t(x) ≥ t0 ,
(c)
uα(·) (x)
a2 (x)
est croissante en t(x) lorsque g est log-concave.
Démonstration. (a) Du Lemme 1, on a
uα(·) (x)
a2 (x)
= t(x)+G−1 {1 − α(x)(1 − G(−t(x)))}.
Du fait que α(x)(1 − G(−t(x)) décroît en t(x) (Hypothèse B ), le résultat découle en
vertu de la croissance des fonction G et G−1 .
59
(b)
Du Lemme 1 et pour t(x) ≥ t0 ≥ 0, on a :
lα(·) (x)
− t(x) = G−1 {G(−t(x)) + (α − α(x))(1 − G(−t(x)))}
a2 (x)
≤ G−1 (G(−t0 )) = −t0 ≤ 0.
Du fait que α(x)(1 − G(−t(x)) décroît en t(x), on a :
lα(·) (x)
∂
∂
G(
− t(x)) =
[G(−t(x)) + (α − α(x))(1 − G(−t(x)))],
∂t(x)
a2 (x)
∂t(x)
⇒
∂
(α(x)(1 − G(−t(x))))
(1 − α)g(−t(x)) − ∂t(x)
∂ lα(·) (x)
(
) = 1−
l
(x)
∂t(x) a2 (x)
g( α(·) − t(x))
a2 (x)
≥ 1−
(1 − α)g(−t(x))
g(
lα(·) (x)
a2 (x)
− t(x))
≥ 1 − (1 − α) = α ≥ 0.
Le résultat découle du fait que lα(·)(x) ≥ 0 et que g est unimodale.
u
(x)
a (x)
(c) On a, pour z = a (x) ≤ t0 , que a (x) = z + G−1 {1 − α(1 − G(−z))} correspond
au quantile d'ordre 1 − α de la loi a posteriori de aτ (θ)
. On obtient la fonction de
(x)
répartition a posteriori de ω = aτ (θ)
de (3.1) et on a :
(x)
1
α(·)
2
2
2
2
1 − G(ω − z)
τ (θ)
≤ ω|x) = 1 −
a2 (x)
1 − G(−z)
G(ω − z) − G(−z)
=
.
1 − G(−z)
Hx (ω) = Pπ0 (
g(ω−z)
est hx(ω) = 1−G(−z)
I[0,∞) (ω). La log-concavité de g
La densité a posteriori de aτ (θ)
(x)
implique que la famille des lois a posteriori de aτ (θ)
est à rapport de vraisemblance
(x)
τ (θ)
monotone(RVM) croissant en a (x) selon le Lemme 6. Alors, la croissance de ua (x)(x)
découle du Corollaire 4.
2
2
α(·)
2
2
Pour une analyse plus approfondie, on suppose que a2(x) = 1, a1(x) = t(x) est croissante en x, et on écrit l(x) = l∗(t(x)), u(x) = u∗(t(x)) et α(x) = α∗(a1(x)) où l et
60
u sont donnés au Lemme 1. Ceci donne Iπ0 ,α(·) (x) = [l∗ (a1 (x)), u∗ (a1 (x))] avec l∗ (y) =
y+G−1 {G(−y) + (α − α∗ (y))(1 − G(−y))} et u∗ (y) = y+G−1 {1 − α∗ (y)(1 − G(−y))}.
Pour la suite, on note que
α
t0 = −G−1 ( 1+α
)
α
1
u∗ (t0 ) = −G−1 ( 1+α
) + G−1 ( 1+α
), l∗ (t0 ) = 0,
est le point où
α∗ (y) = α
pour
et que
y ≤ t0 .
Maintenant, en vertu des propriétés de croissance données par le Lemme 7, les
fonctions l∗ et
u∗
sont continues et croissantes lorsque
on peut dénir leurs inverses
a = limy→−∞ u∗ (y).
l∗
−1
et
u∗
−1
sur
(0, ∞)
G
et
est log-concave et donc
(a, ∞)
respectivement où
Les quantités suivantes sont utiles pour le calcul de la probabilité
de recouvrement.
Dénition 18. On dénit :
−1
(i) x0 (τ (θ)) = u∗ (τ (θ)) − τ (θ) pour a ≤ τ (θ) ≤ y0 ,
−1
(ii) x1 (τ (θ)) = l∗ (τ (θ)) − τ (θ) pour τ (θ) ≥ 0,
−1
(iii) x2 (τ (θ)) = u∗ (τ (θ)) − τ (θ) pour τ (θ) ≥ y0 ,
où
a = limy→−∞ u∗ (y)
et
y0 = u∗ (t0 ).
Le prochain lemme donne une forme équivalente, autre que celle de la Proposition 1,
pour la probabilité de recouvrement
propriétés utiles pour les quantités
Cα(·) (θ)
associée à l'intervalle
x0 (τ (θ)), x1 (τ (θ))
et
Iπ0 ,α(·) (X)
et des
x2 (τ (θ)).
Lemme 8. Sous le contexte de l'Hypothèse A, l'Hypothèse B avec g log-concave, on
a :
où
⎧
⎨
1 − G(−x1 (τ (θ)))
G(−x0 (τ (θ))) − G(−x1 (τ (θ)))
Cα(·) (θ) =
⎩
G(−x2 (τ (θ))) − G(−x1 (τ (θ)))
τ (θ) ∈ [0, a],
si τ (θ) ∈ (a, y0 ],
si τ (θ) ∈ (y0 , ∞),
si
(3.8)
a = limy→−∞ u∗ (y), y0 = u∗ (t0 ) et x0 (·), x1 (·), et x2 (·) sont des fonctions, dénies
61
ci-dessus, satisfaisant les équations avec z = τ (θ) :
G(−x0 (z)) = 1 − α (1 − G(−x0 (z) − z)) ,
(3.9)
G(−x1 (z)) = α + (1 − α)G (−x1 (z) − z) − α∗ (x1 (z) + z) (1 − G(−x1 (z) − z)) ,
(3.10)
∗
G(−x2 (z)) = 1 − α (x2 (z) + z)(1 − G(−x2 (z) − z)).
(3.11)
Démonstration. 1) Pour a ≤ τ (θ) ≤ y , on a :
0
Cα(·) (θ) =
=
Pθ (l∗ (a1 (X)) ≤ τ (θ) ≤ u∗ (a1 (X)))
Pθ τ (θ) − l∗ (τ (θ)) ≤ τ (θ) − a1 (X) ≤ τ (θ) − u∗ (τ (θ)) (P roposition 1)
−1
−1
= G(−x0 (τ (θ))) − G(−x1 (τ (θ))).
De la même façon, pour z ≥ y0 , on a Cα(·) (θ) = G(−x2 (z)) − G(−x1 (z)) et pour
−1
0 ≤ z ≤ a, du fait que u∗ (a) = −∞, on a Cα(·) (θ) = 1 − G(−x1 (z)).
2) Pour l'équation en (3.9), puisque u
∗−1
(z) est la valeur de t(x) telle que u∗ (t(x)) =
z et du fait que α∗ (y) = α pour y ≤ t0 , on a donc :
z=u
∗−1
(z) + G
−1
1 − α(1 − G(u
∗−1
(z)))
⇔ −x0 (z) = G−1 (1 − α(1 − G(−x0 (z) − z)))
⇔ G(−x0 (z)) = 1 − α (1 − G(−x0 (z) − z)) .
De la même façon, on déduit l'équation en (3.11). Pour l'équation (3.10), on a :
−1
−1
−1
−1
z = l∗ (z) + G−1 G(−l∗ (z)) + (α − α∗ (l∗ (z)))(1 − G(−l∗ (z)))
⇔ G(−x1 (z)) = G(−x1 (z) − z) + (α − α∗ (x1 (z) + z))(1 − G(−x1 (z) − z)
⇔ G(−x1 (z)) = α + (1 − α)G (−x1 (z) − z) − α∗ (x1 (z) + z) (1 − G(−x1 (z) − z)) .
62
Remarque 9. Seules les propriétés relatives à x (·), ainsi que ceux de la probabilité
0
de recouvrement Cα(·) (θ) pour τ (θ) ≤ y0 , exigent la log-concavité de G .
Remarque 10. De (3.8) et les propriétés des x , x
0
1
et x2 , on note que la probabilité
de recouvrement Cα(·) (θ) est une fonction continue sur [0, ∞), avec l'exception d'une
discontinuité à τ (θ) = a, et lorsque a > 0. Dans ce cas, on a : limτ (θ)→a− x0 (τ (θ)) =
−∞ et limτ (θ)→a+ x0 (τ (θ)) = u−1 (a)−a, ce qui conduira à une baisse de G(u−1 (a)−a)
dans la probabilité de recouvrement en τ (θ) = a. Au titre d'illustration, voir Bosa
[11].
Lemme 9. On a que :
1
(a) x0 (τ (θ)) est croissante en τ (θ) de −∞ à −G−1 ( 1+α
) pour τ (θ) ∈ (a, y0 ],
α
(b) x1 (τ (θ)) est croissante en τ (θ) de −G−1 ( 1+α
) à y1 = −G−1 (α − limz→∞ α∗ (z))
pour τ (θ) ≥ 0,
1
(c) x2 (τ (θ)) est décroissante en τ (θ) de −G−1 ( 1+α
) à y2 = G−1 (1 − limz→∞ α∗ (z))
pour τ (θ) ≥ y0 .
Démonstration. En posant z = τ (θ), on a :
−1
(a) De l'équation (3.9), on a −x0 (z) = G−1 (1 − α + αG(−u∗ (z))). Avec g étant
−1
log-concave, on a que u∗ (z) croît en z cela implique que x0 (z) croît en z pour
z ∈ (a, y0 ]. De plus, on a que a = limy→−∞ u∗ (y) ⇒ limz→a+ x0 (z) = −∞.
−1
Finalement puisque u∗ (t0 ) = y0 , on a x0 (y0 ) = u∗ (y0 ) − y0 = t0 − y0 =
1
−G−1 ( 1+α
).
−1
(b) La croissance de x1 découle de l'équation (3.10) et du fait que l∗ (z) = x1 (z)+z
−1
est croissante en z (Lemme 7). De plus, on a x1 (0) = l∗ (0) − 0 = t0 et
y1 = limz→∞ x1 (z) = −G−1 (α − limz→∞ α∗ (z)) ;
63
(c)
De l'équation (3.11), on a
−x2 (z) = G
−1
∗
1 − α (u
∗−1
(z))(1 − G(−u
∗−1
(z)))
(∗)
.
Sous le contexte de l'Hypothèse B et la croissance de la fonction u∗ (z) et G−1,
on a que le côté droit de l'équation ( ∗) croît en z et cela implique que x2(z)
1
décroît en z ≥ 0. De plus, on a x2(y0) = x0(y0) = −G−1( 1+α
) et de (∗), on
obtient y2 = limz→∞ x2(z) = −G−1(1 − limz→∞ α∗(z)).
−1
En vertu du Lemme 8, on obtient les propriétés suivantes pour la probabilité de
recouvrement Cα(·)(θ), τ (θ) ≥ 0.
Corollaire 5. Sous le contexte de l'Hypothèse A et l'Hypothèse B, soit
un
intervalle de crédibilité bayésien de la classe C du Théorème 3. Pour la probabilité de
recouvrement fréquentiste Cα(·)(θ), on a que :
(a) Cα(·) (θ) est croissante en τ (θ) et Cα(·) (θ) ≤ 1 − α pour τ (θ) ≥ y0 ,
1
(b) Cα(·) (θ) ≥ 1+α
pour τ (θ) ∈ (0, a],
(c) Cα(·) (θ) ≤ 1 − α + limt(x)→∞ α(x) pour τ (θ) ≥ 0.
Iπ0 ,α(·)
Démonstration.
(a)
Du Lemme 8 et pour τ (θ) ≥ y0, on a Cα(·)(θ) = G(−x2(τ (θ))) − G(−x1(τ (θ))).
Mais on a du Lemme 9 que la fonction x1(τ (θ)) croît en τ (θ) tandis que la
fonction x2(τ (θ)) décroît en τ (θ) ce qui implique que Cα(·)(θ) est croissante en
τ (θ). Finalement, du Lemme 9, on a
Cα(·) (θ) = G(−x2 (τ (θ))) − G(−x1 (τ (θ)))
≤ G(−y2 ) − G(−y1 ) = (1 − lim α(x)) − (α − lim α(x))
t(x)→∞
= 1 − α.
64
t(x)→∞
(b)
Pour τ (θ) ∈ (0, a] et du Lemme 9, on a :
Cα(·) (θ) = 1 − G(−x1 (τ (θ)))
≥ 1 − G(−x1 (0))) = 1 − G(−t0 ) =
(c)
1
.
1+α
On a de (a) que Cα(·) (θ) ≤ 1 − α pour τ (θ) ≥ y0 , alors il sut de démontrer
le résultat pour τ (θ) ≤ y0 . On a :
Cα(·) (θ) ≤ 1 − G(−x1 (τ (θ)))
≤ 1 − G(−y1 )
= 1 − G G−1 (α − lim α∗ (z))
z→∞
∗
= 1 − α + lim α (z).
z→∞
Les prochains lemmes seront utiles pour établir la borne inférieure 1 − 3α2 pour la
probabilité de recouvrement fréquentiste Cα(·) (θ) associée au choix αég (·).
Lemme 10. (Marchand et al.[2]) Soit g log-concave en R et unimodale en 0. Alors,
on a :
(a)
g(y)
g(y + θ)
est non décroissante en θ sur (0, ∞), pour y ≥ 0 ;
(b)
g(y)
g(y + θ)
est non décroissante en y sur R, pour θ ≥ 0 ;
(c)
g(y(θ))
g(y(θ) + θ)
est non-décroissante en θ sur
négative et non décroissante sur [0, ∞) ;
(d) G
(e)
(0, ∞)
pour
y(·)
une fonction non-
et G ≡ 1 − G sont log-concaves sur (0, +∞) ;
Le taux de défaillance λ(·), avec λ(y) =
65
g(y)
G(y)
est non décroissante sur R.
Démonstration. (a) Le résultat découle de l'unimodalité de g.
(b) On peut écrire g(y) = e , où h est convexe. Alors, on a
−h(y)
g(y)
g(y+θ)
= eh(y+θ)−h(y)
mais du Lemme 3, on a que h(y + θ) − h(y) croît en y ∈ R et θ ≥ 0. C'est-à-dire que
g(y)
↑ y ∈ R et θ ≥ 0.
g(y+θ)
(c) Le résultat découle des parties (a) et (b).
(d) Ce résultat est démontré par Bergstrom et Bagnoli [10].
(e) On a
⇒
G (y)
G(y)
− G (y)
λ(y) =
.
=
Ḡ(y)
G(y)
g(y)
Mais on a de la partie (d) que G est log-concave
est décroissant en y ⇒ λ(y) croît en y ∈ R.
Lemme 11. Pour g log-concave et unimodale en 0, on a
G(z)
G(0) − G(z)
≥
,
G(2z)
G(z) − G(2z)
pour tout z ≥ 0.
(3.12)
Démonstration. Puisque la log-concavité de g implique que le taux de défaillance
est croissant ( Lemme 10), on a λ(z) ≤ λ(2z) ⇒
z ≥ 0, il sut de démontrer que
λ(·)
g(z)
g(2z)
≤
G(z)
G(2z)
z
g(y)dy
G(0) − G(z)
g(z)
≤
= 02z
g(2z)
G(z) − G(2z)
g(y)dy
z
2z z
g(y)
g(y)
⇔
dy ≤
dy
g(2z)
0 g(z)
z
z
g(y) g(y + z)
⇔
−
dy ≤ 0.
g(z)
g(2z)
0
En appliquant la partie
obtient
. Alors, pour tout
(3.13)
(b) du Lemme 10 à l'intérieur de l'intégrale à (3.13), on
g(y) g(y + z)
−
≤0
g(z)
g(2z)
pour tout y, z tels que y ∈ (0, z) et le résultat s'ensuit.
Remarque 11. Le Lemme 11 fut donné par Marchand et al. [2] pour le cas g symétrique avec G(0) = 12 .
66
Lemme 12. Soit g une densité log-concave en R et unimodale en 0. On dénit la
fonction H(z) = 1 − G(−z) et on a :
(a) H est une fonction log-concave,
α
(b) De plus, pour t0 = −G−1 ( 1+α
) ≥ 0, on a
1 − 3α2
H(2t0 ) ≥
.
1 − α2
(3.14)
Démonstration. (a) Ce résultat est démontré par Bergstrom et Bagnoli [10],
(b) Puisque H(t0 ) =
1
1+α
et H(t0 ) =
α
,
1+α
on a :
2
1 − 1−3α
H(2t0 )
H(2t0 )
1 − 3α2
2α
1−α2
⇔
⇔
.
≤
≤
H(2t0 ) ≥
α
2
1−α
1−α
H(t0 )
H(t0 )
1+α
Du Lemme 11, on a
H(2t0 )
H(t0 )
≤
H(t0 ) − H(2t0 )
avec t0 étant positive. Alors, pour
H(0) − H(t0 )
démontrer l'inégalité (3.14), il sut de montrer que
H(t0 ) − H(2t0 )
2α
2α
2α2
α
⇔
− H(2t0 )
≤
H(0) −
≥
2
1−α
1−α
1−α
1+α
H(0) − H(t0 )
α
2α
− H(2t0 ).
H(0) ≥
⇔
1−α
1−α
Mais, on a que H(z) est décroissante en z ≥ 0 et cela implique que H(2t0 ) ≤ H(0).
Alors, on obtient :
2α
α
α
α
− H(0) ⇔ H(0) ≥
⇔ G(0) ≥
⇔ t0 ≥ 0.
H(0) ≥
1−α
1−α
1+α
1+α
Remarque 12. La condition G(0) ≥
α
.
1+α
α
1+α
est équivalente à
Pθ (−T (X, θ) ≤ 0) ≥
Par exemple, soit X ∼ Exp(θ) avec le paramètre d'échelle θ ≥ 1. On a, de
l'Exemple 16, que la fonction de répartition de T (X, θ) = log(X) − log(θ) est G(t) =
−t
P (−log( Xθ ) ≤ t) = e−e . Alors, on a
α≤
1
e
Pθ (−T (X, θ) ≤ 0) = G(0) = ≥
1
.
e−1
67
α
lorsque
1+α
On peut maintenant établir la borne inférieure 1− 3α2 de Cα(·)(θ) associée à l'intervalle
bayésien Iα (·), α ∈ (0, 13 ] et G log-concave. On procède par analyse séparée sur
diérents intervalles.
ég
Lemme 13. Sous les mêmes hypothèses qu'au Lemme 8, on a que Cα
pour τ (θ) ∈ [y0, ∞) avec y0 = u∗(t0) et t0 ≥ 0.
Démonstration. Pour τ (θ) ∈ [y0, ∞) on a
ég (·)
(θ) ≥ 1− 3α
2
Cα(·) (θ) = G(−x2 (τ (θ))) − G(−x1 (τ (θ)))
≥ G(−x2 (y0 )) − G(−x1 (y0 )) (par le Lemme 9)
1
− G(−x1 (y0 ))
=
1+α α 1−α
1
∗
−
+
G(−x1 (y0 ) − y0 )
par
(3.10)
et
α∗ (·) = αég
(·)
Cαég (·) (θ) ≥
1+α
2
2
α 1−α
1
− −
G(−2t0 ) ( du fait que x1 (y0 ) + y0 ≥ x1 (0) + y0 ≥ 2t0 )
≥
1+α 2
2
α 1−α
1
− −
(1 − H(2t0 ))
=
1+α 2
2 α 1−α
1 − 3α2
1
(par le Lemme 12)
− −
1−
≥
1+α 2
2
1 − α2
3α
= 1−
.
2
Lemme 14. Soit
z1 = G−1 (1 −
hypothèses qu'au Lemme 8, on a :
3α
2
+
α
)
1+α
1−α
− G−1 ( 2(1+α)
).
(a) C (θ) ≥ 1 − pour tout τ (θ) ∈ [0, z ],
(b) z ∈ [t , y ].
Démonstration. (a) Posons z tel que G(−x (z )) = 1 −
3α
2
αég (·)
1
0
Alors sous les mêmes
1
0
1
0
68
1
3α
2
+
α
1+α
. On a pour
τ (θ) ≤ z1
α
3α
+
− G(−x1 (τ (θ)))
2
1+α
α
α
α
3α
3α
+
− G(−x1 (0)) = 1 −
+
−
≥ 1−
2
1+α
2
1+α 1+α
3α
= 1−
.
2
Cα(·) (θ) = G(−x0 (τ (θ))) − G(−x1 (τ (θ))) ≥ 1 −
Par ailleurs, on obtient du Lemme 8
G(−x0 (z1 )) = 1 − α[1 − G(−x0 (z1 ) − z1 )]
α
3α
+
⇔ 1 − α[1 − G(−x0 (z1 ) − z1 )] = 1 −
2
1+α
1−α
1−α
⇔ G(−x0 (z1 ) − z1 ) =
⇔ −x0 (z1 ) − z1 = G−1 (
)
2(1 + α)
2(1 + α)
α
3α
1−α
+
) − G−1 (
).
⇔ z1 = G−1 (1 −
2
1+α
2(1 + α)
(b)
On a, pour α ∈ (0, 31 ], que
G(−x0 (z1 )) = 1 −
α
1
3α
+
≥
= G(−x0 (y0 ))
2
1+α
1+α
⇒ z 1 ≤ y0 .
D'autre part, l'inégalité z1 ≥ t0 est équivalente à
G
−1
3α
α
1−
+
2
1+α
− G−1 (
1−α
α
) ≥ −G−1 (
),
2(1 + α)
1+α
α
1−α
3α
α
1
≤
et 1 − +
≥ pour α ≤ 13 ,
1 + α 2(1 + α)
2
1+α 2
α
3α
1
−
α
α
G−1 (1 −
+
) > 0 ⇒ G−1 (
) − G−1 (
) ≤ 0.
2
1+α
2(1 + α)
1+α
et puisque
alors
Le prochain théorème nous permet d'obtenir enn la borne inférieure
Cα (·) (θ) avec G log-concave.
ég
69
1−
3α
2
pour
(θ)
Théorème 4. Soit G la fonction de répartition du pivot linéaire T (X, θ) = a (x)−τ
,
a (x)
1
2
a2 (x) = 1, telle que la densité g soit log-concave et unimodale en 0. Soit Iπ0 ,αég (·) (X)
l'intervalle bayésien à ailes égales sous la loi a priori π0 (θ) = πH (θ)I[0,∞) (τ (θ)).
α
∗
Soit t0 = −G−1 ( 1+α
) ≥ 0 (le point où αég
(y) = α pour y ≤ t0 ). La probabilité de
recouvrement fréquentiste Cαég (·) (θ) est alors bornée inférieurement par 1 −
3α
2
pour
3α
2
pour
tout τ (θ) ≥ 0.
Démonstration. Selon les lemmes 13 et 14, on a déjà que C
αég (·) (θ)
≥ 1−
tout τ (θ) ∈ [0, z1 ]∪[y0 , ∞]. Ainsi, il reste à montrer que la borne tient sur l'intervalle
[z1 , y0 ]. En vertu de la log-concavité et de l'unimodalité de g(·) autour de 0, on a
Cα(·) (θ) = G(−x0 (τ (θ))) − G(−x1 (τ (θ)))
≥ G(−x0 (y0 )) − G(−x1 (τ (θ)))
1
− G(−x1 (z1 )).
≥
1+α
De plus, on a
3α
1
− (1 −
)
1+α
2
α 1−α
α(1 + 3α2 ) ∗
+
G(−x1 (z1 ) − z1 ) ≤
par (3.10) et α∗ (·) = αég
(·)
2
2
2(1 + α)
2
2α
G(−x1 (z1 ) − z1 ) ≤
1 − α2
2
2α
G(−2t0 ) ≤
( du fait que x1 (z1 ) + z1 ≥ x1 (t0 ) + t0 ≥ 2t0 )
1 − α2
1 − 3α2
,
H(2t0 ) ≥
1 − α2
G(−x1 (z1 )) ≤
⇔
⇔
⇐
⇔
ce qui est vrai en vertu du Lemme 12.
Le prochain résultat borne supérieurement la probabilité de recouvrement minimale
pour Cα(·) (θ) et démontré que la borne 1 −
premier degré pour infτ (θ)≥0 Cαég (·) (θ).
70
3α
2
est la meilleure approximation du
Corollaire 6. Sous le contexte du Lemme 8 et du Théorème 4, on a que
infτ (θ)≥0 Cα(·) (θ) ≤ 1 −
α2
3α
α
+
+ ( lim α(x) − ).
t(x)→∞
2
1+α
2
Démonstration. Du Lemme 9, on a inf
τ (θ)≥0 Cα(·) (θ)
≤ Cα(·) (y0 ). Donc on a
1
Cα(·) (y0 ) = G(−x0 (y0 )) − G(−x1 (y0 )) =
− G(−x1 (y0 ))
1+α
1
1
∗
≤
− G(y1 ) =
− α − lim α (z)
z→∞
1+α
1+α
3α
α2
α
= 1−
+
+ ( lim α∗ (z) − ).
z→∞
2
1+α
2
Remarque 13. Du Théorème 4, le Corollaire 6 et du fait que limt(x)→∞ αég (x) = α2 ,
on a, pour α(x) = αég (x), que
1−
3α
α2
3α
≤ infτ (θ)≥0 Cαég (·) (θ) ≤ 1 −
+
.
2
2
1+α
Maintenant, on donne un lemme utile pour déduire la borne 1 −
3α
2
pour d'autres
fonctions de distribution α(·) de la sous-classe C pour lesquelles Iα(·) ≥ Iαég (·) .
Lemme 15. On suppose α1(·) et α2(·) deux fonctions de distribution satisfaisant les
conditions du Théorème 3 et de l'Hypothèse B. Alors, on a
α1 (·) ≥ α2 (·) ⇒ infτ (θ)≥0 Cα1 (·) (θ) ≥ infτ (θ)≥0 Cα2 (·) (θ).
Démonstration. Premièrement, puisque C
α(·) (θ)
est croissante en τ (θ) ∈ [y0 , ∞]
(Corollaire 5) et puisque y0 ne dépend pas de α(·), on a infτ (θ)≥0 Cα(·) (θ) = infτ (θ)≤y0 Cα(·) (θ)
et il sut alors de montrer que
infτ (θ)≤y0 Cα1 (·) (θ) ≥ infτ (θ)≤y0 Cα2 (·) (θ).
71
Maintenant, de l'équation (3.8), on peut écrire pour τ (θ) ≤ y
0
Cαi (·) (θ) = min (1, G(−x0 (τ (θ)))) − G(−x1,αi (·) (τ (θ))),
(∗)
pour i = 1, 2, où nous mettons l'emphase sur le fait que x (τ (θ)) dépend du choix
α(·) et que x (τ (θ)) ne dépend pas de α(·) (voir la Dénition 18). Mais, la condition
1,α(·)
0
α1 (·) ≥ α2 (·)
⇒ lα1 (·) (t(x)) ≤ lα2 (·) (t(x)), ∀x,
−1
−1
⇒ lα∗ 1 (·) (τ (θ)) ≥ lα∗ 2 (·) (τ (θ)), ∀τ (θ) ≤ y0 ,
⇒ x1,α1 (·) (τ (θ)) ≥ x1,α2 (·) (τ (θ)), ∀τ (θ) ≤ y0 ,
⇒ −G(−x1,α1 (·) (τ (θ))) ≥ −G(−x1,α2 (·) (τ (θ))), ∀τ (θ) ≤ y0 ,
⇒ Cα1 (·) (θ) ≥ Cα2 (·) (θ),
de (∗) pour τ (θ) ≤ y .
0
Corollaire 7. Un intervalle bayésien Iπ ,α(·) satisfaisant les conditions du Théorème
0
3 et l'Hypothèse B, avec α(·) ≥ α (·), a une probabilité de recouvrement bornée
inférieurement par 1 − .
Démonstration. Le résultat découle du Lemme 15 et du Théorème 4.
ég
3α
2
On obtient alors une classe d'intervalles bayésiens avec une probabilité de recouvrement fréquentiste supérieure à 1− (Théorème 4). Dans le cas où la densité du pivot
est symétrique, ceci s'ajoute au résultat s'appliquant à I (voir [2]). Tandis que
pour le cas général avec g log-concave et G(0) ≥ , les résultats sont nouveaux. On
termine avec quelques exemples. Les prochains exemples proviennent de la Section
s'applique.
3.1 et illustrent des situations où la borne inférieure 1 −
3α
2
HP D
α
1+α
3α
2
72
Exemple 21. Considérons un modèle Gamma (r, θ) donné à la Section 3.1 (Exemple
16). La densité du pivot linéaire T (X, θ) = log( Xr ) − log(θ) est donnée par g(t) =
r
α
e−r(t+e ) . Puisque log (g(t)) est concave et du fait que t0 = −G−1 ( 1+α
) ≈ 0.613 ≥
Γ(r)
0 (avec α = 0.05 et r = 5), on peut appliquer le Théorème 4 avec l'intervalle bayésien Iα (·) donné par (3.4). La probabilité de recouvrement Cα (·) (θ) est donc bornée
inférieurement par 1 − 3α2 pour tout τ (θ) ≥ 0 ce qui est bien illustré à la Figure 3.3.
De la Figure 3.1, on a que αHP D (·) ≥ αopt (·) ≥ αég (·) ce qui est implique, selon le
Corollaire 7, que la borne 1 − 3α2 tient pour la probabilité de recouvrement de IHP D
et Iopt .
r
−t
ég
ég
Exemple 22. Considérons un modèle de loi normale à paramètre de position comme
à l'Exemple 18. La densité du pivot linéaire T (X, θ) = X − θ est donnée par g(t) =
α
1
√1 e−
≥
et
cette
densité
est
log-concave
(voir
[10]
).
Du
fait
que
G(0)
=
2π
2
1+α
pour tout α ∈ [0, 1], on peut appliquer le Théorème 4 avec l'intervalle bayésien
Iα (·) donné par (18). Alors, la probabilité de recouvrement Cα (·) (θ), coïncide à
3α
Cα
(·) (θ), est supérieure à 1 − 2 pour tout θ ≥ 0. En eet, ce résultat est déjà
obtenu pour le cas où la densité du pivot linéaire est symétrique (voir [2]). Du Corollaire 7, la borne 1 − 3α2 tient pour d'autres intervalles bayésiens Iα(·) pour lesquels
α(·) ≥ αég (·).
t2
2
ég
ég
HP D
Exemple 23. Considérons
X ∼ W eibull(r, θ), r
connu et θ ≥ 1. La fonction de
répartition du pivot linéaire T (X, θ) = log(X) − log(θ) est G(t) = e−e et sa densité
est donnée par g(t) = re−rt−e . Puisque log(g(t)) est concave et du fait que G(0) =
α
1
1
≥
lorsque
α≤
, on peut appliquer le Théorème 4. La probabilité de
e
1+α
e−1
recouvrement Cα (·) (θ) est donc bornée inférieurement par 1 − 3α2 pour tout τ (θ) ≥ 0.
Comme le cas de loi Gamma, la borne 1− 3α2 tient pour la probabilité de recouvrement
de IHP D et Iopt selon le Corollaire 7.
−rt
−rt
ég
73
Remarque 14. Le Théorème 4, ainsi que le Corollaire 7, établissent la borne 1 −
pour les probabilités de recouvrement d'une classe d'intervalles bayésiens. Pour
α ≤ 13 , la borne 1 − 3α
représente une amélioration signicative par rapport à la
2
borne 1−α
. À titre d'illustration, reprenons l'Exemple 21 pour le cas Gamma(5, θ),
1+α
θ ≥ 1 et 1 − α = 0.95, avec la probabilité de recouvrement Cα(·) (θ) représentée à la
Figure 3.3. On a ici, infθ≥1 Cα(·) (θ) ≥ 1−α
≈ 0.905, mais aussi, pour α(·) ≥ αég (·),
1+α
infθ≥1 Cα(·) (θ) ≥ 1 − 3α
= 0.925. En revanche avec l'hypothèse de log-concavité pour
2
la densité du pivot, ces résultats sont moins généraux que ceux de la Section 3.1 qui
ne requièrent pas la log-concavité. Par exemple, même si la borne 1 − 3α2 semble tenir
pour le cas Fisher(r, s) (voir l'Exemple 17), ainsi que pour le cas où Xi ∼ind N (μ, σ),
i = 1, . . . , n, avec (μ, σ) inconnu, μ ≥ 0 et le pivot de la loi de Student à n − 1 degrés
de liberté (voir l'Exemple 15 et Figure 3 de Zhang et Woodroofe [5]), la théorie de
cette section ne s'applique pas totalement car ni la densité d'une loi Fisher ou celle
d'une loi de Student sont log-concaves.
3α
2
74
CONCLUSION
Le travail qu'on a présenté dans ce mémoire s'inspire d'étude de Marchand et Strawderman [1] concernant l'estimation par intervalle Bayésien avec contrainte sur l'espaces des paramètres, et concernant notamment de la probabilité de recouvrement
fréquentiste. Ces intervalles bayésiens Iπ0 ,α(·) sont associés à la troncature d'une loi a
priori π0 non-informative (Haar invariante à droite) et générés par une fonction de
distribution α(·). Les résultats s'appliquent pour de nombreux exemples et pour des
(θ)
modèles où il existe un pivot linéaire de la forme T (X, θ) = a1 (X)−τ
(a2 (X) > 0)
a2 (X)
dont sa densité g0 est absolument continue. En eet, on a obtenu une classe d'intervalles bayésiens (Chapitre 3, Section 3.1) avec une probabilité de recouvrement
fréquentiste bornée inférieurement par 1−α
et cette classe inclut l'intervalle bayésien
1+α
HPD dans le cas où la densité du pivot T (X, θ) est symétrique. Plusieurs exemples
sont donnés à la Section 3.1 qui illustrent bien la théorie étudiée. De plus, on a établi
la borne 1 − 3α2 (Section 3.2), dans le cas où g0 est log-concave, pour la probabilité
de recouvrement Cαég (·) (θ) de l'intervalle à ailes égales Iαég (·) (déni à la Dénition
14) et on a déduit cette borne pour d'autres intervalles bayésiens Iα(·) pour lesquels
α(·) ≥ αég (·). Ces nouveaux résultats améliorent, pour α ≤ 13 , la borne inférieure 1−α
1+α
3α
(obtenue à la Section 3.1) et incluent les résultats obtenus pour la borne 1 − 2 dans
le cas où g0 est symétrique (Marchand et al.[2]). D'autres propriétés, de cette proba75
bilité de recouvrement sont obtenues. Enn, il serait intéressant, comme perspectives
futures, de
(I) Obtenir une meilleure borne, telle 1 −
3α
,
2
pour la probabilité de recouvrement
Cαég (·) (θ) dans le cas de non log-concavité (voir la Remarque 14).
(II) Considérer des problèmes analogues où les résultats de ce mémoire ne s'appliquent pas tels l'estimation de θ sujet à la contrainte θ1 − θ2 ≥ 0 (voir la
Remarque 6).
(III) Étudier la problématique d'une restriction à un intervalle de type τ (θ) ∈ [a, b] et
la performance fréquentiste d'intervalles bayésiens où la loi a priori π0 uniforme
pourrait s'avérer un choix insatisfaisant (voir Lmoudden [12]), mais où on peut
envisager d'autres choix de la loi a priori π0 .
76
Bibliographie
[1] É. Marchand and W.E. Strawderman (2013). On Bayesian credible sets in
restricted parameter space problems and lower bounds for frequentist coverage,
Electronic Journal of Statistics, Vol. 7, 1419-1431.
[2] É. Marchand, W.E. Strawderman, K. Bosa and Lmoudden. A (2008). On the
frequentist coverage of Bayesian credible intervals for lower bounded means,
Electronic Journal of Statistics, 2, 1028-1042.
[3] É.
Marchand
et
W.E.
Strawderman
(2006).
On
the
behaviour
of
Bayesian
intervals for some restricted parameter space problems, IMS Lecture NotesMonograph Series, volume 50, 112-126.
[4] B. Roe and M. Woodroofe (2000). Setting condence belts, Physical Review,
volume 63, 01-09.
[5] T. Zhang and M. Woodroofe (2002). Credible and condence sets for the ratio of
variance components in the balanced one-way model, Sankhy
77
ā
: Special issue in
memory of D.Basu, volume 64, 545-560.
[6] T. Zhang, and M. Woodroofe (2003). Credible and condence sets for restricted
parameter spaces awela, Journal of Statistical Planning and Inference, volume
115, 479-490.
[7] J.O. Berger (1985). Statistical Decision Theory and Bayesian Analysis, Seconde
édition, Springer-Verlag, New York.
[8] G. Casella et R.L. Berger (2002). Statistical Inference, seconde édition, Duxbury
Advanced Series.
[9] M. Mandelkern (2002). Setting condence intervals for bounded parameters
(with discussion), Statistical Science, volume 17, 149-172.
[10] M. Bagnoli et T. Bergstrom (2005), Log-Concave Probability And Its Applications, Economic Theory, 26, 445-469.
[11] K. Bosa (2007). Estimation bayésienne par intervalle sur un espace paramétrique restreint, Mémoire de maîtrise, Université de Sherbrooke.
[12] A. Lmoudden (2008). Sur les intervalles de conance bayésiens pour des espaces
78
de paramètres contraints, Mémoire de maîtrise, Université de Sherbrooke.
[13] Pratt, J.W. (1963). Shorter condence intervals for the mean of a normal
distribution with known variance. Ann. Math. Statist, 34, 574-586.
[14] Christian P. Robert (2006). Le choix bayésien - Principes et pratique, SpringerVerlag France, Paris.
[15] Dominique Fourdrinier (2002). Statistique Inférentielle, Éditions Dunod, Paris,
cours et exercices corrigés.
[16] Judith Rousseau (2009-2010). Statistique Bayésienne - Notes de cours, ENSAE,
Paris Tech.
79
Téléchargement