Sur les intervalles de conance bayésiens pour des espaces de

publicité
Sur les intervalles de conance bayésiens pour des espaces de
paramètres contraints et le taux de fausses découvertes
par
Asma Bahamyirou
mémoire présenté au Département de mathématiques
en vue de l'obtention du grade de maître ès sciences (M.Sc.)
FACULTÉ DES SCIENCES
UNIVERSITÉ DE SHERBROOKE
Sherbrooke, Québec, Canada, juillet 2015
Le 15 juillet 2015
Le jury a accepté le mémoire de Monsieur Asma Bahamyirou dans sa version nale
Membres du jury
Professeur Éric Marchand
Directeur de recherche
Département de mathématiques
Professeur Taouk Bouezmarni
Évaluateur interne
Département de mathématiques
Professeur Sévérien Nkurunziza
Président rapporteur
Département de mathématiques
1
À mon Dieu, ma famille et amis.
SOMMAIRE
Ce mémoire traite deux problèmes : en premier lieu, l'estimation paramétrique par intervalle dans un contexte où il y a des contraintes sur le paramètre et, en deuxième
lieu la probabilité de fausses découvertes lorsqu'on réalise simultanément plusieurs tests
d'hypothèses. Dans le premier chapitre, nous faisons un rappel sur les notions de base de
l'inférence statistique à savoir l'estimation ponctuelle et par intervalle. Dans le deuxième
chapitre, nous abordons la théorie de l'estimation par intervalle de conance bayésien
décrit dans [10]. Des résultats nouveaux sont présentés dans ce chapitre. Des travaux
partiels (voir [7]), montrent que la probabilité de recouvrement fréquentiste est faible
aux frontières de l'intervalle. Comparé à ces derniers, nous avons montré sous certaines
conditions que cette probabilité n'ira jamais au delà d'une borne supérieure qui semble
éloignée de la crédibilité. Finalement, au Chapitre 4, nous traitons des estimateurs de la
probabilité de fausses découvertes. Des améliorations signicatives ont été faites dans ce
cadre.
iii
REMERCIEMENTS
Je tiens d'abord à remercier mon directeur de maîtrise, M. Éric Marchand pour sa disponibilité, sa compréhension, son soutien nancier et pour tout ce que j'ai pu apprendre
durant les deux dernières années. Je voudrais aussi remercier tous les étudiants en particulier Aziz Lmoudden, pour son aide, les discussions mathématiques, et tout le groupe
de séminaire de Statistique. Merci au Département de mathématiques de l'Université de
Sherbrooke de m'avoir accueilli durant ces deux dernières années et pour l'appui nancier
qu'il m'a accordé. Mes vifs remerciements vont aussi à l'endroit de tous les membres du
laboratoire Statomics et en particulier David R. Bickel pour son accueil, sa disponibilité, et le soutien nancier qu'il m'a accordé durant mon séjour à l'Université d'Ottawa.
Finalement, un grand merci à tous ceux qui de loin ou de près ont contribué à ce mémoire.
Asma Bahamyirou
Sherbrooke, Juin 2015
iv
TABLE DES MATIÈRES
SOMMAIRE
iii
REMERCIEMENTS
iv
TABLE DES MATIÈRES
v
LISTE DES TABLEAUX
viii
LISTE DES FIGURES
ix
INTRODUCTION
1
CHAPITRE 1 Préliminaires
5
1.1
Principes de base et dénitions . . . . . . . . . . . . . . . . . . . . . . .
5
1.2
Inférence bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.3
Théorie de l'estimation par région de conance . . . . . . . . . . . . . . .
8
1.3.1
8
Quelques méthodes . . . . . . . . . . . . . . . . . . . . . . . . . .
v
1.3.2
Critères d'évaluation des intervalles . . . . . . . . . . . . . . . . .
18
CHAPITRE 2 Intervalle de conance bayésien pour des paramètres
bornés dans un intervalle [a, b]
20
2.1
L'intervalle de conance HPD et ses propriétés . . . . . . . . . . . . . . .
21
2.2
Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.3
Une borne supérieure pour la probabilité de recouvrement fréquentiste
2.4
minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.4.1
Méthode uniée . . . . . . . . . . . . . . . . . . . . . . . . . . . .
35
2.4.2
Intervalle de Pratt tronqué . . . . . . . . . . . . . . . . . . . . . .
36
2.4.3
Estimation d'un paramètre d'échelle
37
. . . . . . . . . . . . . . . .
CHAPITRE 3 On the discrepancy between Bayes credibility and frequentist probability of coverage
45
3.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.2
Main Results and Illustrations . . . . . . . . . . . . . . . . . . . . . . . .
48
3.2.1
On Bayesian condence intervals . . . . . . . . . . . . . . . . . .
48
3.2.2
On interval estimators with exact frequentist coverage . . . . . . .
53
CHAPITRE 4 Estimation du taux de fausses découvertes
59
4.1
Les erreurs de type I et de type II . . . . . . . . . . . . . . . . . . . . . .
59
4.2
Taux de faux positifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
vi
4.2.1
et Hochberg) . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
61
Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
Le taux local de fausses découvertes . . . . . . . . . . . . . . . . . . . . .
64
4.3.1
Approche bayésienne pour controler le taux de fausses découvertes
65
4.3.2
Estimation du taux non local de fausses découvertes . . . . . . . .
67
4.3.3
Estimation du taux local de fausses découvertes . . . . . . . . . .
69
4.3.4
Estimateur du taux local de fausses découvertes corrigé . . . . . .
71
4.3.5
Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
4.2.2
4.3
Procédure de contrôle du taux de fausses découvertes (Benjamini
CONCLUSION
78
Bibliographie
80
vii
LISTE DES TABLEAUX
1.1
Quelques pivots pour des familles à paramètre de position θ et d'échelle σ . 15
2.1
Borne inférieure de la probabilité que I(X) = [−m, m] quand θ = 0. . . .
34
3.1
Lower bound for the probability that I(X) = [−m, m] when θ = 0. . . . .
54
4.1
Table de contingence pour les tests d'hypothèses multiples . . . . . . . .
60
viii
LISTE DES FIGURES
1.1
Région d'acceptation de niveau 1 − α = 0.95 pour X ∼ N (θ, 1) avec θ ≥ 0. 11
1.2
Bornes inférieures l(·) et supérieures u(·) de niveau 0.95 obtenu par la
méthode uniée pour le modèle N (θ, 1) avec θ ≥ 0. . . . . . . . . . . .
11
1.3
Graphes de Rθ (x) pour θ = 1, 1.25, 2.5, r = 5 et s = 24.
. . . . . . . . .
13
1.4
Région d'acceptation associée à Rθ (x) pour 1 − α = 0.95, r = 5 et s = 24.
13
1.5
Intervalle unié pour X ∼ F isher(r = 5, s = 24), θ ≥ 1 et 1 − α = 0.95.
14
2.1
Intervalle de crédibilité pour X qui suit N (θ, 1) avec θ ∈ [−m, m], m = 4,
1 − α = 0.95 et une loi uniforme sur θ. . . . . . . . . . . . . . . . . . . .
2.2
26
Probabilité de recouvrement fréquentiste de Iπu pour diérentes valeurs de
m et pour 1 − α = 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.3
Fonctions de distribution απ (x) pour diérentes valeurs de m et (1 − α).
30
2.4
Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé à la loi a priori uniforme pour diérentes valeurs de m et (1 − α). . .
2.5
32
Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé à la loi a priori uniforme pour diérentes valeurs de (1 − α) et m = 1, 5. 33
ix
2.6
Crédibilité pour l'intervalle uniée de niveau 90% et 95% associé à la loi
a priori uniforme et pour m = 1.0. . . . . . . . . . . . . . . . . . . . . .
36
2.7
Intervalle de Pratt tronqué pour m = 1 et 1 − α = 0.95 . . . . . . . . . .
37
2.8
Intervalle de conance bayésien pour β avec 1 − α = 0.95, m = 3 et donc
c = e3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.9
39
Borne supérieure de inf θ∈[−m,m] Cπ (θ)) pour diérentes valeurs de m et
1 − α = 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10 Graphe de Rθ (x) pour c = 3 et r = 8.
40
. . . . . . . . . . . . . . . . . . .
42
2.11 Région d'acceptation associée à Rθ (x) pour c = 3 et r = 8. . . . . . . . .
43
2.12 Intervalle obtenu par la méthode uniée, modèle F isher(r, r, θ), 1 − α =
0.95, c = 3 et r = 8.
3.1
. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Coverage probability C(θ) of the uniform prior HPD credible set as a
function of θ for varying m and credibility. . . . . . . . . . . . . . . . . .
3.2
51
Coverage probability C(θ) of the uniform prior HPD credible set as a
function of θ for varying m and credibility. . . . . . . . . . . . . . . . . .
3.3
44
52
Bayesian credibility of the 90% and 95% condence interval ILRT (X) with
respect to the uniform prior for m = 1.0. . . . . . . . . . . . . . . . . . .
55
4.1
Erreur quadratique moyene pour N = 5, n1 = n2 = 50 et θa = 0.5.
. . .
74
4.2
Erreur quadratique moyene pour N = 20, n1 = n2 = 50 et θa = 0.5. . . .
75
4.3
Probabilité de recouvrement fréquentiste pour N = 5, n1 = n2 = 50 et
θa = 0.5.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
x
76
4.4
Probabilité de recouvrement fréquentiste pour N = 20, n1 = n2 = 50 et
θa = 0.5.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
77
INTRODUCTION
Ce présent travail se compose de deux parties : l'estimation paramétrique par intervalle
dans un contexte où il y a des contraintes sur le paramètre et le contrôle du taux de
fausses découvertes. Dans le cadre de l'estimation par intervalle, notons qu'il existe déja
plusieurs méthodes dans la littérature pour ce type d'inférence. Plusieurs contributions
récentes ont vues le jour ces dernières années. Par exemple,dans [5] Mandelkern expose
certains problèmes rencontrés en physique où il compare plusieurs intervalles de conance,
dont ceux obtenus par une approche bayésienne et par la méthode uniée de Feldman
et Cousins [4]. Le premier est l'estimation de la masse μ d'un neutrino sous le modèle
normal : X ∼ N (μ, 1) où μ ≥ 0. Le deuxième est l'estimation d'un paramètre non négatif
λ d'un modèle de Poisson P (λ + b) où b est un paramètre de nuisance connu positif.
Zhang et Woodroofe présentent dans [12] un problème similaire où l'on désire estimer un
rapport de variance δ dans un modèle de variances à eets aléatoires avec la contrainte
δ ≥ 1.
Pour la question de l'estimation de la masse d'un neutrino, Zhang et Woodroofe tout
comme Roe et Woodroofe dans [9], ont obtenu un intervalle de crédibilité 1 − α en utilisant une loi a priori tronquée sur l'espace des paramètres et ont aussi établi une borne
pour la probabilité de recouvrement fréquentiste. En 2006, Marchand et
inférieure 1−α
1+α
Strawderman établissent la même borne pour une plus grande variété de densités symétriques et unimodales et obtiennent aussi des propriétés pour des cas non symétriques.
1
Dans le même ordre d'idée qu'en 2006, Marchand, Strawderman, Bosa et Lmoudden
(2008) établissent sous une condition supplémentaire de log-concavité, la meilleure borne
(1 − 3α/2)(pour α ≤ 1/3) pour la probabilité de recouvrement fréquentiste minimale. De
plus Lmoudden dans [7] remarque que la probabilité de recouvrement n'est pas bonne
aux frontières de l'intervalle.
Dans ce mémoire, nous traiterons en première partie de l'inférence bayésienne en utilisant
principalement les résultats de Marchand, Strawderman mentionnés précédemment où la
loi a priori utilisé est uniforme sur l'intervalle. Les principaux résultats sont basés sur la
probabilité de recouvrement.
La première partie de ce mémoire, est divisé en deux chapitres. Tout d'abord, au premier chapitre, nous introduisons les notions de base qui nous seront utiles. Plusieurs
exemples sont dévoloppés dans ce chapitre. Dans le second chapitre, nous commençons
par développer le cadre décrit en [7], sur laquelle les observations ont été faites dans
la première section. Une illustration du cas normal est présentée. Enn, nous présentons des résultats originaux (Section 2.3) sur la borne supérieure de la probabilité de
recouvrement fréquentiste inmum et entre autre sur la crédibilité de certaines méthodes
fréquentistes de construction de l'intervalle. Plusieurs exemples y sont développés. Essentiellement, nous avons montré que la probabilité de recouvrement fréquentiste inmum
ne pouvait aller au delà de Φ(m), valeur souvent insatisfaisante selon la valeur de m. Une
conséquence directe de ce résultat est le fait d'obtenir tout l'espace paramétrique en cas
d'estimation par intervalle via des méthodes fréquentistes, résultat important à savoir.
L'article avec Éric Marchand et publié dans la revue Statistics and Probability Letters
97(2015) 63 − 68 se trouve dans le Chapitre 3.
En test d'hypothèses, la probabilité de commettre une erreur de type I est idéalement
bornée par α, un risque acceptable de l'erreur de type I. Des dicultés surviennent
2
souvent quand les chercheurs désirent réaliser simultanément plusieurs tests au lieu d'un.
Ces dicultés se rencontrent dans beaucoup de domaines à savoir : en génomique fonctionnelle (étude de la fonction des gènes à partir de leur expression et/ou de leurs produits
d'expression (ARNm et les protéines)), quand un chercheur teste simultanément plusieurs
marqueurs génomiques, essaye d'identier les gènes dont les modications sont liés à un
facteur biologique. Ce problème survient aussi quand plusieurs modèles ou tests sont
jugés sur un même ensemble de données etc... Les tests d'hypothèses multiples peuvent
conduire à une augmentation de l'erreur de type I quand les tests sont utilisés à plusieurs reprises. Supposons que nous ayons un ensemble de tests d'hypothèses que nous
désirons tester simultanément. La première idée qui nous vient à l'esprit est de tester
chaque hypothèse séparément avec un seuil
cas où nous disposons de
20
α.
Dans un premier exemple, considérons le
hypothèses nulles à tester, avec un niveau
est la probabilité d'observer au moins un résultat signicatif (rejeter
α = 0.05.
H0 )
Quelle
lorsque toutes
les hypothèses nulles sont vraies ?
P (au moins un resultat signif |H0 vraie) = 1 − P (aucun resultat signif |H0 vraie)
= 1 − (1 − 0.05)20
≈ 0.64.
Remarquons donc que pour
20
tests considérés, nous avons
64%
de chance d'observer
au moins un résultat signicatif, même si toutes les hypothèses nulles sont vraies. En
génomique ou d'autres domaines reliés à la biologie, il est vraiment usuel d'avoir un
grand nombre d'hypothèses, et donc la probabilité d'avoir un résultat signicatif ne fait
qu'augmenter. Dans un second exemple, supposons que nous eectuons
multanément. Supposons qu'on décide d'un test signicatif si la
le nombre de faux positifs espéré est :
10000 ∗ 0.05 = 500.
10000
tests si-
p.valeur ≤ 0.05,
alors
Ce nombre augmente avec le
La question que l'on se pose est de savoir
comment contrôler ce taux d'erreur an d'éviter beaucoup de faux positifs ?
nombre de test eectué simultanément.
Le principal objectif des tests d'hypothèses multiples est de contrôler la proportion d'erreurs de type I quand plusieurs hypothèses sont testées simultanément. Dans la lit3
térature, il existe plusieurs moyens de contrôler l'erreur de type I tels que ceux qui
Familywise error (FWER), le risque d'avoir une erreur de type I quand
plusieurs tests sont eectués simultanément, ceux qui contrôlent le False Discovery
Rate (FDR), le taux de fausses découvertes, et nalement ceux qui estiment le False
Discovery Proportion (FDP). Au Chapitre 3, nous nous concentrons seulement sur
contrôlent le les méthodes qui controlent le FDR. Tel que rapporté dans la littérature, quand les méthodes de tests d'hypothèses multiples sont appliquées à des bases de données de petite
tailles, le biais des estimateurs controlant le taux de fausses découvertes est important
(voir [14] et [15]).
Au Chapitre 4, nous dénissons en première partie la théorie du taux de fausses découvertes (False Discovery Rate (FDR)) et nous proposons (en collaboration avec David
Bickel et Fahimeh Moradi, Université d'Ottawa) des procédures de corrections de ces
biais basées sur les méthodes de Bootstrap. Enn, à la dernière section, nous discutons
les résultats obtenus après des simulations.
4
CHAPITRE 1
Préliminaires
Dans ce chapitre, nous donnons quelques dénitions et notions essentielles pour la compréhension des résultats.
1.1 Principes de base et dénitions
Dénition 1.1. On appelle modèle statistique tout triplet (χ, , (P )
où χ est l'espace
échantillon, Θ l'espace des paramètres et (Pθ )θ∈Θ une famille de lois de probabilité dénies
sur une tribu xée de parties de χ.
θ θ∈Θ )
Dénition 1.2. Une fonction f dénie sur R est dite symétrique par rapport à c ∈ R
si,
f (c + x) = f (c − x), ∀x ∈ R
Dénition 1.3. Une densité f sur R est dite unimodale s'il existe un intervalle [a, b],
éventuellement réduit à un point, tel que f soit croissante sur ] − ∞, a[, constante sur
]a, b[, décroissante sur ]b, ∞[.
5
Dénition 1.4. Une densité f sur [a, b] est dite log-concave si logf est concave sur [a, b].
Exemple 1. La densité f (x) =
(x−μ)2
2σ 2
de la loi normale N (μ, σ2) est symétrique
et unimodale autour de la moyenne μ et log-concave sur R.
√ 1 e−
2πσ 2
Nous donnerons par la suite quelques propriétés des densités log-concaves (voir Bagnoli
et Bergstrom [1]).
Lemme 1. Soit f une densité log-concave, alors la fonction de répartition F telle que
F (x) = f (x)
est log-concave.
F (x)
Lemme 2. Si F (·) est une fonction de répartition log-concave et si θ ≥ 0, alors F (x
+ θ)
est une fonction croissante en x.
F
Le résultat découle du fait que F est une fonction décroissante
F (x)
F (x) F (x + θ)
d
F (x)
donc dx F (x + θ) = F (x + θ) F (x) − F (x + θ) ≥ 0.
Démonstration.
log-concavité, et
par
1.2 Inférence bayésienne
En statistique fréquentiste, l'espace des paramètres n'est pas considéré comme un ensemble probabilisable, ce qui n'est pas le cas dans la théorie bayésienne. Pour l'approche
bayésienne, on utilise l'information existante sur le paramètre θ pour lui attribuer une
densité π(θ) appelé loi a priori. La détermination de la loi a priori est une partie importante de l'inférence bayésienne (Voir Robert [2]). Cette loi est subjective dans la mesure
où elle peut représenter la croyance de l'expérimentateur avant que l'expérience ne soit
conduite (d'où le nom de a priori ).
Dénition 1.5. Soient X , ..., X un échantillon i.i.d dont la loi de probabilité dépend
1
n
d'un paramètre inconnu θ ∈ R. On cherche à estimer θ à partir des observations x1, ..., xn
6
et d'une information a priori sur θ . L'approche bayésienne repose sur la spécication des
quantités suivantes :
• la densité a priori du paramètre θ notée p(θ).
• la densité des Xi conditionnelle au paramètre θ notée p(xi |θ).
On déduit à l'aide du théorème de Bayes la densité a posteriori du paramètre θ :
π(θ|x) =
avec p(x|θ) =
Lemme 3.
n
i=1
p(xi |θ) et m(x) =
p(x|θ)π(θ)
,
m(x)
p(x|θ)π(θ)dθ, la densité marginale de X .
Soit X une variable aléatoire de densité logconcave sur R et donnée par
e−h(x−θ) où h(·) est une fonction convexe. Alors pour toute loi a priori π(θ), la famille
des lois a posteriori {π(θ|x) : x ∈ R} est à rapport de vraisemblances monotone (RVM)
croissant en θ .
Démonstration.
En vertu de la log-concavité sur R, on peut écrire q(x|θ) = e−h(x−θ) où h(·) est une fonction convexe. Soient x1 et x2 tels que x2 ≥ x1 . On a :
π(θ|x2 )
π(θ)e−h(x2 −θ)
∝
,
π(θ|x1 )
π(θ)e−h(x1 −θ)
= eh(x1 −θ)−h(x2 −θ) .
La dernière fonction est croissante en θ si et seulement si q(θ) = h(x1 − θ) − h(x2 − θ)
est croissante en θ.
Le corollaire suivant énonce une propriété de croissance des quantiles
présence d'un rapport de vraisemblances monotone.
Corollaire 1.
a posteriori
en
Soient fθ une famille de densités continues dont le domaine de dénition
est indépendant de θ et QΔ,θ les quantiles tels que
QΔ,θ
−∞
fθ (x)dx = Δ, Δ ∈ (0, 1). Si la
famille {fθ (·) : θ ∈ Θ} est à RVM croissant, alors QΔ,θ est croissant en θ .
7
Démonstration. Soient (θ , θ ) tels que θ
1
2
2
≥ θ1 et h(x) = 1[QΔ,θ2 ,∞) (x). La fonction
indicatrice h est croissante en x et on a donc Eθ2 (h(x)) ≥ Eθ1 (h(x)) ( voir Robert
[2] ). Ainsi 1 − Δ = ∞
−∞
1[QΔ,θ2 ,∞) (x)fθ2 (x)dx ≥
∞
−∞
1[QΔ,θ1 ,∞) (x)fθ1 (x)dx ⇒ QΔ,θ2 ≥
QΔ,θ1 .
1.3 Théorie de l'estimation par région de conance
Dans cette section, nous passons en revue quelques méthodes permettant d'estimer un paramètre par intervalle qui seront utiles par la suite. Nous commencons par des intervalles
avec une probabilité de recouvrement fréquentiste souhaitée.
1.3.1 Quelques méthodes
Inversion du test de rapport de vraisemblance et méthode uniée
Il y a une correspondance entre les tests d'hypothèses via la région d'acceptation et les
intervalles de conance. On dit souvent qu'à chaque intervalle de conance correspond
un test d'hypothèses et vice-versa. Le théorème suivant décrit cette correspondance.
Théorème 1. (Casella et Berger [3])
Pour tout
niveau
α.
θ0 ∈ Θ ,
Pour tout
supposons
x ∈ X,
A(θ0 )
soit l'ensemble
intervalle de conance de niveau
Inversement, supposons que
θ0 ∈ Θ ,
test
on dénit
H0 : θ = θ 0
la région d'acceptation d'un test
C(x) = {θ0 : x ∈ A(θ0 )},
alors
C(X)
de
est un
1 − α.
C(X)
un intervalle de conance de niveau
A(θ0 ) = {x : θ0 ∈ C(X)},
de niveau
H0 : θ = θ 0
α.
8
alors
A(θ0 )
1 − α.
Pour tout
est une région d'acceptation du
Démonstration. Premièrement, comme A(θ ) est la région d'acceptation du test de
0
niveau α, alors Pθ (X ∈/ A(θ0 )) ≤ α si et seulement si Pθ (X ∈ A(θ0 )) ≥ 1 − α. θ0
étant arbitraire on utilisera θ par la suite et comme C(X) = {θ0 : x ∈ A(θ0 )} , on aura
Pθ (θ ∈ C(X)) = Pθ (X ∈ A(θ)) ≥ 1 − α, ce qui démontre que C(X) est un intervalle de
conance de niveau (1 − α).
Pour la réciproque, comme C(X) est un intervalle de conance de niveau 1−α et A(θ0 ) =
/ A(θ0 )) = Pθ (θ0 ∈
/ C(X)) ≤ α. Ainsi A(θ0 ) est une région
{x : θ0 ∈ C(X)}, on a Pθ (X ∈
d'acceptation d'un test de niveau α.
0
0
0
0
Exemple 2. Soit X , ..., X
1
n
un échantillon issu d'une loi N (μ, σ 2 ) avec σ connu et consi-
dérons le test d'hypothèses H0 : μ = μ0 contre Ha : μ = μ0 de niveau α avec région
x̄ − μ
d'acceptation : √ 0 ≤ z1−α/2 . Alors les valeurs de μ0 telles que H0 est accepté sont
σ/ n
dans l'intervalle :
√
√
[x̄ − z1−α/2 σ/ n, x̄ + z1−α/2 σ/ n].
(1.1)
Cet intervalle est un intervalle de conance de niveau (1 − α) pour μ.
Le lien ci-dessus est utilisé par Feldman et Cousins [4] pour la méthode uniée mais par
contre ils ont utilisé un test spécique, soit le test du rapport de vraisemblance monotone
(Likelihood Ratio Test LRT).
Dénition 1.6. Soit X , ..., X
1
n
un échantillon tels que Xi ∼ f (xi |θ) avec θ ∈ Θ, la
fonction de vraisemblance est dénie par L(θ|x1 , ..., xn ) = L(θ|x) =
n
i=1
f (xi |θ). La
statistique du test du rapport de vraisemblance H0 : θ = θ0 contre Ha : θ = θ0 est donnée
par :
λ(x) =
supθ∈Ha L(θ|x)
,
supθ∈H0 L(θ|x)
(1.2)
avec une région d'acceptation de la forme A(θ) = {x : λ(x) ≤ cθ } où Pθ0 (λ(x) ≥ cθ0 ) = α.
Ainsi l'intervalle de conance par la méthode uniée (Feldman et Cousins [4]) est obtenue
9
en inversant cette région d'acceptation. Même si cet intervalle possède une probabilité
de recouvrement fréquentiste de 1 − α, il a fait objet de critiques (voir Mandelkern [5]).
Exemple 3. (Feldman et Cousins[4])
Soit
X ∼ N (θ, 1) avec θ ≥ 0. On désire trouver un intervalle de conance de niveau 1−α
par la méthode uniée pour le paramètre
θ.
Posons
H0 : θ = θ0
vs
Ha : θ = θ0
avec
θ ≥ 0.
Aθ0 de niveau 1 − α donnée par {x : λ(x) < cθ0 }
supθ∈Ha L(θ|x)
L(θemv |x)
=
. L'estimateur du maximum de vraisemblance est
où λ(x) =
supθ∈H0 L(θ|x)
L(θ0 |x)
θemv = max(0, x). On a :
On considère la région d'acceptation
L(θemv |x)
λ(x) =
=
L(θ0 |x)
1 2
θ − θ0 x
2 0
1
(x − θ0 )2
2
si
si
x≤0
x>0
Notons que
d
log(λ(x)) =
dx
−θ0
x − θ0
si
si
x≤0
x>0
On a :
Si
θ0 = 0, λ(x) = 1
Si
θ0 > 0, λ(x)
pour
x≤0
et croissant pour
est décroissant pour
A partir du graphe de
λ(x),
x < θ0
x > 0.
et croissant pour
x > θ0 .
nous pouvons donc déduire la région d'acceptation :
10
0
Borne inférieure
Borne supérieure
−20
−10
x
10
20
Region d'acceptation
0
5
10
15
20
theta
Figure 1.1: Région d'acceptation de niveau
1 − α = 0.95
pour X ∼ N (θ, 1) avec θ ≥ 0.
L'inversion de cette région d'acceptation nous permet d'obtenir l'intervalle de conance
8
10
12
I(x) = {θ0 ≥ 0|x ∈ Aθ0 }
0
2
4
6
IC
l(.)
u(.)
−15
−10
−5
0
5
10
15
x
Figure 1.2: Bornes inférieures l(·) et supérieures u(·) de niveau 0.95 obtenu par la méthode uniée pour le modèle N (θ, 1) avec θ ≥ 0.
Remarque 1.
Force nous est de remarquer d'après la Figure 1.2 que l'intervalle de
11
conance obtenu par la méthode uniée tient compte de la contrainte sur le paramètre
θ tandis que l'intervalle usuel ignore cette information. Ajoutons aussi que la méthode
uniée ne donne jamais l'ensemble vide contrairement à l'intervalle usuel tronqué x̄ ±
√
√
z1−α/2 σ/ n ∩ [0, ∞) qui est vide pour x̄ < −z1−α/2 σ/ n.
Exemple 4. (Loi Fisher(r,s), voir [12])
Ce problème survient dans des modèles d'analyse de variance à eets aléatoires (voir
[12]). Soient fθ et Fθ la densité et fonction de répartition d'une variable X|θ de loi
Fisher avec paramètres de forme r > 0, s > 0 connus et un paramètre d'échelle θ ≥ 1.
On a, pour cette famille,
1 x
fθ (x) = f1 ( ),
θ
θ
x
Fθ (x) = F1 ( ).
θ
La fonction vraisemblance est donnée par :
L(x, θ) = fθ (x) =
Γ(r + s)rr ss θs xr−1
,
Γ(r)Γ(s) (sθ + rx)r+s
(1.3)
pour θ ≥ 1. En prenant la diérentielle du logarithme de L(x, θ), nous pouvons montrer
que l'estimateur de maximum de vraisemblance est donnée par θemv (x) = max(1, x).
Considérons les régions d'acceptation Aθ0 de niveau 1 − α de la forme {x : Rθ (x) ≥ cθ }
où Rθ est dénie comme suit :
L(x, θ)
Rθ (x) =
=
L(x, θemv )
θs xr (r + s)r+s /(sθ + rx)r+s
θs (s + rx)r+s /(sθ + rx)r+s
si
si
x≥1
.
x≤1
Observons que
d
log(Rθ (x)) =
dx
r(r + s)[(s + rx)−1 − (sθ + rx)−1 ]
r[x−1 − (r + s)(sθ + rx)−1 ]
si
si
x<1
x>1
On a :
Si θ > 1, alors Rθ (x) est croissant pour 0 ≤ x < θ et décroissant pour x > θ .
Si θ = 1, Rθ (x) = 1 pour 0 ≤ x < 1 et décroissant pour x > 1.
12
1.0
La gure suivante décrit le graphe de Rθ (x) pour r = 5 et s = 24.
0.0
0.2
0.4
R(x)
0.6
0.8
θ=1
θ = 1.25
θ = 2.5
0
1
2
3
4
5
x
Figure 1.3: Graphes de Rθ (x) pour θ = 1, 1.25, 2.5, r = 5 et s = 24.
15
10
0
5
Région d'acceptation
20
25
Puisque Rθ (x) est unimodale, {x : Rθ (x) ≥ cθ } est alors un intervalle. En appliquant
l'algorithme décrit à la Section 2.4.3 et pour θ ≥ 1, nous obtenons la gure suivante qui
donne la région d'acceptation associée à Rθ (x).
5
10
15
20
θ
Figure 1.4: Région d'acceptation associée à
Rθ (x)
13
pour 1 − α = 0.95, r = 5 et s = 24.
10
0
5
IC
15
20
Par exemple si θ = 2.4, alors A2.4 (x) = [0.566, 6.534) est la région d'acceptation du test
de RVM de niveau 1 − α = 0.95. Les bornes de la région étant croissantes selon θ, nous
pouvons donc les inverser an d'obtenir l'intervalle unié qui est représenté dans la gure
qui suit :
0
1
2
3
4
5
x
Figure 1.5: Intervalle unié pour X ∼ F isher(r = 5, s = 24), θ ≥ 1 et 1 − α = 0.95.
Par exemple si x = 2.4 et (1 − α) = 0.95 on a x ∈ Aθ pour θ0 ∈ [1.72, 16.67).
0
Méthode du pivot
Cette méthode est essentiellement basée sur une variable aléatoire T dite pivot.
Dénition 1.7. On dit qu'une variable aléatoire T (X, θ) variant avec t et θ est un pivot
si sa loi de probabilité ne dépend pas de θ.
Exemple 5. Voici, pour X , ..., X
1
n
un échantillon aléatoire de moyenne X̄ des exemples
de pivot :
14
densité
f (x − θ)
1 x
f
σ σ 1
x−θ
f
σ
σ
Type
position
pivot
X̄ − θ
X̄
σ
X̄ − θ
σ
échelle
position-échelle
Tableau 1.1: Quelques pivots pour des familles à paramètre de position θ et d'échelle σ .
Exemple 6. (Casella et Berger [3]) Comme illustration de la situation (2) du tableau précédent, soit
ramètre
λ,
X1 , ..., Xn
un échantillon i.i.d qui suit une loi exponentielle de pa-
alors on montre que
T ∼ Gamma(n, λ).
Si l'on pose
qui ne dépend pas de
λ.
T =
n
i=1
Xi
est une statistique exhaustive pour
Q(T, λ) = 2T /λ,
La quantité
Q(T, λ)
on a
Q(T, λ) ∼ Gamma(n, 2)
λ
et
une loi
est donc un pivot.
Avec un pivot donné, il est aisé de trouver un intervalle de conance.
Dénition 1.8. Soit T (X, θ) un pivot. Pour α quelconque, on détermine a et b tels que
Pθ (a ≤ T (X, θ) ≤ b) ≥ (1 − α).
T (x, θ0 ) ≤ b}
Ha : θ = θ0
b},
Alors pour chaque
est une région d'acceptation de niveau
θ0 ∈ Θ
α
pour le test
. Par la méthode d'inversion du test, on obtient
un intervalle de conance de niveau
(1 − α)
pour
on a
A(θ0 ) = {x : a ≤
H0 : θ = θ0
contre
C(X) = {θ0 : a ≤ T (x, θ0 ) ≤
θ.
Remarque 2. Pour tout x, si T (x, θ) est une fonction monotone de θ alors C(x) est un
intervalle. Si
T (x, θ)
T (x, θ)
est croissante alors
est décroissante alors
C(x)
aura la forme
aura la forme
Exemple 7. (suite de l'Exemple 6)
2T /λ ∼ χ22n .
C(x)
L(x, a) ≤ θ ≤ U (x, b).
L(x, b) ≤ θ ≤ U (x, a).
À l'exemple précédent, nous avons
P (a ≤ χ22n ≤ b) = 1 − α alors :
2T
≤ b = Pλ (a ≤ Q(T, λ) ≤ b) = 1 − α.
Pλ a ≤
λ
Soient a et b tels que
15
Si
Q(T, λ) =
2t
≤ b}, on obtient : C(t) = {λ :
≤
Ainsi, en inversant l'ensemble A(λ) = t : a ≤ 2T
λ
b
2t
λ≤
qui est un intervalle de conance de niveau (1 − α). Comme Q(t, λ) = 2t/λ est
a
décroissante en λ, donc la borne inférieure dépend de b et la borne supérieure de a.
Intervalle de Pratt([6])
Soit X une loi normale de moyenne θ inconnue et de variance connue σ 2 . Il est a noté
que plusieurs développements dans ce cadre sont plus généraux. Soit R(X) une région de
conance pour θ de niveau 1−α. Supposons m(R) la longueur de R si R est un intervalle.
Pour toute région R, on dénit :
m(R) =
dθ,
(1.4)
R
Pratt dans [6] démontre que la longueur espérée de la région R(X) est donnée par :
Eθ (m(R(X)) =
Pθ (θ ∈ R(X))dθ.
(1.5)
θ=θ Nous aimerions donc minimiser l'équation précédente pour une valeur donnée de θ . Soit
A(θ) une région d'acceptation d'une famille de test correspondant à R(X), on sait que :
X ∈ A(θ) si et seulement si θ ∈ R(X).
L'équation (1.5) devient donc
Eθ (m(R(X)) =
Pθ (X ∈ A(θ))dθ.
(1.6)
(1.7)
θ=θ On sait que pour tout θ = θ , 1−Pθ (X ∈ A(θ)) est la puissance du test d'hypothèse nulle
θ contre l'alternative θ . Typiquement la puissance d'un test devrait augmenter quand
la valeur à tester s'éloigne de la vraie valeur du paramètre. Ainsi la longeur espérée est
minimale quand θ est la vraie valeur du paramètre. Ceci donne l'intervalle de conance :
min{θ , X − α σ} ≤ θ ≤ max{θ , X + α σ},
16
(1.8)
Exemple 8. Soient X ∼ N (θ, 1) et θ ∈ R. L'intervalle usuel de niveau 1 − α = 0.95 est
I(X) = [X − 1.96, X + 1.96]. L'intervalle de Pratt est donnée par : Ip (X) = [min(0, X −
c), max(0, X + c)] avec c = Φ(1 − α). Il a une longeur espérée petite que l'intervalle usuel
et une probabilité de recouvrement fréquentiste de (1 − α), pour tout θ = 0, et de 1 pour
θ = 0.
Intervalle de conance bayésien
Une autre alternative pour construire un intervalle de conance est de passer par la
méthode bayésienne. Soient X1, ..., Xn ∼ fθ (·) et θ ∼ π(·), alors la loi a posteriori est
donnée par :
π(θ|x) = Θ
π(θ)f (x|θ)
.
π(θ)f (x|θ)dθ
Cette loi est utilisée pour déterminer l'intervalle de conance bayésien comme décrit dans
la dénition suivante.
Dénition 1.9.
On dit que la région C ou C π (x) est une région de conance pour θ
associée à la loi a priori π de crédibilité (1 − α) si :
(1 − α) ≤ P (θ ∈ C(x)|x) =
π(θ|x)dθ
C
Dénition 1.10. On dit que la région C est une région de conance de crédibilité (1 − α)
de plus haute densité a posteriori (ou Highest Posterior Density HPD) si C = {θ ∈
Θ, π(θ|x) ≥ kα } où kα est le plus grand nombre tel que P (C|x) ≥ 1 − α.
Exemple 9. Soit X ∼ N (θ, σ2) avec θ inconnu et σ2 connu. On recherche un intervalle
de conance bayésien de niveau (1 − α) pour θ associé à la loi a priori π(θ) = 1. On
17
montre que :
π(θ|x) = Θ
= √
π(θ)f (x|θ)
π(θ)f (x|θ)dθ
1
2πσ 2
(θ − x)2
2σ 2 .
e
−
Alors θ|x ∼ N (x, σ2) et l'intervalle de conance bayésien pour θ, qui se trouve être le
HPD dans ce cas précis pour θ, est [X − Z1−α/2σ, X + Z1−α/2σ].
1.3.2 Critères d'évaluation des intervalles
Nous avons présenté plus haut plusieurs méthodes permettant d'obtenir un intervalle de
conance. En estimation par intervalle, deux critères sont fréquemment utilisés : la taille
de l'intervalle et sa probabilité de recouvrement fréquentiste. On désire généralement
avoir un intervalle de taille petite et ayant une forte probabilité de recouvrement. Le
théorème suivant donne l'intervalle le plus court pour le cas des densités unimodales.
Théorème 2. [3]
Soit f une fonction de densité unimodale. Si l'intervalle [a, b] satisfait les conditions :
1. ab f (x)dx = 1 − α,
2. f (a) = f (b) > 0,
3. a ≤ m ≤ b où m est le mode de f,
alors [a, b] est l'intervalle de conance le plus court parmi tous les intervalles qui vérient
la condition 1.
Démonstration. Voir[3].
Corollaire 2. Soit f une densité symétrique et unimodale. Pour α xé positif, considérons
les intervalles [a, b] tels que ab f (x)dx = 1 − α. L'intervalle le plus court est obtenu en
∞
a
f (x)dx = α/2 et b f (x)dx = α/2.
choisissant a et b de sorte que −∞
18
Remarque 3. Dans le cas où la densité a posteriori est unimodale, l'intervalle le plus
court dans le cadre bayésien est le HPD.
Dénition 1.11. Soient X ∼ f (.) et I(X) un intervalle de conance pour θ. La probabiθ
lité de recouvrement de θ nommée C(θ) associée à I(X) = [L(X), U (X)], est la probabilité
que l'intervalle I(X) contienne le paramètre θ, c'est à dire C(θ) = Pθ (I(X) θ).
Nous donnerons dans la suite un lemme qui permettra de calculer la probabilité de
recouvrement dans le cas où les bornes de l'intervalle sont croissantes. On pose f −1(y) =
inf {x : f (x) ≥ y}.
Lemme 4. Soit
[l(X), U (X)]
strictement croissantes, alors :
un intervalle de conance pour θ. Si
l(.)
et
U (.)
sont
C(θ) = PX ([l(X), U (X)] θ) = Pθ (X ∈ [U −1 (θ), l−1 (θ)]),
Démonstration. Il sut d'observer que L(.) et U (.) sont strictement croissantes, alors
θ ∈ [l(X), U (X)] ⇔ x ∈ [U −1 (θ), l−1 (θ)].
Exemple 10. À l'exemple 8, nous pouvons montrer que la probabilité de recouvrement
fréquentiste de l'intervalle de Pratt est :
C(θ) =
1−α
1
si
si
θ=
0
θ = 0.
En eet, pour θ = 0 on a 0 ∈ Ip(x) ∀x ainsi P (0 ∈ Ip(x)|θ = 0) = 1. Pour θ > 0 on
obtient θ ≤ max(0, x + c) si et seulement si x − θ ≥ −c donc C(θ) = P (x − θ ≥ −c) =
Φ(c) = 1 − α. De même on montre que P (θ ∈ Ip (X)) = 1 − α pour θ < 0.
19
CHAPITRE 2
Intervalle de conance bayésien pour
des paramètres bornés dans un
intervalle [a, b]
Dans ce chapitre, nous traitons de l'estimation par intervalle dans le cas où X ∼ N (θ, σ2),
avec θ ∈ [a, b] et σ2 = 1 sans perte de généralité. La question qui motive ce chapitre
vient éssentiellement des analyses partielles et numériques réalisées par Lmoudden(voir
[7]). Réalisant que la probabilité de recouvrement fréquentiste inmum reste très faible
aux frontières de l'intervalle, nous essayons dans ses travaux de trouver un intervalle de
conance bayésien capable d'augmenter cette probabilité inmum en changeant la loi a
priori sur θ ou en se basant une nouvelle procédure d'obtention du HPD (Marchand et
Strawderman, [8]). Une fois amorcée, nous nous rendrons compte qu'il est illusoire d'essayer de trouver une solution à ces interrogations sous certaines conditions. Ces remarques
entrainent des résultats nouveaux tant sur la probabilité de recouvrement fréquentiste et
la crédibilité de l'intervalle.
20
2.1 L'intervalle de conance HPD et ses propriétés
Pour X ∼ f0 (x − θ), nous présentons dans cette partie les propriétés de l'intervalle HPD
1
associé à la loi a priori uniforme sur [−m, m] de densité π(θ) = 1[−m,m] (θ) et qui fait
2m
intervenir les dénitions ci-dessous. Ces résultats paraissent dans Lmoudden[7].
Dénition 2.1. Soit F une fonction de répartition de densité F
unimodale et symétrique
par rapport à 0, α ∈]0, 1[. On dénit pour tout y ∈ R :
d1,F,α,m (y) = F −1 (1 − αF (y + m) − (1 − α)F (y − m)),
1 1−α
(F (y + m) − F (y − m))),
d2,F,α,m (y) = F −1 ( +
2
2
dF,α,m (y) = max{d1,F,α,m (y), d2,F,α,m (y)},
et dm solution unique de l'équation hm (y) = 1 en y avec :
hm (y) = (1 + α)F (y + m) + (1 − α)F (y − m).
Remarque 4. d
m
existe bel et bien car hm (y) est croissante en y et continue de 0 à 2
pour y ∈ R.
Lemme 5. Pour tout y ∈ R, m ≥ 0, α ∈]0, 1[ on a :
(a) d2,F,α,m (y) = d2,F,α,m (−y);
(b) d1,F,α,m (−y) = −d1,F,1−α,m (y);
(c)
dF,α,m (y) =
d1,F,α,m (y)
d2,F,α,m (y)
avec dF,α,m (y) ≥ dF,α,m (dm ) = dm + m;
(d) −m ≤ dm ≤ 0.
Démonstration.
21
si
si
y < dm
,
y ≥ dm
(a) Puisque
z∈R
F
est symétrique autour de zéro et que
F (z) = 1 − F (−z), alors pour tout
on a :
1 1−α
(F (−y + m) − F (−y − m)))
d2,F,α,m (−y) = F −1 ( +
2
2
1 1−α
(F (y + m) − F (y − m)))
= F −1 ( +
2
2
= d2,F,α,m (y).
(b) Comme
F −1 (Δ) = −F −1 (1 − Δ),
d1,F,α,m (−y) =
=
=
=
=
on a pour tout
α ∈ (0, 1)
:
F −1 (1 − αF (−y + m) − (1 − α)F (−y − m))
F −1 (1 − α(1 − F (y − m)) − (1 − α)(1 − F (y + m))
F −1 (αF (y − m) + (1 − α)F (y + m))
−F −1 (1 − αF (y − m) − (1 − α)F (y + m))
−d1,F,1−α,m (y).
(c) D'une part, on vérie que
dm
part, il est aisé de voir que :
est un point xe pour
d2,F,α,m
et
d1,F,α,m .
D'autre
d1,F,α,m (y) ≥ d2,F,α,m (y) ⇔ y ≤ dm .
1
hm (0) = (1 + α)Φ(m) + (1 − α)Φ(−m) = 1 − α + 2αΦ(m) ≥ (1 − α) + 2α ≥
2
1
1
1 = hm (dm ) et hm (−m) = (1 + α)Φ(0) + (1 − α)Φ(−2m) ≤ (1 + α) + (1 − α) =
2
2
1 = hm (dm ). Le résultat suit puisque hm (0) ≥ 1, hm (−m) ≤ 1 et que hm est
(d) On a
croissante.
Théorème 3.
Soient X|θ ∼ f0 (x − θ) où θ ∈ [−m, m] avec une loi a priori uniforme
sur [−m, m], G la fonction de répartition de (X − θ) et G = f0 unimodale et symétrique
par rapport à 0. Alors, on a
(a) L'intervalle HPD Iπ (x) = [lπ (x), uπ (x)] avec
lπ (x) = max{−m, x − dG,α,m (−x)}
uπ (x) = min{m, x + dG,α,m (x)}.
(b) La probabilité de recouvrement est symétrique par rapport à 0,
Cm (θ) = Cm (−θ);
22
(c)
Cm (θ) = Pθ (Iπ (X) θ) ≥ 2G(dm + m) − 1 ∀θ ∈ [−m, m] ;
(d)
Cm (m) = Cm (−m) = G(dm ) ≥
1
;
2
(e) La probabilité de recouvrement moyenne par rapport à
π est (1−α), c.-à.-d.
1 − α.
Θ
Cm (θ)π(θ)dθ =
Démonstration. Nous commençons par déterminer la densité a posteriori. Nous avons :
f0 (x − θ)
f0 (x − θ)
=
, pour θ ∈ [−m, m].
G(x − m) − G(x + m)
f (x − θ)dθ
−m 0
π(θ|x) = m
(a) Puisque la densité a posteriori est unimodale, l'intervalle HPD prend trois formes
possibles :
− u(x)) − G(x + m)
(i) Soit l(x) = −m et G(x
= 1 − α, ce qui donne
G(x − m) − G(x + m)
u(x) = x + G−1 (1 − αG(x + m) − (1 − α)G(x − m))
= x + d1,G,α,m (x)
− θ) − G(x − l(x))
= 1 − α, ce qui donne
(ii) soit u(x) = m et G(x
G(x − m) − G(x + m)
l(x) = x + G−1 (1 − αG(x − m) − (1 − α)G(x + m))
= x + d1,G,1−α,m (x)
= x − d1,G,α,m (−x)
u(x)
π(θ|x)dθ = 1 − α avec b(x) tel
(iii) Soit l(x) = x − b(x), u(x) = x + b(x) et l(x)
que x − b(x) ≥ −m et x + b(x) ≤ m. On a :
P (x − b(x) ≤ θ ≤ x + b(x)|x) = 1 − α,
1
(G(−b(x)) − G(b(x))) = 1 − α
⇔
G(x − m) − G(x + m)
1 1−α
⇔ b(x) = G−1 ( −
(G(x − m) − G(x + m))).
2
2
De plus, la situation iii) se produit si et seulement si
23
x − b(x) ≥ −m
et
x + b(x) ≤ m.
On a :
1 1−α
x − b(x) ≥ −m ⇔ x ≥ G−1 ( −
(G(x − m) − G(x + m))) − m
2
2
1 1−α
(G(x − m) − G(x + m)))
⇔ G(x + m) ≥ −
2
2
⇔ (1 + α)G(x + m) + (1 − α)G(x − m) ≥ 1
⇔ hm (x) ≥ 1
⇔ x ≥ dm .
Pareillement, on obtient
x + b(x) ≤ m ⇔ x ≤ dm .
(b) On exploite la symétrie du problème par rapport aux transformations
θ → −θ
X → −X
et
sur l'espace des paramètres. On vérie que
u(−x) = −l(x), ∀x ∈ R
(2.1)
ce qui nous permet d'écrire :
Cm (θ) =
=
=
=
=
=
(c) Notons que l'intervalle
Iπ (x)
Pθ (I(X) θ)
Pθ (l(X) ≤ θ ≤ u(X))
Pθ (−u(−X) ≤ θ ≤ −l(−X))
P−θ (−u(X) ≤ θ ≤ −l(X))
P−θ (l(X) ≤ −θ ≤ u(X))
Cm (−θ).
est un sous ensemble de
x ± dG,α,m (x)
et ont la même
probabilité de recouvrement puisque la diérence entre ces deux ensembles n'appartient pas à
[−m, m].
On a donc :
Pθ (I(X) θ) =
=
≥
=
Pθ (X − dG,α,m (X) ≤ θ ≤ X + dG,α,m (X))
Pθ (−dG,α,m (X) ≤ X − θ ≤ dG,α,m (X))
Pθ (−dm − m ≤ X − θ ≤ dm + m)
2G(dm + m) − 1,
puisque G est symétrique.
P−m (I(X) −m) = P−m (X ≤ dm ) = P−m (X + m ≤
1
dm + m) = G(dm + m) ≥ G(0) = , puisque dm + m ≥ 0.
2
(d) On a
Cm (θ) = Cm (−θ)
et
24
(e) On a
Cm (θ) = Pθ (I(X) θ) = Eθ (1Iπ (X) (θ)), donc
m Eθ (Cm (θ)) = −m 1Iπ (x) (θ)f0 (x − θ)π(θ)dxdθ
mR
=
1
(θ)g(θ|x)dθm(x)dx
−m Iπ (x)
R
=
(1 − α)m(x)dx
R
= 1 − α,
puisque
m(·)
est la densité marginale de
X.
Remarque 5. Même si la probabilité de recouvrement fréquentiste est en moyenne égale
à (1 − α), il existe des points où cette probabilité est beaucoup plus petite à cette valeur
tout en respectant la borne inférieure du théorème précédent.
Corollaire 3. Pour la probabilité de recouvrement à la frontière, on a C (m) = C (−m) :
(a) lim C (−m) = 21 ;
(b) C (−m) ↑ en m, avec C (−m) → 1 +1 α lorsque m → ∞.
m
m→0
m
m
m
m
Démonstration.
(a)
(b)
Cm (−m) = P−m (X ≤ dm ) = G(dm + m) → 1/2, lorsque m → 0.
1
) lorsque m → ∞ via la fonction hm
Il est facile de voir que dm + m → G−1 (
1+α
1
. Il reste à montrer que dm + m est croissant en m, ce
et donc Cm (−m) →
1+α
qui implique Cm (−m) = G(dm + m) croissant en m. Supposons par l'absurde qu'il
existait
m1 > m2 tel que dm2 +m2 > dm1 +m1 . Alors on aurait hm2 (dm2 ) > hm1 (dm1 ),
ce qui contredit le fait que
hm1 (dm1 ) = hm2 (dm2 ) = 1.
Remarque 6. Il est important de remarquer que la probabilité de recouvrement fréquentiste de l'intervalle HPD donne pour de petites valeurs de m, ce qui est une valeur faible
indépendamment de (1 − α) et lorsque (1 − α) est grand. Nous devons donc envisager une
autre méthode de construction de l'intervalle bayésien ou une autre loi a priori si l'objectif est d'obtenir une probabilité de recouvrement fréquentiste non loin de la crédibilité
(1 − α).
1
2
25
2.2 Illustration
Exemple 11. Loi Normale
1
1[−m,m] (θ). D'après le Théorème 3,
2m
l'intervalle de conance HPD est de la forme Iπ (x) = [lπ (x), uπ (x)] où :
Soit X ∼ N (θ, 1) avec θ ∈ [−m, m] et π(θ) =
⎧
⎪
⎨ −m
1 1−α
lπ (x) =
(Φ(x − m) − Φ(x + m)))
x − Φ−1 ( −
⎪
2
2
⎩
−1
x + Φ (1 − αΦ(x − m) − (1 − α)Φ(x + m))
si
x < dm
si
dm ≤ x ≤ −dm
si
x ≥ −dm
si
x < dm
si
dm ≤ x ≤ −dm
si
x ≥ −dm
et
⎧
−1
⎪
⎨ x + Φ (1 − αΦ(x + m) − (1 − α)Φ(x − m))
1 1−α
uπ (x) =
(Φ(x − m) − Φ(x + m)))
x + Φ−1 ( −
⎪
2
2
⎩
m
avec Φ la fonction de répartition de la loi normale réduite.
0
lπ(x)
uπ(x)
−4
−2
IC
2
4
La Figure ci-dessous représente ces bornes pour le cas m = 4, 1 − α = 0.95.
−10
−5
0
5
10
x
Figure 2.1: Intervalle de crédibilité pour
et une loi uniforme sur θ.
1 − α = 0.95
X
qui suit
26
N (θ, 1)
avec
θ ∈ [−m, m], m = 4,
La gure 2.1 illustre bien le comportement général de l'intervalle avec les formes [−m, u(x)],
[x±δ(x)] et [l(x), m] et comment cet intervalle tient compte de la contrainte du paramètre
θ ∈ [−m, m].
Lemme 6. Les bornes lπ (x) et uπ (x) de l'intervalle Iπ (x) sont continues et croissantes
en x.
Démonstration.
En vertu de la relation uπ (x) = −lπ (−x) donnée en (2.7), il sut de travailler avec lπ (·).
On a montré que x + b(x) ≤ m ssi x ≤ −dm , alors on en déduit que dm = b(x) − m
et donc lπ (dm ) = dm − b(dm ) = b(dm ) − m − b(dm ) = −m. Pour la croissance de lπ (·),
1 1−α
(Φ(x + m) − Φ(x − m))). Ainsi
on a pour dm ≤ x ≤ −dm : lπ (x) = x − Φ−1 ( +
2
2
d
(lπ (x)) = 1 − b (x). Il sut de montrer que b (x) est négative.
lπ (x) = x − b(x). On a dx
Selon le Lemme 3, la famille de densités {π(.|x), x ≥ dm } est à RVM croissant en θ. On
l3 (x)
π(θ|x)dx = α et donc selon le
sait que pour x ≥ −dm lm3 (x) π(θ|x)dx = 1 − α ⇒ −m
Corollaire 1 , lπ (x) est croissante.
Pour la probabilité de recouvrement, nous procédons numériquement en s'appuyant sur
les propriétés de croissance et de continuité de l(·) et u(·). Les gures suivantes représentent pour diérentes valeurs de m des graphes de C(θ) pour 1 − α = 0.95.
27
m=1
0.70
0.85
0.85
0.95
1.00
m=0.5
−0.2
0.0
0.2
0.4
−1.0
−0.5
0.0
θ
θ
m=3
m=4
0.5
1.0
2
4
5
10
0.91
0.93
0.94
0.95
0.97
0.97
−0.4
−1
0
1
2
3
−4
−2
0
θ
θ
m=6
m=10
0.95
0.93
0.93
0.95
0.97
−2
0.97
−3
−6
−4
−2
0
2
4
6
−10
θ
−5
0
θ
Figure 2.2: Probabilité de recouvrement fréquentiste de Iπ pour diérentes valeurs de m
et pour 1 − α = 0.95.
u
D'après la Figure 2.2, on constate que la probabilité de recouvrement fréquentiste est
faible aux frontières de l'intervalle pour m petit. Par exemple, pour m = 0.5, on a
infθ∈[−0.5,0.5] C0.5 (θ) 0.6736. Par ailleurs en revenant aux résultats théoriques (Théorème
3(c)) montrés ci-dessus sur la borne inférieure de la probabilité de recouvrement, nous
remarquons que cette borne n'est pas satisfaisante pour de petites valeurs de m (ex :
m = 0.5, 2Φ(d0.5 + 0.5) − 1 0.3636) et elle est assez satisfaisante pour de grandes
valeurs de m ( ex : m = 6, infθ∈[−6,6] C6 (θ) 0.9275 or 2Φ(d6 + 6) − 1 0.9047).
Face à ces constats, nous allons introduire par la suite la méthode utilisant la fonction de
distribution spending function et permettant d'obtenir d'autres intervalles bayésiens
que l'intervalle HPD.
28
2.3 Une borne supérieure pour la probabilité de recouvrement fréquentiste minimale
Il existe plusieurs approches (voir [3] et le Chapitre 1) pour construire un intervalle de
crédibilité
1 − α.
(1 − α)
pour un paramètre
τ (θ) ∈ [−m, m]
avec
P (l(x) ≤ τ (θ) ≤ u(x)|x) =
Tel que présenté par Marchand et Strawderman (2013) et ensuite utilisé par
Ghashim, Marchand et Strawderman (2015) et par Ghashim [17], une autre manière de
voir les bornes
l(x)
complémentaire
et
u(x),
pour un
x
donné, est de se concentrer plutôt sur l'ensemble
[−m, l(x)) ∪ (u(x), m]
et allouer une probabilité
respectivement aux deux ensembles disjoints avec
α − απ (x)
et
απ (x)
απ (x) ∈ [0, α]. Ces derniers ont obtenu
pour de nombreux modèles, une classe d'estimateurs bayésiens de crédibilité
1−α
de probabilité de recouvrement fréquentiste bornée inférieurement par 1−α ou
(1 − α)
1 − 3α
2
et
sous
l'hypothèse de log-concavité.
Dénition 2.2. Pour une loi a priori π donnée pour θ et une crédibilité (1 − α), la
fonction de distribution
est une fonction dénie telle que, ∀x ,
l(x)|x) = α − απ (x), et [l(x), u(x)] est un in-
απ (·) : R → [0, α]
Pπ (τ (θ) ≥ u(x)|x) = απ (x), Pπ (τ (θ) ≤
tervalle de crédibilité pour τ (θ).
Lemme 7. Se basant sur l'intervalle I
est donnée par :
απ (x) =
avec α0 (x) =
π
de l'Exemple 11, la fonction de distribution απ (x)
⎧
⎪
⎪
α
⎪
⎨
α0 (x)
⎪
⎪
⎪
⎩ 0
Φ(m − x) − Φ(m + x)
α
+
2 2(Φ(m − x) − Φ(−m − x))
29
si
x < dm
si
dm ≤ x ≤ −dm
si
x ≥ −dm
Démonstration. Pour x ≤ d
m
,
l(x) = −m,
απ (x) = α.
Pour
x ≥ −dm ,
on a
α(x) = 0. Pour dm ≤ x ≤ −dm , απ (x) =
α
Φ(u(x) − x) − Φ(−m − x)
=
+
Pπ (τ (θ) ≥ u(x)|x) = 1 − Pπ (τ (θ) ≤ u(x)|x) = 1 −
Φ(m − x) − Φ(−m − x)
2
Φ(m − x) − Φ(m + x)
en utilisant la densité a posteriori dénie dans la démonstra2(Φ(m − x) − Φ(−m − x))
que
u(x) = m,
donc
α − απ (x) = α,
donc
ainsi
tion du Théorème 3.
Remarque 7. D'après le lemme précédent, quand α (x) = 0, nous aurons un intervalle
π
HPD de la forme I(x) = [l(x), m] et pour απ (x) = α, I(x) = [−m, u(x)] avec l(x) et u(x)
comme dans la Dénition 2.2.
Les graphiques suivants représentent la fonction de distribution απ (·) de l'intervalle HPD
de l'Exemple 11 pour diérentes valeurs de m et (1 − α).
m=4,alpha=.01
0.00
0.000
0.02
0.004
0.04
0.008
m=4,alpha=.05
−2
0
2
4
−4
−2
0
2
x
x
m=1,alpha=.05
m=1,alpha=.01
4
0.00
0.000
0.02
0.004
0.04
0.008
−4
−0.5
0.0
0.5
1.0
−1.0
−0.5
0.0
x
x
m=.5,alpha=.05
m=.5,alpha=.01
0.5
1.0
0.2
0.4
0.00
0.000
0.02
0.004
0.04
0.008
−1.0
−0.4
−0.2
0.0
0.2
0.4
−0.4
x
Figure 2.3: Fonctions de distribution
−0.2
0.0
x
απ (x)
pour diérentes valeurs de m et (1 − α).
D'après ces graphiques, force nous est de remarquer que la fonction de distribution se
α
présente de manière particulière. Elle est toujours plus petite que pour de valeurs
2
30
positives de x, ce qui entraine forcément que l'intervalle Iπ (x) contient la valeur −m
/ −m pour x > 0, c'est-à-dire
seulement pour de valeurs négatives de x, ou encore Iπ (x) ∈
quand απ (x) = α. Il est facile de montrer dans ce cas précis que απ (x) ≤
α
2
pour tout
x ≥ 0. Cette remarque nous conduit au résultat suivant qui constitue avec le Théorème
5, les résultats les plus importants de cette partie de ce mémoire.
Théorème 4.
Soit X|θ ∼ N (θ, 1) avec |θ| ≤ m et π une loi a priori continue sur
[−m, m]. Soit Iπ (X) = [lπ (X), uπ (X] un intervalle bayésien de niveau (1 − α) associé à
π tel que lπ et uπ croissants et satisfaisant la propriété lπ (−x) = −uπ (x) pour tout x.
Alors on a :
inf
θ∈[−m,m]
Cπ (θ) ≤ Φ(m) ,
(2.2)
où Cπ est la probabilité de recouvrement fréquentiste de Iπ .
Démonstration. On sait que Iπ (x) ⊂ [−m, m] pour tout x. On a lπ (x) > −m pour
tout x > 0. Sinon, on aurait uπ (−x) = −lπ (x) = m et Iπ (−x) = [−m, m], un intervalle
de crédibilité 1, ce qui n'est pas permis. Comme lπ (x) > −m pour tout x > 0 alors
C(−m) ≤ P−m (X ≤ 0) = Φ(m).
Remarque 8. Il est facile de voir que le théorème précédent peut être généralisé pour un
modèle quelconque X ∼ f0 (x − θ), x ∈ R, où θ ∈ [−m, m] avec f0 absolument continue,
paire et en remplaçant Φ par F0 , soit la fonction de répartition associée à f0 .
Remarque 9. En eet, en prenant f0 absolument continue et paire, π une loi a priori
paire, Iαπ (X) = [l(X), u(X] tel que P (θ ≥ u(x)|x) = απ (x) avec απ (x) = α − απ (−x)
pout tout x, on peut montrer que l(−x) = −u(x) pour tout x.
Remarque 10. Le Théorème 4 montre un décalage signicatif entre la crédibilité (1 − α)
et la probabilité de recouvrement fréquentiste pour m petit et (1 − α) pas trop petit. Par
exemple, si la crédibilité est 1 − α = 0.95 et (i) m = 1, (ii) m = 0.5, nous avons
31
des probabilités de recouvrement inmum majorées par Φ(1) ≈ 0.84 et Φ(0.5) ≈ 0.69
respectivement.
Remarque 11. Il est important de noter qu'au Théorème 4, la borne supérieure de la
probabilité de recouvrement inmum est indépendante de (1 − α) et de la loi a priori π .
Exemple 12. Cet exemple se base sur le modèle posé en illustration à la Section 2.2. La
Figure ci-dessous représente la probabilité de recouvrement fréquentiste pour 1 − α = 0.90
et 1 − α = 0.95 et pour m = 0.5, 1, 1.5. Par exemple pour une crédibilité de 0.95 et m = 1,
remarquons que la probabilité de recouvrement est plus grande que 0.95 pour une grande
partie de l'espace paramétrique ( |θ| ≤ 0.69), et nous avons une valeur minimale de 0.816
en comparaison avec la borne du Théorème 4 qui est Φ(1) = 0.84. Notons que le décalage
est assez prononcé dans ce cas vu que, d'après la partie (e) du Théorème 3, la probabilité
de recouvrement fréquentiste moyenne est de 1 − α = 0.95
m=1
1.00
1.00
m=0.5
Crédibilité
0.80
0.80
0.65
0.70
0.85
0.90
C(θ)
0.85
0.90
0.95
0.95
0.95
0.9
0.75
C(θ)
Crédibilité
0.95
0.9
−1.0
−0.5
0.0
0.5
1.0
−1.0
θ
−0.5
0.0
0.5
1.0
θ
Figure 2.4: Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé
à la loi a priori uniforme pour diérentes valeurs de m et (1 − α).
32
1.00
m=1.5
Crédibilité
0.85
0.90
C(θ)
0.95
0.95
0.9
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
θ
Figure 2.5: Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé
à la loi a priori uniforme pour diérentes valeurs de (1 − α) et m = 1, 5.
Une conséquence directe du Théorème 4 et qui s'applique sur une classe de lois a priori
est qu'il est illusoire de chercher à améliorer la probabilité de recouvrement aux frontières
de notre intervalle tant et si longtemps que m et α restent petits. Dans le même ordre
d'idée, les procédures fréquentistes d'obtention d'intervalle de conance avec un niveau
souhaité (1 − α) ne peuvent donner une crédibilité (1 − α) quand cette dernière est
plus grande que Φ(m). Nous obtenons un résultat surprenant selon laquelle certaines
procédures fréquentistes donnent tout l'espace paramétrique comme estimation. Ceci est
établie par le théorème qui suit.
Théorème 5. Soient X|θ ∼ N (θ, 1) avec |θ| ≤ m et I(X) = [l(X), u(X)] un intervalle de
conance de niveau ≥ (1 − α) pour θ ∈ [−m, m] tel que l et u croissants et I(X) vériant
la propriété l(x) = −u(−x) ∀x ∈ R. Alors, pour m ≤ Φ−1 (1 − α), on a Pθ (I(X) =
[−m, m]) ≥ 0 pour tout x tel que |x| ≤ Φ−1 (1 − α) − m.
Démonstration. Soit
x0
tel que
pour tout x ≤ x0 . On a C(−m) =
Φ(x0 + m). On sait que C(−m) ≥ 1 − α ⇒
l(x) = −m
P−m (I(x) −m) = P−m (X ≤ x0 ) =
33
Φ(x0 + m) ≥ 1 − α ⇒ x0 ≥ Φ−1 (1 − α) − m > 0.
x ≥ −x0
et
I(x) = [−m, m]
quand
Or
u(x) = −l(−x) = m
pour tout
−x0 ≤ x ≤ x0 .
Remarque 12. Nous pouvons illustrer immédiatement ce théorème par le cas de l'inter-
valle standard X ± Φ−1(1 − α2 ) tronqué sur l'intervalle [−m, m], qui a une probabilité de
recouvrement de (1 − α) pour tout θ ∈ [−m, m] et qui donne l'intervalle [−m, m] en eet
pour |x| ≤ Φ−1(1 − α2 ) − m.
Remarque 13. Le Théorème 5 met en exergue une possibilité d'obtention de tout l'espace
paramétrique pour l'intervalle de conance quand m < Φ−1(1 − α). La probabilité d'occurence d'un tel évènement est égale à Φ(x0 − θ) − Φ(−x0 − θ) et est maximale pour θ = 0.
On a donc dans ce cas P0(I(X) = [−m, m]) = 2Φ(x0) − 1 ≥ 2Φ(Φ−1(1 − α) − m) − 1. Le
tableau ci dessous donne certaines valeurs de la borne inférieure de cette probabilité qui
n'est pas petite pour m < Φ−1(1 − α).
1−α
0.90
0.95
0.99
0.5
0.56
0.75
0.93
1.0
0.22
0.48
0.82
1.5
-
0.12
0.59
2.0
-
-
0.26
m/
Tableau 2.1: Borne inférieure de la probabilité que
34
I(X) = [−m, m]
quand
θ = 0.
2.4 Exemples
Dans cette section, nous présentons quelques exemples dans le but d'illustrer les résultats
des Théorèmes 4 et 5.
2.4.1 Méthode uniée
Soit X ∼ N (θ, 1) avec θ ∈ [−m, m]. On désire trouver un intervalle de conance de
niveau (1 − α) par la méthode uniée pour le paramètre θ. Posons H0 : θ = θ0 contre
L(θemv |x)
. On a dans ce cas :
Ha : θ = θ0 avec θ ∈ [−m, m]. Posons : λ(x) =
L(θ |x)
0
θemv
⎧
⎨ −m
x
=
⎩
m
si x < −m
si − m ≤ x ≤ m
si x > −m
ainsi,
⎧
⎨ −x(m + θ0 ) + 12 (θ02 − m2 )
1
(x − θ)2
log(λ(x)) =
⎩ 2
x(m − θ0 ) + 12 (θ02 − m2 )
si x < −m
si − m ≤ x ≤ m
si x > −m
La région d'acceptation est de la forme Aθ = {x : λ(x) < cθ } ce qui donne un intervalle
de conance I(x) = {θ0 ∈ [−m, m] : x ∈ Aθ }. Le Théorème 5 appliqué dans ce contexte
nous donnera un intervalle ILRT (x) = [−m, m] pour |x| ≤ Φ−1(1 − α) − m et m <
Φ−1 (1 − α). La gure ci dessous montre la crédibilité respectivement à la loi a priori
uniforme sur [−m, m] et pour le cas m = 1 et un niveau 1 − α = 0.90, 0.95.
0
0
0
35
0.95
1.00
m=1
confidence level
0.90
0.75
0.80
0.85
crédibilité
0.90
0.95
−4
−2
0
2
4
x
Figure 2.6: Crédibilité pour l'intervalle uniée de niveau
priori uniforme et pour m = 1.0.
90%
et
95%
associé à la loi
Remarque 14. Remarquons d'après ce graphique, que, pour 1 − α = 0.95, I
LRT (x)
a
=
[−1, 1] pour |x| ≤ 0.64 vu que nous obtenons une crédibilité égale à 1 sur cet intervalle.
Ceci illustre bien le Théorème 5.
2.4.2 Intervalle de Pratt tronqué
α
de
Soit X ∼ N (θ, 1) avec θ ∈ [−m, m]. L'intervalle usuel I(X) = X ± Φ−1 1 −
2
niveau (1 − α) ne tient pas en compte la contrainte θ ∈ [−m, m]. L'intervalle tronqué
α
α
IT (X) = [X − Φ−1 (1 − ), X + Φ−1 (1 − )] ∩ [−m, m] est un choix plausible mais qui
2
2
α
−1
|x| ≥ m − Φ
1−
2
peut être vide pour
. Evans, Hansen et Stark ([11]) ont proposé
un intervalle optimal nommé Truncated Pratt interval IT P (X) = Ip (x) ∩ [−m, m]
basé sur l'intervalle de Pratt déni à la Section 1.3.1 et qui est optimal selon le critère
minimax ; c'est-à-dire minimiser les plus grands parmi les intervalles de probabilité de
recouvrement fréquentiste supérieure ou égale à 1 − α pour tout θ ∈ [−m, m].
36
Intervalle de Pratt tronqué
IC
0.0
0
−6
−1.0
−4
−0.5
−2
IC
2
0.5
4
6
1.0
Intervalle de Pratt
−4
−2
0
2
4
−4
−2
x
0
2
4
x
Figure 2.7: Intervalle de Pratt tronqué pour
m=1
et 1 − α = 0.95
Remarque 15. Nous pouvons remarquer d'après ce graphique, que, pour de petites va-
leurs de m, IT P (x) = [−1, 1] pour Φ(m) ≤ 1 − α et |x| ≤ Φ−1(1 − α) − m ce qui illustre
bien le Théorème 5.
2.4.3 Estimation d'un paramètre d'échelle
Corollaire 4. Les Théorèmes 4 et 5 s'appliquent également dans le cadre de l'estimation
d'un paramètre d'échelle β à partir de l'observation X ∼ β1 f1( βx )1[0,∞)(x) lorsque X et X1
ont la même distribution avec β ∈ [c1, c2], ou encore sans perte de généralité β ∈ [ 1c , c],
c > 1 (voir Remarque 17).
Démonstration. Pour ce faire, on travaille avec la variable Y
On montre
que Y ∼ f0 (y − θ) = ey−θ f1 (ey−θ ) avec θ = log(β), ainsi θ ∈ [−log(c), log(c)]. En posant
m = log(c), on a θ ∈ [−m, m]. On peut donc appliquer nos résultats à condition que f0
37
= log(X).
soit paire, ce qui est le cas lorsque
Remarque 16. f
0
X
1
et X ont la même distribution.
est paire c'est-à-dire e2t f1 (et ) = f1 (e−t ) pour tout t ⇔ u2 f1 (u) = f1 ( u1 )
pour tout u. Nous pouvons citer comme exemple de loi vériant cette propriété : loi
Fisher X ∼ F isher(r, r), loi Demi-cauchy X ∼ Cauchy(0, β), loi Pareto X ∼ f (x) =
1
1
1
(x).
x
β (β
+1)2 [0,∞)
Exemple 13. X ∼ F isher(r, r) alors X =
d X1 /r
X2 /r
avec X1 , X2 ∼ χ2r indépendantes.
Remarque 17. Il est important de noter que le paramètre d'échelle β peut appartenir
à un compact quelconque [c1 , c2 ]. Posons β = αβ ∈ [αc1 , αc2 ], il sut de prendre α =
1
.
c1 c2
Exemple 14. Loi Demi-cauchy
Nous étudions ici le cas de la loi Demi-cauchy qui a pour densité dénie comme suit :
2
f (x) =
πβ
1
1[0,∞) (x).
1 + ( βx )2
(2.3)
Nous illustrons dans le corollaire suivant, d'une part, les intervalles de conance bayésiens
Iπ , et d'autres part, puisque la densité du log(X) est paire nous illustrons pour diérentes
valeurs de m la borne supérieure de la probabilité de recouvrement inmum.
Corollaire 5. Pour la loi Demi-cauchy dont la densité est donnée en (2.9) avec β ∈ [
1
, c]
c
c > 1, en faisant un changement de variable Y = log(X) avec Y ∼ ey−θ f1 (ey−θ ) =
1
f0 (y − θ) et θ = log(β) et pour la loi a priori π(θ) =
1[−m,m] (θ), l'intervalle de
2m
conance bayésien de θ est donné par Iπ∗ (y) = [lπ (y), uπ (y)] où :
lπ (y) =
⎧
⎪
⎪
−m, y < dm
⎪
⎨
,
y − ln(tan( π4 + α−1
(arctan(ey−m ) − arctan(ey+m )))), dm ≤ y ≤ −dm
2
⎪
⎪
⎪
⎩ y − ln(tan(arctan(ey−m ) − (arctan(ey−m ) − arctan(ey+m ))(1 − α))), y ≥ −d
m
38
et
uπ (y) =
⎧
⎪
⎪
y − ln(tan(arctan(ey+m ) − (arctan(ey−m ) − arctan(ey+m ))(1 − α))), y < dm
⎪
⎨
α−1
(arctan(ey−m )
2
− arctan(ey+m )))), dm ≤ y ≤ −dm
avec dm = m − ln(tan( π4 +
α−1
(arctan(ey−m )
2
− arctan(ey+m )))).
0
5
10
IC
15
20
25
y + ln(tan( π4 +
⎪
⎪
⎪
⎩ m, y ≥ −d
m
−15
−10
−5
0
5
10
β
avec
15
x
Figure 2.8: Intervalle de conance bayésien pour
c = e3 .
1 − α = 0.95, m = 3
et donc
La Figure 2.7 représente l'intervalle de conance bayésien du paramètre β en fonction de
l'observation x pour c = e3 , α = 0.05. Notons que cet intervalle a été construit à l'aide
de l'intervalle bayésien HPD Iπ∗ (y) du ln(β) par Iπ (x) = [elπ (x) , euπ (y) ].
Démonstration. Le Théorème 3 s'applique à la variable Y
39
= ln(X) ∼ ey−θ f1 (ey−θ ) =
f0 (y − θ) avec f0 (t) =
π(θ|y) = Θ
2 et
, θ = ln(β) et
π 1 + e2t
π(y|θ)π(θ)
1
.
=
2cosh(y − θ)(arctan(ey−m ) − arctan(ey+m ))
π(y|θ)π(θ)dθ
Nous sommes donc en mesure d'inverser les bornes an de trouver la probabilité de recouvrement fréquentiste. La gure suivante montre la borne supérieure de la probabilité
1.00
de recouvrement inmum.
0.95
1−α
0.85
●
0.80
Borne sup
0.90
●
0.65
0.70
0.75
●
●
0.5
1.0
1.5
2.0
m
Figure 2.9: Borne supérieure de inf θ∈[−m,m] Cπ (θ)) pour diérentes valeurs de m et 1−α =
0.95.
Remarque 18. D'après la Figure 2.8 ci-dessus, force nous est de remarquer que la borne
supérieure de la probabilité de recouvrement inmum est très faible pour de petites valeurs
de m. Par exemple pour m = 0.5 donc c = 1.65, la probabilité de recouvrement minimale
est bornée par F0(m) = 0.65, valeur éloignée 1 − α = 0.95. Ceci conrme encore le
décalage décrit plus haut.
40
Exemple 15. Loi Fisher(r,r)
Nous étudions dans cet exemple le cas de la loi Fisher(r,r) où
θ ∈ [ 1c , c], c > 1, x ≥ 0 avec :
X ∼ fθ (x) =
1 x
f ( ),
θ θ
r
1 Γ(r) ( xθ ) 2 −1
f (x) =
.
θ Γ( 2r )2 (1 + xθ )r
Alors,
(2.4)
x
Fθ (x) = F ( ),
θ
où f et F sont respectivement la densité et fonction de répartition d'une Fisher de dégré
de liberté r au dénominateur comme au numérateur. Dans le but de calculer le rapport
de vraisemblance, nous déterminons l'estimateur du maximum de vraisemblance qui se
présente comme suit :
θemv (x) =
⎧
⎪
⎪
⎪
⎨
1
c
si
x<
1
c
x
⎪
⎪
⎪
⎩ c
si
1
c
si
x ≥ c.
≤x≤c
Considérons les régions d'acceptation Aθ de niveau (1 − α) de la forme {x : Rθ (x) ≥ cθ }
où Rθ est déni comme suit :
0
⎧
1 r2 1 + xc r
⎪
⎪
⎪
θc
⎪
1 + xθ
⎪
⎪
r
⎨
L(x, θ)
x2
r r2
Rθ (x) =
=
2θ
r
⎪
(x
L(x, θ)
⎪
+ θ) r
⎪
⎪
r
x+c
⎪
⎪
⎩ θc 2
x+θ
1
c
si
x<
si
1
c
si
x ≥ c.
≤x≤c
Observons que :
⎧ c
1
⎪
⎪
−
r
⎪
⎪
1 + xc θ + x
⎪
⎨
d
L(x, θ)
r
r
log(Rθ (x)) =
=
−
⎪
dx
2x
x+θ
L(x, θ)
⎪
⎪
1
1
⎪
⎪
⎩ r
−
x+c x+θ
41
1
c
si
x<
si
1
c
si
x≥c
≤x≤c
0.8
1.0
On peut montrer que :
Si θ = 1c , Rθ (x) = 1 pour 0 ≤ x ≤ 1c et décroissant pour x > 1c .
Si θ = c, Rθ (x) est croissante pour 0 ≤ x ≤ c et Rθ (x) = 1 pour x ≥ c.
Si 1c < θ < c, Rθ (x) est croissante pour 0 ≤ x ≤ θ et décroissante pour x ≥ θ.
La gure suivante décrit le graphe de Rθ (x) pour c = 3 et r = 8.
0.0
0.2
0.4
R(x)
0.6
θ=1 3
θ=3
θ=2
0
5
10
15
20
x
Figure 2.10: Graphe de Rθ (x) pour c = 3 et r = 8.
Comme Rθ (x) est unimodale en x pour tout θ, alors {x : Rθ (x) ≥ cθ } est un intervalle
pour θ ∈ [ 1c , c], c > 1. Les régions d'acceptation peuvent être obtenues en résolvant le
système d'équations :
Fθ (b) − Fθ (a) = 1 − α,
avec Rθ (a) = Rθ (b) et
[a, b] = {x : Rθ (x) ≥ k},
pour a, b et 0 ≤ k ≤ 1 pour tout θ. Si θ = 1c , alors la solution est a = 0 et b = Fθ−1 (1 − α)
et cte = Rθ (b). L'algorithme suivant peut être utilisé pour trouver a et b pour 1c ≤ θ ≤ 1.
42
La région d'acceptation pour θ ∈ [1, c] sera déduite par symétrie par rapport à 1.
Algorithme :
(a) Soit z = θF −1 (1 − α), alors Pθ (X ≤ z) = 1 − α.
(b) Si Rθ (z) ≤ Rθ (0), alors a = 0 et b = z .
(c) Sinon c0 = Rθ (0), c1 = Rθ (z), et itérer l'étape suivante jusqu'à convergence.
(d) Soit cc = (c0 + c1 )/2, résoudre les équations Rθ (a) = Rθ (b) = c pour 0 < a < θ < b ;
Si Pθ (a ≤ X ≤ b) ≤ 1 − α, c1 ← cc ; sinon c0 ← cc.
10
Borne inférieure
Borne supérieure
0
5
Région d'acceptation
15
20
La gure suivante donne la région d'acceptation associée au graphe précédent de Rθ (x)
pour c = 3 et r = 8.
0.5
1.0
1.5
2.0
2.5
3.0
θ
Figure 2.11: Région d'acceptation associée à
Rθ (x)
pour c = 3 et r = 8.
Les bornes de notre région d'acceptation sont croissantes pour tout θ et donc leurs inverses
existent. Ainsi [l(x), u(x)]={θ : Rθ (x) ≥ cθ }. L'intervalle unié a une probabilité de
43
recouvrement de
(1 − α) par construction pour tout θ. La gure suivante donne les bornes
2.0
1.0
1.5
l(.)
u(.)
0.0
0.5
Interval de confiance
2.5
3.0
l(x) et u(x) pour (1 − α) = 0.95, c = 3 et r = 8.
0
1
2
3
4
5
x
Figure 2.12: Intervalle obtenu par la méthode uniée, modèle F isher(r, r, θ), 1−α = 0.95,
c = 3 et r = 8.
Remarque 19. Remarquons d'après la Figure 2.11 que, pour x ∈ [0.87, 1.15] l'intervalle
obtenu par la méthode uniée donne tout l'espace paramétrique
44
[ 13 , 3].
CHAPITRE 3
On the discrepancy between Bayes
credibility and frequentist probability
of coverage
Ce chapitre contient l'article publié dans Statistics and Probability Letters 97(2015) 63 −
68 avec Éric Marchand. Il résume tous les résultats décrits dans la section 2.3 à savoir
sur la borne supérieure pour la probabilité de recouvrement fréquentiste minimale et sur
la crédibilité de certaines méthodes fréquentistes. Des exemples sont illustrés pour mieux
comprendre les résultats.
Abstract.
45
For estimating a bounded normal mean with known variance, we exhibit situations of pronounced discrepancy between the credibility of Bayes credible regions and frequentist coverage.
Analogously, frequentist condence intervals are shown to have credibility one in some cases.
Keywords : Bayesian methods, Bounded normal mean, Credibility, Frequentist coverage probability, Interval estimation.
3.1 Introduction
This paper is concerned with both : (i) the frequentist probability of coverage of Bayes
credible sets, and (ii) the Bayes credibility of exact frequentist coverage methods, for
estimating a normal mean θ bounded to an interval [a, b], and based on X ∼ N (θ, σ2)
with known σ2 (a sample of size one without loss of generality). With respect to (i), we
prove (i.e., Theorem 1) the existence of a discrepancy, which can be signicant, between
a given credibility 1 − α and the minimal frequentist probability coverage. Indeed, we
show that the latter is quite a bit lower, for a very large class (essentially all priors with a
symmetric density about 0) of priors supported on [a, b] and choice of Bayes credible set,
whenever the relative width m = b−a
is small and 1 − α is not small. With respect to (ii),
2σ
we show that condence intervals I(x) = [l(x), u(x)] which are equivariant with respect
to a sign change (i.e., l(x) = −u(−x) for all x), which have monotone increasing in x
endpoints l(x) and u(x), and which have exact coverage probability 1 − α must be equal
to the full parameter space [a, b] for a range of x values, (i.e., have credibility equal to
one for any prior), whenever m = b−a
< Φ−1 (1 − α). So exact coverage comes at the price
2σ
of this unattractive feature. The particular cases of the truncated Pratt interval (Evans,
Stark and Hansen, 2005) and the so-called unied method (Feldman and Cousins, 1998)
46
which is the inversion of a likelihood ratio test, serve as illustrations for (ii), while the
Bayes HPD credible set with respect to the uniform prior on [a, b] serves as an illustration
for (i).
The negative results for (i) stand in contrast to a series of ndings for a lower bounded
space of the form θ ≥ 0 which limit the discrepancy and which also apply to a wide array
of situations (e.g., Mandelkern, 2002 ; Roe and Woodroofe, 2000 ; Zhang and Woodroofe,
2002, 2003 ; Marchand and Strawderman, 2006, 2013 ; Marchand et al., 2008). The context
of our ndings relates to the intrinsic interest in ndings objective priors with near
probability matching properties without relying on asymptotics and in the presence of a
bounded parameter space. The context and motivation was described by Marchand and
Strawderman (2013) as follows :
Bayesian credible sets are not designed (e.g., Robert, 2011) and are far from
guaranteed (Fraser, 2011) to have satisfactory, exact or precise frequentist
coverage but it is nevertheless of interest to investigate (Wasserman, 2011) to
what extent there is convergence or divergence in various situations.
With respect to (ii), it is useful to have available procedures, adapted to the parameter
constraint and that may even be optimal in a certain sense (e.g., the truncated Pratt
interval has a minimax interpretation), that guarantee exact coverage, but we believe that
the drawback of having to report interval estimates equal to the full parameter space for
some observed values is not well understood or not known. 1
Subsections 2.1 and 2.2 contains the results corresponding to (i) and (ii) respectively,
with remarks and illustrations in complement. Final remarks conclude the presentation.
1. The opposite situation where the credibility is equal to 0 for some values of x is more familiar, and
arises for the standard condence interval X ± σΦ−1 (1 − α) truncated to [a, b], for x > b + σΦ−1 (1 − α)
or x < a − σΦ−1 (1 − α) .
47
3.2 Main Results and Illustrations
3.2.1 On Bayesian condence intervals
Without loss of generality, we assume hereafter b = −a = m and σ = 1. Here is the rst
main result concerning the frequentist probability of coverage of Bayes credible sets.
Theorem 1. Let X|θ ∼ N (θ, 1) with |θ| ≤ m. Let π be a continuous prior proper density
for θ supported on [−m, m] which is an even function. Let Iπ (X) = [lπ (X), uπ (X)] be a
1 − α Bayes credible set associated with π such that the endpoints are non-decreasing as
a function of x and satisfy an equivariance property lπ (−x) = −uπ (x) for all x. Then,
we must have
inf
θ∈[−m,m]
(3.1)
CIπ (θ) ≤ Φ(m) ,
where Φ is the N (0, 1) cdf, and CIπ (θ) = P(Iπ (X) θ|θ) is the frequentist probability of
coverage.
Proof. We make use of the fact that a Bayes credible set Iπ (x) must be a strict subset
of [−m, m] for all x. Observe that we must have l (x) > −m for x > 0 since, otherwise
we would have for u (−x) = −l (x) = m by symmetry, l (−x) = −m given the nondecreasing property, and corresponding credibility for such an x equal to 1 which is not
2
π
π
π
π
2. In terms of the plausibility of the assumptions, with the problem being invariant with respect to
sign changes, symmetric priors lead naturally to equivariant interval estimators I(X) = [l(X), u(X)]
such that l(−x) = −u(x) for all x. Also, with the family of N (θ, 1) distributions possessing an increasing
in X monotone likelihood ratio with parameter θ and with the model densities satisfying the property
f (x − θ) = f (θ − x) for all x, θ, it follows that the family of posterior distributions θ|x possesses also an
increasing in θ monotone likelihood ratio with parameter x. This tells us that the class of Bayes credible
sets Iπ (X) with non-decreasing endpoints is of primordial interest.
48
allowed. Since, lπ (x) > −m for x > 0, the probability of non-coverage at θ = −m is
bounded below by P−m (X > 0) = 1 − Φ(m) , which leads to the result.
Remark 1. Depending on the values of m and α, but certainly for m not too large and 1−
α not too small, the above result is indicative of a possibly substantial discrepancy between
Bayes credibility and frequentist probability of coverage. For instance, if the credibility is
equal to 1 − α = 0.95 and (i) m = 1, (ii) m = 0.5 (i.e., the mean θ is known to within
(i) one, (ii) one half standard deviation), we have a minimal probabilities of coverage
bounded above by Φ(1) ≈ 0.84 and Φ(0.5) ≈ 0.69 respectively, illustrating the possible
degrees of discrepancy.
Remark 2. It is interesting also that Theorem 1's upper bound for minimal frequentist
coverage is independent of both the choice of credibility 1 − α and choice of prior.
Remark 3. When the parameter space is larger, the upper bound of course does not
signal a discrepancy and there is good reason to believe that several choices of π and
Iπ (X) may yield satisfactory level of matching between credibility and coverage probability.
Indeed, for the analogue to the large m case of a lower bound constraint θ ≥ a for some
a, and the choices of the πU uniform prior on [a, ∞) and the HPD credible set, Roe
1−α
and Woodroofe (2000) established the lower bound 1+α
for frequentist coverage Cπ (θ)
limiting the amount of discrepancy. In fact, for α < 1/3, the more precise statements :
α
1 − 3α
≤ Cπ (θ) ≤ 1 − α2 for all θ ≥ a, and inf θ≥a ∈ [1 − 3α
, 1 − 3α
+ 1+α
] were given
2
2
2
by Marchand et al. (2008). And, as well, the lower bound 1−α
arises in a vast number
1+α
of settings and for a class of Bayes credible sets associated with the truncation of a noninformative prior (i.e., right Haar invariant prior), such as πU in the above illustration
(see Marchand and Strawderman, 2006, 2013).
U
2
U
Remark 4. It is important to realize that the average frequentist coverage of probability of
a (1 − α) × 100% Bayesian credible set Iπ (X) with respect to π is equal to the credibility
49
1 − α.
(−m,m)
Noting
f (·|θ)
the model density and
fX
the marginal density equal to
fX (x) =
f (x|θ) π(θ) dθ, this follows since
CIπ (θ) π(θ) dθ =
I (Iπ (x) θ) f (x|θ) π(θ) dx dθ
(−m,m)
(−m,m) R
I (Iπ (x) θ) π(θ|x) dθ fX (x)dx
=
R
(−m,m)
(1 − α) fX (x) dx = 1 − α .
=
R
Paired with Theorem 3.1's maximal upper bound for minimal coverage, it must not only
be the case that the frequentist coverage
CIπ (θ)
uctuates to some extent below and above
the credibility, but also to a rather large extent when
the credibility
density
πU
on
1 − α.
Φ(m)
is quite a bit smaller than
m,
for the uniform prior
[−m, m], and the (1−α)×100% HPD credible set IπU
(say). The associated
Figure 1 is illustrative of this for varying
posterior density is a (unimodal) truncated to
in a straightforward manner that
[−m, m] N (x, 1)
density and it is veried
IπU (x) = [lπU (x), uπU (x)], with lπU (x) = −uπU (−x), and
uπU (x) = min (m, x + max{a(x) , b(x)}) .
a(x) = (1 − α) Φ(m − x) − αΦ(−m − x)
et
b(x) =
1
2
+
1−α
2
(Φ(m − x) − Φ(−m − x))
The research question that led to Theorem 1 came about following partial analysis and
numerical evaluations of this coverage probability (e.g., Lmoudden, 2008). Realizing that
coverage could be quite poor, attempts to nd a Bayesian credible set with high inmum
coverage probability were directed to either changing the prior, or departing from the
HPD criteria and focussing on a dierent selection procedure (still for πU ) (such as in
Marchand and Strawderman, 2013). But Theorem 3.1, which applies to a large class
of choices π and of the Bayes condence interval Iπ (X) tells us indeed that such a
search is illusory unless m and α are large enough. For moderate or large m though, the
minimal frequentist coverage appears to be less unsatisfactory as illustrated by Figure 1
for m = 1.5.
50
Example 1. Figure 1 is illustrative of the points made above, namely in Remarks 1
and 3, and presents the frequentist coverage probability C(θ) of the 90% and 95% HPD
credible sets associated with the uniform prior on [−m, m], and for m = 0.5, 1.0, 1.5.
For instance, looking at the case of credibility 95% and m = 1, we see that the coverage
probability it at least 0.95 for a large part of the parameter space (approx. for |θ| ≤ 0.69),
but drops down sharply when θ approaches the boundary to a minimum value of about
0.816 in comparison to Theorem 1's lower bound of Φ(1.0) ≈ 0.84. The other cases for
m = 0.5, 1.0 are similar but the discrepancy is less pronounced for credibility 0.90, and
more pronounced for m = 0.5. For larger m such as m = 1.50, Theorem 1 still applies
(i.e., minimal coverage bounded above by Φ(1.50) ≈ 0.933 but does not imply a signicant
discrepancy for the chosen credibilities of 0.90 and 0.95. The graphs suggest here that the
coverage uctuates to a much lesser degree around the credibility.
1.00
m=0.5
Credibility
0.65
0.70
0.75
0.80
C(θ)
0.85
0.90
0.95
0.95
0.9
−1.0
−0.5
0.0
0.5
1.0
θ
Figure 3.1: Coverage probability C(θ) of the uniform prior HPD credible set as a function
of θ for varying m and credibility.
51
1.00
m=1
Credibility
0.90
0.80
0.85
C(θ)
0.95
0.95
0.9
−1.0
−0.5
0.0
0.5
1.0
θ
1.00
m=1.5
Credibility
0.85
0.90
C(θ)
0.95
0.95
0.9
−1.5
−1.0
−0.5
0.0
0.5
1.0
1.5
θ
Figure 3.2: Coverage probability C(θ) of the uniform prior HPD credible set as a function
of θ for varying m and credibility.
52
3.2.2 On interval estimators with exact frequentist coverage
As a corollary to the above Theorem 3.1, condence intervals I(X) with exact frequentist
coverage 1−α which satisfy the symmetry assumptions of Theorem 3.1 cannot yield exact
credibility 1 − α whenever the latter is larger than Φ(m). In fact, one can say more and
we prove in Theorem 2 that, whenever m < Φ−1(1 − α), such condence intervals must
be such that I(x) = [−m, m] for a positive Lebesgue measure set of x values. Such a
possibility is illustrated with the simple choice X ± Φ−1(1 − α/2) truncated to [−m, m],
which has exact frequentist coverage 1 − α for all θ ∈ [−m, m], and which is equal to
[−m, m] whenever |x| ≤ Φ−1 (1 − α2 ) − m . The following Theorem establishes that such
a phenomenon is inevitable for a large class of interval estimators.
Theorem 2. Let X|θ ∼ N (θ, 1) with |θ| ≤ m. Let I(X) = [l(X), u(X)] be a condence
interval with frequentist coverage ≥ 1 − α for all θ ∈ [−m, m], such that l and u are
non-decreasing, and such that I(X) satises the invariance property l(x) = −u(−x) for
all x ∈ R. Then, whenever m < Φ−1 (1 − α), it must be the case that I(x) = [−m, m] for
any x such that −(Φ−1 (1 − α) − m) ≤ x ≤ Φ−1 (1 − α) − m.
Proof. Let x0 be the unique value such that l(x) = −m for all x ≤ x0. Observe that the
coverage probability at θ = −m is equal to
C(−m) = P−m (I(X) −m) = P−m (X ≤ x0 ) = Φ(x0 + m) .
Since this is at least equal to 1 − α, we must have x0 ≥ Φ−1(1 − α) − m, which by
assumption is positive. Since u(x) = −l(−x), it follows that u(x) = m for all x ≥ −x0,
which implies indeed that I(x) = [−m, m] for all −x0 ≤ x ≤ x0.
Remark 5.
Theorem 2 species an interval of values for which frequentist condence
intervals produces estimates equal to the full parameter space, provided that m < Φ−1 (1 −
α). The probability of such an event varies with θ and will be maximal for θ = 0. In
53
such cases,
C(0) = P0 (I(X) = [−m, m]) = 2Φ(x0 ) − 1 ≥ 2Φ (Φ−1 (1 − α) − m) − 1.
Such probabilities, which are typically not small, are tabulated below for selected values
of
(m, α)
such that
m < Φ−1 (1 − α).
m/1 − α 0.90 0.95 0.99
0.5 0.56 0.75 0.93
1.0 0.22 0.48 0.82
1.5
- 0.12 0.59
2.0
- - 0.26
Tableau 3.1: Lower bound for the probability that I(X) = [−m, m] when θ = 0.
Example 2. (inversion of likelihood ratio test)
A standard method to derive a condence interval with exact frequentist coverage
1−α;
also referred to as the unied method (e.g. Feldman and Cousins, 1998) ; is to rst
consider the acceptance regions
Aθ0 ⊂ R , θ0 ∈ [−m, m] ,
ratio test of signicance level
for
α
H 0 : θ = θ0
versus
associated with the likelihood
Ha : θ = θ0 , θ ∈ [−m, m],
and
then invert the test to obtain
ILRT 1 (x) = {θ0 ∈ [−m, m] : x ∈ Aθ0 } .
By construction, we obtain indeed coverage probability
Pθ0 (I(X) θ0 ) = Pθ0 (X ∈ Aθ0 ) =
1−α
X|θ ∼ N (θ, 1),
for all
θ0 ∈ [−m, m].
Now, in our case with
[m − Φ−1 (1 − α), ∞) , A−m = (−∞, Φ−1 (1 − α) − m].
regions
A θ0
are of the form
[ c1 (θ0 ), c2 (θ0 ) ]
with
54
For
we obtain
θ0 ∈ (−m, m),
Am =
the acceptance
c1 (θ0 ) < m − Φ−1 (1 − α)
and
c2 (θ0 ) >
Φ−1 (1 − α) − m. 3
Now, Theorem 2 applies here (one can also show that the endpoints are increasing and
that the equivariance property is satised) so that
for
|x| ≤ Φ−1 (1 − α) − m
whenever
ILRT (x)
m < Φ−1 (1 − α).
must be equal to
[−m, m]
Graphs of Bayesian credibility
[−m, m]
(or equivalently the posterior probability of
coverage where the posterior is a truncated to
[−m, m] N (x, 1) distribution) are presented
with respect to a uniform prior on
in Figure 2 for
m = 1.0
|x| ≤ Φ−1 (1 − α) − 1.0,
and condence levels
0.90
and
0.95.
The credibility equals
as shown above, and decreases as a function of
|x|
1
for
to levels well
below the condence level.
0.95
1.00
m=1
confidence level
0.90
0.75
0.80
0.85
Credibility
0.90
0.95
−4
−2
0
2
4
x
Figure 3.3: Bayesian credibility of the 90% and
respect to the uniform prior for m = 1.0.
95%
condence interval
ILRT (X)
with
Example 3. The Pratt interval (Pratt, 1961), given IP (x) = [min(0, X − c), max(0, X +
c)] where c = Φ−1 (1 − α), has frequentist probability coverage equal to 1 for θ = 0, and
1 − α for θ = 0. Its expected length is less than the expected length of the usual choice
X ± Φ−1 (1 − α/2) when |θ| is close to 0. For the truncated case θ ∈ [−m, m], Evans,
Hansen and Stark (2005) establish an optimality property of its truncated version Ip (X)∩
[−m, m] for m ≤ 2Φ−1 (1 − α), namely minimaxity in terms of minimizing maximum
expected length among all condence intervals with minimal frequentist coverage equal
to 1 − α for all θ ∈ [−m, m]. As inferred above, with the endpoints non-decreasing and
the interval equivariant, it follows from Theorem 2 that Ip (x) ∩ [−m, m] equals [−m, m]
whenever Φ(m) < 1 − α and |x| ≤ Φ−1 (1 − α) − m. 4
3. It is easy to verify also that Aθ0 = θ0 ± Φ−1 (1 − α2 ) whenever Φ−1 (1 − α2 ) ≤ m − |θ0 |. Otherwise,
the bounds c1 (θ0 ) and c2 (θ0 ) require a numerical evaluation.
4. In both Examples 2 and 3, one can also verify that I(x) = [−m, m] if and only if |x| ≤ Φ−1 (1−α)−m
55
Concluding Remarks
We have established, discussed, and illustrated a discrepancy between Bayesian credibility
and frequentist probability of coverage C(θ) that arises for interval estimators of the
mean θ of a N (θ, 1) distribution under the constraint |θ| ≤ m. On one hand, the minimal
value of C(θ) cannot exceed Φ(m) for a vast class of Bayesian estimators. On the other
hand, interval estimators I(x) with exact frequentist coverage 1 − α must be equal to
[−m, m] with positive probability whenever m < Φ (1 − α). As suggested by the proofs,
these features appear to intimately related to the smallness of the parameter space and
either are attenuated or vanish for larger parameter spaces. For this reason, it seems
quite plausible that such phenomena recur for other models and further investigation
would be useful. Although we have focussed on what can be judged as negative traits,
our ndings may lead to useful prescriptions such as adjusting the credibility of Bayes
estimators or adjusting the condence level of frequentist procedures to the size of the
parameter space.
−1
Acknowledgements
Eric Marchand's research is supported in part by a grant from the Natural Sciences and
Engineering Research Council of Canada. We are grateful to a reviewer for useful and
constructive comments. Finally, we are thankful to Bill Strawderman and Aziz Lmoudden
for helpful discussions.
56
References
Evans, S.N., Hansen, B.B. & Stark, P.B. (2005). Minimax expected measure condence sets for
restricted location parameters. Bernoulli, 11, 571-590.
Feldman, G.J. and Cousins, R. (1998). Unied approach to the classical statistical analysis of
small signals. Physical Review D, 57, 3873-3889.
Fraser, D.A.S. (2011). Is Bayes posterior just quick and dirty condence ? Statistical Science,
26, 299-316.
Lmoudden, A. (2008). Sur les intervalles de conance bayésiens pour des espaces de paramètres
contraints. M.Sc. thesis, Département de mathématiques, Université de Sherbrooke (http ://savoirs.usherbrooke.ca/
handle/11143/4790)
Mandelkern, M. (2002). Setting Condence Intervals for Bounded Parameters with discussion.
Statistical Science, 17, 149-172.
Marchand, É. and Strawderman, W. E. (2013). On Bayesian credible sets, restricted parameter
spaces and frequentist coverage, Electronic Journal of Statistics, 7, 1419-1431.
Marchand, É., Strawderman, W. E., Bosa, K., and Lmoudden, A. (2008). On the frequentist
coverage of Bayesian credible intervals for lower bounded means. Electronic Journal of Statistics,
2, 1028-1042.
Marchand, É. and Strawderman, W. E. (2006). On the behaviour of Bayesian credible intervals
for some restricted parameter space problems. Recent Developments in Nonparametric Inference
and Probability : A Festschrift for Michael Woodroofe,, IMS Lecture Notes-Monograph Series,
50, pp. 112-126.
Robert, C.P. (2011). Discussion of Is Bayes posterior just quick and dirty condence ? by
57
D.A.S. Fraser. Statistical Science, 26, 317-318.
Roe, B. and Woodroofe, M. (2000). Setting condence belts. Physical Review D, 63, 013009/0109.
Wasserman, L. (2011). Frasian inference. Statistical Science, 26, 322-325.
Zhang, T. and Woodroofe, M. (2003). Credible and condence sets for restricted parameter
spaces. Journal of Statistical Planning and Inference, 115, 479-490.
Zhang, T. and Woodroofe, M. (2002). Credible and condence sets for the ratio of variance
components in the balanced one-way model. Sankhyā : Special issue in memory of D. Basu, 64,
545-560.
58
CHAPITRE 4
Estimation du taux de fausses
découvertes
Dans ce chapitre, nous traitons du taux de fausses découvertes. Communément appelé False
Discovery Rate (FDR), le taux de fausses découvertes fut introduit par Benjamini et Hockberg
(1995). Nous commençons par dénir les notions essentielles pour la compréhension de ce taux
et par la suite discuter des estimateurs existants dans la littérature. Remarquant que ces estimateurs entrainent un biais considérable appliqués sur une base de données de petite tailles
(voir [14]), nous proposons des corrections que nous évaluons par la suite.
4.1 Les erreurs de type I et de type II
L'erreur de type I, connu encore sous le nom de faux positif est l'erreur de rejeter
l'hypothèse nulle alors qu'elle est vraie. Par exemple, il se produit quand l'expérimentateur
conclut à une diérence entre les groupes alors qu'en réalité il n'y en a pas. La probabilité
de commettre une erreur de type I pour un test d'hypothèses de région de rejet R est égale à
P (R|H0 est vraie).
59
L'erreur de type II, connu encore sous le nom de faux négatif est le refus de rejeter
l'hypothèse nulle alors que l'hypothèse alternative est vraie. Par exemple, il se produit quand
l'expérimentateur conclut à une absence de diérence entre les groupes alors qu'en réalité il
y en a une. La probabilité de commettre une erreur de type II dans un test d'hypothèses de
région de rejet R est 1−P (R|Ha est vraie). La puissance du test est égale à P (R|Ha est vraie).
4.2 Taux de faux positifs
Le problème de test d'hypothèses que nous considérons ici a une structure simple. Nous avons
une collection nie d'hypothèses nulles que nous désirons tester :
H = (H01 , H02 , ..., H0N ), N ∈ N avec N ≥ 1.
(4.1)
Nous cherchons une décision D qui estime pour les N cas si elles sont vraies ou non. La Table
4.1 suivante illustre le problème. Nous disposons de N tests d'hypothèses à tester simultanément
dont V sont réellement vraies et S sont réellement fausses. La décision D estime pour chaque
hypothèse si elle est fausse ou vraie. Soit N+ le nombre d'hypothèses nulles rejetées et (N − N+ )
le nombre d'hypothèses nulles acceptées. La décision est dite correcte si elle déclare vraie une
hypothèse réellement vraie et fausse une hypothèse réellement fausse. Notons Nous avons donc
un total de N0 + N1 = N+ de rejets, avec N0 de fausses découvertes (dénie plus bas) ou des
faux positifs (erreur de type I) et N1 de vraies découvertes. Enn il y a T hypothèses réellement
non nulles et non détectées (erreur de type II).
Réalité
Décision
vraies
fausses
total
rejet
not rejet
total
N0
N1
N+
U
V
S
T
N − N+
N
Tableau 4.1: Table de contingence pour les tests d'hypothèses multiples
60
Dénition 4.1. Une découverte est un rejet d'une hypothèse nulle. On dit qu'une découverte
est vraie quand on rejette une hypothèse nulle qui, en réalité, est fausse. Une découverte est dite
fausse quand on rejette une hypothèse nulle à tort.
Dénition 4.2. La proportion d'erreur qu'on commet en rejetant à tort les hypothèses nulles
peut être vue via la variable aléatoire Q = N0 /(N0 + N1 ), la proportion des hypothèses nulles
rejetées à tort. Naturellement, Q = 0 c'est-à-dire N0 + N1 = 0 quand aucune erreur n'est
commise. Q est aléatoire car N0 et N1 le sont.
Le taux moyen de fausses découvertes est dénit par Benjamini et Hochberg (1995) comme suit :
Qe = E(Q) = E(N0 /(N0 + N1 )) = E(N0 /N+ ).
(4.2)
Remarques 1. (a) Si toutes les hypothèses nulles sont vraies, alors le taux de fausse sdécouvertes est équivalent au familywise error rate (FWER) déni plus bas (Déf. 4.3). En
eet, dans ce cas N1 = 0 et N0 = N+ donc si N0 = 0 alors Q = 0, et si N0 > 0 alors
Q = 1, ce qui entraine P (N0 ≥ 1) = E(Q) = Qe . Par conséquent, contrôler le taux fausses
découvertes implique le controle du FWER.
(b) Si V
< N,
le taux de fausses découvertes est plus petit ou égal au FWER. En eet, si
N0 > 0 donc N0 /N+ ≤ 1, ainsi 1(N ≥1) ≥ Q. En prenant l'espérance de part et d'autre,
on obtient P (N0 ≥ 1) ≥ Qe . On conclut donc que toute procédure contrôlant le FWER
contrôle aussi le taux de fausses découvertes.
0
4.2.1 Procédure de contrôle du taux de fausses découvertes (Benjamini et Hochberg)
Considérons
... ≤ p(m)
m
tests
H1 , H2 , ..., Hm
les p-valeurs ordonnées,
q∗
associés aux p-valeurs
le seuil et
H(i)
procédure est la suivante :
61
p1 , p2 , ..., pm .
Soient
p(1) ≤ p(2) ≤
l'hypothèse nulle correspondant à
p(i) .
La
Soit k le plus grand i tel que p(i) ≤
i
m q∗;
Alors rejeter toutes les H(i) pour i = 1, 2, ..., k.
Théorème 6. (Benjamini et Hochberg, 1995)
La procédure ci-dessus contrôle le taux de fausses découvertes au seuil
q∗ pour des tests statis-
tiques indépendants.
Démonstration. voir [13].
Dénition 4.3. Le familywise error rate (FWER) est la probabilité qu'on rejete au moins une
hypothèse nulle à tort c'est-à-dire
P (N0 > 0). Il existe dans la littérature plusieurs méthodes
permettant de contrôler le FWER. Nous nous attarderons dans cet exemple sur la méthode de
Bonferroni.
Dénition 4.4. La méthode traditionnelle et plus connue pour controler le FWER est celle de
Bonferroni(voir [19]) qui remplace le seuil
α par α/m avec m le nombre de tests d'hypothèses.
4.2.2 Exemple
Nous allons dans l'exemple qui suit montrer comment les corrections permettent de diminuer
considérablement le taux de faux positifs et nous ferons une comparaison de deux méthodes
à savoir la procédure de BH et la méthode de Bonferroni. Nous commençons par simuler un
échantillon de taille 1000 dont les 900 premiers éléments viennent d'une normale centrée réduite
et les 100 derniers d'une normale de moyenne 3 et de variance 1. On a H0i : μ = 0 contre
Hai : μ > 0 pour X ∼ N (μ, 1). Dans ce cas, nous savons en réalité que les 900 premières
observations devraient échouer en essayant de rejeter l'hypothèse nulle car elles sont issues
d'une normale centrée réduite. Les cent dernières devraient rejeter H0 .
Sans correction
test ⇒ p − valeur > 0.05
62
summary(test[1 : 900])
summary(test[901 : 1000])
Mode FALSE TRUE
Logical 53
847
Mode FALSE TRUE
Logical 92
8
L'erreur de type I (faux positifs) est 53/900 = 0.0589. L'erreur de type II (faux négatifs) est
8/100 = 0.08. Notons que la proportion observée des erreurs de type I est proche de la proportion
théorique α = 0.05.
Correction de Bonferroni
Nous avons α = 0.05 et 1000 tests d'hypothèses donc la correction de Bonferroni retiendra les
p-valeurs inférieures à 0.05/1000.
bonf test ⇒ p − valeur > 0.05/1000
summary(bonf test[1 : 900])
summary(bonf test[901 : 1000])
Mode FALSE TRUE
Logical 0
900
Mode FALSE TRUE
Logical 21
79
Ici, notons que la probabilité de commettre l'erreur de type I est 0/900 = 0, mais cette probabilité
dans le cas de l'erreur de type II a monté considérablement et est 79/100 = 0.79. Nous avons
donc réduit nos faux positifs au dépend des faux négatifs. La question ici est de savoir lequel des
deux erreurs peut t'on tolérer : les faux positifs ou les faux négatifs ? D'où la nécessité de trouver
des méthodes permettant de contrôler le taux de faux positifs sans pour autant augmenter les
faux négatifs.
63
Procédure BH de controle du taux de fausses découvertes
Pour le taux de fausses découvertes, nous considérons les p-valeurs ordonnées. Nous verrons si
la p-valeur d'ordre k est plus grand que k∗0.05
1000 .
psort ⇒ sort(p)
f drtest ⇒ N U LL
f or(i in1 : 1000)
f drtest ⇒ c(f drtest, p[i] > match(p[i], psort) ∗ 0.05/1000)
summary(f drtest[1 : 900])
Mode FALSE TRUE
Logical 1
889
summary(f drtest[901 : 1000])
Mode FALSE TRUE
Logical 66
34
Nous pouvons donc estimer le risque de première espèce égale à 1/900 = 0.0011 sachant que
la proportion théorique est α = 0.05 et le risque de deuxième espèce égale à 34/100 = 0.34.
Remarquons que le risque de première espèce a diminué considérablement comparé au test
eectué sans correction et aussi le risque de deuxième espèce a diminué comparé à la correction
de Bonferroni.
4.3 Le taux local de fausses découvertes
Dans cette partie, nous discutons en premier des estimateurs du taux local de fausses découvertes
qui existent dans la littérature et en deuxièmement lieu, nous essayons de les corriger an
d'améliorer leurs performances.
64
4.3.1 Approche bayésienne pour controler le taux de fausses découvertes
Exemple 16.
(Efron, 2010) Dans cet exemple, Efron considère des données de prostate (ni-
veaux d'expression génétique) de
dont
N = 6033 gènes qui ont été obtenus chez n = 102 hommes,
n1 = 50 sujets de contrôle et n2 = 52 des sujets atteints du cancer de prostate.
Les données sont une matrice
X avec 6033 lignes, 102 colonnes et xij =niveau d'expression
i pour le patient j , i = 1, .., 6033, j = 1, ..., 50 pour les patients normaux et j =
50
51, 52, ..., 102 pour les patients atteints du cancer. Soient x̄i (1) =
j=1 xij /50 et x̄i (2) =
102
j=51 xij /52 les moyennes pour les patients normaux et malades. Le test de comparaison de
du gène
deux groupes pour le gène
i permet de calculer la statistique :
ti =
avec
si =
x̄i (2) − x̄i (1)
,
si
(4.3)
s2i l'estimateur de l'écart type donnée par
s2i
=
50
i=1 (xij
2
− x̄i (1))2 + 102
1
1
i=51 (xij − x̄i (2))
( + ).
100
50 52
(4.4)
Si nous n'avions qu'un seul gène i, nous pourrions utiliser ti par la méthode usuelle pour tester
l'hypothèse nulle :
Hoi : les moyennes sont égales,
c'est-à-dire que
rait
xij a la même distribution pour les patients normaux et malades. On rejete-
Hoi si la statistique ti est susamment grande en valeur absolue. Pour un seuil de 5%,
l'hypothèse nulle serait rejetée si
|ti | ≥ 1.98 la valeur tabulée du Student avec 100 dégrés de
liberté.
Au lieu d'utiliser la statistique
ti ,
Efron utilise une statistique transformée nommée z-valeur
dénie par :
zi = Φ−1 (F100 (ti )),
65
(4.5)
avec Φ la fonction de répartition de la normale centrée réduite et F100 la fonction de repartition
d'une loi de student avec 100 dégrés de liberté. Ainsi zi ∼ N (0, 1) sous l'hypothèse nulle Hoi ce
que Efron nomme the theoretical null (voir [16]).
Efron et al. en 2001 introduisent une autre alternative pour les tests d'hypothèses multiples.
Pour cela on suppose qu'on a N cas dont chacun est nul (H0 vraie) ou non-nul (H0 fausse) avec
une probabilité a priori π0 = P (nul) et π1 = 1 − π0 = P (non.nul) avec des z-valeurs de densités
respectives f0 (z) et f1 (z).
En général π0 est beaucoup plus grand que π1 ,
π0 ≥ 0.90,
(4.6)
ce qu'on retrouve dans les problèmes de tests d'hypothèses multiples. Sous l'hypothèse nulle Hoi ,
f0 (z) est la densité normale centrée réduite. Soient P0 et P1 les mesures de probabilité associées
à f0 et f1 . Alors, pour tout ensemble mesurable A, on a :
P0 (A) = f0 (z)dz et P1 (A) = f1 (z)dz.
A
A
La densité du mélange est donc :
f (z) = π0 f0 (z) + π1 f1 (z)
et on a :
P (A) = π0 P0 (A) + π1 P1 (A).
De façon générale, nous observons z ∈ A et nous voulons savoir s'il est généré par f0 ou f1 ,
c'est-à-dire s'il correspond au cas nul ou non-nul. La formule de Bayes implique :
F DR(A) = P (null|z ∈ A) =
π0 P0 (A)
,
P (A)
(4.7)
comme la probabilité a posteriori d'avoir un cas nul sachant z ∈ A. Basé sur la dénition de
Benjamini et Hochberg, F DR(A) est l'approche bayésienne pour contrôler le taux de fausses
découvertes : si A est la zone de rejet ou contient les cas non-nul F DR(A) est la probabilité
d'avoir de faux positifs.
66
4.3.2 Estimation du taux non local de fausses découvertes
Nous discutons dans cette partie du taux non local de fausses découvertes que nous notons Ψ
pour le distinguer du taux de fausses découvertes et du taux local de fausses découvertes ψ qui
est la forme dégénérée du taux non local.
Dénition 4.5.
Soient T la zone de rejet de l'hypothèse nulle, Ti la statistique de Student
associée au test de comparaison de deux groupes. Soit Ai une variable indicatrice indiquant si
l'hypothèse alternative est vraie. Le taux de fausses découvertes est déni par :
Ψ(T) = P (Ai = 0|Ti ∈ T) =
π0 0 (T)
,
(T)
(4.8)
où π0 = P (Ai = 0), (T) = P (Ti ∈ T) et 0 (T) = P (Ti ∈ T|Ai = 0).
Bickel (2013) propose un estimateur du taux de fausses découvertes basé sur la loi binomiale
dénit comme suit :
0 (T)
Ψ(T;
N+ (T)) =
∧ 1.
(4.9)
(T;
N (T))
+
Il l'obtient comme estimateur du maximum de vraisemblance de 0 (T)/(T) en substituant
π0 par 1, et avec (T)
= (T;
N+ (T)) = N+ (T)/N . Si les tests statistiques sont indépendants,
X = N+ (T) ∼ Bi(N, (T)) et (T)
est en eet l'estimateur de maximum de vraisemblance de
(T). L'équation (4.9) peut être réecrite de la façon suivante :
(4.10)
Nα
, 1),
Ψ(T;
N+ (T)) = min( N
i=0 1(pi ≤α)
où N est le nombre total d'hypothèses testées, pi la p-valeur associée au test i, et 1(p ≤α) est
une variable indicatrice égale à 1 si pi ≤ α et 0 sinon. Ainsi, Ni=0 1(p ≤α) représente le nombre
total de rejets ou de découvertes.
i
i
Exemple 17. Supposons que nous eectuons 20 tests d'hypothèses simultanément et que nous
rejetons 8 d'entre elles au seuil α = 0.05. Nous pouvons donc estimer un taux de fausses découvertes à 20 ∗ 0.05/8 = 0.125. Ceci implique que parmi les 8 hypothèses nulles rejetées, une a été
rejetée à tort en moyenne.
67
Le théorème suivant nous sera utile par la suite pour construire un intervalle de conance autour
du taux non local de fausses découvertes.
Théorème 7.
Soient T une variable discrète ayant pour fonction de répartition FT (t|θ) =
P (T ≤ t|θ), et α = α1 + α2 avec 0 < α < 1, α1 > 0 et α2 > 0. Supposons que :
(a) Si FT (t|θ) est une fonction décroissante en θ pour tout t, on dénit θL (t) et θU (t) comme
P (T ≤ t|θU (t)) = α1 , P (T ≥ t|θL (t)) = α2 ;
(b) Si FT (t|θ) est une fonction croissante en θ pour tout t, on dénit θL (t) et θU (t) comme
P (T ≥ t|θU (t)) = α1 , P (T ≤ t|θL (t)) = α2 ,
alors l'intervalle I(T ) = [θL (T ), θU (T )] est un intervalle de conance de niveau (1 − α) pour θ.
Démonstration : voir Casella et Berger théorème 9.2.12, page 432.
Lemme 8.
Pour c ∈ [0, 1], soit X ∼ P (., (T)) de loi binomiale de paramètres N et (T).
Soient Sc et Sc−1 tels que :
Sc ((T), x) = P (X > x; (T)) + cP (X = x; (T)),
et Sc−1 (Sc ((T), x); x) = (T).
Alors on obtient des intervalles de conance unilatéraux de niveau (1 − α) mais avec probabilité
de recouvrement ≥ (1 − α) pour (T) (Clopper et Pearson, 1934) dénis par [S1−1 (α; x), 1] (
unilatéral à gauche) et [0, S0−1 (1 − α; x)] (unilatéral à droite).
Démonstration : Application du Théorème 7(a) en prenant α1 = 0 et α2 = α pour l'intervalle
unilatéral à gauche et inversement pour l'autre intervalle.
Corollaire 6. L'intervalle de conance unilatéral à gauche de l'estimateur du taux non local de
fausses découvertes basé sur la loi binomiale est de la forme IC1−α (Ψ(T))
=[
1, 1].
68
0 (T)
−1
S0 (1 − α; x)
∧
4.3.3 Estimation du taux local de fausses découvertes
Nous venons de présenter une méthode permettant d'estimer le taux de fausses découvertes
quand on eectue plusieurs tests, mais cette dernière donne juste une estimation sur le taux de
faux positifs commis. Cependant une valeur importante qu'on aimerait estimer, et qui est plus
utile, est la probabilité d'accepter H0 pour une valeur bien donnée de ti . Cette probabilité est
par la suite comparée à un seuil (dans la littérature, on utilise souvent le seuil 2%) en dessous de
laquelle on rejette l'hypothèse nulle au lieu d'utiliser la p-valeur. C'est ceci que nous sbordons
dans cette partie.
Estimation du taux local de fausses découvertes basé sur la loi binomiale([15])
Dénition 4.6. La probabilité locale d'accepter l'hypothèse nulle pour une hypothèse i donnée
est la probabilité d'accepter l'hypothèse nulle étant donné une statistique ti , une réalisation de
Ti = T (Xi ) (Efron, 2010) :
ψi = Ψ({ti }) = Ψ([ti , ti ]) = P (Ai = 0|Ti = ti ),
(4.11)
avec Ti suivant une densité gθ0 sous l'hypothèse nulle θi = θ0 et une autre densité galt sous
l'hypothèse alternative θi = θ0 .
D'après le théorème de Bayes, on a :
ψi = P (θi = θ0 |ti ) =
π0 gθ0 (ti )
,
g(ti )
(4.12)
où π0 = P (θi = θ0 ) est la proportion des hypothèses nulles qui sont vraies et g(ti ) = π0 gθ (ti ) +
(1 − π0 )galt (ti ) la densité marginale de la statistique avec π0 et g(ti ) des inconnus.
0
Par dénition, le taux local de fausses découvertes évalué à ti est le taux non local de fausses
découvertes évalué pour une zone de rejet T = {ti }, qui est un intervalle fermé dégénérée [ti , ti ].
Soit ri le rang de la p-valeur associée à l'hypothèse i, par exemple ri = 1 si la p-valeur du
test i est la plus petite de toutes les p-valeurs associées aux N hypothèses. Le taux local de
69
fausses découvertes
substituant
α
ψi
sera estimé par l'estimateur du taux non local de fausses découvertes en
par la p-valeur associée à deux fois le rang de
pi
si possible ou
1
sinon.
Dénition 4.7. (Bickel, 2013)
(4.9), l'estimateur du taux local de fausses découvertes
Basé sur la modication de l'équation
basé sur la loi binomiale de l'hypothèse
i nommé BBE1 est :
⎧
⎨ Ψ([0,
p(2ri ) ]; N+ ([0, p(2ri ) ]))
if
ψi =
⎩ 1
if
avec
Ψ([0,
p(2ri ) ]; N+ ([0, p(2ri ) ])) =
ri ≤ N/2
,
(4.13)
ri > N/2
N p(2ri )
0 ([0, p(2ri ) ])
∧ 1 = min(
, 1).
([0,
p(2ri ) ]; N+ ([0, p(2ri ) ]))
2ri
Corollaire 7. L'intervalle de conance pour ψi de niveau (1 − α) est déni par :
CI1−α (ψi ) =
⎧
⎪
⎨ [0,
p(2ri )
−1
S1 (α; 2ri )
∧ 1])
⎪
⎩ [0, 1]
N
2
N
ri > .
2
ri ≤
Si
Si
(4.14)
Estimation du taux local de fausses découvertes basé sur la méthode des
histogrammes([18])
La méthode d'histogramme pour estimer le taux local de fausses découvertes a été introduite
en 2004 par Efron. Il suppose dans sa démarche que la proportion des individus aectés ou des
hypothèses réellement non-nulles
proche de
1(voir
statistic) où
i
Φ
4.6). Soit
(N1 ) est faible, pas plus que 10%. Ainsi, il considère que π0
zi = Φ−1 (pi )
une transformation de la statistique
est la fonction de répartition de la loi normale et
pi
ti
est
(z-transformed
la p-valeur associée au test
bilatéral. Alors, le taux local de fausses découvertes s'exprime de la façon suivante :
ψi = P (Ai = 0|zi ) =
avec
f0 (zi )
,
f (zi )
(4.15)
f0 (z) la fonction de densité correspondant à l'hypothèse nulle et f (z) la fonction de densité
marginale
Basé sur
f (z) = π0 f0 (z) + (1 − π0 )falt (z).
(4.15),
Efron (2004) propose l'estimateur nommé HBE :
f0 (zi )
,
ψi =
f(zi )
70
(4.16)
avec f un estimateur de f basé sur la méthode non-paramétrique de la régression de Poisson
(voir Efron 2010a). ψi = ψiHBE si l'on pose la densité f0 comme celle de la loi normale N (0, 1),
et ψi = ψiHBE.EN si la densité f0 est estimée empiriquement (voir Efron, 2010b).
Telles que rapportées dans la littérature, les méthodes d'estimation du taux local de fausses
découvertes appliquées sur une base de données de taille moyenne entrainent souvent des biais
considérables (voir Padilla et Bickel(2012), Bickel(2013)). Dans la prochaine section, nous parlerons un peu de ces biais et nous proposerons des corrections basées sur des procédures de
bootstrap.
4.3.4 Estimateur du taux local de fausses découvertes corrigé
Les estimateurs BBE1 et HBE sont biaisés dès qu'ils sont appliqués sur des bases de données de
taille moyenne (Small-scale Inference). Dans le cas de l'estimateur proposé par Bickel (BBE1),
une des raisons d'apparition de ce biais vient du fait qu'on estime π0 par 1, or qu'en réalité,
cette proportion est inférieure à 1 (voir Bickel 2013). Dans le cas de l'estimateur HBE, les
méthodes d'estimation de π0 et falt dans l'équation (4.15) nécessitent l'utilisation des méthodes
d'estimation par histogramme. Or celles-ci étant reliées aux données, une application sur des
données de taille moyenne entraîne des biais. Pour remédier à ce problème, nous proposons des
méthodes de correction basées sur la technique du Bootstrap. Étant donné qu'en estimation,
on désire toujours avoir un estimateur ayant un biais et une variance faible, nous utiliserons
l'erreur quadratique moyen pour l'estimateur ponctuel et la probabilité de recouvrement pour
l'estimateur par intervalle an d'évaluer nos corrections.
Soit ψi , i = 1, ..., N un estimateur du taux local de fausses découvertes. On fait un tirage
aléatoire avec remise pour chaque ψi , i = 1, ..., N et ceci B fois. Nous obtenons la matrice qui
71
suit :
⎛
ψ11
ψ12
···
ψ1N
⎞
⎜
⎟
⎜
⎟
⎜ ψ21 ψ22 · · · ψ2N ⎟
⎜
⎟
⎜ ..
..
.. ⎟
..
⎜ .
.
.
. ⎟
⎝
⎠
ψB1 ψB2 · · · ψBN
Soit
ψi∗
la valeur associée après application du Bootstrap avec
ψi∗ = B
j=1 ψji /N .
On a :
∗
avec
B ψi
le biais estimé et
C ψi
B ψi = E(ψi ) − ψi = ψi − ψi
(4.17)
C ψi = ψi − B ψi ,
(4.18)
l'estimateur corrigé. Nous pouvons donc calculer l'erreur qua-
dratique moyen comme suit :
EQM (ψi ) = E(C ψi − ψi )2 .
(4.19)
4.3.5 Simulations
Dans cette section, dans le but d'étudier la performance de nos estimateurs corrigés, nous ferons quelques simulations. Les estimateurs ont été comparés en utilisant les données issues
du niveau d'abondance des protéines pour le cancer du sein. Nous prenons
(niveau d'abondance de protéines) obtenus chez
de contrôle (respectivement
matrice X de N lignes,
n1 = 3
n1 + n2
et
n2 = 3).
colonnes et
n1 = 50
lant de
θa = 0
nous prenons
10
n2 = 50
xij =niveau
à
0%(S = N )
valeurs de S à savoir
sujets
θa = 0, 5
(ou
1, 5)
pour les sujets ma-
pour chaque N et
θa .
Par exemple, pour
S = 0, 1, 2, 3, 4, 6, 10, 15, 18, 20
π0
Respectivement, pour
N =5
, on a
S = 0, 1, 2, 3, 4, 5
72
et
al-
N = 20,
ce qui correspond à
π0 = 20/20 (100%), 19/20 (95%), 18/20 (90%), 17/20 (85%), 16/20 (80%), ..., 2/20 (10%)
0%.
20
d'abondance de protéine i chez le
pour les sujets de contrôle. Nous considérons diérentes valeurs de
100%(S = 0)
ou
Les données peuvent être vues comme une
sujet j qui sont issues d'une loi normale de moyenne
lades et
sujets malades et
N = 5
π0 = 5/5 (100%), 4/5 (80%),
et
3/5 (60%), 2/5 (40%), 1/5 (20%) et 0%.
Résultats et discussions :
Les résultats de nos simulations sont présentés dans les gures ci-dessous. Les Figures 3.1 et 3.2
représentent la moyenne de l'estimation de l'erreur quadratique moyenne (EQM). En abscisse,
nous avons le nombre de protéines aectés. En ordonnée, la moyenne de l'EQM pour le groupe
aecté d'une part et non aecté d'autre part. Les Figures 3.3 et 3.4 représentent la moyenne des
probabilités de recouvrement fréquentistes pour les protéines aectées et non aectées. En premier lieu, force est de constater que les corrections eectuées pour l'estimation ponctuelle n'ont
pas amélioré la performance des estimateurs vu que l'erreur quadratique moyen a augmenté
considérablement peu importe les groupes (aectés ou non, voir gure 3.1 et 3.2). Cependant,
en regardant les probabilités de recouvrement, nous pouvons remarquer a priori sur les estimateurs non corrigés et non transformés que l'estimateur BBE1 recouvre mieux la vraie valeur du
paramètre comparé à l'estimateur HBE. En deuxième lieu, nous observons une augmentation
de la probabilité de recouvrement de l'estimateur HBE en utilisant la transformation probit et
sans aucune correction avec un intervalle de conance construit avec la méthode de variance.
Nous obtenons les mêmes résultats pour un N = 5 et N = 20 et en variant le parmaètre θa .
73
0.3
0.2
0.1
0.0
0
1
hbe
bbe1
1
Non c
n.aff
Non c
hbe
bbe1
2
2
0
1
n.aff
1
C sans transformation
hbe
bbe1
C sans transformation
hbe
bbe1
2
2
0
1
hbe
n.aff
1
C+transformation log
bbe1
C+transformation log
hbe
bbe1
2
2
N = 5, n1 = n2 = 50
n.aff
n.aff
n.aff
0.1
0.0
mean.MSE.aff
mean.MSE.unaff
0.5
0.4
0.3
0.1
0.0
0.2
0.3
0.2
0.1
0.0
0.5
0.4
0.3
mean.MSE.aff
mean.MSE.unaff
0.1
0.2
0.3
0.2
0.1
0.0
0.5
0.4
0.3
mean.MSE.aff
mean.MSE.unaff
0.3
0.0
0.2
mean.MSE.aff
mean.MSE.unaff
0.2
0.1
0.0
0.5
0.4
0.3
0.2
0.1
0.0
Figure 4.1: Erreur quadratique moyene pour
74
et θa = 0.5.
0
1
n.aff
1
n.aff
hbe
bbe1
C+transformation Probit
hbe
bbe1
C+transformation Probit
2
2
0.4
0.3
0.2
0.1
0.0
0.4
0.3
0.2
0
1
hbe
bbe1
1
Non c
n.aff
Non c
hbe
bbe1
2
2
0
1
n.aff
1
C sans transformation
hbe
bbe1
C sans transformation
hbe
bbe1
2
2
0
1
hbe
n.aff
1
C+transformation log
bbe1
C+transformation log
hbe
bbe1
2
2
N = 20, n1 = n2 = 50
n.aff
n.aff
n.aff
0.1
0.0
mean.MSE.aff
mean.MSE.unaff
0.4
0.3
0.2
0.1
0.0
0.4
0.3
0.1
0.0
0.2
mean.MSE.aff
mean.MSE.unaff
0.4
0.3
0.2
0.1
0.0
0.4
0.3
0.1
0.0
0.2
mean.MSE.aff
mean.MSE.unaff
0.4
0.3
0.2
0.1
0.0
0.4
0.3
0.2
mean.MSE.aff
mean.MSE.unaff
0.1
0.0
Figure 4.2: Erreur quadratique moyene pour
75
et θa = 0.5.
0
1
n.aff
1
n.aff
hbe
bbe1
C+transformation Probit
hbe
bbe1
C+transformation Probit
2
2
1.0
0.9
0.8
0.7
0
1
n.aff
HBE(Prob recouv)
1
n.aff
BBE(Prob recouv )
BBE(Prob recouv conditionnelle)
Non c
HBE(Prob recouv)
BBE(Prob recouv )
BBE(Prob recouv conditionnelle)
Non c
2
2
1.0
0.9
0.8
0.7
0.6
0.5
0
1
n.aff
HBE
BBE
n.aff
1
Non.c.sans.transform(var.méthode)
HBE
BBE
Non.c.sans.transform(var.méthode)
2
2
1.0
0.9
0.8
0.7
0.6
0.5
0
1
n.aff
HBE
BBE
n.aff
1
Non.c.log.transform(var.méthode)
HBE
BBE
Non.c.log.transform(var.méthode)
2
2
1.0
0.9
0.8
0.7
0.6
0.5
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
mean.cov.aff
mean.cov.unaff
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
mean.cov.aff
mean.cov.unaff
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
mean.cov.aff
mean.cov.unaff
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
mean.cov.aff
mean.cov.unaff
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Figure 4.3: Probabilité de recouvrement fréquentiste pour
θa = 0.5.
76
N = 5, n1 = n2 = 50
et
0
1
n.aff
HBE
BBE
n.aff
1
Non.c.probit.transform(var.méthode)
HBE
BBE
Non.c.probit.transform(var.méthode)
2
2
1.0
0.9
0.8
0.7
0
1
n.aff
HBE(Prob recouv)
1
n.aff
BBE(Prob recouv )
BBE(Prob recouv conditionnelle)
Non c
HBE(Prob recouv)
BBE(Prob recouv )
BBE(Prob recouv conditionnelle)
Non c
2
2
1.0
0.9
0.8
0.7
0.6
0.5
0
1
n.aff
HBE
BBE
n.aff
1
Non.c.sans.transform(var.méthode)
HBE
BBE
Non.c.sans.transform(var.méthode)
2
2
1.0
0.9
0.8
0.7
0.6
0.5
0
1
n.aff
HBE
BBE
n.aff
1
Non.c.log.transform(var.méthode)
HBE
BBE
Non.c.log.transform(var.méthode)
2
2
1.0
0.9
0.8
0.7
0.6
0.5
0.6
0.5
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
mean.cov.aff
mean.cov.unaff
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
mean.cov.aff
mean.cov.unaff
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
mean.cov.aff
mean.cov.unaff
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
mean.cov.aff
mean.cov.unaff
0.4
0.3
0.2
0.1
0.0
1.0
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
Figure 4.4: Probabilité de recouvrement fréquentiste pour
θa = 0.5.
77
N = 20, n1 = n2 = 50
et
0
1
n.aff
HBE
BBE
n.aff
1
Non.c.probit.transform(var.méthode)
HBE
BBE
Non.c.probit.transform(var.méthode)
2
2
CONCLUSION
Le travail présenté dans ce mémoire s'articule autout de deux volets. Soit celui de la performance
fréquentiste d'intervalles de conance bayésiens dans des espaces paramétriques contraints et en
deuxième lieu, celui du taux de fausse découverte lorsqu'on réalise plusieurs tests d'hypothèses.
Le Chapitre 1 expose des théories préliminaires sur l'estimation bayésienne et fréquentiste par
intervalle ainsi que quelques propriétés statistiques. Plusieurs exemples sont développés dans ce
chapitre. Au Chapitre 2 dans la Section 2.1, nous avons développé la théorie de construction de
l'intervalle de conance de Marchand et Strawderman dans [10] et les propriétés associées à la
probabilité de recouvrement fréquentiste de ces intervalles. Une illustration a été présentée dans
la section suivante. Dans la Section 2.3, nous obtenons de nouveaux résultats sur la probabilité de recouvrement fréquentiste de l'intervalle bayésien et aussi sur la crédibilité de l'intervalle
fréquentiste. Le Chapitre 2 se termine par des illustrations dans la Section 2.4. Les résultats principaux de cette première partie sont très signicatifs et ont une portée large pour des problèmes
d'estimation par intervalles dans des espaces paramétriques compacts. D'une part, on obtient
une borne supérieure de la probabilité de recouvrement fréquentiste minimale d'intervalles de
conance bayésiens mettant en évidence le caractère inévitable d'une discordance entre la crédibilité et la probabilité de recouvrement fréquentiste. D'autres part, on démontre qu'un intervalle
avec probabilité de recouvrement fréquentiste (1 − α) doit, pour certaines régions de l'espace des
observations et pour des contraintes susamment serrées, parfois correspondre à tout l'espace
paramétrique. Il paraît vraisemblable que ces phénomènes s'étendent pour un grand nombre de
78
modèles. L'article associé à ses résultats se trouve dans le Chapitre 3. Il convient de noter que
ses résultats ont été obtenus dans le cadre d'une variance connue. Il serait intéressant de voir le
cas d'une variance inconnue comme recherche future.
Par ailleurs, au Chapitre 4, des corrections ont été eectuées sur les estimateurs du LFDR
donnant lieu à une amélioration. Il est important de noter que la méthode utilisée (Clopper
et Pearson) dans le cadre du BBE donne un intervalle très grand ce qui permet l'obtention
de grandes probabilités de recouvrement fréquentiste. Par conséquent, une autre méthode de
construction d'intervalle de conance pourrait s'avérer utile comme recherche future. Un article
est en rédaction dans ce cadre en collaboration avec David Bickel et Fahimeh Moradi (Université
d'Ottawa).
79
Bibliographie
[1] M. Bagnoli et T. Bergstrom (2005). Log-concave probability and its applications.
Economic
Theory, Vol 26, 445 469.
[2] C.P. Robert (2006). Le choix bayésien. Principes et pratique, Springer.
[3] G. Casella et R.L. Berger (2002). Statistical inference. Seconde édition, Duxbury Advanced
Series.
[4] G.J. Feldman et R. Cousins (1998). Unied approach to the classical statistical analysis of
small signals.
Physical Review, Vol 57, 3873 3889.
[5] M. Mandelkern (2002). Setting condence intervals for bounded parameters.
Statistical
Science, Vol 17, 149 172.
[6] J.W. Pratt (1961). Length of condence intervals.
J. Amer. Statist. Assoc, Vol 56, 541 567.
[7] A. Lmoudden (2008). Sur les intervalles de conance bayésiens pour des espaces de paramètres contraints. Mémoire de maîtrise,
Département de mathématiques,
Université de Sher-
brooke (http ://savoirs.usherbrooke.ca/handle/11143/4790)
[8] É. Marchand et W.E. Strawderman (2013). On Bayesian credible sets, restricted parameter
spaces and frequentist coverage.
Electron. J. Stat, Vol 7, 1419 1431.
[9] B. Roe et M. Woodroofe (2000). Setting condence belts.
80
Physical Review, Vol 63, 01 09.
[10] É. Marchand, W.E. Strawderman, K. Bosa et A. Lmoudden (2008), On the frequentist
coverage of Bayesian credible intervals for lower bounded means.
Electron. J. Stat, Vol 2, 1028
1042.
[11] S.N. Evans, B.B. Hansen et P.B. Stark (2005). Minimax expected measure condence sets
Bernoulli, Vol 11, 571 590.
for restricted location parameters.
[12] T. Zhang et M. Woodroofe, (2002). Credible and condence sets for the ratio of variance
components in the balanced one-way model.
The Indian Journal of Statistics, Vol 64, 545-560.
[13] Y. Benjamini, Y. Hochberg (1995). Controlling the false discovery rate : a practical and powerful approach to multiple testing.
Journal of the royal statistical society. Series B(Methodlogical),
57(1), 289 300.
[14] D. R. Bickel et M. Padilla (2012). Empirical Bayes methods corrected for small numbers of
tests.
Stat. Applications Genet. Mol. Biol, 11(5), art.4.
[15] D. R. Bickel. (2013). Simple estimators of false discovery rates given as few as one or two
p-values without strong parametric assumptions.
Stat. Applications Genet. Mol. Biol, 12(4),
529 543.
[16] B. Efron (2010). Large-Scale Inference : Empirical bayes methods for estimation, testing,
and prediction, Cambridge University Press.
[17] E. Ghashim (2013). Une classe d'intervalles bayésiens pour des espaces de paramètres
restreints. Mémoire de maîtrise,
Département de mathématiques], Université de Sherbrooke
(http ://savoirs.usherbrooke.ca/handle/11143/52)
[18] B. Efron (2004). Large-scale simultaneous hypothesis testing : The choice of a null hypothesis. Journal of the American Statistical Association, 99, 96 104.
81
[19] J. J. Goeman et A. Solari (2012). Tutorial in biostatistics : multiple hypothesis testing in
genomics. Statistics in Medicine,
(00),
1 27.
[20] B. Efron, R. Tibshirani, J.D. Storey et V. Tusher (2001). Empirical Bayes analysis of a
microarray experiment. J. Amer. Statist. Assoc,
82
(96),
1151 1160.
Téléchargement