Sur les intervalles de conance bayésiens pour des espaces de paramètres contraints et le taux de fausses découvertes par Asma Bahamyirou mémoire présenté au Département de mathématiques en vue de l'obtention du grade de maître ès sciences (M.Sc.) FACULTÉ DES SCIENCES UNIVERSITÉ DE SHERBROOKE Sherbrooke, Québec, Canada, juillet 2015 Le 15 juillet 2015 Le jury a accepté le mémoire de Monsieur Asma Bahamyirou dans sa version nale Membres du jury Professeur Éric Marchand Directeur de recherche Département de mathématiques Professeur Taouk Bouezmarni Évaluateur interne Département de mathématiques Professeur Sévérien Nkurunziza Président rapporteur Département de mathématiques 1 À mon Dieu, ma famille et amis. SOMMAIRE Ce mémoire traite deux problèmes : en premier lieu, l'estimation paramétrique par intervalle dans un contexte où il y a des contraintes sur le paramètre et, en deuxième lieu la probabilité de fausses découvertes lorsqu'on réalise simultanément plusieurs tests d'hypothèses. Dans le premier chapitre, nous faisons un rappel sur les notions de base de l'inférence statistique à savoir l'estimation ponctuelle et par intervalle. Dans le deuxième chapitre, nous abordons la théorie de l'estimation par intervalle de conance bayésien décrit dans [10]. Des résultats nouveaux sont présentés dans ce chapitre. Des travaux partiels (voir [7]), montrent que la probabilité de recouvrement fréquentiste est faible aux frontières de l'intervalle. Comparé à ces derniers, nous avons montré sous certaines conditions que cette probabilité n'ira jamais au delà d'une borne supérieure qui semble éloignée de la crédibilité. Finalement, au Chapitre 4, nous traitons des estimateurs de la probabilité de fausses découvertes. Des améliorations signicatives ont été faites dans ce cadre. iii REMERCIEMENTS Je tiens d'abord à remercier mon directeur de maîtrise, M. Éric Marchand pour sa disponibilité, sa compréhension, son soutien nancier et pour tout ce que j'ai pu apprendre durant les deux dernières années. Je voudrais aussi remercier tous les étudiants en particulier Aziz Lmoudden, pour son aide, les discussions mathématiques, et tout le groupe de séminaire de Statistique. Merci au Département de mathématiques de l'Université de Sherbrooke de m'avoir accueilli durant ces deux dernières années et pour l'appui nancier qu'il m'a accordé. Mes vifs remerciements vont aussi à l'endroit de tous les membres du laboratoire Statomics et en particulier David R. Bickel pour son accueil, sa disponibilité, et le soutien nancier qu'il m'a accordé durant mon séjour à l'Université d'Ottawa. Finalement, un grand merci à tous ceux qui de loin ou de près ont contribué à ce mémoire. Asma Bahamyirou Sherbrooke, Juin 2015 iv TABLE DES MATIÈRES SOMMAIRE iii REMERCIEMENTS iv TABLE DES MATIÈRES v LISTE DES TABLEAUX viii LISTE DES FIGURES ix INTRODUCTION 1 CHAPITRE 1 Préliminaires 5 1.1 Principes de base et dénitions . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Inférence bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3 Théorie de l'estimation par région de conance . . . . . . . . . . . . . . . 8 1.3.1 8 Quelques méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . v 1.3.2 Critères d'évaluation des intervalles . . . . . . . . . . . . . . . . . 18 CHAPITRE 2 Intervalle de conance bayésien pour des paramètres bornés dans un intervalle [a, b] 20 2.1 L'intervalle de conance HPD et ses propriétés . . . . . . . . . . . . . . . 21 2.2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.3 Une borne supérieure pour la probabilité de recouvrement fréquentiste 2.4 minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.1 Méthode uniée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.4.2 Intervalle de Pratt tronqué . . . . . . . . . . . . . . . . . . . . . . 36 2.4.3 Estimation d'un paramètre d'échelle 37 . . . . . . . . . . . . . . . . CHAPITRE 3 On the discrepancy between Bayes credibility and frequentist probability of coverage 45 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 3.2 Main Results and Illustrations . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2.1 On Bayesian condence intervals . . . . . . . . . . . . . . . . . . 48 3.2.2 On interval estimators with exact frequentist coverage . . . . . . . 53 CHAPITRE 4 Estimation du taux de fausses découvertes 59 4.1 Les erreurs de type I et de type II . . . . . . . . . . . . . . . . . . . . . . 59 4.2 Taux de faux positifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 vi 4.2.1 et Hochberg) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Le taux local de fausses découvertes . . . . . . . . . . . . . . . . . . . . . 64 4.3.1 Approche bayésienne pour controler le taux de fausses découvertes 65 4.3.2 Estimation du taux non local de fausses découvertes . . . . . . . . 67 4.3.3 Estimation du taux local de fausses découvertes . . . . . . . . . . 69 4.3.4 Estimateur du taux local de fausses découvertes corrigé . . . . . . 71 4.3.5 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 4.2.2 4.3 Procédure de contrôle du taux de fausses découvertes (Benjamini CONCLUSION 78 Bibliographie 80 vii LISTE DES TABLEAUX 1.1 Quelques pivots pour des familles à paramètre de position θ et d'échelle σ . 15 2.1 Borne inférieure de la probabilité que I(X) = [−m, m] quand θ = 0. . . . 34 3.1 Lower bound for the probability that I(X) = [−m, m] when θ = 0. . . . . 54 4.1 Table de contingence pour les tests d'hypothèses multiples . . . . . . . . 60 viii LISTE DES FIGURES 1.1 Région d'acceptation de niveau 1 − α = 0.95 pour X ∼ N (θ, 1) avec θ ≥ 0. 11 1.2 Bornes inférieures l(·) et supérieures u(·) de niveau 0.95 obtenu par la méthode uniée pour le modèle N (θ, 1) avec θ ≥ 0. . . . . . . . . . . . 11 1.3 Graphes de Rθ (x) pour θ = 1, 1.25, 2.5, r = 5 et s = 24. . . . . . . . . . 13 1.4 Région d'acceptation associée à Rθ (x) pour 1 − α = 0.95, r = 5 et s = 24. 13 1.5 Intervalle unié pour X ∼ F isher(r = 5, s = 24), θ ≥ 1 et 1 − α = 0.95. 14 2.1 Intervalle de crédibilité pour X qui suit N (θ, 1) avec θ ∈ [−m, m], m = 4, 1 − α = 0.95 et une loi uniforme sur θ. . . . . . . . . . . . . . . . . . . . 2.2 26 Probabilité de recouvrement fréquentiste de Iπu pour diérentes valeurs de m et pour 1 − α = 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3 Fonctions de distribution απ (x) pour diérentes valeurs de m et (1 − α). 30 2.4 Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé à la loi a priori uniforme pour diérentes valeurs de m et (1 − α). . . 2.5 32 Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé à la loi a priori uniforme pour diérentes valeurs de (1 − α) et m = 1, 5. 33 ix 2.6 Crédibilité pour l'intervalle uniée de niveau 90% et 95% associé à la loi a priori uniforme et pour m = 1.0. . . . . . . . . . . . . . . . . . . . . . 36 2.7 Intervalle de Pratt tronqué pour m = 1 et 1 − α = 0.95 . . . . . . . . . . 37 2.8 Intervalle de conance bayésien pour β avec 1 − α = 0.95, m = 3 et donc c = e3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 39 Borne supérieure de inf θ∈[−m,m] Cπ (θ)) pour diérentes valeurs de m et 1 − α = 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Graphe de Rθ (x) pour c = 3 et r = 8. 40 . . . . . . . . . . . . . . . . . . . 42 2.11 Région d'acceptation associée à Rθ (x) pour c = 3 et r = 8. . . . . . . . . 43 2.12 Intervalle obtenu par la méthode uniée, modèle F isher(r, r, θ), 1 − α = 0.95, c = 3 et r = 8. 3.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coverage probability C(θ) of the uniform prior HPD credible set as a function of θ for varying m and credibility. . . . . . . . . . . . . . . . . . 3.2 51 Coverage probability C(θ) of the uniform prior HPD credible set as a function of θ for varying m and credibility. . . . . . . . . . . . . . . . . . 3.3 44 52 Bayesian credibility of the 90% and 95% condence interval ILRT (X) with respect to the uniform prior for m = 1.0. . . . . . . . . . . . . . . . . . . 55 4.1 Erreur quadratique moyene pour N = 5, n1 = n2 = 50 et θa = 0.5. . . . 74 4.2 Erreur quadratique moyene pour N = 20, n1 = n2 = 50 et θa = 0.5. . . . 75 4.3 Probabilité de recouvrement fréquentiste pour N = 5, n1 = n2 = 50 et θa = 0.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . x 76 4.4 Probabilité de recouvrement fréquentiste pour N = 20, n1 = n2 = 50 et θa = 0.5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi 77 INTRODUCTION Ce présent travail se compose de deux parties : l'estimation paramétrique par intervalle dans un contexte où il y a des contraintes sur le paramètre et le contrôle du taux de fausses découvertes. Dans le cadre de l'estimation par intervalle, notons qu'il existe déja plusieurs méthodes dans la littérature pour ce type d'inférence. Plusieurs contributions récentes ont vues le jour ces dernières années. Par exemple,dans [5] Mandelkern expose certains problèmes rencontrés en physique où il compare plusieurs intervalles de conance, dont ceux obtenus par une approche bayésienne et par la méthode uniée de Feldman et Cousins [4]. Le premier est l'estimation de la masse μ d'un neutrino sous le modèle normal : X ∼ N (μ, 1) où μ ≥ 0. Le deuxième est l'estimation d'un paramètre non négatif λ d'un modèle de Poisson P (λ + b) où b est un paramètre de nuisance connu positif. Zhang et Woodroofe présentent dans [12] un problème similaire où l'on désire estimer un rapport de variance δ dans un modèle de variances à eets aléatoires avec la contrainte δ ≥ 1. Pour la question de l'estimation de la masse d'un neutrino, Zhang et Woodroofe tout comme Roe et Woodroofe dans [9], ont obtenu un intervalle de crédibilité 1 − α en utilisant une loi a priori tronquée sur l'espace des paramètres et ont aussi établi une borne pour la probabilité de recouvrement fréquentiste. En 2006, Marchand et inférieure 1−α 1+α Strawderman établissent la même borne pour une plus grande variété de densités symétriques et unimodales et obtiennent aussi des propriétés pour des cas non symétriques. 1 Dans le même ordre d'idée qu'en 2006, Marchand, Strawderman, Bosa et Lmoudden (2008) établissent sous une condition supplémentaire de log-concavité, la meilleure borne (1 − 3α/2)(pour α ≤ 1/3) pour la probabilité de recouvrement fréquentiste minimale. De plus Lmoudden dans [7] remarque que la probabilité de recouvrement n'est pas bonne aux frontières de l'intervalle. Dans ce mémoire, nous traiterons en première partie de l'inférence bayésienne en utilisant principalement les résultats de Marchand, Strawderman mentionnés précédemment où la loi a priori utilisé est uniforme sur l'intervalle. Les principaux résultats sont basés sur la probabilité de recouvrement. La première partie de ce mémoire, est divisé en deux chapitres. Tout d'abord, au premier chapitre, nous introduisons les notions de base qui nous seront utiles. Plusieurs exemples sont dévoloppés dans ce chapitre. Dans le second chapitre, nous commençons par développer le cadre décrit en [7], sur laquelle les observations ont été faites dans la première section. Une illustration du cas normal est présentée. Enn, nous présentons des résultats originaux (Section 2.3) sur la borne supérieure de la probabilité de recouvrement fréquentiste inmum et entre autre sur la crédibilité de certaines méthodes fréquentistes de construction de l'intervalle. Plusieurs exemples y sont développés. Essentiellement, nous avons montré que la probabilité de recouvrement fréquentiste inmum ne pouvait aller au delà de Φ(m), valeur souvent insatisfaisante selon la valeur de m. Une conséquence directe de ce résultat est le fait d'obtenir tout l'espace paramétrique en cas d'estimation par intervalle via des méthodes fréquentistes, résultat important à savoir. L'article avec Éric Marchand et publié dans la revue Statistics and Probability Letters 97(2015) 63 − 68 se trouve dans le Chapitre 3. En test d'hypothèses, la probabilité de commettre une erreur de type I est idéalement bornée par α, un risque acceptable de l'erreur de type I. Des dicultés surviennent 2 souvent quand les chercheurs désirent réaliser simultanément plusieurs tests au lieu d'un. Ces dicultés se rencontrent dans beaucoup de domaines à savoir : en génomique fonctionnelle (étude de la fonction des gènes à partir de leur expression et/ou de leurs produits d'expression (ARNm et les protéines)), quand un chercheur teste simultanément plusieurs marqueurs génomiques, essaye d'identier les gènes dont les modications sont liés à un facteur biologique. Ce problème survient aussi quand plusieurs modèles ou tests sont jugés sur un même ensemble de données etc... Les tests d'hypothèses multiples peuvent conduire à une augmentation de l'erreur de type I quand les tests sont utilisés à plusieurs reprises. Supposons que nous ayons un ensemble de tests d'hypothèses que nous désirons tester simultanément. La première idée qui nous vient à l'esprit est de tester chaque hypothèse séparément avec un seuil cas où nous disposons de 20 α. Dans un premier exemple, considérons le hypothèses nulles à tester, avec un niveau est la probabilité d'observer au moins un résultat signicatif (rejeter α = 0.05. H0 ) Quelle lorsque toutes les hypothèses nulles sont vraies ? P (au moins un resultat signif |H0 vraie) = 1 − P (aucun resultat signif |H0 vraie) = 1 − (1 − 0.05)20 ≈ 0.64. Remarquons donc que pour 20 tests considérés, nous avons 64% de chance d'observer au moins un résultat signicatif, même si toutes les hypothèses nulles sont vraies. En génomique ou d'autres domaines reliés à la biologie, il est vraiment usuel d'avoir un grand nombre d'hypothèses, et donc la probabilité d'avoir un résultat signicatif ne fait qu'augmenter. Dans un second exemple, supposons que nous eectuons multanément. Supposons qu'on décide d'un test signicatif si la le nombre de faux positifs espéré est : 10000 ∗ 0.05 = 500. 10000 tests si- p.valeur ≤ 0.05, alors Ce nombre augmente avec le La question que l'on se pose est de savoir comment contrôler ce taux d'erreur an d'éviter beaucoup de faux positifs ? nombre de test eectué simultanément. Le principal objectif des tests d'hypothèses multiples est de contrôler la proportion d'erreurs de type I quand plusieurs hypothèses sont testées simultanément. Dans la lit3 térature, il existe plusieurs moyens de contrôler l'erreur de type I tels que ceux qui Familywise error (FWER), le risque d'avoir une erreur de type I quand plusieurs tests sont eectués simultanément, ceux qui contrôlent le False Discovery Rate (FDR), le taux de fausses découvertes, et nalement ceux qui estiment le False Discovery Proportion (FDP). Au Chapitre 3, nous nous concentrons seulement sur contrôlent le les méthodes qui controlent le FDR. Tel que rapporté dans la littérature, quand les méthodes de tests d'hypothèses multiples sont appliquées à des bases de données de petite tailles, le biais des estimateurs controlant le taux de fausses découvertes est important (voir [14] et [15]). Au Chapitre 4, nous dénissons en première partie la théorie du taux de fausses découvertes (False Discovery Rate (FDR)) et nous proposons (en collaboration avec David Bickel et Fahimeh Moradi, Université d'Ottawa) des procédures de corrections de ces biais basées sur les méthodes de Bootstrap. Enn, à la dernière section, nous discutons les résultats obtenus après des simulations. 4 CHAPITRE 1 Préliminaires Dans ce chapitre, nous donnons quelques dénitions et notions essentielles pour la compréhension des résultats. 1.1 Principes de base et dénitions Dénition 1.1. On appelle modèle statistique tout triplet (χ, , (P ) où χ est l'espace échantillon, Θ l'espace des paramètres et (Pθ )θ∈Θ une famille de lois de probabilité dénies sur une tribu xée de parties de χ. θ θ∈Θ ) Dénition 1.2. Une fonction f dénie sur R est dite symétrique par rapport à c ∈ R si, f (c + x) = f (c − x), ∀x ∈ R Dénition 1.3. Une densité f sur R est dite unimodale s'il existe un intervalle [a, b], éventuellement réduit à un point, tel que f soit croissante sur ] − ∞, a[, constante sur ]a, b[, décroissante sur ]b, ∞[. 5 Dénition 1.4. Une densité f sur [a, b] est dite log-concave si logf est concave sur [a, b]. Exemple 1. La densité f (x) = (x−μ)2 2σ 2 de la loi normale N (μ, σ2) est symétrique et unimodale autour de la moyenne μ et log-concave sur R. √ 1 e− 2πσ 2 Nous donnerons par la suite quelques propriétés des densités log-concaves (voir Bagnoli et Bergstrom [1]). Lemme 1. Soit f une densité log-concave, alors la fonction de répartition F telle que F (x) = f (x) est log-concave. F (x) Lemme 2. Si F (·) est une fonction de répartition log-concave et si θ ≥ 0, alors F (x + θ) est une fonction croissante en x. F Le résultat découle du fait que F est une fonction décroissante F (x) F (x) F (x + θ) d F (x) donc dx F (x + θ) = F (x + θ) F (x) − F (x + θ) ≥ 0. Démonstration. log-concavité, et par 1.2 Inférence bayésienne En statistique fréquentiste, l'espace des paramètres n'est pas considéré comme un ensemble probabilisable, ce qui n'est pas le cas dans la théorie bayésienne. Pour l'approche bayésienne, on utilise l'information existante sur le paramètre θ pour lui attribuer une densité π(θ) appelé loi a priori. La détermination de la loi a priori est une partie importante de l'inférence bayésienne (Voir Robert [2]). Cette loi est subjective dans la mesure où elle peut représenter la croyance de l'expérimentateur avant que l'expérience ne soit conduite (d'où le nom de a priori ). Dénition 1.5. Soient X , ..., X un échantillon i.i.d dont la loi de probabilité dépend 1 n d'un paramètre inconnu θ ∈ R. On cherche à estimer θ à partir des observations x1, ..., xn 6 et d'une information a priori sur θ . L'approche bayésienne repose sur la spécication des quantités suivantes : • la densité a priori du paramètre θ notée p(θ). • la densité des Xi conditionnelle au paramètre θ notée p(xi |θ). On déduit à l'aide du théorème de Bayes la densité a posteriori du paramètre θ : π(θ|x) = avec p(x|θ) = Lemme 3. n i=1 p(xi |θ) et m(x) = p(x|θ)π(θ) , m(x) p(x|θ)π(θ)dθ, la densité marginale de X . Soit X une variable aléatoire de densité logconcave sur R et donnée par e−h(x−θ) où h(·) est une fonction convexe. Alors pour toute loi a priori π(θ), la famille des lois a posteriori {π(θ|x) : x ∈ R} est à rapport de vraisemblances monotone (RVM) croissant en θ . Démonstration. En vertu de la log-concavité sur R, on peut écrire q(x|θ) = e−h(x−θ) où h(·) est une fonction convexe. Soient x1 et x2 tels que x2 ≥ x1 . On a : π(θ|x2 ) π(θ)e−h(x2 −θ) ∝ , π(θ|x1 ) π(θ)e−h(x1 −θ) = eh(x1 −θ)−h(x2 −θ) . La dernière fonction est croissante en θ si et seulement si q(θ) = h(x1 − θ) − h(x2 − θ) est croissante en θ. Le corollaire suivant énonce une propriété de croissance des quantiles présence d'un rapport de vraisemblances monotone. Corollaire 1. a posteriori en Soient fθ une famille de densités continues dont le domaine de dénition est indépendant de θ et QΔ,θ les quantiles tels que QΔ,θ −∞ fθ (x)dx = Δ, Δ ∈ (0, 1). Si la famille {fθ (·) : θ ∈ Θ} est à RVM croissant, alors QΔ,θ est croissant en θ . 7 Démonstration. Soient (θ , θ ) tels que θ 1 2 2 ≥ θ1 et h(x) = 1[QΔ,θ2 ,∞) (x). La fonction indicatrice h est croissante en x et on a donc Eθ2 (h(x)) ≥ Eθ1 (h(x)) ( voir Robert [2] ). Ainsi 1 − Δ = ∞ −∞ 1[QΔ,θ2 ,∞) (x)fθ2 (x)dx ≥ ∞ −∞ 1[QΔ,θ1 ,∞) (x)fθ1 (x)dx ⇒ QΔ,θ2 ≥ QΔ,θ1 . 1.3 Théorie de l'estimation par région de conance Dans cette section, nous passons en revue quelques méthodes permettant d'estimer un paramètre par intervalle qui seront utiles par la suite. Nous commencons par des intervalles avec une probabilité de recouvrement fréquentiste souhaitée. 1.3.1 Quelques méthodes Inversion du test de rapport de vraisemblance et méthode uniée Il y a une correspondance entre les tests d'hypothèses via la région d'acceptation et les intervalles de conance. On dit souvent qu'à chaque intervalle de conance correspond un test d'hypothèses et vice-versa. Le théorème suivant décrit cette correspondance. Théorème 1. (Casella et Berger [3]) Pour tout niveau α. θ0 ∈ Θ , Pour tout supposons x ∈ X, A(θ0 ) soit l'ensemble intervalle de conance de niveau Inversement, supposons que θ0 ∈ Θ , test on dénit H0 : θ = θ 0 la région d'acceptation d'un test C(x) = {θ0 : x ∈ A(θ0 )}, alors C(X) de est un 1 − α. C(X) un intervalle de conance de niveau A(θ0 ) = {x : θ0 ∈ C(X)}, de niveau H0 : θ = θ 0 α. 8 alors A(θ0 ) 1 − α. Pour tout est une région d'acceptation du Démonstration. Premièrement, comme A(θ ) est la région d'acceptation du test de 0 niveau α, alors Pθ (X ∈/ A(θ0 )) ≤ α si et seulement si Pθ (X ∈ A(θ0 )) ≥ 1 − α. θ0 étant arbitraire on utilisera θ par la suite et comme C(X) = {θ0 : x ∈ A(θ0 )} , on aura Pθ (θ ∈ C(X)) = Pθ (X ∈ A(θ)) ≥ 1 − α, ce qui démontre que C(X) est un intervalle de conance de niveau (1 − α). Pour la réciproque, comme C(X) est un intervalle de conance de niveau 1−α et A(θ0 ) = / A(θ0 )) = Pθ (θ0 ∈ / C(X)) ≤ α. Ainsi A(θ0 ) est une région {x : θ0 ∈ C(X)}, on a Pθ (X ∈ d'acceptation d'un test de niveau α. 0 0 0 0 Exemple 2. Soit X , ..., X 1 n un échantillon issu d'une loi N (μ, σ 2 ) avec σ connu et consi- dérons le test d'hypothèses H0 : μ = μ0 contre Ha : μ = μ0 de niveau α avec région x̄ − μ d'acceptation : √ 0 ≤ z1−α/2 . Alors les valeurs de μ0 telles que H0 est accepté sont σ/ n dans l'intervalle : √ √ [x̄ − z1−α/2 σ/ n, x̄ + z1−α/2 σ/ n]. (1.1) Cet intervalle est un intervalle de conance de niveau (1 − α) pour μ. Le lien ci-dessus est utilisé par Feldman et Cousins [4] pour la méthode uniée mais par contre ils ont utilisé un test spécique, soit le test du rapport de vraisemblance monotone (Likelihood Ratio Test LRT). Dénition 1.6. Soit X , ..., X 1 n un échantillon tels que Xi ∼ f (xi |θ) avec θ ∈ Θ, la fonction de vraisemblance est dénie par L(θ|x1 , ..., xn ) = L(θ|x) = n i=1 f (xi |θ). La statistique du test du rapport de vraisemblance H0 : θ = θ0 contre Ha : θ = θ0 est donnée par : λ(x) = supθ∈Ha L(θ|x) , supθ∈H0 L(θ|x) (1.2) avec une région d'acceptation de la forme A(θ) = {x : λ(x) ≤ cθ } où Pθ0 (λ(x) ≥ cθ0 ) = α. Ainsi l'intervalle de conance par la méthode uniée (Feldman et Cousins [4]) est obtenue 9 en inversant cette région d'acceptation. Même si cet intervalle possède une probabilité de recouvrement fréquentiste de 1 − α, il a fait objet de critiques (voir Mandelkern [5]). Exemple 3. (Feldman et Cousins[4]) Soit X ∼ N (θ, 1) avec θ ≥ 0. On désire trouver un intervalle de conance de niveau 1−α par la méthode uniée pour le paramètre θ. Posons H0 : θ = θ0 vs Ha : θ = θ0 avec θ ≥ 0. Aθ0 de niveau 1 − α donnée par {x : λ(x) < cθ0 } supθ∈Ha L(θ|x) L(θemv |x) = . L'estimateur du maximum de vraisemblance est où λ(x) = supθ∈H0 L(θ|x) L(θ0 |x) θemv = max(0, x). On a : On considère la région d'acceptation L(θemv |x) λ(x) = = L(θ0 |x) 1 2 θ − θ0 x 2 0 1 (x − θ0 )2 2 si si x≤0 x>0 Notons que d log(λ(x)) = dx −θ0 x − θ0 si si x≤0 x>0 On a : Si θ0 = 0, λ(x) = 1 Si θ0 > 0, λ(x) pour x≤0 et croissant pour est décroissant pour A partir du graphe de λ(x), x < θ0 x > 0. et croissant pour x > θ0 . nous pouvons donc déduire la région d'acceptation : 10 0 Borne inférieure Borne supérieure −20 −10 x 10 20 Region d'acceptation 0 5 10 15 20 theta Figure 1.1: Région d'acceptation de niveau 1 − α = 0.95 pour X ∼ N (θ, 1) avec θ ≥ 0. L'inversion de cette région d'acceptation nous permet d'obtenir l'intervalle de conance 8 10 12 I(x) = {θ0 ≥ 0|x ∈ Aθ0 } 0 2 4 6 IC l(.) u(.) −15 −10 −5 0 5 10 15 x Figure 1.2: Bornes inférieures l(·) et supérieures u(·) de niveau 0.95 obtenu par la méthode uniée pour le modèle N (θ, 1) avec θ ≥ 0. Remarque 1. Force nous est de remarquer d'après la Figure 1.2 que l'intervalle de 11 conance obtenu par la méthode uniée tient compte de la contrainte sur le paramètre θ tandis que l'intervalle usuel ignore cette information. Ajoutons aussi que la méthode uniée ne donne jamais l'ensemble vide contrairement à l'intervalle usuel tronqué x̄ ± √ √ z1−α/2 σ/ n ∩ [0, ∞) qui est vide pour x̄ < −z1−α/2 σ/ n. Exemple 4. (Loi Fisher(r,s), voir [12]) Ce problème survient dans des modèles d'analyse de variance à eets aléatoires (voir [12]). Soient fθ et Fθ la densité et fonction de répartition d'une variable X|θ de loi Fisher avec paramètres de forme r > 0, s > 0 connus et un paramètre d'échelle θ ≥ 1. On a, pour cette famille, 1 x fθ (x) = f1 ( ), θ θ x Fθ (x) = F1 ( ). θ La fonction vraisemblance est donnée par : L(x, θ) = fθ (x) = Γ(r + s)rr ss θs xr−1 , Γ(r)Γ(s) (sθ + rx)r+s (1.3) pour θ ≥ 1. En prenant la diérentielle du logarithme de L(x, θ), nous pouvons montrer que l'estimateur de maximum de vraisemblance est donnée par θemv (x) = max(1, x). Considérons les régions d'acceptation Aθ0 de niveau 1 − α de la forme {x : Rθ (x) ≥ cθ } où Rθ est dénie comme suit : L(x, θ) Rθ (x) = = L(x, θemv ) θs xr (r + s)r+s /(sθ + rx)r+s θs (s + rx)r+s /(sθ + rx)r+s si si x≥1 . x≤1 Observons que d log(Rθ (x)) = dx r(r + s)[(s + rx)−1 − (sθ + rx)−1 ] r[x−1 − (r + s)(sθ + rx)−1 ] si si x<1 x>1 On a : Si θ > 1, alors Rθ (x) est croissant pour 0 ≤ x < θ et décroissant pour x > θ . Si θ = 1, Rθ (x) = 1 pour 0 ≤ x < 1 et décroissant pour x > 1. 12 1.0 La gure suivante décrit le graphe de Rθ (x) pour r = 5 et s = 24. 0.0 0.2 0.4 R(x) 0.6 0.8 θ=1 θ = 1.25 θ = 2.5 0 1 2 3 4 5 x Figure 1.3: Graphes de Rθ (x) pour θ = 1, 1.25, 2.5, r = 5 et s = 24. 15 10 0 5 Région d'acceptation 20 25 Puisque Rθ (x) est unimodale, {x : Rθ (x) ≥ cθ } est alors un intervalle. En appliquant l'algorithme décrit à la Section 2.4.3 et pour θ ≥ 1, nous obtenons la gure suivante qui donne la région d'acceptation associée à Rθ (x). 5 10 15 20 θ Figure 1.4: Région d'acceptation associée à Rθ (x) 13 pour 1 − α = 0.95, r = 5 et s = 24. 10 0 5 IC 15 20 Par exemple si θ = 2.4, alors A2.4 (x) = [0.566, 6.534) est la région d'acceptation du test de RVM de niveau 1 − α = 0.95. Les bornes de la région étant croissantes selon θ, nous pouvons donc les inverser an d'obtenir l'intervalle unié qui est représenté dans la gure qui suit : 0 1 2 3 4 5 x Figure 1.5: Intervalle unié pour X ∼ F isher(r = 5, s = 24), θ ≥ 1 et 1 − α = 0.95. Par exemple si x = 2.4 et (1 − α) = 0.95 on a x ∈ Aθ pour θ0 ∈ [1.72, 16.67). 0 Méthode du pivot Cette méthode est essentiellement basée sur une variable aléatoire T dite pivot. Dénition 1.7. On dit qu'une variable aléatoire T (X, θ) variant avec t et θ est un pivot si sa loi de probabilité ne dépend pas de θ. Exemple 5. Voici, pour X , ..., X 1 n un échantillon aléatoire de moyenne X̄ des exemples de pivot : 14 densité f (x − θ) 1 x f σ σ 1 x−θ f σ σ Type position pivot X̄ − θ X̄ σ X̄ − θ σ échelle position-échelle Tableau 1.1: Quelques pivots pour des familles à paramètre de position θ et d'échelle σ . Exemple 6. (Casella et Berger [3]) Comme illustration de la situation (2) du tableau précédent, soit ramètre λ, X1 , ..., Xn un échantillon i.i.d qui suit une loi exponentielle de pa- alors on montre que T ∼ Gamma(n, λ). Si l'on pose qui ne dépend pas de λ. T = n i=1 Xi est une statistique exhaustive pour Q(T, λ) = 2T /λ, La quantité Q(T, λ) on a Q(T, λ) ∼ Gamma(n, 2) λ et une loi est donc un pivot. Avec un pivot donné, il est aisé de trouver un intervalle de conance. Dénition 1.8. Soit T (X, θ) un pivot. Pour α quelconque, on détermine a et b tels que Pθ (a ≤ T (X, θ) ≤ b) ≥ (1 − α). T (x, θ0 ) ≤ b} Ha : θ = θ0 b}, Alors pour chaque est une région d'acceptation de niveau θ0 ∈ Θ α pour le test . Par la méthode d'inversion du test, on obtient un intervalle de conance de niveau (1 − α) pour on a A(θ0 ) = {x : a ≤ H0 : θ = θ0 contre C(X) = {θ0 : a ≤ T (x, θ0 ) ≤ θ. Remarque 2. Pour tout x, si T (x, θ) est une fonction monotone de θ alors C(x) est un intervalle. Si T (x, θ) T (x, θ) est croissante alors est décroissante alors C(x) aura la forme aura la forme Exemple 7. (suite de l'Exemple 6) 2T /λ ∼ χ22n . C(x) L(x, a) ≤ θ ≤ U (x, b). L(x, b) ≤ θ ≤ U (x, a). À l'exemple précédent, nous avons P (a ≤ χ22n ≤ b) = 1 − α alors : 2T ≤ b = Pλ (a ≤ Q(T, λ) ≤ b) = 1 − α. Pλ a ≤ λ Soient a et b tels que 15 Si Q(T, λ) = 2t ≤ b}, on obtient : C(t) = {λ : ≤ Ainsi, en inversant l'ensemble A(λ) = t : a ≤ 2T λ b 2t λ≤ qui est un intervalle de conance de niveau (1 − α). Comme Q(t, λ) = 2t/λ est a décroissante en λ, donc la borne inférieure dépend de b et la borne supérieure de a. Intervalle de Pratt([6]) Soit X une loi normale de moyenne θ inconnue et de variance connue σ 2 . Il est a noté que plusieurs développements dans ce cadre sont plus généraux. Soit R(X) une région de conance pour θ de niveau 1−α. Supposons m(R) la longueur de R si R est un intervalle. Pour toute région R, on dénit : m(R) = dθ, (1.4) R Pratt dans [6] démontre que la longueur espérée de la région R(X) est donnée par : Eθ (m(R(X)) = Pθ (θ ∈ R(X))dθ. (1.5) θ=θ Nous aimerions donc minimiser l'équation précédente pour une valeur donnée de θ . Soit A(θ) une région d'acceptation d'une famille de test correspondant à R(X), on sait que : X ∈ A(θ) si et seulement si θ ∈ R(X). L'équation (1.5) devient donc Eθ (m(R(X)) = Pθ (X ∈ A(θ))dθ. (1.6) (1.7) θ=θ On sait que pour tout θ = θ , 1−Pθ (X ∈ A(θ)) est la puissance du test d'hypothèse nulle θ contre l'alternative θ . Typiquement la puissance d'un test devrait augmenter quand la valeur à tester s'éloigne de la vraie valeur du paramètre. Ainsi la longeur espérée est minimale quand θ est la vraie valeur du paramètre. Ceci donne l'intervalle de conance : min{θ , X − α σ} ≤ θ ≤ max{θ , X + α σ}, 16 (1.8) Exemple 8. Soient X ∼ N (θ, 1) et θ ∈ R. L'intervalle usuel de niveau 1 − α = 0.95 est I(X) = [X − 1.96, X + 1.96]. L'intervalle de Pratt est donnée par : Ip (X) = [min(0, X − c), max(0, X + c)] avec c = Φ(1 − α). Il a une longeur espérée petite que l'intervalle usuel et une probabilité de recouvrement fréquentiste de (1 − α), pour tout θ = 0, et de 1 pour θ = 0. Intervalle de conance bayésien Une autre alternative pour construire un intervalle de conance est de passer par la méthode bayésienne. Soient X1, ..., Xn ∼ fθ (·) et θ ∼ π(·), alors la loi a posteriori est donnée par : π(θ|x) = Θ π(θ)f (x|θ) . π(θ)f (x|θ)dθ Cette loi est utilisée pour déterminer l'intervalle de conance bayésien comme décrit dans la dénition suivante. Dénition 1.9. On dit que la région C ou C π (x) est une région de conance pour θ associée à la loi a priori π de crédibilité (1 − α) si : (1 − α) ≤ P (θ ∈ C(x)|x) = π(θ|x)dθ C Dénition 1.10. On dit que la région C est une région de conance de crédibilité (1 − α) de plus haute densité a posteriori (ou Highest Posterior Density HPD) si C = {θ ∈ Θ, π(θ|x) ≥ kα } où kα est le plus grand nombre tel que P (C|x) ≥ 1 − α. Exemple 9. Soit X ∼ N (θ, σ2) avec θ inconnu et σ2 connu. On recherche un intervalle de conance bayésien de niveau (1 − α) pour θ associé à la loi a priori π(θ) = 1. On 17 montre que : π(θ|x) = Θ = √ π(θ)f (x|θ) π(θ)f (x|θ)dθ 1 2πσ 2 (θ − x)2 2σ 2 . e − Alors θ|x ∼ N (x, σ2) et l'intervalle de conance bayésien pour θ, qui se trouve être le HPD dans ce cas précis pour θ, est [X − Z1−α/2σ, X + Z1−α/2σ]. 1.3.2 Critères d'évaluation des intervalles Nous avons présenté plus haut plusieurs méthodes permettant d'obtenir un intervalle de conance. En estimation par intervalle, deux critères sont fréquemment utilisés : la taille de l'intervalle et sa probabilité de recouvrement fréquentiste. On désire généralement avoir un intervalle de taille petite et ayant une forte probabilité de recouvrement. Le théorème suivant donne l'intervalle le plus court pour le cas des densités unimodales. Théorème 2. [3] Soit f une fonction de densité unimodale. Si l'intervalle [a, b] satisfait les conditions : 1. ab f (x)dx = 1 − α, 2. f (a) = f (b) > 0, 3. a ≤ m ≤ b où m est le mode de f, alors [a, b] est l'intervalle de conance le plus court parmi tous les intervalles qui vérient la condition 1. Démonstration. Voir[3]. Corollaire 2. Soit f une densité symétrique et unimodale. Pour α xé positif, considérons les intervalles [a, b] tels que ab f (x)dx = 1 − α. L'intervalle le plus court est obtenu en ∞ a f (x)dx = α/2 et b f (x)dx = α/2. choisissant a et b de sorte que −∞ 18 Remarque 3. Dans le cas où la densité a posteriori est unimodale, l'intervalle le plus court dans le cadre bayésien est le HPD. Dénition 1.11. Soient X ∼ f (.) et I(X) un intervalle de conance pour θ. La probabiθ lité de recouvrement de θ nommée C(θ) associée à I(X) = [L(X), U (X)], est la probabilité que l'intervalle I(X) contienne le paramètre θ, c'est à dire C(θ) = Pθ (I(X) θ). Nous donnerons dans la suite un lemme qui permettra de calculer la probabilité de recouvrement dans le cas où les bornes de l'intervalle sont croissantes. On pose f −1(y) = inf {x : f (x) ≥ y}. Lemme 4. Soit [l(X), U (X)] strictement croissantes, alors : un intervalle de conance pour θ. Si l(.) et U (.) sont C(θ) = PX ([l(X), U (X)] θ) = Pθ (X ∈ [U −1 (θ), l−1 (θ)]), Démonstration. Il sut d'observer que L(.) et U (.) sont strictement croissantes, alors θ ∈ [l(X), U (X)] ⇔ x ∈ [U −1 (θ), l−1 (θ)]. Exemple 10. À l'exemple 8, nous pouvons montrer que la probabilité de recouvrement fréquentiste de l'intervalle de Pratt est : C(θ) = 1−α 1 si si θ= 0 θ = 0. En eet, pour θ = 0 on a 0 ∈ Ip(x) ∀x ainsi P (0 ∈ Ip(x)|θ = 0) = 1. Pour θ > 0 on obtient θ ≤ max(0, x + c) si et seulement si x − θ ≥ −c donc C(θ) = P (x − θ ≥ −c) = Φ(c) = 1 − α. De même on montre que P (θ ∈ Ip (X)) = 1 − α pour θ < 0. 19 CHAPITRE 2 Intervalle de conance bayésien pour des paramètres bornés dans un intervalle [a, b] Dans ce chapitre, nous traitons de l'estimation par intervalle dans le cas où X ∼ N (θ, σ2), avec θ ∈ [a, b] et σ2 = 1 sans perte de généralité. La question qui motive ce chapitre vient éssentiellement des analyses partielles et numériques réalisées par Lmoudden(voir [7]). Réalisant que la probabilité de recouvrement fréquentiste inmum reste très faible aux frontières de l'intervalle, nous essayons dans ses travaux de trouver un intervalle de conance bayésien capable d'augmenter cette probabilité inmum en changeant la loi a priori sur θ ou en se basant une nouvelle procédure d'obtention du HPD (Marchand et Strawderman, [8]). Une fois amorcée, nous nous rendrons compte qu'il est illusoire d'essayer de trouver une solution à ces interrogations sous certaines conditions. Ces remarques entrainent des résultats nouveaux tant sur la probabilité de recouvrement fréquentiste et la crédibilité de l'intervalle. 20 2.1 L'intervalle de conance HPD et ses propriétés Pour X ∼ f0 (x − θ), nous présentons dans cette partie les propriétés de l'intervalle HPD 1 associé à la loi a priori uniforme sur [−m, m] de densité π(θ) = 1[−m,m] (θ) et qui fait 2m intervenir les dénitions ci-dessous. Ces résultats paraissent dans Lmoudden[7]. Dénition 2.1. Soit F une fonction de répartition de densité F unimodale et symétrique par rapport à 0, α ∈]0, 1[. On dénit pour tout y ∈ R : d1,F,α,m (y) = F −1 (1 − αF (y + m) − (1 − α)F (y − m)), 1 1−α (F (y + m) − F (y − m))), d2,F,α,m (y) = F −1 ( + 2 2 dF,α,m (y) = max{d1,F,α,m (y), d2,F,α,m (y)}, et dm solution unique de l'équation hm (y) = 1 en y avec : hm (y) = (1 + α)F (y + m) + (1 − α)F (y − m). Remarque 4. d m existe bel et bien car hm (y) est croissante en y et continue de 0 à 2 pour y ∈ R. Lemme 5. Pour tout y ∈ R, m ≥ 0, α ∈]0, 1[ on a : (a) d2,F,α,m (y) = d2,F,α,m (−y); (b) d1,F,α,m (−y) = −d1,F,1−α,m (y); (c) dF,α,m (y) = d1,F,α,m (y) d2,F,α,m (y) avec dF,α,m (y) ≥ dF,α,m (dm ) = dm + m; (d) −m ≤ dm ≤ 0. Démonstration. 21 si si y < dm , y ≥ dm (a) Puisque z∈R F est symétrique autour de zéro et que F (z) = 1 − F (−z), alors pour tout on a : 1 1−α (F (−y + m) − F (−y − m))) d2,F,α,m (−y) = F −1 ( + 2 2 1 1−α (F (y + m) − F (y − m))) = F −1 ( + 2 2 = d2,F,α,m (y). (b) Comme F −1 (Δ) = −F −1 (1 − Δ), d1,F,α,m (−y) = = = = = on a pour tout α ∈ (0, 1) : F −1 (1 − αF (−y + m) − (1 − α)F (−y − m)) F −1 (1 − α(1 − F (y − m)) − (1 − α)(1 − F (y + m)) F −1 (αF (y − m) + (1 − α)F (y + m)) −F −1 (1 − αF (y − m) − (1 − α)F (y + m)) −d1,F,1−α,m (y). (c) D'une part, on vérie que dm part, il est aisé de voir que : est un point xe pour d2,F,α,m et d1,F,α,m . D'autre d1,F,α,m (y) ≥ d2,F,α,m (y) ⇔ y ≤ dm . 1 hm (0) = (1 + α)Φ(m) + (1 − α)Φ(−m) = 1 − α + 2αΦ(m) ≥ (1 − α) + 2α ≥ 2 1 1 1 = hm (dm ) et hm (−m) = (1 + α)Φ(0) + (1 − α)Φ(−2m) ≤ (1 + α) + (1 − α) = 2 2 1 = hm (dm ). Le résultat suit puisque hm (0) ≥ 1, hm (−m) ≤ 1 et que hm est (d) On a croissante. Théorème 3. Soient X|θ ∼ f0 (x − θ) où θ ∈ [−m, m] avec une loi a priori uniforme sur [−m, m], G la fonction de répartition de (X − θ) et G = f0 unimodale et symétrique par rapport à 0. Alors, on a (a) L'intervalle HPD Iπ (x) = [lπ (x), uπ (x)] avec lπ (x) = max{−m, x − dG,α,m (−x)} uπ (x) = min{m, x + dG,α,m (x)}. (b) La probabilité de recouvrement est symétrique par rapport à 0, Cm (θ) = Cm (−θ); 22 (c) Cm (θ) = Pθ (Iπ (X) θ) ≥ 2G(dm + m) − 1 ∀θ ∈ [−m, m] ; (d) Cm (m) = Cm (−m) = G(dm ) ≥ 1 ; 2 (e) La probabilité de recouvrement moyenne par rapport à π est (1−α), c.-à.-d. 1 − α. Θ Cm (θ)π(θ)dθ = Démonstration. Nous commençons par déterminer la densité a posteriori. Nous avons : f0 (x − θ) f0 (x − θ) = , pour θ ∈ [−m, m]. G(x − m) − G(x + m) f (x − θ)dθ −m 0 π(θ|x) = m (a) Puisque la densité a posteriori est unimodale, l'intervalle HPD prend trois formes possibles : − u(x)) − G(x + m) (i) Soit l(x) = −m et G(x = 1 − α, ce qui donne G(x − m) − G(x + m) u(x) = x + G−1 (1 − αG(x + m) − (1 − α)G(x − m)) = x + d1,G,α,m (x) − θ) − G(x − l(x)) = 1 − α, ce qui donne (ii) soit u(x) = m et G(x G(x − m) − G(x + m) l(x) = x + G−1 (1 − αG(x − m) − (1 − α)G(x + m)) = x + d1,G,1−α,m (x) = x − d1,G,α,m (−x) u(x) π(θ|x)dθ = 1 − α avec b(x) tel (iii) Soit l(x) = x − b(x), u(x) = x + b(x) et l(x) que x − b(x) ≥ −m et x + b(x) ≤ m. On a : P (x − b(x) ≤ θ ≤ x + b(x)|x) = 1 − α, 1 (G(−b(x)) − G(b(x))) = 1 − α ⇔ G(x − m) − G(x + m) 1 1−α ⇔ b(x) = G−1 ( − (G(x − m) − G(x + m))). 2 2 De plus, la situation iii) se produit si et seulement si 23 x − b(x) ≥ −m et x + b(x) ≤ m. On a : 1 1−α x − b(x) ≥ −m ⇔ x ≥ G−1 ( − (G(x − m) − G(x + m))) − m 2 2 1 1−α (G(x − m) − G(x + m))) ⇔ G(x + m) ≥ − 2 2 ⇔ (1 + α)G(x + m) + (1 − α)G(x − m) ≥ 1 ⇔ hm (x) ≥ 1 ⇔ x ≥ dm . Pareillement, on obtient x + b(x) ≤ m ⇔ x ≤ dm . (b) On exploite la symétrie du problème par rapport aux transformations θ → −θ X → −X et sur l'espace des paramètres. On vérie que u(−x) = −l(x), ∀x ∈ R (2.1) ce qui nous permet d'écrire : Cm (θ) = = = = = = (c) Notons que l'intervalle Iπ (x) Pθ (I(X) θ) Pθ (l(X) ≤ θ ≤ u(X)) Pθ (−u(−X) ≤ θ ≤ −l(−X)) P−θ (−u(X) ≤ θ ≤ −l(X)) P−θ (l(X) ≤ −θ ≤ u(X)) Cm (−θ). est un sous ensemble de x ± dG,α,m (x) et ont la même probabilité de recouvrement puisque la diérence entre ces deux ensembles n'appartient pas à [−m, m]. On a donc : Pθ (I(X) θ) = = ≥ = Pθ (X − dG,α,m (X) ≤ θ ≤ X + dG,α,m (X)) Pθ (−dG,α,m (X) ≤ X − θ ≤ dG,α,m (X)) Pθ (−dm − m ≤ X − θ ≤ dm + m) 2G(dm + m) − 1, puisque G est symétrique. P−m (I(X) −m) = P−m (X ≤ dm ) = P−m (X + m ≤ 1 dm + m) = G(dm + m) ≥ G(0) = , puisque dm + m ≥ 0. 2 (d) On a Cm (θ) = Cm (−θ) et 24 (e) On a Cm (θ) = Pθ (I(X) θ) = Eθ (1Iπ (X) (θ)), donc m Eθ (Cm (θ)) = −m 1Iπ (x) (θ)f0 (x − θ)π(θ)dxdθ mR = 1 (θ)g(θ|x)dθm(x)dx −m Iπ (x) R = (1 − α)m(x)dx R = 1 − α, puisque m(·) est la densité marginale de X. Remarque 5. Même si la probabilité de recouvrement fréquentiste est en moyenne égale à (1 − α), il existe des points où cette probabilité est beaucoup plus petite à cette valeur tout en respectant la borne inférieure du théorème précédent. Corollaire 3. Pour la probabilité de recouvrement à la frontière, on a C (m) = C (−m) : (a) lim C (−m) = 21 ; (b) C (−m) ↑ en m, avec C (−m) → 1 +1 α lorsque m → ∞. m m→0 m m m m Démonstration. (a) (b) Cm (−m) = P−m (X ≤ dm ) = G(dm + m) → 1/2, lorsque m → 0. 1 ) lorsque m → ∞ via la fonction hm Il est facile de voir que dm + m → G−1 ( 1+α 1 . Il reste à montrer que dm + m est croissant en m, ce et donc Cm (−m) → 1+α qui implique Cm (−m) = G(dm + m) croissant en m. Supposons par l'absurde qu'il existait m1 > m2 tel que dm2 +m2 > dm1 +m1 . Alors on aurait hm2 (dm2 ) > hm1 (dm1 ), ce qui contredit le fait que hm1 (dm1 ) = hm2 (dm2 ) = 1. Remarque 6. Il est important de remarquer que la probabilité de recouvrement fréquentiste de l'intervalle HPD donne pour de petites valeurs de m, ce qui est une valeur faible indépendamment de (1 − α) et lorsque (1 − α) est grand. Nous devons donc envisager une autre méthode de construction de l'intervalle bayésien ou une autre loi a priori si l'objectif est d'obtenir une probabilité de recouvrement fréquentiste non loin de la crédibilité (1 − α). 1 2 25 2.2 Illustration Exemple 11. Loi Normale 1 1[−m,m] (θ). D'après le Théorème 3, 2m l'intervalle de conance HPD est de la forme Iπ (x) = [lπ (x), uπ (x)] où : Soit X ∼ N (θ, 1) avec θ ∈ [−m, m] et π(θ) = ⎧ ⎪ ⎨ −m 1 1−α lπ (x) = (Φ(x − m) − Φ(x + m))) x − Φ−1 ( − ⎪ 2 2 ⎩ −1 x + Φ (1 − αΦ(x − m) − (1 − α)Φ(x + m)) si x < dm si dm ≤ x ≤ −dm si x ≥ −dm si x < dm si dm ≤ x ≤ −dm si x ≥ −dm et ⎧ −1 ⎪ ⎨ x + Φ (1 − αΦ(x + m) − (1 − α)Φ(x − m)) 1 1−α uπ (x) = (Φ(x − m) − Φ(x + m))) x + Φ−1 ( − ⎪ 2 2 ⎩ m avec Φ la fonction de répartition de la loi normale réduite. 0 lπ(x) uπ(x) −4 −2 IC 2 4 La Figure ci-dessous représente ces bornes pour le cas m = 4, 1 − α = 0.95. −10 −5 0 5 10 x Figure 2.1: Intervalle de crédibilité pour et une loi uniforme sur θ. 1 − α = 0.95 X qui suit 26 N (θ, 1) avec θ ∈ [−m, m], m = 4, La gure 2.1 illustre bien le comportement général de l'intervalle avec les formes [−m, u(x)], [x±δ(x)] et [l(x), m] et comment cet intervalle tient compte de la contrainte du paramètre θ ∈ [−m, m]. Lemme 6. Les bornes lπ (x) et uπ (x) de l'intervalle Iπ (x) sont continues et croissantes en x. Démonstration. En vertu de la relation uπ (x) = −lπ (−x) donnée en (2.7), il sut de travailler avec lπ (·). On a montré que x + b(x) ≤ m ssi x ≤ −dm , alors on en déduit que dm = b(x) − m et donc lπ (dm ) = dm − b(dm ) = b(dm ) − m − b(dm ) = −m. Pour la croissance de lπ (·), 1 1−α (Φ(x + m) − Φ(x − m))). Ainsi on a pour dm ≤ x ≤ −dm : lπ (x) = x − Φ−1 ( + 2 2 d (lπ (x)) = 1 − b (x). Il sut de montrer que b (x) est négative. lπ (x) = x − b(x). On a dx Selon le Lemme 3, la famille de densités {π(.|x), x ≥ dm } est à RVM croissant en θ. On l3 (x) π(θ|x)dx = α et donc selon le sait que pour x ≥ −dm lm3 (x) π(θ|x)dx = 1 − α ⇒ −m Corollaire 1 , lπ (x) est croissante. Pour la probabilité de recouvrement, nous procédons numériquement en s'appuyant sur les propriétés de croissance et de continuité de l(·) et u(·). Les gures suivantes représentent pour diérentes valeurs de m des graphes de C(θ) pour 1 − α = 0.95. 27 m=1 0.70 0.85 0.85 0.95 1.00 m=0.5 −0.2 0.0 0.2 0.4 −1.0 −0.5 0.0 θ θ m=3 m=4 0.5 1.0 2 4 5 10 0.91 0.93 0.94 0.95 0.97 0.97 −0.4 −1 0 1 2 3 −4 −2 0 θ θ m=6 m=10 0.95 0.93 0.93 0.95 0.97 −2 0.97 −3 −6 −4 −2 0 2 4 6 −10 θ −5 0 θ Figure 2.2: Probabilité de recouvrement fréquentiste de Iπ pour diérentes valeurs de m et pour 1 − α = 0.95. u D'après la Figure 2.2, on constate que la probabilité de recouvrement fréquentiste est faible aux frontières de l'intervalle pour m petit. Par exemple, pour m = 0.5, on a infθ∈[−0.5,0.5] C0.5 (θ) 0.6736. Par ailleurs en revenant aux résultats théoriques (Théorème 3(c)) montrés ci-dessus sur la borne inférieure de la probabilité de recouvrement, nous remarquons que cette borne n'est pas satisfaisante pour de petites valeurs de m (ex : m = 0.5, 2Φ(d0.5 + 0.5) − 1 0.3636) et elle est assez satisfaisante pour de grandes valeurs de m ( ex : m = 6, infθ∈[−6,6] C6 (θ) 0.9275 or 2Φ(d6 + 6) − 1 0.9047). Face à ces constats, nous allons introduire par la suite la méthode utilisant la fonction de distribution spending function et permettant d'obtenir d'autres intervalles bayésiens que l'intervalle HPD. 28 2.3 Une borne supérieure pour la probabilité de recouvrement fréquentiste minimale Il existe plusieurs approches (voir [3] et le Chapitre 1) pour construire un intervalle de crédibilité 1 − α. (1 − α) pour un paramètre τ (θ) ∈ [−m, m] avec P (l(x) ≤ τ (θ) ≤ u(x)|x) = Tel que présenté par Marchand et Strawderman (2013) et ensuite utilisé par Ghashim, Marchand et Strawderman (2015) et par Ghashim [17], une autre manière de voir les bornes l(x) complémentaire et u(x), pour un x donné, est de se concentrer plutôt sur l'ensemble [−m, l(x)) ∪ (u(x), m] et allouer une probabilité respectivement aux deux ensembles disjoints avec α − απ (x) et απ (x) απ (x) ∈ [0, α]. Ces derniers ont obtenu pour de nombreux modèles, une classe d'estimateurs bayésiens de crédibilité 1−α de probabilité de recouvrement fréquentiste bornée inférieurement par 1−α ou (1 − α) 1 − 3α 2 et sous l'hypothèse de log-concavité. Dénition 2.2. Pour une loi a priori π donnée pour θ et une crédibilité (1 − α), la fonction de distribution est une fonction dénie telle que, ∀x , l(x)|x) = α − απ (x), et [l(x), u(x)] est un in- απ (·) : R → [0, α] Pπ (τ (θ) ≥ u(x)|x) = απ (x), Pπ (τ (θ) ≤ tervalle de crédibilité pour τ (θ). Lemme 7. Se basant sur l'intervalle I est donnée par : απ (x) = avec α0 (x) = π de l'Exemple 11, la fonction de distribution απ (x) ⎧ ⎪ ⎪ α ⎪ ⎨ α0 (x) ⎪ ⎪ ⎪ ⎩ 0 Φ(m − x) − Φ(m + x) α + 2 2(Φ(m − x) − Φ(−m − x)) 29 si x < dm si dm ≤ x ≤ −dm si x ≥ −dm Démonstration. Pour x ≤ d m , l(x) = −m, απ (x) = α. Pour x ≥ −dm , on a α(x) = 0. Pour dm ≤ x ≤ −dm , απ (x) = α Φ(u(x) − x) − Φ(−m − x) = + Pπ (τ (θ) ≥ u(x)|x) = 1 − Pπ (τ (θ) ≤ u(x)|x) = 1 − Φ(m − x) − Φ(−m − x) 2 Φ(m − x) − Φ(m + x) en utilisant la densité a posteriori dénie dans la démonstra2(Φ(m − x) − Φ(−m − x)) que u(x) = m, donc α − απ (x) = α, donc ainsi tion du Théorème 3. Remarque 7. D'après le lemme précédent, quand α (x) = 0, nous aurons un intervalle π HPD de la forme I(x) = [l(x), m] et pour απ (x) = α, I(x) = [−m, u(x)] avec l(x) et u(x) comme dans la Dénition 2.2. Les graphiques suivants représentent la fonction de distribution απ (·) de l'intervalle HPD de l'Exemple 11 pour diérentes valeurs de m et (1 − α). m=4,alpha=.01 0.00 0.000 0.02 0.004 0.04 0.008 m=4,alpha=.05 −2 0 2 4 −4 −2 0 2 x x m=1,alpha=.05 m=1,alpha=.01 4 0.00 0.000 0.02 0.004 0.04 0.008 −4 −0.5 0.0 0.5 1.0 −1.0 −0.5 0.0 x x m=.5,alpha=.05 m=.5,alpha=.01 0.5 1.0 0.2 0.4 0.00 0.000 0.02 0.004 0.04 0.008 −1.0 −0.4 −0.2 0.0 0.2 0.4 −0.4 x Figure 2.3: Fonctions de distribution −0.2 0.0 x απ (x) pour diérentes valeurs de m et (1 − α). D'après ces graphiques, force nous est de remarquer que la fonction de distribution se α présente de manière particulière. Elle est toujours plus petite que pour de valeurs 2 30 positives de x, ce qui entraine forcément que l'intervalle Iπ (x) contient la valeur −m / −m pour x > 0, c'est-à-dire seulement pour de valeurs négatives de x, ou encore Iπ (x) ∈ quand απ (x) = α. Il est facile de montrer dans ce cas précis que απ (x) ≤ α 2 pour tout x ≥ 0. Cette remarque nous conduit au résultat suivant qui constitue avec le Théorème 5, les résultats les plus importants de cette partie de ce mémoire. Théorème 4. Soit X|θ ∼ N (θ, 1) avec |θ| ≤ m et π une loi a priori continue sur [−m, m]. Soit Iπ (X) = [lπ (X), uπ (X] un intervalle bayésien de niveau (1 − α) associé à π tel que lπ et uπ croissants et satisfaisant la propriété lπ (−x) = −uπ (x) pour tout x. Alors on a : inf θ∈[−m,m] Cπ (θ) ≤ Φ(m) , (2.2) où Cπ est la probabilité de recouvrement fréquentiste de Iπ . Démonstration. On sait que Iπ (x) ⊂ [−m, m] pour tout x. On a lπ (x) > −m pour tout x > 0. Sinon, on aurait uπ (−x) = −lπ (x) = m et Iπ (−x) = [−m, m], un intervalle de crédibilité 1, ce qui n'est pas permis. Comme lπ (x) > −m pour tout x > 0 alors C(−m) ≤ P−m (X ≤ 0) = Φ(m). Remarque 8. Il est facile de voir que le théorème précédent peut être généralisé pour un modèle quelconque X ∼ f0 (x − θ), x ∈ R, où θ ∈ [−m, m] avec f0 absolument continue, paire et en remplaçant Φ par F0 , soit la fonction de répartition associée à f0 . Remarque 9. En eet, en prenant f0 absolument continue et paire, π une loi a priori paire, Iαπ (X) = [l(X), u(X] tel que P (θ ≥ u(x)|x) = απ (x) avec απ (x) = α − απ (−x) pout tout x, on peut montrer que l(−x) = −u(x) pour tout x. Remarque 10. Le Théorème 4 montre un décalage signicatif entre la crédibilité (1 − α) et la probabilité de recouvrement fréquentiste pour m petit et (1 − α) pas trop petit. Par exemple, si la crédibilité est 1 − α = 0.95 et (i) m = 1, (ii) m = 0.5, nous avons 31 des probabilités de recouvrement inmum majorées par Φ(1) ≈ 0.84 et Φ(0.5) ≈ 0.69 respectivement. Remarque 11. Il est important de noter qu'au Théorème 4, la borne supérieure de la probabilité de recouvrement inmum est indépendante de (1 − α) et de la loi a priori π . Exemple 12. Cet exemple se base sur le modèle posé en illustration à la Section 2.2. La Figure ci-dessous représente la probabilité de recouvrement fréquentiste pour 1 − α = 0.90 et 1 − α = 0.95 et pour m = 0.5, 1, 1.5. Par exemple pour une crédibilité de 0.95 et m = 1, remarquons que la probabilité de recouvrement est plus grande que 0.95 pour une grande partie de l'espace paramétrique ( |θ| ≤ 0.69), et nous avons une valeur minimale de 0.816 en comparaison avec la borne du Théorème 4 qui est Φ(1) = 0.84. Notons que le décalage est assez prononcé dans ce cas vu que, d'après la partie (e) du Théorème 3, la probabilité de recouvrement fréquentiste moyenne est de 1 − α = 0.95 m=1 1.00 1.00 m=0.5 Crédibilité 0.80 0.80 0.65 0.70 0.85 0.90 C(θ) 0.85 0.90 0.95 0.95 0.95 0.9 0.75 C(θ) Crédibilité 0.95 0.9 −1.0 −0.5 0.0 0.5 1.0 −1.0 θ −0.5 0.0 0.5 1.0 θ Figure 2.4: Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé à la loi a priori uniforme pour diérentes valeurs de m et (1 − α). 32 1.00 m=1.5 Crédibilité 0.85 0.90 C(θ) 0.95 0.95 0.9 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 θ Figure 2.5: Probabilité de recouvrement fréquentiste C(θ) pour l'intervalle HPD associé à la loi a priori uniforme pour diérentes valeurs de (1 − α) et m = 1, 5. Une conséquence directe du Théorème 4 et qui s'applique sur une classe de lois a priori est qu'il est illusoire de chercher à améliorer la probabilité de recouvrement aux frontières de notre intervalle tant et si longtemps que m et α restent petits. Dans le même ordre d'idée, les procédures fréquentistes d'obtention d'intervalle de conance avec un niveau souhaité (1 − α) ne peuvent donner une crédibilité (1 − α) quand cette dernière est plus grande que Φ(m). Nous obtenons un résultat surprenant selon laquelle certaines procédures fréquentistes donnent tout l'espace paramétrique comme estimation. Ceci est établie par le théorème qui suit. Théorème 5. Soient X|θ ∼ N (θ, 1) avec |θ| ≤ m et I(X) = [l(X), u(X)] un intervalle de conance de niveau ≥ (1 − α) pour θ ∈ [−m, m] tel que l et u croissants et I(X) vériant la propriété l(x) = −u(−x) ∀x ∈ R. Alors, pour m ≤ Φ−1 (1 − α), on a Pθ (I(X) = [−m, m]) ≥ 0 pour tout x tel que |x| ≤ Φ−1 (1 − α) − m. Démonstration. Soit x0 tel que pour tout x ≤ x0 . On a C(−m) = Φ(x0 + m). On sait que C(−m) ≥ 1 − α ⇒ l(x) = −m P−m (I(x) −m) = P−m (X ≤ x0 ) = 33 Φ(x0 + m) ≥ 1 − α ⇒ x0 ≥ Φ−1 (1 − α) − m > 0. x ≥ −x0 et I(x) = [−m, m] quand Or u(x) = −l(−x) = m pour tout −x0 ≤ x ≤ x0 . Remarque 12. Nous pouvons illustrer immédiatement ce théorème par le cas de l'inter- valle standard X ± Φ−1(1 − α2 ) tronqué sur l'intervalle [−m, m], qui a une probabilité de recouvrement de (1 − α) pour tout θ ∈ [−m, m] et qui donne l'intervalle [−m, m] en eet pour |x| ≤ Φ−1(1 − α2 ) − m. Remarque 13. Le Théorème 5 met en exergue une possibilité d'obtention de tout l'espace paramétrique pour l'intervalle de conance quand m < Φ−1(1 − α). La probabilité d'occurence d'un tel évènement est égale à Φ(x0 − θ) − Φ(−x0 − θ) et est maximale pour θ = 0. On a donc dans ce cas P0(I(X) = [−m, m]) = 2Φ(x0) − 1 ≥ 2Φ(Φ−1(1 − α) − m) − 1. Le tableau ci dessous donne certaines valeurs de la borne inférieure de cette probabilité qui n'est pas petite pour m < Φ−1(1 − α). 1−α 0.90 0.95 0.99 0.5 0.56 0.75 0.93 1.0 0.22 0.48 0.82 1.5 - 0.12 0.59 2.0 - - 0.26 m/ Tableau 2.1: Borne inférieure de la probabilité que 34 I(X) = [−m, m] quand θ = 0. 2.4 Exemples Dans cette section, nous présentons quelques exemples dans le but d'illustrer les résultats des Théorèmes 4 et 5. 2.4.1 Méthode uniée Soit X ∼ N (θ, 1) avec θ ∈ [−m, m]. On désire trouver un intervalle de conance de niveau (1 − α) par la méthode uniée pour le paramètre θ. Posons H0 : θ = θ0 contre L(θemv |x) . On a dans ce cas : Ha : θ = θ0 avec θ ∈ [−m, m]. Posons : λ(x) = L(θ |x) 0 θemv ⎧ ⎨ −m x = ⎩ m si x < −m si − m ≤ x ≤ m si x > −m ainsi, ⎧ ⎨ −x(m + θ0 ) + 12 (θ02 − m2 ) 1 (x − θ)2 log(λ(x)) = ⎩ 2 x(m − θ0 ) + 12 (θ02 − m2 ) si x < −m si − m ≤ x ≤ m si x > −m La région d'acceptation est de la forme Aθ = {x : λ(x) < cθ } ce qui donne un intervalle de conance I(x) = {θ0 ∈ [−m, m] : x ∈ Aθ }. Le Théorème 5 appliqué dans ce contexte nous donnera un intervalle ILRT (x) = [−m, m] pour |x| ≤ Φ−1(1 − α) − m et m < Φ−1 (1 − α). La gure ci dessous montre la crédibilité respectivement à la loi a priori uniforme sur [−m, m] et pour le cas m = 1 et un niveau 1 − α = 0.90, 0.95. 0 0 0 35 0.95 1.00 m=1 confidence level 0.90 0.75 0.80 0.85 crédibilité 0.90 0.95 −4 −2 0 2 4 x Figure 2.6: Crédibilité pour l'intervalle uniée de niveau priori uniforme et pour m = 1.0. 90% et 95% associé à la loi Remarque 14. Remarquons d'après ce graphique, que, pour 1 − α = 0.95, I LRT (x) a = [−1, 1] pour |x| ≤ 0.64 vu que nous obtenons une crédibilité égale à 1 sur cet intervalle. Ceci illustre bien le Théorème 5. 2.4.2 Intervalle de Pratt tronqué α de Soit X ∼ N (θ, 1) avec θ ∈ [−m, m]. L'intervalle usuel I(X) = X ± Φ−1 1 − 2 niveau (1 − α) ne tient pas en compte la contrainte θ ∈ [−m, m]. L'intervalle tronqué α α IT (X) = [X − Φ−1 (1 − ), X + Φ−1 (1 − )] ∩ [−m, m] est un choix plausible mais qui 2 2 α −1 |x| ≥ m − Φ 1− 2 peut être vide pour . Evans, Hansen et Stark ([11]) ont proposé un intervalle optimal nommé Truncated Pratt interval IT P (X) = Ip (x) ∩ [−m, m] basé sur l'intervalle de Pratt déni à la Section 1.3.1 et qui est optimal selon le critère minimax ; c'est-à-dire minimiser les plus grands parmi les intervalles de probabilité de recouvrement fréquentiste supérieure ou égale à 1 − α pour tout θ ∈ [−m, m]. 36 Intervalle de Pratt tronqué IC 0.0 0 −6 −1.0 −4 −0.5 −2 IC 2 0.5 4 6 1.0 Intervalle de Pratt −4 −2 0 2 4 −4 −2 x 0 2 4 x Figure 2.7: Intervalle de Pratt tronqué pour m=1 et 1 − α = 0.95 Remarque 15. Nous pouvons remarquer d'après ce graphique, que, pour de petites va- leurs de m, IT P (x) = [−1, 1] pour Φ(m) ≤ 1 − α et |x| ≤ Φ−1(1 − α) − m ce qui illustre bien le Théorème 5. 2.4.3 Estimation d'un paramètre d'échelle Corollaire 4. Les Théorèmes 4 et 5 s'appliquent également dans le cadre de l'estimation d'un paramètre d'échelle β à partir de l'observation X ∼ β1 f1( βx )1[0,∞)(x) lorsque X et X1 ont la même distribution avec β ∈ [c1, c2], ou encore sans perte de généralité β ∈ [ 1c , c], c > 1 (voir Remarque 17). Démonstration. Pour ce faire, on travaille avec la variable Y On montre que Y ∼ f0 (y − θ) = ey−θ f1 (ey−θ ) avec θ = log(β), ainsi θ ∈ [−log(c), log(c)]. En posant m = log(c), on a θ ∈ [−m, m]. On peut donc appliquer nos résultats à condition que f0 37 = log(X). soit paire, ce qui est le cas lorsque Remarque 16. f 0 X 1 et X ont la même distribution. est paire c'est-à-dire e2t f1 (et ) = f1 (e−t ) pour tout t ⇔ u2 f1 (u) = f1 ( u1 ) pour tout u. Nous pouvons citer comme exemple de loi vériant cette propriété : loi Fisher X ∼ F isher(r, r), loi Demi-cauchy X ∼ Cauchy(0, β), loi Pareto X ∼ f (x) = 1 1 1 (x). x β (β +1)2 [0,∞) Exemple 13. X ∼ F isher(r, r) alors X = d X1 /r X2 /r avec X1 , X2 ∼ χ2r indépendantes. Remarque 17. Il est important de noter que le paramètre d'échelle β peut appartenir à un compact quelconque [c1 , c2 ]. Posons β = αβ ∈ [αc1 , αc2 ], il sut de prendre α = 1 . c1 c2 Exemple 14. Loi Demi-cauchy Nous étudions ici le cas de la loi Demi-cauchy qui a pour densité dénie comme suit : 2 f (x) = πβ 1 1[0,∞) (x). 1 + ( βx )2 (2.3) Nous illustrons dans le corollaire suivant, d'une part, les intervalles de conance bayésiens Iπ , et d'autres part, puisque la densité du log(X) est paire nous illustrons pour diérentes valeurs de m la borne supérieure de la probabilité de recouvrement inmum. Corollaire 5. Pour la loi Demi-cauchy dont la densité est donnée en (2.9) avec β ∈ [ 1 , c] c c > 1, en faisant un changement de variable Y = log(X) avec Y ∼ ey−θ f1 (ey−θ ) = 1 f0 (y − θ) et θ = log(β) et pour la loi a priori π(θ) = 1[−m,m] (θ), l'intervalle de 2m conance bayésien de θ est donné par Iπ∗ (y) = [lπ (y), uπ (y)] où : lπ (y) = ⎧ ⎪ ⎪ −m, y < dm ⎪ ⎨ , y − ln(tan( π4 + α−1 (arctan(ey−m ) − arctan(ey+m )))), dm ≤ y ≤ −dm 2 ⎪ ⎪ ⎪ ⎩ y − ln(tan(arctan(ey−m ) − (arctan(ey−m ) − arctan(ey+m ))(1 − α))), y ≥ −d m 38 et uπ (y) = ⎧ ⎪ ⎪ y − ln(tan(arctan(ey+m ) − (arctan(ey−m ) − arctan(ey+m ))(1 − α))), y < dm ⎪ ⎨ α−1 (arctan(ey−m ) 2 − arctan(ey+m )))), dm ≤ y ≤ −dm avec dm = m − ln(tan( π4 + α−1 (arctan(ey−m ) 2 − arctan(ey+m )))). 0 5 10 IC 15 20 25 y + ln(tan( π4 + ⎪ ⎪ ⎪ ⎩ m, y ≥ −d m −15 −10 −5 0 5 10 β avec 15 x Figure 2.8: Intervalle de conance bayésien pour c = e3 . 1 − α = 0.95, m = 3 et donc La Figure 2.7 représente l'intervalle de conance bayésien du paramètre β en fonction de l'observation x pour c = e3 , α = 0.05. Notons que cet intervalle a été construit à l'aide de l'intervalle bayésien HPD Iπ∗ (y) du ln(β) par Iπ (x) = [elπ (x) , euπ (y) ]. Démonstration. Le Théorème 3 s'applique à la variable Y 39 = ln(X) ∼ ey−θ f1 (ey−θ ) = f0 (y − θ) avec f0 (t) = π(θ|y) = Θ 2 et , θ = ln(β) et π 1 + e2t π(y|θ)π(θ) 1 . = 2cosh(y − θ)(arctan(ey−m ) − arctan(ey+m )) π(y|θ)π(θ)dθ Nous sommes donc en mesure d'inverser les bornes an de trouver la probabilité de recouvrement fréquentiste. La gure suivante montre la borne supérieure de la probabilité 1.00 de recouvrement inmum. 0.95 1−α 0.85 ● 0.80 Borne sup 0.90 ● 0.65 0.70 0.75 ● ● 0.5 1.0 1.5 2.0 m Figure 2.9: Borne supérieure de inf θ∈[−m,m] Cπ (θ)) pour diérentes valeurs de m et 1−α = 0.95. Remarque 18. D'après la Figure 2.8 ci-dessus, force nous est de remarquer que la borne supérieure de la probabilité de recouvrement inmum est très faible pour de petites valeurs de m. Par exemple pour m = 0.5 donc c = 1.65, la probabilité de recouvrement minimale est bornée par F0(m) = 0.65, valeur éloignée 1 − α = 0.95. Ceci conrme encore le décalage décrit plus haut. 40 Exemple 15. Loi Fisher(r,r) Nous étudions dans cet exemple le cas de la loi Fisher(r,r) où θ ∈ [ 1c , c], c > 1, x ≥ 0 avec : X ∼ fθ (x) = 1 x f ( ), θ θ r 1 Γ(r) ( xθ ) 2 −1 f (x) = . θ Γ( 2r )2 (1 + xθ )r Alors, (2.4) x Fθ (x) = F ( ), θ où f et F sont respectivement la densité et fonction de répartition d'une Fisher de dégré de liberté r au dénominateur comme au numérateur. Dans le but de calculer le rapport de vraisemblance, nous déterminons l'estimateur du maximum de vraisemblance qui se présente comme suit : θemv (x) = ⎧ ⎪ ⎪ ⎪ ⎨ 1 c si x< 1 c x ⎪ ⎪ ⎪ ⎩ c si 1 c si x ≥ c. ≤x≤c Considérons les régions d'acceptation Aθ de niveau (1 − α) de la forme {x : Rθ (x) ≥ cθ } où Rθ est déni comme suit : 0 ⎧ 1 r2 1 + xc r ⎪ ⎪ ⎪ θc ⎪ 1 + xθ ⎪ ⎪ r ⎨ L(x, θ) x2 r r2 Rθ (x) = = 2θ r ⎪ (x L(x, θ) ⎪ + θ) r ⎪ ⎪ r x+c ⎪ ⎪ ⎩ θc 2 x+θ 1 c si x< si 1 c si x ≥ c. ≤x≤c Observons que : ⎧ c 1 ⎪ ⎪ − r ⎪ ⎪ 1 + xc θ + x ⎪ ⎨ d L(x, θ) r r log(Rθ (x)) = = − ⎪ dx 2x x+θ L(x, θ) ⎪ ⎪ 1 1 ⎪ ⎪ ⎩ r − x+c x+θ 41 1 c si x< si 1 c si x≥c ≤x≤c 0.8 1.0 On peut montrer que : Si θ = 1c , Rθ (x) = 1 pour 0 ≤ x ≤ 1c et décroissant pour x > 1c . Si θ = c, Rθ (x) est croissante pour 0 ≤ x ≤ c et Rθ (x) = 1 pour x ≥ c. Si 1c < θ < c, Rθ (x) est croissante pour 0 ≤ x ≤ θ et décroissante pour x ≥ θ. La gure suivante décrit le graphe de Rθ (x) pour c = 3 et r = 8. 0.0 0.2 0.4 R(x) 0.6 θ=1 3 θ=3 θ=2 0 5 10 15 20 x Figure 2.10: Graphe de Rθ (x) pour c = 3 et r = 8. Comme Rθ (x) est unimodale en x pour tout θ, alors {x : Rθ (x) ≥ cθ } est un intervalle pour θ ∈ [ 1c , c], c > 1. Les régions d'acceptation peuvent être obtenues en résolvant le système d'équations : Fθ (b) − Fθ (a) = 1 − α, avec Rθ (a) = Rθ (b) et [a, b] = {x : Rθ (x) ≥ k}, pour a, b et 0 ≤ k ≤ 1 pour tout θ. Si θ = 1c , alors la solution est a = 0 et b = Fθ−1 (1 − α) et cte = Rθ (b). L'algorithme suivant peut être utilisé pour trouver a et b pour 1c ≤ θ ≤ 1. 42 La région d'acceptation pour θ ∈ [1, c] sera déduite par symétrie par rapport à 1. Algorithme : (a) Soit z = θF −1 (1 − α), alors Pθ (X ≤ z) = 1 − α. (b) Si Rθ (z) ≤ Rθ (0), alors a = 0 et b = z . (c) Sinon c0 = Rθ (0), c1 = Rθ (z), et itérer l'étape suivante jusqu'à convergence. (d) Soit cc = (c0 + c1 )/2, résoudre les équations Rθ (a) = Rθ (b) = c pour 0 < a < θ < b ; Si Pθ (a ≤ X ≤ b) ≤ 1 − α, c1 ← cc ; sinon c0 ← cc. 10 Borne inférieure Borne supérieure 0 5 Région d'acceptation 15 20 La gure suivante donne la région d'acceptation associée au graphe précédent de Rθ (x) pour c = 3 et r = 8. 0.5 1.0 1.5 2.0 2.5 3.0 θ Figure 2.11: Région d'acceptation associée à Rθ (x) pour c = 3 et r = 8. Les bornes de notre région d'acceptation sont croissantes pour tout θ et donc leurs inverses existent. Ainsi [l(x), u(x)]={θ : Rθ (x) ≥ cθ }. L'intervalle unié a une probabilité de 43 recouvrement de (1 − α) par construction pour tout θ. La gure suivante donne les bornes 2.0 1.0 1.5 l(.) u(.) 0.0 0.5 Interval de confiance 2.5 3.0 l(x) et u(x) pour (1 − α) = 0.95, c = 3 et r = 8. 0 1 2 3 4 5 x Figure 2.12: Intervalle obtenu par la méthode uniée, modèle F isher(r, r, θ), 1−α = 0.95, c = 3 et r = 8. Remarque 19. Remarquons d'après la Figure 2.11 que, pour x ∈ [0.87, 1.15] l'intervalle obtenu par la méthode uniée donne tout l'espace paramétrique 44 [ 13 , 3]. CHAPITRE 3 On the discrepancy between Bayes credibility and frequentist probability of coverage Ce chapitre contient l'article publié dans Statistics and Probability Letters 97(2015) 63 − 68 avec Éric Marchand. Il résume tous les résultats décrits dans la section 2.3 à savoir sur la borne supérieure pour la probabilité de recouvrement fréquentiste minimale et sur la crédibilité de certaines méthodes fréquentistes. Des exemples sont illustrés pour mieux comprendre les résultats. Abstract. 45 For estimating a bounded normal mean with known variance, we exhibit situations of pronounced discrepancy between the credibility of Bayes credible regions and frequentist coverage. Analogously, frequentist condence intervals are shown to have credibility one in some cases. Keywords : Bayesian methods, Bounded normal mean, Credibility, Frequentist coverage probability, Interval estimation. 3.1 Introduction This paper is concerned with both : (i) the frequentist probability of coverage of Bayes credible sets, and (ii) the Bayes credibility of exact frequentist coverage methods, for estimating a normal mean θ bounded to an interval [a, b], and based on X ∼ N (θ, σ2) with known σ2 (a sample of size one without loss of generality). With respect to (i), we prove (i.e., Theorem 1) the existence of a discrepancy, which can be signicant, between a given credibility 1 − α and the minimal frequentist probability coverage. Indeed, we show that the latter is quite a bit lower, for a very large class (essentially all priors with a symmetric density about 0) of priors supported on [a, b] and choice of Bayes credible set, whenever the relative width m = b−a is small and 1 − α is not small. With respect to (ii), 2σ we show that condence intervals I(x) = [l(x), u(x)] which are equivariant with respect to a sign change (i.e., l(x) = −u(−x) for all x), which have monotone increasing in x endpoints l(x) and u(x), and which have exact coverage probability 1 − α must be equal to the full parameter space [a, b] for a range of x values, (i.e., have credibility equal to one for any prior), whenever m = b−a < Φ−1 (1 − α). So exact coverage comes at the price 2σ of this unattractive feature. The particular cases of the truncated Pratt interval (Evans, Stark and Hansen, 2005) and the so-called unied method (Feldman and Cousins, 1998) 46 which is the inversion of a likelihood ratio test, serve as illustrations for (ii), while the Bayes HPD credible set with respect to the uniform prior on [a, b] serves as an illustration for (i). The negative results for (i) stand in contrast to a series of ndings for a lower bounded space of the form θ ≥ 0 which limit the discrepancy and which also apply to a wide array of situations (e.g., Mandelkern, 2002 ; Roe and Woodroofe, 2000 ; Zhang and Woodroofe, 2002, 2003 ; Marchand and Strawderman, 2006, 2013 ; Marchand et al., 2008). The context of our ndings relates to the intrinsic interest in ndings objective priors with near probability matching properties without relying on asymptotics and in the presence of a bounded parameter space. The context and motivation was described by Marchand and Strawderman (2013) as follows : Bayesian credible sets are not designed (e.g., Robert, 2011) and are far from guaranteed (Fraser, 2011) to have satisfactory, exact or precise frequentist coverage but it is nevertheless of interest to investigate (Wasserman, 2011) to what extent there is convergence or divergence in various situations. With respect to (ii), it is useful to have available procedures, adapted to the parameter constraint and that may even be optimal in a certain sense (e.g., the truncated Pratt interval has a minimax interpretation), that guarantee exact coverage, but we believe that the drawback of having to report interval estimates equal to the full parameter space for some observed values is not well understood or not known. 1 Subsections 2.1 and 2.2 contains the results corresponding to (i) and (ii) respectively, with remarks and illustrations in complement. Final remarks conclude the presentation. 1. The opposite situation where the credibility is equal to 0 for some values of x is more familiar, and arises for the standard condence interval X ± σΦ−1 (1 − α) truncated to [a, b], for x > b + σΦ−1 (1 − α) or x < a − σΦ−1 (1 − α) . 47 3.2 Main Results and Illustrations 3.2.1 On Bayesian condence intervals Without loss of generality, we assume hereafter b = −a = m and σ = 1. Here is the rst main result concerning the frequentist probability of coverage of Bayes credible sets. Theorem 1. Let X|θ ∼ N (θ, 1) with |θ| ≤ m. Let π be a continuous prior proper density for θ supported on [−m, m] which is an even function. Let Iπ (X) = [lπ (X), uπ (X)] be a 1 − α Bayes credible set associated with π such that the endpoints are non-decreasing as a function of x and satisfy an equivariance property lπ (−x) = −uπ (x) for all x. Then, we must have inf θ∈[−m,m] (3.1) CIπ (θ) ≤ Φ(m) , where Φ is the N (0, 1) cdf, and CIπ (θ) = P(Iπ (X) θ|θ) is the frequentist probability of coverage. Proof. We make use of the fact that a Bayes credible set Iπ (x) must be a strict subset of [−m, m] for all x. Observe that we must have l (x) > −m for x > 0 since, otherwise we would have for u (−x) = −l (x) = m by symmetry, l (−x) = −m given the nondecreasing property, and corresponding credibility for such an x equal to 1 which is not 2 π π π π 2. In terms of the plausibility of the assumptions, with the problem being invariant with respect to sign changes, symmetric priors lead naturally to equivariant interval estimators I(X) = [l(X), u(X)] such that l(−x) = −u(x) for all x. Also, with the family of N (θ, 1) distributions possessing an increasing in X monotone likelihood ratio with parameter θ and with the model densities satisfying the property f (x − θ) = f (θ − x) for all x, θ, it follows that the family of posterior distributions θ|x possesses also an increasing in θ monotone likelihood ratio with parameter x. This tells us that the class of Bayes credible sets Iπ (X) with non-decreasing endpoints is of primordial interest. 48 allowed. Since, lπ (x) > −m for x > 0, the probability of non-coverage at θ = −m is bounded below by P−m (X > 0) = 1 − Φ(m) , which leads to the result. Remark 1. Depending on the values of m and α, but certainly for m not too large and 1− α not too small, the above result is indicative of a possibly substantial discrepancy between Bayes credibility and frequentist probability of coverage. For instance, if the credibility is equal to 1 − α = 0.95 and (i) m = 1, (ii) m = 0.5 (i.e., the mean θ is known to within (i) one, (ii) one half standard deviation), we have a minimal probabilities of coverage bounded above by Φ(1) ≈ 0.84 and Φ(0.5) ≈ 0.69 respectively, illustrating the possible degrees of discrepancy. Remark 2. It is interesting also that Theorem 1's upper bound for minimal frequentist coverage is independent of both the choice of credibility 1 − α and choice of prior. Remark 3. When the parameter space is larger, the upper bound of course does not signal a discrepancy and there is good reason to believe that several choices of π and Iπ (X) may yield satisfactory level of matching between credibility and coverage probability. Indeed, for the analogue to the large m case of a lower bound constraint θ ≥ a for some a, and the choices of the πU uniform prior on [a, ∞) and the HPD credible set, Roe 1−α and Woodroofe (2000) established the lower bound 1+α for frequentist coverage Cπ (θ) limiting the amount of discrepancy. In fact, for α < 1/3, the more precise statements : α 1 − 3α ≤ Cπ (θ) ≤ 1 − α2 for all θ ≥ a, and inf θ≥a ∈ [1 − 3α , 1 − 3α + 1+α ] were given 2 2 2 by Marchand et al. (2008). And, as well, the lower bound 1−α arises in a vast number 1+α of settings and for a class of Bayes credible sets associated with the truncation of a noninformative prior (i.e., right Haar invariant prior), such as πU in the above illustration (see Marchand and Strawderman, 2006, 2013). U 2 U Remark 4. It is important to realize that the average frequentist coverage of probability of a (1 − α) × 100% Bayesian credible set Iπ (X) with respect to π is equal to the credibility 49 1 − α. (−m,m) Noting f (·|θ) the model density and fX the marginal density equal to fX (x) = f (x|θ) π(θ) dθ, this follows since CIπ (θ) π(θ) dθ = I (Iπ (x) θ) f (x|θ) π(θ) dx dθ (−m,m) (−m,m) R I (Iπ (x) θ) π(θ|x) dθ fX (x)dx = R (−m,m) (1 − α) fX (x) dx = 1 − α . = R Paired with Theorem 3.1's maximal upper bound for minimal coverage, it must not only be the case that the frequentist coverage CIπ (θ) uctuates to some extent below and above the credibility, but also to a rather large extent when the credibility density πU on 1 − α. Φ(m) is quite a bit smaller than m, for the uniform prior [−m, m], and the (1−α)×100% HPD credible set IπU (say). The associated Figure 1 is illustrative of this for varying posterior density is a (unimodal) truncated to in a straightforward manner that [−m, m] N (x, 1) density and it is veried IπU (x) = [lπU (x), uπU (x)], with lπU (x) = −uπU (−x), and uπU (x) = min (m, x + max{a(x) , b(x)}) . a(x) = (1 − α) Φ(m − x) − αΦ(−m − x) et b(x) = 1 2 + 1−α 2 (Φ(m − x) − Φ(−m − x)) The research question that led to Theorem 1 came about following partial analysis and numerical evaluations of this coverage probability (e.g., Lmoudden, 2008). Realizing that coverage could be quite poor, attempts to nd a Bayesian credible set with high inmum coverage probability were directed to either changing the prior, or departing from the HPD criteria and focussing on a dierent selection procedure (still for πU ) (such as in Marchand and Strawderman, 2013). But Theorem 3.1, which applies to a large class of choices π and of the Bayes condence interval Iπ (X) tells us indeed that such a search is illusory unless m and α are large enough. For moderate or large m though, the minimal frequentist coverage appears to be less unsatisfactory as illustrated by Figure 1 for m = 1.5. 50 Example 1. Figure 1 is illustrative of the points made above, namely in Remarks 1 and 3, and presents the frequentist coverage probability C(θ) of the 90% and 95% HPD credible sets associated with the uniform prior on [−m, m], and for m = 0.5, 1.0, 1.5. For instance, looking at the case of credibility 95% and m = 1, we see that the coverage probability it at least 0.95 for a large part of the parameter space (approx. for |θ| ≤ 0.69), but drops down sharply when θ approaches the boundary to a minimum value of about 0.816 in comparison to Theorem 1's lower bound of Φ(1.0) ≈ 0.84. The other cases for m = 0.5, 1.0 are similar but the discrepancy is less pronounced for credibility 0.90, and more pronounced for m = 0.5. For larger m such as m = 1.50, Theorem 1 still applies (i.e., minimal coverage bounded above by Φ(1.50) ≈ 0.933 but does not imply a signicant discrepancy for the chosen credibilities of 0.90 and 0.95. The graphs suggest here that the coverage uctuates to a much lesser degree around the credibility. 1.00 m=0.5 Credibility 0.65 0.70 0.75 0.80 C(θ) 0.85 0.90 0.95 0.95 0.9 −1.0 −0.5 0.0 0.5 1.0 θ Figure 3.1: Coverage probability C(θ) of the uniform prior HPD credible set as a function of θ for varying m and credibility. 51 1.00 m=1 Credibility 0.90 0.80 0.85 C(θ) 0.95 0.95 0.9 −1.0 −0.5 0.0 0.5 1.0 θ 1.00 m=1.5 Credibility 0.85 0.90 C(θ) 0.95 0.95 0.9 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 θ Figure 3.2: Coverage probability C(θ) of the uniform prior HPD credible set as a function of θ for varying m and credibility. 52 3.2.2 On interval estimators with exact frequentist coverage As a corollary to the above Theorem 3.1, condence intervals I(X) with exact frequentist coverage 1−α which satisfy the symmetry assumptions of Theorem 3.1 cannot yield exact credibility 1 − α whenever the latter is larger than Φ(m). In fact, one can say more and we prove in Theorem 2 that, whenever m < Φ−1(1 − α), such condence intervals must be such that I(x) = [−m, m] for a positive Lebesgue measure set of x values. Such a possibility is illustrated with the simple choice X ± Φ−1(1 − α/2) truncated to [−m, m], which has exact frequentist coverage 1 − α for all θ ∈ [−m, m], and which is equal to [−m, m] whenever |x| ≤ Φ−1 (1 − α2 ) − m . The following Theorem establishes that such a phenomenon is inevitable for a large class of interval estimators. Theorem 2. Let X|θ ∼ N (θ, 1) with |θ| ≤ m. Let I(X) = [l(X), u(X)] be a condence interval with frequentist coverage ≥ 1 − α for all θ ∈ [−m, m], such that l and u are non-decreasing, and such that I(X) satises the invariance property l(x) = −u(−x) for all x ∈ R. Then, whenever m < Φ−1 (1 − α), it must be the case that I(x) = [−m, m] for any x such that −(Φ−1 (1 − α) − m) ≤ x ≤ Φ−1 (1 − α) − m. Proof. Let x0 be the unique value such that l(x) = −m for all x ≤ x0. Observe that the coverage probability at θ = −m is equal to C(−m) = P−m (I(X) −m) = P−m (X ≤ x0 ) = Φ(x0 + m) . Since this is at least equal to 1 − α, we must have x0 ≥ Φ−1(1 − α) − m, which by assumption is positive. Since u(x) = −l(−x), it follows that u(x) = m for all x ≥ −x0, which implies indeed that I(x) = [−m, m] for all −x0 ≤ x ≤ x0. Remark 5. Theorem 2 species an interval of values for which frequentist condence intervals produces estimates equal to the full parameter space, provided that m < Φ−1 (1 − α). The probability of such an event varies with θ and will be maximal for θ = 0. In 53 such cases, C(0) = P0 (I(X) = [−m, m]) = 2Φ(x0 ) − 1 ≥ 2Φ (Φ−1 (1 − α) − m) − 1. Such probabilities, which are typically not small, are tabulated below for selected values of (m, α) such that m < Φ−1 (1 − α). m/1 − α 0.90 0.95 0.99 0.5 0.56 0.75 0.93 1.0 0.22 0.48 0.82 1.5 - 0.12 0.59 2.0 - - 0.26 Tableau 3.1: Lower bound for the probability that I(X) = [−m, m] when θ = 0. Example 2. (inversion of likelihood ratio test) A standard method to derive a condence interval with exact frequentist coverage 1−α; also referred to as the unied method (e.g. Feldman and Cousins, 1998) ; is to rst consider the acceptance regions Aθ0 ⊂ R , θ0 ∈ [−m, m] , ratio test of signicance level for α H 0 : θ = θ0 versus associated with the likelihood Ha : θ = θ0 , θ ∈ [−m, m], and then invert the test to obtain ILRT 1 (x) = {θ0 ∈ [−m, m] : x ∈ Aθ0 } . By construction, we obtain indeed coverage probability Pθ0 (I(X) θ0 ) = Pθ0 (X ∈ Aθ0 ) = 1−α X|θ ∼ N (θ, 1), for all θ0 ∈ [−m, m]. Now, in our case with [m − Φ−1 (1 − α), ∞) , A−m = (−∞, Φ−1 (1 − α) − m]. regions A θ0 are of the form [ c1 (θ0 ), c2 (θ0 ) ] with 54 For we obtain θ0 ∈ (−m, m), Am = the acceptance c1 (θ0 ) < m − Φ−1 (1 − α) and c2 (θ0 ) > Φ−1 (1 − α) − m. 3 Now, Theorem 2 applies here (one can also show that the endpoints are increasing and that the equivariance property is satised) so that for |x| ≤ Φ−1 (1 − α) − m whenever ILRT (x) m < Φ−1 (1 − α). must be equal to [−m, m] Graphs of Bayesian credibility [−m, m] (or equivalently the posterior probability of coverage where the posterior is a truncated to [−m, m] N (x, 1) distribution) are presented with respect to a uniform prior on in Figure 2 for m = 1.0 |x| ≤ Φ−1 (1 − α) − 1.0, and condence levels 0.90 and 0.95. The credibility equals as shown above, and decreases as a function of |x| 1 for to levels well below the condence level. 0.95 1.00 m=1 confidence level 0.90 0.75 0.80 0.85 Credibility 0.90 0.95 −4 −2 0 2 4 x Figure 3.3: Bayesian credibility of the 90% and respect to the uniform prior for m = 1.0. 95% condence interval ILRT (X) with Example 3. The Pratt interval (Pratt, 1961), given IP (x) = [min(0, X − c), max(0, X + c)] where c = Φ−1 (1 − α), has frequentist probability coverage equal to 1 for θ = 0, and 1 − α for θ = 0. Its expected length is less than the expected length of the usual choice X ± Φ−1 (1 − α/2) when |θ| is close to 0. For the truncated case θ ∈ [−m, m], Evans, Hansen and Stark (2005) establish an optimality property of its truncated version Ip (X)∩ [−m, m] for m ≤ 2Φ−1 (1 − α), namely minimaxity in terms of minimizing maximum expected length among all condence intervals with minimal frequentist coverage equal to 1 − α for all θ ∈ [−m, m]. As inferred above, with the endpoints non-decreasing and the interval equivariant, it follows from Theorem 2 that Ip (x) ∩ [−m, m] equals [−m, m] whenever Φ(m) < 1 − α and |x| ≤ Φ−1 (1 − α) − m. 4 3. It is easy to verify also that Aθ0 = θ0 ± Φ−1 (1 − α2 ) whenever Φ−1 (1 − α2 ) ≤ m − |θ0 |. Otherwise, the bounds c1 (θ0 ) and c2 (θ0 ) require a numerical evaluation. 4. In both Examples 2 and 3, one can also verify that I(x) = [−m, m] if and only if |x| ≤ Φ−1 (1−α)−m 55 Concluding Remarks We have established, discussed, and illustrated a discrepancy between Bayesian credibility and frequentist probability of coverage C(θ) that arises for interval estimators of the mean θ of a N (θ, 1) distribution under the constraint |θ| ≤ m. On one hand, the minimal value of C(θ) cannot exceed Φ(m) for a vast class of Bayesian estimators. On the other hand, interval estimators I(x) with exact frequentist coverage 1 − α must be equal to [−m, m] with positive probability whenever m < Φ (1 − α). As suggested by the proofs, these features appear to intimately related to the smallness of the parameter space and either are attenuated or vanish for larger parameter spaces. For this reason, it seems quite plausible that such phenomena recur for other models and further investigation would be useful. Although we have focussed on what can be judged as negative traits, our ndings may lead to useful prescriptions such as adjusting the credibility of Bayes estimators or adjusting the condence level of frequentist procedures to the size of the parameter space. −1 Acknowledgements Eric Marchand's research is supported in part by a grant from the Natural Sciences and Engineering Research Council of Canada. We are grateful to a reviewer for useful and constructive comments. Finally, we are thankful to Bill Strawderman and Aziz Lmoudden for helpful discussions. 56 References Evans, S.N., Hansen, B.B. & Stark, P.B. (2005). Minimax expected measure condence sets for restricted location parameters. Bernoulli, 11, 571-590. Feldman, G.J. and Cousins, R. (1998). Unied approach to the classical statistical analysis of small signals. Physical Review D, 57, 3873-3889. Fraser, D.A.S. (2011). Is Bayes posterior just quick and dirty condence ? Statistical Science, 26, 299-316. Lmoudden, A. (2008). Sur les intervalles de conance bayésiens pour des espaces de paramètres contraints. M.Sc. thesis, Département de mathématiques, Université de Sherbrooke (http ://savoirs.usherbrooke.ca/ handle/11143/4790) Mandelkern, M. (2002). Setting Condence Intervals for Bounded Parameters with discussion. Statistical Science, 17, 149-172. Marchand, É. and Strawderman, W. E. (2013). On Bayesian credible sets, restricted parameter spaces and frequentist coverage, Electronic Journal of Statistics, 7, 1419-1431. Marchand, É., Strawderman, W. E., Bosa, K., and Lmoudden, A. (2008). On the frequentist coverage of Bayesian credible intervals for lower bounded means. Electronic Journal of Statistics, 2, 1028-1042. Marchand, É. and Strawderman, W. E. (2006). On the behaviour of Bayesian credible intervals for some restricted parameter space problems. Recent Developments in Nonparametric Inference and Probability : A Festschrift for Michael Woodroofe,, IMS Lecture Notes-Monograph Series, 50, pp. 112-126. Robert, C.P. (2011). Discussion of Is Bayes posterior just quick and dirty condence ? by 57 D.A.S. Fraser. Statistical Science, 26, 317-318. Roe, B. and Woodroofe, M. (2000). Setting condence belts. Physical Review D, 63, 013009/0109. Wasserman, L. (2011). Frasian inference. Statistical Science, 26, 322-325. Zhang, T. and Woodroofe, M. (2003). Credible and condence sets for restricted parameter spaces. Journal of Statistical Planning and Inference, 115, 479-490. Zhang, T. and Woodroofe, M. (2002). Credible and condence sets for the ratio of variance components in the balanced one-way model. Sankhyā : Special issue in memory of D. Basu, 64, 545-560. 58 CHAPITRE 4 Estimation du taux de fausses découvertes Dans ce chapitre, nous traitons du taux de fausses découvertes. Communément appelé False Discovery Rate (FDR), le taux de fausses découvertes fut introduit par Benjamini et Hockberg (1995). Nous commençons par dénir les notions essentielles pour la compréhension de ce taux et par la suite discuter des estimateurs existants dans la littérature. Remarquant que ces estimateurs entrainent un biais considérable appliqués sur une base de données de petite tailles (voir [14]), nous proposons des corrections que nous évaluons par la suite. 4.1 Les erreurs de type I et de type II L'erreur de type I, connu encore sous le nom de faux positif est l'erreur de rejeter l'hypothèse nulle alors qu'elle est vraie. Par exemple, il se produit quand l'expérimentateur conclut à une diérence entre les groupes alors qu'en réalité il n'y en a pas. La probabilité de commettre une erreur de type I pour un test d'hypothèses de région de rejet R est égale à P (R|H0 est vraie). 59 L'erreur de type II, connu encore sous le nom de faux négatif est le refus de rejeter l'hypothèse nulle alors que l'hypothèse alternative est vraie. Par exemple, il se produit quand l'expérimentateur conclut à une absence de diérence entre les groupes alors qu'en réalité il y en a une. La probabilité de commettre une erreur de type II dans un test d'hypothèses de région de rejet R est 1−P (R|Ha est vraie). La puissance du test est égale à P (R|Ha est vraie). 4.2 Taux de faux positifs Le problème de test d'hypothèses que nous considérons ici a une structure simple. Nous avons une collection nie d'hypothèses nulles que nous désirons tester : H = (H01 , H02 , ..., H0N ), N ∈ N avec N ≥ 1. (4.1) Nous cherchons une décision D qui estime pour les N cas si elles sont vraies ou non. La Table 4.1 suivante illustre le problème. Nous disposons de N tests d'hypothèses à tester simultanément dont V sont réellement vraies et S sont réellement fausses. La décision D estime pour chaque hypothèse si elle est fausse ou vraie. Soit N+ le nombre d'hypothèses nulles rejetées et (N − N+ ) le nombre d'hypothèses nulles acceptées. La décision est dite correcte si elle déclare vraie une hypothèse réellement vraie et fausse une hypothèse réellement fausse. Notons Nous avons donc un total de N0 + N1 = N+ de rejets, avec N0 de fausses découvertes (dénie plus bas) ou des faux positifs (erreur de type I) et N1 de vraies découvertes. Enn il y a T hypothèses réellement non nulles et non détectées (erreur de type II). Réalité Décision vraies fausses total rejet not rejet total N0 N1 N+ U V S T N − N+ N Tableau 4.1: Table de contingence pour les tests d'hypothèses multiples 60 Dénition 4.1. Une découverte est un rejet d'une hypothèse nulle. On dit qu'une découverte est vraie quand on rejette une hypothèse nulle qui, en réalité, est fausse. Une découverte est dite fausse quand on rejette une hypothèse nulle à tort. Dénition 4.2. La proportion d'erreur qu'on commet en rejetant à tort les hypothèses nulles peut être vue via la variable aléatoire Q = N0 /(N0 + N1 ), la proportion des hypothèses nulles rejetées à tort. Naturellement, Q = 0 c'est-à-dire N0 + N1 = 0 quand aucune erreur n'est commise. Q est aléatoire car N0 et N1 le sont. Le taux moyen de fausses découvertes est dénit par Benjamini et Hochberg (1995) comme suit : Qe = E(Q) = E(N0 /(N0 + N1 )) = E(N0 /N+ ). (4.2) Remarques 1. (a) Si toutes les hypothèses nulles sont vraies, alors le taux de fausse sdécouvertes est équivalent au familywise error rate (FWER) déni plus bas (Déf. 4.3). En eet, dans ce cas N1 = 0 et N0 = N+ donc si N0 = 0 alors Q = 0, et si N0 > 0 alors Q = 1, ce qui entraine P (N0 ≥ 1) = E(Q) = Qe . Par conséquent, contrôler le taux fausses découvertes implique le controle du FWER. (b) Si V < N, le taux de fausses découvertes est plus petit ou égal au FWER. En eet, si N0 > 0 donc N0 /N+ ≤ 1, ainsi 1(N ≥1) ≥ Q. En prenant l'espérance de part et d'autre, on obtient P (N0 ≥ 1) ≥ Qe . On conclut donc que toute procédure contrôlant le FWER contrôle aussi le taux de fausses découvertes. 0 4.2.1 Procédure de contrôle du taux de fausses découvertes (Benjamini et Hochberg) Considérons ... ≤ p(m) m tests H1 , H2 , ..., Hm les p-valeurs ordonnées, q∗ associés aux p-valeurs le seuil et H(i) procédure est la suivante : 61 p1 , p2 , ..., pm . Soient p(1) ≤ p(2) ≤ l'hypothèse nulle correspondant à p(i) . La Soit k le plus grand i tel que p(i) ≤ i m q∗; Alors rejeter toutes les H(i) pour i = 1, 2, ..., k. Théorème 6. (Benjamini et Hochberg, 1995) La procédure ci-dessus contrôle le taux de fausses découvertes au seuil q∗ pour des tests statis- tiques indépendants. Démonstration. voir [13]. Dénition 4.3. Le familywise error rate (FWER) est la probabilité qu'on rejete au moins une hypothèse nulle à tort c'est-à-dire P (N0 > 0). Il existe dans la littérature plusieurs méthodes permettant de contrôler le FWER. Nous nous attarderons dans cet exemple sur la méthode de Bonferroni. Dénition 4.4. La méthode traditionnelle et plus connue pour controler le FWER est celle de Bonferroni(voir [19]) qui remplace le seuil α par α/m avec m le nombre de tests d'hypothèses. 4.2.2 Exemple Nous allons dans l'exemple qui suit montrer comment les corrections permettent de diminuer considérablement le taux de faux positifs et nous ferons une comparaison de deux méthodes à savoir la procédure de BH et la méthode de Bonferroni. Nous commençons par simuler un échantillon de taille 1000 dont les 900 premiers éléments viennent d'une normale centrée réduite et les 100 derniers d'une normale de moyenne 3 et de variance 1. On a H0i : μ = 0 contre Hai : μ > 0 pour X ∼ N (μ, 1). Dans ce cas, nous savons en réalité que les 900 premières observations devraient échouer en essayant de rejeter l'hypothèse nulle car elles sont issues d'une normale centrée réduite. Les cent dernières devraient rejeter H0 . Sans correction test ⇒ p − valeur > 0.05 62 summary(test[1 : 900]) summary(test[901 : 1000]) Mode FALSE TRUE Logical 53 847 Mode FALSE TRUE Logical 92 8 L'erreur de type I (faux positifs) est 53/900 = 0.0589. L'erreur de type II (faux négatifs) est 8/100 = 0.08. Notons que la proportion observée des erreurs de type I est proche de la proportion théorique α = 0.05. Correction de Bonferroni Nous avons α = 0.05 et 1000 tests d'hypothèses donc la correction de Bonferroni retiendra les p-valeurs inférieures à 0.05/1000. bonf test ⇒ p − valeur > 0.05/1000 summary(bonf test[1 : 900]) summary(bonf test[901 : 1000]) Mode FALSE TRUE Logical 0 900 Mode FALSE TRUE Logical 21 79 Ici, notons que la probabilité de commettre l'erreur de type I est 0/900 = 0, mais cette probabilité dans le cas de l'erreur de type II a monté considérablement et est 79/100 = 0.79. Nous avons donc réduit nos faux positifs au dépend des faux négatifs. La question ici est de savoir lequel des deux erreurs peut t'on tolérer : les faux positifs ou les faux négatifs ? D'où la nécessité de trouver des méthodes permettant de contrôler le taux de faux positifs sans pour autant augmenter les faux négatifs. 63 Procédure BH de controle du taux de fausses découvertes Pour le taux de fausses découvertes, nous considérons les p-valeurs ordonnées. Nous verrons si la p-valeur d'ordre k est plus grand que k∗0.05 1000 . psort ⇒ sort(p) f drtest ⇒ N U LL f or(i in1 : 1000) f drtest ⇒ c(f drtest, p[i] > match(p[i], psort) ∗ 0.05/1000) summary(f drtest[1 : 900]) Mode FALSE TRUE Logical 1 889 summary(f drtest[901 : 1000]) Mode FALSE TRUE Logical 66 34 Nous pouvons donc estimer le risque de première espèce égale à 1/900 = 0.0011 sachant que la proportion théorique est α = 0.05 et le risque de deuxième espèce égale à 34/100 = 0.34. Remarquons que le risque de première espèce a diminué considérablement comparé au test eectué sans correction et aussi le risque de deuxième espèce a diminué comparé à la correction de Bonferroni. 4.3 Le taux local de fausses découvertes Dans cette partie, nous discutons en premier des estimateurs du taux local de fausses découvertes qui existent dans la littérature et en deuxièmement lieu, nous essayons de les corriger an d'améliorer leurs performances. 64 4.3.1 Approche bayésienne pour controler le taux de fausses découvertes Exemple 16. (Efron, 2010) Dans cet exemple, Efron considère des données de prostate (ni- veaux d'expression génétique) de dont N = 6033 gènes qui ont été obtenus chez n = 102 hommes, n1 = 50 sujets de contrôle et n2 = 52 des sujets atteints du cancer de prostate. Les données sont une matrice X avec 6033 lignes, 102 colonnes et xij =niveau d'expression i pour le patient j , i = 1, .., 6033, j = 1, ..., 50 pour les patients normaux et j = 50 51, 52, ..., 102 pour les patients atteints du cancer. Soient x̄i (1) = j=1 xij /50 et x̄i (2) = 102 j=51 xij /52 les moyennes pour les patients normaux et malades. Le test de comparaison de du gène deux groupes pour le gène i permet de calculer la statistique : ti = avec si = x̄i (2) − x̄i (1) , si (4.3) s2i l'estimateur de l'écart type donnée par s2i = 50 i=1 (xij 2 − x̄i (1))2 + 102 1 1 i=51 (xij − x̄i (2)) ( + ). 100 50 52 (4.4) Si nous n'avions qu'un seul gène i, nous pourrions utiliser ti par la méthode usuelle pour tester l'hypothèse nulle : Hoi : les moyennes sont égales, c'est-à-dire que rait xij a la même distribution pour les patients normaux et malades. On rejete- Hoi si la statistique ti est susamment grande en valeur absolue. Pour un seuil de 5%, l'hypothèse nulle serait rejetée si |ti | ≥ 1.98 la valeur tabulée du Student avec 100 dégrés de liberté. Au lieu d'utiliser la statistique ti , Efron utilise une statistique transformée nommée z-valeur dénie par : zi = Φ−1 (F100 (ti )), 65 (4.5) avec Φ la fonction de répartition de la normale centrée réduite et F100 la fonction de repartition d'une loi de student avec 100 dégrés de liberté. Ainsi zi ∼ N (0, 1) sous l'hypothèse nulle Hoi ce que Efron nomme the theoretical null (voir [16]). Efron et al. en 2001 introduisent une autre alternative pour les tests d'hypothèses multiples. Pour cela on suppose qu'on a N cas dont chacun est nul (H0 vraie) ou non-nul (H0 fausse) avec une probabilité a priori π0 = P (nul) et π1 = 1 − π0 = P (non.nul) avec des z-valeurs de densités respectives f0 (z) et f1 (z). En général π0 est beaucoup plus grand que π1 , π0 ≥ 0.90, (4.6) ce qu'on retrouve dans les problèmes de tests d'hypothèses multiples. Sous l'hypothèse nulle Hoi , f0 (z) est la densité normale centrée réduite. Soient P0 et P1 les mesures de probabilité associées à f0 et f1 . Alors, pour tout ensemble mesurable A, on a : P0 (A) = f0 (z)dz et P1 (A) = f1 (z)dz. A A La densité du mélange est donc : f (z) = π0 f0 (z) + π1 f1 (z) et on a : P (A) = π0 P0 (A) + π1 P1 (A). De façon générale, nous observons z ∈ A et nous voulons savoir s'il est généré par f0 ou f1 , c'est-à-dire s'il correspond au cas nul ou non-nul. La formule de Bayes implique : F DR(A) = P (null|z ∈ A) = π0 P0 (A) , P (A) (4.7) comme la probabilité a posteriori d'avoir un cas nul sachant z ∈ A. Basé sur la dénition de Benjamini et Hochberg, F DR(A) est l'approche bayésienne pour contrôler le taux de fausses découvertes : si A est la zone de rejet ou contient les cas non-nul F DR(A) est la probabilité d'avoir de faux positifs. 66 4.3.2 Estimation du taux non local de fausses découvertes Nous discutons dans cette partie du taux non local de fausses découvertes que nous notons Ψ pour le distinguer du taux de fausses découvertes et du taux local de fausses découvertes ψ qui est la forme dégénérée du taux non local. Dénition 4.5. Soient T la zone de rejet de l'hypothèse nulle, Ti la statistique de Student associée au test de comparaison de deux groupes. Soit Ai une variable indicatrice indiquant si l'hypothèse alternative est vraie. Le taux de fausses découvertes est déni par : Ψ(T) = P (Ai = 0|Ti ∈ T) = π0 0 (T) , (T) (4.8) où π0 = P (Ai = 0), (T) = P (Ti ∈ T) et 0 (T) = P (Ti ∈ T|Ai = 0). Bickel (2013) propose un estimateur du taux de fausses découvertes basé sur la loi binomiale dénit comme suit : 0 (T) Ψ(T; N+ (T)) = ∧ 1. (4.9) (T; N (T)) + Il l'obtient comme estimateur du maximum de vraisemblance de 0 (T)/(T) en substituant π0 par 1, et avec (T) = (T; N+ (T)) = N+ (T)/N . Si les tests statistiques sont indépendants, X = N+ (T) ∼ Bi(N, (T)) et (T) est en eet l'estimateur de maximum de vraisemblance de (T). L'équation (4.9) peut être réecrite de la façon suivante : (4.10) Nα , 1), Ψ(T; N+ (T)) = min( N i=0 1(pi ≤α) où N est le nombre total d'hypothèses testées, pi la p-valeur associée au test i, et 1(p ≤α) est une variable indicatrice égale à 1 si pi ≤ α et 0 sinon. Ainsi, Ni=0 1(p ≤α) représente le nombre total de rejets ou de découvertes. i i Exemple 17. Supposons que nous eectuons 20 tests d'hypothèses simultanément et que nous rejetons 8 d'entre elles au seuil α = 0.05. Nous pouvons donc estimer un taux de fausses découvertes à 20 ∗ 0.05/8 = 0.125. Ceci implique que parmi les 8 hypothèses nulles rejetées, une a été rejetée à tort en moyenne. 67 Le théorème suivant nous sera utile par la suite pour construire un intervalle de conance autour du taux non local de fausses découvertes. Théorème 7. Soient T une variable discrète ayant pour fonction de répartition FT (t|θ) = P (T ≤ t|θ), et α = α1 + α2 avec 0 < α < 1, α1 > 0 et α2 > 0. Supposons que : (a) Si FT (t|θ) est une fonction décroissante en θ pour tout t, on dénit θL (t) et θU (t) comme P (T ≤ t|θU (t)) = α1 , P (T ≥ t|θL (t)) = α2 ; (b) Si FT (t|θ) est une fonction croissante en θ pour tout t, on dénit θL (t) et θU (t) comme P (T ≥ t|θU (t)) = α1 , P (T ≤ t|θL (t)) = α2 , alors l'intervalle I(T ) = [θL (T ), θU (T )] est un intervalle de conance de niveau (1 − α) pour θ. Démonstration : voir Casella et Berger théorème 9.2.12, page 432. Lemme 8. Pour c ∈ [0, 1], soit X ∼ P (., (T)) de loi binomiale de paramètres N et (T). Soient Sc et Sc−1 tels que : Sc ((T), x) = P (X > x; (T)) + cP (X = x; (T)), et Sc−1 (Sc ((T), x); x) = (T). Alors on obtient des intervalles de conance unilatéraux de niveau (1 − α) mais avec probabilité de recouvrement ≥ (1 − α) pour (T) (Clopper et Pearson, 1934) dénis par [S1−1 (α; x), 1] ( unilatéral à gauche) et [0, S0−1 (1 − α; x)] (unilatéral à droite). Démonstration : Application du Théorème 7(a) en prenant α1 = 0 et α2 = α pour l'intervalle unilatéral à gauche et inversement pour l'autre intervalle. Corollaire 6. L'intervalle de conance unilatéral à gauche de l'estimateur du taux non local de fausses découvertes basé sur la loi binomiale est de la forme IC1−α (Ψ(T)) =[ 1, 1]. 68 0 (T) −1 S0 (1 − α; x) ∧ 4.3.3 Estimation du taux local de fausses découvertes Nous venons de présenter une méthode permettant d'estimer le taux de fausses découvertes quand on eectue plusieurs tests, mais cette dernière donne juste une estimation sur le taux de faux positifs commis. Cependant une valeur importante qu'on aimerait estimer, et qui est plus utile, est la probabilité d'accepter H0 pour une valeur bien donnée de ti . Cette probabilité est par la suite comparée à un seuil (dans la littérature, on utilise souvent le seuil 2%) en dessous de laquelle on rejette l'hypothèse nulle au lieu d'utiliser la p-valeur. C'est ceci que nous sbordons dans cette partie. Estimation du taux local de fausses découvertes basé sur la loi binomiale([15]) Dénition 4.6. La probabilité locale d'accepter l'hypothèse nulle pour une hypothèse i donnée est la probabilité d'accepter l'hypothèse nulle étant donné une statistique ti , une réalisation de Ti = T (Xi ) (Efron, 2010) : ψi = Ψ({ti }) = Ψ([ti , ti ]) = P (Ai = 0|Ti = ti ), (4.11) avec Ti suivant une densité gθ0 sous l'hypothèse nulle θi = θ0 et une autre densité galt sous l'hypothèse alternative θi = θ0 . D'après le théorème de Bayes, on a : ψi = P (θi = θ0 |ti ) = π0 gθ0 (ti ) , g(ti ) (4.12) où π0 = P (θi = θ0 ) est la proportion des hypothèses nulles qui sont vraies et g(ti ) = π0 gθ (ti ) + (1 − π0 )galt (ti ) la densité marginale de la statistique avec π0 et g(ti ) des inconnus. 0 Par dénition, le taux local de fausses découvertes évalué à ti est le taux non local de fausses découvertes évalué pour une zone de rejet T = {ti }, qui est un intervalle fermé dégénérée [ti , ti ]. Soit ri le rang de la p-valeur associée à l'hypothèse i, par exemple ri = 1 si la p-valeur du test i est la plus petite de toutes les p-valeurs associées aux N hypothèses. Le taux local de 69 fausses découvertes substituant α ψi sera estimé par l'estimateur du taux non local de fausses découvertes en par la p-valeur associée à deux fois le rang de pi si possible ou 1 sinon. Dénition 4.7. (Bickel, 2013) (4.9), l'estimateur du taux local de fausses découvertes Basé sur la modication de l'équation basé sur la loi binomiale de l'hypothèse i nommé BBE1 est : ⎧ ⎨ Ψ([0, p(2ri ) ]; N+ ([0, p(2ri ) ])) if ψi = ⎩ 1 if avec Ψ([0, p(2ri ) ]; N+ ([0, p(2ri ) ])) = ri ≤ N/2 , (4.13) ri > N/2 N p(2ri ) 0 ([0, p(2ri ) ]) ∧ 1 = min( , 1). ([0, p(2ri ) ]; N+ ([0, p(2ri ) ])) 2ri Corollaire 7. L'intervalle de conance pour ψi de niveau (1 − α) est déni par : CI1−α (ψi ) = ⎧ ⎪ ⎨ [0, p(2ri ) −1 S1 (α; 2ri ) ∧ 1]) ⎪ ⎩ [0, 1] N 2 N ri > . 2 ri ≤ Si Si (4.14) Estimation du taux local de fausses découvertes basé sur la méthode des histogrammes([18]) La méthode d'histogramme pour estimer le taux local de fausses découvertes a été introduite en 2004 par Efron. Il suppose dans sa démarche que la proportion des individus aectés ou des hypothèses réellement non-nulles proche de 1(voir statistic) où i Φ 4.6). Soit (N1 ) est faible, pas plus que 10%. Ainsi, il considère que π0 zi = Φ−1 (pi ) une transformation de la statistique est la fonction de répartition de la loi normale et pi ti est (z-transformed la p-valeur associée au test bilatéral. Alors, le taux local de fausses découvertes s'exprime de la façon suivante : ψi = P (Ai = 0|zi ) = avec f0 (zi ) , f (zi ) (4.15) f0 (z) la fonction de densité correspondant à l'hypothèse nulle et f (z) la fonction de densité marginale Basé sur f (z) = π0 f0 (z) + (1 − π0 )falt (z). (4.15), Efron (2004) propose l'estimateur nommé HBE : f0 (zi ) , ψi = f(zi ) 70 (4.16) avec f un estimateur de f basé sur la méthode non-paramétrique de la régression de Poisson (voir Efron 2010a). ψi = ψiHBE si l'on pose la densité f0 comme celle de la loi normale N (0, 1), et ψi = ψiHBE.EN si la densité f0 est estimée empiriquement (voir Efron, 2010b). Telles que rapportées dans la littérature, les méthodes d'estimation du taux local de fausses découvertes appliquées sur une base de données de taille moyenne entrainent souvent des biais considérables (voir Padilla et Bickel(2012), Bickel(2013)). Dans la prochaine section, nous parlerons un peu de ces biais et nous proposerons des corrections basées sur des procédures de bootstrap. 4.3.4 Estimateur du taux local de fausses découvertes corrigé Les estimateurs BBE1 et HBE sont biaisés dès qu'ils sont appliqués sur des bases de données de taille moyenne (Small-scale Inference). Dans le cas de l'estimateur proposé par Bickel (BBE1), une des raisons d'apparition de ce biais vient du fait qu'on estime π0 par 1, or qu'en réalité, cette proportion est inférieure à 1 (voir Bickel 2013). Dans le cas de l'estimateur HBE, les méthodes d'estimation de π0 et falt dans l'équation (4.15) nécessitent l'utilisation des méthodes d'estimation par histogramme. Or celles-ci étant reliées aux données, une application sur des données de taille moyenne entraîne des biais. Pour remédier à ce problème, nous proposons des méthodes de correction basées sur la technique du Bootstrap. Étant donné qu'en estimation, on désire toujours avoir un estimateur ayant un biais et une variance faible, nous utiliserons l'erreur quadratique moyen pour l'estimateur ponctuel et la probabilité de recouvrement pour l'estimateur par intervalle an d'évaluer nos corrections. Soit ψi , i = 1, ..., N un estimateur du taux local de fausses découvertes. On fait un tirage aléatoire avec remise pour chaque ψi , i = 1, ..., N et ceci B fois. Nous obtenons la matrice qui 71 suit : ⎛ ψ11 ψ12 ··· ψ1N ⎞ ⎜ ⎟ ⎜ ⎟ ⎜ ψ21 ψ22 · · · ψ2N ⎟ ⎜ ⎟ ⎜ .. .. .. ⎟ .. ⎜ . . . . ⎟ ⎝ ⎠ ψB1 ψB2 · · · ψBN Soit ψi∗ la valeur associée après application du Bootstrap avec ψi∗ = B j=1 ψji /N . On a : ∗ avec B ψi le biais estimé et C ψi B ψi = E(ψi ) − ψi = ψi − ψi (4.17) C ψi = ψi − B ψi , (4.18) l'estimateur corrigé. Nous pouvons donc calculer l'erreur qua- dratique moyen comme suit : EQM (ψi ) = E(C ψi − ψi )2 . (4.19) 4.3.5 Simulations Dans cette section, dans le but d'étudier la performance de nos estimateurs corrigés, nous ferons quelques simulations. Les estimateurs ont été comparés en utilisant les données issues du niveau d'abondance des protéines pour le cancer du sein. Nous prenons (niveau d'abondance de protéines) obtenus chez de contrôle (respectivement matrice X de N lignes, n1 = 3 n1 + n2 et n2 = 3). colonnes et n1 = 50 lant de θa = 0 nous prenons 10 n2 = 50 xij =niveau à 0%(S = N ) valeurs de S à savoir sujets θa = 0, 5 (ou 1, 5) pour les sujets ma- pour chaque N et θa . Par exemple, pour S = 0, 1, 2, 3, 4, 6, 10, 15, 18, 20 π0 Respectivement, pour N =5 , on a S = 0, 1, 2, 3, 4, 5 72 et al- N = 20, ce qui correspond à π0 = 20/20 (100%), 19/20 (95%), 18/20 (90%), 17/20 (85%), 16/20 (80%), ..., 2/20 (10%) 0%. 20 d'abondance de protéine i chez le pour les sujets de contrôle. Nous considérons diérentes valeurs de 100%(S = 0) ou Les données peuvent être vues comme une sujet j qui sont issues d'une loi normale de moyenne lades et sujets malades et N = 5 π0 = 5/5 (100%), 4/5 (80%), et 3/5 (60%), 2/5 (40%), 1/5 (20%) et 0%. Résultats et discussions : Les résultats de nos simulations sont présentés dans les gures ci-dessous. Les Figures 3.1 et 3.2 représentent la moyenne de l'estimation de l'erreur quadratique moyenne (EQM). En abscisse, nous avons le nombre de protéines aectés. En ordonnée, la moyenne de l'EQM pour le groupe aecté d'une part et non aecté d'autre part. Les Figures 3.3 et 3.4 représentent la moyenne des probabilités de recouvrement fréquentistes pour les protéines aectées et non aectées. En premier lieu, force est de constater que les corrections eectuées pour l'estimation ponctuelle n'ont pas amélioré la performance des estimateurs vu que l'erreur quadratique moyen a augmenté considérablement peu importe les groupes (aectés ou non, voir gure 3.1 et 3.2). Cependant, en regardant les probabilités de recouvrement, nous pouvons remarquer a priori sur les estimateurs non corrigés et non transformés que l'estimateur BBE1 recouvre mieux la vraie valeur du paramètre comparé à l'estimateur HBE. En deuxième lieu, nous observons une augmentation de la probabilité de recouvrement de l'estimateur HBE en utilisant la transformation probit et sans aucune correction avec un intervalle de conance construit avec la méthode de variance. Nous obtenons les mêmes résultats pour un N = 5 et N = 20 et en variant le parmaètre θa . 73 0.3 0.2 0.1 0.0 0 1 hbe bbe1 1 Non c n.aff Non c hbe bbe1 2 2 0 1 n.aff 1 C sans transformation hbe bbe1 C sans transformation hbe bbe1 2 2 0 1 hbe n.aff 1 C+transformation log bbe1 C+transformation log hbe bbe1 2 2 N = 5, n1 = n2 = 50 n.aff n.aff n.aff 0.1 0.0 mean.MSE.aff mean.MSE.unaff 0.5 0.4 0.3 0.1 0.0 0.2 0.3 0.2 0.1 0.0 0.5 0.4 0.3 mean.MSE.aff mean.MSE.unaff 0.1 0.2 0.3 0.2 0.1 0.0 0.5 0.4 0.3 mean.MSE.aff mean.MSE.unaff 0.3 0.0 0.2 mean.MSE.aff mean.MSE.unaff 0.2 0.1 0.0 0.5 0.4 0.3 0.2 0.1 0.0 Figure 4.1: Erreur quadratique moyene pour 74 et θa = 0.5. 0 1 n.aff 1 n.aff hbe bbe1 C+transformation Probit hbe bbe1 C+transformation Probit 2 2 0.4 0.3 0.2 0.1 0.0 0.4 0.3 0.2 0 1 hbe bbe1 1 Non c n.aff Non c hbe bbe1 2 2 0 1 n.aff 1 C sans transformation hbe bbe1 C sans transformation hbe bbe1 2 2 0 1 hbe n.aff 1 C+transformation log bbe1 C+transformation log hbe bbe1 2 2 N = 20, n1 = n2 = 50 n.aff n.aff n.aff 0.1 0.0 mean.MSE.aff mean.MSE.unaff 0.4 0.3 0.2 0.1 0.0 0.4 0.3 0.1 0.0 0.2 mean.MSE.aff mean.MSE.unaff 0.4 0.3 0.2 0.1 0.0 0.4 0.3 0.1 0.0 0.2 mean.MSE.aff mean.MSE.unaff 0.4 0.3 0.2 0.1 0.0 0.4 0.3 0.2 mean.MSE.aff mean.MSE.unaff 0.1 0.0 Figure 4.2: Erreur quadratique moyene pour 75 et θa = 0.5. 0 1 n.aff 1 n.aff hbe bbe1 C+transformation Probit hbe bbe1 C+transformation Probit 2 2 1.0 0.9 0.8 0.7 0 1 n.aff HBE(Prob recouv) 1 n.aff BBE(Prob recouv ) BBE(Prob recouv conditionnelle) Non c HBE(Prob recouv) BBE(Prob recouv ) BBE(Prob recouv conditionnelle) Non c 2 2 1.0 0.9 0.8 0.7 0.6 0.5 0 1 n.aff HBE BBE n.aff 1 Non.c.sans.transform(var.méthode) HBE BBE Non.c.sans.transform(var.méthode) 2 2 1.0 0.9 0.8 0.7 0.6 0.5 0 1 n.aff HBE BBE n.aff 1 Non.c.log.transform(var.méthode) HBE BBE Non.c.log.transform(var.méthode) 2 2 1.0 0.9 0.8 0.7 0.6 0.5 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 mean.cov.aff mean.cov.unaff 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 mean.cov.aff mean.cov.unaff 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 mean.cov.aff mean.cov.unaff 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 mean.cov.aff mean.cov.unaff 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Figure 4.3: Probabilité de recouvrement fréquentiste pour θa = 0.5. 76 N = 5, n1 = n2 = 50 et 0 1 n.aff HBE BBE n.aff 1 Non.c.probit.transform(var.méthode) HBE BBE Non.c.probit.transform(var.méthode) 2 2 1.0 0.9 0.8 0.7 0 1 n.aff HBE(Prob recouv) 1 n.aff BBE(Prob recouv ) BBE(Prob recouv conditionnelle) Non c HBE(Prob recouv) BBE(Prob recouv ) BBE(Prob recouv conditionnelle) Non c 2 2 1.0 0.9 0.8 0.7 0.6 0.5 0 1 n.aff HBE BBE n.aff 1 Non.c.sans.transform(var.méthode) HBE BBE Non.c.sans.transform(var.méthode) 2 2 1.0 0.9 0.8 0.7 0.6 0.5 0 1 n.aff HBE BBE n.aff 1 Non.c.log.transform(var.méthode) HBE BBE Non.c.log.transform(var.méthode) 2 2 1.0 0.9 0.8 0.7 0.6 0.5 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 mean.cov.aff mean.cov.unaff 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 mean.cov.aff mean.cov.unaff 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 mean.cov.aff mean.cov.unaff 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 mean.cov.aff mean.cov.unaff 0.4 0.3 0.2 0.1 0.0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Figure 4.4: Probabilité de recouvrement fréquentiste pour θa = 0.5. 77 N = 20, n1 = n2 = 50 et 0 1 n.aff HBE BBE n.aff 1 Non.c.probit.transform(var.méthode) HBE BBE Non.c.probit.transform(var.méthode) 2 2 CONCLUSION Le travail présenté dans ce mémoire s'articule autout de deux volets. Soit celui de la performance fréquentiste d'intervalles de conance bayésiens dans des espaces paramétriques contraints et en deuxième lieu, celui du taux de fausse découverte lorsqu'on réalise plusieurs tests d'hypothèses. Le Chapitre 1 expose des théories préliminaires sur l'estimation bayésienne et fréquentiste par intervalle ainsi que quelques propriétés statistiques. Plusieurs exemples sont développés dans ce chapitre. Au Chapitre 2 dans la Section 2.1, nous avons développé la théorie de construction de l'intervalle de conance de Marchand et Strawderman dans [10] et les propriétés associées à la probabilité de recouvrement fréquentiste de ces intervalles. Une illustration a été présentée dans la section suivante. Dans la Section 2.3, nous obtenons de nouveaux résultats sur la probabilité de recouvrement fréquentiste de l'intervalle bayésien et aussi sur la crédibilité de l'intervalle fréquentiste. Le Chapitre 2 se termine par des illustrations dans la Section 2.4. Les résultats principaux de cette première partie sont très signicatifs et ont une portée large pour des problèmes d'estimation par intervalles dans des espaces paramétriques compacts. D'une part, on obtient une borne supérieure de la probabilité de recouvrement fréquentiste minimale d'intervalles de conance bayésiens mettant en évidence le caractère inévitable d'une discordance entre la crédibilité et la probabilité de recouvrement fréquentiste. D'autres part, on démontre qu'un intervalle avec probabilité de recouvrement fréquentiste (1 − α) doit, pour certaines régions de l'espace des observations et pour des contraintes susamment serrées, parfois correspondre à tout l'espace paramétrique. Il paraît vraisemblable que ces phénomènes s'étendent pour un grand nombre de 78 modèles. L'article associé à ses résultats se trouve dans le Chapitre 3. Il convient de noter que ses résultats ont été obtenus dans le cadre d'une variance connue. Il serait intéressant de voir le cas d'une variance inconnue comme recherche future. Par ailleurs, au Chapitre 4, des corrections ont été eectuées sur les estimateurs du LFDR donnant lieu à une amélioration. Il est important de noter que la méthode utilisée (Clopper et Pearson) dans le cadre du BBE donne un intervalle très grand ce qui permet l'obtention de grandes probabilités de recouvrement fréquentiste. Par conséquent, une autre méthode de construction d'intervalle de conance pourrait s'avérer utile comme recherche future. Un article est en rédaction dans ce cadre en collaboration avec David Bickel et Fahimeh Moradi (Université d'Ottawa). 79 Bibliographie [1] M. Bagnoli et T. Bergstrom (2005). Log-concave probability and its applications. Economic Theory, Vol 26, 445 469. [2] C.P. Robert (2006). Le choix bayésien. Principes et pratique, Springer. [3] G. Casella et R.L. Berger (2002). Statistical inference. Seconde édition, Duxbury Advanced Series. [4] G.J. Feldman et R. Cousins (1998). Unied approach to the classical statistical analysis of small signals. Physical Review, Vol 57, 3873 3889. [5] M. Mandelkern (2002). Setting condence intervals for bounded parameters. Statistical Science, Vol 17, 149 172. [6] J.W. Pratt (1961). Length of condence intervals. J. Amer. Statist. Assoc, Vol 56, 541 567. [7] A. Lmoudden (2008). Sur les intervalles de conance bayésiens pour des espaces de paramètres contraints. Mémoire de maîtrise, Département de mathématiques, Université de Sher- brooke (http ://savoirs.usherbrooke.ca/handle/11143/4790) [8] É. Marchand et W.E. Strawderman (2013). On Bayesian credible sets, restricted parameter spaces and frequentist coverage. Electron. J. Stat, Vol 7, 1419 1431. [9] B. Roe et M. Woodroofe (2000). Setting condence belts. 80 Physical Review, Vol 63, 01 09. [10] É. Marchand, W.E. Strawderman, K. Bosa et A. Lmoudden (2008), On the frequentist coverage of Bayesian credible intervals for lower bounded means. Electron. J. Stat, Vol 2, 1028 1042. [11] S.N. Evans, B.B. Hansen et P.B. Stark (2005). Minimax expected measure condence sets Bernoulli, Vol 11, 571 590. for restricted location parameters. [12] T. Zhang et M. Woodroofe, (2002). Credible and condence sets for the ratio of variance components in the balanced one-way model. The Indian Journal of Statistics, Vol 64, 545-560. [13] Y. Benjamini, Y. Hochberg (1995). Controlling the false discovery rate : a practical and powerful approach to multiple testing. Journal of the royal statistical society. Series B(Methodlogical), 57(1), 289 300. [14] D. R. Bickel et M. Padilla (2012). Empirical Bayes methods corrected for small numbers of tests. Stat. Applications Genet. Mol. Biol, 11(5), art.4. [15] D. R. Bickel. (2013). Simple estimators of false discovery rates given as few as one or two p-values without strong parametric assumptions. Stat. Applications Genet. Mol. Biol, 12(4), 529 543. [16] B. Efron (2010). Large-Scale Inference : Empirical bayes methods for estimation, testing, and prediction, Cambridge University Press. [17] E. Ghashim (2013). Une classe d'intervalles bayésiens pour des espaces de paramètres restreints. Mémoire de maîtrise, Département de mathématiques], Université de Sherbrooke (http ://savoirs.usherbrooke.ca/handle/11143/52) [18] B. Efron (2004). Large-scale simultaneous hypothesis testing : The choice of a null hypothesis. Journal of the American Statistical Association, 99, 96 104. 81 [19] J. J. Goeman et A. Solari (2012). Tutorial in biostatistics : multiple hypothesis testing in genomics. Statistics in Medicine, (00), 1 27. [20] B. Efron, R. Tibshirani, J.D. Storey et V. Tusher (2001). Empirical Bayes analysis of a microarray experiment. J. Amer. Statist. Assoc, 82 (96), 1151 1160.