Une classe d'intervalles bayésiens pour des espaces de paramètres restreints par Ehssan Ghashim mémoire présenté au Département de mathématiques en vue de l'obtention du grade de maître ès sciences (M.Sc.) FACULTÉ DES SCIENCES UNIVERSITÉ DE SHERBROOKE Sherbrooke, Québec, Canada, décembre 2013 Le 11 décembre 2013 le jury a accepté le mémoire de Monsieur Ehssan Ghashim dans sa version finale. Membres du jury Professeur Éric Marchand Directeur de recherche Département de mathématiques Professeur William E Strawderman Examinateur externe Rutgers University Professeur Taoufik Bouezmarni Président rapporteur Département de mathématiques Je ne sais pas par quoi commencer lorsqu'on veut exprimer un sentiment très particulier pour un homme pas comme les autres : C'est lui qui m'a éduqué, il m'a protégé, c'est lui qu'il m'a tracé mes premiers pas à l'école et dans la discipline du mathématiques. C'est mon père. Maman, il se peut que je ne sois jamais capable de trouver les mots justes, mais cela ne m'empêchera pas d'essayer. Toute ma vie, je m'eorcerai d'exprimer ces doux remerciements avec chaque petit geste et chaque grand baiser ; parce que tu remplis mon c÷ur de tant de joie et ma vie de tant d'amour. Comment ne pas oublier mes s÷urs et mes frères qui n'ont cessé de me soutenir pendant tout mon parcours. Je leur exprime toute ma gratitude pour leur soutien moral, ce qui m'a permis d'être à ce niveau. Ma ancée, merci d'être là, à côté de moi, avec toi c'est l'éternel bonheur à chaque instant. Les moments passés près de toi je ne peux pas les oublier ! ! Ils resteront à jamais gravés dans ma mémoire. Je t'aime. MAHMOUD GHASHIM qu'Allah RWIDA ZARNAJI, à ma ancée BANA Tout ce travail est dédié, à mon chère père, bénisse son âme, à ma chère mère , et à mes s÷urs et mes frères. SHAHHET i SOMMAIRE Ce mémoire traite d'une méthode bayésienne, analysée par Marchand et Strawderman [1], pour la construction d'intervalles bayésiens pour des modèles de densités continues avec contrainte sur l'espace des paramètres Θ. Notamment, on obtiendra une classe d'intervalles bayésiens Iπ ,α(·), associés à la troncature d'une loi a priori non-informative π0 et générés par une fonction de distribution α(·), avec une probabilité de recouvrement bornée inférieurement par 1−α . Cette classe inclut la procédure 1+α HPD donnée par Marchand et Strawderman [3] dans le cas où la densité sous-jacente d'un pivot est symétrique. Plusieurs exemples y illustrent la théorie étudiée. Finalement, on présentera de nouveaux résultats pour la probabilité de recouvrement des intervalles bayésiens appartenant à la classe étudiée pour des densités log-concaves. Ces résultats établissent la borne inférieure à 1 − 3α2 et généralisent les résultats de Marchand et al.[2] tenant sous une hypothèse de symétrie. 0 iii GLOSSAIRE Voici un glossaire utile pour les notions et dénitions utilisées dans ce mémoire. : une fonction du paramètre θ à estimer. (θ) : un pivot linéaire du modèle de statistique f (x|θ). • T (X, θ) = a (X)−τ a (X) • g : la densité du pivot linéaire T (X, θ). • G : la fonction de répartition du T (X, θ). • G−1 : la fonction de répartition inverse du T (X, θ). • πH : la loi a priori de Haar invariante à droite. • π0 : la loi a priori tronquée de πH sur l'espace des paramètres [0, ∞) et donnée par π0 (θ) = πH (θ) I[0,∞) (τ (θ)). • Iπ ,α(·) = lπ ,α(·) (x), uπ ,α(·) (x) : intervalle de conance bayésien associé à une loi a priori π0 et généré par une fonction de distribution α(·). • α(·) : fonction de distribution Rp → [0, α] et P τ (θ) ≥ uπ ,α(·) (x)|x = α(x). • Cα(·) (θ) = Pθ Iπ ,α(·) (x) τ (θ) . • C : une sous-classe d'intervalles bayésiens étudiée. • Iπ ,α (·) (X) : l'intervalle bayésien à ailes égales généré par la fonction de distribution αég (x). α • t0 = −G−1 ( 1+α ) ≥ 0 : le point où α(x) = α pour x ≤ t0 . • τ (θ) 1 2 0 0 0 0 0 0 ég v i REMERCIEMENTS En préambule à ce mémoire je remercie ALLAH qui m'aide et me donne la patience et le courage durant ces longues années d'étude. Je souhaite adresser mes remerciements les plus sincères aux personnes qui m'ont apporté leur aide et qui ont contribué à l'élaboration de ce mémoire. Je souhaite remercier en premier lieu mon directeur de recherche, Monsieur Éric Marchand, professeur de statistique au Département de mathématiques de l'Université de Sherbrooke pour m'avoir accueilli au sein de son équipe. Je lui suis également reconnaissant pour sa grande disponibilité au quotidien qu'il m'a accordée, ses qualités pédagogiques et scientiques, sa franchise et sa sympathie. J'ai beaucoup appris à sa côté et je lui adresse ma gratitude pour tout cela. Je le remercie aussi pour le soutien nancier qu'il m'a apporté. Un grand remerciement très particulier premièrement, à mon pays la SYRIE et surtout l'Université de DAMAS , pour la bourse qu'elle m'a accordée durant mes études, et deuxièmement pour mes professeurs, Monsieur Bechir Ghorra, Monsieur Hassaan Aakel, et Monsieur Ezat Kassem, ainsi que tous les membres du Département de statistiques de l'Université de DAMAS en SYRIE. Mes plus vifs remerciements s'adressent aussi à tout le cadre professoral et adminisv tratif de Département de mathématiques de l'Université de Sherbrooke et en particulier le professeur Taouk Bouezmarni pour ses encouragements et ses conseils. Merci Marie-France Roy d'être toujours là. Enn, je dois également souligner le support nancier de Département de mathématiques de l'Université de Sherbrooke. Ehssan Ghashim Sherbrooke, 2013 vi TABLE DES MATIÈRES SOMMAIRE iii GLOSSAIRE iv REMERCIEMENTS v TABLE DES MATIÈRES vii LISTE DES FIGURES viii INTRODUCTION 1 CHAPITRE 1 Notions Préliminaires 4 1.1 Dénitions et intervalles de conance . . . . . . . . . . . . . . . . . 4 1.2 L'inférence bayésienne . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.2.1 14 Intervalle de conance bayésien HPD . . . . . . . . . . . . . vii CHAPITRE 2 Probabilité de recouvrement fréquentiste de l'intervalle HPD 20 2.1 Illustration : cas d'une loi normale avec moyenne positive . . . . . . 21 2.2 Cadre général avec des densités symétriques : la borne inférieure 1−α 1+α 26 CHAPITRE 3 Probabilité de recouvrement fréquentiste pour une classe d'intervalles bayésiens 33 3.1 3.2 Cadre général avec ou sans symétrie : la borne inférieure 1−α 1+α pour la probabilité de recouvrement fréquentiste . . . . . . . . . . . . . . . . 34 3.1.1 41 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cadre général avec ou sans symétrie : la borne inférieure 1 − 3α pour 2 la probabilité de recouvrement fréquentiste . . . . . . . . . . . . . . 3.2.1 Dénitions et propriétés préliminaires 3.2.2 La borne inférieure 1 − 3α 2 56 . . . . . . . . . . . . 57 avec des densités log-concaves . . 59 CONCLUSION 75 BIBLIOGRAPHIE 77 viii LISTE DES FIGURES 1.1 La longueur moyenne de l'intervalle de Pratt et de l'intervalle usuel pour a = Φ−1 (1 − α) et 1-α=0.95. . . . . . . . . . . . . . . . . . . 12 1.2 La crédibilité de l'intervalle de Pratt, loi a priori π(θ) = 1 et 1-α=0.95. 16 1.3 La probabilité de recouvrement de IπN et IπH pour 1-α=0.95. . . . . 18 2.1 L'intervalle HPD pour le modèle N( θ,1) et 1-α=0.90. . . . . . . . . 23 2.2 La probabilité de recouvrement fréquentiste de l'intervalle IHP D (X) pour le modèle N(θ,1) et 1-α=0.9. . . . . . . . . . . . . . . . . . . 25 2.3 L'intervalle HPD pour le modèle Logistique( θ,1) et 1-α=0.90. . . . . 31 2.4 La probabilité de recouvrement pour le modèle Logistique( θ,1) et 1- α=0.90. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 3.2 32 Les fonctions de distribution α(·) pour le modèle Gamma(5, θ), θ ≥ 1, et 1-α=0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Intervalles bayésiens pour le modèle Gamma(5, θ), θ ≥ 1, 1-α=0.95. . 46 ix 3.3 Les probabilités de recouvrement associées aux intervalles bayésiens pour le modèle Gamma(5, θ), θ ≥ 1 et 1-α=0.95. . . . . . . . . . . . 3.4 47 Les fonctions de distribution α(·) pour le modèle Fisher(4,12), θ ≥ 1, et 1-α=0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.5 Intervalles bayésiens pour le modèle Fisher(4,12) et 1- α=0.95. . . . 50 3.6 Les probabilités de recouvrement associées aux intervalles bayésiens pour le modèle Fisher(4,12), θ ≥ 1 et 1-α=0.95. . . . . . . . . . . . 3.7 51 Les fonctions de distributions α(·) pour le modèle N (θ, 1), θ ≥ 0, et 1-α=0.90. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.8 Intervalles bayésiens pour le modèle N (θ, 1), θ ≥ 0, et 1-α=0.90. . . 53 3.9 Les probabilités de recouvrement associées aux intervalles bayésiens pour le modèle N (θ, 1), θ ≥ 0 et 1-α=0.90. . . . . . . . . . . . . . . x 54 INTRODUCTION Le but principal de la Statistique est d'obtenir, à partir d'un ensemble d'observations d'un phénomène aléatoire, une inférence sur la distribution d'un échantillon d'un tel phénomène. Il s'agit de décrire un phénomène passé ou d'obtenir une prédiction d'un phénomène à venir de nature similaire. L'inférence statistique dépend d'un modèle de probabilité du phénomène observé et implique nécessairement une étape de formalisation réductrice. Sans cette notion probabiliste, aucune conclusion utile ne pourra être déduite. Face à cette réduction de la complication du phénomène observé, il existe diverses approches statistiques : l'une d'elles est l'approche non paramétrique et une autre représente la distribution d'un échantillon par une fonction de densité f (x|θ) où le paramètre θ, qui est de dimension ni, est le seul inconnu. Cette approche est dite l'approche paramétrique. Considérons cette dernière approche, il y a deux méthodes pour estimer le paramètre θ, ou une fonction τ (θ) : la première est dite l'estimation ponctuelle et la deuxième est l'estimation par intervalle. Concernant la méthode de l'estimation par intervalle, on peut distinguer trois classes de méthodes pour construire un intervalle (ou une région) de conance pour le paramètre θ : les méthodes classiques dites aussi fréquentistes, La méthode de Fisher (appelée F iducial intervals), et les méthodes bayésiennes qui considèrent que le paramètre θ inconnu est aléatoire et que θ suit une loi a priori π sur l'espace des paramètres Θ. 1 Ce présent travail traite de l'estimation par intervalle dans le cas où l'espace des paramètres Θ est restreint. Par exemple, soit un modèle de statistique X ∼ Fθ (·), une méthode pour trouver un intervalle de conance de niveau 1 − α, pour le paramètre θ d'un tel espace Θ, est de tronquer un intervalle classique I(x) du θ qui préserve toujours la probabilité de recouvrement fréquentiste. Toutefois, il peut arriver que l'intervalle soit vide ou jugé trop court par l'utilisateur. Ce problème a été traité par plusieurs auteurs dont Mandelkern [9], Roe et Woodroofe [4] et Zhang et Woodroofe ([5], [6]). En eet, ils ont étudié l'estimation par intervalle bayésien associé à une loi a priori non-informative, et notamment la probabilité de recouvrement fréquentiste des intervalles bayésiens qui en découlent. En fait, dans [9], Mandelkern traite deux problèmes d'estimation en physique dont le premier est basé sur le modèle de loi normale X ∼ N(μ, 1), où μ ≥ 0 et le deuxième concerne l'estimation du paramètre λ ≥ 0 d'un modèle de Poisson P0(λ + b) avec b connue. Roe et Woodroofe [4] et Zhang et Woodroofe [5] ont utilisé l'inférence bayésienne pour trouver un intervalle de conance bayésien le plus court (HPD) de la moyenne θ d'un modèle N(θ, σ2) (avec σ2 connue dans [4] et inconnue dans [5]) avec la contrainte θ ≥ 0. Ils ont établi une borne inférieure 1−α pour la probabilité de 1+α recouvrement fréquentiste de cet intervalle. En 2006, Marchand et Strawderman [3] ont étudié de façon générale ce type de problème. Notamment, ils ont construit une procédure pour trouver un intervalle de conance bayésien HPD, associé à la loi a priori non-informative tronquée de la mesure de Haar invariante à droite, pour des lois admettant un pivot linéaire T (X, θ) ayant une densité continue et unimodale. En plus, ils ont démontré que la borne inférieure 1−α , de la probabilité de recouvre1+α ment fréquentiste de l'intervalle HPD, est valable pour une grande classe de lois et de contextes. Tandis que Marchand et al. [2] ont établi la borne inférieure 1 − 3α2 , qui représente une amélioration signicative par rapport à la borne 1−α lorsque α ≤ 13 , 1+α 2 de la probabilité de recouvrement pour le cas où la densité d'un pivot est symétrique et log-concave. Ces deux bornes demeurent non applicables pour les cas où la densité du pivot sous-jacent n'est pas symétrique, même s'il est plausible (dans [3]) que la probabilité de recouvrement minimale est bornée inférieurement par 1−α . 1+α Dans ce mémoire, divisé en trois chapitres, on traitera une méthode d'estimation par intervalle bayésien avec contrainte sur l'espace des paramètres en se basant sur les résultats de Marchand et Strawderman [1], où les lois a priori utilisées sont la troncature des densités Haar invariantes à droite. Notamment, on étudiera la probabilité de recouvrement d'un tel intervalle bayésien Iπ0 ,α(·) associé à la loi a priori π0 et généré par une fonction de distribution α(·) qu'on dénira au chapitre 3. Dans le premier chapitre, on donnera quelques notions préliminaires en statistique qu'on a jugé intéressantes pour la compréhension des intervalles de conances bayésiens, l'intervalle HPD, et leurs probabilités de recouvrement. Les méthodes de Roe et Woodroofe [4] et Marchand et Strawderman [3], pour un problème particulier où la densité d'un pivot sous-jacent est symétrique et unimodale, font partie du chapitre 2. Dans le troisième chapitre, on exposera les résultats de Marchand et Strawderman [1]. Dans la Section 3.1, une classe d'intervalles bayésiens, qui inclut l'intervalle HPD dans le cas où la densité du pivot sous-jacent est symétrique, avec une probabilité de recouvrement supérieure à 1−α , 1+α est obtenue. De plus, à la Section 3.2, on présentera de nouveaux résultats pour la probabilité de recouvrement et on établira la borne inférieure 1 − 3α 2 de la probabilité de recouvrement d'un intervalle bayésien à ailes égales dans le cas où la densité du pivot T (X, θ) est unimodale en 0 et log-concave. Ces résultats font l'objet d'une collaboration avec Bill Strawderman et Éric Marchand. 3 CHAPITRE 1 Notions Préliminaires 1.1 Dénitions et intervalles de conance Dans cette section, on donne quelques dénitions et notions préliminaires qu'on a jugé intéressantes pour la compréhension des intervalles de conance bayésiens et de leurs probabilités de recouvrement fréquentiste. Dénition 1. Une densité f sur R est dite symétrique par rapport à c ∈ R si : f (t + c) = f (c − t), pour tout t ∈ R. Dénition 2. Une densité f de probabilité sur R est unimodale autour d'un mode, m ∈ R, si la fonction de répartition de cette loi est convexe ( f croissante) sur (−∞, m] et concave (f décroissante) sur (m, ∞). Exemple 1. La densité de loi normale N(μ, σ ) est symétrique et unimodale autour 2 de μ, la densité de loi Cauchy de m. 1 π 1 + (x − m)2 4 est symétrique et unimodale autour Dénition 3. (a) Soit f0 (t) une densité. Alors la famille des densités f0 (t − μ), indexée par le paramètre μ, −∞ < μ < ∞ , est dite une famille de position et μ est dit le paramètre de position pour cette famille. (b) Soit f0 (t) une densité. Alors la famille des densités ( σ1 )f0 ( σt ), indexée par le paramètre σ > 0 , est dite une famille d'échelle et σ est dit le paramètre d'échelle pour cette famille. (c) Soit f0 (t) une densité. Alors la famille des densités ( σ1 )f0 ( t−μ ), indexée par le σ paramètre (μ, σ), −∞ < μ < ∞ et σ > 0, est dite une famille de positionéchelle ; μ est dit le paramètre de position et σ est dit le paramètre d'échelle. Exemple 2. (a) Soit X ∼ Exp(1) dont sa densité est f (x) = e 0 −x , x ≥ 0. Alors pour obtenir une famille de position, on remplace x par x − μ et la densité de cette famille de position est f (x, μ) = e−(x−μ) , x ≥ μ. (b) Le modèle Gamma(r, θ), r connu, est un modèle à paramètre d'échelle θ > 0 où la densité f est donnée par f (t) = 1θ f0 ( θt ) avec tr−1 e−t I(0,∞) (t). f0 (t) = Γ(r) (c) Soit X ∼ Student de densité f0 (t) avec n − 1 degrés de liberté. On dit que la famille des densités ( σ1 )f0 ( t−μ ) est Student avec paramètre de position μ et de σ paramètre d'échelle σ avec n − 1 degrés de liberté. Dénition 4. Soit un modèle de probabilité X ∼ f (·), θ où (X1 , . . . , Xn ) ∼ f0 (·), θ ∈ Θ. (a) On dit que la variable aléatoire T(X, θ) est un pivot si sa loi de probabilité est indépendante de θ, ∀θ ∈ Θ. (b) On dit que la variable aléatoire T (X, θ) est un pivot linéaire si elle est un pivot 5 qui s'écrit sous la forme suivante : T (X, θ) = a1 (X) − τ (θ) , a2 (X) où a1 (·) et a2 (·) sont des fonctions de l'observé et τ (·) est une fonction de θ prenant des valeurs dans Exemple 3. R. Soit X=(X1 , . . . , Xn ) où X1 , . . . , Xn sont des variables aléatoires iid X̄ − μ √ est un pivot linéaire avec a1 (x) = N(μ, σ 2 ) , σ connu. Posant θ = μ, on a que σ/ n √ x̄, a2 (x) = σ/ n, τ (θ) = μ et sa densité est N(0, 1). Si σ inconnu , posant θ = (μ, σ), X̄ − μ √ √ est un pivot linéaire avec a1 (x) = x̄, a2 (x) = S/ n, τ (θ) = μ et sa on a que S/ n √ densité est Student centrée en x, de paramètre d'échelle s/ n, et avec n − 1 degrés de liberté (Exemple 2). Dénition 5. Soit X=(X1 , . . . , Xn ) ∼ fθ (·) un n-échantillon, θ ∈ Θ. Supposons qu'on désire à estimer τ (Θ) ⊆ R et qu'on peut trouver deux fonctions de l'observé a, b : Rn → R telles que : Pθ (a(X) ≤ τ (θ) ≤ b(X)) ≥ 1 − α, ∀θ ∈ Θ. (1.1) L'intervalle [a(X), b(X)] est alors appelé un intervalle de conance pour τ (θ) avec niveau de conance (1 − α). Maintenant, si T (X, θ) est un pivot, alors on peut trouver a et b tels que : P (T (X, θ) ∈ [a, b]) = 1 − α, pour tout θ ∈ Θ, et ainsi P (I(X) τ (θ)) = 1 − α où I(x) = {τ (θ) : T (x, θ) ∈ [a, b]} est l'intervalle de conance de niveau 1 − α. Dans le cas où T (X, θ) est un pivot linéaire avec a2 (·) > 0, on obtient : 6 I(x) = θ : a1 (x)−τ (θ) a2 (x) ∈ [a, b] = [a1 (x) − b a2 (x), a1 (x) − a a2 (x)]. Il est possible qu'il y ait plusieurs intervalles de conance pour de conance (1 − α). θ avec le même niveau Il est clair qu'on pourrait être intéressé par le plus court. Ce problème admet une élégante solution lorsque la densité de T (X, θ) est unimodale. Voici une illustration. Exemple 4. (a) Soit d'échelle. On a que que Pθ (a ≤ X θ X θ X ∼ Gamma(r, θ), r ∼ Gamma(r, 1) ≤ b) = 1 − α. connu et pour tout θ, θ > 0 est un paramètre alors on peut trouver Donc un intervalle de conance de niveau (a, b) 1−α tels pour θ est X x x I(x) = θ : a ≤ ≤b = , , θ b a et la longueur de cet intervalle est x a1 − 1b . (b) Par ailleurs, T (X, θ) = log(X) − log(θ) est un pivot linéaire avec a1 (x) = log(X), a2 (x) = 1, τ (θ) = log(θ) et T (X, θ) =d log(Y ) où Y ∼ Gamma(r, 1). On peut trouver a et b tels que : P (a ≤ log(Y ) ≤ b ) = 1 − α ⇒ Pθ (a ≤ log(X) − log(θ) ≤ b ) = 1 − α. Donc un intervalle de conance pour τ (θ) = log(θ) est I (x) = [log(X) − b , log(X) − a ] et la longueur de cet intervalle est b − a . On peut rapporter un intervalle de X X conance pour θ à partir du I (x) avec [elog(X)−b , elog(X)−a ] = [ , ] c'est-à-dire eb ea x x de la forme [ b , a ]. On remarque que le problème de minimiser la longueur b − a est équivalent à mini- x miser le rapport a u(x) = e = eb −a . Donc, on voit que l'intervalle ici dière de celui l(x) x eb en (a) et qu'un critère de minimisation de longueur dépend de la paramétrisation. 7 Une autre alternative est de distribuer également, sous la distribution du pivot, la probabilité α du complémentaire (a, b). C'est-à-dire de choisir a = G−1( α2 ) et b = G−1(1 − α2 ). Cet intervalle a l'avantage de ne pas dépendre de la paramétrisation et continue d'être raisonnable pour des paramétrisations monotones. Il est couramment utilisé pour l'estimation de la variance d'une loi normale et est de la forme (c) (n − 1)S 2 (n − 1)S 2 2 ≤ σ ≤ , X2n−1,1− α X2n−1, α 2 2 où X1, · · · , Xn sont des variables aléatoires indépendantes de la loi N(θ, σ2), τ (θ) = −X̄) σ 2 , S 2 = ni=1 (Xn−1 et X2n−1,Δ est le quantile d'ordre Δ ∈ (0, 1) d'une loi Chi-deux avec n − 1 degrés de liberté. i 2 Le résultat suivant nous donne, pour les densités unimodales, l'intervalle de conance pour τ (θ) le plus court parmi tous les intervalles de conance dénis en (1.1) . Théorème 1. Soit f une densité unimodale et soit l'intervalle [a, b] satisfaisant : (i) b a f (x)dx = 1 − α, (ii) f (a) = f (b) > 0, (iii) a ≤ m ≤ b, où m est le mode de f . Alors [a, b] est l'intervalle le plus court parmi tous les intervalles satisfaisant Démonstration : Voir Casella et Berger [8]. (i). Le prochain corollaire est une application du Théorème 1 dans le cas où f une densité symétrique. Corollaire 1. Soit f une densité symétrique et unimodale. Pour α > 0 xé, considérons les intervalles [a, b] satisfaisant b a f (x)dx = 1 − α. 8 L'intervalle le plus court parmi cette classe est obtenu en choisissant a et b tels que ∞ f (x)dx = α2 . b a −∞ f (x)dx = α 2 et Démonstration : Soit μ le point de la symétrie et mode, et soit b = 2μ − a, alors ∞ a on a f (b) = f (2μ − a) = f (a) et 2μ−a f (x)dx = α2 . On a −∞ f (x)dx = α2 ≤ μ 1 = f (x)dx, donc a ≤ μ et de même façon on obtient b ≥ μ. On a aussi que 2 −∞ a f (a) ≥ f (x) pour tout x ≤ a et −∞ f (x)dx ≥ 0 ⇒ f (b) = f (a) > 0. Donc toutes les conditions du Théorème 1 sont satisfaites. Exemple 5. Soit X un n-échantillon de loi normale N(μ, σ 2 ). On suppose que σ est connu et que le paramètre est θ = μ. On prend T (X, θ) = X̄−μ √ σ/ n comme fonction pivotale. On a que T (X, θ) ∼ N(0, 1) pour tout θ. On cherche deux réels a, b tel que a < b et P (a ≤ G ≤ b)) = 1 − α, G ∼ N(0, 1), d'où Pμ (a ≤ X̄ − μ √ ≤ b) = 1 − α, σ/ n donc σ σ Pμ (X̄ − b √ ≤ μ ≤ X̄ − a √ ) = 1 − α, n n c'est-à-dire σ σ X̄ − b √ , X̄ − a √ n n est un intervalle de conance de θ de niveau 1 − α. Sa longueur est (b − a) √σn . Il faut trouver a, b tels que Φ(b) − Φ(a) = 1 − α et tels que b − a soit minimum. On sait que la densité de la loi normale est symétrique et unimodale. Alors, d'après le Corollaire 9 1, il sut de prendre a = −c, b = c > 0 où c est le quantile supérieur d'ordre 1 − α 2 de la loi N(0, 1) noté z(1− α2 ) . Donc l'intervalle le plus court parmi cette classe est : σ σ X̄ − z(1− α2 ) √ , X̄ + z(1− α2 ) √ . n n On poursuit avec la probabilité de recouvrement, quelques propriétés utiles, et des exemples. Dénition 6. Soit X ∼ f (·) et I(X) = [L(X), U (X)] un intervalle de conance θ pour τ (θ) ∈ R. La probabilité de recouvrement de [L(X), U (X)] est la probabilité que l'intervalle aléatoire I(X) contient τ (θ), et elle est donnée par Pθ ([L(X), U (X)] τ (θ)). Proposition 1. Soit X ∼ f (·) et I(X) = [L(X), U (X)] un intervalle de conance θ pour τ (θ) ∈ R. Supposons que les fonctions L(·) et U (·) sont continues et crois- santes. Alors, à condition qu'il existe des inverses U −1 (τ (θ)) et L−1 (τ (θ)) ∀τ (θ), la probabilité de recouvrement est donnée par : C(θ) = Pθ ([L(X), U (X)] τ (θ)) = Pθ (X ∈ U −1 (τ (θ)), L−1 (τ (θ)) ). (1.2) Exemple 6. Soit X ∼ N(θ, 1) de densité φ(x − θ). L'intervalle usuel de θ de niveau de conance 1 − α est Iusuel (X) = X ± Φ−1 (1 − α2 ) qui a une longueur constante 2Φ−1 (1 − α2 ) et une probabilité de recouvrement fréquentiste 1 − α. Un autre intervalle intéressant de θ est l'intervalle de Pratt (voir Pratt [13]) qui est déni de la façon suivante avec a = Φ−1 (1 − α) : IP ratt (x) = {θ : min {0, (x − a)} ≤ θ ≤ max {0, (x + a)}} . 10 La longueur de IP ratt (x) est alors donnée par ⎧ a−x ⎪ ⎪ ⎪ ⎪ ⎨ 2a l(IP ratt (x)) = ⎪ ⎪ ⎪ ⎪ ⎩ x+a si x ≤ −a si x ∈ (−a, a) si x ≥ a. On s'intéresse à calculer la longueur espérée de IP ratt (X). On a Eθ (l(IP ratt (X))) = −a a ∞ (a − x) φ(x − θ)dx + 2a φ(x − θ)dx + (a + x) φ(x − θ)dx −∞ −a a −a ∞ a φ(x − θ)dx + a φ(x − θ)dx = 2a (Φ(a − θ) − Φ(−a − θ)) + −∞ a ∞ −a x φ(x − θ)dx − x φ(x − θ)dx = a (1 + Φ(a − θ) − Φ(−a − θ)) + A. (∗) + a −∞ A Du fait que ∞ ∞ x t φ(t)dt = φ(x), −a x φ(x − θ)dx ∞ ∞ = (x − θ) φ(x − θ)dx + θ φ(x − θ)dx a a −a −a − (x − θ) φ(x − θ)dx + θ φ(x − θ)dx A = x φ(x − θ)dx − on a a = −∞ ∞ t φ(t)dt − a−θ −∞ −a−θ −∞ −∞ −a t φ(t)dt + θ Φ(x − θ)|∞ a − θ Φ(x − θ)|−∞ = φ(a − θ) + φ(a + θ) + θ − θ (Φ(a − θ) + Φ(−a − θ)) . Donc, de (∗) et (∗∗), on obtient Eθ (l(IP ratt (X))) = a + θ + (a − θ)Φ(a − θ) − (a + θ)Φ(−a − θ) + φ(a − θ) + φ(a + θ). Maintenant, on calcule la probabilité de recouvrement fréquentiste de IP ratt (x) pour tout θ. Pour θ = 0, on a 0 ∈ IP ratt (x) pour tout x ⇒ P (0 ∈ IP ratt (x)|θ = 0) = 1. 11 (∗∗) Pour θ > 0, P (θ ∈ IP ratt (X)) = P (θ ≤ max {0, (X + a)}) = P (θ ≤ X + a) = P (Z ≥ −a) = 1 − α. De même façon on obtient P (θ ∈ IP ratt (X)) = 1 − α pour θ < 0. Alors, l'intervalle de Pratt Ia (X) garantit une probabilité de recouvrement ≥ 1 − α et admet une longueur espérée plus petite que l'intervalle usuel lorsque |θ| n'est pas trop grand. En eet, la longueur espérée de IP ratt (X) atteint son minimum à θ = 0 et le rapport des longueurs moyennes de l'intervalle de Pratt et de l'intervalle a(1 − α) + φ(a) usuel est ≈ 0.85 avec 1 − α = 0.95. Voici une illustration pour a = Φ−1 (1 − α2 ) Φ−1 (0.95) ≈ 1.645. Figure 1.1 La longueur moyenne de l'intervalle de Pratt et de l'intervalle usuel pour a = Φ−1 (1 − α) et 1-α=0.95. 12 1.2 L'inférence bayésienne À la section précédente, on s'est placé dans un espace probabilisé paramétrique classique modélisé par X ∈ (X , B, {Pθ , θ ∈ Θ}), où X désigne l'espace des données, B est la tribu borélienne dans Rp et Θ est l'espace des paramètres θ. Classiquement, le but de l'analyse statistique est de faire de l'inférence sur θ, c'est-à-dire décrire un phénomène passé ou à venir dans un cadre probabiliste. Pour l'approche bayésienne, l'idée principale est de considérer le paramètre inconnu θ comme aléatoire : l'espace des paramètres Θ est géré par une loi de probabilité π tel que (Θ, B, π) est un espace probabilisé. On notera θ ∼ π. π est appelée loi a priori. Les prochaines dénitions et propriétés sont connues en statistique bayésienne et peuvent être retrouvées dans plusieurs livres dont les livres de Berger [7] et Robert [14]. Dénition 7. Le modèle est dit dominé s'il existe une mesure commune dominante λ, c'est-à-dire pour tout θ, Pθ admet une densité par rapport à λ : f (x|θ) = dPdλ . Cette fonction τ (θ) = f (x|θ), vue comme une fonction de θ lorsqu'on observe X = x, est appelée vraisemblance du modèle. C'est la loi de X conditionnellement à θ. θ Dénition 8. Dans le cas d'un modèle dominé, la loi jointe de (X, θ) s'écrit Ψ (X, θ) = π f (X|θ)dπ(θ) = f (X|θ)π(θ)dλ(θ), la dernière égalité étant valable dans le cas absolument continue par rapport à λ, la mesure de Lebesgue. La densité a posteriori est dénie par π(θ|x) = f (x|θ)π(θ) . f (x|θ)dπ(θ) Θ La quantité mπ (x) = Θ f (x|θ)dπ(θ) est la densité marginale de X et est une constante de standardisation de la loi a posteriori, indépendante de θ. On peut donc travailler à une constante multiplicative près π(θ|x) ∝ f (x|θ)π(θ). On ajoute que par construction la loi a posteriori est absolument continue par rapport à la loi a priori π et 13 résume l'information ce que l'on peut utiliser pour construire des intervalles crédibles pour une fonction quelconque La détermination de la loi τ (θ) du paramètre θ. a priori est l'étape la plus importante dans la mise en ÷uvre de l'inférence bayésienne. En souvent, il est nécessaire de faire un choix par défaut ou arbitraire de loi a priori, ce qui peut avoir un impact considérable sur l'in- férence étudiée. Il y a plusieurs techniques usuelles dont l'approche a priori conjuguée qui nécessite une quantité limitée d'information, et l'approche non informative qui est obtenue à partir de la densité de l'échantillon (pour plus de détails, voir Robert [14] et Berger [7]). Considérant les lois a priori non-informatives, l'une des méthodes pour choisir une loi a priori est la mesure de Haar invariante à droite. Exemple 7. (a) Considérons les familles de position-échelle, l'espace de paramètres Θ est donné par Θ = {(θ, σ) : θ ∈ R, σ > 0}. La mesure a priori Haar invariante à droite est donnée par πH (θ, σ) = 1 σ I(−∞,∞) (θ) I(0,∞) (σ). (b) Considérons les familles d'échelle, l'espace de paramètres Θ est donné par Θ = {σ : σ > 0, σ ∈ R}. Alors, dans ce cas, la mesure a priori Haar invariante à droite est donnée par πH (σ) = 1 σ I(0,∞) (σ). (c) Considérons les familles de position, l'espace de paramètres Θ est donné par Θ = {θ : θ ∈ R}. La mesure a priori Haar invariante à droite est donnée par πH (θ) = I(−∞,∞) (θ). 1.2.1 Intervalle de conance bayésien HPD Dans cette sous-section, on donne des dénitions et des résultats pour la construction d'intervalles bayésiens accompagnés d'exemples. Dénition 9. Un intervalle bayésien pour 14 τ (θ) associé à la loi a priori π(θ) de niveau (1 − α) donné est un couple (l(x), u(x)) tel que : P [l(x) ≤ τ (θ) ≤ u(x)|x] = 1 − α, pour tout x. (1.3) Dénition 10. Soit π(·|x) une densité a posteriori pour θ associée à la loi a priori π . Soit A(x) une région telle que : A(x) = {θ ∈ Θ| π(θ|x) ≥ c(x)} , c(x) ≥ 0. (1.4) Si la constante c(x) est choisie an de satisfaire l'équation (1.3), on dit que A(·) est la région bayésienne de niveau de conance (1 − α) ayant la plus grande densité a posteriori ou la région HPD (Highest Posterior Density). Remarque 1. Si π (·|x) est unimodale dans le cas unidimensionnel, alors la région dénie par (1.4) est un intervalle et elle minimise la longueur parmi tous les intervalles bayésiens de niveau 1 − α. Remarque 2. La probabilité de recouvrement donnée par P (I (x) θ|θ) n'est pas θ π nécessairement égale à 1 − α. Dans l'exemple suivant, on va voir la diérence entre la crédibilité et la probabilité de recouvrement fréquentiste. Exemple 8. Dans l'Exemple 6, on a trouvé que la probabilité de recouvrement est égale à 1 − α pour tout θ = 0 et égale à 1 quand θ = 0. Maintenant, pour la loi a priori πH (θ) = I(−∞,+∞) (θ), la loi a posteriori est (pour x ∈ R) : π(θ|x) ∝ π(θ)f (x|θ) ∝ e − (θ−x) 2 15 2 I(−∞,+∞) (θ), c'est-à-dire que θ|x ∼ N(x, 1). La crédibilité est max(0,x+a) min(0,x−a) max(−x,a) t2 1 − (θ−x)2 1 √ e 2 dθ = √ e− 2 dt 2π 2π min(−x,−a) = P (min(−x, −a) ≤ Z ≤ max(−x, a)). On a deux cas : (i) |x| ≤ a ⇒ la crédibilité = P (|Z| ≤ a) = 1 − 2α, (ii) |x| > a ⇒ la crédibilité C(x) = P (−a ≤ Z ≤ |x|) croît en |x| et tend vers 1 − α lorsque |x| → ∞. Voici un graphe pour 1 − α = 0.95. Figure 1.2 La crédibilité de l'intervalle de Pratt, loi a priori π(θ) = 1 et 1-α=0.95. Dans les deux prochains exemples, on trouvera facilement, à l'aide du Corollaire 1, l'intervalle HPD associé à la loi a priori π . Exemple 9. (a) (i) Soit X ∼ N(θ, 1). Pour τ (θ) = θ et la mesure a priori πH (θ) = 1, la densité a posteriori selon l'Exemple 8 est θ|x ∼ N(x, 1). L'intervalle bayésien 16 HPD pour θ de niveau de conance (1 − α) est donc Iπ (X) = X ± z(1− ), où zΔ est le quantile d'ordre Δ de la loi N(0, 1). Ceci coïncide avec l'intervalle standard en vertu de la symétrie et l'unimodalité de la densité a posteriori et sa probabilité de recouvrement est CIπ (θ) = 1 − α. (ii) Maintenant, soit la mesure a priori πN (θ) ∼ N(0, 1). La densité a posteriori de θ est donnée par α 2 H H θ2 π(θ|x) ∝ e− 2 e− ∝ e − 12 (x−θ)2 2 θ− x 2 √1 2 2 I(−∞,∞) (θ), c'est-à-dire que θ|x ∼ N( x2 , 12 ). L'intervalle bayésien HPD pour θ de niveau de conance (1 − α) est donc Iπ (X) = X2 ± √12 z(1− ) et la probabilité de recouvrement de cet intervalle est α 2 N 1 1 X X CIπN (θ) = Pθ − √ z(1− α2 ) ≤ θ ≤ + √ z(1− α2 ) 2 2 2 2 √ √ = P 2θ − 2 z(1− α2 ) ≤ X ≤ 2θ + 2 z(1− α2 ) (P roposition 1) √ √ = Φ(θ + 2 z(1− α2 ) ) − Φ(θ − 2 z(1− α2 ) ). Donc, la probabilité de recouvrement de Iπ dépend de θ et tend vers 0 lorsque |θ| est grand. En comparant avec la probabilité de recouvrement de Iπ , on note que CIπ est meilleur que CIπ pour petites valeurs de θ. Au titre d'illustration pour 1 − α = 0.95, voir le Figure 1.3. N H N H Soient X1, · · · , Xn des variables aléatoires indépendantes de N(θ, σ2), avec θ, σ2 inconnues. On s'intéresse à construire l'intervalle HPD de niveau de conance 1 − α, pour θ associé à la mesure a priori πH (θ, σ) = σ1 I(0,+∞)(σ)I(−∞,+∞)(θ). On pose (X −X̄) . On a : X̄ = n1 i Xi et S 2 = n−1 (b) i π(θ, σ|x) = i 2 n 1 1 (2π)− 2 σ −n e 2 σ ( Xi −θ 2 ) σ I(0,+∞) (σ)I(−∞,+∞) (θ) m(x) 17 , Figure 1.3 La probabilité de recouvrement de I πN et Iπ pour 1-α=0.95. H 2 s à l'avant dernière ligne avec le changement des variables t = n−1 2 σ2 +∞ +∞ n 1 xi −θ 2 m(x) = (2π)− 2 σ −(n+1) e 2 ( σ ) dθdσ −∞ 0 +∞ +∞ 1 2 2 n = (2π)− 2 σ −(n+1) e− 2σ2 ( (xi −x̄) +n(x̄−θ) ) dθdσ 0 −∞ √ +∞ 1 x̄−θ 2 σ − n−1 ( s )2 +∞ n √ − n−1 −(n+1) √ e− 2 ( σ/ n ) dθ dσ √ e 2 σ (2π) 2 σ = n σ 2π 0 −∞ = = − n−1 2 (2π) √ 2 n − n−1 2 (2π) √ 2 n 1 (n − 1)s2 2 1 (n − 1)s2 2 =1 − n−1 2 +∞ t − n−1 2 18 n−1 −1 2 0 Γ( n−1 ). 2 e−t dt La densité a posteriori de (θ, σ) est donc donnée par √ n−1 1 xi −θ 2 2 n 1 π(θ, σ|x) = n−1 √ ( (n − 1)s2 ) 2 σ −n−1 e− 2 ( σ ) I(0,+∞) (σ)I(−∞,+∞) (θ) Γ( ) 2π 2 2 M et la densité a posteriori marginale de θ est alors égale à +∞ π(θ|x) = M σ −(n+1) e− (n−1)s2 +n(x̄−θ)2 2σ 2 dσ . 0 Posant A = (n − 1)s2 + n (x̄ − θ)2 , t = A 2σ 2 , on obtient +∞ 1 n −1 A − n −t t 2 ( ) 2 e dt 2 2 0 − n2 M A n = Γ( ) 2 2 2 √ n − 1 nΓ( 2 ) n x̄ − θ 1 = √ ( √ )2 )− 2 (n − 1) s2 2 (1 + n−1 n − 1 s/ n πΓ( 2 ) π(θ|x) = M K = K(1 + 2 t − ν+1 ) 2 I(−∞,+∞) (θ), ν √ , la densité a posteriori de θ n'est rien d'autre la distribution avec ν = n − 1, t = s/x̄−θ n de Student centrée en x̄ et de paramètre d'échelle √sn avec (n − 1) degrés de liberté (Exemple 2) et l'intervalle bayésien HPD pour θ de niveau de conance (1 − α) est : S S Iπ (X) = X̄ − t(n−1,1− α2 ) √ , X̄ + t(n−1,1− α2 ) √ , n n ce qui correspond à l'intervalle usuel de Student. 19 CHAPITRE 2 Probabilité de recouvrement fréquentiste de l'intervalle HPD On a étudié au Chapitre 1 une méthode, appelée pivot, pour construire un intervalle de conance du paramètre θ ∈ Θ de niveau 1 − α. Une méthode pour trouver un intervalle de conance lorsqu'il y des contraintes sur le paramètre est de tronquer l'intervalle de conance classique sur les valeurs possibles du paramètre. Toutefois, il peut arriver que l'intervalle soit vide ou jugé trop court par l'observateur. Par exemple, soit X ∼ N(θ, 1). Pour la loi a priori non-informative πH (θ) = IR(θ) , la loi a posteriori est θ|x ∼ N(x, 1) et l'intervalle HPD est Cet intervalle de conance bayésien de crédibilité conance usuel avec probabilité de recouvrement sait au préalable que θ I0 (x) = x ± z1− α2 1−α 1 − α. est assujetti à la restriction correspond à l'intervalle de Maintenant, supposons qu'on θ ≥ 0. La projection est une alternative, garantit toujours une probabilité de recouvrement pour tout θ ≥ 0, mais devient un intervalle trop court lorsque 20 (Exemple 9). x I0 (x) ∩ [0, ∞[ C(θ) = 1 − α est petit. En eet, il devient l'ensemble vide pour x < −z1− α2 . Roe et Woodroofe [4] ont utilisé une méthode bayésienne pour trouver un intervalle de conance de la moyenne modèle N(θ, 1) avec la contrainte θ≥0 et il ont établi la borne inférieure θ d'un 1−α pour 1+α la probabilité de recouvrement fréquentiste de cet intervalle. Ce type de résultat est étudié de façon générale par Marchand et Strawderman [3] qui ont démontré que cette borne 1−α est valable pour une grande classe de lois. Dans ce chapitre, nous 1+α présenterons les résultats de Roe et Woodroofe [4] (Section 2.1) ainsi que Marchand et Strawderman [3] (Section 2.2). 2.1 Illustration : cas d'une loi normale avec moyenne positive Nous étudions ici le cas simple de l'estimation par intervalle de la moyenne N(θ, 1) où θ ≥ 0. θ d'une loi Ceci nous permettra de bien cerner la problématique et de premiers résultats sur la probabilité de recouvrement fréquentiste de l'intervalle HPD ( Roe et Woodroofe [4], Mandelkern [9] et Marchand et Strawderman [3]). Cette illustration porte sur la loi normale avec variance connue tel que décrit par Roe et Woodroofe [4]. Soit X ∼ N(θ, 1) avec densité f (x|θ) = φ (x − θ) = √1 2π e −(x−θ)2 2 , x ∈ R. Du point de vue bayésien un choix par défaut plausible est l'intervalle HPD associé à la mesure a priori tronquée π0 (θ) = I(0,∞) (θ). π (θ|x) = ∞ 0 = π0 , Pour la loi a priori −(x−θ) √1 e 2 2π 2 −(x−θ) √1 e 2 2π 2 dθ I(0,∞) (θ) φ(θ − x) I(0,∞) (θ). Φ(x) 21 la densité a posteriori est : Pour déterminer l'intervalle HPD qui correspond à cette loi normale tronquée sur (0, ∞), on souhaite trouver des limites supérieure (u) et inférieure (l) pour lesquelles on a : P [l(x) ≤ θ ≤ u(x)|x] = 1 − α. (2.1) Pour minimiser la longueur de l'intervalle [l(x), u(x)], on choisit l'intervalle où la densité π(·|x) est maximale, (Dénition 10), c'est-à-dire : [l(x), u(x)] = {θ : π (θ|x) ≥ c(x)} . On a deux cas à considérer : (a) l(x) > 0 : l'intervalle sera de la forme x ± Δ(x) et la condition (2.1) devient : 1−α= π (θ|x) dθ = x−Δ(x) (b) l(x) = 0 Δ(x) φ (t) 2Φ (Δ(x)) − 1 dt = ; Φ (x) −Δ(x) Φ (x) 1 −1 1 =⇒ Δ(x) = Φ + (1 − α) Φ (x) . 2 2 x+Δ(x) : l'intervalle sera de la forme donne : α= ∞ π (θ|x) dθ = ∞ Δ(x) x+Δ(x) [0, u(x) = x + Δ(x)] et l'équation (2.1) φ (t) 1 − Φ (Δ(x)) dt = ; Φ (x) Φ (x) =⇒ Δ(x) = Φ−1 [1 − αΦ (x)] . 1 Φ(x)] ⇔ x ≥ d0 , où d0 = Φ−1 ( 1+α ). On remarque que l(x) ≥ 0 ⇔ x ≥ Φ−1 [ 12 + (1−α) 2 Donc l'intervalle HPD du paramètre θ de crédibilité (1 − α) associé à la loi a priori π0 est donné par IHP D (x) = [lHP D (x), uHP D (x)] avec : 0 x − Φ−1 ( 12 + 1−α Φ(x)) 2 x + Φ−1 (1 − αΦ(x)) uHP D (x) = x + Φ−1 ( 12 + 1−α Φ(x)) 2 lHP D (x) = 22 si x ≤ d0 si x ≥ d0 , si x ≤ d0 si x ≥ d0 . Figure 2.1 L'intervalle HPD pour le modèle N( θ,1) et 1-α=0.90. La Figure 2.1 représente l'intervalle IHP D (x) du paramètre θ où α = 0.10 et d0 = 1 Φ−1 ( 1.1 ) ≈ 1.335178. La Figure 2.1 illustre bien le comportement général de IHP D (x), x ∈ R, et les deux formes [0, u(x)] et x ± Δ(x). On remarque que u(·) et l(·) sont des fonctions croissantes sur R, strictement pour u et strictement pour l sur (d0 , ∞) avec limx→−∞ u(x) = 0, limx→∞ u(x) = ∞, limx→∞ l(x) = ∞, ce qu'on démontrera plus tard au chapitre suivant et ce qui servira pour analyser la probabilité du recouvrement de IHP D (X) qui fait l'objet du prochain paragraphe. En utilisant les propriétés cidessus, on a 23 CHP D (θ) = Pθ (IHP D (X) θ) = Pθ (u−1 (θ) ≤ X ≤ l−1 (θ)) = Pθ (u−1 (θ) − θ ≤ X − θ ≤ l−1 (θ) − θ) = Φ(l−1 (θ) − θ) − Φ(u−1 (θ) − θ). On note que l−1(θ) ≥ d0 pour tout θ ≥ 0, car l (x) = 0 pour x ≤ d0. Donc on a : 1 1 Φ(l−1 (θ) − θ) = Φ d l−1 (θ) = + (1 − α) Φ l−1 (θ) . 2 2 Pour u−1(θ), supposons que u−1(θ) ≤ d0. Alors, Φ (u−1(θ)) ≤ Φ (d0) ≤ Φ (l−1(θ)) et on a : Φ u−1 (θ) − θ = Φ −d u−1 (θ) = 1 − Φ d u−1 (θ) = αΦ u−1 (θ) , c'est-à-dire que : 1 1 + (1 − α) Φ l−1 (θ) − αΦ u−1 (θ) 2 2 α 1 11−α + − ≥ 2 21+α 1+α 1−α = . 1+α Φ(l−1 (θ) − θ) − Φ(u−1 (θ) − θ) = Et pour u−1(θ) > d0, on a Φ (l−1(θ)) ≥ Φ (u−1(θ)) ≥ Φ (d0), −1 −1 Φ u (θ) − θ = Φ −d u (θ) −1 1 1 + (1 − α) Φ u (θ) , =1− 2 2 c'est-à-dire que : 1 (1 − α) 1 (1 − α) −1 + Φ(l−1 (θ)) − 1 + [ + Φ u (θ) ] 2 2 2 2 (1 − α) Φ(u−1 (θ)) + Φ(l−1 (θ)) = 2 1−α ≥ . 1+α Φ(l−1 (θ) − θ) − Φ(u−1 (θ) − θ) = , pour tout θ ≥ 0. Donc on a C (θ) ≥ 1−α 1+α 24 Figure 2.2 La probabilité de recouvrement fréquentiste de l'intervalle pour le modèle N(θ,1) et 1-α=0.9. IHP D (X) La Figure 2.2 représente la probabilité de recouvrement de l'intervalle IHP D (X) pour (1 − α = 0.90). La courbe C(θ) uctue de façon continue avec limθ→∞ C(θ) = 0.90. On remarque aussi que la borne inférieure 1−α = 0.90 ≈ 0.818 est conservatrice et un 1+α 1.10 calcul numérique trouve une couverture minimale d'environ infθ≥0 c(θ) = 0.86. Une amélioration (1 - 3α2 ) de la borne inférieure 1−α fut obtenue par Marchand et al. [2] 1+α pour les densités symétriques et fait l'objet d'une présentation à la Section 3.2 pour des modèles de densité non symétrique. 25 2.2 Cadre général avec des densités symétriques : la borne inférieure 1−α 1+α Le but de cette section est d'exposer et d'illustrer une méthode de Marchand et Strawderman[3] pour trouver les intervalles HPD. On va généraliser les résultats ci-dessus et la borne 1−α pour la probabilité de recouvrement fréquentiste de l'intervalle HPD 1+α à un grand nombre de modèles symétriques. Soit X une variable aléatoire ayant la densité f0 (x − θ), x ∈ R . Supposant qu'il y a une contrainte de la forme τ (θ) ≥ 0 et qu'il existe un pivot linéaire T (X, θ) admet une fonction de répartition G et une densité g = G absolument continue, symétrique et unimodale. Finalement on utilise la loi a priori π0 qui est tronquée de la loi a priori de Haar invariante à droite. Dénition 11. Soit G une fonction de répartition telle que G α ∈ (0, 1) est unimodale en 0, et t ∈ R, on dénit : 1. d1 (t) = G−1 (1 − αG(t)) ; G(t)) ; 2. d2 (t) = G−1 ( 12 + 1−α 2 3. d(t) = max(d1 (t), d2 (t)) Corollaire 2. Pour tout (α, G),on a d (y) ≥ d (d0 ) avec G (·) continue et d0 = 1 ). Ainsi d (y) = d1 (y) ssi y ≤ d0 . G−1 ( 1+α Démonstration On note que d1 (·) est décroissante et d2 (·) est croissante, c'està-dire que d0 est donné par y telle que d1 (y) = d2 (y). Alors, on a : 1 1−α d1 (y) = d2 (y) ⇔ G−1 (1 − αG(y)) = G−1 ( + G(y)) 2 2 1 1−α 1 ⇔ 1 − αG(y) = + G(y) ⇔ G(y) = 2 2 1+α 26 Donc, on a que d (y) = d1 (y) si et seulement si y ≤ d0. Proposition 2. Pour X ∼ f0(x−θ), x ∈ R, la distribution du pivot T (X, θ) = X −θ pour un θ donné, qui est indépendante de θ, coïncide avec la distribution a posteriori T (X, θ) |x, s'il existe une loi a priori π telle que : T (X, θ) = x − θ|x =d T (X, θ) |θ ∀θ ∈ Θ, x ∈ X. (2.2) Le prochain théorème donne, sous certaines conditions, une façon directe pour trouver les intervalle HPD où θ ≥ 0 est un paramètre de position et un pivot linéaire T (X, θ) = X − θ. De plus, il donne une borne inférieure pour la probabilité de recouvrement fréquentiste ainsi que des résultats pour la probabilité de recouvrement lorsque θ est grand et lorsque θ = 0. On généralisera ce théorème au Chapitre 3 pour (θ) un pivot linéaire T (X, θ) = a (x)−τ ayant une densité symétrique ou non syméa (x) trique. 1 2 Théorème 2. Pour X ∼ g(x − θ), θ ≥ 0, g est symétrique et unimodale en 0. Pour la loi a priori π0 (θ) = I[0,∞) (θ), on a pour l'intervalle HPD Iπ : (a) Iπ (X) = [l(X), u(X)], avec : si x ≤ d0 l(x) = 0 −1 1 1−α x − G ( 2 + 2 G(x)) si x ≥ d0 0 0 u(x) = x + G−1 (1 − αG(x)) x + G−1 ( 12 + 1−α G(x)) 2 1 où d0 = G−1( 1+α ). (b) C(θ) > 1−α , pour tout θ ≥ 0 ; 1+α 1 (c) C(0) = 1+α ; (d) limθ→∞ C(θ) = 1 − α. 27 si x ≤ d0 si x ≥ d0 Démonstration. (a) On pose h , H et H pour les fonctions de densité,de réparx −1 x x tition et de répartition inverse de la loi a posteriori de θ associées à π et x. Selon (2.2), on a, sous π , que : Pπ (T (X, θ) ≤ a|x) = G (a) ⇒ Pπ (θ ≥ y|x) = G (x − y) , Car G est la fonction de répartition du pivot x − θ. On a pour y ≥ 0 : Pπ0 (θ ≤ y|x) = 1 − Hx (y) = Pπ (θ ≥ y|x) G (x − y) =1− Pπ (θ ≥ 0|x) G (x) G (x − y) hx (y) = I(0,∞) (y) ; G (x) et Hx−1 (Δ) = x − G−1 ((1 − Δ) G (x)) . On a que hx est unimodale en max (0, x) car la densité G est unimodale en 0. Alors, selon la Remarque 1, l'intervalle HPD est de la forme {θ : hx (θ) ≥ c(x)} pour une constante c(x). On a : 1. l (x) = 0 et u (x) = H −1 (1 − α) = x − G−1 (αG (x)), ou 2. l (x) = x − b (x) et u (x) = x + b (x), pour b (x) tel que x − b (x) > 0. Par la symétrie de G autour de 0, on a que : G (a) = 1 − G (−a) et G−1 (y) = −G−1 (1 − y). Alors, on a en (1) que : u (x) = x + G−1 (1 − αG (x)) = x + d1 (x). 28 Pour (2), on a : Pπ0 (x − b(x) ≤ θ ≤ x + b(x)|x) = 1 − α ⇔ Hx (x + b(x)) − Hx (x − b(x)) = 1 − α ⇔ G(b(x)) − G(−b(x)) = (1 − α)G(x) 1 1−α G(x)) = d2 (x). ⇔ b(x) = G−1 ( + 2 2 De plus, la situation (2) se produit si et seulement si : 1 1−α G (x) ⇔ x ≥ G−1 x ≥ d2 (x) ⇔ G (x) ≥ + 2 2 1 1+α = d0 . (2.3) Enn, le résultat (a) du théorème découle de (1),(2) et du Corollaire 2. (b) On observe que l'intervalle X ± d (x) a la même probabilité de recouvrement que Iπ (X) pour les valeurs non négatives de θ, car la diérence entre eux peut augmenter seulement la probabilité de recouvrement de valeurs négatives de θ. Maintenant, selon la borne inférieure du Corollaire 2 et par la symétrie de G , on a : 0 Pθ (x − d(x) ≤ θ ≤ x + d(x)) = Pθ (|θ − x| ≤ d(x)) ≥ Pθ (|θ − x| ≤ d0 ) = 2G(d0 ) − 1 = 2GG = 1−α . 1+α La probabilité de recouvrement fréquentiste en si l(x) = 0. On a par (2.3) : (C) θ=0 1 1+α se produit si et seulement P0 (Iπ0 (X) 0) = P0 (l(X) = 0) = P0 (x − 0 ≤ d0 ) = G(d0 ) = (d) −1 1 . 1+α Comme X − θ est un pivot, on aura alors que x → ∞ et G(x) → 1 quand θ → ∞ 29 ce qui implique que d(x) = G−1 ( 12 + 1−α G(x)) 2 = G−1 1 − α2 . Alors, on a : limθ→∞ Pθ (Iπ0 (X) θ) = limθ→∞ Pθ (|θ − X| ≤ d(X)) α −1 1− = Pθ |θ − X| ≤ G 2 α −1 = 2GG = 1 − α. 1− 2 Exemple 10. Soit X ∼ Logistique(θ, 1) avec θ ≥ 0 et la densité de X est : f (x|θ) = e−(x−θ) . (1 + e−(x−θ) )2 La variable aléatoire T (x, θ) = X − θ est un pivot linéaire et sa densité, les fonctions de répartition et de répartition inverse de T (X, θ) sont données respectivement par : (i) g(t) = e−t ; (1 + e−t )2 1 ; 1 + e−t 1 (iii) G−1 (t) = −ln( − 1). t (ii) G(t) = La densité du T (X, θ) est symétrique et unimodale autour de 0. Alors, sous la loi a priori π0 (θ) = I[0,∞) (θ) et du Théorème 2, l'intervalle HPD de θ , avec d0 = 1 G−1 ( 1+α ) = −ln(α) et α = 0.10, est donné par : 0 si x ≤ d0 l(x) = e−x +α x + ln( 2+e−x +α ) si x ≥ d0 u(x) = α x − ln( 1−α+e −x ) −x e +α x − ln( 2+e −x +α ) si x ≤ d0 si x ≥ d0 La Figure 2.3 représente l'intervalle HPD pour α = 0.10. 30 Figure 2.3 L'intervalle HPD pour le modèle Logistique( θ,1) et 1-α=0.90. Ayant l'intervalle HPD Iπ (X) = [l(X), u(X)] et à l'aide de la Proposition 1, on peut trouver numériquement la probabilité de recouvrement fréquentiste pour θ xé. La Figure 2.4 représente C(θ), θ ≥ 0 et α = 0.10. (i) On remarque, quand θ est grand, que C(θ) ≈ 0.9 = 1 − α. (ii) On note que C(θ) atteint son minimum à θ = 2d0 ≈ 4.61 à la valeur 0.859 qui est nettement plus grand que la borne inférieure 1−α ≈ 0.81. On va voir au 1+α prochain chapitre que la borne inférieure 1 − 3α2 tient, ce qui améliore la borne inférieure 1−α pour α ≤ 13 . 1+α 0 31 Figure 2.4 La probabilité de recouvrement pour le modèle Logistique( θ,1) et 1α=0.90. 32 CHAPITRE 3 Probabilité de recouvrement fréquentiste pour une classe d'intervalles bayésiens On a étudié au chapitre 2 la probabilité de recouvrement fréquentiste pour les intervalles HPD de crédibilité 1 − α et démontré, dans le cas où la densité g0 du pivot T (X, θ) = X − θ est unimodale et symétrique, que la borne inférieure 1−α s'applique. 1+α D'autre part, Marchand et al. [2] ont établi la borne inférieure 1− 3α2 pour la probabilité de recouvrement de l'intervalle HPD pour le cas où T (X, θ) = X − θ et g0 est logconcave et symétrique. Par contre, ces résultats théoriques ne s'appliquent pas pour les cas où la densité du pivot T (X, θ) n'est pas symétrique, même s'il est plausible (voir [3]) que la probabilité de recouvrement minimale est bornée inférieurement par 1−α . Marchand et Strawderman [1] ont établi des résultats applicables à de tels cas, 1+α mais pour d'autres estimateurs bayésiens. Notamment, ils démontrent que la borne 33 1−α tient pour une classe d'intervalles bayésiens qui inclut l'intervalle HPD pour le 1+α cas symétrique. Nous présenterons et illustrerons dans ce chapitre leurs résultats à la Section 3.1. Enn, à la Section 3.2, on va établir la borne inférieure 1− 3α pour 2 certains intervalles parmi cette classe sous l'hypothèse additionnelle de log-concavité. Ces développements sont originaux. 3.1 Cadre général avec ou sans symétrie : la borne inférieure 1−α 1+α pour la probabilité de recouvre- ment fréquentiste Les intervalles de crédibilité bayésiens de la forme u(x)|x) = 1 − α, α(x) [0, l(x)) ∪ (u(x), ∞) P (l(x) ≤ τ (θ) ≤ et la sélection de probabilités respectivement sur ses deux parties disjointes, avec densité a posteriori de besgue sur où peuvent être décrits de façon alternative, et équivalente, par l'en- semble complémentaire et [l(x), u(x)] τ (θ) α(x) ∈ [0, α]. α − α(x) Lorsque la est absolument continue par rapport à la mesure de Le- R+ , le choix α(x) conduit à un choix unique de [l(x), u(x)], et vice-versa. Nous désignerons cette fonction Dénition 12. α(·) par fonction de distribution. Pour une loi a priori fonction de distribution α(·) : π donné pour Rp → [0, α] θ et une crédibilité la est une fonction telle que, pour tout x, Pπ (τ (θ) ≥ u(x)|x) = α(x), Pπ (τ (θ) ≤ l(x)|x) = α − α(x), intervalle de crédibilité bayésien pour 1 − α, et [l(x), u(x)] est un τ (θ). Voici maintenant un présupposé et une Proposition qui jouent un rôle important dans le développement de cette section. 34 Hypothèse A. Soit un modèle X|θ ∼ f (x, θ) et une fonction paramétrique τ (θ) : Rp → R telle que τ (θ) ≥ 0. On suppose qu'il existe un pivot linéaire T (X, θ) = a1 (X)−τ (θ) a2 (X) (où a2 (·) > 0) tel que −T (X, θ)|θ a fonction de répartition G. De plus, on suppose qu'il existe une loi a priori π telle que : T (X, θ) |x =d T (X, θ) |θ, ∀θ, x, (3.1) c'est-à-dire que la distribution du pivot T (X, θ) pour un θ donné, qui est indépendante de θ, est la même que la distribution a posteriori T (X, θ) |x pour n'importe quelle valeur de x ∈ X . Une telle mesure a priori est la mesure de Haar invariante à droite ( voir [3]). Voici une illustration. Exemple 11. Soient X ∼ fθ (·) où fθ (·) est une famille de position avec T (X, θ) = X − θ et π(θ) = 1. On a bien que la densité de T (X, θ) = X − θ|θ est donnée fθ (x)π(θ) par fθ (x) = f0 (x − θ) et aussi la densité a posteriori π(θ|x) = = f (x)π(θ)dθ Θ θ f (x − θ) 0 = f0 (x − θ). f (x − θ)dθ Θ 0 Remarque 3. (θ) Selon l'Hypothèse A et du fait que −T (x, θ) = − a1 (x)−τ ∼ G, la a2 (x) fonction de répartition a posteriori de τ (θ), sous πH (θ) = 1, est : PπH (τ (θ) ≤ y|x) = G( y − a1 (x) ). a2 (x) Maintenant, sous la troncature π0 (θ) = πH (θ)I[0,∞) (τ (θ)), on peut exprimer la distribution a posteriori de τ (θ) en fonction de πH et G. En eet, on a : 1 (x) ) 1 − G( y−a PπH (τ (θ) ≥ y|x) a2 (x) Pπ0 (τ (θ) ≥ y|x) = . = PπH (τ (θ) ≥ 0|x) 1 − G(− aa12 (x) ) (x) 35 (3.2) Remarque 4. Selon la Dénition 12, un intervalle bayésien pour τ (θ), de crédibilité 1 − α associé à la loi a priori π0 , peut être généré par une fonction de distribution α(·) : Rp → [0, α], telle que Iπ0 ,α(·) (X) = [l(X), u(X)] avec Pπ (τ (θ) ≥ u(x)|x) = α(x). Le Lemme 1 nous donne, sous l'Hypothèse A, les bornes l(x) et u(x) pour l'intervalle bayésien Iπ0 ,α(·) . Lemme 1. Pour la loi a priori π (θ) = π(θ)I 0 [0,∞) (τ (θ)) et fonction de distribution α(·), les bornes de Iπ0 ,α(·) (x) sont données par : lα(·) (x) = a1 (x) + a2 (x)G−1 {G(−t(x)) + (α − α(x))(1 − G(−t(x)))} et uα(·) (x) = a1 (x) + a2 (x)G−1 {1 − α(x)(1 − G(−t(x)))}, avec t(x) = Démonstration. Avec la fonction de survie P π0 (τ (θ) ≥ y|x) = 1−G( a1 (x) a2 (x) y−a1 (x) ) a2 (x) 1−G(−t(x)) . , en (3.2), on obtient, pour β ∈ (0, 1) : Pπ0 (τ (θ) ≥ y|x) = β ⇐⇒ 1 − G( y − a1 (x) ) = β − βG(−t(x)) a2 (x) ⇐⇒ y = a1 (x) + a2 (x)G−1 {1 − β + βG(−t(x))} , et le résultat tient avec les choix β = α(x) et β = 1 − (α − α(x)) pour les bornes u(x) et l(x) respectivement. Exemple 12. L'intervalle de conance bayésien HPD I π0 ,αHP D (·) est généré par le choix αHP D (x) = arg minα(x) (uπ0 ,α(·) (x) − lπ0 ,α(·) (x)), où α(·) ∈ [0, α] minimise la longueur de l'intervalle de crédibilité bayésien Iπ0 ,α(·) (x) pour tout x. Les procédures HPD étudiées par MS (2006)(voir [3]) pour g0 symétrique et unimodale 36 en 0 sont données par les bornes 1 1−α G(t(x))) lHP D (x) = max 0, a1 (x) + a2 (x)G ( − 2 2 −1 et 1 1−α uHP D (x) = a1 (x) + a2 (x)min G (1 − αG(t(x))), G ( + G(t(x))) . 2 2 −1 −1 En faisant la correspondance avec la forme générale du Lemme 1 et par la symétrie 1 ): G(t(x)) = 1 − G(−t(x)), on obtient pour t(x) ≤ G−1 ( 1+α G−1 (1 − α(x)(1 − G(−t(x)))) = G−1 (1 − α(1 − G(−t(x)))) ⇔ α(x) = α, et 1 − α(x)(1 − G(−t(x))) = 1 1−α α G(−t(x)) + G(t(x)) ⇔ α(x) = + . 2 2 2 2(1 − G(−t(x))) Alors, la fonction de distribution correspondante à l'intervalle HPD est égale à : α G(−t(x)) min α, + 2 2(1 − G(−t(x))) , α 1 avec α(x) = α ssi t(x) ≤ −G−1 ( 1+α )(= G−1 ( 1+α ) car g0 est symétrique). Dénition 13. Soient 1 − α ∈ (0, 1), une loi a priori π 0 et une fonction de dis- tribution α(·). On dénit la sous-classe d'intervalles bayésiens C pour τ (θ) comme suit : C= Iπ0 ,α(·) α ) = t0 . : α(x) = α pour tout x avec t(x) ≤ −G ( 1+α −1 Le prochain théorème nous donne une borne inférieure de la probabilité de recouvrement pour la sous-classe C ainsi que la probabilité de recouvrement lorsque θ est sur la frontière de l'espace paramétrique. 37 Théorème 3. Soit Iπ0 ,α(·) un intervalle de crédibilité bayésien de la sous-classe C. Pour la probabilité de recouvrement fréquentiste Cα(·) (θ) = Pθ (Iπ0 ,α(·) (X) τ (θ)), on a, sous l'Hypothèse A, que : (a) C(θ) = 1 1+α pour tout θ tel que τ (θ) = 0 ; (b) C(θ) > 1−α 1+α pour tout θ tel que τ (θ) ≥ 0 aussitôt que α(x) satisfait, pour tout x, (1 − α)G(−t(x)) + 1 − G(−t(x)) α2 1+α ≤ α(x) ≤ α . (1 + α)(1 − G(−t(x))) (3.3) (c) limτ (θ)→∞ Cα(·) (θ) = 1 − α, avec limt(x)→∞ α(x) existe et a2 (X) = 1. Démonstration. (a) On observe, quand τ (θ) = 0, que −t(X) = − a1 (X) a2 (X) a pour fonction de répartition G. Alors, pour tout θ tel que τ (θ) = 0, on a : Pθ (Iπ0 ,α(·) (X) θ) = Pθ (α(X) = α) = Pθ (t(X) ≤ t0 ) = 1 − 1 α = . 1+α 1+α (b) Pour θ tel que τ (θ) ≥ 0, l'intervalle α 1 I1 (X) = [l1 (X), u1 (X)] = max 0, a1 (x) + a2 (x)G−1 ( α+1 ) , a1 (x) + a2 (x)G−1 ( α+1 ) a la même probabilité de recouvrement fréquentiste que l'intervalle I1∗ (X) = [a1 (x) + α 1 a2 (x)G−1 ( α+1 ), a1 (x) + a2 (x)G−1 ( α+1 )] et cette probabilité est égale à : α Pθ (G−1 ( α+1 )≤ τ (θ)−a1 (x) a2 (x) 1 1 α ≤ G−1 ( α+1 )) = G(G−1 ( α+1 )) − G(G−1 ( α+1 )) = note, de (3.3) et du Lemme 1, que uα(·) (x) ≥ a1 (x) + a2 (x)G−1 (1 − α ) α+1 1−α 1+α . On = u1 (x) et 2 α lα(·) (x) ≤ a1 (x) + a2 (x)G−1 (G(−t(x)) + α(1 − G(−t(x))) − (1 − α)G(−t(x)) − 1+α )= α ) = l1 (x). Alors, la condition (3.3) sur α(·) implique que a1 (x) + a2 (x)G−1 ( α+1 Iπ0 ,α(·) ⊇ I1 . Puisque l'inclusion est stricte avec une probabilité supérieure à 0 pour tout θ, le résultat s'ensuit. (c) Comme T (X, θ) = a1 (X)−τ (θ) a2 (X) = a1 (X) − τ (θ) est un pivot, on a alors que t(x) = a1 (x) → ∞ et G(−t(X)) converge en probabilité vers 0 quand τ (θ) → ∞, ce qui implique que lα(·) (x) − a1 (X) → G−1 (α − limt(x)→∞ α(x)) et uα(·) (x) − a1 (X) → 38 G−1 (1 − limt(x)→∞ α(x)). On a donc : Pθ (lα(·) (x) ≤ τ (θ) ≤ uα(·) (x)) = Pθ (lα(·) (x) − a1 (X) ≤ −T (X, θ) ≤ uα(·) (x) − a1 (X)) lim Cα(·) (θ) = τ (θ)→∞ = P lim θ (lα(·) (x) − a1 (X) ≤ −T (X, θ) ≤ uα(·) (x) − a1 (X)) τ (θ)→∞ −1 −1 θ (G (α − lim α(x)) ≤ −T (X, θ) ≤ G (1 − lim α(x))) t(x)→∞ t(x)→∞ −1 −1 P = G(G (1 − lim α(x)))) − G(G (α − lim α(x))) t(x)→∞ t(x)→∞ = 1 − lim α(x) − α + lim α(x) = 1 − α. t(x)→∞ t(x)→∞ Maintenant, dans le contexte du Théorème 3, on peut dénir plusieurs fonctions de distributions α(x) correspondantes aux intervalles de crédibilité bayésien de la sousclasse C pour τ (θ). Dénition 14. (i) L'intervalle bayésien à ailes égales sous G, I (X) est donné par la fonction de distribution π0 ,αég (·) G(−t(x)) α . αég (x) = min α, + 2 2(1 − G(−t(x))) La terminologie "ailes égales" ne signie pas α(x) = (ce qui est les ailes égales sous la densité a posteriori de τ (θ) ), mais elle plutôt se reporte au choix des quantiles d'ailes égales sous G ; (ii) L'intervalle bayésien I (X) est donné par la fonction de distribution α 2 π0 ,αmax (·) α αmax (x) = min α, (1 + α)(1 − G(−t(x))) (iii) L'intervalle bayésien I π0 ,αmin (·) (X) ; est donné par la fonction de distribution (1 − α)G(−t(x)) + αmin (x) = min α, 1 − G(−t(x)) 39 α2 1+α ; (iv) L'intervalle bayésien Iπ0 ,αopt (·) (X), valles bayésiens de la classe C, de longueur minimale parmi tous les inter- est donné par la fonction de distribution αopt (x) = arg min(uπ0 ,α(·) (x) − lπ0 ,α(·) (x)), avec α(x) ∈ [αmin (x), αmax (x)]. α(x) Losrque αHP D (x) ∈ [αmin (x), αmax (x)], cet intervalle coïncide avec l'intervalle Iπ0 ,HP D . Les intervalles correspondantes aux choix (i), (ii) et (iii) ci-dessus sont donnés en (3.4), (3.5) et (3.6). Corollaire 3. Sous l'Hypothèse A, l'intervalle Iπ ,α 0 une probabilité de recouvrement minimale C(θ) ég (·) (X), de crédibilité supérieure à 1−α pour tout 1+α 1 − α, θ a tel que τ (θ) ≥ 0. Démonstration. Il sut que le choix αég (·) satisfasse la condition ( 3.3) pour tout x tel que t(x) ≥ t0 . En eet, on a : αég (x)(1 − G(−t(x))) = α 1−α α 1−α α + G(−t(x)) ≤ + G(−t0 ) = , 2 2 2 2 1+α et αég (x)(1 − G(−t(x))) − (1 − α)G(−t(x)) − Remarque 5. α(1 − α) 1 − α α2 = − G(−t(x)) 1+α 2(1 + α) 2 α(1 − α) 1 − α ≥ − G(−t0 ) = 0. 2(1 + α) 2 De façon analogue, les autres choix à la Dénition 14 satisfont la comme borne inférieure pour la probabilité de recouvrement condition (3.3) et ont 1−α 1+α fréquentiste. 40 Le choix αég (·) est simple, attrayant et correspond à la procédure HPD sous la symétrie de la densité du pivot T (X, θ). Le choix αmax (·) maximise la probabilité a posteriori P (τ (θ) ≥ u(x)|x) et pousse Iπ0 ,α(·) vers 0, tandis que le choix αmin (·) minimise la probabilité a posteriori P (τ (θ) ≤ l(x)|x) et éloigne Iπ0 ,α(·) de 0. Le choix αopt (·) donne le plus court intervalle parmi la sous-classe C mais ce choix dépend de la paramétrisation. Dans les prochains exemples, on va illustrer le fait que la borne 1−α s'applique à chacun des choix, que l'intervalle Iπ0 ,αmax (·) a la meilleure probabilité 1+α de recouvrement, que l'intervalle Iπ0 ,αég (·) a une longueur et une probabilité recouvrement près de celles des intervalles Iπ0 ,αopt (·) et Iπ0 ,αHP D (·) . Enn, l'intervalle Iπ0 ,αmin (·) semble avoir la plus grande longueur parmi la sous-classe C et sa probabilité de re1 couvrement semble ne pas excéder 1+α . 3.1.1 Exemples Dans cette section, nous illustrons la théorie de la section précédente par des exemples et diverses applications. L'Hypothèse A est satisfaite pour tous les exemples cidessous avec des familles soient de position, d'échelle, ou de position-échelle. Ces derniers nous aideront à appliquer adéquatement le Lemme 1, le Théorème 3 et le Corollaire 3. Pour tous les cas, le calcul numérique est nécessaire an de déterminer les intervalles de crédibilité bayésien de la sous-classe C et les probabilités de recouvrement associées aux tels intervalles. Le calcul de Cα(·) (θ) est fait à l'aide de la formule pour la probabilité de recouvrement du Corollaire 8 à la Section 3.2. Exemple 13. (Famille de position) (a) Soit X ∼ fθ (·) = f0(x − θ) la famille des distributions où fθ (·) est une famille de position avec T (X, θ) = X − θ, τ (θ) = θ, πH (θ) = IR (θ) et la loi a priori π0 (θ) = I[0,∞) (θ). Dans ce cas, tous les intervalles 41 bayésiens, de la sous-classe C, Iπ0 ,α(·) (X), de crédibilité 1 − α, ont une probabilité de recouvrement minimale C(θ) supérieure à 1−α 1+α pour θ ≥ 0 et à l'aide des transforma- tions X → X − a et X → X + a, on peut réduire les cas θ ≥ a et θ ≤ a au cas θ ≥ 0. (b) Les résultats en (a) sont applicables pour le cas de plusieurs observations en conditionnant sur une statistique invariante maximale V . En eet, supposons que X = (X1 , . . . , Xn ) ∼ f0 (x1 −θ, . . . , xn −θ), où les Xi ne sont pas nécessairement indépendamment distribuées. La statistique V = (X2 −X1 , . . . , Xn −X1 ) est une statistique invariante maximale. Pour une valeur donnée v de V , on peut trouver un intervalle Iπ0 ,α(·,v) (X1 , v) comme dans le Lemme 1 avec G ≡ Gv qui est la fonction de répartition du pivot X1 − θ sachant V = v , et la fonction de distribution α(x, v) satisfaisant les conditions du Théorème 3 et du fait que la distribution conjointe de (X1 − θ, V ) est indépendante de θ . On peut appliquer le Théorème 3 à la probabilité de recouvrement fréquentiste conditionnelle C(θ, v) = Pθ (Iπ0 ,α(·,v) (X1 , v) τ (θ)|V = v) > 1−α 1+α pour tout θ ≥ 0. Puisque c'est vrai pour tout v , alors la probabilité de recouvrement non conditionnelle C(θ) de l'intervalle Bayésien Iπ0 ,α(·,·) (X, V ) va dépasser la borne 1−α 1+α pour tout θ ≥ 0. Voir Marchand et Strawderman [3] pour un exemple détaillé. (c) Soient X = (X1 , . . . , Xp ) ∼ f0 (x1 − θ1 , . . . , xp − θp ), τ (θ) = IRp (θ), π0 (τ (θ)) = I[0,∞) (θ), T (X, θ) = ( p p i=1 ai θi , πH (θ) = ai Xi ) − τ (θ). Ici, les Xi ont des pa ramètres θi qui dièrent, mais c'est la combinaison linéaire i ai θi qui est bornée i=1 inférieurement telle que pour le cas θ1 − θ2 ≥ 0. Remarque 6. En lien avec la partie (c) ci-dessus, les résultats ne s'appliquent pas en général pour estimer τ (θ) = p i=1 ai θi avec i bi θi ≥ 0. Par exemple, les résultats ne s'appliquent pas pour estimer θ1 sous la contrainte θ1 − θ2 ≥ 0. Exemple 14. (Famille d'échelle) (a) Soit X ∼ 1 f ( x )I (x) θ 1 θ [0,∞) avec θ ≥ a > 0, τ (θ) = log(θ) − log(a) ≥ 0, T (X, θ) = log(X) − log(a) − τ (θ), π0 (θ) = 1θ I[0,∞) (τ (θ)). 42 On peut trouver un intervalle bayésien pour τ (θ) à partir d'un intervalle bayésien de θ. On peut appliquer le Théorème 3 et le Corollaire 3 sur un échantillon X = ! (X1 , . . . , Xn ) ∼ θ1 f1 ( xθ , . . . , xθ ) i I[0,∞) (xi ) en conditionnant sur la statistique invariante maximale V = ( XX , . . . , XX ) comme à l'exemple 13. ! p x (b) Soient X = (X1 , . . . , Xp ) ∼ ( i θ1 )f1 ( xθ , . . . , θ ), τ (θ) = i=1 ai log(θi ), πH (θ) = ! 1 i θ I[0,∞) (θi ), π0 (θ) = πH (θ)I[0,∞) (τ (θ)). Par exemple, si p = 2, a1 = 1 et a2 = −1, la théorie s'applique pour estimer le rapport θθ ≥ 1 des deux paramètres d'échelle. n n 1 n−1 1 n n p 1 1 i p i 2 1 Exemple 15. (Famille de position-échelle) (a) Soit (X1, X2) ∼ θ1 f2( x θ−θ , xθ ), τ (θ) = θ1 ≥ 0, T (X, θ) = X X−θ , πH (θ) = θ1 I[0,∞) (θ2 )I(−∞,∞) (θ1 ), π0 (θ) = θ1 I[0,∞) (θ2 )I(0,∞) (θ1 ). (b) Soient Xi ∼ind N (μ, σ), i = 1, . . . , n, θ = (μ, σ), τ (θ) = μ + ησ ≥ 0 avec η ≥ 0, πH (θ) = θ1 I[0,∞) (θ2 )I(−∞,∞) (θ1 ), π0 (μ, σ) = σ1 I[0,∞) (σ)I(0,∞) (μ + ησ), la densité du (X −X̄) 2 pivot T (X, θ) = X̄−μ−ησ , avec S = , est la loi Student décentrée avec n − 1 S n−1 degrés de liberté (voir [1]). Le Théorème 3 s'applique pour estimer les quantiles μ+ησ et nous avons une classe d'intervalles bayésiens avec probabilité de recouvrement supérieure à 1−α . 1+α (c) De la partie (a) ou (b) avec η = 0, on déduit une classe d'intervalles bayésiens pour estimer la moyenne μ sous la contrainte μ ≥ 0 avec probabilité de recouvrement 1−α supérieure à 1+α . Ce résultat dans ce cadre spécique fut démontré par Zhang et Woodroofe [6]. 1 2 2 1 1 2 2 2 1 2 2 2 i i 2 2 Exemple 16. (a) Considérons X ∼ Gamma(r, θ) avec r connu et la contrainte θ ≥ 1. On note que la variable aléatoire Xθ est un pivot d'une loi Gamma (r, 1) tel que décrit à l'Exemple 14. Considérons le pivot linéaire T (X, θ) = log( Xr ) − log(θ) (a1(x) = log( Xr ), a2(x) = 1 et τ (θ) = log(θ)). On a que les fonctions de densité et de répartition de −T (X, θ) sont respectivement données par (voir aussi Bosa[7] et Lmoudden[8]) : 43 r r −r(t+e−t ) e ; Γ(r) (a) g(t) = (b) G(t) = 1−F (re−t ), avec F (·) étant la fonction de répartition d'une loi Gamma(r,1) ; (c) α ) ≈ 0.613 (avec α = 0.05 t0 = −G−1 ( 1+α La loi a priori utilisée est et r = 5). π0 (θ) = 1θ I(0,∞) (log(θ)). L'intervalle HPD de crédibilité 1−α = 0.95 est un choix plausible mais il n'y a pas de résultat théorique pour la borne . Mais on peut avoir d'autres intervalles bayésiens de la classe étudiée inférieure 1−α 1+α ci-dessus ayant des probabilité de recouvrement supérieure à 1−α . En appliquant le 1+α Lemme 1 avec les choix αég , αmax intervalles bayésiens suivants avec Iπ0 ,αég (·) (x) = Iπ0 ,αmax (·) (x) = Iπ0 ,αmin (·) (x) = et (Dénition 14), on obtient les diérents αmin t(x) = log( xr ) : ⎧ ⎨ lαég (x) (x) = t(x) + G−1 ( α2 + ⎩ 1−α G(−t(x))) 2 −1 uαég (x) (x) = t(x) + G (1 − α 2 − (3.4) 1−α G(−t(x))), 2 ⎧ α2 + (1 − α)G(−t(x))) ⎨ lαmax (x) (x) = t(x) + G−1 ( 1+α ⎩ uαmax (x) (x) = t(x) + G −1 (3.5) 1 ( 1+α ), ⎧ −1 α ⎨ lαmin (x) (x) = t(x) + G ( 1+α ) ⎩ uαmin (x) (x) = t(x) + G−1 (1 − α2 1+α (3.6) − (1 − α)G(−t(x))). Cas r = 1 Si on prend et r = 1, on obtient le modèle Exp( θ) avec θ ≥ 1. Alors le pivot P ( Xθ ≥ t) = e−t . Donc le pivot linéaire de répartition et de répartition inverse du (i) (ii) T (X, θ) = log(X) − log(θ) −T (X, θ) G(t) = P (−log( Xθ ) ≤ t) = P ( Xθ ≥ e−t ) = e−e G−1 (t) = −log(−log(t)). 44 −t ∼ Exp(1) et la fonction sont données par : ; X θ L'intervalle à ailes égales sous G est donné par : Iπ0 ,αég (·) (x) = ⎧ ⎨ lαég (x) (x) = log(x) − log(−log( α2 + ⎩ uαég (x) (x) = log(x) − log(−log(1 − Figure 3.1 Les fonctions de distribution α(·) 1−α −x e )) 2 α 2 − 1−α −x e )), 2 pour le modèle Gamma(5, θ ), (3.7) θ ≥ 1, et 1-α=0.95. Cas r = 5 La Figure 3.1 présente les diérents choix cités ci-dessus pour le cas où r = 5. On note que le choix αHP D (·) n'est pas dans la sous-classe C. Alors, ce choix ne satisfait pas la condition (3.3) du Théorème 3 mais on va voir à la Figure 3.3 que la . probabilité de recouvrement correspondante à ce choix excède la borne minimale 1−α 1+α 45 Les choix αHP D (·) et αopt (·) n'ont pas de forme close. On peut les trouver par le calcul numérique. On note que ces deux choix coïncident sauf pour x ∈ (0.613, 0.715). Figure 3.2 Intervalles bayésiens pour le modèle Gamma(5, θ), θ ≥ 1, 1-α=0.95. La Figure 3.2 (A) présente les diérents intervalles bayésiens du paramètre θ en fonction de l'observation x avec les choix αég (x), αmax (x) et αmin (x) cités ci-dessus pour le cas où r = 5. Il est à noter que ces intervalles Iπ0 ,α(·) (x) = [elπ0 ,α(·) (x) , euπ0 ,α(·) (x) ] ont été construits à l'aide des intervalles bayésiens de log(θ) donnés par (3.4), (3.5) et (3.6) cités ci-dessus pour le cas où r = 5. Par exemple, pour x = 11 on a Iπ0 ,αég (·) (11) ≈ [1.12, 6.32], Iπ0 ,αmax (·) (11) ≈ [1.01, 5.66] et Iπ0 ,αmin (·) (11) ≈ [1.19, 7.54]. La Figure 3.2 (B) illustre le rapport des longueurs des intervalles bayésiens Iπ0 ,αHP D (·) (x) et Iπ0 ,αég (·) (x). On note que l'intervalle Iπ0 ,αég (·) (x) a une longueur 46 semblable à celles des intervalles paraissent croissantes en IHP D t(x), x ∈ R. et Iopt . Enn, les fonctions lα(·) (x) et uα(·) (x) Ceci sera en eet démontré au Lemme 7 ainsi que pour les pivots avec des densités log-concaves. Figure 3.3 Les probabilités de recouvrement associées aux intervalles bayésiens pour le modèle Gamma(5,θ), θ ≥ 1 et 1-α=0.95. La Figure 3.3 présente les probabilités de recouvrement associées aux choix ci-dessus. À la Figure 3.3 (A), α(·) cités on note que la probabilité de recouvrement associée au choix αmax (·) pour tout τ (θ) ≥ 0, tandis que la probabilité de recouvrement associée au choix αmin (·) est la meilleure parmi les autres choix et est le moins bon choix parmi les autres choix et Dans la Figure 3.3 (B), Cαmax (·) (θ) ≥ 1 − α = 0.95 Cαmin (·) (θ) ≤ 1 pour tout 1+α la probabilité de recouvrement associée au choix 47 τ (θ) ≥ 0. αHP D (·) et αopt (·) se rapprochent sauf quand Cαopt (·) (0) = 1 1+α ≈ 0.952. aussi de celle pour par 1 − 3α , 2 τ (θ) = 0. En eet, on a CαHP D (·) (0) ≈ 0.975 Enn, la probabilité de recouvrement de et IαHP D ainsi que pour Iαopt . CHP D Iαég se rapproche De plus, il semble que le minimum de et Copt , ce qu'on va établir à la Section cas et plus généralement pour le cas où la densité du pivot T (X, θ) et Cαég 3.2 borné pour ce est log-concave. (b) Avec une analyse semblable, comme le cas Gamme cité ci-dessus, on obtient des résultats similaires pour un modèle Weibull avec densité où f1 Soit X ∼ F isher(r, s) est la densité de s'intéresse à estimer θ π0 (θ) = 1θ I(0,∞) (log(θ)). de paramètre d'échelle F isher(r, s). On suppose que sous la contrainte θ ≥ 1 r et sont connus et on s dont la loi a priori utilisée est Cette situation paraît de façon naturelle pour des problèmes la même démarche de l'Exemple 16, on prend le pivot linéaire log(θ)(a1 (X) = log(X), a2 (X) = 1 et de répartition de −T (X, θ) G(t) = 1 − F1 (e−t ), avec [5] F1 (·) et τ (θ) = log(θ)) [5]). dont les fonctions de densité g(t) = e−t f1 (e−t ), étant la fonction de répartition d'une loi Fisher(r,s) ont étudié l'intervalle HPD pour θ, modèle. Pour plus de détails, voir Bosa et s = 12). Zhang et Woodroofe pour la même loi a priori et pour le même [11]. La Figure 3.4 présente les diérents choix α(·) de la Dénition 14 avec le choix Comme dans le cas d'une loi Gamma, on note que le choix pas dans la sous-classe C En suivant T (X, θ) = log(X) − sont respectivement données par α = −G−1 ( 1+α ) ≈ 1.199 (avec α = 0.05, r = 4 αHP D (·). r et de densité 1θ f1 ( xθ ), θ en analyse de variance à eets aléatoires (voir Zhang et Woodroofe et t0 avec θ ≥ 1. connu et la contrainte Exemple 17. x r f (x) = θr ( xθ )r−1 e−( θ ) αHP D (·) n'est mais que sa probabilité de recouvrement excède néanmoins 1−α (voir Figure 3.6). 1+α La Figure 3.5 (A) illustre les intervalles bayésiens de 48 τ (θ) = log(θ) pour r = 4, Figure 3.4 Les fonctions de distribution α(·) pour le modèle Fisher(4,12), θ ≥ 1, et 1-α=0.95. s = 12 et 1 − α = 0.95 associés aux choix αég (·), αmax (·) et αmin (·) et La Figure 3.5 (B) illustre les intervalles bayésiens associés aux choix αég (·), αHP D (·) et αopt (·). Comme pour le cas Gamma étudié ci-dessus, on note que les intervalles IHP D , Iopt et Iég se rapprochent. Maintenant, la Figure 3.6 (A) illustre la probabilité de recouvrement de Iαég , Iαmax et Iαmin , tandis que La Figure 3.6 (B) illustre la probabilité de recouvrement de Iαég , IαHP D et Iαopt . Comme pour l'Exemple 16, on note que les probabilités de recouvrements de IαHP D et Iαopt se rapprochent sauf quand τ (θ) = 0 ( en eet, on a CαHP D (·) (0) ≈ 0.973 et Cαopt (·) (0) = 1 1+α ≈ 0.952). La probabilité de recouvrement de Iαég est proche de celles IαHP D et Iαopt . Enn, la probabilité de recouvrement de Iαmax 49 Figure 3.5 Intervalles bayésiens pour le modèle Fisher(4,12) et 1- α=0.95. est la meilleure parmi les autres intervalles, tandis que la probabilité de recouvrement de Iαmin est nettement moins élevée. Exemple 18. α ) = Pour X ∼ N(θ, 1), θ ≥ 0, 1 − α = 0.90, on a t0 = −Φ−1 ( 1+α 1 Φ( 1+α ) ≈ 1.335. Alors, en appliquant le Lemme 1 avec les choix αég , αmax et αmin , on obtient les diérents intervalles bayésiens suivants : Iπ0 ,αég (·) (x) = Iπ0 ,αmax (·) (x) = ⎧ ⎨ lαég (x) (x) = x + Φ−1 ( α2 + ⎩ uαég (x) (x) = x + Φ−1 (1 − 1−α Φ(−x)) 2 α 2 − 1−α Φ(−x)), 2 ⎧ α2 + (1 − α)Φ(−x)) ⎨ lαmax (x) (x) = x + Φ−1 ( 1+α ⎩ 1 ), uαmax (x) (x) = x + Φ−1 ( 1+α 50 Figure 3.6 Les probabilités de recouvrement associées aux intervalles bayésiens pour le modèle Fisher(4,12), θ ≥ 1 et 1-α=0.95. Iπ0 ,αmin (·) (x) = Ici le pivot ⎧ −1 α ⎨ lαmin (x) (x) = x + Φ ( 1+α ) ⎩ uαmin (x) (x) = x + Φ−1 (1 − X − θ ∼ N(0, 1) α2 1+α − (1 − α)Φ(−x)). a une densité symétrique et les résultats des sections 2.1 et 3.1 s'appliquent. La Figure 3.7 présente diérents choix densité du pivot T (X, θ), α(·) pour on note que les choix α = 0.10. αég (x) Figure 3.8 représente les intervalles bayésiens pour 51 θ et Avec la symétrie de la αopt (x) coïncident ici. La associés aux choix α(·) cités Figure 3.7 Les fonctions de distributions 1-α=0.90. α(·) pour le modèle N (θ, 1), θ ≥ 0, et ci-dessus. On note que les longueurs des intervalle Iαmax et Iαmin sont égales. Au prochain lemme, on va voir que ce résultat est vrai pour toutes les densités symétriques. Lemme 2. Sous l'Hypothèse A avec G symétrique, on a que les intervalles bayésiens de la sous-classe C associés aux choix αmax (x) et αmin (x) ont des longueurs égales. Démonstration. Du Lemme 1, les intervalles bayésiens associés aux choix α 52 max (·) Figure 3.8 Intervalles bayésiens pour le modèle N (θ, 1), θ ≥ 0, et 1-α=0.90. et α· (x) sont respectivement données par : Iπ0 ,αmax (·) (x) = ⎧ α2 + (1 − α)G(−t(x))) ⎨ lαmax (x) (x) = t(x) + G−1 ( 1+α ⎩ 1 ), uαmax (x) (x) = t(x) + G−1 ( 1+α et Iπ0 ,αmin (·) (x) = ⎧ −1 α ⎨ lαmin (x) (x) = t(x) + G ( 1+α ) ⎩ uαmin (x) (x) = t(x) + G−1 (1 − α2 1+α − (1 − α)G(−t(x))). Par la symétrie de G , on a que G(x) = 1 − G(−x) et G−1 (y) = −G−1 (1 − y). Alors, 53 on obtient : 1 α2 ) − G−1 ( + (1 − α)G(−t(x))) 1+α 1+α α α2 = −G−1 ( ) + G−1 (1 − ( + (1 − α)G(−t(x)))) 1+α 1+α = uαmin (x) (x) − lαmin (x) (x). uαmax (x) (x) − lαmax (x) (x) = G−1 ( Figure 3.9 Les probabilités de recouvrement associées aux intervalles bayésiens pour le modèle N (θ, 1), θ ≥ 0 et 1-α=0.90. La Figure 3.9 présente les probabilités de recouvrement associées aux choix α(·) cités ci-dessus. Alors que les intervalles bayésiens associés aux choix αmax (·) et αmin (·) ont des longueurs égales, leurs probabilités de recouvrement sont complètement différentes. En eet, Cαmax (θ) ≥ 1 − α pour tout τ (θ) ≥ 0 mais Cαmin (θ) ≤ 54 1 1+α pour tout θ ≥ 0. Cαég (·) (θ) > 1 − On remarque aussi que 3α 2 = 0.85 pour tout Exemple 19. (a) Soit X ∼ P areto(1, γ), où la densité de X est γ ∈ [1, γ0 ]. la contrainte On sait que γ0 log(X) ∼ Exp(θ) on peut trouver un intervalle bayésien pour θ. γ avec θ ≥ 0. γ I[1,∞) (x) avec xγ+1 γ0 ≥ 1. Donc, θ= γ à partir d'un intervalle bayésien de En eet, de l'Exemple 16, l'intervalle bayésiens à ailes égales de θ est [l1 (x) = exp(lαég (x) (x)), u1 (x) = exp(uαég (x) (x))] avec lαég (x) (·) et uαég (x) (·) sont " donnés par # γ γ 0 0 (3.7). Alors, l'intervalle bayésien à ailes égales de γ est Iπ0 ,αég (·) (x) = , u1 (x) l1 (x) qui a la même probabilité de recouvrement de θ car on a P Iπ0 ,αég (·) (x) γ = P $" # % γ0 γ0 , γ = u1 (x) l1 (x) = P γ0 [l1 (x), u1 (x)] γ P ([l1 (x), u1 (x)] θ) . (b) Pour Xi ∼ind P areto(1, γ), i = 1, . . . , n avec γ ∈ [1, γ0 ], on procède de façon pareille avec la statistique exhaustive γ0 i log(Xi ) de loi Gamma(n, θ) avec θ = γ0 ≥ 1. γ Exemple 20. Soient Xi ∼ind U (0, θ), i = 1, . . . , n. On s'intéresse à estimer le paramètre d'échelle θ lorsque θ ≥ 1. La statistique Y = log(maxXi ) est exhaustive de loi Exp(θ , n1 ) (densité ne−n(y−θ ) I[θ ,∞) (y)) avec θ = log(θ). Donc, le Théorème 3, le Lemme 1 et le Corollaire 3 sont applicables et on obtient une classe d'intervalles bayésiens pour θ avec une probabilité de recouvrement excède la borne [3] qui analyse ce cas. 55 1−α . 1+α Voir aussi 3.2 Cadre général avec ou sans symétrie : la borne inférieure 1 − 3α 2 pour la probabilité de recouvrement fréquentiste Les nouveaux résultats de cette section, au niveau de la probabilité de recouvrement fréquentiste associée à un intervalle bayésien de la sous-classe C cité à la Section 3.1 (Théorème 3), s'appliquent à des modèles de densité continue et log-concave. Il s'agit d'un projet en collaboration avec les professeurs Éric Marchand et Bill Strawderman. En relation avec les résultats de Marchand et al. [2], la symétrie n'est pas requière. Les résultats s'appliquent donc pour les familles de position X ∼ f0 (x−θ) avec f0 une fonction pas nécessairement pair. De plus, les résultats s'appliquent pour les familles d'échelles X ∼ 1θ f1 ( xθ ) avec f1 log-concave dont le cas X ∼ Gamma(r, θ), avec θ ≥ 0 et r connu. Tout au long de cette section, on va travailler avec le modèle X ∼ fθ (·), (θ) le pivot linéaire T (X, θ) = a1 (X)−τ de densité G continue, unimodale en 0 et loga2 (X) concave, et l'intervalle bayésien Iπ0 ,α(·) (X) (cité au Lemme 1) pour τ (θ), de crédibilité 1 − α associé à la loi a priori π0 et une fonction de distribution α(·) qui satisfait les conditions du Théorème 3 ainsi que l' hypothèse suivante. Hypothèse B. On suppose que la fonction de distribution α(x) est une fonction continue de t(x) dont limt(x)→∞ α(x) existe et pour laquelle α(x)(1 − G(−t(x))) est décroissante en t(x) pour t(x) ≥ t0 . Remarque 7. L'unimodalité en 0 est une propriété qu'on peut supposer sans perte de généralité car si T (X, θ) a un mode en b, alors le pivot T (X, θ)−b = a1 (x) − τ (θ) , a2 (x) a1 (x) − ba2 (x) − τ (θ) = a2 (x) avec a1 (x) = a1 (x) − ba2 (x), a un mode en 0. Remarque 8. On vérie aisément que les choix α 56 ég (·) , αmax (·) et αmin (·) ( Déni- tion 14) satisfont les conditions de l'Hypothèse B. Nous établissons la borne inférieure de probabilité de recouvrement fréquentiste pour le choix 1− 3α 2 αég (·) de la sous-classe C (Théorème 4) et donnerons un lemme (Lemme 15) utile pour déduire la borne inférieure de probabilité de recouvrement d'autres choix de α(·) de C pour lesquels C(θ), τ (θ) ≥ 0, comportement de α(·) ≥ αég (·). 1− 3α pour 2 D'autres propriétés sur le seront établis dans cette section. 3.2.1 Dénitions et propriétés préliminaires Dans cette sous-section, on établit diverses propriétés et résultats préliminaires concernant les distributions log-concaves qui peuvent être retrouvées dans plusieurs ouvrages dont les livres de Berger Dénition 15. tout x, y (f (λx [7] et de Fourdrinier f : On dit que la fonction et pour tout λ ∈ (0, 1) on a [15]. R→R est concave (convexe) si pour f (λx + (1 − λ)y) ≥ λf (x) + (1 − λ)f (y) + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y)). Dénition 16. Une densité f : R→R de probabilité est dite log-concave si log( f ) est concave. Lemme 3. Soit f une fonction convexe. Pour tout f (t + x2 ) − f (t + x1 ) Dénition 17. croît en en x. θ 2 , θ1 Une famille de densités tel que tels que x2 ≥ x1 , la fonction t. X ∼ fθ (·), θ ∈ Θ θ2 > θ1 , on a est dite à rapport de X (respectivement décroissant en X ) si fθ2 (x) est croissant (respectivement décroissant) fθ1 (x) vraisemblance monotone(RVM) croissant en pour tout x 1 , x2 57 Lemme 4. Soit h(·) une fonction croissante. Soit {fθ (·); θ ∈ Θ ⊆ R} une famille de densité continues à RVM croissant dont le support est indépendant de θ. Si Eθ (h (X)) existe, alors Eθ (h (X)) est croissante en θ. Démonstration. Voir Bosa[11] et Lmoudden [12]. Lemme 5. Soit f (x−θ) une fonction de densité d'un pivot linéaire X −θ. Si f0 (·) est log-concave, alors la famille fθ (·) est à rapport de vraisemblance monotone (RVM) croissant. Démonstration. On peut écrire f (x) = e θ1 fθ2 (x) fθ1 (x) −h(x−θ) , où h est convexe. Mais ∀θ2 > croît en x ssi h(x − θ1 ) − h(x − θ2 ) est croissant en x et cette croissance découle du Lemme 3 avec x2 = −θ1 et x1 = −θ2 . Corollaire 4. Soient fθ = f0 (x − θ), θ ∈ Θ, une densité de famille à position dont QΔ,θ le support est indépendant de θ et QΔ,θ les quantiles tels que −∞ fθ (x)dx = Δ, Δ ∈ (0, 1). Si la famille {fθ (·); θ ∈ Θ} est à RVM croissant, alors QΔ,θ est croissant en θ. Démonstration. Soient θ , 1 θ2 tels que θ2 ≥ θ1 et h(x) = I(QΔ,θ2 ,∞) (x). Puisque la fonction indicatrice I(QΔ,θ2 ,∞) (x) est croissante en x, on a Eθ2 (h (X)) ≥ Eθ1 (h (X)) selon le Lemme 4 ce qui donne 1−Δ= ∞ −∞ I(QΔ,θ2 ,∞) (x)fθ2 (x)dx ≥ ∞ −∞ I(QΔ,θ2 ,∞) (x)fθ1 (x)dx ⇒ QΔ,θ2 ≥ QΔ,θ1 . Lemme 6. Soit Y une variable aléatoire de densité e−h(y−θ) avec h une fonction convexe. Pour toute densité a priori π (θ), la famille des lois a posteriori π (θ|y) est à (RVM) croissante en θ avec paramètre y ∈ R. 58 Démonstration. Soient y 1 et y2 tels que y2 > y1 . On a : e−h(y2 −θ) π(θ) π(θ|y2 ) ∝ −h(y1 −θ) π(θ|y1 ) e π(θ) h(y1 −θ)−h(y2 −θ) = e = eh(θ−y1 )−h(θ−y2 ) . La croissance de ce rapport en θ découle alors de la convexité de h et du Lemme 3. 3.2.2 La borne inférieure 1 − 3α 2 avec des densités log-concaves Dans cette sous-section, nous voyons que la log-concavité de la densité du pivot T (X, θ) joue un rôle important pour démontrer la croissance des bornes lα(·) et uα(·) de l'intervalle Iπ0 ,α(·) donné par le Lemme 1, et pour étudier le comportement de la probabilité de recouvrement Cα(·) (θ). Le prochain lemme précise le comportement de ces bornes. Lemme 7. Sous le contexte de l'Hypothèse A et l'Hypothèse B et pour une fonction α de distribution α(·), g = G unimodale et t0 = −G−1 ( 1+α ) ≥ 0, on a : (a) uα(·) (x) a2 (x) est croissante en t(x) pour t(x) > t0 , (b) lα(·) (x) a2 (x) est croissante en t(x) lorsque t(x) ≥ t0 , (c) uα(·) (x) a2 (x) est croissante en t(x) lorsque g est log-concave. Démonstration. (a) Du Lemme 1, on a uα(·) (x) a2 (x) = t(x)+G−1 {1 − α(x)(1 − G(−t(x)))}. Du fait que α(x)(1 − G(−t(x)) décroît en t(x) (Hypothèse B ), le résultat découle en vertu de la croissance des fonction G et G−1 . 59 (b) Du Lemme 1 et pour t(x) ≥ t0 ≥ 0, on a : lα(·) (x) − t(x) = G−1 {G(−t(x)) + (α − α(x))(1 − G(−t(x)))} a2 (x) ≤ G−1 (G(−t0 )) = −t0 ≤ 0. Du fait que α(x)(1 − G(−t(x)) décroît en t(x), on a : lα(·) (x) ∂ ∂ G( − t(x)) = [G(−t(x)) + (α − α(x))(1 − G(−t(x)))], ∂t(x) a2 (x) ∂t(x) ⇒ ∂ (α(x)(1 − G(−t(x)))) (1 − α)g(−t(x)) − ∂t(x) ∂ lα(·) (x) ( ) = 1− l (x) ∂t(x) a2 (x) g( α(·) − t(x)) a2 (x) ≥ 1− (1 − α)g(−t(x)) g( lα(·) (x) a2 (x) − t(x)) ≥ 1 − (1 − α) = α ≥ 0. Le résultat découle du fait que lα(·)(x) ≥ 0 et que g est unimodale. u (x) a (x) (c) On a, pour z = a (x) ≤ t0 , que a (x) = z + G−1 {1 − α(1 − G(−z))} correspond au quantile d'ordre 1 − α de la loi a posteriori de aτ (θ) . On obtient la fonction de (x) répartition a posteriori de ω = aτ (θ) de (3.1) et on a : (x) 1 α(·) 2 2 2 2 1 − G(ω − z) τ (θ) ≤ ω|x) = 1 − a2 (x) 1 − G(−z) G(ω − z) − G(−z) = . 1 − G(−z) Hx (ω) = Pπ0 ( g(ω−z) est hx(ω) = 1−G(−z) I[0,∞) (ω). La log-concavité de g La densité a posteriori de aτ (θ) (x) implique que la famille des lois a posteriori de aτ (θ) est à rapport de vraisemblance (x) τ (θ) monotone(RVM) croissant en a (x) selon le Lemme 6. Alors, la croissance de ua (x)(x) découle du Corollaire 4. 2 2 α(·) 2 2 Pour une analyse plus approfondie, on suppose que a2(x) = 1, a1(x) = t(x) est croissante en x, et on écrit l(x) = l∗(t(x)), u(x) = u∗(t(x)) et α(x) = α∗(a1(x)) où l et 60 u sont donnés au Lemme 1. Ceci donne Iπ0 ,α(·) (x) = [l∗ (a1 (x)), u∗ (a1 (x))] avec l∗ (y) = y+G−1 {G(−y) + (α − α∗ (y))(1 − G(−y))} et u∗ (y) = y+G−1 {1 − α∗ (y)(1 − G(−y))}. Pour la suite, on note que α t0 = −G−1 ( 1+α ) α 1 u∗ (t0 ) = −G−1 ( 1+α ) + G−1 ( 1+α ), l∗ (t0 ) = 0, est le point où α∗ (y) = α pour et que y ≤ t0 . Maintenant, en vertu des propriétés de croissance données par le Lemme 7, les fonctions l∗ et u∗ sont continues et croissantes lorsque on peut dénir leurs inverses a = limy→−∞ u∗ (y). l∗ −1 et u∗ −1 sur (0, ∞) G et est log-concave et donc (a, ∞) respectivement où Les quantités suivantes sont utiles pour le calcul de la probabilité de recouvrement. Dénition 18. On dénit : −1 (i) x0 (τ (θ)) = u∗ (τ (θ)) − τ (θ) pour a ≤ τ (θ) ≤ y0 , −1 (ii) x1 (τ (θ)) = l∗ (τ (θ)) − τ (θ) pour τ (θ) ≥ 0, −1 (iii) x2 (τ (θ)) = u∗ (τ (θ)) − τ (θ) pour τ (θ) ≥ y0 , où a = limy→−∞ u∗ (y) et y0 = u∗ (t0 ). Le prochain lemme donne une forme équivalente, autre que celle de la Proposition 1, pour la probabilité de recouvrement propriétés utiles pour les quantités Cα(·) (θ) associée à l'intervalle x0 (τ (θ)), x1 (τ (θ)) et Iπ0 ,α(·) (X) et des x2 (τ (θ)). Lemme 8. Sous le contexte de l'Hypothèse A, l'Hypothèse B avec g log-concave, on a : où ⎧ ⎨ 1 − G(−x1 (τ (θ))) G(−x0 (τ (θ))) − G(−x1 (τ (θ))) Cα(·) (θ) = ⎩ G(−x2 (τ (θ))) − G(−x1 (τ (θ))) τ (θ) ∈ [0, a], si τ (θ) ∈ (a, y0 ], si τ (θ) ∈ (y0 , ∞), si (3.8) a = limy→−∞ u∗ (y), y0 = u∗ (t0 ) et x0 (·), x1 (·), et x2 (·) sont des fonctions, dénies 61 ci-dessus, satisfaisant les équations avec z = τ (θ) : G(−x0 (z)) = 1 − α (1 − G(−x0 (z) − z)) , (3.9) G(−x1 (z)) = α + (1 − α)G (−x1 (z) − z) − α∗ (x1 (z) + z) (1 − G(−x1 (z) − z)) , (3.10) ∗ G(−x2 (z)) = 1 − α (x2 (z) + z)(1 − G(−x2 (z) − z)). (3.11) Démonstration. 1) Pour a ≤ τ (θ) ≤ y , on a : 0 Cα(·) (θ) = = Pθ (l∗ (a1 (X)) ≤ τ (θ) ≤ u∗ (a1 (X))) Pθ τ (θ) − l∗ (τ (θ)) ≤ τ (θ) − a1 (X) ≤ τ (θ) − u∗ (τ (θ)) (P roposition 1) −1 −1 = G(−x0 (τ (θ))) − G(−x1 (τ (θ))). De la même façon, pour z ≥ y0 , on a Cα(·) (θ) = G(−x2 (z)) − G(−x1 (z)) et pour −1 0 ≤ z ≤ a, du fait que u∗ (a) = −∞, on a Cα(·) (θ) = 1 − G(−x1 (z)). 2) Pour l'équation en (3.9), puisque u ∗−1 (z) est la valeur de t(x) telle que u∗ (t(x)) = z et du fait que α∗ (y) = α pour y ≤ t0 , on a donc : z=u ∗−1 (z) + G −1 1 − α(1 − G(u ∗−1 (z))) ⇔ −x0 (z) = G−1 (1 − α(1 − G(−x0 (z) − z))) ⇔ G(−x0 (z)) = 1 − α (1 − G(−x0 (z) − z)) . De la même façon, on déduit l'équation en (3.11). Pour l'équation (3.10), on a : −1 −1 −1 −1 z = l∗ (z) + G−1 G(−l∗ (z)) + (α − α∗ (l∗ (z)))(1 − G(−l∗ (z))) ⇔ G(−x1 (z)) = G(−x1 (z) − z) + (α − α∗ (x1 (z) + z))(1 − G(−x1 (z) − z) ⇔ G(−x1 (z)) = α + (1 − α)G (−x1 (z) − z) − α∗ (x1 (z) + z) (1 − G(−x1 (z) − z)) . 62 Remarque 9. Seules les propriétés relatives à x (·), ainsi que ceux de la probabilité 0 de recouvrement Cα(·) (θ) pour τ (θ) ≤ y0 , exigent la log-concavité de G . Remarque 10. De (3.8) et les propriétés des x , x 0 1 et x2 , on note que la probabilité de recouvrement Cα(·) (θ) est une fonction continue sur [0, ∞), avec l'exception d'une discontinuité à τ (θ) = a, et lorsque a > 0. Dans ce cas, on a : limτ (θ)→a− x0 (τ (θ)) = −∞ et limτ (θ)→a+ x0 (τ (θ)) = u−1 (a)−a, ce qui conduira à une baisse de G(u−1 (a)−a) dans la probabilité de recouvrement en τ (θ) = a. Au titre d'illustration, voir Bosa [11]. Lemme 9. On a que : 1 (a) x0 (τ (θ)) est croissante en τ (θ) de −∞ à −G−1 ( 1+α ) pour τ (θ) ∈ (a, y0 ], α (b) x1 (τ (θ)) est croissante en τ (θ) de −G−1 ( 1+α ) à y1 = −G−1 (α − limz→∞ α∗ (z)) pour τ (θ) ≥ 0, 1 (c) x2 (τ (θ)) est décroissante en τ (θ) de −G−1 ( 1+α ) à y2 = G−1 (1 − limz→∞ α∗ (z)) pour τ (θ) ≥ y0 . Démonstration. En posant z = τ (θ), on a : −1 (a) De l'équation (3.9), on a −x0 (z) = G−1 (1 − α + αG(−u∗ (z))). Avec g étant −1 log-concave, on a que u∗ (z) croît en z cela implique que x0 (z) croît en z pour z ∈ (a, y0 ]. De plus, on a que a = limy→−∞ u∗ (y) ⇒ limz→a+ x0 (z) = −∞. −1 Finalement puisque u∗ (t0 ) = y0 , on a x0 (y0 ) = u∗ (y0 ) − y0 = t0 − y0 = 1 −G−1 ( 1+α ). −1 (b) La croissance de x1 découle de l'équation (3.10) et du fait que l∗ (z) = x1 (z)+z −1 est croissante en z (Lemme 7). De plus, on a x1 (0) = l∗ (0) − 0 = t0 et y1 = limz→∞ x1 (z) = −G−1 (α − limz→∞ α∗ (z)) ; 63 (c) De l'équation (3.11), on a −x2 (z) = G −1 ∗ 1 − α (u ∗−1 (z))(1 − G(−u ∗−1 (z))) (∗) . Sous le contexte de l'Hypothèse B et la croissance de la fonction u∗ (z) et G−1, on a que le côté droit de l'équation ( ∗) croît en z et cela implique que x2(z) 1 décroît en z ≥ 0. De plus, on a x2(y0) = x0(y0) = −G−1( 1+α ) et de (∗), on obtient y2 = limz→∞ x2(z) = −G−1(1 − limz→∞ α∗(z)). −1 En vertu du Lemme 8, on obtient les propriétés suivantes pour la probabilité de recouvrement Cα(·)(θ), τ (θ) ≥ 0. Corollaire 5. Sous le contexte de l'Hypothèse A et l'Hypothèse B, soit un intervalle de crédibilité bayésien de la classe C du Théorème 3. Pour la probabilité de recouvrement fréquentiste Cα(·)(θ), on a que : (a) Cα(·) (θ) est croissante en τ (θ) et Cα(·) (θ) ≤ 1 − α pour τ (θ) ≥ y0 , 1 (b) Cα(·) (θ) ≥ 1+α pour τ (θ) ∈ (0, a], (c) Cα(·) (θ) ≤ 1 − α + limt(x)→∞ α(x) pour τ (θ) ≥ 0. Iπ0 ,α(·) Démonstration. (a) Du Lemme 8 et pour τ (θ) ≥ y0, on a Cα(·)(θ) = G(−x2(τ (θ))) − G(−x1(τ (θ))). Mais on a du Lemme 9 que la fonction x1(τ (θ)) croît en τ (θ) tandis que la fonction x2(τ (θ)) décroît en τ (θ) ce qui implique que Cα(·)(θ) est croissante en τ (θ). Finalement, du Lemme 9, on a Cα(·) (θ) = G(−x2 (τ (θ))) − G(−x1 (τ (θ))) ≤ G(−y2 ) − G(−y1 ) = (1 − lim α(x)) − (α − lim α(x)) t(x)→∞ = 1 − α. 64 t(x)→∞ (b) Pour τ (θ) ∈ (0, a] et du Lemme 9, on a : Cα(·) (θ) = 1 − G(−x1 (τ (θ))) ≥ 1 − G(−x1 (0))) = 1 − G(−t0 ) = (c) 1 . 1+α On a de (a) que Cα(·) (θ) ≤ 1 − α pour τ (θ) ≥ y0 , alors il sut de démontrer le résultat pour τ (θ) ≤ y0 . On a : Cα(·) (θ) ≤ 1 − G(−x1 (τ (θ))) ≤ 1 − G(−y1 ) = 1 − G G−1 (α − lim α∗ (z)) z→∞ ∗ = 1 − α + lim α (z). z→∞ Les prochains lemmes seront utiles pour établir la borne inférieure 1 − 3α2 pour la probabilité de recouvrement fréquentiste Cα(·) (θ) associée au choix αég (·). Lemme 10. (Marchand et al.[2]) Soit g log-concave en R et unimodale en 0. Alors, on a : (a) g(y) g(y + θ) est non décroissante en θ sur (0, ∞), pour y ≥ 0 ; (b) g(y) g(y + θ) est non décroissante en y sur R, pour θ ≥ 0 ; (c) g(y(θ)) g(y(θ) + θ) est non-décroissante en θ sur négative et non décroissante sur [0, ∞) ; (d) G (e) (0, ∞) pour y(·) une fonction non- et G ≡ 1 − G sont log-concaves sur (0, +∞) ; Le taux de défaillance λ(·), avec λ(y) = 65 g(y) G(y) est non décroissante sur R. Démonstration. (a) Le résultat découle de l'unimodalité de g. (b) On peut écrire g(y) = e , où h est convexe. Alors, on a −h(y) g(y) g(y+θ) = eh(y+θ)−h(y) mais du Lemme 3, on a que h(y + θ) − h(y) croît en y ∈ R et θ ≥ 0. C'est-à-dire que g(y) ↑ y ∈ R et θ ≥ 0. g(y+θ) (c) Le résultat découle des parties (a) et (b). (d) Ce résultat est démontré par Bergstrom et Bagnoli [10]. (e) On a ⇒ G (y) G(y) − G (y) λ(y) = . = Ḡ(y) G(y) g(y) Mais on a de la partie (d) que G est log-concave est décroissant en y ⇒ λ(y) croît en y ∈ R. Lemme 11. Pour g log-concave et unimodale en 0, on a G(z) G(0) − G(z) ≥ , G(2z) G(z) − G(2z) pour tout z ≥ 0. (3.12) Démonstration. Puisque la log-concavité de g implique que le taux de défaillance est croissant ( Lemme 10), on a λ(z) ≤ λ(2z) ⇒ z ≥ 0, il sut de démontrer que λ(·) g(z) g(2z) ≤ G(z) G(2z) z g(y)dy G(0) − G(z) g(z) ≤ = 02z g(2z) G(z) − G(2z) g(y)dy z 2z z g(y) g(y) ⇔ dy ≤ dy g(2z) 0 g(z) z z g(y) g(y + z) ⇔ − dy ≤ 0. g(z) g(2z) 0 En appliquant la partie obtient . Alors, pour tout (3.13) (b) du Lemme 10 à l'intérieur de l'intégrale à (3.13), on g(y) g(y + z) − ≤0 g(z) g(2z) pour tout y, z tels que y ∈ (0, z) et le résultat s'ensuit. Remarque 11. Le Lemme 11 fut donné par Marchand et al. [2] pour le cas g symétrique avec G(0) = 12 . 66 Lemme 12. Soit g une densité log-concave en R et unimodale en 0. On dénit la fonction H(z) = 1 − G(−z) et on a : (a) H est une fonction log-concave, α (b) De plus, pour t0 = −G−1 ( 1+α ) ≥ 0, on a 1 − 3α2 H(2t0 ) ≥ . 1 − α2 (3.14) Démonstration. (a) Ce résultat est démontré par Bergstrom et Bagnoli [10], (b) Puisque H(t0 ) = 1 1+α et H(t0 ) = α , 1+α on a : 2 1 − 1−3α H(2t0 ) H(2t0 ) 1 − 3α2 2α 1−α2 ⇔ ⇔ . ≤ ≤ H(2t0 ) ≥ α 2 1−α 1−α H(t0 ) H(t0 ) 1+α Du Lemme 11, on a H(2t0 ) H(t0 ) ≤ H(t0 ) − H(2t0 ) avec t0 étant positive. Alors, pour H(0) − H(t0 ) démontrer l'inégalité (3.14), il sut de montrer que H(t0 ) − H(2t0 ) 2α 2α 2α2 α ⇔ − H(2t0 ) ≤ H(0) − ≥ 2 1−α 1−α 1−α 1+α H(0) − H(t0 ) α 2α − H(2t0 ). H(0) ≥ ⇔ 1−α 1−α Mais, on a que H(z) est décroissante en z ≥ 0 et cela implique que H(2t0 ) ≤ H(0). Alors, on obtient : 2α α α α − H(0) ⇔ H(0) ≥ ⇔ G(0) ≥ ⇔ t0 ≥ 0. H(0) ≥ 1−α 1−α 1+α 1+α Remarque 12. La condition G(0) ≥ α . 1+α α 1+α est équivalente à Pθ (−T (X, θ) ≤ 0) ≥ Par exemple, soit X ∼ Exp(θ) avec le paramètre d'échelle θ ≥ 1. On a, de l'Exemple 16, que la fonction de répartition de T (X, θ) = log(X) − log(θ) est G(t) = −t P (−log( Xθ ) ≤ t) = e−e . Alors, on a α≤ 1 e Pθ (−T (X, θ) ≤ 0) = G(0) = ≥ 1 . e−1 67 α lorsque 1+α On peut maintenant établir la borne inférieure 1− 3α2 de Cα(·)(θ) associée à l'intervalle bayésien Iα (·), α ∈ (0, 13 ] et G log-concave. On procède par analyse séparée sur diérents intervalles. ég Lemme 13. Sous les mêmes hypothèses qu'au Lemme 8, on a que Cα pour τ (θ) ∈ [y0, ∞) avec y0 = u∗(t0) et t0 ≥ 0. Démonstration. Pour τ (θ) ∈ [y0, ∞) on a ég (·) (θ) ≥ 1− 3α 2 Cα(·) (θ) = G(−x2 (τ (θ))) − G(−x1 (τ (θ))) ≥ G(−x2 (y0 )) − G(−x1 (y0 )) (par le Lemme 9) 1 − G(−x1 (y0 )) = 1+α α 1−α 1 ∗ − + G(−x1 (y0 ) − y0 ) par (3.10) et α∗ (·) = αég (·) Cαég (·) (θ) ≥ 1+α 2 2 α 1−α 1 − − G(−2t0 ) ( du fait que x1 (y0 ) + y0 ≥ x1 (0) + y0 ≥ 2t0 ) ≥ 1+α 2 2 α 1−α 1 − − (1 − H(2t0 )) = 1+α 2 2 α 1−α 1 − 3α2 1 (par le Lemme 12) − − 1− ≥ 1+α 2 2 1 − α2 3α = 1− . 2 Lemme 14. Soit z1 = G−1 (1 − hypothèses qu'au Lemme 8, on a : 3α 2 + α ) 1+α 1−α − G−1 ( 2(1+α) ). (a) C (θ) ≥ 1 − pour tout τ (θ) ∈ [0, z ], (b) z ∈ [t , y ]. Démonstration. (a) Posons z tel que G(−x (z )) = 1 − 3α 2 αég (·) 1 0 Alors sous les mêmes 1 0 1 0 68 1 3α 2 + α 1+α . On a pour τ (θ) ≤ z1 α 3α + − G(−x1 (τ (θ))) 2 1+α α α α 3α 3α + − G(−x1 (0)) = 1 − + − ≥ 1− 2 1+α 2 1+α 1+α 3α = 1− . 2 Cα(·) (θ) = G(−x0 (τ (θ))) − G(−x1 (τ (θ))) ≥ 1 − Par ailleurs, on obtient du Lemme 8 G(−x0 (z1 )) = 1 − α[1 − G(−x0 (z1 ) − z1 )] α 3α + ⇔ 1 − α[1 − G(−x0 (z1 ) − z1 )] = 1 − 2 1+α 1−α 1−α ⇔ G(−x0 (z1 ) − z1 ) = ⇔ −x0 (z1 ) − z1 = G−1 ( ) 2(1 + α) 2(1 + α) α 3α 1−α + ) − G−1 ( ). ⇔ z1 = G−1 (1 − 2 1+α 2(1 + α) (b) On a, pour α ∈ (0, 31 ], que G(−x0 (z1 )) = 1 − α 1 3α + ≥ = G(−x0 (y0 )) 2 1+α 1+α ⇒ z 1 ≤ y0 . D'autre part, l'inégalité z1 ≥ t0 est équivalente à G −1 3α α 1− + 2 1+α − G−1 ( 1−α α ) ≥ −G−1 ( ), 2(1 + α) 1+α α 1−α 3α α 1 ≤ et 1 − + ≥ pour α ≤ 13 , 1 + α 2(1 + α) 2 1+α 2 α 3α 1 − α α G−1 (1 − + ) > 0 ⇒ G−1 ( ) − G−1 ( ) ≤ 0. 2 1+α 2(1 + α) 1+α et puisque alors Le prochain théorème nous permet d'obtenir enn la borne inférieure Cα (·) (θ) avec G log-concave. ég 69 1− 3α 2 pour (θ) Théorème 4. Soit G la fonction de répartition du pivot linéaire T (X, θ) = a (x)−τ , a (x) 1 2 a2 (x) = 1, telle que la densité g soit log-concave et unimodale en 0. Soit Iπ0 ,αég (·) (X) l'intervalle bayésien à ailes égales sous la loi a priori π0 (θ) = πH (θ)I[0,∞) (τ (θ)). α ∗ Soit t0 = −G−1 ( 1+α ) ≥ 0 (le point où αég (y) = α pour y ≤ t0 ). La probabilité de recouvrement fréquentiste Cαég (·) (θ) est alors bornée inférieurement par 1 − 3α 2 pour 3α 2 pour tout τ (θ) ≥ 0. Démonstration. Selon les lemmes 13 et 14, on a déjà que C αég (·) (θ) ≥ 1− tout τ (θ) ∈ [0, z1 ]∪[y0 , ∞]. Ainsi, il reste à montrer que la borne tient sur l'intervalle [z1 , y0 ]. En vertu de la log-concavité et de l'unimodalité de g(·) autour de 0, on a Cα(·) (θ) = G(−x0 (τ (θ))) − G(−x1 (τ (θ))) ≥ G(−x0 (y0 )) − G(−x1 (τ (θ))) 1 − G(−x1 (z1 )). ≥ 1+α De plus, on a 3α 1 − (1 − ) 1+α 2 α 1−α α(1 + 3α2 ) ∗ + G(−x1 (z1 ) − z1 ) ≤ par (3.10) et α∗ (·) = αég (·) 2 2 2(1 + α) 2 2α G(−x1 (z1 ) − z1 ) ≤ 1 − α2 2 2α G(−2t0 ) ≤ ( du fait que x1 (z1 ) + z1 ≥ x1 (t0 ) + t0 ≥ 2t0 ) 1 − α2 1 − 3α2 , H(2t0 ) ≥ 1 − α2 G(−x1 (z1 )) ≤ ⇔ ⇔ ⇐ ⇔ ce qui est vrai en vertu du Lemme 12. Le prochain résultat borne supérieurement la probabilité de recouvrement minimale pour Cα(·) (θ) et démontré que la borne 1 − premier degré pour infτ (θ)≥0 Cαég (·) (θ). 70 3α 2 est la meilleure approximation du Corollaire 6. Sous le contexte du Lemme 8 et du Théorème 4, on a que infτ (θ)≥0 Cα(·) (θ) ≤ 1 − α2 3α α + + ( lim α(x) − ). t(x)→∞ 2 1+α 2 Démonstration. Du Lemme 9, on a inf τ (θ)≥0 Cα(·) (θ) ≤ Cα(·) (y0 ). Donc on a 1 Cα(·) (y0 ) = G(−x0 (y0 )) − G(−x1 (y0 )) = − G(−x1 (y0 )) 1+α 1 1 ∗ ≤ − G(y1 ) = − α − lim α (z) z→∞ 1+α 1+α 3α α2 α = 1− + + ( lim α∗ (z) − ). z→∞ 2 1+α 2 Remarque 13. Du Théorème 4, le Corollaire 6 et du fait que limt(x)→∞ αég (x) = α2 , on a, pour α(x) = αég (x), que 1− 3α α2 3α ≤ infτ (θ)≥0 Cαég (·) (θ) ≤ 1 − + . 2 2 1+α Maintenant, on donne un lemme utile pour déduire la borne 1 − 3α 2 pour d'autres fonctions de distribution α(·) de la sous-classe C pour lesquelles Iα(·) ≥ Iαég (·) . Lemme 15. On suppose α1(·) et α2(·) deux fonctions de distribution satisfaisant les conditions du Théorème 3 et de l'Hypothèse B. Alors, on a α1 (·) ≥ α2 (·) ⇒ infτ (θ)≥0 Cα1 (·) (θ) ≥ infτ (θ)≥0 Cα2 (·) (θ). Démonstration. Premièrement, puisque C α(·) (θ) est croissante en τ (θ) ∈ [y0 , ∞] (Corollaire 5) et puisque y0 ne dépend pas de α(·), on a infτ (θ)≥0 Cα(·) (θ) = infτ (θ)≤y0 Cα(·) (θ) et il sut alors de montrer que infτ (θ)≤y0 Cα1 (·) (θ) ≥ infτ (θ)≤y0 Cα2 (·) (θ). 71 Maintenant, de l'équation (3.8), on peut écrire pour τ (θ) ≤ y 0 Cαi (·) (θ) = min (1, G(−x0 (τ (θ)))) − G(−x1,αi (·) (τ (θ))), (∗) pour i = 1, 2, où nous mettons l'emphase sur le fait que x (τ (θ)) dépend du choix α(·) et que x (τ (θ)) ne dépend pas de α(·) (voir la Dénition 18). Mais, la condition 1,α(·) 0 α1 (·) ≥ α2 (·) ⇒ lα1 (·) (t(x)) ≤ lα2 (·) (t(x)), ∀x, −1 −1 ⇒ lα∗ 1 (·) (τ (θ)) ≥ lα∗ 2 (·) (τ (θ)), ∀τ (θ) ≤ y0 , ⇒ x1,α1 (·) (τ (θ)) ≥ x1,α2 (·) (τ (θ)), ∀τ (θ) ≤ y0 , ⇒ −G(−x1,α1 (·) (τ (θ))) ≥ −G(−x1,α2 (·) (τ (θ))), ∀τ (θ) ≤ y0 , ⇒ Cα1 (·) (θ) ≥ Cα2 (·) (θ), de (∗) pour τ (θ) ≤ y . 0 Corollaire 7. Un intervalle bayésien Iπ ,α(·) satisfaisant les conditions du Théorème 0 3 et l'Hypothèse B, avec α(·) ≥ α (·), a une probabilité de recouvrement bornée inférieurement par 1 − . Démonstration. Le résultat découle du Lemme 15 et du Théorème 4. ég 3α 2 On obtient alors une classe d'intervalles bayésiens avec une probabilité de recouvrement fréquentiste supérieure à 1− (Théorème 4). Dans le cas où la densité du pivot est symétrique, ceci s'ajoute au résultat s'appliquant à I (voir [2]). Tandis que pour le cas général avec g log-concave et G(0) ≥ , les résultats sont nouveaux. On termine avec quelques exemples. Les prochains exemples proviennent de la Section s'applique. 3.1 et illustrent des situations où la borne inférieure 1 − 3α 2 HP D α 1+α 3α 2 72 Exemple 21. Considérons un modèle Gamma (r, θ) donné à la Section 3.1 (Exemple 16). La densité du pivot linéaire T (X, θ) = log( Xr ) − log(θ) est donnée par g(t) = r α e−r(t+e ) . Puisque log (g(t)) est concave et du fait que t0 = −G−1 ( 1+α ) ≈ 0.613 ≥ Γ(r) 0 (avec α = 0.05 et r = 5), on peut appliquer le Théorème 4 avec l'intervalle bayésien Iα (·) donné par (3.4). La probabilité de recouvrement Cα (·) (θ) est donc bornée inférieurement par 1 − 3α2 pour tout τ (θ) ≥ 0 ce qui est bien illustré à la Figure 3.3. De la Figure 3.1, on a que αHP D (·) ≥ αopt (·) ≥ αég (·) ce qui est implique, selon le Corollaire 7, que la borne 1 − 3α2 tient pour la probabilité de recouvrement de IHP D et Iopt . r −t ég ég Exemple 22. Considérons un modèle de loi normale à paramètre de position comme à l'Exemple 18. La densité du pivot linéaire T (X, θ) = X − θ est donnée par g(t) = α 1 √1 e− ≥ et cette densité est log-concave (voir [10] ). Du fait que G(0) = 2π 2 1+α pour tout α ∈ [0, 1], on peut appliquer le Théorème 4 avec l'intervalle bayésien Iα (·) donné par (18). Alors, la probabilité de recouvrement Cα (·) (θ), coïncide à 3α Cα (·) (θ), est supérieure à 1 − 2 pour tout θ ≥ 0. En eet, ce résultat est déjà obtenu pour le cas où la densité du pivot linéaire est symétrique (voir [2]). Du Corollaire 7, la borne 1 − 3α2 tient pour d'autres intervalles bayésiens Iα(·) pour lesquels α(·) ≥ αég (·). t2 2 ég ég HP D Exemple 23. Considérons X ∼ W eibull(r, θ), r connu et θ ≥ 1. La fonction de répartition du pivot linéaire T (X, θ) = log(X) − log(θ) est G(t) = e−e et sa densité est donnée par g(t) = re−rt−e . Puisque log(g(t)) est concave et du fait que G(0) = α 1 1 ≥ lorsque α≤ , on peut appliquer le Théorème 4. La probabilité de e 1+α e−1 recouvrement Cα (·) (θ) est donc bornée inférieurement par 1 − 3α2 pour tout τ (θ) ≥ 0. Comme le cas de loi Gamma, la borne 1− 3α2 tient pour la probabilité de recouvrement de IHP D et Iopt selon le Corollaire 7. −rt −rt ég 73 Remarque 14. Le Théorème 4, ainsi que le Corollaire 7, établissent la borne 1 − pour les probabilités de recouvrement d'une classe d'intervalles bayésiens. Pour α ≤ 13 , la borne 1 − 3α représente une amélioration signicative par rapport à la 2 borne 1−α . À titre d'illustration, reprenons l'Exemple 21 pour le cas Gamma(5, θ), 1+α θ ≥ 1 et 1 − α = 0.95, avec la probabilité de recouvrement Cα(·) (θ) représentée à la Figure 3.3. On a ici, infθ≥1 Cα(·) (θ) ≥ 1−α ≈ 0.905, mais aussi, pour α(·) ≥ αég (·), 1+α infθ≥1 Cα(·) (θ) ≥ 1 − 3α = 0.925. En revanche avec l'hypothèse de log-concavité pour 2 la densité du pivot, ces résultats sont moins généraux que ceux de la Section 3.1 qui ne requièrent pas la log-concavité. Par exemple, même si la borne 1 − 3α2 semble tenir pour le cas Fisher(r, s) (voir l'Exemple 17), ainsi que pour le cas où Xi ∼ind N (μ, σ), i = 1, . . . , n, avec (μ, σ) inconnu, μ ≥ 0 et le pivot de la loi de Student à n − 1 degrés de liberté (voir l'Exemple 15 et Figure 3 de Zhang et Woodroofe [5]), la théorie de cette section ne s'applique pas totalement car ni la densité d'une loi Fisher ou celle d'une loi de Student sont log-concaves. 3α 2 74 CONCLUSION Le travail qu'on a présenté dans ce mémoire s'inspire d'étude de Marchand et Strawderman [1] concernant l'estimation par intervalle Bayésien avec contrainte sur l'espaces des paramètres, et concernant notamment de la probabilité de recouvrement fréquentiste. Ces intervalles bayésiens Iπ0 ,α(·) sont associés à la troncature d'une loi a priori π0 non-informative (Haar invariante à droite) et générés par une fonction de distribution α(·). Les résultats s'appliquent pour de nombreux exemples et pour des (θ) modèles où il existe un pivot linéaire de la forme T (X, θ) = a1 (X)−τ (a2 (X) > 0) a2 (X) dont sa densité g0 est absolument continue. En eet, on a obtenu une classe d'intervalles bayésiens (Chapitre 3, Section 3.1) avec une probabilité de recouvrement fréquentiste bornée inférieurement par 1−α et cette classe inclut l'intervalle bayésien 1+α HPD dans le cas où la densité du pivot T (X, θ) est symétrique. Plusieurs exemples sont donnés à la Section 3.1 qui illustrent bien la théorie étudiée. De plus, on a établi la borne 1 − 3α2 (Section 3.2), dans le cas où g0 est log-concave, pour la probabilité de recouvrement Cαég (·) (θ) de l'intervalle à ailes égales Iαég (·) (déni à la Dénition 14) et on a déduit cette borne pour d'autres intervalles bayésiens Iα(·) pour lesquels α(·) ≥ αég (·). Ces nouveaux résultats améliorent, pour α ≤ 13 , la borne inférieure 1−α 1+α 3α (obtenue à la Section 3.1) et incluent les résultats obtenus pour la borne 1 − 2 dans le cas où g0 est symétrique (Marchand et al.[2]). D'autres propriétés, de cette proba75 bilité de recouvrement sont obtenues. Enn, il serait intéressant, comme perspectives futures, de (I) Obtenir une meilleure borne, telle 1 − 3α , 2 pour la probabilité de recouvrement Cαég (·) (θ) dans le cas de non log-concavité (voir la Remarque 14). (II) Considérer des problèmes analogues où les résultats de ce mémoire ne s'appliquent pas tels l'estimation de θ sujet à la contrainte θ1 − θ2 ≥ 0 (voir la Remarque 6). (III) Étudier la problématique d'une restriction à un intervalle de type τ (θ) ∈ [a, b] et la performance fréquentiste d'intervalles bayésiens où la loi a priori π0 uniforme pourrait s'avérer un choix insatisfaisant (voir Lmoudden [12]), mais où on peut envisager d'autres choix de la loi a priori π0 . 76 Bibliographie [1] É. Marchand and W.E. Strawderman (2013). On Bayesian credible sets in restricted parameter space problems and lower bounds for frequentist coverage, Electronic Journal of Statistics, Vol. 7, 1419-1431. [2] É. Marchand, W.E. Strawderman, K. Bosa and Lmoudden. A (2008). On the frequentist coverage of Bayesian credible intervals for lower bounded means, Electronic Journal of Statistics, 2, 1028-1042. [3] É. Marchand et W.E. Strawderman (2006). On the behaviour of Bayesian intervals for some restricted parameter space problems, IMS Lecture NotesMonograph Series, volume 50, 112-126. [4] B. Roe and M. Woodroofe (2000). Setting condence belts, Physical Review, volume 63, 01-09. [5] T. Zhang and M. Woodroofe (2002). Credible and condence sets for the ratio of variance components in the balanced one-way model, Sankhy 77 ā : Special issue in memory of D.Basu, volume 64, 545-560. [6] T. Zhang, and M. Woodroofe (2003). Credible and condence sets for restricted parameter spaces awela, Journal of Statistical Planning and Inference, volume 115, 479-490. [7] J.O. Berger (1985). Statistical Decision Theory and Bayesian Analysis, Seconde édition, Springer-Verlag, New York. [8] G. Casella et R.L. Berger (2002). Statistical Inference, seconde édition, Duxbury Advanced Series. [9] M. Mandelkern (2002). Setting condence intervals for bounded parameters (with discussion), Statistical Science, volume 17, 149-172. [10] M. Bagnoli et T. Bergstrom (2005), Log-Concave Probability And Its Applications, Economic Theory, 26, 445-469. [11] K. Bosa (2007). Estimation bayésienne par intervalle sur un espace paramétrique restreint, Mémoire de maîtrise, Université de Sherbrooke. [12] A. Lmoudden (2008). Sur les intervalles de conance bayésiens pour des espaces 78 de paramètres contraints, Mémoire de maîtrise, Université de Sherbrooke. [13] Pratt, J.W. (1963). Shorter condence intervals for the mean of a normal distribution with known variance. Ann. Math. Statist, 34, 574-586. [14] Christian P. Robert (2006). Le choix bayésien - Principes et pratique, SpringerVerlag France, Paris. [15] Dominique Fourdrinier (2002). Statistique Inférentielle, Éditions Dunod, Paris, cours et exercices corrigés. [16] Judith Rousseau (2009-2010). Statistique Bayésienne - Notes de cours, ENSAE, Paris Tech. 79