QUELQUES TESTS DE LA LOI DE POISSON CONTRE

publicité
QUELQUES TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES
GÉNÉRALES BASÉS SUR L’INDICE DE DISPERSION DE FISHER
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
R ÉSUMÉ . La principale motivation de ce travail est d’évaluer les performances de quelques procédures
de test destinées à valider l’adéquation de la loi de Poisson avec des données de comptage contre des alternatives générales. Ainsi nous comparons le test du Khi-Deux de Pearson à des tests construits à partir
de statistiques obtenues par l’application d’une transformation de Box-Cox à l’indice de dispersion de
Fisher.
1. I NTRODUCTION
1.1. Données de comptage. Les données de comptage résultent généralement du dénombrement des
occurences d’évènements contemporains ou voisins dans l’espace.
Bien que le modèle poissonnien soit le cadre probabiliste le plus utilisé pour l’analyse des données de
comptage, ce modèle est approprié seulement si le processus sous-jacent à l’occurence des évènements
considérés vérifient les hypothèses suivantes :
(1) la probabilité de l’occurence simultanée de deux évènements est nulle ;
(2) aucune occurence d’évènement au commencement de la période d’observation ;
(3) la probabilité d’une occurrence pendant la période d’observation est
– indépendante des occurences d’évènement antérieures à la date de cette occurence dans
la période d’observation ;
– indépendante de la date de cette occurence (hypothèse d’homogénéité).
1.2. Famille exponentielle des lois de Poisson. Cette famille est constituée de lois de probabilités
p, de support égal à N, associées chacune de manière injective à un paramètre canonique θ ∈ R par la
relation
p (x, θ) =
où :
1
exp xθ − eθ
x!
+∞
X
1
exp (xθ)
x!
x=0
exp (θ) = log
est appelé fonction cumulante. On a d’une part :
!
Date: Février 2004.
Mots-clés: . Données de comptage, surdispersion, sousdispersion, bon ajustement.
1
2
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
λ = exp (θ) =
+∞
X
xp (x, θ)
x=0
et d’autre part
λ =
+∞
X
x=0
(x − λ)2 p (x, θ) .
L’égalité entre la moyenne et la variance d’une loi de Poisson exprimée par les expressions ci-dessus
caractérise la famille des lois de Poisson parmi les familles exponentielles de lois de probabilités.
1.3. Familles de lois de probabilités alternatives à la famille des lois de Poisson. Lorsque le modèle poissonnien n’est pas approprié, principalement parce que les résultats issus du traitement des
données ne permettent pas de le valider, la question se pose de trouver un modèle probabiliste alternatif pour décrire les variations observées dans les données étudiées. Il est courant de chercher ces
variance
familles alternatives de lois de probabilités en se fondant sur la position du rapport moyenne
relativement à 1 :
– lorsque ce rapport est significativement supérieur à 1 la situation est qualifiée de sur-dispersion
– si par contre ce rapport est inférieur à 1 on est en situation de sous-dispersion.
Définition 1. Soit F une famille de lois de probabilité. On dira que la famille F est sur-dispersée
(resp. sous dispersée) relativement à la famille des lois de Poisson si pour toute distribution de pro2
2
babilité appartenant à cette famille, de moyenne µ et de variance σ 2 on a σµ > 1 (resp. σµ < 1).
La sur-dispersion a retenu beaucoup l’attention et a été étudiée de manière extensive : détection de
la sur-dispersion et modélisation de la sur-dispersion. Par contre, la sous-dispersion demeure peu
étudiée et les travaux convainquants en matière de modélisation de la sous-dispersion ne sont pas
nombreux. Les résultats du présent travail concernent les différents aspects de l’inadéquation de la loi
de Poisson avec des données, la surdispersion comme la sous dispersion. Dans la section 2 qui vient,
nous étudions quelques statistiques en rapport avec l’indice de dispersion de Fisher. La section 3 est
conscrée à une comparaison empirique des performances des tests construits à partir des statistiques
étudiées dans la section qui précède.
2. S TATISTIQUE
DES DONNÉES DE COMPTAGE
On considère (xi )i=1:n une série de n dénombrements indépendants des occurences d’un certain type
d’évènement. On note
n
1X
xi
xn =
n
i=1
Sous l’hypothèse que la série statistique est constituée par les réalisations de variables aléatoire indépendantes distribuées suivant la même loi de Poisson de moyenne λ, x n est l’estimation de λ par la
méthode du maximum de vraisemblance. Notons par ailleurs la variance empirique des données par
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
3
n
s2n =
1X
(xi − xn )2
n
i=1
Une question récurrente du traitement statistique des données de comptage est la validation ou non
l’hypothèse que les données sont compatibles avec le modèle poissonnien. On considère dans la suite
comme hypothèse nulle, H0 , l’hypothèse que les dénombrements observés sont des réalisations indépendantes d’une même loi de Poisson.
2.1. Indice de dispersion de Fisher. L’indice de dispersion de Fisher est une des statistiques les plus
utilisées pour discriminer le modèle poissonnien par rapport à des modèles alternatifs. Il est défini par
n
s2
n
n 2
le quotient n−1
xn . On peut observer que le numérateur n−1 sn mesure la variabilité observée dans
les données et que xn est l’estimation de cette variabilité prévue par le modèle poissonnien. Il parait
donc raisonnable de considérer un écart trop important entre ces deux mesures de dispersion comme
l’évidence de l’inadéquation du modèle poissonien avec les données.
2.1.1. Distribution de probabilités de l’indice de dispersion de Fisher. Soit (X i )i=1:n une suite de
variables aléatoires indépendantes identiquement distribuées à valeurs dans N. On pose
n
X
Xi
Xn =
i=1
n
Sn2
=
2
1X
Xi − X n
n
i=1
n
S2
n
pour un échanOn ne connaît pas d’expression algébrique de la distribution de la statistique n−1
Xn
tillon de taille n donnée. Sous l’hypothèse que les dénombrements observés sont des réalisations indé2
n
pendantes de variables de Poisson de même moyenne, nS
Xn apparaît comme la statistique de Pearson et
on montre que cette statistique est approximativement égale à celle du rapport de vraisemblance sous
2
n
est asymptotiquement distribué comme la loi du Chi−Deux
l’hypothèse nulle. On en déduit que nS
Xn
à n − 1 degrés de liberté si l’échantillon observée est générée par une loi de Poisson. On peut montrer
que plus généralement :
Proposition 1. Si (Xi )i=1:n une suite de variables aléatoires indépendantes distribuées suivant la
même loi de probabilité de moyenne µ et de variance σ 2 alors la convergence en loi de la statistique
2 2
2
nSn
nX n
σ
vers
U.
vers
une
variable
aléatoire
U
entraîne
celle
de
la
statistique
µ
S2
X
n
n
2.1.2. Tests du Chi − Deux pour discriminer la famille des lois de Poisson par rapport à des familles alternatives de lois de probabilité. Nous ne considérons ici que les tests du Chi − Deux basés
sur l’indice de dispersion. Effet, si on dispose d’un échantilon de taille suffisante, on peut envisager
de tester l’hypothèse nulle que la distribution est une loi de Poisson contre les alternatives de surdispersion ou de sous-dispersion et même l’alternative bilatérale. Malheureusement on ne connait pas
2
n
n
de manière explicite le comportement asymptotique de nS
et nX
sous des hypothèses alternatives
2
Sn
Xn
générales pour pouvoir comparer ces procédures de test de point de vue de leurs puissances. Soit
χ2n−1,α et χ2n−1,1−α respectivement les quantiles d’ordre α et 1 − α de la distribution du Chi − Deux
à n − 1 degré de liberté.
4
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
– Hypothèse alternative d’une famille sur-dispersée
De nombreuses procédures de test ont été proposées, même récemment encore [2, 4], pour tester
l’hypothèse nulle contre l’alternative de sur-dispersion.
Pour une valeur nominale de la probabilité d’erreur de première espèce fixée à α, on peut envisager l’une des deux procédures suivantes :
Rejet de H0 si
2
nSn
Xn
Rejet de H0 si
nX n
2
Sn
> χ2n−1,1−α
ou
< χ2n−1,α
– Hypothèse alternative d’une famille sous-dispersées
De la même manière que ci-dessus, on peut envisager de tester l’hypothèse nulle de la distribution
de Poisson contre l’alternative de sous-dispersion en considérant l’un des tests de régions critiques
suivantes :
Rejet de H0 si
2
nSn
Xn
Rejet de H0 si
nX n
2
Sn
< χ2n−1,α
ou
> χ2n−1,1−α
– Hypothèse bilatérale
A l’évidence on peut envisager également un test bilatéral de l’hypothèse nulle contre son
contraire basé sur l’indice de dispersion de la manière suivante, pour une probabilité d’erreur de
première espèce α :
Rejet de H0 si
2
nSn
Xn
< χ2n−1, α ou
2
2
nSn
Xn
> χ2n−1,1− α
2
2.2. Autres statistiques en rapport avec l’indice de dispersion de Fisher. Tiago de Oliveira [6] a
n
Sn2 − X n , l’utilisation de la statistique
suggéré, à partir de l’étude de la variance de la statistique n−1
n
2
n−1 Sn
1
TO = n 2 − Xn
1
1 − 2X n2 + 3X n
12
pour construire un test de l’hypothèse nulle contre l’aternative de sur-dispersion.
n
Sn2 −X n obtenue par Tiago de
Après avoir observé que l’expression de la variance de la statistique n−1
Oliveira sous l’hypothèse nulle était fausse, Böhning [1] a donné l’expression correcte de la variance
n
Sn2 − X n et proposé la statistique suivante
de n−1
TB =
r
n−1
2
n
2
n−1 Sn
− Xn
Xn
!
pour construire un test de l’hypothèse nulle de la loi de Poisson contre l’alternative de la sur-dispersion.
Böhning [1] n’a pas explicitement étudié la distribution de la statistique T B qu’il a proposée ni sous
l’hypothèse nulle, ni sous l’hypothèse de sur-dispersion. Comme la statistique T B est fondée sur
Sn2
n
Sn2 − X n = Sn2 − X n +
,
n−1
n−1
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
5
poursuivant en cela l’idée de Tiago de Oliveira, nous allons étudier le comportement asymptotique de
Sn2 − X n dans la section qui va suivre.
2.2.1. Comportement asymptotique de la statistique S n2 − X n . Considérons une suite (Xi )i=1:n de
n variables aléatoires indépendantes de même loi. On supposera que cette loi admet des moments
jusqu’a l’ordre 4. Soit :
µ = E (X1 )
σ 2 = E (X1 − µ)2
µk = E (X1 − µ)k , k ≥ 3
o
√ n n 2
√ 2−µ
Proposition 2. Les statistiques n Sn2 − X n − σ 2 − µ et n
S
−
−
σ
X
n
n
n−1
2
convergent en loi vers la distribution gaussienne centrée et de variance µ4 − 2µ3 + σ 2 − σ 2
Démonstration.
n
Sn2
2
− Xn − σ − µ
=
2
1X
(Xi − µ)2 − X n − µ − X n − µ
n
i=1
=
n
o
2
1 Xn
(Xi − µ)2 − (Xi − µ) − σ 2 − X n − µ
n
i=1
(Xi − µ)2 − (Xi − µ) est une variable aléatoire de moyenne égale à σ 2 et de variance égale à µ4 −
2
2µ3 + σ 2 − σ 2 . Il s’ensuit que
√
n
1
n
n n
X
i=1
o
(Xi − µ)2 − (Xi − µ) − σ 2
q
(µ4 − 2µ3 + σ 2 ) − (σ 2 )2
converge en loi vers la loi gaussienne centrée et réduite.
√
Comme n X n − µ converge en loi d’après le théorème limite central et X n −µ converge presque
2
√
√ sûrement vers 0, alors n X n − µ converge en probabilité vers 0. On en déduit que n Sn2 − X n − σ 2 − µ
2
converge en loi vers la loi gaussiennce centrée et de variance µ4 − 2µ3 + σ 2 − σ 2 . Par ailleurs
√
√
Sn2
n
2
2
=
n
n Sn − X n +
S − Xn
n−1 n
n−1
√ Sn2
et n n−1 converge presque-sûrement vers 0.
√ n n 2
o
√ 2
2
2
Il s’ensuit que les statistiques n Sn − X n − σ − µ et n
n−1 Sn − X n − σ − µ
ont la même distribution asymptotique.
Corollaire 1. Si les variables aléatoires X i , i = 1 : n sont indépendantes et distribuées suivant la loi
p 2 n
converge en loi vers la loi gaussienne centrée réduite.
de Poisson de moyenne λ alors n2 Sn −X
λ
6
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
Démonstration. Sous l’hypothèse que les variables aléatoires X i , i = 1 : n sont distribuées suivant la
loi de Poisson de moyenne λ, µ4 = 3λ2 + λ, µ3 = λ et σ 2 = λ. D’où
2
µ4 − 2µ3 + σ 2 − σ 2
= 2λ2
On obtient la proposition comme une conséquence de la précédente
Corollaire 2. Si les variables aléatoires X i , i = 1q
: n sont indépendantes et distribuées suivant la loi
n
n
2 −X
p n n−1
Sn
S 2 −X n
n
n−1 n
et n−1
convergent en loi respectivement
de Poisson de moyenne λ, alors 2
λ
2
λ
vers la loi gaussienne centrée réduite.
Démonstration. Comme
n
Sn2 − X n
√ n−1
√
n
λ 2
√
n
=
2
Sn2
Sn2 − X n
√
−√
2λ
2λ (n − 1)
Sn
converge presque-sûrement vers 0, le corollaire se déduit de la proposition 2 de façon imet λ(n−1)
médiate.
n 2
2
√ (Sn2 −X n )−(σ2 −µ)
√ ( n−1
Sn −X n )−(σ −µ)
Corollaire 3. Les statistiques n
et n
convergent en
X
X
n
n
(µ4 −2µ3 +σ2 )−(σ2 )
µ2
2
.
loi vers la distribution gaussienne centrée et de variance
n 2
√ (
√ (Sn2 −X n )−(σ2 −µ)
S −X n )−(σ 2 −µ)
et n n−1 n n S 2
Corollaire 4. n
convergent en loi vers la distriS2
n
bution gaussienne centrée et de variance
n−1
n
(µ4 −2µ3 +σ2 )−(σ2 )
(σ 2 )2
2
.
Démonstration. On obtient ce corollaire à partir de la proposition 2 et en tenant compte que X n et Sn2
convergent presque-sûrement vers µ et σ 2 respectivement.
p
n
2
p Sn2
Sn
Corollaire 5. Sous l’hypothèse nulle, les statistiques n2 X
− 1 et n2 n−1
− 1 convergent
X
n
en loi vers la distribution gaussienne centrée et reduite.
p p n
et n2 1 −
Corollaire 6. De même les statistiques n2 1 − X
2
S
distribution gaussienne centrée et reduite.
n
n
Xn
n
S2
n−1 n
convergent en loi vers la
Démonstration. Le résultat vient de l’énoncé qui le précède en tenant compte que sous l’hypothèse
nulle µ4 = 3λ2 + λ, µ3 = λ et σ 2 = λ
n 2
q
Sn
−
g
(1)
Lemme 1. Soit g une fonction dérivable. Sous l’hypothèse nulle, la statistique 2 g0n(1) g n−1
Xn
|
|
converge en loi vers la distribution gaussienne centrée et réduite.
Démonstration. g étant dérivable, la proposition résulte de la méthode ‘delta’
n 2
Sn
La statistique n−1
−
1
est cas particulier de la statistique de Box-Cox appliquée à l’indice de
X
n
n
S2
n−1 n
dispersion X . Ceci suggère de s’intéresser aux statistiques obtenues en appliquant à l’indice de
n
dispersion les transformations de Box-Cox en général.
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
7
Proposition 3. Considérons γ ∈ R et les statistiques,

 „ n S 2 «γ 

 n−1 n −1 

p
Xn

n

si γ 6= 0
2 
γ

Un,γ =

n o


 p n log n S 2 − log X n si γ = 0
n
2
n−1
Alors Un,λ converge en loi vers la distribution gaussienne centrée et réduite.
Démonstration. La proposition résulte du lemme qui précède
n 2
q
q
S
n−1
n−1 n
− 1 = n−1
On a TB =
2
n Un,1 et on en déduit que
X
n
Proposition 4. Sous l’hypothèse nulle que l’échantillon est poissonnien, T B est asymptotiquement
gaussienne centrée et de variance 1 .
Par ailleurs, on peut écrire aussi que
TB
=
En tenant que la distribution asymptotique de
l’expression TB =
2
nSn
Xn
√
−(n−1)
2(n−1)
2
nSn
Xn
− (n − 1)
p
2 (n − 1)
2
nSn
Xn
est un Chi − Deux à n − 1 degrés de liberté,
montre que asymptotiquement TB correspond à l’approximation de
Paul Levy d’une distribution du Chi − Deux par une distribution gaussienne. On sait aussi que cette
approximation est l’une des moins bonnes. On pourrait donc envisager les corrections suivantes de la
statistique de Böhning afin d’améliorer la vitesse de convergence :
0
TB
=
s
2
nSn2 √
− 2n − 3
Xn
suggérée par l’approximation de Fisher pour une variable de Chi − Deux ([5], p.31) ;
q
3
TB”
=
− 1−
q
2
n Sn
n−1 X n
2
9(n−1)
suggérée par l’approximation de Wilson-Hilferty ([5], p.31).
Proposition 5.
(i)
(ii)
(iii)
q
∀γ > 1, TB ≤ n−1
n Un,γ
q
q
n−1
n−1
∀γ ∈ ]0, 1[ ,
n Un,0 ≤
n Un,γ ≤ TB
q
q
n−1
∀γ < 0, n−1
n Un,γ ≤
n Un,0 .
2
9(n−1)
8
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
2
Sn
Démonstration. La fonction x 7→ log (x) étant concave, il s’ensuit que log Sn2 −log X n ≤ X
−1
n
q
et n−1
n Un,0 ≤ TB .
2
2 γ
Sn
Sn
.
− 1 ≥ γ log X
Pour tout réel x > 0, la fonction γ 7→ xγ est convexe et il en résulte que X
n
n
2 γ
Sn
−1≥
Par ailleurs, la fonction x 7→ xγ est convexe pour tout γ ∈
/ ]0 , 1[, ce qui implique que X
n
h 2
i
Sn
γ X −1
n
h 2
2 γ
i
Sn
Sn
−1 ≤ γ X
−1
Enfin, la fonction x 7→ xγ est concave pour tout γ ∈ ]0 , 1[et il s’ensuit que X
n
n
Corollaire 7. Soit z ∈ R
q
n−1
U
>
z
∀γ > 1 Pr (TB > z)≤ Pr
n,γ
n
q
q
n−1
n−1
γ ∈ ]0 , 1[ Pr
U
>
z
≤
Pr
U
>
z
≤ Pr (TB > z)
n,0
n,γ
n
n
q
q
n−1
n−1
∀γ < 0 Pr
n Un,γ > z ≤ Pr
n Un,0 > z
(i)
(ii)
(ii)
q
2
2.3. Tests basés sur les statistiques nSnn , TB et n−1
n Un,γ . Puisque les distributions exactes des
q
2
statistiques nSnn , TB et n−1
n Un,γ ne sont pas explicitement connues, on peut s’appuyer sur les distributions asymptotiques pour déterminer les régions critiques pour des tests d’adéquation à la distribution de Poisson. Notons z1−α et zα = −z1−α respectivement les quantiles d’ordre 1 − α et α de la
loi gaussienne centrée réduite.
Nous considérons les tests asymptotiques définis ci-dessous :
(1) pour l’alternative de sur-dispersion
(a)
Rejet de H0 si TB
> z1−α
(b)
Rejet de H0 si
r
n−1
Un,γ
n
> z1−α
(2) pour l’alternative de sous-dispersion
(a)
Rejet de H0 si TB
< zα
(b)
Rejet de H0 si
r
n−1
Un,γ
n
< zα
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
2.3.1. Equivalence asymptotique des tests basés sur les statistiques T B , et
q
9
n−1
n Un,γ .
Proposition 6. q
Lorsque l’hypothèse alternative est la sur-dispersion, les tests de régions critiques
TB > z1−α , et n−1
n Un,γ > z1−α sont asymptotiquement équivalents.
Lorsque
l’hypothèse alternative est la sous-dispersion, les tests de régions critiques T B < zα et
q
n−1
n Un,γ < zα sont asymptotiquement équivalents.
Démonstration. Considérons tout d’abord le cas de sur-dispersion. On obtient comme une conséquence du lemme 5 précédent que pour γ 6= 1
prob TB ≤ z1−α et
r
n−1
Un,γ > z1−α
n
!
= 0
prob TB > z1−α et
r
n−1
Un,γ ≤ z1−α
n
!
= 0
Le résultat est obtenu dans le cas de la sous-dispersion en suivant la même démarche
Donc pour n grand, la probabilité de rejeter l’hypothèse nulle avec l’un des deux tests et de l’accepter
avec l’autre est faible.
q
2.3.2. Equivalence asymptotique des tests basés sur T B et n−1
n Un,γ avec les tests du Chi − Deux
basés sur
2
nSn
.
Xn
χ2
n−1
Considérons tout d’abord le cas de la sur-dispersion. On sait que √
totiquement gaussienne centrée et réduite, d’où
"
χ2n−1 − (n − 1)
p
lim prob
< z1−α
n→+∞
2 (n − 1)
et on en déduit que lim
χ2n−1,1−α −n+1
n→+∞
1
p
2 (n − 1)
√
2(n−1)
−n+1
2(n−1)
#
= prob [N (0, 1) < z1−α ] = 1 − α
= z1−α . Par ailleurs, on a
nSn2
− (n − 1)
Xn
n−1
= p
2 (n − 1)
= TB
n
2
n−1 Sn
− Xn
Xn
!
Ainsi pour n grand, on a :
(i)
prob
nSn2
Xn
< χ2n−1,1−α

2
nSn
Xn
− (n − 1)
χ2n−1,1−α

−n+1

p
= prob  p
<
2 (n − 1)
2 (n − 1)
"
#
χ2n−1,1−α − n + 1
p
= prob TB <
;
2 (n − 1)
est asymp-
10
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
(ii)
prob
nSn2
≤ χ2n−1,1−α et TB > z1−α
Xn
On obtient ainsi que
lim prob
n→+∞
χ2n−1,1−α − n + 1
p
et TB > z1−α
= prob TB ≤
2 (n − 1)
!
χ2n−1,1−α − n + 1
p
= prob z1−α ≤ TB <
2 (n − 1)
!
χ2n−1,α − n + 1
= prob z1−α ≤ TB < p
.
2 (n − 1)
nSn2
≤ χ2n−1,1−α et TB > z1−α
Xn
!
= 0
On montre de manière analogue que
2
nSn
2
> χn−1,α et TB ≤ z1−α
prob
= 0
Xn
ce qui signifie que si l’hypothèse nulle est vraie, la probabilité de la rejeter avec le test de région cri2
n
> χ2n−1,α et de l’accepter avec le test de région critique T B > z1−α est asymptotiquement
tique nS
Xn
nulle.
En tenant compte de la convexité (resp. concavité) de la fonction x 7→ x γ lorsque γ ∈
/ [0 , 1[ (resp.
γ ∈ [0 , 1[, on obtient à partir des résultats précédents que
!
r
n−1
nSn2
2
> χn−1,α et
Un,γ ≤ z1−α
= 0
lim prob
n→+∞
n
Xn
et
lim prob
n→+∞
nSn2
≤ χ2n−1,α et
Xn
r
n−1
Un,γ > z1−α
n
!
= 0
2.3.3. Probabilités d’erreur de second espèce des tests basés sur les statistiques T B et
q
n−1
n Un,γ .
Proposition 7. Lorsque l’hypothèse alternative est la sur-dispersion, la probabilité d’erreur de seconde espèce
q est plus faible pour le test de région critique T B > z1−α que pour les tests de région
critique
n−1
n Un,γ
> z1−α si γ < 1
Lorsque l’hypothèse alternative est la sous-dispersion,
la probabilité d’erreur de seconde espèce est
q
plus faible pour le test de région critique
lorsque γ < 1.
n−1
n Un,γ
< zα que pour celui de région critique TB < zα
Démonstration. Les résultats de cette proposition sont obtenus en s’appuyant, comme dans les soussections qui précèdent, sur la propostion 5 et le corollaire 7qui le suit.
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
11
Proposition 8.
(i) Lorsque l’hypothèse alternative
est la sur dispersion, la probabilité d’erreur de seconde
q
n−1
espèce du test de région critique
n Un,γ > zα est plus faible que celui du test de région critique
q
n−1
log Sn2 − log X n > zα
2
(ii) Lorsque l’hypothèse alternative est la sous-dispersion
pour tout γ < 0, la probabilité d’erq
reur de seconde espèce du test de région critique
q
log Sn2 − log X n < zα .
critique n−1
2
n−1
n Un,γ
< zα est plus faible que le test de région
Démonstration. Cette proposition s’obtient également à partir des résultats énoncés à la proposition
5.
3. A NALYSE
EMPIRIQUE DES PERFORMANCES DES TESTS D ’ HYPOTHÈSES PROPOSÉS
Les quantiles extrêmes de la distribution d’une statistique de test sont souvent celles qui sont intéressantes pour la mise en oeuvre d’un test d’hypothèse basé sur cette statistique. On a donc besoin
d’avoir de bonnes approximations pour ces quantiles extrêmes lorsque la distribution exacte de la statistique de test n’est pas connue. L’objectif des simulations dont les résultats sont présentés ci-après
est d’évaluer empiriquement
la qualité de l’approximation des quantiles extrêmes des distributions des
q
2
n
, TB , n−1
statistiques nS
n Un,γ (avec γ = −1, .1, 0, −.1) par les quantiles nominales correspondant
Xn
aux lois limites en fonction des tailles d’échantillon.
3.1. Probabilités empiriques d’erreur de première espèce. Dans la mesure où les régions critiques
des tests sont déterminées à partir de distributions asymptotiques des statistiques de test, on peut s’attendre à ce que les probabilités effectives d’erreur de première espèce s’écartent de la valeur nominale
correspondante à ces régions critiques. Une probabilité d’erreur de première espèce significativement
supérieur à la valeur nominale de 5% indiquerait que la précision de l’approximation des quantiles
extrêmes de la distribution de la statistique de test par celles de sa distribution limite n’est pas suffisante. Pour étudier le problème posé ci-dessus nous avons simulé 10000 échantillons pour chaque
couple (n, µ) de taille d’échantillon (n) et de moyenne de loi de Poisson (µ). Nous avons considéré
trois cas pour la moyenne µ de la loi de Poisson :
– les petites moyennes : {0.5, .75, 1} ;
– les moyennes de niveau intermédiaire {2, 5, 8} ;
– les grandes moyennes {10, 15, 20}.
Les tailles n des échantillons examinées sont : 30, 50, 100, 200.
Si on tient compte que les variances des probabilités d’erreur de première espèce sont majorées par
.25
−5 et par conséquent l’amplitude des intervalles de confiance à 95% est inférieure à
10000 = 2.5 × 10
2 × 0.0098.
12
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
3.1.1. Tests bilatéraux. On considère une test bilatéral lorsque les informations à priori disponbles
sur le phénomène étudié ne permettent pas de choisir entre choisir entre la sousdispersion et la surdispersion comme situation alternative à l’inadéquation de la loi de Poisson. Les résultats reportés dans
les tableaux 1, 2 et 3 suggèrent les observations suivantes pour un test bilatéral :
(1) Les
q probabilités d’erreur de première espèce sont supérieures à 0.05 pour la statistique de test
n−1
n Un,−1 lorsque l’échantillon est de petite taille (n ≤ 50) ; les quantiles extrêmes de la
distribution de cette statistique ne sont donc pas approximées avec une précision suffisante
par celles de la loi gaussienne centrée et reduite.
(2) Pour toutes les autres statistiques de test, et quelle que soit de la taille de l’échantillon, les
probabilités d’erreur de première espèce sont inférieures à la valeur nominale de 5% ou non
significativement différentes de cette valeur nominale.
TAB . 1. Test bilatéral : probabilités empiriques d’erreur de première espèce
n=30
µ=0.5
µ=1
µ=5
µ=10
µ=20
2
nSn
0.0357 0.0434 0.0470 0.0467 0.0460
Xn
TB
0.0393 0.0423 0.0426 0.0439 0.0421
TB0
0.0324 0.0434 0.0455 0.0442 0.0441
T
”
0.0357 0.0434 0.0470 0.0466 0.0458
B
q
n−1
2 (1
q
−
Xn
n
S2
n−1 n
n−1
n Un,0.1
0.0355 0.0453 0.0525 0.0524 0.0492
n−1
n Un,−0.1
n
S2
n−1
n−1 n
log
2
Xn
0.0347 0.0521 0.0570 0.0569 0.0554
q
q
2
nSn
Xn
TB
TB0
T ”B
n−1
2 (1
q
Xn
n
S2
n−1 n
µ=10
0.0487
0.0467
0.0481
0.0486
µ=20
0.0458
0.0437
0.0446
0.0457
) 0.0490 0.0653 0.0656 0.0683 0.0678
n−1
n Un,0.1
0.0415 0.0465 0.0516 0.0519 0.0490
n−1
n Un,−0.1
n
S2
n−1
n−1 n
2 log X n
0.0430 0.0475 0.0534 0.0546 0.0527
q
q
−
0.0360 0.0487 0.0539 0.0548 0.0505
TAB . 2. Test bilatéral (suite)
µ=0.5
µ=1
µ=5
0.0425 0.0455 0.0511
0.0461 0.0472 0.0461
0.0442 0.0455 0.0495
0.0425 0.0455 0.0507
n=50
q
) 0.0647 0.0736 0.0791 0.0786 0.0799
0.0428 0.0464 0.0517 0.0531 0.0499
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
TAB . 3. Test bilatéral (fin)
µ=0.5
µ=1
µ=5
0.0439 0.0454 0.0477
0.0450 0.0470 0.0480
0.0438 0.0454 0.0492
0.0439 0.0454 0.0477
n=100
2
nSn
Xn
TB
TB0
T ”B
q
n−1
2 (1
q
−
Xn
n
S2
n−1 n
n−1
n Un,0.1
q
n−1
Un,−0.1
q n
n
S2
n−1
n−1 n
log
2
Xn
µ=10
0.0496
0.0487
0.0493
0.0495
13
µ=20
0.0482
0.0494
0.0479
0.0482
) 0.0521 0.0556 0.0604 0.0602 0.0580
0.0438 0.0478 0.0502 0.0525 0.0504
0.0446 0.0491 0.0523 0.0533 0.0516
0.0442 0.0486 0.0506 0.0524 0.0511
3.1.2. Tests unilatéraux de surdispersion. Pour les tests unilatéraux où l’hypothèse alternative est la
surdispersion, on observe que à partir des résultats de simulation présentés dans les tableaux 4, 5 et 4 :
(1) Les probabilités d’erreur
q de première espèce sont inférieures à 5% lorsque la statistique de
test est de la famille n−1
n Un,γ , quelle que soit la taille de l’échantillon.
(2) La probabilité d’erreur de première espèce pour le test du Chi-Deux basé sur la statistique de
Pearson est de l’ordre de 5%, de même pour les tests basés sur la statistique de Böhning et ses
dérivées.
TAB . 4. Test unilatéral de surdispersion : probabilités empiriques
mière espèce
n=30
µ=0.5
µ=1
µ=5
µ=10
2
nSn
0.0482 0.0512 0.0487 0.0473
Xn
TB
0.0529 0.0598 0.0608 0.0588
TB0
0.0482 0.0541 0.0517 0.0498
T
”
0.0482 0.0512 0.0488 0.0476
B
q
n−1
2 (1
q
Xn
n
S2
n−1 n
µ=20
0.0482
0.0622
0.0522
0.0482
) 0.0093 0.0087 0.0050 0.0074 0.0064
n−1
n Un,0.1
0.0321 0.0355 0.0322 0.0332 0.0316
n−1
n Un,−0.1
n
S2
n−1
n−1 n
2 log X n
0.0269 0.0302 0.0271 0.0274 0.0264
q
q
−
d’erreur de pre-
0.0309 0.0327 0.0295 0.0296 0.0289
14
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
TAB . 5. Test unilatéral de surdispersion (suite)
n=50
µ=0.5
µ=1
µ=5
µ=10
2
nSn
0.0538 0.0529 0.0506 0.0475
Xn
TB
0.0633 0.0599 0.0598 0.0570
0
TB
0.0597 0.0544 0.0536 0.0499
T
”
0.0538 0.0529 0.0506 0.0475
B
q
Xn
n−1
0.0195 0.0155 0.0151 0.0145
n
2)
2 (1 − n−1
Sn
q
n−1
Un,0.1
0.0429 0.0406 0.0380 0.0366
q n
n−1
Un,−0.1
0.0405 0.0369 0.0328 0.0322
q n
n
2
S
n
n−1
n−1
0.0420 0.0392 0.0350 0.0339
2 log X
n
n=100
q
TAB . 6. Test unilatéral de surdispersion (fin)
µ=0.5
µ=1
µ=5
µ=10
2
nSn
0.0493 0.0503 0.0504 0.0523
Xn
TB
0.0568 0.0584 0.0568 0.0581
0
TB
0.0493 0.0524 0.0522 0.0541
T ”B
0.0493 0.0503 0.0504 0.0524
n−1
2 (1
q
Xn
n
S2
n−1 n
0.0137
0.0366
0.0318
0.0349
µ=20
0.0521
0.0589
0.0541
0.0521
) 0.0253 0.0248 0.0236 0.0230 0.0238
n−1
n Un,0.1
0.0413 0.0418 0.0413 0.0435 0.0429
n−1
n Un,−0.1
n
S2
n−1
n−1 n
log
2
Xn
0.0370 0.0380 0.0384 0.0386 0.0396
q
q
−
µ=20
0.0493
0.0603
0.0520
0.0493
0.0377 0.0394 0.0402 0.0411 0.0417
3.1.3. Tests unilatéraux de sousdispersion. Les résultats des simulations (tableaux 7, 8 et 9) suggèrent
que pour les tests unilatéraux où l’hypothèse alternative est la sousdispersion :
(1) La probabilité d’erreur de première espèce est majorée par la valeur nominale de 5% pour le
test du Chi − Deux de Pearson ainsi que pour les tests basés sur la statistique de Böhning et
les corrections associées.
(2) La probabilité d’erreur de première espèce est significativement
supérieure à la valeur nomiq
nale de 5% lorsque la statistique de test est de la forme
n−1
n Un,γ .
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
TAB . 7. Test unilatéral de sousdispersion : probabilités empiriques d’erreur de première espèces
n=30
µ=0.5
µ=1
µ=5
µ=10
µ=20
2
nSn
0.0228 0.0410 0.0483 0.0474 0.0477
Xn
TB
0.0102 0.0214 0.0297 0.0273 0.0275
TB0
0.0201 0.0365 0.0444 0.0424 0.0417
T
”
0.0228 0.0410 0.0483 0.0474 0.0477
B
q
n−1
2 (1
q
−
Xn
n
S2
n−1 n
n−1
n Un,0.1
0.0369 0.0553 0.0673 0.0669 0.0679
n−1
n Un,−0.1
n
S2
n−1
n−1 n
log
2
Xn
0.0411 0.0641 0.0757 0.0748 0.0764
q
q
n−1
2 (1
q
−
Xn
n
S2
n−1 n
n−1
n Un,−0.1
n
S2
n−1
n−1 n
log
2
Xn
0.0471 0.0663 0.0648 0.0688 0.0691
q
0.0460 0.0636 0.0627 0.0655 0.0659
TAB . 9. Test unilatéral de sousdispersion (fin)
µ=0.5
µ=1
µ=5
µ=10
2
nSn
0.0379 0.0415 0.0500 0.0480
Xn
TB
0.0308 0.0344 0.0396 0.0393
TB0
0.0364 0.0393 0.0470 0.0455
T ”B
0.0379 0.0415 0.0500 0.0480
n−1
2 (1
−
Xn
n
S2
n−1 n
µ=20
0.0496
0.0392
0.0471
0.0496
) 0.0732 0.0742 0.0857 0.0791 0.0837
n−1
n Un,0.1
0.0496 0.0510 0.0617 0.0585 0.0606
n−1
n Un,−0.1
n
S2
n−1
n−1 n
2 log X n
0.0545 0.0549 0.0663 0.0626 0.0648
q
q
) 0.0720 0.0931 0.0909 0.0960 0.0963
0.0396 0.0576 0.0595 0.0620 0.0625
n=100
q
µ=20
0.0481
0.0325
0.0442
0.0481
n−1
n Un,0.1
q
q
0.0400 0.0585 0.0713 0.0706 0.0720
TAB . 8. Test unilatéral de sousdispersion (suite)
µ=0.5
µ=1
µ=5
µ=10
2
nSn
0.0293 0.0431 0.0466 0.0474
Xn
TB
0.0199 0.0274 0.0330 0.0334
TB0
0.0265 0.0398 0.0429 0.0443
T ”B
0.0293 0.0431 0.0465 0.0474
n=50
q
) 0.0839 0.0959 0.1115 0.1126 0.1110
0.0506 0.0530 0.0643 0.0602 0.0624
15
16
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
3.2. Analyse empirique des probabilités d’erreur de seconde espèce. Nous avons considérés trois
modèles pour pour l’étude empirique de la probabilité d’erreur de seconde espèce, donc de la puissance :
– le modèle de Poisson tronqué en zéro qui est un cas de sous dispersion ;
– le modèle binomial négatif pour la sur dispersion.
3.2.1. Modèle poissonnien contre le modèle de Poisson tronqué en zéro. Le modèle de Poisson tronqué en zéro est défini par la famille des lois de probabilités p, à support égal à N ∗ et tel que
n
o
1
exp θx − log −1 + exp eθ
p (x, θ) =
x!
où
)
( +∞
X
1
θ
= log
log −1 + exp e
exp (xθ)
x!
x=1
et θ ∈ R
La moyenne et la variance de la loi de Poisson tronquée en zéro sont respectivement :
µ (θ) =
=
σ 2 (θ) =
+∞
X
x=1
+∞
X
xp (x, θ)
x=1
eθ
exp eθ
−1 + exp (eθ )
(x − µ)2 p (x, θ) = µ (θ) − exp −eθ µ (θ)2
De plus, on a :
lim
θ→+∞
n
o
e−θ log −1 + exp eθ
= 1
lim µ (θ) e−θ = 1
θ→+∞
et
lim σ (θ)2 = µ (θ)
θ→+∞
Ces résultats signifient que pour les grandes valeurs de θ la loi de Poisson tronquée en zéro converge
vers la loi de Poisson de même moyenne, comme on peut le noter dans le tableau 10 ci-dessous.
Les simulations dont les résultats sont présentés ci-dessous ont été réalisées en considérant les lois
de moyenne µ = 1, 2, 5, 10 pour les tailles d’échantillon n = 30, 50, 100. 10000 répliques ont été
effectuées pour chaque combinaison (n, µ).
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
17
TAB . 10. variance et indice de dispersion en fonction de la moyenne
Indices de
Moyennes
Variances
dispersion
1
.632
.632
2
1.457
.729
5
4.831
.966
10
9.995
.999
Les résultats présentés dans le tableau 11 ci-dessous suggèrent que pour une même valeur nominale
de la probabilité d’erreur de première espèce le test de sous-dispersion
q ayant la probabilité d’erreur de
seconde espèce la plus faible est celui construit avec la statistique n−1
n Un,−1 . Le test du Chi−Deux
et le test de Böhning ont les probabilités d’erreur de seconde espèce les plus élevées. Aucun des tests
etudiés dans ce travail ne permet de discriminer entre le modèle de Poisson et le modèle de Poisson
tronqué en zéro si la moyenne théorique est élévée (µ ≥ 5).
TAB . 11. Loi de Poisson tronqué en zéro : probabilités empiriques d’erreur de seconde espèce
2
nSn
Xn
TB
0
TB
T ”B
q
n−1
(1
2
−
Xn
n S2
n−1 n
q
n−1
Un,0.1
q n
n−1
Un,−0.1
n
q
n−1
2
log
n S2
n−1 n
Xn
)
n=30
µ=1
n=50
n=100
n=30
µ=2
n=50
n=100
n=30
µ=5
n=50
n=100
n=30
µ=10
n=50
n=100
0.1322
0.0271
0.0004
0.7324
0.5708
0.2691
0.9602
0.9516
0.9494
0.9469
0.9547
0.9515
0.2445
0.1542
0.1322
0.0500
0.0323
0.0271
0.0006
0.0004
0.0004
0.8530
0.7708
0.7324
0.6884
0.5922
0.5708
0.3338
0.2821
0.2691
0.9687
0.9626
0.9602
0.9625
0.9549
0.9517
0.9589
0.9515
0.9494
0.9537
0.9493
0.9472
0.9565
0.9546
0.9548
0.9527
0.9508
0.9515
0.0475
0.0087
0.0002
0.4949
0.3685
0.1608
0.9086
0.9110
0.9195
0.9185
0.9318
0.9399
0.0967
0.0208
0.0003
0.6618
0.4947
0.2313
0.9472
0.9449
0.9419
0.9456
0.9508
0.9495
0.0820
0.0184
0.0002
0.6227
0.4695
0.2164
0.9406
0.9381
0.9370
0.9403
0.9459
0.9479
0.0877
0.0200
0.0002
0.6447
0.4801
0.2243
0.9457
0.9416
0.9391
0.9431
0.9483
0.9487
3.2.2. Modèle poissonnien contre le modèle binomial négatif. On a souvent recours à la loi binomiales négative comme alternative à la loi de Poisson lorsqu’il s’avère que la variabilité observées
dans les données est significativement supérieure à celle que prévoit le modèle poissonnien. Les simulations dont les résultats sont présentés ci-dessous (tableau 13) ont été réalisées en considérant les
lois binomiales négatives de moyenne µ = 0.5, 5, 10, avec le même paramètre de dispersion φ = 0.1,
pour les tailles d’échantillon n = 30, 50, 100. 10000 répliques ont été effectuées pour chaque combinaison (n, µ).
18
S. DOSSOU-GBÉTÉ(∗) , C. C. KOKONENDJI(∗) , D. MIZÈRE(∗)(∗∗)
TAB . 12. Lois binomiales négatives de paramètre de dispersion φ = 0.1
Indices de
Moyennes
Variances
dispersion
0.5
.525
1.05
1
1.1
1.1
5
7.5
1.5
10
20
2
Aucun des tests examinés dans ce travail ne permet de discriminer entre la loi de Poisson et la loi
binomiale négative lorsque la moyenne est faible et l’indice de dispersion théorique est proche de 1.
Par ailleurs, les résultats ci-dessous montrent
q à l’évidence qu’avec l’alternative de la loi binomiale né-
gative le test construit avec la statistique n−1
n Un,−1 est celui dont la probabilité d’erreur de seconde
espèce est la plus élevée. Pour les petits échantillons (n ≤ 50), le test construit avec la statistique de
Böhning est celui pour lequel la probabilité d’erreur de seconde espèce est la plus faible pour une
même valeur nominale de la probabilité d’erreur de première espèce.
TAB . 13. Lois binomiales négatives : probabilités d’erreur de seconde espèce
2
nSn
Xn
TB
0
TB
T ”B
q
n−1
(1
2
−
Xn
n S2
n−1 n
q
n−1
Un,0.1
q n
n−1
Un,−0.1
n
q
n S2
n−1
n−1 n
2
log
Xn
)
n=30
µ=0.5
n=50
n=100
n=30
µ=5
n=50
n=100
n=30
µ=10
n=50
n=100
0.9463
0.9471
0.9287
0.6222
0.4343
0.1815
0.2309
0.0785
0.0032
0.9339
0.9464
0.9463
0.9379
0.9454
0.9471
0.9184
0.9268
0.9287
0.5655
0.6072
0.6222
0.3889
0.4222
0.4343
0.1537
0.1730
0.1816
0.1941
0.2212
0.2309
0.0635
0.0739
0.0785
0.0024
0.0030
0.0032
0.9512
0.9568
0.9546
0.9051
0.7103
0.3230
0.5881
0.2175
0.0106
0.9582
0.9550
0.9393
0.6854
0.4889
0.2068
0.2834
0.0969
0.0040
0.9647
0.9557
0.9432
0.7215
0.5187
0.2216
0.3135
0.1083
0.0045
0.9602
0.9559
0.9413
0.7026
0.5022
0.2144
0.2985
0.1024
0.0042
4. E N GUISE
DE CONCLUSION
Les résultats empiriques présentés ci-dessus montrent que le risque de seconde espèce est élevé pour
tous les tests d’hypothèse étudiés dans ce travail si l’indice de dispersion de Fisher théorique est
voisin de 1. Ces résultats suggèrent également que les performances des tests étudiés dépendent de
l’hypothèse alternative considérée, tant du point de vue de l’erreur de première espèce que l’erreur
de seconde espèce. Le test du Chi − Deux de Pearson ainsi que les tests construits à partir d’une
transformation de Box-Cox de l’indice de dispersion de Fisher avec des puissances voisines de zéros
ont des performances intermédiaires quelque soit la taille de l’échantillon et l’hypothèse alternative si
l’indice de dispersion de Fisher n’est pas voisin de 1.
Remerciements. Les auteurs expriment leurs sincères remerciements à leur collègue Eliette Albert,
pour les remarques pertinentes dont elle a bien voulu leurs faire part au cours de l’élaboration de ce
travail et qui ont contribué à l’enrichir.
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES
19
R ÉFÉRENCES
[1] Böhning D. : A note on a test for Poisson overdispersion. Biometrika, vol. 81 (2), pp.418 − 419.(1994)
[2] Brown L. D. & Zhao L. H. : A test for the Poisson distribution. Sankhya, A, vol. 64 (3), pp.611 − 625.(2002)
[3] Johnson N.L. et al. : Univariate discrete distributions. John Wiley, New-York.(1992)
[4] Smyth G.K. & Podlich H. : Score tests for Poisson variation against general alternatives. Computing science and statistics, vol. 32, pp. 97 − 103.(2000)
[5] Tassi Ph. : Méthodes statistiques. Economica, Paris.(1989)
[6] Tiago de Oliveira J. : Some elementary tests of mixture of discrete distributions. Classical and contagion discrete
distribution, ed. Patil G.P., pp.379 − 384.(1965)
(∗)
L ABORATOIRE DE M ATHÉMATIQUES A PPLIQUÉES (LMA), UMR CNRS 5142. U NIVERSITÉ DE
, AVENUE DE L’U NIVERSITÉ , B.P. 576, 64012 PAU CEDEX (F RANCE )
PAU ET DES PAYS
DE L’A DOUR
(∗∗)
FACULTÉ DES S CIENCES , U NIVERSITÉ M ARIEN N GOUABI , B RAZZAVILLE , (R ÉPUBLIQUE DU C ONGO )
Courriel : [email protected]
Téléchargement