QUELQUES TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES
GÉNÉRALES BASÉS SUR L’INDICE DE DISPERSION DE FISHER
S. DOSSOU-GBÉTÉ(), C. C. KOKONENDJI(), D. MIZÈRE()(∗∗)
RÉSUMÉ. La principale motivation de ce travail est d’évaluer les performances de quelques procédures
de test destinées à valider l’adéquation de la loi de Poisson avec des données de comptage contre des al-
ternatives générales. Ainsi nous comparons le test du Khi-Deux de Pearson à des tests construits à partir
de statistiques obtenues par l’application d’une transformation de Box-Cox à l’indice de dispersion de
Fisher.
1. INTRODUCTION
1.1. Données de comptage. Les données de comptage résultent généralement du dénombrement des
occurences d’évènements contemporains ou voisins dans l’espace.
Bien que le modèle poissonnien soit le cadre probabiliste le plus utilisé pour l’analyse des données de
comptage, ce modèle est approprié seulement si le processus sous-jacent à l’occurence des évènements
considérés vérifient les hypothèses suivantes :
(1) la probabilité de l’occurence simultanée de deux évènements est nulle ;
(2) aucune occurence d’évènement au commencement de la période d’observation ;
(3) la probabilité d’une occurrence pendant la période d’observation est
indépendante des occurences d’évènement antérieures à la date de cette occurence dans
la période d’observation ;
indépendante de la date de cette occurence (hypothèse d’homogénéité).
1.2. Famille exponentielle des lois de Poisson. Cette famille est constituée de lois de probabilités
p, de support égal à N, associées chacune de manière injective à un paramètre canonique θRpar la
relation
p(x, θ) = 1
x!exp eθ
où :
exp (θ) = log +
X
x=0
exp ()1
x!!
est appelé fonction cumulante. On a d’une part :
Date: Février 2004.
Mots-clés: . Données de comptage, surdispersion, sousdispersion, bon ajustement.
1
2 S. DOSSOU-GBÉTÉ(), C. C. KOKONENDJI(), D. MIZÈRE()(∗∗)
λ= exp (θ) =
+
X
x=0
xp (x, θ)
et d’autre part
λ=
+
X
x=0
(xλ)2p(x, θ).
L’égalité entre la moyenne et la variance d’une loi de Poisson exprimée par les expressions ci-dessus
caractérise la famille des lois de Poisson parmi les familles exponentielles de lois de probabilités.
1.3. Familles de lois de probabilités alternatives à la famille des lois de Poisson. Lorsque le mo-
dèle poissonnien n’est pas approprié, principalement parce que les résultats issus du traitement des
données ne permettent pas de le valider, la question se pose de trouver un modèle probabiliste alter-
natif pour décrire les variations observées dans les données étudiées. Il est courant de chercher ces
familles alternatives de lois de probabilités en se fondant sur la position du rapport variance
moyenne relative-
ment à 1:
lorsque ce rapport est significativement supérieur à 1la situation est qualifiée de sur-dispersion
si par contre ce rapport est inférieur à 1on est en situation de sous-dispersion.
Définition 1. Soit Fune famille de lois de probabilité. On dira que la famille Fest sur-dispersée
(resp. sous dispersée) relativement à la famille des lois de Poisson si pour toute distribution de pro-
babilité appartenant à cette famille, de moyenne µet de variance σ2on a σ2
µ>1(resp. σ2
µ<1).
La sur-dispersion a retenu beaucoup l’attention et a été étudiée de manière extensive : détection de
la sur-dispersion et modélisation de la sur-dispersion. Par contre, la sous-dispersion demeure peu
étudiée et les travaux convainquants en matière de modélisation de la sous-dispersion ne sont pas
nombreux. Les résultats du présent travail concernent les différents aspects de l’inadéquation de la loi
de Poisson avec des données, la surdispersion comme la sous dispersion. Dans la section 2 qui vient,
nous étudions quelques statistiques en rapport avec l’indice de dispersion de Fisher. La section 3 est
conscrée à une comparaison empirique des performances des tests construits à partir des statistiques
étudiées dans la section qui précède.
2. STATISTIQUE DES DONNÉES DE COMPTAGE
On considère (xi)i=1:nune série de ndénombrements indépendants des occurences d’un certain type
d’évènement. On note
xn=1
n
n
X
i=1
xi
Sous l’hypothèse que la série statistique est constituée par les réalisations de variables aléatoire indé-
pendantes distribuées suivant la même loi de Poisson de moyenne λ,xnest l’estimation de λpar la
méthode du maximum de vraisemblance. Notons par ailleurs la variance empirique des données par
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES 3
s2
n=1
n
n
X
i=1
(xixn)2
Une question récurrente du traitement statistique des données de comptage est la validation ou non
l’hypothèse que les données sont compatibles avec le modèle poissonnien. On considère dans la suite
comme hypothèse nulle, H0, l’hypothèse que les dénombrements observés sont des réalisations indé-
pendantes d’une même loi de Poisson.
2.1. Indice de dispersion de Fisher. L’indice de dispersion de Fisher est une des statistiques les plus
utilisées pour discriminer le modèle poissonnien par rapport à des modèles alternatifs. Il est défini par
le quotient
n
n1s2
n
xn. On peut observer que le numérateur n
n1s2
nmesure la variabilité observée dans
les données et que xnest l’estimation de cette variabilité prévue par le modèle poissonnien. Il parait
donc raisonnable de considérer un écart trop important entre ces deux mesures de dispersion comme
l’évidence de l’inadéquation du modèle poissonien avec les données.
2.1.1. Distribution de probabilités de l’indice de dispersion de Fisher. Soit (Xi)i=1:nune suite de
variables aléatoires indépendantes identiquement distribuées à valeurs dans N. On pose
Xn=
n
X
i=1
Xi
S2
n=1
n
n
X
i=1 XiXn2
On ne connaît pas d’expression algébrique de la distribution de la statistique
n
n1S2
n
Xnpour un échan-
tillon de taille ndonnée. Sous l’hypothèse que les dénombrements observés sont des réalisations indé-
pendantes de variables de Poisson de même moyenne, nS2
n
Xnapparaît comme la statistique de Pearson et
on montre que cette statistique est approximativement égale à celle du rapport de vraisemblance sous
l’hypothèse nulle. On en déduit que nS2
n
Xnest asymptotiquement distribué comme la loi du ChiDeux
àn1degrés de liberté si l’échantillon observée est générée par une loi de Poisson. On peut montrer
que plus généralement :
Proposition 1. Si (Xi)i=1:nune suite de variables aléatoires indépendantes distribuées suivant la
même loi de probabilité de moyenne µet de variance σ2alors la convergence en loi de la statistique
nS2
n
Xnvers une variable aléatoire Uentraîne celle de la statistique nXn
S2
nvers σ2
µ2U.
2.1.2. Tests du Chi Deux pour discriminer la famille des lois de Poisson par rapport à des fa-
milles alternatives de lois de probabilité. Nous ne considérons ici que les tests du Chi Deux basés
sur l’indice de dispersion. Effet, si on dispose d’un échantilon de taille suffisante, on peut envisager
de tester l’hypothèse nulle que la distribution est une loi de Poisson contre les alternatives de sur-
dispersion ou de sous-dispersion et même l’alternative bilatérale. Malheureusement on ne connait pas
de manière explicite le comportement asymptotique de nS2
n
Xnet nXn
S2
nsous des hypothèses alternatives
générales pour pouvoir comparer ces procédures de test de point de vue de leurs puissances. Soit
χ2
n1et χ2
n1,1αrespectivement les quantiles d’ordre αet 1αde la distribution du Chi Deux
àn1degré de liberté.
4 S. DOSSOU-GBÉTÉ(), C. C. KOKONENDJI(), D. MIZÈRE()(∗∗)
Hypothèse alternative d’une famille sur-dispersée
De nombreuses procédures de test ont été proposées, même récemment encore [2, 4], pour tester
l’hypothèse nulle contre l’alternative de sur-dispersion.
Pour une valeur nominale de la probabilité d’erreur de première espèce fixée à α, on peut envi-
sager l’une des deux procédures suivantes :
Rejet de H0si nS2
n
Xn> χ2
n1,1α
ou
Rejet de H0si nXn
S2
n< χ2
n1
Hypothèse alternative d’une famille sous-dispersées
De la même manière que ci-dessus, on peut envisager de tester l’hypothèse nulle de la distribution
de Poisson contre l’alternative de sous-dispersion en considérant l’un des tests de régions critiques
suivantes :
Rejet de H0si nS2
n
Xn< χ2
n1
ou
Rejet de H0si nXn
S2
n> χ2
n1,1α
Hypothèse bilatérale
A l’évidence on peut envisager également un test bilatéral de l’hypothèse nulle contre son
contraire basé sur l’indice de dispersion de la manière suivante, pour une probabilité d’erreur de
première espèce α:
Rejet de H0si nS2
n
Xn< χ2
n1,α
2ou nS2
n
Xn> χ2
n1,1α
2
2.2. Autres statistiques en rapport avec l’indice de dispersion de Fisher. Tiago de Oliveira [6] a
suggéré, à partir de l’étude de la variance de la statistique n
n1S2
nXn, l’utilisation de la statistique
TO=n1
2
n
n1S2
nXn
12X
1
2
n+ 3Xn1
2
pour construire un test de l’hypothèse nulle contre l’aternative de sur-dispersion.
Après avoir observé que l’expression de la variance de la statistique n
n1S2
nXnobtenue par Tiago de
Oliveira sous l’hypothèse nulle était fausse, Böhning [1] a donné l’expression correcte de la variance
de n
n1S2
nXnet proposé la statistique suivante
TB=rn1
2 n
n1S2
nXn
Xn!
pour construire un test de l’hypothèse nulle de la loi de Poisson contre l’alternative de la sur-dispersion.
Böhning [1] n’a pas explicitement étudié la distribution de la statistique TBqu’il a proposée ni sous
l’hypothèse nulle, ni sous l’hypothèse de sur-dispersion. Comme la statistique TBest fondée sur
n
n1S2
nXn=S2
nXn+S2
n
n1,
TESTS DE LA LOI DE POISSON CONTRE DES ALTERNATIVES GÉNÉRALES 5
poursuivant en cela l’idée de Tiago de Oliveira, nous allons étudier le comportement asymptotique de
S2
nXndans la section qui va suivre.
2.2.1. Comportement asymptotique de la statistique S2
nXn.Considérons une suite (Xi)i=1:nde
nvariables aléatoires indépendantes de même loi. On supposera que cette loi admet des moments
jusqu’a l’ordre 4. Soit :
µ=E(X1)
σ2=E(X1µ)2
µk=E(X1µ)k,k3
Proposition 2. Les statistiques nS2
nXnσ2µet nn n
n1S2
nXnσ2µo
convergent en loi vers la distribution gaussienne centrée et de variance µ42µ3+σ2σ22
Démonstration.
S2
nXnσ2µ=1
n
n
X
i=1
(Xiµ)2Xnµ2Xnµ
=1
n
n
X
i=1 n(Xiµ)2(Xiµ)oσ2Xnµ2
(Xiµ)2(Xiµ)est une variable aléatoire de moyenne égale à σ2et de variance égale à µ4
2µ3+σ2σ22. Il s’ensuit que
n
1
n
n
X
i=1 n(Xiµ)2(Xiµ)oσ2
q(µ42µ3+σ2)(σ2)2
converge en loi vers la loi gaussienne centrée et réduite.
Comme nXnµconverge en loi d’après le théorème limite central et Xnµconverge presque-
sûrement vers 0, alors nXnµ2converge en probabilité vers 0. On en déduit que nS2
nXnσ2µ
converge en loi vers la loi gaussiennce centrée et de variance µ42µ3+σ2σ22. Par ailleurs
nn
n1S2
nXn=nS2
nXn+S2
n
n1
et nS2
n
n1converge presque-sûrement vers 0.
Il s’ensuit que les statistiques nS2
nXnσ2µet nn n
n1S2
nXnσ2µo
ont la même distribution asymptotique.
Corollaire 1. Si les variables aléatoires Xi,i= 1 : nsont indépendantes et distribuées suivant la loi
de Poisson de moyenne λalors pn
2
S2
nXn
λconverge en loi vers la loi gaussienne centrée réduite.
1 / 19 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !