CALCUL DU NOMBRE DE REPETITIONS NECESSAIRES
POUR LA COMPARAISON DE 2 POURCENTAGES
DANS LE CAS DE DONNEES APPARIEES.
C. LOPEZ
Institut de l'Elevage
Service Biométrie
Juillet 2002
Nombre de répétitions sur pourcentages en séries appariées
C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002 1
CALCUL DU NOMBRE DE REPETITIONS NECESSAIRES
POUR LA COMPARAISON DE 2 POURCENTAGES
DANS LE CAS DE DONNEES APPARIEES.
Définition du contexte
On souhaite comparer le pouvoir de détection d'un appareil E par rapport à celui d'un
appareil de référence R vis-à-vis d'une caractéristique biologique B. B est considérée
comme présente lorsque son dosage est supérieur à un certain seuil S et considéré
comme absente sinon. Les deux appareils sont testés sur les mêmes échantillons.
On veut rejeter l’appareil E lorsque son pouvoir de détection est statistiquement
différent de celui de l’appareil R avec un risque de 1ère espèce α acceptable et une
puissance (1-β) statistique suffisante.
Exemple d'application : comparaison d'un préleveur automatique par rapport à la
méthode de prélèvement manuel sur la détection de Listeria monocytogenes dans le lait.
Les notations
On définit pour un appareil donné l'indicatrice Xi (i=0 si appareil R ; i=1 si appareil E):
Xi = 1 si la caractéristique biologique B est supérieure au seuil S avec l'appareil n° i
Xi = 0 sinon.
On appelle π(0) la probabilité de détecter B avec l'appareil de référence R et π(1) la
probabilité de détecter B avec l'appareil E sur un même échantillon.
π(0) = P(X0 = 1) = P(B présent | appareil R)
π(1) = P(X1 = 1) = P(B présent | appareil E)
Le problème posé revient donc à calculer le nombre N d’échantillons nécessaires pour
comparer la probabilité π(1) à la probabilité π(0) avec une puissance (1-β) contrôlée.
Remarque 1 : Ces deux probabilités étant définies sur les mêmes échantillons elles ne
sont pas indépendantes. Ce sont des probabilités sur "séries appariées". Le tableau 1
suivant donne l'expression des probabilités π(i) à partir des probabilités conjointes
πij = P(X0=i et X1=j).
E [X1]
X
1 = 0 X1 = 1
X0 = 0 π00 π01
R [X0] X0 = 1 π10 π11 π(0)
π(1) 1
Tableau 1 : représentation des probabilités de présence de B
Nombre de répétitions sur pourcentages en séries appariées
C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002 2
Remarque 2 : La comparaison des probabilités π(1) et π(0) est équivalente à la
comparaison des probabilités conjointes π01 et π10.
π(1) - π(0) = [(π01 + π11)] - [(π10 + π11)] = π01 - π10
Ces probabilités conjointes mesurent la discordance entre les 2 appareils.
π01 = P[(X0=0) et (X1=1)] = P[B absent avec R et B présent avec E]
π10 = P[(X0=1) et (X1=0)] = P[B présent avec R et B absent avec E]
La comparaison de ces 2 probabilités est alors réalisée conditionnellement aux 2
situations de discordance.
Remarque 3 : Il est équivalent de comparer π01 à π10 et de comparer à ½ la probabilité
Pque B soit présent avec E sachant que les 2 appareils donnent des résultats
discordants.
Lorsque π01 et π10 sont égales (Hypothèse nulle, H0)
() ()
2
1
P1P
1001
10
1001
01 =
ππ
π
==
ππ
π
=
++
L'"écart" entre les 2 probabilités π01 et π10 est alors estimé multiplicativement par
l'odds ratio de McNEMAR (1947):
10
01
a
π
π
ψ
= = P1
P
(ou encore
a
a
1
Pψ+
ψ
=). Cet odds ratio
est égal à 1 sous l'hypothèse nulle (P=1/2) et différent de 1 sous l'hypothèse alternative
(H1) : π01 π10 (P 1/2).
Détermination du nombre d'échantillons N
La détermination se déroule en 2 étapes.
1- Détermination du nombre d'échantillons discordants m
Si P
ˆdésigne l'estimateur de la probabilité P et m le nombre d'échantillons sur lesquels
il y discordance entre E et R on peut montrer les relations suivantes :
m4
1
2
1
P
ˆ
suit asymptotiquement une loi Normale centrée réduite sous H0.
()
m
P1P
2
1
P
ˆ
*
suit asymptotiquement une loi Normale de moyenne
2
1
P et de
variance unité sous H1.
Nombre de répétitions sur pourcentages en séries appariées
C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002 3
2
1
P
ˆa alors une probabilité α d'être supérieur en valeur absolue à m4
1
Z*)21( α
sous H0 où )21(
Zα est le fractile (1-α/2) de la loi Normale centrée réduite.
De même
2
1
P
ˆa une probabilité β d'être inférieur à
()
m
P1P
Z
2
1
P*
*)1(
β
)1(
Zβ est le fractile (1-β) de la loi Normale centrée réduite.
On peut montrer que ces deux inégalités sont vérifiées avec m échantillons et des
risques α et β fixés lorsque P vérifie l'égalité suivante:
()
()
m
P1P
Z
m4
1
Z
2
1
P*
1)21(
+=
βα
[1]
On en déduit la valeur de m correspondante:
()
()
()
2
*
2
**1*21
2
1
P
1
P1PZ
2
1
Zm
+=
βα
[2]
Remarque 4 : Contrairement à ce que suggère l’expression [2] il n’est pas nécessaire
de connaître les probabilités de discordance π01 et π10 pour estimer m en raison de la
relation liant P et ψa de la remarque 3.
2- Détermination du nombre total d'échantillons N
Une fois estimé le nombre d'échantillons discordants m le nombre total d'échantillons
nécessaires N est obtenu à l'aide de l'expression suivante:
θ= *
Nm [3]
θ est la probabilité d'avoir des résultats discordants sur un échantillon.
θ = P[B présent avec R et absent avec E ou B absent avec R et présent avec E]
soit θ = π01+π10
On ne peut pas calculer cette probabilité car les probabilités de discordance ne sont pas
connues.
Remarque 5 : Cette probabilité peut être exprimée à partir des probabilité de
détection π(1) et π(0).
θ = P[B présent avec R]*P[B absent avec E | B présent avec R]
+ P[B absent avec R]*P[B présent avec E | B absent avec R] [4]
Nombre de répétitions sur pourcentages en séries appariées
C. LOPEZ - Institut de l'Elevage – Service Biométrie juillet 2002 4
et des probabilités conditionnelles :
P[B absent avec E | B présent avec R] = PFN =
)0(
10
π
π, pourcentage de faux négatifs
P[B présent avec E | B absent avec R] = PFP =
()
)0(
01
1π
π, pourcentage de faux positifs.
J.J SCHLESSELMAN (1982) propose de prendre une approximation de θ en négligeant
l'appariement sur les échantillons. On obtient alors.
θ π(0)*(1-π(1)) + (1-π(0))* π(1) [5]
La probabilité de détection avec la méthode de référence R, π(0), est considérée comme
une donnée connue, à tout le moins estimée avec une précision raisonnable.
La probabilité de détection avec la méthode E, π(1), est alors obtenue en fonction de π(0)
et du odds ratio ψm de ces deux probabilités marginales par la relation suivante:
() ()
()
()
11 m*0
0
*m1 ψπ+
π
ψ=π avec
() ()
() ()
)1(
)1(
00
11
mππ
ππ
=ψ [6]
Démonstration:
L'odds ratio ψ s'écrit en fonction des probabilités de détection.
()
()
()
()
()
()
0
0
*m
1
1
11
π
π
ψ
π
π
=
où encore
() ()
()
() ()
()
1*0*m0*1 11
ππψππ
=
Soit
() () ()
()
()
0*m0*m0*1 1
πψπψππ
=+
On en déduit l'expression [6].
Cette façon de faire ne semble pas devoir être conseillée. L'hypothèse d'indépendance
associée à l'approximation [6] implique en effet des probabilités de discordances
incompatibles avec l'odds ratio ψa fixé à l’étape 1 pour déterminer m.
Le nombre total d'échantillons N ne peut être estimé sans faire des hypothèses
préalables sur les taux d'erreur de diagnostic comme va le montrer l'exemple suivant.
Un exemple … à ne pas suivre …
Supposons que nous voulions détecter des écarts de 3 points (3%) entre les prévalences
π(1) et π(0) avec une probabilité estimée pour la méthode de référence de π(0) = 0,11.
Raisonnons aux risques α =0,05 et β = 0,10. On se fixe comme hypothèse detecter un
odds ratio ψa =1/4, c'est-à-dire un nombre de faux positifs 4 fois plus faible que le
nombre de faux négatifs. La probabilité P est alors égale à 5
1
)4/1(1
4/1
P=
+
= et
l'expression [2] donne un nombre d'échantillons discordants égal à m=25.
1 / 8 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !