Résumé de cours : Tests statistiques

publicité
Biostatistiques UE4
Paris 11
Résumé de cours : Tests statistiques
1. Généralités
On utilise les tests pour comparer une observation avec une référence théorique ou pour comparer
deux observations entre elles.
Les tests sont basés sur un raisonnement par l’absurde : on suppose qu’une hypothèse (H0,
l’hypothèse nulle) est vraie, et après quelques calculs on trouve soit que le résultat est incompatible
avec H0, auquel cas on rejette H0, soit que le résultat est compatible avec H0 et on ne rejette pas H0.
La décision d’accepter ou de rejeter H0 comporte des risques d’erreur. Le risque de première espèce,
noté , est la probabilité de rejeter H0 sachant que H0 est vraie. Il est généralement fixé à 5%. On
l’appelle également seuil de signification. Le risque , ou risque de deuxième espèce, est le risque de
ne pas rejeter H0 sachant qu’elle est fausse. On l’utilise plus rarement comme seuil, car ce risque n’est
généralement pas calculable. La puissance d’un test est 1 − , c’est la capacité à rejeter une hypothèse
H0 fausse (
(
0)).
Le degré de signification, noté
, est la probabilité sous H0 que le hasard seul produise un écart en
valeur absolue égal ou plus grand à celui observé. Si
< , alors on rejette H0. Si
> , on ne
rejette pas H0.
Pour choisir le bon test, il faut regarder la nature des variables à comparer (qualitative, quantitative),
les grandeurs étudiées (moyennes, effectifs, proportions, etc.), la nature de la comparaison (référence
vs. observé ou observé vs. observé), l’appariement éventuel des données et les conditions
d’application (taille échantillon, effectifs, normalité, égalité des variances).
On choisira un test bilatéral ou unilatéral en fonction du contexte (mais sans tenir compte de
l’observation).
2. Test sur les proportions (variables qualitatives à 2 modalités)
a. Comparaison d’une proportion observée à une valeur de référence
H0 : , la proportion dans la population dont est issu l’échantillon, est égale à
Conditions : ≥ 30,
≥ 5 et (1 −
)≥5
Statistique de test :
−
~ (0,1)
(1 −
)
avec
la proportion de référence et
, valeur de référence.
la proportion observée dans l’échantillon
b. Comparaisons de deux proportions observées
H0 :
= , avec
(resp.
) la proportion dans la population dont est issu l’échantillon A (resp. B).
Conditions :
≥ 30,
≥ 30,
≥ 5, (1 −
) ≥ 5,
≥ 5 et (1 −
)≥5
On définit
l’estimation de la proportion dans les populations A et B sous H0 :
+
=
+
Statistique de test :
−
~ (0,1)
1
1
(1 −
)
+
avec
et
les proportions observées dans les échantillons A et B et
échantillons.
et
les effectifs des
Biostatistiques UE4
Paris 11
3. Test du Chi-deux (variables qualitatives à 2 modalités ou plus)
Les tests du Chi-deux se font uniquement sur des effectifs. La conclusion d’un test du Chi-deux est
toujours bilatérale bien qu’on lise une probabilité unilatérale dans la table.
a. Comparaison d’une distribution observée à une distribution de référence
H0 : la distribution de la variable étudiée est identique à la distribution de référence.
Conditions :
é ≥5
Statistique de test :
(
−
é )²
~ ²
é
avec
é
les effectifs théoriques et
les effectifs observés
Le degré de liberté (ddl) =nombre de classes - nombre de paramètres indépendants, issus des
données et utilisés pour calculer les effectifs théoriques sous H0.
− 1 si on n’a utilisé que l’effectif n pour calculer la distribution théorique.
− 2 si on a utilisé l’effectif n et un paramètre issu des données pour calculer la distribution
théorique (ex : pour ajustement à une loi binomiale ou ou ² pour ajustement à une loi normale).
− 3 si on a utilisé l’effectif n et deux paramètres ( et ²) issus des données pour calculer la
distribution théorique (ex : ajustement à une loi normale).
b. Comparaison de plusieurs distributions observées (ou test d’indépendance
entre deux variables)
H0 : la distribution est identique dans les différentes populations (dont sont issus les différents
échantillons) ou les deux variables sont indépendantes
Conditions :
é ≥5
Statistique de test :
(
−
é )²
~ ²(
)(
)
é
4. Test sur les moyennes (variables quantitatives)
a. Test de comparaison d’une moyenne observée à une valeur de référence
H0 : L’échantillon provient d’une population où
=
est connu
Conditions : ~
c.-à-d.
~ ou ≥ 30
=
−
~ (0,1)
est inconnu
si
Conditions :
=
−
~
~
si ≁
Conditions :
=
−
⟶
≥ 30
(0,1)
≁
et
< 30
Test non paramétrique :
S+ : nombre de valeurs > μH0
~ ( ; = 0,5)
Les valeurs =
sont éliminées
et est réduit d’autant.
Avec
la moyenne de référence, la moyenne observée dans l’échantillon,
la variance dans la
population,
l’estimation de la variance et la taille de l’échantillon.
NB : Les tests non paramétriques ne posent pas d’hypothèse sur la normalité de la distribution de
, ils sont donc plus largement utilisables que les tests paramétriques. En revanche, ils sont
généralement moins puissants. En pratique, on ne les utilisera donc que lorsqu’aucun test
paramétrique n’est possible.
ou
Biostatistiques UE4
Paris 11
b. Comparaison de deux moyennes observées sur deux échantillons indépendants
=
H0 :
, avec
(resp.
) la moyenne dans la population dont est issu l’échantillon A (resp. B).
~
et
~
et
à vérifier avec un test F :
=
=
(
−
=
1
+
1
ê
avec
(
+
(resp.
≁
et
≥ 30 et
ou
≠
ou
≥ 30
~
+(
− 1)
≁
> 1)
Estimation de la variance intrapopulation commune :
=
Si
=
−
⟶
(0,1)
+
Si
≁
≁
et
< 30 ou
ou
ou
≠
< 30
Test non paramétrique de
Mann-Whitney :
R est la somme des rangs
( + 1)
=
−
2
( + 1)
=
−
2
=
( ; )
On rejette H0 pour
≤
Si
> 20, cf formule de la
table.
− 1)
−2
) la moyenne dans l’échantillon A (resp. B),
(resp. ) la variance estimée de X dans
l’échantillon A (resp. B), et
et
les effectifs des échantillons A et B.
c. Cas des données appariées
On définit une nouvelle variable D (pour différence) :
de D ( ̅ ) à la valeur de référence 0 (cf partie 4.a.).
H0 :
=0
=
−
. On comparera la moyenne observée
Téléchargement