Cours

publicité
2.
COMPARAISON DE
DEUX GROUPES
• Il existe des tests spécifiques pour
• comparer des proportions
• comparer des moyennes
• Données par paires ou non
• Nécessite éventuellement de comparer
préalablement les variances
• Des conditions d’applications doivent être respectées
pour réaliser les tests
Comparaison de 2 proportions
aléatoires simples indépendants (pas
• 2deéchantillons
correspondances entre les valeurs des 2
groupes)
chaque groupe d’effectif n on a x succès, et
• Pour
donc une proportion p = x /n
• Test de l’hypothèse nulle p = p
• Condition : x et (n - x ) ≥ 5
• On peut avoir à calculer les x à partir de p et n
i
i
i
1
i
i
i
i
2
i
i
i
i
• Estimation combinée de p et p , notée p̄
• p̄ = (x + x )/(n + n )
• et q̄ = 1 - p̄
• Calcul de la statistique test z
• z = (p - p )/√(p.̄ q/̄ n + p.̄ q/̄ n )
H , z suit une loi Normale (table de Student
• Sous
avec un nombre infini ("grand") de ddl)
• On peut calculer l’intervalle de confiance de p - p
1
1
2
1
2
1
2
2
1
2
0
1
2
• Quand il ne s’agit pas de proportions :
• 2 groupes d’observations indépendantes : 2 échantillons
pouvant être
• Indépendants
• Appariés
•
H0 : Les 2 groupes sont issus de la même population,
avec donc la même moyenne
• 2 étapes :
• Comparaison des variances
• Comparaison des moyennes
• Important de tester préalablement l’homogénéité
des variances car c’est une condition d’application
de certains tests (tests paramétriques)
• Sinon, en cas d’hétéroscédasticité : test simultané de
2 hypothèses nulles
• Problème de Behrens-Fisher
➡Le rejet de H0 peut être due à la différence des
moyennes (la seule hypothèse qu’on veut tester)
ou à celle des variances
Comparaison de 2 variances
• Test de Fisher-Snedecor (test F), pour données
quantitatives normalement distribuées
• Statistique F : rapport des variances, tenant compte
du nombre d’objets par groupes par l’intermédiaire
des degrés de liberté
• Si égalité des variances, F doit se situer autour de 1
• La variable F obéit à une loi de distribution de F
•
Pour 2 groupes à n1 et n2 objets
2
2
F = s 1/s 2
•
Sous H0, F suit une loi à (n1 - 1) et (n2 - 1) ddl
• Conditions
• Indépendance des observations
• Normalité des données
• Souvent, les tables ne donnent que les valeurs
critiques de F dans la droite de la distribution
• F = plus grande variance/plus petite variance
• Test unilatéral (souvent) ou bilatéral
• On peut également tester les écarts-types par un
test F
• Il existe un test non paramétrique permettant de
comparer 2 variances en cas de non normalité :
test de Fligner-Killeen
Comparaison de 2 moyennes
• Test t
• Pour échantillons appariés ou non appariés
• Test statistique
• Paramétrique : référence à la loi Normale
de |t| au seuil dans une table de
• Comparaison
Student
• Par permutations
• Tests non paramétriques
U de Wilcoxon-Mann-Whitney (échantillons non
• Test
appariés)
des rangs signés de Wilcoxon (échantillons
• Test
appariés)
Test t pour échantillons indépendants
• Parfois appelé test Z
H
:
µ
=
µ
• 0 1 2
• Statistique t : différence des moyennes des deux
échantillons tenant compte des variances et des n
différents
•
t suit une loi de distribution de Student à n1+n2-2
degrés de liberté sous H0
• Conditions d’utilisation
• Variable quantitative
Grands
échantillons
(n
>30)
i
•
• Normalité des données (sauf si test par
permutations)
• Egalité des variances (homoscédasticité)
• Indépendance des observations
•
• Les variances estimées des 2 échantillons sont
Quand ni < 30, on utilise une statistique t corrigée
combinées : meilleure approximation de la
variance de la population
• Test t de certains livres/logiciels
• Si les variances sont inégales, il existe également
une correction
• Test t modifié selon Welch
• Même calcul de la statistique-test
• Distribution différente : formule pour modifier
le nombre de ddl
Test t pour données appariées
• Correspondance 2 à 2 des observations
• Mesures avant-après des mêmes sujets
• Mesures de deux caractères sur les mêmes individus
• Informations supplémentaires
• Pas nécessaire de tester l’homogénéité des variances
• Analyse des différences observées pour chaque paire
d’observations
di = xi1 - xi2
• Moyenne des différences = différences des moyennes
µd = µ1 - µ2
• Erreur-type (écart-type de la moyenne)
sd̅ = sd/√n
• Statistique-test
t = d̅/sd̅
•
Sous H0 (µd = 0), t obéit à une loi de Student à (n - 1)
ddl, où n est le nombre de paires
Test non paramétrique U de
Wilcoxon-Mann-Whitney
• Pour deux groupes indépendants
• Données quantitatives
• Distribution non normale
• Variances inégales
• Echantillons trop petits pour test t (ex : n = 3)
• Données semi-quantitatives
• Moins puissants que les tests paramétriques
(/test t) = 0,95 : pour obtenir la même
• Efficacité
puissance, il faut 100 observations au test U contre
95 au test t
• Basé sur les rangs
• On place l’ensemble des valeurs en ordre (les exaequos reçoivent un rang médian)
• Plus les groupes sont séparés, moins les valeurs seront
entremêlées
• Le test consiste à estimer l’écart à un “entremêlement
moyen” des valeurs placées en rang
• La statistique testée, U, mesure le degré de mélange des
deux échantillons (H0 : pas de différence)
• Comparaison de la valeur observée par rapport à la
valeur critique (Table)
• Convergence vers une loi Normale quand n augmente
• Exemple
Groupe 1 : 0,5 2 2,1 (n1 = 3)
Groupe 2 : 0,7 2,2 3 3,1 (n2 = 4)
Valeurs en ordre 1 2 3 4 5 6 7
Provenance
1211222
•
U1 : nombre de fois qu’un élément du groupe 2 en
•
U2 : l’inverse ; = 1 + 3 + 3 + 3 = 10
précède un du groupe 1 ; U1 = 0 + 1 + 1 = 2
•
Il y a en tout n1n2 comparaisons : 4 x 3 = 12
U2 = n1n2 - U1
• Si les groupes sont parfaitement séparés
U2 = 0 et U1 = n1n2 , ou l’inverse
• Si les groupes sont parfaitement entremêlés
U1 = U2 = n1n2/2
•
Tester H0 revient à mesurer l’écart du plus petit des U
•
Statistique-test = min (U1, U2)
à la valeur n1n2/2 (valeur sous H0)
Test non paramétrique de Wilcoxon
• Pour données appariées
• Mêmes conditions que pour le test U
• Efficacité (/test t) = 0,95
• Plus puissant que le test des signes (non
développé) : Efficacité (/test t) = 0,63
• Etude des différences entre paires de données
H
:
pas
de
différence
entre
les
moyennes
des
groupes
• 0
• On place en rang les valeurs absolues des
différences (en excluant les valeurs nulles et en
donnant un rang médian en cas d’ex-aequo)
• On attribue à chaque rang le signe de la différence
originale
• On somme les rangs positifs (T+) et les rangs
négatifs (T-)
•
Sous H0, T+ = T- = n(n + 1)/4 (n excluant les
différences nulles)
• Statistique-test = min (T+, T-)
Comparaison de 2 groupes
(pour des
échantillons non
appariés)
Données normales ?
Oui
Non
Succès
Test F
ni petit
Normaliser
Echec
ni > 50 ?
Homoscédasticité Hétéroscédasticité
ni > 50 ?
Oui
Test t
paramétrique
permutation
Succès
Non
Test t
Welch
Oui
Test t
permutation
Homogénéiser
les variances
Non
Homoscédasticité
Oui
Echec
Non
Test U
(ou si variables semiquantitatives)
Risque relatif (RR) et
Rapport de cotes (RC)
• Mesures de risque
• Mesure de l'efficacité d'un traitement dans un groupe
traité (ou exposé) par rapport à un groupe non traité
• Exemple : rapport entre le nombre de sujets
développant une pathologie dans un groupe recevant
un médicament et ce nombre dans un groupe
contrôle
• Très important en santé humaine et en épidémiologie,
dans le cadre d'études prospectives et rétrospectives
• Tableau d'une étude prospective ou rétrospective
Maladie
Pas de maladie
Traité (exposé)
a
b
Non traité (ou placebo
ou non exposé)
c
d
• RR = (a/(a+b)/(c/(c+d)), que pour études prospectives
• RC = (a/b)/(c/d) = ad/bc
• Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il
en a un (dans un sens ou l'autre)
• Possibilité de calcul d'un intervalle de confiance
Risque relatif
• RR = relative risk
• Incidence d'un événement dans un groupe/incidence
du même événement dans un autre groupe
• Exemple : survenue d'une maladie dans un groupe
vacciné et un groupe témoin non vacciné
• RR = chance de tomber malade dans le groupe
traité par rapport à cette chance dans le groupe
témoin
• Souvent incidence dans groupe témoin pas connue :
calcul du RC, qui estime bien le RR
Rapport de cotes
• RC = odds ratio
• Cote = nombre de fois qu'un événement s'est produit
dans un groupe/nombre de fois où il ne s'est pas
produit. Exemple : 3 contre 1
• En sciences de la santé : comparaison du risque (par
exemple de développer une maladie) entre les
individus traités et les individus contrôles
• RC = Probabilité pour le groupe traité (ou exposé) /
Probabilité pour le groupe contrôle
Téléchargement