2. COMPARAISON DE DEUX GROUPES • Il existe des tests spécifiques pour • comparer des proportions • comparer des moyennes • Données par paires ou non • Nécessite éventuellement de comparer préalablement les variances • Des conditions d’applications doivent être respectées pour réaliser les tests Comparaison de 2 proportions aléatoires simples indépendants (pas • 2deéchantillons correspondances entre les valeurs des 2 groupes) chaque groupe d’effectif n on a x succès, et • Pour donc une proportion p = x /n • Test de l’hypothèse nulle p = p • Condition : x et (n - x ) ≥ 5 • On peut avoir à calculer les x à partir de p et n i i i 1 i i i i 2 i i i i • Estimation combinée de p et p , notée p̄ • p̄ = (x + x )/(n + n ) • et q̄ = 1 - p̄ • Calcul de la statistique test z • z = (p - p )/√(p.̄ q/̄ n + p.̄ q/̄ n ) H , z suit une loi Normale (table de Student • Sous avec un nombre infini ("grand") de ddl) • On peut calculer l’intervalle de confiance de p - p 1 1 2 1 2 1 2 2 1 2 0 1 2 • Quand il ne s’agit pas de proportions : • 2 groupes d’observations indépendantes : 2 échantillons pouvant être • Indépendants • Appariés • H0 : Les 2 groupes sont issus de la même population, avec donc la même moyenne • 2 étapes : • Comparaison des variances • Comparaison des moyennes • Important de tester préalablement l’homogénéité des variances car c’est une condition d’application de certains tests (tests paramétriques) • Sinon, en cas d’hétéroscédasticité : test simultané de 2 hypothèses nulles • Problème de Behrens-Fisher ➡Le rejet de H0 peut être due à la différence des moyennes (la seule hypothèse qu’on veut tester) ou à celle des variances Comparaison de 2 variances • Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées • Statistique F : rapport des variances, tenant compte du nombre d’objets par groupes par l’intermédiaire des degrés de liberté • Si égalité des variances, F doit se situer autour de 1 • La variable F obéit à une loi de distribution de F • Pour 2 groupes à n1 et n2 objets 2 2 F = s 1/s 2 • Sous H0, F suit une loi à (n1 - 1) et (n2 - 1) ddl • Conditions • Indépendance des observations • Normalité des données • Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution • F = plus grande variance/plus petite variance • Test unilatéral (souvent) ou bilatéral • On peut également tester les écarts-types par un test F • Il existe un test non paramétrique permettant de comparer 2 variances en cas de non normalité : test de Fligner-Killeen Comparaison de 2 moyennes • Test t • Pour échantillons appariés ou non appariés • Test statistique • Paramétrique : référence à la loi Normale de |t| au seuil dans une table de • Comparaison Student • Par permutations • Tests non paramétriques U de Wilcoxon-Mann-Whitney (échantillons non • Test appariés) des rangs signés de Wilcoxon (échantillons • Test appariés) Test t pour échantillons indépendants • Parfois appelé test Z H : µ = µ • 0 1 2 • Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents • t suit une loi de distribution de Student à n1+n2-2 degrés de liberté sous H0 • Conditions d’utilisation • Variable quantitative Grands échantillons (n >30) i • • Normalité des données (sauf si test par permutations) • Egalité des variances (homoscédasticité) • Indépendance des observations • • Les variances estimées des 2 échantillons sont Quand ni < 30, on utilise une statistique t corrigée combinées : meilleure approximation de la variance de la population • Test t de certains livres/logiciels • Si les variances sont inégales, il existe également une correction • Test t modifié selon Welch • Même calcul de la statistique-test • Distribution différente : formule pour modifier le nombre de ddl Test t pour données appariées • Correspondance 2 à 2 des observations • Mesures avant-après des mêmes sujets • Mesures de deux caractères sur les mêmes individus • Informations supplémentaires • Pas nécessaire de tester l’homogénéité des variances • Analyse des différences observées pour chaque paire d’observations di = xi1 - xi2 • Moyenne des différences = différences des moyennes µd = µ1 - µ2 • Erreur-type (écart-type de la moyenne) sd̅ = sd/√n • Statistique-test t = d̅/sd̅ • Sous H0 (µd = 0), t obéit à une loi de Student à (n - 1) ddl, où n est le nombre de paires Test non paramétrique U de Wilcoxon-Mann-Whitney • Pour deux groupes indépendants • Données quantitatives • Distribution non normale • Variances inégales • Echantillons trop petits pour test t (ex : n = 3) • Données semi-quantitatives • Moins puissants que les tests paramétriques (/test t) = 0,95 : pour obtenir la même • Efficacité puissance, il faut 100 observations au test U contre 95 au test t • Basé sur les rangs • On place l’ensemble des valeurs en ordre (les exaequos reçoivent un rang médian) • Plus les groupes sont séparés, moins les valeurs seront entremêlées • Le test consiste à estimer l’écart à un “entremêlement moyen” des valeurs placées en rang • La statistique testée, U, mesure le degré de mélange des deux échantillons (H0 : pas de différence) • Comparaison de la valeur observée par rapport à la valeur critique (Table) • Convergence vers une loi Normale quand n augmente • Exemple Groupe 1 : 0,5 2 2,1 (n1 = 3) Groupe 2 : 0,7 2,2 3 3,1 (n2 = 4) Valeurs en ordre 1 2 3 4 5 6 7 Provenance 1211222 • U1 : nombre de fois qu’un élément du groupe 2 en • U2 : l’inverse ; = 1 + 3 + 3 + 3 = 10 précède un du groupe 1 ; U1 = 0 + 1 + 1 = 2 • Il y a en tout n1n2 comparaisons : 4 x 3 = 12 U2 = n1n2 - U1 • Si les groupes sont parfaitement séparés U2 = 0 et U1 = n1n2 , ou l’inverse • Si les groupes sont parfaitement entremêlés U1 = U2 = n1n2/2 • Tester H0 revient à mesurer l’écart du plus petit des U • Statistique-test = min (U1, U2) à la valeur n1n2/2 (valeur sous H0) Test non paramétrique de Wilcoxon • Pour données appariées • Mêmes conditions que pour le test U • Efficacité (/test t) = 0,95 • Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63 • Etude des différences entre paires de données H : pas de différence entre les moyennes des groupes • 0 • On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d’ex-aequo) • On attribue à chaque rang le signe de la différence originale • On somme les rangs positifs (T+) et les rangs négatifs (T-) • Sous H0, T+ = T- = n(n + 1)/4 (n excluant les différences nulles) • Statistique-test = min (T+, T-) Comparaison de 2 groupes (pour des échantillons non appariés) Données normales ? Oui Non Succès Test F ni petit Normaliser Echec ni > 50 ? Homoscédasticité Hétéroscédasticité ni > 50 ? Oui Test t paramétrique permutation Succès Non Test t Welch Oui Test t permutation Homogénéiser les variances Non Homoscédasticité Oui Echec Non Test U (ou si variables semiquantitatives) Risque relatif (RR) et Rapport de cotes (RC) • Mesures de risque • Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité • Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle • Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives • Tableau d'une étude prospective ou rétrospective Maladie Pas de maladie Traité (exposé) a b Non traité (ou placebo ou non exposé) c d • RR = (a/(a+b)/(c/(c+d)), que pour études prospectives • RC = (a/b)/(c/d) = ad/bc • Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre) • Possibilité de calcul d'un intervalle de confiance Risque relatif • RR = relative risk • Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe • Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné • RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin • Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR Rapport de cotes • RC = odds ratio • Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1 • En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles • RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle