INTRODUCTION A LA RECHERCHE QUANTITATIVE Deuxième partie : de la base de données aux résultats Juin 2010 Julien Gelly, Caroline Huas, Josselin Le Bel Plan 2 1. 2. Introduction Saisie des données : Epi Data® 3. Constitution du masque de saisie Saisie des données Exportation des données Analyse des données : Epi Info® Représentations graphiques Description des données Tests statistiques Epi Info® : analyse des données 3 Téléchargement ftp://ftp.cdc.gov/pub/Software/epi_info/epiinfo351/E piInfoSetup3_5_1_0008.exe Aide http://dmg.medecine.univparis7.fr/documents/Divers/epinfo.doc Site WHO (OMS) http://www.who.int/chp/steps/resources/EpiInfoTraining/ en/index.html 4 Epi Info® : objectifs Représentation graphiques • Description des données • Comparaison de deux moyennes • ATTENTION Sous réserve de remplir les conditions d’applications test t de Student • Comparaison de deux pourcentages test du χ² de Pearson • Comparaisons de deux variable quantitatives test de nullité du coefficient de corrélation : http://www.u707.jussieu.fr/biostatgv/ Lancer Epi Info® 5 Commandes les plus courantes 6 Data : importation Variables et Select/if : pour créer et recoder des variables Statistics : pour les test les plus courants (test t, test du χ², +/- apparié …) Advanced statistics : pour les analyses multivariées Importer les données : « Data.xls » 7 Table de données 8 9 Représentation graphiques D’une variable qualitative D’une variable quantitative De plusieurs variables Cas « particuliers » Représentation d’une v. qualitative 10 Diagrammes en bâtons Camemberts Tableaux de pourcentages Représentation d’une v. quantitative 11 Histogramme Surface proportionnelle aux effectifs (vs. diagramme) Plusieurs variables peuvent être représentées sur le même histogramme Courbes de densité Autres représentations 12 Plusieurs variables 2 v. quantitatives : diagramme en X,Y ou en matrice 2 v. qualitatives : diagramme en cercles 1 v. quantitative et 1 v. qualitative : « boîtes à moustaches », diagramme en points Autres variables 1 v. temporelle : « fagots » 1 v. censurée : courbe de survie (ex : Kaplan-Meier) Représentations graphiques (1) 13 Représentations graphiques (2) 14 Représentations graphiques (3) 15 Par classes de 10 années Représentations graphiques (4) 16 Click droit Représentations graphiques (5) 17 Par classes de 5 années et par sexe Représentations graphiques (6) 18 19 Description des données Mesures de position Mesures de dispersion Intervalle de confiance Mesures de position (1) 20 Moyenne : m = x / n Médiane Valeur pour laquelle 50% des mesures sont plus grandes et 50% des mesures sont plus petites Moins sensible aux valeurs extrêmes ou aberrantes Mode Valeur obtenue le plus fréquemment Pour les v. quantitatives discrètes vs. pour une v. qualitative : proportions ! (%) Mesures de position (2) 21 Médiane < Moyenne (valeurs extrêmes) Mesures de dispersion 22 Etendue (range) Maximum – minimum Sensible aux valeurs extrêmes Intervalle interquartile (entre 25e et 75e percentiles) Ecart-type (s) et variance (s²) Intervalle de confiance (1) 23 Il y a 95% de chance pour que la proportion de soit comprise entre 8% et 64% Intervalle de confiance (2) 24 Détermine la précision de l’estimation Autre manière d’exprimer la variabilité de la mesure Approximation à partir de la loi normale (conditions) Pour une moyenne : IC95% = m +/- 2(s²/n) (si n > 30) Pour une proportion : IC95% = p +/- 2(pq/n) (si np et nq > 5) A risque d’erreur fixé, l’intervalle de confiance (IC) est d’autant plus petit que la taille de l’échantillon est grande z/2 = 1,96 2 Description d’une v. qualitative (1) 25 Pour la variable « tabact » Description d’une v. qualitative (2) 26 Pour la variable « tabact » Quelle est la fréquence de fumeurs actuels ? Description d’une v. qualitative (3) 27 Et par classe (sexe) Quelle est la fréquence de fumeurs actuels chez les filles et chez les garçons ? Description d’une v. quantitative (1) 28 Pour la variable « age » Quelle est la moyenne d’âge de l’échantillon ? Description d’une v. quantitative (2) 29 Mesures de position et de dispersion de « age » A vous de vous la représenter … 30 Médiane < Moyenne (valeurs extrêmes) 31 Tests statistiques Les étapes d’un test statistique Les hypothèses a priori : H0 et H1 Les erreurs a priori : α et β La puissance statistique : 1 - β Le nombre de sujet nécessaire Le choix du test statistique Les conditions de validité Le degré de signification : p Différence significative ? 32 Les étapes d’un test statistique 33 1. 2. 3. 4. 5. Choix du critère de jugement principal Poser les hypothèses H0 et H1 Calcul de la statistique Conditions d’applications Comparer notre statistique à des valeurs limites « standardisées » lues dans une table adaptée 6. Test bilatéral ou unilatéral ? Type de test (t, χ², +/- apparié…) Règle de décision : différence significative ? Exemple 34 Essai randomisé sur les lombosciatiques Corticoïdes par infiltrations vs. Placebo Critère de jugement principal = succès/échec à J20 par auto-évaluation des patients Inclusion prévue de 43 patients/groupe Au terme de l’étude : 85 patients inclus Corticoïdes : 22/43 (51,2%) de succès Placebo : 10/42 (23,8%) de succès Différence statistiquement significative Les hypothèses a priori : H0 et H1 35 L’hypothèse nulle (H0) Celle que l’on cherche à réfuter (statu quo) « Vraie » tant qu’on a pas démontré le contraire L’hypothèse alternative (H1) Hypothèse contraire de l’hypothèse nulle Celle que l’on cherche à démontrer PA PB (test bilatéral) et non pas PA > PB (unilatéral) Les hypothèses a priori : H0 et H1 36 Exemple de l’essai randomisé sur le traitement des lombosciatiques : Corticoïdes vs. Placebo L’hypothèse nulle (H0) : les taux de succès sont identiques sous corticoïdes et sous placebo L’hypothèse alternative (H1) : les taux de succès différents sous corticoïdes et sous placebo Les erreurs a priori : α et β 37 Erreur de première espèce (α) Erreur de seconde espèce (β) Probabilité d’accepter H1 à tort (alors que H0 est vraie) Probabilité de trouver une différence statistiquement significative alors qu’il n’y en a pas Probabilité d’accepter H0 à tort (alors que H1 est vraie) Probabilité de ne pas mettre en évidence une différence statistiquement significative alors qu’elle existe Objectifs = règle de décision minimisant β (risque de non découverte) pour α fixé (risque de fausse découverte), généralement fixé à 5% La puissance statistique (1- β) 38 Puissance statistique (1- β) Aptitude à mettre en évidence une différence lorsqu’elle existe On calcule un nombre de sujets nécessaire pour obtenir une puissance donnée H0 vraie H0 fausse Accepter H0 1-α β Rejeter H0 α 1-β Les erreurs a priori : α et β 39 Exemple de l’essai randomisé sur les lombosciatiques : Corticoïdes par infiltrations vs. Placebo Erreur de première espèce (α=5%) : conclure à une différence d’efficacité entre corticoïdes et placebo alors que les taux de succès sont identiques Erreur de seconde espèce (β=20% donc 1 - β=80%) : ne pas réussir à prouver une différence d’efficacité entre corticoïdes et placebo alors qu’elle existe Le nombre de sujets nécessaire 40 Nombre de sujet à inclure par groupe (a priori) Moyennes : n C × 2² / ² avec = m2 - m1 Proportions : n C × [(p1(100-p1) + p2(100-p2)] / (p2-p1)² Biostatgv ! 0,40 0,20 0,10 0,05 C 4,9 7,9 10,5 13,0 Cas des effectifs déséquilibrés Multiplier n par (k + 1) ² / (4 x k) k est la taille relative du groupe le plus important par rapport au groupe le moins important Biostatgv (1) : http://www.u707.jussieu.fr/biostatgv/ 41 Biostatgv (2) : tests 42 Biostatgv (2) : calculs du NSN 43 Le nombre de sujets nécessaire 44 Hypothèse quantitative sous H1 a priori P2 = 70% de succès sous corticoïdes P1 = 40% de succès sous placebo Risques d’erreur Erreur de première espèce : α = 5% Erreur de seconde espèce : β = 20% Calcul = 43 patients à inclure par groupe Exemple 45 Choix du test statistique 46 Tests paramétriques Tests nonparamétriques Tests appariés Comparaison de 2 moyennes Test t de Student Test de MannWhitney Test de Wilcoxon (apparié) Test t apparié Comparaison de 2 pourcentages Test du ² Test exact de Fisher Test du ² apparié (McNemar) Hypothèses Conditions d’applications 47 Test t de Student Distribution normale (à vérifier visuellement sur un histogramme ou un diagramme de normalité) ou n > 30 et variances égales (rarement vérifié en pratique) Sinon : test non-paramétrique (moins puissant) Test du ² Effectifs « espérés » (np et nq) tous supérieurs à 5 Sinon : test non-paramétrique (moins puissant) Expérience 48 Recueil des données et résultats observés Taux de succès sous corticoïdes : 22/43 (51,2%) Taux de succès sous placebo : 10/42 (23,8%) Statistique de test ² = 6,77 (estimée à partir des données recueillies) Degré de signification associé : p = 0,009 Règle de décision (Neyman & Pearson) 0,05 donc rejet de H0 (vs. p > 0,05 et non rejet de H0) Différence significative de taux de succès p Le degré de signification : p (1) 49 Définition Probabilité d’observer des résultats au moins aussi en désaccord avec H0 que ceux qu’on a observés Quantifie le désaccord entre ce qu’on observe et H0 Interprétation Permet d’affirmer avec plus ou moins de conviction qu’il y a une différence (et encore, selon les écoles…) Mais ne renseigne sur l’importance de cette différence Le degré de signification : p (2) 50 La valeur de p dépend de La différence observée entre les deux groupes La taille d’échantillon S’il existe une différence réelle entre 2 groupes, même infime, n’importe quel test statistique va aboutir à une valeur de p < 0,05 dès lors que le nombre de sujets étudiés sera assez important Attention !!! 51 La signification statistique n’implique pas la pertinence clinique ! ex : 0/3 (0,0%) vs 3/3 (100,0%) p = 0,010 (test exact de Fisher) Si aucune différence statistiquement significative n’est mise en évidence entre 2 groupes Soit H0 est vraie : équivalence entre les deux groupes Soit la puissance est insuffisante (effectifs insuffisants) Le degré de signification 52 Si les taux de succès sous corticoïdes et sous placebo sont identiques, la probabilité d’observer une telle différence (51,2% vs 23,8%) ou une différence plus grande encore est de 0,009 (= p) Différence d’efficacité et p (ici = 0,009) 22/43 (51,2%) vs. 10/42 (23,8%) : ∆ = 27,4% 14/22 (63,6%) vs. 5/21 (23,8%) : ∆ = 39,8% 1104/4200 (26,3%) vs. 1000/4200 (23,8%) : ∆ = 2,5% Et maintenant : à vos claviers ! 53 Tests paramétriques Tests nonparamétriques Tests appariés Comparaison de 2 moyennes Test t de Student Test de MannWhitney Test de Wilcoxon (apparié) Test t apparié Comparaison de 2 pourcentages Test du ² Test exact de Fisher Test du ² apparié (McNemar) Hypothèses Comparer deux moyennes (1) 54 Formulation de la question Les non fumeurs ont-ils le même âge que les fumeurs ? La moyenne d’âge est-elle la même chez les fumeurs et les non fumeurs ? Formulation du test statistique Comparaison des moyennes d’âge dans le groupe fumeur et dans le groupe non fumeur H0 : la moyenne d’âge est la même dans les deux groupes Test t de Student : conditions ? Distribution normale vérifiée graphiquement ou n > 30 … et variances égales Comparer deux moyennes (2) 55 Comparer deux moyennes (3) 56 Comparer deux pourcentages (1) 57 Formulation de la Les filles fument-elles autant que les garçons ? La fréquence des fumeurs est-elle la même chez les filles que chez les garçons ? Formulation du test statistique Comparaison de la proportion de fumeurs actuels chez les filles et chez les garçons H0 : il n’y a pas de différence entre les filles et les garçons Test du ² : effectifs « espérés » (np et nq) > 5 ? Comparer deux pourcentages (2) 58 Comparaison du pourcentage de fumeurs actifs dans chaque sexe Comparer deux pourcentages (3) 59 Bonus : recoder une variable (1) 60 On veut étudier l’âge par classes d’âge Créer une variable « agedisc » Bonus : recoder une variable (2) 61 Discrétiser cette variable par classes de 10 années Pour récapituler (1) 62 Pour décrire une variable V. qualitative : FREQUENCIES Pourcentages (avec IC95%) Quel est le pourcentage de fumeur dans l’échantillon ? V. quantitative : MEANS Moyenne, médiane, mode, étendue, variance, écart-type… Quelle est la moyenne d’âge dans l’échantillon ? Pour récapituler (2) 63 Pour comparer deux variables V. qualitative/qualitative : TABLES Test du χ² : conditions ? Le pourcentage de fumeur est-il supérieur chez les hommes par rapport aux femmes ? Aussi pour les v. qualitatives > 2 classes (couleur des yeux) V. quantitative/qualitative : MEANS Test t de Student : conditions ? La moyenne d’âge de l’échantillon est-elle la même chez les femmes et chez les hommes ? Pour récapituler (3) 64 Pour comparer deux variables (suite) V. quantitative/quantitative : pas avec Epi Info® (?) Test de nullité du coefficient de corrélation : conditions ? La taille et le poids sont-ils « corrélés » (= ont-ils un lien ?) dans la population étudiée ? Site internet Biostatgv : http://www.u707.jussieu.fr/biostatgv/ Comment présenter les résultats ? (1) 65 Représenter la population d’intérêt par un flowchart XXX personnes sélectionnées • Non inclus XX personnes incluses • Inclus à tort • Perdus de vue • Déviations au protocole • Données manquantes X personnes ayant suivi le protocole “jusqu’au bout” Comment présenter les résultats ? (2) 66 Présenter la population de l’étude (tableau) Sexe, âge, variables d’intérêts Variables qualitatives : effectifs et pourcentages Variables quantitatives Grands effectifs : moyenne, intervalle de confiance à 95% Petits effectifs : médiane, minimum-maximum Population totale (n = XXX) Effectif Pourcentage XX XX XX% XX% Sexe Homme Femme Age (années) Moyenne / Médiane IC à 95% / Min-Max XX / XX [ XX ; XX] / XX-XX Comment présenter les résultats ? (3) 67 Groupe 1 (n = XXX) Groupe 2 (n = XXX) Effectif Pourcentage Effectif Pourcentage Homme XX XX% XX XX% Femme XX XX% XX XX% Test statistique correspondant (t Student, χ², etc) Sexe p < 0,05 ? Age (années) Moyenne XX XX IC à 95% [ XX ; XX] [ XX ; XX] p < 0,05 ? Variable qualitative Modalité A Modalité B XX XX XX% XX% XX XX XX% XX% Modalité C XX XX% XX XX% p < 0,05 ? Variable quantitative (unité) Moyenne XX XX IC à 95% [ XX ; XX] [ XX ; XX] p < 0,05 ? Références 68 Bouyer J. Epidémiologie : principes et méthodes quantitatives. Editions Inserm. Falissard B. Comprendre et utiliser les statistiques dans les sciences de la vie. Abrégés Masson. http://h0.web.upsud.fr/biostatistiques/#cours&id=01&r=partie1&t=sous_par tie_06&p=diaporama Site internet Biostatgv http://www.u707.jussieu.fr/biostatgv/