Recherche quantitative

publicité
INTRODUCTION A LA
RECHERCHE QUANTITATIVE
Deuxième partie : de la base de
données aux résultats
Juin 2010
Julien Gelly, Caroline Huas, Josselin Le Bel
Plan
2
1.
2.
Introduction
Saisie des données : Epi Data®



3.
Constitution du masque de saisie
Saisie des données
Exportation des données
Analyse des données : Epi Info®



Représentations graphiques
Description des données
Tests statistiques
Epi Info® : analyse des données
3

Téléchargement
ftp://ftp.cdc.gov/pub/Software/epi_info/epiinfo351/E
piInfoSetup3_5_1_0008.exe

Aide
http://dmg.medecine.univparis7.fr/documents/Divers/epinfo.doc

Site WHO (OMS)
http://www.who.int/chp/steps/resources/EpiInfoTraining/
en/index.html
4
Epi Info® : objectifs
Représentation graphiques
• Description des données
• Comparaison de deux moyennes
•
ATTENTION
Sous réserve de
remplir les
conditions
d’applications
 test t de Student
• Comparaison de deux pourcentages
 test du χ² de Pearson
• Comparaisons de deux variable quantitatives
 test de nullité du coefficient de corrélation :
http://www.u707.jussieu.fr/biostatgv/
Lancer Epi Info®
5
Commandes les plus courantes
6




Data : importation
Variables et Select/if : pour
créer et recoder des
variables
Statistics : pour les test les
plus courants (test t, test du χ²,
+/- apparié …)
Advanced statistics : pour les
analyses multivariées
Importer les données : « Data.xls »
7
Table de données
8
9
Représentation graphiques
D’une variable qualitative
D’une variable quantitative
De plusieurs variables
Cas « particuliers »
Représentation d’une v. qualitative
10

Diagrammes en bâtons

Camemberts

Tableaux de pourcentages
Représentation d’une v. quantitative
11

Histogramme
 Surface
proportionnelle
aux effectifs
(vs. diagramme)
 Plusieurs variables
peuvent être
représentées sur le même
histogramme

Courbes de densité
Autres représentations
12

Plusieurs variables
2
v. quantitatives : diagramme en X,Y ou en matrice
 2 v. qualitatives : diagramme en cercles
 1 v. quantitative et 1 v. qualitative : « boîtes à
moustaches », diagramme en points

Autres variables
1
v. temporelle : « fagots »
 1 v. censurée : courbe de survie
(ex : Kaplan-Meier)
Représentations graphiques (1)
13
Représentations graphiques (2)
14
Représentations graphiques (3)
15

Par classes de 10 années
Représentations graphiques (4)
16
Click droit
Représentations graphiques (5)
17

Par classes de 5 années et par sexe
Représentations graphiques (6)
18
19
Description des données
Mesures de position
Mesures de dispersion
Intervalle de confiance
Mesures de position (1)
20


Moyenne : m = x / n
Médiane
 Valeur
pour laquelle 50% des mesures sont plus
grandes et 50% des mesures sont plus petites
 Moins sensible aux valeurs extrêmes ou aberrantes

Mode
 Valeur
obtenue le plus fréquemment
 Pour les v. quantitatives discrètes
vs. pour une v. qualitative : proportions ! (%)
Mesures de position (2)
21
Médiane < Moyenne (valeurs extrêmes)
Mesures de dispersion
22

Etendue (range)
 Maximum
– minimum
 Sensible aux valeurs extrêmes


Intervalle interquartile
(entre 25e et 75e percentiles)
Ecart-type (s) et variance (s²)
Intervalle de confiance (1)
23
Il y a 95% de chance pour que la
proportion de soit comprise
entre 8% et 64%
Intervalle de confiance (2)
24

Détermine la précision de l’estimation


Autre manière d’exprimer la variabilité de la mesure
Approximation à partir de la loi normale (conditions)

Pour une moyenne :
IC95% = m +/- 2(s²/n)
(si n > 30)

Pour une proportion :
IC95% = p +/- 2(pq/n)
(si np et nq > 5)

A risque d’erreur fixé, l’intervalle de confiance (IC) est d’autant plus
petit que la taille de l’échantillon est grande
z/2 = 1,96  2
Description d’une v. qualitative (1)
25

Pour la variable « tabact »
Description d’une v. qualitative (2)
26


Pour la variable « tabact »
Quelle est la fréquence de fumeurs actuels ?
Description d’une v. qualitative (3)
27


Et par classe (sexe)
Quelle est la fréquence de fumeurs actuels chez les
filles et chez les garçons ?
Description d’une v. quantitative (1)
28


Pour la variable « age »
Quelle est la moyenne d’âge de l’échantillon ?
Description d’une v. quantitative (2)
29

Mesures de position et de dispersion de « age »
A vous de vous la représenter …
30
Médiane < Moyenne (valeurs extrêmes)
31
Tests statistiques
Les étapes d’un test statistique
Les hypothèses a priori : H0 et H1
Les erreurs a priori : α et β
La puissance statistique : 1 - β
Le nombre de sujet nécessaire
Le choix du test statistique
Les conditions de validité
Le degré de signification : p
Différence significative ?
32
Les étapes d’un test statistique
33
1.
2.
3.
4.
5.
Choix du critère de jugement principal
Poser les hypothèses H0 et H1
Calcul de la statistique
Conditions d’applications
Comparer notre statistique à des valeurs limites
« standardisées » lues dans une table adaptée


6.
Test bilatéral ou unilatéral ?
Type de test (t, χ², +/- apparié…)
Règle de décision : différence significative ?
Exemple
34

Essai randomisé sur les lombosciatiques
 Corticoïdes
par infiltrations vs. Placebo
 Critère de jugement principal = succès/échec à J20
par auto-évaluation des patients
 Inclusion prévue de 43 patients/groupe

Au terme de l’étude : 85 patients inclus
 Corticoïdes
: 22/43 (51,2%) de succès
 Placebo : 10/42 (23,8%) de succès
 Différence statistiquement significative
Les hypothèses a priori : H0 et H1
35

L’hypothèse nulle (H0)
 Celle
que l’on cherche à réfuter (statu quo)
 « Vraie » tant qu’on a pas démontré le contraire

L’hypothèse alternative (H1)
 Hypothèse
contraire de l’hypothèse nulle
 Celle que l’on cherche à démontrer
 PA  PB (test bilatéral) et non pas PA > PB (unilatéral)
Les hypothèses a priori : H0 et H1
36



Exemple de l’essai randomisé sur le traitement des
lombosciatiques : Corticoïdes vs. Placebo
L’hypothèse nulle (H0) : les taux de succès sont
identiques sous corticoïdes et sous placebo
L’hypothèse alternative (H1) : les taux de succès
différents sous corticoïdes et sous placebo
Les erreurs a priori : α et β
37

Erreur de première espèce (α)



Erreur de seconde espèce (β)



Probabilité d’accepter H1 à tort (alors que H0 est vraie)
Probabilité de trouver une différence statistiquement significative
alors qu’il n’y en a pas
Probabilité d’accepter H0 à tort (alors que H1 est vraie)
Probabilité de ne pas mettre en évidence une différence
statistiquement significative alors qu’elle existe
Objectifs = règle de décision minimisant β (risque de non
découverte) pour α fixé (risque de fausse découverte),
généralement fixé à 5%
La puissance statistique (1- β)
38

Puissance statistique (1- β)
 Aptitude
à mettre en évidence une différence
lorsqu’elle existe
 On calcule un nombre de sujets nécessaire pour obtenir
une puissance donnée
H0 vraie
H0 fausse
Accepter H0
1-α
β
Rejeter H0
α
1-β
Les erreurs a priori : α et β
39



Exemple de l’essai randomisé sur les lombosciatiques :
Corticoïdes par infiltrations vs. Placebo
Erreur de première espèce (α=5%) : conclure à une
différence d’efficacité entre corticoïdes et placebo
alors que les taux de succès sont identiques
Erreur de seconde espèce (β=20% donc 1 - β=80%) :
ne pas réussir à prouver une différence d’efficacité
entre corticoïdes et placebo alors qu’elle existe
Le nombre de sujets nécessaire
40

Nombre de sujet à inclure par groupe (a priori)
Moyennes : n  C × 2² / ² avec  = m2 - m1
 Proportions : n  C × [(p1(100-p1) + p2(100-p2)] / (p2-p1)²



Biostatgv !

0,40
0,20
0,10
0,05
C
4,9
7,9
10,5
13,0
Cas des effectifs déséquilibrés
Multiplier n par (k + 1) ² / (4 x k)
 k est la taille relative du groupe le plus important par
rapport au groupe le moins important

Biostatgv (1) : http://www.u707.jussieu.fr/biostatgv/
41
Biostatgv (2) : tests
42
Biostatgv (2) : calculs du NSN
43
Le nombre de sujets nécessaire
44

Hypothèse quantitative sous H1 a priori
 P2 =
70% de succès sous corticoïdes
 P1 = 40% de succès sous placebo

Risques d’erreur
 Erreur
de première espèce : α = 5%
 Erreur de seconde espèce : β = 20%

Calcul = 43 patients à inclure par groupe
Exemple
45
Choix du test statistique
46
Tests
paramétriques
Tests nonparamétriques
Tests appariés
Comparaison de
2 moyennes
Test t de Student
Test de MannWhitney
Test de Wilcoxon
(apparié)
Test t apparié
Comparaison de
2 pourcentages
Test du ²
Test exact de
Fisher
Test du ² apparié
(McNemar)
Hypothèses
Conditions d’applications
47

Test t de Student
 Distribution
normale (à vérifier visuellement sur un
histogramme ou un diagramme de normalité) ou n > 30
et variances égales (rarement vérifié en pratique)
 Sinon : test non-paramétrique (moins puissant)

Test du ²
 Effectifs
« espérés » (np et nq) tous supérieurs à 5
 Sinon : test non-paramétrique (moins puissant)
Expérience
48

Recueil des données et résultats observés
 Taux
de succès sous corticoïdes : 22/43 (51,2%)
 Taux de succès sous placebo : 10/42 (23,8%)

Statistique de test
 ² = 6,77 (estimée à partir des données recueillies)
 Degré
de signification associé : p = 0,009
 Règle de décision (Neyman & Pearson)
 0,05 donc rejet de H0 (vs. p > 0,05 et non rejet de H0)
 Différence significative de taux de succès
p
Le degré de signification : p (1)
49

Définition
 Probabilité
d’observer des résultats au moins aussi en
désaccord avec H0 que ceux qu’on a observés
 Quantifie le désaccord entre ce qu’on observe et H0

Interprétation
 Permet
d’affirmer avec plus ou moins de conviction qu’il
y a une différence (et encore, selon les écoles…)
 Mais ne renseigne sur l’importance de cette différence
Le degré de signification : p (2)
50

La valeur de p dépend de
 La
différence observée entre les deux groupes
 La taille d’échantillon

S’il existe une différence réelle entre 2 groupes,
même infime, n’importe quel test statistique va
aboutir à une valeur de p < 0,05 dès lors que le
nombre de sujets étudiés sera assez important
Attention !!!
51

La signification statistique n’implique pas la
pertinence clinique !
ex : 0/3 (0,0%) vs 3/3 (100,0%)
p = 0,010 (test exact de Fisher)

Si aucune différence statistiquement significative
n’est mise en évidence entre 2 groupes
 Soit
H0 est vraie : équivalence entre les deux groupes
 Soit la puissance est insuffisante (effectifs insuffisants)
Le degré de signification
52


Si les taux de succès sous corticoïdes et sous
placebo sont identiques, la probabilité d’observer
une telle différence (51,2% vs 23,8%) ou une
différence plus grande encore est de 0,009 (= p)
Différence d’efficacité et p (ici = 0,009)
 22/43
(51,2%) vs. 10/42 (23,8%) : ∆ = 27,4%
 14/22 (63,6%) vs. 5/21 (23,8%) : ∆ = 39,8%
 1104/4200 (26,3%) vs. 1000/4200 (23,8%) : ∆ =
2,5%
Et maintenant : à vos claviers !
53
Tests
paramétriques
Tests nonparamétriques
Tests appariés
Comparaison de
2 moyennes
Test t de Student
Test de MannWhitney
Test de Wilcoxon
(apparié)
Test t apparié
Comparaison de
2 pourcentages
Test du ²
Test exact de
Fisher
Test du ² apparié
(McNemar)
Hypothèses
Comparer deux moyennes (1)
54

Formulation de la question
Les non fumeurs ont-ils le même âge que les fumeurs ?
 La moyenne d’âge est-elle la même chez les fumeurs et les
non fumeurs ?


Formulation du test statistique
Comparaison des moyennes d’âge dans le groupe fumeur et
dans le groupe non fumeur
 H0 : la moyenne d’âge est la même dans les deux groupes
 Test t de Student : conditions ?

Distribution normale vérifiée graphiquement ou n > 30
 … et variances égales

Comparer deux moyennes (2)
55
Comparer deux moyennes (3)
56
Comparer deux pourcentages (1)
57

Formulation de la
 Les
filles fument-elles autant que les garçons ?
 La fréquence des fumeurs est-elle la même chez les
filles que chez les garçons ?

Formulation du test statistique
 Comparaison
de la proportion de fumeurs actuels chez
les filles et chez les garçons
 H0 : il n’y a pas de différence entre les filles et les
garçons
 Test du ² : effectifs « espérés » (np et nq) > 5 ?
Comparer deux pourcentages (2)
58

Comparaison du pourcentage de fumeurs actifs
dans chaque sexe
Comparer deux pourcentages (3)
59
Bonus : recoder une variable (1)
60


On veut étudier l’âge par classes d’âge
Créer une variable « agedisc »
Bonus : recoder une variable (2)
61

Discrétiser cette variable par classes de 10 années
Pour récapituler (1)
62

Pour décrire une variable
 V.
qualitative : FREQUENCIES
 Pourcentages
(avec IC95%)
 Quel est le pourcentage de fumeur dans l’échantillon ?
 V.
quantitative : MEANS
 Moyenne,
médiane, mode, étendue, variance, écart-type…
 Quelle est la moyenne d’âge dans l’échantillon ?
Pour récapituler (2)
63

Pour comparer deux variables
 V.
qualitative/qualitative : TABLES
 Test
du χ² : conditions ?
 Le pourcentage de fumeur est-il supérieur chez les hommes
par rapport aux femmes ?
 Aussi pour les v. qualitatives > 2 classes (couleur des yeux)
 V.
quantitative/qualitative : MEANS
 Test
t de Student : conditions ?
 La moyenne d’âge de l’échantillon est-elle la même chez les
femmes et chez les hommes ?
Pour récapituler (3)
64

Pour comparer deux variables (suite)
 V.
quantitative/quantitative : pas avec Epi Info® (?)
 Test
de nullité du coefficient de corrélation : conditions ?
 La taille et le poids sont-ils « corrélés » (= ont-ils un lien ?)
dans la population étudiée ?
 Site internet Biostatgv :
http://www.u707.jussieu.fr/biostatgv/
Comment présenter les résultats ? (1)
65

Représenter la population d’intérêt par un flowchart
XXX personnes sélectionnées
• Non inclus
XX personnes incluses
• Inclus à tort
• Perdus de vue
• Déviations au protocole
• Données manquantes
X personnes ayant suivi le
protocole “jusqu’au bout”
Comment présenter les résultats ? (2)
66

Présenter la population de l’étude (tableau)
Sexe, âge, variables d’intérêts
 Variables qualitatives : effectifs et pourcentages
 Variables quantitatives



Grands effectifs : moyenne, intervalle de confiance à 95%
Petits effectifs : médiane, minimum-maximum
Population totale (n = XXX)
Effectif
Pourcentage
XX
XX
XX%
XX%
Sexe
Homme
Femme
Age (années)
Moyenne / Médiane
IC à 95% / Min-Max
XX / XX
[ XX ; XX] / XX-XX
Comment présenter les résultats ? (3)
67
Groupe 1 (n = XXX)
Groupe 2 (n = XXX)
Effectif
Pourcentage
Effectif
Pourcentage
Homme
XX
XX%
XX
XX%
Femme
XX
XX%
XX
XX%
Test statistique
correspondant
(t Student, χ², etc)
Sexe
p < 0,05 ?
Age (années)
Moyenne
XX
XX
IC à 95%
[ XX ; XX]
[ XX ; XX]
p < 0,05 ?
Variable qualitative
Modalité A
Modalité B
XX
XX
XX%
XX%
XX
XX
XX%
XX%
Modalité C
XX
XX%
XX
XX%
p < 0,05 ?
Variable quantitative (unité)
Moyenne
XX
XX
IC à 95%
[ XX ; XX]
[ XX ; XX]
p < 0,05 ?
Références
68



Bouyer J. Epidémiologie : principes et méthodes quantitatives.
Editions Inserm.
Falissard B. Comprendre et utiliser les statistiques dans les
sciences de la vie. Abrégés Masson.
http://h0.web.upsud.fr/biostatistiques/#cours&id=01&r=partie1&t=sous_par
tie_06&p=diaporama
Site internet Biostatgv
http://www.u707.jussieu.fr/biostatgv/
Téléchargement