Outils Statistiques Damien Van Gysel CHU de Nice 2012-2013 SOMMAIRE • Rappel statistiques • Critères de validité d’un test diagnostique • Lecture critique d’article Rappel statistiques Variables quantitatives • Représentent la mesure d’une quantité et prennent des valeurs numériques qui ont une signification concrète – Exemples: l’âge, la pression artérielle, le poids… • On peut faire la moyenne des observations Variables qualitatives • Catégories qui ne sont pas associées à une valeur numérique • On peut faire un pourcentage des observations • Exemple: tabagisme, nombre d’enfants Variables qualitatives 2 types de variables qualitatives 1. Variables qualitatives nominales Les catégories ne sont pas ordonnées exemple: groupes sanguins 2. Variables qualitatives ordinales Les catégories sont ordonnées exemple: niveau d’études Statistiques descriptives • Indices de position – Moyenne – Médiane – Mode • Indices de dispersion – Variance – Ecart-type Statistiques descriptives • Représentation graphique – Variables quantitatives histogramme – Variables qualitatives diagramme en bâtons Histogramme Diagramme en bâtons Statistiques analytiques • Construction du test selon 2 Hypothèses • Hypothèse nulle (H0) Il n’y a pas de différence entre 2 moyennes (ou 2 pourcentages) • Hypothèse alternative (H1) Il y a une différence entre 2 moyennes (ou 2 %° H0 si p >= 0.05 H1 si p < 0.05 Statistiques analytiques • Risque de 1ere espèce = Risque alpha Risque de conclure à tort une différence alors qu’il n’y en a pas • « H1/H0 » • En général, risque de 5% • « Il y a une différence statistiquement significative au seuil de 5 % » Statistiques analytiques • Risque de seconde espèce= Risque Beta Risque de conclure a tort à l’absence de différence alors qu’il y en a une « puissance de l’étude « H0/H1 » En général, risque de 20 % Risque de 1ere et 2e espèce H0 Vraie H1 vraie Rejet H0 Risque alpha OK Acceptation H0 OK Risque beta Les conditions d’application • 2 variables qualitatives Test du CHI 2 (condition: Effectifs >= 5) • 1 variable qualitative & 1 variable quantitative Test de Student (Condition: Loi normale (> 30) et même variance) • 2 variables quantitatives Corrélation de Pearson Cas particuliers • Petits échantillons – 2 variables qualitatives Test exact de Fisher – 1 variable qualitative et 1 variable quantitative Mann Whitney • Séries appariées Exemple: mesure de la PAS avant/ après Qualitatif: test de Mac Nemar Quantitatif: Test de Student sur séries appariées Analyse multi variée • Y= X1 + X2 + X3 • Y= variable quantitative – Régression linéaire • Y= variable qualitative – Régression logistique • Y= données censurées – Modèle de Cox Exemples Exemple 1 • On veut comparer les réactions produites par 2 vaccins B.C.G désignés par A et B. Un groupe de 348 enfants a été divisé par tirage au sort en 2 séries qui ont été vaccinées, l’une par A, l’autre par B. La réaction a été lue ensuite par une personne ignorant le vaccin utilisé. Exemple 1 Vaccin Réaction légère Réaction moyenne Ulcération/ abcès Total A B 12 29 156 135 9 7 177 171 Total 41 291 16 348 Identifier les 2 variables. Quel test utiliser et pourquoi ? Exemple 1 Réponse • Il s’agit de deux variables qualitatives le vaccin: A ou B la réaction: légère ou moyenne ou abcès • Test du CHI 2 (on vérifie les effectifs > 5) • CHI 2= 8.81 • On garde H0 « il n’y a pas de différence entre les groupes donc pas de lien au seuil de 5% » Exemple 2 Dans une population, on a tiré au sort 32 sujets dont on a mesuré la tension artérielle. Les sujets se répartissent en 17 fumeurs dont la tension artérielle moyenne est M1= 148.8 et 15 non fumeurs dont la tension artérielle moyenne est M2= 139.8 Quel type de variable a-t-on ? Quel test utiliser ? Exemple 2 • Une variable qualitative: Fumeur/ Non fumeur • Une variable quantitative: la pression artérielle • On utilise donc un test de Student (conditions d’application vérifiées) • Il n’ y a pas de lien entre tabac et PA. Exemple 3 • On souhaite étudier la relation entre l’âge en année de la mère et le poids de naissance de son enfant en centaines de grammes dans un échantillon de 200 femmes. • Quelles sont les 2 variables étudiées ? • Quel test utiliser ? Exemple 3 • • • • Il s’agit de 2 variables quantitatives X= âge en années de la mère Y= poids de naissance de l’enfant. On utilise donc une corrélation de pearson. • On trouve une association significative entre les 2 variables. En pratique 1. 2. 3. 4. Déterminer le type de variables étudiées Représenter graphiquement les données Regarder les conditions d’application Procéder aux tests Intervalles de confiance • Si l’étude était répétée 100 fois, la réelle valeur de l’indice estimé serait incluse dans 95 cas sur 100 • « Intervalle de confiance à 95 % » • Plus l’intervalle est large, moins il est précis • Pallie les fluctuations d’échantillonnage Critères de validité d’un test diagnostique Validité • Le test de dépistage est capable d ’identifier correctement les malades et les non malades • La validité est appréciée par les caractéristiques intrinsèques du test • Elle est jugée à partir de la comparaison entre les résultats du test étudié et la réalité, test de référence, considéré comme le meilleur possible et auquel on confronte le nouveau test 29 Validité Réalité (test de référence) Test Test positif (T+) Test négatif (T-) Total Malades Non malades (M+) (M-) A B Vrais positifs Faux positifs (VP) (FP) C D Faux négatifs Vrais négatifs (FN) (VN) A+C B+D Total malades Total non malades Total A+B Total tests positifs C+D Total tests négatifs A+B+C+D Total échantillon testé 30 Validité caractéristiques intrinsèques • Dépendent du test mais pas de la population à laquelle le test est appliqué • Constantes quelle que soit la prévalence de la maladie 31 Sensibilité : exercice Un nouveau test a été étudié chez 100 malades venus consulter pour suspicion de cancer du col utérin Parmi ces 100 consultantes, 50 avaient un cancer du col prouvé à la biopsie Les résultats de l ’étude de validité du nouveau test sont décrits dans le tableau ci-contre M+ M- T+ 36 10 46 T- 14 40 54 50 50 100 Quelle est la sensibilité du test ? 32 Caractéristiques intrinsèques Spécificité • Probabilité pour un sujet sain d ’avoir un test négatif • Elle mesure l ’aptitude du test à reconnaître les nonmalades • Proportion variant de 0 à 100% • Intervalle de confiance à 95% IC 95% Sp 1,96 1 Sp Sp n 33 Spécificité : exercice Un nouveau test a été étudié chez 100 malades M+ Mvenus consulter pour suspicion de cancer du T+ 36 10 46 col utérin. Parmi ces 100 consultantes, T14 40 54 50 avaient un cancer du 50 50 100 col prouvé à la biopsie Les résultats de l ’étude de validité du nouveau test Quelle est la spécificité du test? sont décrits dans le tableau ci-contre 22/04/2017 GONFRIER Sébastien Nice Master 1 D Van Gysel- CHU S Gonfrier Evaluation du système de 34 Spécificité : réponse Un nouveau test a été étudié chez 100 malades venus consulter pour suspicion de cancer du col utérin. Parmi ces 100 consultantes, 50 avaient un cancer du col prouvé à la biopsie Les résultats de l ’étude de validité du nouveau test sont décrits dans le tableau ci-contre 22/04/2017 M+ M- T+ 36 10 46 T- 14 40 54 50 50 100 Quelle est la spécificité du test? 40 40 Sp 0.8 10 40 50 GONFRIER Sébastien Nice Master 1 D Van Gysel- CHU S Gonfrier Evaluation du système de 35 Sensibilité et spécificité • Plus le sensibilité et la spécificité sont proches de 100% et meilleur est le test • Ce sont des valeurs qui varient en sens inverse : quand on augmente la sensibilité, la spécificité diminue et inversement 36 Validité Performances prédictives d’un test • Les valeurs prédictives positives et négatives permettent de savoir quelle confiance l ’on peut accorder au résultat du test • Varient de 0 à 100 % • Varient en sens inverse: plus la VPP augmente, plus la VPN diminue et inversement 37 Performances prédictives Valeur prédictive positive La valeur prédictive positive (VPP) est la probabilité qu ’un sujet soit effectivement malade en cas de test positif A VP VP VPP A B VP FP Total T+ 38 Performances prédictives Valeur prédictive négative La valeur prédictive négative (VPN) est la probabilité qu ’un sujet soit effectivement non malade en cas de test négatif D VN VN VPN C D VN FN Total T39 VPP : exercice Un nouveau test a été étudié chez 100 malades venus consulter pour suspicion de cancer du col utérin. Parmi ces 100 consultantes, 50 avaient un cancer du col prouvé à la biopsie Les résultats de l ’étude de validité du nouveau test sont décrits dans le tableau ci-contre 22/04/2017 M+ M- T+ 36 10 46 T- 14 40 54 50 50 100 Quelle est la VPP du test? GONFRIER Sébastien Nice Master 1 D Van Gysel- CHU S Gonfrier Evaluation du système de 40 VPP: réponse M+ MUn nouveau test a été étudié chez 100 malades T+ 36 10 46 venus consulter pour suspicion de cancer du T14 40 54 col utérin. Parmi ces 100 consultantes, 50 50 100 50 avaient un cancer du Quelle est la VPP du test? col prouvé à la biopsie Les résultats de l ’étude de validité du nouveau test VP 36 VVP 0.78 78% sont décrits dans le VP FP 36 10 tableau ci-contre 22/04/2017 GONFRIER Sébastien Nice Master 1 D Van Gysel- CHU S Gonfrier Evaluation du système de 41 VPN : exercice Un nouveau test a été étudié chez 100 malades venus consulter pour suspicion de cancer du col utérin. Parmi ces 100 consultantes, 50 avaient un cancer du col prouvé à la biopsie Les résultats de l ’étude de validité du nouveau test sont décrits dans le tableau ci-contre 22/04/2017 M+ M- T+ 36 10 46 T- 14 40 54 50 50 100 Quelle est la VPN du test? GONFRIER Sébastien Nice Master 1 D Van Gysel- CHU S Gonfrier Evaluation du système de 42 VPN: réponse Un nouveau test a été étudié chez 100 malades venus consulter pour suspicion de cancer du col utérin. Parmi ces 100 consultantes, 50 avaient un cancer du col prouvé à la biopsie Les résultats de l ’étude de validité du nouveau test sont décrits dans le tableau ci-contre 22/04/2017 M+ M- T+ 36 10 46 T- 14 40 54 50 50 100 Quelle est la VPN du test? VN 40 VVN 0.74 74% VN FN 40 14 GONFRIER Sébastien Nice Master 1 D Van Gysel- CHU S Gonfrier Evaluation du système de 43 VPP et VPN sont fonction 1 - Des caractéristiques intrinsèques du test - si la spécificité augmente alors la VPP augmente - si la sensibilité augmente alors la VPN augmente 2 - De la population à laquelle le test est appliqué: elles dépendent de la prévalence de la maladie dans la population - quand la prévalence augmente la VPP augmente fortement et la VPN diminue modérément 44 Lecture Critique d’article Structure IMRAD • Introduction: contexte & objectif • Matériels et Méthodes: patients, identification des biais, critère de jugement principal… • Résultats • Discussion: but atteint ? Qualité ? Autres données ?