1 Enseignement de Lecture critique d’article Enseignement de Lecture critique d’article (UE 16) Polycopié de cours 2016/2017 Auteurs : Dr Agnès Dechartres, Dr Antoine Rachas, Dr Alexandra Rouquette, Dr Sophie Grabar, Dr Isabelle Colombet, Dr Pierre Durieux Enseignants : Pr Gilles Chatellier, Pr Joël Coste, Dr Isabelle Colombet, Dr Agnès Dechartres, Dr Pierre Durieux, Dr Sophie Grabar, Dr Jean-Philippe Jais, Dr Anne-Sophie Jannot, Dr Sandrine Katsahian, Dr Jean-Baptiste Escudié, Dr Vincent Looten, Dr Amélie Yavchitz, Dr Moussa Laanani Responsables : Dr Agnès Dechartres, Dr Pierre Durieux Faculté de médecine Paris Descartes Enseignement de la lecture critique d’article Table des matières 1ère partie ................................................................................................................... 9 1.1 Structure d’un article ................................................................................................10 1.1.1 Article, rapport d’étude et protocole .................................................................10 1.1.2 Format d’un article .............................................................................................10 1.1.3 Transparence (reporting) ...................................................................................15 1.2 Formulation de l’objectif et choix du type d’étude .................................................16 1.2.1 Formulation de l’objectif ....................................................................................16 1.2.2 Mots-clés correspondant au type d’étude ........................................................17 1.2.3 Adéquation entre le type d’étude et la question posée ...................................18 1.3 Constitution d’un échantillon dans lequel l’étude sera réalisée............................19 1.3.1 Echantillon, population source et population cible .........................................19 1.3.2 Notion de fluctuations d’échantillonnage .........................................................21 1.3.3 Constitution de l’échantillon..............................................................................21 1.4 Rappels de biostatistiques .......................................................................................22 1.4.1 Les différents types de variable ........................................................................23 1.4.2 Les différentes étapes de l’analyse statistique ................................................25 1.4.2.1. Analyse descriptive .......................................................................................25 1.4.2.2 Etude de l’association entre 2 variables (analyse univariée) ..........................34 1.4.2.3 Analyse multivariée ........................................................................................45 1.5 Biais et validité interne .............................................................................................54 1.5.1 Notion de biais ....................................................................................................54 1.5.2 Les principaux biais ...........................................................................................55 1.5.2.1 Biais de sélection ...........................................................................................55 1.5.2.2 Biais de classement .......................................................................................57 1.5.2.3 Biais de confusion ..........................................................................................59 1.5.3 Quels sont les réflexes à avoir ? .......................................................................60 1.5.4 Définition de la validité interne ..........................................................................61 1.6 Validité externe ........................................................................................................61 1.7 Niveau de preuve d’une étude .................................................................................62 Faculté de médecine Paris Descartes Page 2 Enseignement de la lecture critique d’article 2ème partie : Spécificités des différents types d’articles...................................... 64 2.1 Evaluation d’un test diagnostique ...........................................................................65 2.1.1 Formulation de l’objectif ....................................................................................66 2.1.2 Type d’étude .......................................................................................................66 2.1.3 Population d’étude .............................................................................................66 2.1.4 Choix du test de référence .................................................................................66 2.1.5 Réalisation des tests (test à évaluer et test de référence) ...............................67 2.1.6 Evaluation de la performance diagnostique d’un test .....................................67 2.1.6.1 Mesure de la validité d’un test diagnostique ...................................................67 2.1.6.2 Mesure de la fiabilité d’un test diagnostique ...................................................74 2.1.7 Rappels des différents biais pouvant affecter une étude d’évaluation diagnostique ................................................................................................................77 2.1.8 Recommandations pour rapporter un article diagnostique ............................77 2.2 Evaluation étiologique ..............................................................................................80 2.2.1 Formulation de l’objectif ....................................................................................81 2.2.2 Type d’étude .......................................................................................................81 2.2.2.1 Choix entre étude cas-témoin et étude de cohorte ........................................81 2.2.2.2 Principe des études de cohorte et cas-témoin ................................................82 2.2.3 Particularités des études de cohorte ................................................................84 2.2.3.1 Choix de la population....................................................................................84 2.2.3.2 Recueil des facteurs de risque .......................................................................84 2.2.3.3 Recueil de la maladie (critère de jugement) ...................................................85 2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte prospective ................................................................................................................85 2.2.4 Particularités des études cas-témoin................................................................86 2.2.4.1 Population d’étude .........................................................................................86 2.2.4.2 Recueil des facteurs de risque .......................................................................87 2.2.5 Prise en compte des facteurs de confusion potentiels ...................................88 2.2.6 Interprétation des résultats ...............................................................................89 2.2.7 Causalité .............................................................................................................90 Faculté de médecine Paris Descartes Page 3 Enseignement de la lecture critique d’article 2.2.8 Rappels des biais dans les études étiologiques ..............................................91 2.2.9 Recommandations pour rapporter une étude étiologique...............................93 2.3 Evaluation de facteurs pronostiques ......................................................................96 2.3.1 Formulation de l’objectif ....................................................................................97 2.3.2 Distinction facteur de risque/ facteur pronostique ..........................................97 2.3.3 Type d’étude utilisé ............................................................................................98 2.3.4 Les biais dans les études pronostiques ...........................................................99 2.4 Evaluation d’une intervention thérapeutique ........................................................100 2.4.1 Formulation de l’objectif ..................................................................................101 2.4.2 Type d’étude .....................................................................................................101 2.4.3 Choix du comparateur......................................................................................102 2.4.4 Randomisation..................................................................................................103 2.4.4.1 Génération de la séquence de randomisation ..............................................104 2.4.4.2 Clause d’ignorance ......................................................................................106 2.4.4.3 Vérification de la comparabilité initiale des groupes .....................................108 2.4.5 Le maintien de la comparabilité des groupes pendant l’essai ......................110 2.4.5.1 Le double aveugle ........................................................................................110 2.4.5.2 L’analyse en intention de traiter ...................................................................112 2.4.6 Les critères de jugement .................................................................................117 2.4.6.1 Définition d’un critère de jugement principal .................................................117 2.4.6.2 Pertinence clinique du critère de jugement ...................................................117 2.4.6.3 Notion de subjectivité/objectivité ..................................................................119 2.4.6.4 Disponibilité chez tous les patients (faisabilité du recueil du critère de jugement).................................................................................................................120 2.4.6.5 Critères composites .....................................................................................121 2.4.7 Calcul d’effectif .................................................................................................122 2.4.8 Respect des règles éthiques et enregistrement des essais ..........................123 2.4.8.1 Règles éthiques ...........................................................................................123 2.4.8.2 Enregistrement des essais ...........................................................................123 2.4.9 Interprétation des résultats d’un essai ...........................................................125 Faculté de médecine Paris Descartes Page 4 Enseignement de la lecture critique d’article 2.4.9.1 Interprétation des résultats pour le critère de jugement principal ..................125 2.4.9.2 Interprétation des résultats pour les critères secondaires .............................126 2.4.9.3 Interprétation d’une analyse intermédiaire....................................................127 2.4.9.4 Interprétation des analyses en sous-groupe .................................................128 2.4.9.5 Interprétation des résultats de tolérance ......................................................130 2.4.10 Plans expérimentaux particuliers ..................................................................130 2.4.10.1 Les essais en cross-over............................................................................130 2.4.10.2 Les essais d’équivalence ou de non-infériorité ...........................................132 2.4.11 Rappel des biais dans un essai contrôlé randomisé ...................................134 2.4.12 Recommandations de reporting pour les essais contrôlés randomisés ....135 2.5 Evaluation d’une intervention de prévention ou de dépistage ............................139 2.5.1 Prévention .........................................................................................................139 2.5.2 Dépistage ..........................................................................................................140 2.5.2.1 Définitions ....................................................................................................140 2.5.2.2 Avantages et inconvénients d’une procédure de dépistage ..........................141 2.5.2.3 Maladies candidates au dépistage ...............................................................141 2.5.2.4 Test disponible pour le dépistage .................................................................142 2.5.3 Formulation de l’objectif ..................................................................................143 2.5.4 Type d’étude .....................................................................................................143 2.5.5 Points à évaluer ................................................................................................144 2.5.6 Biais spécifiques aux études d’évaluation d’une procédure de dépistage ..145 2.5.7 Critères justifiant la mise en place d’un dépistage organisé ........................146 Glossaire ............................................................................................................... 148 Faculté de médecine Paris Descartes Page 5 Enseignement de la lecture critique d’article Remerciements Nous tenons à remercier tout particulièrement Adlane Feddal et Marion Giry pour leur relecture attentive et leurs commentaires qui ont permis d’améliorer ce polycopié. Faculté de médecine Paris Descartes Page 6 Enseignement de la lecture critique d’article Introduction : pourquoi la lecture critique ? Contrairement aux siècles précédents, le médecin d’aujourd’hui ne peut plus s’appuyer uniquement sur son expérience personnelle ou sur celle de ses collègues, mais doit se tenir informé des grandes évolutions des connaissances scientifiques produites au niveau mondial et nécessaires à sa pratique médicale. En effet, connaître la Médecine, c’est connaître non seulement ses « bases intangibles », mais également ses évolutions, ses nouvelles technologies et ses remises en question. Si les ouvrages médicaux et autres sources classiques d’enseignement restent d’une utilité incontestable pour l’apprentissage des bases de la médecine, les délais importants entre l’écriture de ces ouvrages et leur publication rendent leur contenu assez rapidement obsolète, voire faux, en regard des évolutions constantes des connaissances. Afin d’éviter ces délais et les potentielles erreurs dues à de multiples intermédiaires, il faut maintenant être capable de trouver, comprendre et analyser l’information scientifique à la source, à savoir dans la littérature médicale. Cependant, la quantité croissante d’articles publiés et leur qualité inégale imposent au médecin d’avoir la capacité de savoir quels articles lire, comment les lire et comment prendre en compte les résultats pertinents dans sa pratique quotidienne. Il s’agit donc de ne plus s’informer de façon passive mais active, par la remise en cause permanente de ses connaissances. C’est le principe de la médecine fondée sur des preuves (Evidence Based Medicine) tel qu’il a été proposé dès 1992 par des auteurs essentiellement canadiens issus de l’Université McMaster d’Hamilton. Nous parlons ici d’articles dits originaux, c’est-à-dire apportant des données nouvelles issues d’un travail de recherche. Les revues médicales d’où sont tirés ces articles sont des revues qui sélectionnent de façon très stricte les articles qu’elles publient mais ce processus est extrêmement hétérogène d’une revue à l’autre. Il est toujours essentiel d’évaluer la qualité méthodologique d’un article, même si celui-ci est publié par une revue réputée. Par exemple, il peut être tentant de publier rapidement des résultats d’études concernant des sujets à la mode ou dont les résultats sont très attendus. Des responsables de grandes revues médicales vont ainsi quasiment démarcher les auteurs de certains travaux de recherche qui présentent leurs résultats dans les grands congrès médicaux internationaux. Chacun voudra être celui qui publie tel grand essai multicentrique sur un nouveau stent coronaire ou sur un Faculté de médecine Paris Descartes Page 7 Enseignement de la lecture critique d’article nouveau médicament anti cancéreux. Dans ces conditions, l’existence d’éventuelles limites méthodologiques peuvent passer au second plan. Ensuite, même lorsqu’une publication est de qualité, il faut comprendre les limites méthodologiques de l’étude. En effet, la compréhension des limites de l’interprétation des résultats, même d’une étude bien menée, est cruciale. Par exemple, les résultats issus d’une étude d’observation n’ont pas le même niveau de preuve que ceux issus d’un essai contrôlé randomisé. L’efficacité d’une chimiothérapie n’aura pas le même sens si on considère son effet sur la réduction de la taille de la tumeur ou sur la mortalité. Enfin, l’appréciation de la possibilité d’utiliser les résultats pour sa propre pratique est un point essentiel. Il faut tenir compte en particulier du contexte organisationnel dans lequel l’étude a été réalisée (est-il comparable au vôtre ?), de la population étudiée (est-elle comparable à celle des patients que vous prenez en charge ?) ou des interventions mises en œuvre (sont-elles facilement disponibles dans votre environnement ?). Il faut donc apprendre à lire un article médical scientifique de façon critique. Les chapitres qui suivent ont pour objectif l’acquisition des bases indispensables à la lecture critique d’articles scientifiques médicaux. La difficulté particulière de la lecture critique d’article réside dans la nécessité de développer une gymnastique d’esprit, afin d’apprendre à jongler avec les connaissances théoriques tout en restant pragmatique. Il est donc nécessaire d’assimiler ces connaissances petit à petit, donc de commencer tôt ! Il est bien sûr également indispensable d’assister aux enseignements dirigés en complément de ce cours. Nous vous souhaitons une bonne lecture et nous espérons que ce polycopié vous accompagnera tout au long de votre formation ! Les enseignants de LCA Faculté de médecine Paris Descartes Page 8 Enseignement de la lecture critique d’article 1ère partie 1.1 Structure d’un article 1.2 Formulation de l’objectif et choix du type d’étude 1.3 Constitution d’un échantillon 1.4 Rappels de biostatistique 1.5 Biais et validité interne 1.6 Validité externe 1.7 Niveau de preuve d’une étude Faculté de médecine Paris Descartes Page 9 Enseignement de la lecture critique d’article 1.1 Structure d’un article 1.1.1 Article, rapport d’étude et protocole Le plus souvent, un article scientifique a pour objectif de rapporter le déroulement et les résultats d’une étude dans le but de diffuser ces résultats auprès de la communauté scientifique. Il s’agit d’un rapport d’étude. L’article est fréquemment le seul document accessible à la communauté scientifique. Quand on réalise une étude, il est nécessaire de rédiger avant le début de celle-ci un protocole. Ce document doit comporter une synthèse de la littérature scientifique permettant de poser le problème, une formulation claire et complète de l’objectif, la description détaillée des méthodes qui vont être employées (sélection de l’échantillon, mesure des critères de jugement, plan d’analyses statistiques pour répondre aux objectifs principal et secondaires, etc.) et l’ensemble des dispositions réglementaires concernant les questions d’ordre éthique et d’archivage des données issues de l’étude. Ce protocole est un véritable carnet de route pour le chercheur. Il permet d’assurer la rigueur méthodologique tout au long de l’étude jusqu’à la publication des résultats et d’éviter les modifications de convenance en cours d’étude qui peuvent être source de résultats biaisés. De plus en plus fréquemment, ce protocole est publié sous la forme d’un article et il est aussi obligatoire de l’enregistrer avant le début de l‘étude dans le registre international « ClinicalTrials.gov » ou dans un autre registre reconnu par l’OMS librement consultable sur internet. C’est une source d’information très importante pour la lecture critique d’article car elle permet d’évaluer l’écart entre ce qui est publié dans l’article scientifique et ce qui était prévu initialement dans le protocole. 1.1.2 Format d’un article Le format de l’article peut légèrement varier d’un journal à l’autre mais suit généralement le plan suivant : • Titre Le titre de l’article est un élément important. Il doit être court mais informatif. On doit idéalement y retrouver les différents éléments de l’objectif principal de l’étude. Faculté de médecine Paris Descartes Page 10 Enseignement de la lecture critique d’article • Auteurs Tous les auteurs ayant contribué de manière significative à l’étude sont ensuite listés. Le premier auteur correspond généralement à celui qui rédige l’article et le dernier auteur est la personne qui supervise cette recherche. Les affiliations des auteurs sont également indiquées. Il s’agit de leur appartenance à des services cliniques et/ou à des laboratoires de recherche. Un « corresponding author » doit être identifié avec ses coordonnées pour le contacter en cas de questions sur l’article. Les auteurs doivent indiquer s’ils ont des liens d’intérêt notamment financiers (par exemple si les auteurs ont été rémunérés par le laboratoire pharmaceutique pour des activités de conseil ou s’ils détiennent des actions du laboratoire ou si le laboratoire a financé des voyages pour aller en congrès) en rapport avec l’étude car ces liens peuvent influencer les résultats et les conclusions de l’étude. • Résumé (abstract) Le résumé est un élément essentiel de l’article. Il synthétise les éléments les plus importants de l’étude en 200 à 300 mots selon un plan précis (en général Introduction, Méthodes, Résultats et Conclusions mais la terminologie précise peut différer d’un journal à l’autre). Il s’agit de l’élément le plus lu car il permet une présélection des articles à lire en intégralité sur un sujet précis. Le résumé doit impérativement comporter les points suivants : objectif principal, plan expérimental, description de la population et des interventions ou des facteurs d’exposition étudiés, critère de jugement principal, résultats pour le critère de jugement principal, conclusions en rapport avec les résultats du critère de jugement principal. Tous ces éléments doivent être cohérents avec le reste du manuscrit. • Structure du texte Le texte de l’article suit le plan Introduction/Méthodes/Résultats/Discussion. Le tableau ci-dessous décrit les éléments qui doivent être rapportés dans ces différentes parties et ce que vous devez en retirer. Nous allons détailler dans la suite de ce polycopié ces différents éléments. Faculté de médecine Paris Descartes Page 11 Enseignement de la lecture critique d’article Tableau 1 : Structure et contenu du texte d’un article Partie Eléments devant être rapportés Contenu Ce que vous devez en retirer, les réflexes à avoir Contexte de l’étude Evaluation de la pertinence clinique : l’idée à l’origine de l’étude est-elle originale ? Ou y a t-il des résultats discordants dans la littérature justifiant la réalisation d’une nouvelle étude Revue de la littérature des études sur le sujet Hypothèses Introduction Justification de l’étude Objectif Objectif principal de l’étude L’objectif est-il formulé de manière complète ? Comprend-il tous les éléments du PECO (P=population, E=élement évalué, C=comparateur, O=outcome) Type d’étude (Study design) Plan expérimental de l’étude Les mots clés correspondant au type d’étude Justification du type d’étude par rapport à l’objectif principal Le type d’étude est-il adapté à la question posée ? Mode de recrutement de la population Evaluation de la validité externe (les caractéristiques de la population correspondent-elles à celles de la population en pratique courante ?) Population Critères d’éligibilité Matériel et méthodes Evaluation de la validité interne (risque de biais de sélection ?) Randomisation (dans les essais) Faculté de médecine Paris Descartes Comment la randomisation a été faite (méthode pour générer la séquence) et mise en œuvre (respect de l’assignation secrète ou clause d’ignorance) ? Qualité de la randomisation Evaluation de la validité interne (risque de biais de sélection ?) Page 12 Enseignement de la lecture critique d’article Facteurs évalués : Interventions Facteur d’exposition Critère de jugement principal Description des interventions à l’étude (traitement évalué, durée, dose), utilisation d’un placebo ou d’un double placebo (l’étude est-elle en aveugle ?)? Evaluation de la validité externe (pourra-t-on utiliser l’intervention évaluée en pratique courante ?) Evaluation de la validité interne (risque de biais de performance) Définition des facteurs d’exposition Evaluation de la validité interne (risque de biais de classement) Description du critère de jugement principal Est-il pertinent cliniquement ? Mesure du critère de jugement principal (comment, par qui, en aveugle ou non) ? Est-il objectif ou subjectif ? Si subjectif : Reproductibilité? Aveugle ? Evaluation de la validité interne (biais de classement) Analyse statistique Calcul d’effectif Analyse descriptive Analyse univariée Les analyses statistiques sont-elles appropriées ? L’analyse est-elle en intention de traiter ? Analyse multivariée (études étiologiques et pronostiques) Population d’analyse dans les essais (intention de traiter, per protocol) Valeur du risque alpha (en général 5%), tests unilatéraux ou bilatéraux ? Résultats Description de la population Evaluation de la validité externe (les caractéristiques de la population correspondent-elles à celles de la population en pratique courante ?) Validité interne (vérification Faculté de médecine Paris Descartes Page 13 Enseignement de la lecture critique d’article de la comparabilité des groupes dans les essais : qualité de la randomisation) Pour les essais Pour les études observationnelles Discussion Résultats pour le critère de jugement principal Comparaison du critère de jugement principal entre les 2 groupes de traitement Différence statistiquement significative ? Evaluation de la tolérance Les évènements indésirables doivent être rapportés avec leur description et leur nombre, par groupe en précisant le nombre et la nature des évènements indésirables graves Y a-t-il des problèmes de tolérance (comparer les pourcentages entre les 2 groupes car les tests statistiques ne sont pas puissants pour mettre en évidence des différences concernant les évènements indésirables) Analyse univariée Comparaison des caractéristiques des patients selon le critère de jugement principal Analyse multivariée Identification des facteurs indépendamment associés à la survenue du critère de jugement principal Les résultats de l’analyse multivariée sont les résultats principaux car ils prennent en compte les facteurs de confusion. L’analyse univariée est une étape prélable à la réalisation de l’analyse multivariée Taille d’effet (différence cliniquement pertinente ?) Résumé des principaux résultats En accord avec les résultats pour le critère de jugement principal ? Place de l’étude dans la littérature Les résultats de l’étude sont-ils concordants avec les autres études réalisées ? Evaluation de la cohérence externe Limites Les auteurs doivent présenter les principales limites de leur étude Evaluation de la validité interne et externe Conclusion Les auteurs concluent en précisant les implications pour la pratique La conclusion est-elle en accord avec les résultats du critère de jugement principal Faculté de médecine Paris Descartes Page 14 Enseignement de la lecture critique d’article 1.1.3 Transparence (reporting) Il est essentiel que tous les éléments présentés dans le tableau soient clairement rapportés afin que le lecteur puisse évaluer la qualité méthodologique de l’étude et la validité des résultats ce qui n’est malheureusement pas toujours le cas. En fait, de nombreux travaux méthodologiques ont souligné le manque de transparence de certains articles. Afin d’améliorer la transparence dans les articles scientifiques, des recommandations internationales ont été élaborées par un groupe constitué de méthodologistes, d'éditeurs de journaux et d'investigateurs. Ces recommandations listent tous les items devant être rapportés dans la publication d'une étude afin de permettre l'évaluation de la validité et de la pertinence des résultats. Pour les essais contrôlés randomisés, ces recommandations s’appellent le CONSORT Statement. Ces recommandations préconisent également de présenter un diagramme de flux (flow chart) des patients présentant le nombre de patients éligibles et randomisés dans chaque bras de l'essai avec les raisons de non-inclusion ainsi que le nombre de patients analysés avec les raisons d'exclusion. Il existe des recommandations de « reporting » adaptées à chaque type d’étude. Tableau 2 : Recommandations de « reporting » selon le type d’étude Type d’étude Recommandations pour rapporter les articles Essai contrôlé randomisé CONSORT Statement Etude diagnostique STARD Statement Etude de cohorte ou cas témoin STROBE Statement Faculté de médecine Paris Descartes Page 15 Enseignement de la lecture critique d’article 1.2 Formulation de l’objectif et choix du type d’étude 1.2.1 Formulation de l’objectif Une question de recherche doit être formulée de manière précise et complète, à partir de l’observation de la pratique clinique et d’une revue de la littérature sur le sujet. Les méthodes découlent de cet objectif. Il faudra vérifier dans l’article la cohérence entre l’objectif principal, le critère de jugement principal et la conclusion. Pour être complet, un objectif de recherche doit comprendre 4 éléments, qui seront repris dans la suite du cours sous l’acronyme PECO. Ces éléments sont décrits dans le Tableau 3. Tableau 3. Eléments de l'objectif d'une étude Elément Population (P) Population cible Explication population pour laquelle on souhaite pouvoir généraliser les résultats de l’étude Evaluation (E) Elément soumis à évaluation facteur de risque, nouveau traitement, test diagnostique… Comparaison (C) Population de référence Dans les études comparatives, population servant de référence pour mesurer une association Outcome (O) Critère de jugement principal Synonymes : maladie, issue clinique, outcome, endpoint Exemple : Evaluer l’efficacité d’un traitement par azithromycine (E) versus placebo (C) sur le risque d’exacerbation de BPCO (O), chez des patients ayant une BPCO modérée à sévère (P) Faculté de médecine Paris Descartes Page 16 Enseignement de la lecture critique d’article 1.2.2 Mots-clés correspondant au type d’étude Synonymes : schéma expérimental, plan d’étude, plan expérimental, study design. Une étude peut être observationnelle ou interventionnelle. Dans une étude observationnelle, on ne modifie pas la prise en charge des patients, on se contente de recueillir des données contrairement aux études interventionnelles dans lesquelles on modifie la prise en charge des patients du fait de l’intervention évaluée. Figure 1 : Les différents types d'études observationnelles et interventionnelles Une étude peut être transversale ou longitudinale. Une étude transversale est une étude faite à un moment donné : les patients ne sont pas suivis dans le temps. Faculté de médecine Paris Descartes Page 17 Enseignement de la lecture critique d’article Une étude longitudinale est une étude faite sur une période donnée ; les patients sont suivis dans le temps. Une étude de cohorte ou un essai contrôlé randomisé sont des exemples d’études longitudinales. 1.2.3 Adéquation entre le type d’étude et la question posée Le choix d’un type d’étude adapté pour répondre à la question posée est un élément essentiel à évaluer. Tableau 4. Types d’études appropriés pour répondre à différents types de questions de recherche Type de question Exemples Type d’étude approprié Décrire la prévalence d’une Etudier la prévalence de la rétinopathie Etude descriptive pathologie chez des diabétiques de type 2 transversale Décrire l’incidence d’une Etudier l’incidence des fractures Etude descriptive de pathologie, sa prise en vertébrales ostéoporotiques, leur prise en type cohorte prospective charge et son devenir charge et les récidives chez les femmes ménopausées Etudier les facteurs de risque - Rechercher une association entre Etude étiologique de la survenue d’une l’hypercholestérolémie et la survenue de - étude de cohorte maladie la maladie d’Alzheimer - étude cas-témoin - Risque de sclérose en plaque lié à la vaccination contre l’hépatite B Identifier des facteurs Evaluer les facteurs associés au décès Etude pronostique de pronostiques chez des patients ayant eu un AVC type cohorte prospective Faculté de médecine Paris Descartes Page 18 Enseignement de la lecture critique d’article Evaluation de l’efficacité Mesurer l’efficacité d’un médicament anti- - Essai contrôlé thérapeutique d’une vitamine K pour prévenir la survenue randomisé intervention d’accident thrombo-embolique chez les patients de plus de 65 ans ayant une fibrillation atriale Evaluer la performance d’un Evaluer la performance diagnostique de - Etude transversale (le test diagnostic la scintigraphie pulmonaire plus souvent) ventilation/perfusion, chez les patients avec suspicion d’embolie pulmonaire Evaluer une stratégie de dépistage ou une stratégie diagnostique Evaluer l’impact d’une stratégie de Essai contrôlé dépistage du cancer du sein par randomisé mammographie chez les femmes âgées de 50 à 70 ans 1.3 Constitution d’un échantillon dans lequel l’étude sera réalisée 1.3.1 Echantillon, population source et population cible L’objectif de l’étude est de décrire la répartition d’un caractère ou le lien entre deux ou plusieurs caractères dans une population donnée à l’aide de paramètres (par exemple le lien entre l’hypercholestérolémie et la survenue d’une maladie d’Alzheimer dans la population française à l’aide d’un odds ratio). Cette population est la population cible qui correspond à la population à laquelle on souhaite extrapoler les résultats de l’étude. Il n’est généralement pas possible de réaliser l’étude dans l’ensemble de la population cible et donc d’obtenir la « vraie » valeur, ou la valeur « réelle » du paramètre. Dans ce cas, l’étude va consister à estimer la valeur du paramètre dans un échantillon de sujets issus de cette population. On parle alors de paramètre « mesuré », « estimé » ou « observé ».Pour pouvoir extrapoler cette valeur estimée du paramètre à l’ensemble de la population cible, l’échantillon doit être représentatif (avoir les mêmes caractéristiques) de la population cible. Faculté de médecine Paris Descartes Page 19 Enseignement de la lecture critique d’article En pratique, il est souvent très difficile de constituer l’échantillon dans l’ensemble de la population cible (certains sujets sont moins facilement joignables : populations en situation de précarité par exemple). L‘échantillon est donc tiré d’une population dite « source » (population dans laquelle l’échantillon a été constitué). Dans l’idéal, l’échantillon est représentatif de la population source qui correspond parfaitement à la population cible. Figure 2 : Constitution d’un échantillon Remarque : Idéalement, la population source devrait être la population cible, mais ce n’est pas toujours le cas. Par exemple, l’identification des facteurs de risque de maladies est souvent réalisée chez des patients hospitalisés. Les patients non hospitalisés font bien partie de la population cible de l’étude mais ne feront pas partie de l’échantillon. Faculté de médecine Paris Descartes Page 20 Enseignement de la lecture critique d’article 1.3.2 Notion de fluctuations d’échantillonnage Si l’on constitue plusieurs échantillons (provenant de la même population source), l’estimation des paramètres qui nous intéressent ne sera pas exactement la même d’un échantillon à l’autre même si ceux-ci sont de même taille, du simple fait du hasard. C’est ce qu’on appelle la fluctuation d’échantillonnage. La fluctuation d’échantillonnage est inévitable dès qu’on constitue un échantillon. Plus la taille de l’échantillon augmente, plus la fluctuation d’échantillonnage diminue et l’estimation des paramètres tend à se stabiliser. Pour prendre en compte la fluctuation d’échantillonnage, plutôt que de donner une seule valeur de l’estimation, on donne un intervalle dans laquelle la vraie valeur a de grandes chances de se trouver. Cet intervalle est l’intervalle de confiance. Il est généralement à 95%. Si l’on faisait 100 études identiques et que l’on estimait 100 intervalles de confiance à 95% d’un paramètre, alors 95 de ces intervalles (en moyenne) contiendraient la vraie valeur du paramètre. L’intervalle de confiance à 95% d’un paramètre est calculé à partir de la mesure du paramètre et de la mesure de sa variabilité (variance du paramètre). 1.3.3 Constitution de l’échantillon Concernant la constitution de l’échantillon, les éléments suivants doivent être renseignés : • Le mode de recrutement des patients Exemples de modalités de recrutement : • par publicité, sur la base du volontariat • parmi les patients se présentant à une consultation ou à l’entrée d’un hôpital, sélection systématique et prospective de tous les patients consécutifs, ou d’un échantillon aléatoire, ou par jour ou semaine alternée… • à partir d’un registre (par exemple les listes électorales), tirage aléatoire de sujets • Les critères d’éligibilité : comprennent des critères d’intérêt par rapport à la question posée et des critères « pratiques » permettant de sélectionner des patients Faculté de médecine Paris Descartes Page 21 Enseignement de la lecture critique d’article qui pourront participer à l’étude. Par exemple, si l’on décidait de ne pas inclure les patients ne parlant pas français ou ayant des troubles de mémoire dans l’étude sur la BPCO, ce serait plutôt pour des raisons pratiques que scientifiques. On distingue les critères d’inclusion (il faut que les patients les remplissent tous pour entrer dans l’étude) et les critères de non inclusion parfois appelés, à tort, critères d’exclusion. Il suffit d’un seul critère de non-inclusion pour que le patient ne puisse pas entrer dans l’étude. Les critères d’exclusion devraient désigner les critères qui font que des sujets initialement inclus, donc répondant aux critères d’inclusion et de non-inclusion, sont exclus dans un deuxième temps. 1.4 Rappels de biostatistiques Il est indispensable de connaître les éléments de biostatistiques de base pour évaluer de manière critique un article. En effet, il faut pouvoir interpréter les résultats et vérifier que les analyses statistiques sont cohérentes avec l’objectif de l’étude. Les objectifs pédagogiques du CNCI comprennent la connaissance des éléments de biostatistiques de base. Ainsi, il est précisé que l’étudiant doit : - Vérifier que les analyses statistiques (en fonction de notions élémentaires) sont cohérentes avec le projet de travail - Analyser la présentation des résultats (présentation des tableaux et figures, vérification de la présence des indices de dispersion) - Critiquer l’analyse des résultats. Nous avons donc fait dans ce chapitre une synthèse des éléments de biostatistiques qui nous paraissaient indispensables à connaître afin de répondre aux objectifs pédagogiques du CNCI. L’analyse statistique suit toujours le même plan dans une étude. La première étape est une analyse descriptive des variables étudiées. La seconde étape consiste à faire des comparaisons c'est-à-dire étudier l’association entre une variable qui peut être un facteur de risque (dans une étude étiologique), un facteur pronostique (dans une étude pronostique), le Faculté de médecine Paris Descartes Page 22 Enseignement de la lecture critique d’article traitement attribué par randomisation (dans un essai contrôlé randomisé) et un critère de jugement. Il s’agit de l’analyse univariée. Enfin, la troisième étape permet d’évaluer l’association entre plusieurs variables simultanément et un critère de jugement. Il s’agit de l’analyse multivariée. L’analyse diffère en fonction du type de variable. Nous allons donc commencer par introduire les différents types de variables puis nous verrons les 3 différentes étapes de l’analyse statistique. 1.4.1 Les différents types de variable Une variable est un phénomène que l’on mesure. Une variable peut être selon le type d’étude un facteur de risque, un facteur de confusion, un facteur pronostique, un critère de jugement. Ces notions seront définies ultérieurement. On distingue plusieurs types de variables : 1) Les variables quantitatives Une variable est dite quantitative quand cela a un sens de dire qu’un résultat est plus grand ou plus petit qu’un autre (elle reflète une notion de grandeur). Une variable peut être quantitative discrète (si elle ne peut prendre qu’un nombre limité de valeurs comme la pression artérielle systolique) ou continue (si elle peut prendre un nombre infini de valeurs comme la douleur sur une échelle visuelle analogique continue). 2) Les variables qualitatives ou catégorielles Une variable qui ne reflète pas une notion de grandeur est une variable dite qualitative. Une variable est dite binaire quand elle peut prendre 2 valeurs. Le genre (masculin ou féminin) est un exemple de variable binaire. 3) Les variables censurées En médecine, on s’intéresse fréquemment au délai avant la survenue d’un évènement, par exemple le décès. En effet, ce n’est pas la même chose de décéder après un mois Faculté de médecine Paris Descartes Page 23 Enseignement de la lecture critique d’article ou après un an de suivi. C’est le cas par exemple dans les essais en cancérologie dans lesquels on veut montrer un bénéfice en termes de durée de survie avec un nouveau traitement. La durée de survie est continue. Cependant, on aura une valeur pour les patients décédés mais pas pour les patients survivants à la fin de l’étude. On sait seulement que leur durée de survie dépasse leur durée de participation dans l’étude. Afin d’analyser correctement ces patients, on doit définir une date de point qui correspond à la fin de l’étude. Les patients qui ne sont pas décédés à la date de point sont censurés. C’est pour cela que ces variables sont appelées variables censurées. Les patients qui sont perdus de vue avant la date de point sont censurés à la date de la dernière visite. Pour chaque patient, on va calculer sa durée de participation dans l’étude qui va correspondre : - Soit à la différence entre la date de décès et la date d’entrée dans l’étude pour les patients décédés avant la date de point - Soit à la différence entre la date de point et la date d’entrée dans l’étude pour les patients toujours en vie à la date de point - Soit à la différence entre la date de la dernière visite et la date d’entrée dans l’étude pour les patients perdus de vue Figure 3 : Diagramme de suivi de 3 individus Faculté de médecine Paris Descartes Page 24 Enseignement de la lecture critique d’article 1.4.2 Les différentes étapes de l’analyse statistique 1.4.2.1. Analyse descriptive La première étape de l’analyse statistique consiste à décrire l’ensemble des variables étudiées dans l’échantillon. Analyse descriptive des variables qualitatives Elle repose sur le calcul des fréquences (absolues) et des pourcentages (fréquences relatives). Par exemple, l’échantillon composé de 563 individus comportait 445 femmes (79%) et 118 (21%) hommes. Les études descriptives peuvent avoir pour objet d’évaluer la prévalence ou l’incidence d’une pathologie. • Prévalence La prévalence mesure la proportion de malades présents dans la population à un moment donné. La prévalence se calcule par la formule : La prévalence intègre 2 dimensions différentes : la durée de la maladie (plus la maladie dure longtemps, plus le nombre de malades est important) et la vitesse d’apparition de nouveaux cas de la maladie dans la population. Plus celle-ci est grande, plus la prévalence augmente). Comme la prévalence est estimée dans un échantillon de la population, il faut donner une mesure de la précision de cette estimation. Pour cela, on calcule l’intervalle de confiance à 95% de la prévalence. Faculté de médecine Paris Descartes Page 25 Enseignement de la lecture critique d’article Soit un échantillon de n sujets ou la prévalence observée vaut p0. La variance vaut : Avec q0 = p0*(1- p0) D’où l’intervalle de confiance : Selon certaines conditions d’applications : les 2 bornes Psup et Pinf vérifient que nPinf, nPsup, nQinf, nQsup sont supérieurs ou égaux à 5. • Taux d’incidence Le taux d’incidence quantifie le nombre de nouveaux cas de malades qui surviennent dans la population pendant une période de temps donnée. Il peut être calculé de façon exacte dans les études de cohorte (cf infra). Avec PT : Nombre de Personnes-Temps à risque cumulé sur la période c'est-à-dire la somme cumulée des durées pendant lesquelles les non-malades sont « à risque » de devenir malade. Faculté de médecine Paris Descartes Page 26 Enseignement de la lecture critique d’article Le taux d’incidence nécessite de préciser sur quelle période de temps le compte est fait. Le taux d’incidence mesure une vitesse moyenne d’apparition de nouveaux cas sur l’ensemble des sujets de la population et de la durée totale de leur suivi. Il faut également calculer l’intervalle de confiance à 95% du taux d’incidence. Sachant que TI suit approximativement une loi normale d’où l’intervalle de confiance : Il existe une relation entre le taux d’incidence et la prévalence : P = TI * d avec d : durée moyenne de la maladie Cette formule est valable si la population est stable et le taux d’incidence est faible. Calcul des personnes-temps : Méthode exacte : Dans le cas d’une étude de cohorte (suivi longitudinal), les données de suivi ainsi que les dates de survenues des événements sont connues de façons précises pour chaque sujet inclus. Ceci permet de calculer de manière exacte les personnes–temps « à risque ». Le temps de participation ou durée d’exposition au risque est la différence entre la date de fin de participation et la date d’origine (inclusion du patient), sachant que la date de fin de participation peut être selon les patients la date de l’événement d’intérêt (patient C), la date es dernières nouvelles (patient A), la date de point de l’étude (patient B). Faculté de médecine Paris Descartes Page 27 Enseignement de la lecture critique d’article Méthode approchée : Il arrive souvent que la date exacte des évènements, comme une maladie, soit inconnue. La méthode exacte n’est donc plus utilisable car le temps réel d’exposition au risque (comme tomber malade ou être perdu de vue) ne peut être estimé exactement, celui-ci nécessitant un suivi longitudinal précis. On utilise alors une méthode approchée qui suppose que les personnes décédées, perdues de vue ou tombées malades, ont été présentes et non malades pendant la moitié de la période observée. Si la maladie est rare, le nombre de cas m est petit et que la population est importante N0. N0 et Nfin = nombre de sujets non malades présents respectivement en début et fin de période. Nfin = N0 – ( pdv + M ) avec pdv comme perdu de vue et M comme mort Faculté de médecine Paris Descartes Page 28 Enseignement de la lecture critique d’article Analyse descriptive des variables quantitatives Toute variable quantitative doit être décrite avec un paramètre de position (ou paramètre central) associé à un paramètre de dispersion qui permet de donner une estimation de la dispersion de la mesure au sein de l’échantillon. • Paramètres de position o Moyenne o Médiane (= 50e percentile) : valeur d’une variable quantitative qui permet de séparer la population en 2 groupes de même effectif. Si par exemple l’âge médian est de 37 ans, 50% de la population est âgée de 37 ans ou moins et 50% de plus de 37 ans. Remarque 1 : La médiane est moins sensible aux valeurs extrêmes que la moyenne (si quelques personnes sont très âgées, la moyenne d’âge va beaucoup augmenter, mais pas la médiane). Remarque 2 : Il est intéressant d’étudier la distribution de la variable dans l’échantillon et de distinguer les variables qui ont une distribution dite « normale » de celles qui ont une distribution non normale Pour tracer la distribution de la variable, on représente en abscisse les valeurs de la variable, et en ordonnée, le nombre de patients. Figure 4 : Courbe de distribution normale d’une variable continue Faculté de médecine Paris Descartes Page 29 Enseignement de la lecture critique d’article Si la courbe a une forme de cloche comme ci-dessus, la variable a une distribution normale. La moyenne est alors un bon paramètre de position. Si la courbe n’a pas cette forme de cloche, il est préférable d’utiliser la médiane. • Paramètres de dispersion o Ecart-type, variance (carré de l’écart-type) : représentent les « écarts à la moyenne ». Plus la variance est élevée, plus le caractère est variable dans la population. On parle aussi de plus grande hétérogénéité du caractère. L’écart-type et la variance sont des paramètres de dispersion classiquement associés à la moyenne. o Intervalle interquartile : intervalle entre le 25e (1er Quartile) et le 75e percentile (3ème Quartile). Accompagne souvent la médiane : « L’âge médian est de 37 ans (intervalle interquartile : 28-48) » signifie que 25% de la population a moins de 28 ans, 25% entre 28 et 37 ans, 25% entre 37 et 48 ans et 25% plus de 48 ans. Analyse descriptive des variables censurées Dans une analyse portant sur des variables censurées, on s’intéresse au risque instantané de décès ou plus généralement de survenue de l’évènement. Le risque instantané d’un événement représente la probabilité de présenter cet événement à un moment donné, sachant qu’il n’est pas survenu précédemment. L’analyse descriptive des variables censurées repose sur la réalisation de courbes dites de survie (bien que le critère qui nous intéresse ne soit pas toujours le décès, cela peut être une infection, un infarctus du myocarde,…). Cette courbe est généralement tracée avec la méthode de Kaplan-Meier. La méthode de Kaplan-Meier permet de représenter, à chaque temps d’événement, le pourcentage de sujets n’ayant pas encore présenté l’événement d’intérêt. En abscisse, est représentée la durée de suivi. Faculté de médecine Paris Descartes Page 30 Enseignement de la lecture critique d’article En ordonnée, la probabilité (entre 0 et 1) de ne pas avoir présenté l’évènement ou la proportion de patients (entre 0% et 100%) n’ayant pas encore présenté l’évènement. La courbe commence à 1 (ou 100%) au temps 0, puisqu’au début de l’étude aucun patient n’a présenté l’évènement. La courbe est décroissante, puisqu’au cours du temps certains patients vont présenter l’évènement. Exemple : Figure 5: Exemple de courbe de Kaplan-Meier Le suivi était de 24 mois dans cette étude. Ici, l’évènement est l’absence de conception (chez des femmes subfertiles). L’axe des ordonnées représente donc la probabilité de ne pas concevoir au cours du temps. Faculté de médecine Paris Descartes Page 31 Enseignement de la lecture critique d’article On peut estimer la durée médiane de survenue de l’événement à partir d’une courbe de Kaplan-Meier. C’est la durée de suivi pour laquelle 50% des sujets n’ont pas encore eu l’événement. La médiane de survie correspond au temps pour lequel la probabilité de survie est de 0.5 (ou bien pour lequel il y a 50% des patients qui sont décédés). Exemple : Figure 6 : Estimation de la médiane de survie d’après une courbe de Kaplan-Meier Dans cette étude, la durée médiane avant conception après une laparoscopie et une hydrotubation chez des femmes ayant des problèmes de fertilité était de 6 mois. Faculté de médecine Paris Descartes Page 32 Enseignement de la lecture critique d’article Remarque : Si moins de 50% des sujets ont présenté l’événement au cours du suivi, on ne peut estimer la durée médiane de survenue de l’événement. Une autre présentation des données de survie, équivalente à la courbe de Kaplan-Meier, consiste à représenter la proportion de sujets ayant présenté l’événement au cours du temps (incidence cumulée). La courbe est alors inversée : elle commence à 0 (personne n’a encore présenté l’événement au temps 0) et la courbe est croissante au cours du temps. Exemple : Figure 7: Exemple de courbe d’incidence cumulée Faculté de médecine Paris Descartes Page 33 Enseignement de la lecture critique d’article 1.4.2.2 Etude de l’association entre 2 variables (analyse univariée) Il s’agit d’étudier l’association entre une variable qui peut être un facteur de risque (dans une étude étiologique), un facteur pronostique (dans une étude pronostique), le traitement attribué par randomisation (dans un essai contrôlé randomisé) et un critère de jugement. Cette étape est appelée analyse univariée ou bivariée. A- Tests statistiques Lorsqu’on fait un test statistique, on cherche à déterminer si l’association entre 2 variables au niveau d’un échantillon est le simple fait du hasard, ou si elle est due à une différence réelle dans la population. Rappels des hypothèses et des définitions La réalisation d’un test statistique repose sur 2 hypothèses : L’hypothèse nulle (H0) : il n’y a pas de différence entre les 2 groupes Par exemple dans le cadre d’un essai clinique : Le traitement A a la même efficacité que le traitement B L’hypothèse alternative (H1): il y a une différence entre les 2 groupes Par exemple dans le cadre d’un essai clinique : Le traitement A et le traitement B ont des efficacités différentes La réalisation d’un test statistique nécessite de fixer des risques d’erreur. Le premier risque d’erreur est considéré comme le plus grave. Il s’agit du risque de conclure à une différence qui n’existe pas en réalité. C’est le risque alpha. Il est généralement fixé à 5%. L’autre risque d’erreur est le risque beta défini par la probabilité de ne pas mettre en évidence une différence qui existe. Faculté de médecine Paris Descartes Page 34 Enseignement de la lecture critique d’article Tableau 5: Rappels des paramètres d’un test statistique Paramètre du test Définition Risque alpha Probabilité Valeur de conclure à une En général fixé à 5% différence qui n’existe pas en réalité Ou Probabilité d’accepter H1 si H0 est vraie Risque beta Probabilité de ne pas mettre en 1 - puissance évidence une différence qui existe en réalité Ou Probabilité d’accepter H0 quand H1 est vraie Puissance Probabilité de mettre en évidence une En général supérieure à différence qui existe en réalité 80% Ou Probabilité de rejeter H0 si H1 est vraie Avec les hypothèses présentées ci-dessus, le test est dit bilatéral car la différence entre traitement A et traitement B peut aller dans les 2 sens. Dans certains articles, les auteurs font un test unilatéral : ils font l’hypothèse que la différence ne peut aller que dans un sens, c'est-à-dire que l’un des 2 traitements est supérieur à l’autre. Il est recommandé de faire des tests bilatéraux. La réalisation d’un test unilatéral impose une correction du risque alpha qui devrait être à 2.5% mais cela n’est pas fréquemment fait en pratique par les auteurs. Faculté de médecine Paris Descartes Page 35 Enseignement de la lecture critique d’article Interprétation du résultat d’un test statistique Le résultat du test statistique est le p ou degré de significativité (ou degré de signification). Il s’agit de la probabilité que le hasard puisse expliquer à lui tout seul une différence au moins aussi grande que celle observée. C’est donc une indication de la certitude avec laquelle on peut conclure à une différence significative. Si le risque alpha est de 5% : Si p < 0.05, on peut conclure que la différence est statistiquement significative Si p ≥ 0.05, il n’y a pas de différence statistiquement significative et on ne peut rien conclure d’autre Exemple 1 : “At the end of the 12-week treatment courses, 27% of patients treated with efalizumab (98/369) achieved PASI-75 compared with 4% of patients who received placebo (8/187), p<0.001” Dans cet exemple, p<0.05, il y a une association significative entre le traitement et le PASI-75 qui est le critère de jugement principal de l’étude. p<0.001 signifie qu’il y a moins d’une chance sur 1000 que le hasard puisse expliquer à lui tout seul une différence au moins aussi grande que celle qu’on a observée (27% vs. 4%). Exemple 2 : “Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks, corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%) patients in the cryotherapy group, p=0.89” Dans cet exemple, p >0.05, la probabilité de disparition de la verrue plantaire (le critère de jugement principal) ne diffère pas significativement entre les 2 groupes de traitements (acide salicylique et cryothérapie). On ne peut rien conclure d’autre. Notamment, on ne peut pas conclure que les 2 traitements ont une efficacité équivalente en termes de disparition de la verrue. Remarque 1 : Le « 0.05 » correspond en réalité au risque alpha choisi, qui est en général de 5%. Faculté de médecine Paris Descartes Page 36 Enseignement de la lecture critique d’article Remarque 2 : En aucun cas les tests statistiques n’indiquent l’importance d’une différence. Ce n’est pas parce que la différence est statistiquement significative qu’elle est cliniquement pertinente. Si vous faites une étude incluant un grand nombre de sujets, vous aurez une forte puissance statistique pour montrer des différences statistiquement significatives pour de faibles différences (sans aucun sens clinique). Remarque 3 : En aucun cas un test statistique non significatif ne permet de conclure à l’exactitude de l’hypothèse « Ho », c’est-à-dire à l’égalité des paramètres dans les groupes comparés (sauf essais cliniques de non-infériorité et d’équivalence pour lesquelles l’hypothèse Ho est différente). Ainsi dans un essai thérapeutique de supériorité (le plus classique), il est erroné de conclure que les traitements sont équivalents quand la différence n’est pas statistiquement significative. Résultat du test statistique ne change pas le risque alpha Remarque 4 : le p est une mesure a posteriori. Dans une étude si vous avez un p=0.01 et qu’on vous demande quel est le risque alpha, celui-ci reste de 5%. A posteriori, la probabilité de se tromper en concluant à une différence reste de 5%. Les principaux tests statistiques Le choix du test statistique dépend du type de variable que l’on veut évaluer et de sa nature. - Si on veut comparer une variable qualitative (par exemple le sexe) entre 2 groupes, on fait un test du Chi 2 (test paramétrique) ou un test exact de Fisher (test non paramétrique). - Si on veut comparer une variable quantitative (par exemple l’âge) entre 2 groupes, on pourra faire un test t de Student si la variable quantitative a une distribution normale. Si ce n’est pas le cas (exemple : dosage des leucocytes), on pourra faire un test de Wilcoxon pour séries indépendantes qui est un test non paramétrique. Remarque : Un test est dit paramétrique quand on fait des hypothèses sur la distribution des variables (par exemple, pour un critère de jugement continu, on fait fréquemment l’hypothèse d’une distribution normale). Un test est dit non-paramétrique quand on ne fait aucune hypothèse sur la distribution des variables. Faculté de médecine Paris Descartes Page 37 Enseignement de la lecture critique d’article - Si on veut comparer une variable censurée (par exemple la survie) entre 2 groupes, on fera un test du log rank qui permet de comparer les courbes de survie entre les 2 groupes. Exemple : Un essai randomisé contre placebo étudie l’efficacité de l’azithromycine (un antibiotique de la classe des macrolides) pour la prévention des exacerbations de BPCO, chez des patients ayant un antécédent de BPCO. Les investigateurs utilisent une méthode de survie. Ils s’intéressent au risque de survenue d’une exacerbation de BPCO. Figure 8. Exemple de courbes de Kaplan-Meier avec test du log-rank Vous pouvez constater que : • 2 courbes sont présentées, une pour chaque groupe de randomisation • Le suivi était d’1 an dans cette étude (axe des abscisses) • l’axe des ordonnées représente la proportion de patients n’ayant pas encore présenté d’exacerbation de BPCO. Les courbes commencent à 1.0 au temps 0, puisqu’au début de l’étude aucun patient n’a encore présenté l’événement d’intérêt. • les courbes sont décroissantes, puisqu’au cours du temps les patients vont présenter Faculté de médecine Paris Descartes Page 38 Enseignement de la lecture critique d’article une exacerbation de BPCO. La proportion de patients n’ayant pas encore présenté d’exacerbation de BPCO diminue en conséquence. • la courbe « azithromycine » est au-dessus de la courbe « placebo » donc à chaque temps du suivi, la proportion de patients n’ayant pas encore présenté d’exacerbation de BPCO est plus élevée dans le groupe azithromycine que dans le groupe placebo. On dit aussi que le risque d’exacerbation de BPCO est plus bas dans le groupe azithromycine que dans le groupe placebo. • Une autre manière d’interpréter ces courbes, peut-être plus intuitive, est de dire que la courbe azithromycine est « plus à droite » que la courbe placebo, donc que la première exacerbation de BPCO survient plus tard dans le groupe traité par azithromycine que dans le groupe placebo. Cette phrase est équivalente à la précédente. • on peut retrouver les durées médianes de survenue de la première exacerbation de BPCO en retrouvant l’abscisse correspondant à une ordonnée de 0,5 : 266 jours pour le groupe azithromycine et 174 jours pour le groupe placebo. • La différence apparente entre les courbes est-elle statistiquement significative, ou bien pourrait-elle être due au hasard ? La valeur du degré de signification p du test du log-rank est < 0,001, donc inférieure à 0,05. On peut conclure que les deux courbes de survie obtenues sont significativement différentes (au risque alpha = 5% près), donc que le risque de première exacerbation de BPCO est différent dans le groupe azithromycine et dans le groupe placebo. Faculté de médecine Paris Descartes Page 39 Enseignement de la lecture critique d’article B-Mesure de l’association entre deux variables Mesure de l’association entre deux variables qualitatives Les paramètres permettant d’évaluer l’association entre deux variables qualitatives (typiquement la mesure de l’association entre une exposition et une maladie) sont le risque relatif, l’odds ratio, le hazard ratio Lorsque l’on parle de mesure d’association entre une exposition et une maladie, il est souvent utile de faire un « tableau 2x2 » comme suit : M+ : malades E+ E- M+ a b m1 M- : non malades M- c d m0 E+ : exposés n1 n0 n E- : non exposés Remarque : Si l’exposition est associée à un sur-risque de maladie, on s’attend à ce que la majorité de la population soit dans les cases a et d. Si l’exposition est associée à un moindre risque de maladie, on s’attend à ce que la majorité soit dans les cases b et c. Risque relatif Le risque relatif (RR) est le rapport des proportions de malades chez les exposés (a/n1) et les non exposés (b/n0). Faculté de médecine Paris Descartes Page 40 Enseignement de la lecture critique d’article Par exemple, si le RR vaut 2,2 dans la population, on peut dire que le risque de maladie chez les exposés est 2,2 fois plus élevé que chez les non-exposés. Odds Ratio L’odds ratio (OR) est une autre mesure possible de l’intensité de l’association entre deux facteurs qui est fréquemment utilisé car on peut le calculer quel que soit le type d’étude (contrairement au risque relatif). Il s’agit d’un rapport des rapports ou d’un rapport des cotes. Il est moins facile à interpréter que le risque relatif. Lorsque la prévalence de la maladie est faible dans la population cible, l’OR est proche du RR. On dit que c’est un bon estimateur du RR. On pourra interpréter l’OR comme un RR. C’est important car dans les modèles de régression logistique, on ne peut estimer que des OR. Conséquences : - si la prévalence de la maladie dans la population cible est de 8% et que l’on estime un OR à 1,5 sur un échantillon, alors on peut dire sans trop se tromper « le risque de maladie est 1,5 fois plus élevé chez les exposés que chez les non exposés » (phrase qui correspond normalement au risque relatif) - si la prévalence de la maladie dans la population cible est de 35% et que l’on estime un OR à 3,2 sur un échantillon, alors il est probable que la phrase « le risque de maladie est 3,2 fois plus élevé chez les exposés que chez les non exposés » soit fausse. Il faudra dire « il y a 3.2 fois plus de malades par rapport aux non-malades chez les exposés que de malades par rapport aux non-malades chez les non exposés. » Hazard ratio Le hazard ratio (hazard = risque en Anglais) est l’équivalent du risque relatif pour des variables censurées. C’est le rapport des risques instantanés de chaque groupe. Faculté de médecine Paris Descartes Page 41 Enseignement de la lecture critique d’article Risque relatif, Odds ratio et hazard ratio sont estimés dans un échantillon de la population. Cependant, du fait des fluctuations d’échantillonnage, si on tire plusieurs fois un échantillon dans une même population et que l’on mesure chaque fois le paramètre, les valeurs ne seront jamais exactement les mêmes. Il faut donc accepter un certain degré d’incertitude, une certaine imprécision. Par des méthodes statistiques, on peut estimer un intervalle dans lequel la valeur réelle a « de bonnes chances » de se trouver. Intervalle de confiance à 95% Rappel de la définition : si l’on faisait 100 études identiques et que l’on estimait 100 intervalles de confiance à 95% d’un paramètre, alors 95 de ces intervalles (en moyenne) contiendraient la vraie valeur du paramètre. L’intervalle de confiance à 95% d’un paramètre est calculé à partir de la mesure du paramètre et de la mesure de sa variabilité (variance du paramètre). Attention à ne pas confondre variance d’une variable et variance d’un paramètre : • La variance d’une variable quantitative (par exemple variance de la pression artérielle) mesure sa variabilité dans la population. Dans les articles, son estimation (ou celle de l’écart-type) est souvent donnée dans le tableau descriptif de l’échantillon (« tableau 1 »). • La variance d’un paramètre (par exemple variance d’une moyenne ou d’un risque relatif) mesure à quel point des estimations répétées sur des échantillons différents donneraient des estimations différentes (fluctuation d’échantillonnage). La variance du paramètre n’est pas donnée directement dans les articles, mais elle est utilisée dans le calcul des intervalles de confiance à 95%. • La variance d’un paramètre est liée à la variance de la variable (quantitative) correspondante. Par exemple, la variance d’une moyenne d’âge est la variance de l’âge divisée par le nombre de sujets. Faculté de médecine Paris Descartes Page 42 Enseignement de la lecture critique d’article En pratique, l’intervalle de confiance permet de : • Donner une idée de la précision de l’estimation : plus l’intervalle est étroit, plus l’estimation est précise ; à l’inverse, plus l’intervalle est large, moins l’estimation est précise • Déterminer si une différence est statistiquement significative. Si l’intervalle de confiance d’un RR, OR, HR ne contient pas la valeur 1 alors on peut conclure qu’il y a une différence statistiquement significative. Exemples : • RR = 1,8 ; IC95% : 1,2 – 2,5 ! RR significativement différent de 1 • RR = 2,5 ; IC95% : 0,8 – 3,2 ! RR non significativement différent de 1 En résumé : OR, RR, HR doivent être systématiquement présentés avec leur IC à 95% qui permet : - D’évaluer la précision de ces estimations - De déterminer s’il y a une différence statistiquement significative Remarque : Il revient au même de faire un test statistique et regarder si p est inférieur à 0,05 et de regarder si l’IC à 95% d’un RR, OR ou HR contient la valeur 1. Remarque : de l’usage du terme « significatif » Le terme « significatif » est utilisé à outrance ; il a pourtant un sens précis : il signifie qu’un test statistique a été réalisé sur un échantillon et qu’il a montré une différence « significative », c’est-à-dire non liée au hasard. Pour utiliser ce terme, il faut donc pouvoir donner un degré de significativité, ou un intervalle de confiance à 95%, correspondant au test réalisé. Enfin, une différence peut être significative, mais pas un Faculté de médecine Paris Descartes Page 43 Enseignement de la lecture critique d’article paramètre. On ne devrait pas dire « l’OR est significatif » mais « l’OR estimé est significativement différent de 1 » ou « au risque 5%, l’OR estimé est différent de 1 ». Exemple : Dans la population des 20-30 ans résidant en Ile-de-France, on veut savoir si la consommation d’alcool est associée à un sur-risque de diabète de type 1. Pour cela, on décide de faire une étude cas-témoin. On tire au sort 150 personnes ayant un diabète de type 1 (cas) et 150 personnes indemnes de cette pathologie (témoins). On leur demande leur consommation d’alcool sur l’année précédente et on définit une surconsommation audelà d’un certain nombre de verres par semaines. Parmi les 150 cas, 30 ont une surconsommation. Parmi les 150 témoins, 25 ont une surconsommation. L’odds ratio estimé est de 1,25 (pour info : 30*125/(25*120)). Son intervalle de confiance à 95% est 0,67 – 2,35. L’odds ratio n’est pas significativement différent de 1, car son intervalle de confiance contient la valeur 1 (ici on utilise donc l’intervalle de confiance à 95% de l’odds ratio en guise de test statistique). On ne montre pas d’association entre la consommation d’alcool et le risque de diabète de type 1 dans la population des 20-30 ans résidant en Ile-de-France. Mesure de l’association entre une variable qualitative et une variable quantitative Il s’agit notamment de l’étude de l’association entre l’exposition à un facteur quantitatif (comme l’âge) et une maladie. On estimera également des odds ratios et des hazards ratio avec leur intervalle de confiance à 95%. Ils doivent s’interpréter pour une augmentation d’une unité de la variable quantitative. Exemple : Dans une étude évaluant l’association entre l’âge (exprimé en années) et la survenue d’un AVC, l’Odds ratio est de 1.05 (IC 95% 1.01-1.10). Cela signifie que le risque de faire un AVC augmente de 5% pour chaque année supplémentaire (si on suppose que la prévalence de l’AVC est faible afin d’interpréter l’Odds ratio comme un risque relatif et qu’il existe une relation log-linéaire entre l’âge et la survenue d’un AVC). Faculté de médecine Paris Descartes Page 44 Enseignement de la lecture critique d’article Mesure de l’association entre deux variables quantitatives Pour mesurer l’association entre deux variables quantitatives, on calculera un coefficient de corrélation entre ces deux variables qui peut varier entre -1 (les 2 variables sont totalement corrélées et varient en sens contraire) et 1 (les 2 variables sont totalement corrélées et varient dans le même sens). On teste si ce coefficient de corrélation est significativement différent de 0. Une corrélation de 0 correspond à une absence de dépendance mais cela ne signifie pas que les variables sont indépendantes. 1.4.2.3 Analyse multivariée Prise en compte d’un ou plusieurs facteurs dans l’analyse AVANT DE COMMENCER Jusqu’ici on s’est intéressé au lien entre 2 facteurs : une exposition et une maladie. Dans la réalité, d’autres facteurs sont susceptibles d’influencer cette relation, à moins que l’étude ait été randomisée. A-Définitions Facteur intermédiaire Un facteur intermédiaire est un facteur qui intervient dans la chaîne causale entre le facteur d’exposition et le critère de jugement. Seule la connaissance du problème étudié permet de supposer qu’un facteur donné est un facteur intermédiaire. Faculté de médecine Paris Descartes Page 45 Enseignement de la lecture critique d’article Figure 9 : Définition d’un facteur intermédiaire Facteur d’exposition Tabac Facteur intermédiaire Critère de jugement SCA CBC K vessie Mort Exemple : On étudie la relation entre la consommation de tabac et la mortalité globale. Dans cette relation, on peut supposer que le fait d’avoir un cancer broncho-pulmonaire, un cancer de la vessie, un syndrome coronaire aigu sont des facteurs intermédiaires car ce sont des pathologies causées par la consommation de tabac, et qu’elles sont potentiellement létales. Facteur de confusion Un facteur de confusion est un facteur associé à la fois au facteur d’exposition et au critère de jugement et qui n’est pas un facteur intermédiaire. Un facteur de confusion peut expliquer une association (ou au contraire masquer une association existante). Figure 10 : Définition d'un facteur de confusion Faculté de médecine Paris Descartes Page 46 Enseignement de la lecture critique d’article Exemple : On étudie l’association entre la profession et la mortalité en milieu hospitalier. On trouve que les infirmières ont une espérance de vie plus longue que les médecins. Mais il existe un facteur de confusion évident : il y a plus de femmes parmi les infirmières que parmi les médecins, et les femmes ont une espérance de vie plus longue que les hommes. Le sexe est donc un facteur associé à la fois à la profession et à la mortalité (ces associations doivent normalement être vérifiées statistiquement), c’est un facteur de confusion dans la relation retrouvée entre ces deux facteurs. Facteur d’interaction Il y a interaction lorsque la relation entre deux facteurs diffère selon les modalités d’un troisième facteur, appelé facteur d’interaction ou facteur modificateur. L'interaction peut être quantitative (RR plus élevé chez les femmes que chez les hommes) ou qualitative (relation dans un sens chez les femmes, dans l’autre chez les hommes). Exemples : • Chez le sujet âgé, le syndrome métabolique prédit mieux le risque de syndrome coronaire aigu chez les femmes que chez les hommes (interaction quantitative, facteur d’interaction = sexe) • Traitement efficace sur la mortalité globale chez des patients ayant un cancer de la prostate à un stade avancé, mais délétère chez ceux ayant un cancer à un stade moins avancé (interaction qualitative, facteur d’interaction = sévérité de la maladie) Distinction facteur de confusion et facteur d’interaction Pour voir si un facteur joue un rôle dans la relation entre l’exposition et la maladie et si oui comment, il faut stratifier l’analyse selon ce facteur, c’est-à-dire estimer le paramètre pour chaque sous-groupe (strate) correspondant à chaque modalité du facteur. On s’affranchit ainsi de l’effet du facteur. Il y a alors 3 cas possibles : Faculté de médecine Paris Descartes Page 47 Enseignement de la lecture critique d’article 1. Si la relation est indépendante du facteur, elle sera retrouvée dans chaque strate 2. Si le facteur explique (au moins partiellement) la relation retrouvée, celle-ci disparaîtra (ou sera atténuée) dans chaque strate. On dit que le facteur est un facteur de confusion. 3. Si le facteur modifie la relation, on trouvera un résultat diffèrent dans chaque strate. On dit que le facteur est un facteur d’interaction. Exemple : On montre une association entre la consommation de café et le risque de syndrome coronaire aigu (SCA), avec un RR de 1,8 (intervalle de confiance à 95% : 1,4 – 2,3). On pose alors la question du rôle de la consommation de tabac dans cette relation. On va donc estimer le RR de la relation café-SCA chez les fumeurs d’une part, chez les nonfumeurs d’autre part. • Cas n°1 : La relation café-SCA existe chez les fumeurs et les non-fumeurs. Elle est indépendante de la consommation de tabac. Faculté de médecine Paris Descartes Page 48 Enseignement de la lecture critique d’article • Cas n°2 : La relation café-SCA n’existe ni chez les fumeurs, ni chez les non-fumeurs. L’association est donc expliquée par la consommation de tabac. La consommation de tabac est un facteur de confusion dans la relation café-SCA. • Cas n°3 : La relation café-SCA est différente chez les fumeurs et les non-fumeurs. La consommation de tabac est un facteur d’interaction dans la relation café-SCA. Ici on pourrait penser à une synergie entre le café et le tabac (si l’on suppose que les relations sont causales). Faculté de médecine Paris Descartes Page 49 Enseignement de la lecture critique d’article B-Prise en compte d’un seul facteur de confusion : l’ajustement de MantelHaenszel L’ajustement est une technique statistique permettant de prendre en compte un facteur de confusion au moment de l’analyse, donc a posteriori par rapport au tirage de l’échantillon et au recueil de données. Le principe est d’estimer un OR ou un HR (selon le type de variable considéré) ajusté sur le facteur de confusion. Pour cela, la méthode la plus simple est d’estimer le paramètre dans chaque strate du facteur de confusion potentiel, comme nous l’avons expliqué précédemment, puis d’en faire une « moyenne » (méthode de Mantel-Haenszel). En comparant le paramètre brut au paramètre ajusté, on peut également en déduire si le facteur d’ajustement est un facteur de confusion. Exemple : Reprenons l’exemple de la relation café – risque de SCA. Ce RR est appelé le RR brut ou RR non ajusté. Stratifions maintenant l’analyse sur la consommation de tabac, en estimant un risque relatif ajusté (RRa) sur le tabagisme, qui est une sorte de moyenne de RR1 et RR2. Nous retrouvons les cas exposés précédemment. • Cas n°1 : Le RR ajusté est très proche du RR brut, donc la relation café-SCA est indépendante de la consommation de tabac Faculté de médecine Paris Descartes Page 50 Enseignement de la lecture critique d’article consommation de tabac. • Cas n°2 : Le RR ajusté est différent du RR brut et est proche de 1. L’association café-SCA est expliquée par la consommation de tabac. La consommation de tabac est un facteur de confusion dans la relation café-SCA. Remarque : En cas d’interaction (cas n°3), les RR étant différents chez les fumeurs et les non-fumeurs, cela n’a pas de sens d’en calculer une « moyenne ». Les résultats seront présentés séparément chez les fumeurs et les non-fumeurs. En pratique : • On vérifie qu’il ne s’agit pas d’un facteur intermédiaire • On cherche s’il y a une interaction • Si oui, on sépare l’analyse en sous-groupes • Si non, on calcule un paramètre ajusté C-Prise en compte de plusieurs facteurs de confusion : les modèles multivariés Synonymes : modèle de régression multivarié, régression multivariée Nous venons de voir comment ajuster un paramètre sur un facteur de confusion. Néanmoins, cette méthode présente plusieurs limites : • Un seul facteur pris en compte Faculté de médecine Paris Descartes Page 51 Enseignement de la lecture critique d’article • Problème des variables ayant de nombreuses modalités • Problème des variables continues Principes des modèles de régression Le principe est de prédire la valeur d’une variable qui est le critère de jugement en fonction d’autres variables. On les appellera respectivement la variable à expliquer et les variables explicatives. Le modèle peut s’écrire comme suit : Y(variable à expliquer) = (a x variable explicative 1) + (b x variable explicative 2) +…+ constante C’est à dire Y= aX1 + bX2 + …+ constante Connaissant les valeurs de la variable à expliquer et des variables explicatives pour chaque sujet, on va pouvoir estimer les coefficients a, b, etc. afin que le modèle prédise au mieux ce que l’on a dans notre échantillon. Remarque : un modèle de régression peut être univarié s’il n’y a qu’une seule variable explicative (dans ce cas, on estimera un OR brut) ou multivarié s’il y a plusieurs variables explicatives (prise en compte des facteurs de confusion) dans le modèle (dans ce cas on estimera des OR ajustés). L’analyse multivariée permet d’identifier des facteurs indépendamment associés à la variable à expliquer, c'est-à-dire au critère de jugement. L’analyse multivariée est essentielle dans les études étiologiques ou pronostiques car elle permet de prendre en compte les facteurs de confusion en ajustant simultanément sur toutes les variables incluses dans le modèle. Les résultats de cette analyse (les OR ou HR ajustés) sont les résultats principaux dans ces études devant être mis en avant. Principaux modèles de régression Les seules choses qui vont changer entre les différents modèles de régression, ce sont le type de variable à expliquer et l’interprétation des coefficients a, b, … (Tableau 6). Faculté de médecine Paris Descartes Page 52 53 Permet d’obtenir un OR ajusté Modèles statistiques multivariés (plusieurs variables explicatives) Faculté de médecine Paris Descartes Permet l’ajustement sur un ou plusieurs facteurs de confusion Régression logistique Etape 3 : analyse multivariée Régression linéaire Régression logistique univariée Test de Mann Whitney (non Mais aussi modèles statistiques univariés (1 seule variable explicative) (OR brut) paramètrique) Tests statistiques Test de Wilcoxon (non paramètrique) Test exact de Fisher (non paramètrique) Page 53 Permet d’obtenir un HR ajusté Modèle de Cox Modèle de Cox univarié (HR brut) Test t de Student (paramètrique) Test du Log rank Test du Chi 2 (paramètrique) Courbe de Kaplan-Meier (médiane de survie) Etape 2 : analyse univariée ou bivariée Médiane ET minimum-maximum ou Q1-Q3 Moyenne ET écart-type Fréquences et pourcentages Etape 1 : analyse descriptive Exemple: douleur, qualité de vie Ex: mortalité, survenue d’infarctus du myocarde Ex: Mortalité à 30 jours Critère de jugement censuré Critère de jugement continu Critère de jugement binaire Tableau 6 : Récapitulatif des différentes étapes de l’analyse statistique selon le type de variable Enseignement de Lecture critique d’article Enseignement de la lecture critique d’article 1.5 Biais et validité interne 1.5.1 Notion de biais Un biais est une erreur systématique dans l’estimation des résultats qui opère dans un sens donné (par exemple surestimation de l’effet traitement). Il faut distinguer le biais de l’erreur aléatoire due à la fluctuation d’échantillonnage qui entraîne de l’imprécision autour du paramètre estimé. Plus l’échantillon est petit, plus l’erreur aléatoire est importante. L’erreur aléatoire opère dans tous les sens (surestimation ou sousestimation). Tableau 7 : Les grands types d’erreurs dans une étude Type d'erreur Causes Conséquences Erreur aléatoire Erreur systématique= biais La fluctuation d'échantillonnage, qui peut être comprise comme le fait que 2 études strictement identiques en tout point Toute erreur ou défaut dans la auront des résultats plus ou moins conception ou la mise en œuvre de différents, du simple fait du hasard. l'étude peut être une source possible de biais. La fluctuation d'échantillonnage est d'autant plus importante que l'échantillon comporte peu de sujets. - imprécision des estimations car la précision des estimations (intervalle de confiance à 95%) doit prendre en compte l'importance de la fluctuation d'échantillonnage (variance du paramètre - sous- ou surestimation estimé, voir p.42) systématique Risque de conclusion erronée - si mesure d'association : incapacité de conclure à une association pourtant réelle (perte de puissance) en raison d'une estimation trop imprécise du paramètre (OR, RR, HR) Faculté de médecine Paris Descartes Page 54 Enseignement de la lecture critique d’article Figure 11 : Différences entre imprécision et biais Chaque flèche représente le résultat obtenu sur un échantillon. La première cible correspond à la situation idéale : l’évaluation est à la fois précise et non biaisée (absence d’erreurs aléatoire et systématique). La seconde cible correspond à une évaluation peu précise mais non biaisée. Il s’agit probablement d’estimations faites dans un échantillon de petite taille avec des fluctuations d’échantillonnage (erreur aléatoire). Les flèches se répartissent un peu partout mais assez loin du point central. La troisième cible correspond à une évaluation précise mais biaisée. Les flèches sont centrées sur un point qui n’est pas le point central. 1.5.2 Les principaux biais De très nombreux biais sont décrits dans la littérature. Le type de biais et la terminologie varient selon le type d’étude. Nous verrons dans la partie 2, les biais propres à chaque type d’étude. Mais, globalement les biais sont de 3 types principaux : les biais de sélection, les biais de classement et les biais de confusion. 1.5.2.1 Biais de sélection Un biais de sélection est un biais lié à la constitution de l’échantillon ou des groupes de comparaison. Il peut être dû : Faculté de médecine Paris Descartes Page 55 Enseignement de la lecture critique d’article • Au fait que l’échantillon n’est pas représentatif de la population cible pour des caractéristiques liées à la maladie. Il peut résulter d’une sélection particulière des sujets aux différentes étapes de sélection de l’échantillon analysé (Figure 12) : o Population source non représentative de la population cible pour des caractéristiques liées à la maladie (problème de définition des critères d’éligibilité) o Echantillon inclus non représentatif de la population source pour des caractéristiques liées à la maladie (problème de recrutement des sujets : étude non proposée à tous les sujets éligibles, nombreux refus de participer, etc.) • A un mauvais choix du groupe de référence comme cela peut être le cas dans les études cas-témoin. Les témoins peuvent ne pas être représentatifs de la population de non-malades. Exemple : Dans une étude cas-témoin évaluant l’association entre la consommation de café et le cancer du pancréas, les témoins étaient des malades hospitalisés dans un service de gastro-entérologie pour un problème de côlon irritable. Le choix du groupe témoin pose problème ici car la consommation de café est déconseillée chez les patients ayant un syndrome du côlon irritable. Le groupe de référence n’est pas représentatif de la population de non-malades car il s’agit de patients hospitalisés et que leur consommation de café est différente de celle de l’ensemble des non-malades. Faculté de médecine Paris Descartes Page 56 Enseignement de la lecture critique d’article Figure 12 : Etapes de la sélection de l’échantillon analysé 1.5.2.2 Biais de classement Synonymes : biais de mesure, biais d’information (dont biais de mémoire) Un biais de classement est un biais dans la mesure de l’élément soumis à évaluation ou du critère de jugement. On ne classe pas correctement les sujets en « exposés/non exposés », ou en « malades/non malades » (Figure 13). Figure 13: Situation du processus de classement dans le schéma général Faculté de médecine Paris Descartes Page 57 Enseignement de la lecture critique d’article Il est important de distinguer les biais de classement différentiel, des biais de classement non différentiel. On parle d’erreur différentielle lorsque les probabilités d'erreur de classement sur la maladie sont différentes chez les exposés et chez les non-exposés (ou lorsque les probabilités d'erreur de classement sur l’exposition sont différentes chez les malades et chez les non-malades). Les erreurs différentielles peuvent conduire à une surestimation ou à une sous-estimation de l’association (la valeur de l’odds-ratio ou du risque relatif peut être soit augmentée soit diminuée). On dit qu'une erreur de classement sur la maladie (ou sur le facteur de risque/exposition) est non-différentielle lorsqu'elle survient indifféremment chez les exposés et chez les non-exposés (respectivement chez les malades et chez les nonmalades). On peut montrer que les erreurs non différentielles conduisent à une sousestimation de l’association exposition-maladie, autrement dit rapprochent de 1 la valeur du risque relatif ou de l’odds-ratio. Cette connaissance de la direction du biais est importante pour l’interprétation des résultats. Son ampleur, et donc la perte de puissance qui en résulte, est proportionnelle à la fréquence des erreurs de classement. Exemples de biais différentiel : - Biais de mémoire dans les études cas-témoin : les cas se souviennent davantage de l’exposition que les témoins D’une façon générale, il est préférable d’avoir des erreurs de classement non différentielles, car le sens du biais est connu, et le manque de précision de l’estimation peut être contrebalancé par une augmentation de l’effectif. Faculté de médecine Paris Descartes Page 58 Enseignement de la lecture critique d’article Comment éviter les biais de classement ? Il convient d’y penser lors la planification de l’étude car après il sera trop tard. " Éviter que les erreurs soient différentielles +++ - Les procédures de suivi, de diagnostic, de recueil d’information doivent être standardisées, objectives et identiques pour E+ et E- (M+ et M-). - Utiliser une procédure d’aveugle à chaque fois que possible, former (contrôler) les enquêteurs - Même délai entre exposition et interrogatoire pour les cas et les témoins " Limiter les erreurs de mesures +++ - Utiliser des définitions les plus précises (valides et reproductibles) possibles pour E et M 1.5.2.3 Biais de confusion Un biais de confusion est lié à la présence d’un (ou plusieurs) facteur de confusion non contrôlé. Un facteur de confusion (confounding factor) est un facteur qui perturbe l’association entre l’exposition au facteur étudié et la maladie. Le biais de confusion est propre aux études observationnelles (car dans les essais contrôlés randomisés, la randomisation permet d’équilibrer les facteurs de confusion connus et inconnus entre les 2 groupes). Pour qu’une variable soit facteur de confusion, il faut que la variable soit liée au paramètre étudié (maladie), soit liée à l’exposition et ne soit pas un facteur intermédiaire. Faculté de médecine Paris Descartes Page 59 Enseignement de la lecture critique d’article Selon le sens de ces relations (positives ou négatives), l’effet de confusion peut conduire à une surestimation ou une sous-estimation de l’association (OR ou RR).. Contrairement aux autres biais (sélection et classement), il est possible de tenir compte des facteurs de confusion lors de l’analyse statistique. En effet, le biais de confusion peut être en partie contrôlé par l’analyse statistique multivariée qui en ajustant sur les facteurs de confusion potentiels permet de corriger l’estimation des OR ou RR. Cette correction peut malheureusement n’être qu’imparfaite, on parle alors de confusion résiduelle (residual confounding). La prise en compte de ces facteurs de confusion dans l’analyse nécessite au préalable que les informations sur ces facteurs de confusion aient été préalablement renseignées. D’autres moyens existent pour prendre en compte un facteur de confusion lors de la planification de l’étude. On peut notamment restreindre la population d’étude à une seule strate du facteur de confusion ou utiliser l’appariement de façon à équilibrer la distribution du facteur de confusion entre le groupe exposé et le groupe non-exposé, afin que le facteur de confusion ne soit plus lié à l’exposition. Par exemple, si l’âge est facteur de confusion, on associe à chaque sujet exposé un sujet non exposé de même classe d’âge. 1.5.3 Quels sont les réflexes à avoir ? Il faut savoir repérer et décrire un biais, c’est-à-dire : • expliquer en quoi c’est un biais • en donner le type (parmi : biais de sélection, biais de classement (ou d’information), biais de confusion, plus quelques biais plus spécifiques de certains types d’articles que nous verrons par la suite), • en donner le sens lorsque c’est possible (surestimation ou sous-estimation, ou bien « dans le sens de la conclusion souhaitée » ou non) • en évaluer l’intensité et l’impact potentiel sur le résultat • déterminer s’il s’agit d’un biais différentiel ou non, c'est-à-dire s’il modifie le résultat de la même façon pour tous les groupes. Faculté de médecine Paris Descartes Page 60 Enseignement de la lecture critique d’article A retenir : les biais peuvent être introduits lors de la conception/le design de l’étude ou lors de son déroulement. Les biais sont classiquement plus importants et nombreux dans les études observationnelles mais il peut y avoir des biais même dans un essai avec tirage au sort, par exemple, en raison d’une méthode de randomisation inadéquate 1.5.4 Définition de la validité interne La validité interne est le fait qu’un résultat observé soit un bon reflet de la réalité et qu’il n’est pas dû à un biais. L’évaluation de la validité interne passe par la la recherche des défauts méthodologiques de l’étude et des biais potentiels. Une étude avec une méthodologie adéquate, permettant de limiter le risque de biais pour les principaux biais évoqués, aura une bonne validité interne. 1.6 Validité externe La validité externe peut se définir comme la transposabilité (applicabilité, généralisabilité) des résultats à la pratique courante. Son évaluation repose sur les éléments suivants : • Caractéristiques des patients inclus dans l’étude : la population de patients inclus dans l’étude correspond-elle à la population de patients à laquelle on appliquera les résultats ? Autrement dit, la population incluse dans l’étude est-elle représentative de la population cible ? Si les patients inclus dans l’essai sont plus jeunes et moins sévères que la population de patients habituellement pris en charge, les résultats de l’essai seront difficilement applicables à la pratique courante. • Caractéristiques des centres : les résultats des études monocentriques sont moins généralisables que les résultats des études multicentriques. Le niveau d’expertise des centres est également à prendre en compte pour évaluer la transposabilité des résultats. Par exemple, si un essai est réalisé dans un centre de référence universitaire avec un volume d’activité important, les résultats ne seront pas Faculté de médecine Paris Descartes Page 61 Enseignement de la lecture critique d’article forcément généralisables à des centres pratiquant moins d’interventions ou avec un plateau technique différent. • Caractéristiques des pays : par exemple, les résultats des études réalisées en Chine ne sont pas forcément généralisables en France. • Caractéristiques des interventions dans les essais : est-il possible de reproduire les interventions évaluées dans l’essai dans notre contexte de soins ? Les interventions sont-elles suffisamment bien décrites pour être reproduites ? 1.7 Niveau de preuve d’une étude Le niveau de preuve d’une étude dépend de l’adéquation de l’étude à la question posée ainsi que de l’existence de biais dans la planification ou la conduite de l’étude. La Haute autorité de santé a établi une classification du niveau de preuve des études et une gradation des recommandations (recommandations de bonne pratique) selon le niveau de preuve des études sur lesquelles les recommandations s’appuient (Tableau 8). Faculté de médecine Paris Descartes Page 62 Enseignement de la lecture critique d’article Tableau 8: Niveaux de preuve scientifique de la littérature et grade des recommandations adaptée de la Haute Autorité de Santé Niveau de preuve Type d'étude Grade des recommandations scientifique fourni par la littérature Niveau 1 - Essais comparatifs randomisés de forte puissance - Méta-analyses d'essais comparatifs randomisés - Analyse de décision fondée sur des études bien GRADE A Preuve scientifique établie menées Niveau 2 - Essais comparatifs randomisés de faible puissance - Études comparatives non randomisées bien GRADE B Présomption scientifique menées Niveau 3 - Études de cohorte - Études cas-témoin GRADE C Niveau 4 - Études comparatives comportant des biais Faible niveau de preuve importants scientifique - Études rétrospectives - Séries de cas - Études épidémiologiques descriptives (transversales, longitudinales) Faculté de médecine Paris Descartes Page 63 Enseignement de la lecture critique d’article 2ème partie : Spécificités des différents types d’articles 2.1 Evaluation d’un test diagnostique 2.2 Evaluation étiologique (évaluation de facteurs de risque) 2.3 Evaluation de facteurs pronostiques 2.4 Evaluation d’une intervention thérapeutique 2.5 Evaluation d’une intervention de dépistage Faculté de médecine Paris Descartes Page 64 Enseignement de la lecture critique d’article 2.1 Evaluation d’un test diagnostique AVANT DE COMMENCER « Le diagnostic est l'art de reconnaître les maladies par leurs symptômes et de les distinguer les unes des autres » (Littré) Avant qu’un nouvel outil diagnostique (nouveau test diagnostique, algorithme ou score diagnostique, signe clinique, etc.), ne puisse être utilisé, il faut montrer : • qu’il a de bonnes performances diagnostiques (permet de discriminer les malades et les non-malades de façon fiable) ! c’est l’objet de ce chapitre • que son utilisation améliore le devenir des patients en pratique courante ! on mène alors un essai randomisé comparant l’évolution clinique d’un groupe de patients bénéficiant de l’outil diagnostique à l’évolution clinique d’un groupe contrôle). Lorsqu’un article traite d’une question diagnostique, il est important d’identifier lequel de ces deux objectifs est traité, car les questions à se poser ne seront pas les mêmes. Les réflexes : • Test de référence • Validité • Fiabilité Faculté de médecine Paris Descartes Page 65 Enseignement de la lecture critique d’article 2.1.1 Formulation de l’objectif L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les différents éléments du PECO où le P représente la population concernée; le E, le test à évaluer; le C, le test de référence et le O, le critère de jugement c'est-à-dire ce qu’on cherche à diagnostiquer. Par exemple, évaluer la performance diagnostique de la palpation manuelle (E) par rapport à l’échographie (C) pour diagnostiquer des présentations non-céphaliques (O) chez des femmes en fin de grossesse (P). 2.1.2 Type d’étude Les études diagnostiques peuvent faire appel à des études transversales ou de cohorte selon qu’il faut que les individus soient suivis dans le temps. 2.1.3 Population d’étude La population de l’étude doit être proche de la population à laquelle seront appliqués les résultats de l’étude. En effet, le test peut être très performant dans un contexte mais beaucoup moins dans un autre. Si la population d’étude comporte soit des patients trop malades soit trop peu malades, il y a un risque de biais de sélection appelé ici biais de spectre. De plus, les résultats seront difficilement transposables à la pratique clinique courante. 2.1.4 Choix du test de référence Il s’agit d’un élément très important à évaluer. Le test de référence est le test qui va permettre d’identifier véritablement les malades et les non-malades et d’évaluer la performance diagnostique du test évalué (en Anglais, diagnostic accuracy). Il doit donc être incontestable pour différencier les personnes malades des non-malades et préalablement validé. On l’appelle également gold standard. Faculté de médecine Paris Descartes Page 66 Enseignement de la lecture critique d’article 2.1.5 Réalisation des tests (test à évaluer et test de référence) - les 2 tests (test à évaluer et test de référence) doivent être réalisés chez tous les patients La réalisation de l’examen de référence uniquement chez les patients avec un résultat positif du test à évaluer surestime les performances diagnostiques du test. Il y a un risque de biais de vérification (work up bias). - les 2 tests doivent être réalisés de manière standardisée - les 2 tests doivent être interprétés indépendamment l’un de l’autre (la personne qui évalue le nouveau test doit être en aveugle des résultats de l’examen de référence) Sinon il y a un risque de biais de classement 2.1.6 Evaluation de la performance diagnostique d’un test 2.1.6.1 Mesure de la validité d’un test diagnostique Un test diagnostique est valide s’il mesure bien ce qu’il est sensé mesuré. Les principaux indicateurs de la validité d’un test sont la sensibilité, la spécificité, les valeurs prédictives positives et négatives et les rapports de vraisemblance positifs et négatifs. Leur définition doit être connue. Il est fortement recommandé de refaire un tableau de contingence Tableau 9 : Tableau de contingence type pour l'analyse des résultats d'une étude diagnostique Test de référence positif Test de référence négatif (malades) (non malades) Test évalué positif Vrais positifs (VP) Faux positifs (FP) Test évalué négatif Faux négatifs (FN) Vrais négatifs (VN) Faculté de médecine Paris Descartes Page 67 Enseignement de la lecture critique d’article T+ T- M+ VP FN M- FP VN Tableau 10 : Rappel de la définition des différents paramètres permettant d’évaluer la validité d’un test Faculté de médecine Paris Descartes Page 68 Faculté de médecine Paris Descartes VPN Valeur prédictive négative Probabilité de ne pas être malade (M-) si on a un test négatif (T-) Probabilité d'être malade (M+) si on a un test positif (T+) VP=Vrais Positifs ; VN=Vrais Négatifs ; FP=Faux Positifs ; FN=Faux Négatifs VPP Valeur prédictive positive Rapport entre les probabilités d'avoir un test négatif RV- ou RVN chez les malades d'une part, chez les non-malades d'autre part Rapport de vraissemblance négatif P(M-/T-) = VN / (VN + FN) P(M+/T+) = VP / (VP + FP) P(T-/M+) / P(T-/M-) = (1 - Se) / Sp P(T+/M+) / P(T+/M-) = Se / (1 - Sp) P(T-/M-) = VN / (VN + FP) Probabilité d'avoir un test négatif (T-) si on n'est pas malade (M-) Rapport entre les probabilités d'avoir un test positif RV+ ou RVP chez les malades d'une part, chez les non-malades d'autre part Sp Spécificité P(T+/M+) = VP / (VP + FN) Calcul Probabilité d'avoir un test positif (T+) si on est malade (M+) Définition Rapport de vraissemblance positif Se Notation Sensibilité Nom du paramètre VN + FN = nombre total de sujets ayant un test négatif La VPN dépend de la Se, SP et de la prévalence de la maladie VP + FP = nombre total de sujets ayant un test positif La VPP dépend de la Se, SP et de la prévalence de la maladie Le sujet a RVN fois plus de risque d'avoir un test négatif s'il est malade que s'il ne l'est pas. Le sujet a RVP fois plus de risque d'avoir un test positif s'il est malade que s'il ne l'est pas VN + FP = nombre total de sujets qui ne sont pas malades VP + FN = nombre total de sujets malades Remarque Enseignement de la lecture critique d’article Page 69 Enseignement de la lecture critique d’article • Indicateurs de validité indépendants de la prévalence de la maladie : o Sensibilité o Spécificité o Rapport de vraisemblance positif (RVP) o Rapport de vraisemblance négatif (RVN) Remarque : Souvent, lorsque la sensibilité d’un test donné augmente, la spécificité diminue et vice-versa. C’est une question de seuil pour lequel on définit la positivité du test. Interprétation d’un rapport de vraisemblance Un test positif est RVP fois plus fréquent chez les malades que chez les non-malades. Par exemple, si le RVP =8 cela signifie qu’il y a 8 fois plus de chance d’avoir un test positif lorsque la personne est malade que lorsqu’elle n’est pas malade. Un test négatif est 1/RVN plus fréquent chez les non-malades que chez les malades. Par exemple, si le RVN est=0.25, cela signifie qu’il y a 4 fois plus de chance de présenter un test négatif si la personne n’est pas malade que si la personne est malade. Tableau 11 : Interprétation des rapports de vraisemblance positif et négatif RVP RVN Propriété discriminante >10 <0.1 importante 5-10 0.1-0.2 modérée 2-5 0.2-0.5 faible 1-2 0.5-1 Très faible Faculté de médecine Paris Descartes Page 70 Enseignement de la lecture critique d’article Plus le RVP est élevé, plus on aura confiance dans le résultat d’un test positif pour confirmer le diagnostic. Plus le RVN est faible, plus on aura confiance dans le résultat d’un test négatif pour éliminer le diagnostic. • Indicateurs de validité dépendants de la prévalence de la maladie : o Valeur prédictive positive (VPP) o Valeur prédictive négative (VPN) Remarque : La VPP et la VPN dépendent de la prévalence de la maladie dans la population car elles dépendent de la probabilité que le patient soit malade. En effet, si on imagine une population fictive où la moitié est malade, la probabilité que le patient soit malade sera élevée, quel que soit le résultat du test ! donc la VPP sera élevée et la VPN faible. On peut faire le raisonnement inverse si la maladie est rare. Cas d’un test donnant un résultat sur une échelle quantitative continue La distribution des valeurs du test dans un échantillon de sujets malades et dans un échantillon de sujets non-malades peut être représentée comme dans la figure ci-dessous. La fixation d’un seuil de normalité S (ou ligne de partage) définit la répartition des vrais positifs, vrais négatifs, faux positifs et faux négatifs. Le déplacement de la ligne de partage du test modifie les proportions de VP, VN, FP, FN. Faculté de médecine Paris Descartes Page 71 Enseignement de la lecture critique d’article Sujets non malades Sujets malades VN VP FN FP S Valeurs du Test La représentation graphique des points définis par le couple sensibilité en ordonnée et taux de faux positifs (1 – spécificité) en abscisse, variant pour tous les seuils possibles du test, permet de construire une courbe ROC (Receiving Operating Curve). Cette courbe présente l’avantage de rendre compte des propriétés diagnostiques intrinsèques (sensibilité et spécificité) d’un test à réponse quantitative continue, quelque soit le seuil choisi pour définir une réponse normale (négative) ou anormale (positive). Plus la courbe s’étire vers le haut à gauche, plus elle a tendance à passer par un point d’abscisse 0 et d’ordonnée 1, ce qui signifie qu’il existe un seuil du test pour lequel la sensibilité et la spécificité se rapprochent de 100%. Inversement, si la courbe se rapproche de la diagonale, cela signifie que pour un plus grand nombre de seuils possibles, la sensibilité est égale à (1 – spécificité), ce qui équivaut à un rapport de vraisemblance positif = 1, donc un test non discriminant, dont le gain par rapport à la probabilité pré-test est nul. Faculté de médecine Paris Descartes Page 72 Enseignement de la lecture critique d’article Construction d’une Courbe ROC M+ 1 p1> S VP FP p1 ≤ S FN VN M+ M- 0,8 Seuil = 0,6 Sensibilitéé Sensibilit 0,6 Seuil = 0,4 M- p1> S VP FP p1 ≤ S FN VN M+ M- p1> S VP FP p1 ≤ S FN VN Seuil = 0,2 Seuil = 0,4 0,4 Seuil = 0,2 0,2 0 0 0,2 0,4 0,6 0,8 Seuil = 0,6 1 1- Spé Spécificité cificité (taux de faux positifs) Sensibilitéé Sensibilit Signification de l’aire sous la courbe ROC (AUC) 1 Discrimination 0,8 parfaite : ___ 0,4 Exemple : ……. AUC = 0,8 0,2 Pas de discrimination : - - - - AUC = 0,5 0,6 0 0 0,2 0,4 0,6 0,8 AUC = 1 1 1- Spé Spécificité cificité (taux de faux positifs) L’estimation de l’aire sous la courbe ROC est donc un bon indicateur de la performance discriminante (ou validité) du test. Plus cette aire est proche de 1, plus le test est discriminant. La comparaison des aires sous la courbes ROC de 2 tests diagnostiques est une bonne méthode pour comparer leur performance, en s’affranchissant du choix d’un seuil. Faculté de médecine Paris Descartes Page 73 Enseignement de la lecture critique d’article 2.1.6.2 Mesure de la fiabilité d’un test diagnostique La fiabilité d’un test correspond à son caractère reproductible. Un test diagnostique est fiable s’il donne le même résultat lorsqu’il est répété, par des opérateurs différents, dans des conditions différentes. C’est particulièrement important lorsque l’interprétation d’un test est subjective ou « opérateur-dépendante » (par exemple en imagerie ou en anatomopathologie). Le Coefficient kappa est le pourcentage de concordance prenant en compte la concordance due au hasard. Son calcul nécessite d’évaluer la concordance inter-opérateur (Tableau 12). Le coefficient kappa va de -1 (les 2 opérateurs sont en désaccord total) à 1 (les opérateurs sont en accord total). Il est habituellement admis que le coefficient kappa est « bon » au-dessus de 0,80 et « correct » entre 0,60 et 0,80, mais selon l’utilisation clinique du test, on pourra exiger une fiabilité plus ou moins importante. Tableau 12 : Mesure de la concordance Test par opérateur 2 positif Test par opérateur 1 positif C1 Test par opérateur 1 négatif NC2 Test par opérateur 2 négatif NC1 C2 C1+C2 : Nombre de tests concordants ; NC1+NC2 = nombre de tests non concordants Cas d’un test donnant un résultat sur une échelle quantitative continue Il est important de ne pas confondre corrélation et concordance de 2 mesures. Il existe une bonne corrélation entre 2 mesures lorsque l’association entre les 2 mesures peut être représentée par une fonction linéaire de la forme Y =aX+b. Une bonne corrélation n’implique donc pas forcément une bonne concordance (Y = X). La concordance des deux méthodes de mesure peut être évaluée graphiquement par : 1) la représentation des valeurs de X en abscisse et de Y en ordonnée : Faculté de médecine Paris Descartes Page 74 Enseignement de la lecture critique d’article Y Y Y X X X Moyennes voisines, mais Bonne corrélation Bonne concordance corrélation et (Y= aX+b) mais mauvaise (Y = X) concordance mauvaises concordance Exemple : Dans un échantillon de patients, on obtient pour chaque patient deux mesures de la pression artérielle obtenue l’une par un médecin avec un manomètre à mercure (Yi), l’autre obtenue par les patients avec un appareil automatique d’auto-mesure (Xi). (d’après Little et al. BMJ 2002 ; 325 :254) 2) la représentation de la différence d = X-Y (en ordonnée) rapportée à la moyenne des deux mesures (en abscisse) (diagramme de Bland et Altman). Ce graphe permet de visualiser : - un écart par rapport à 0, de la différence moyenne entre les 2 mesures (cet écart est de +18.9 dans l’exemple ci-dessous) Faculté de médecine Paris Descartes Page 75 Enseignement de Lecture Critique d’Article - Une corrélation entre la différence des deux mesures et leur moyenne (test r de Spearman dans l’exemple ci-dessous) (d’après Little et al. BMJ 2002 ; 325 :254) Cas où la différence dépend fortement de la taille des mesures, sans relation de proportionnalité Cas d'une différence proportionnelle (plus importante pour les valeurs hautes) Cas d'une différence systématique absolue (observée quelque soit les valeurs de mesures Faculté de médecine Paris Descartes Page 76 Enseignement de Lecture Critique d’Article 2.1.7 Rappels des différents biais pouvant affecter une étude d’évaluation diagnostique Tableau 13 : Rappel des principaux biais dans une étude diagnostique Nom du biais A quoi ça correspond ? Que faut-il vérifier ? Biais de spectre Il s’agit d’un biais de sélection La population de l’étude doit être proche de la Les patients étudiés ne population à laquelle reflètent pas l’ensemble des seront appliqués les patients concernés résultats de l’étude. Biais de vérification (workup bias) Seuls les individus avec un test Tous les individus doivent avoir les 2 tests : à l’étude positif ont le test de le test à l’étude et le test référence de référence Surestime la performance diagnostique du test Biais de classement Le même évaluateur évalue le résultat des 2 tests. Il est influencé par le résultat de la première évaluation Les résultats du test à évaluer et du test de référence doivent être interprétés indépendamment l’un de l’autre 2.1.8 Recommandations pour rapporter un article diagnostique Checklist STARD pour rapporter les résultats des études de performance diagnostique (version Janvier 2003) Faculté de médecine Paris Descartes Page 77 Enseignement de Lecture Critique d’Article Section et thème TITRE/RESUME/ MOTS-CLEFS INTRODUCTION METHODES Participants Méthodes des tests Item Description N° 1 Identifier l’article comme une étude sur la justesse d’une méthode diagnostique (recommander les mots clefs MeSH ‘sensitivity et specificity’) 2 Qualifier les questions posées ou les buts de l’étude, telles que l’estimation de la justesse d’un test diagnostique ou la comparaison de la justesse diagnostique de deux (ou plusieurs) tests ou de plusieurs groupes de sujets Décrire : 3 la population étudiée : les critères d’inclusion et de non-inclusion, la mise en œuvre, l’endroit où les données ont été collectées 4 le recrutement des participants : était-il fondé sur des symptômes, des résultats de tests antérieurs ou sur le fait que le nouveau test ou le test de référence a été réalisé chez les participants ? 5 l’échantillonnage des participants : s’agissait-il d’une série de cas consécutifs définie par des critères de sélection issus des items 3 et 4 ? Si non, spécifier la façon dont les patients ont été sélectionnés. 6 la collecte des données : le recueil des données a-t-il été planifié avant que le nouveau test et le test de référence aient été réalisés (étude prospective) ou après (étude rétrospective) ? 7 Le test de référence et son rationnel 8 9 10 11 Méthodes statistiques 12 13 RESULTATS Participants 14 15 16 Résultats du test 17 les spécifications techniques du matériel et des méthodes concernées, y compris comment et quand les mesures ont été réalisées et/ou citer les références utilisées pour le nouveau test et pour le test de référence la définition et le rationnel pour les unités, les seuils et/ou les catégories utilisées pour exprimer les résultats du nouveau test index et du test de référence le nombre, le degré d’entraînement et d’expertise des personnes (a) exécutant et (b) lisant les résultats du nouveau test et du test de référence oui ou non les évaluateurs du nouveau test, respectivement du test de référence, ont-ils réalisé en aveugle (masqués) la lecture de l’un, et de l’autre test ; ont-ils décrit toute autre information clinique dont ils disposaient les méthodes de calcul ou de comparaisons des mesures de justesse diagnostique et les méthodes statistiques utilisées pour quantifier l’incertitude (par ex. intervalles de confiance à 95%) Méthodes de calcul de la reproductibilité du test, le cas échéant Notifier : quand l’étude a été réalisée, incluant les dates de début et de fin du recrutement les caractéristiques cliniques et démographiques (par ex. âge, sexe, type de symptômes, comorbidité, traitement(s) actuel(s), centre(s) de recrutement) combien de participants satisfaisant les critères d’inclusion ont, ou n’ont pas eu le nouveau test et/ou le test de référence; décrire pourquoi les participants n’ont pas eu l’un ou l’autre test (un diagramme de flux est fortement recommandé) l’intervalle de temps entre la réalisation du nouveau test et celle du test de référence et l’administration éventuelle d’un traitement entre temps Faculté de médecine Paris Descartes Page 78 Enseignement de Lecture Critique d’Article Section et thème Estimations DISCUSSION Item Description N° 18 la distribution de la sévérité de la maladie (définir les critères) chez ceux qui présentent l’affection étudiée ; décrire les autres diagnostics pour les participants ne présentant pas l’affection étudiée 19 un tableau croisé des résultats du nouveau test (incluant les données manquantes ou indéterminées) selon les résultats du test de référence; pour les résultats de variables continues, décrire la distribution des résultats du nouveau test selon les résultats du test de référence 20 les effets indésirables du nouveau test et du test de référence 21 les estimations de la précision diagnostique et des mesures d’incertitude statistiques (i.e. intervalles de confiance 95%) 22 comment ont été pris en compte les résultats imprécis, les réponses manquantes, et les “outliers” du nouveau test 23 les estimations de la variabilité de la précision diagnostique entre sousgroupes de participants, évaluateurs ou centres, le cas échéant 24 les estimations de la reproductibilité, le cas échéant 25 Discuter de l’applicabilité clinique des résultats de l’étude Traduction de la grille de lecture proposée dans le cadre de l’initiative STARD : Standards for Reporting of Diagnostic Accuracy. [http://www.consort-statement.org/stardstatement.htm] P. Landais (2005). Faculté de médecine Paris Descartes Page 79 Enseignement de Lecture Critique d’Article 2.2 Evaluation étiologique AVANT DE COMMENCER Les études étiologiques évaluent l’association entre l’exposition à un ou plusieurs facteurs de risque et la survenue d’une maladie. Les études étiologiques sont des études observationnelles qui font appel à 2 grands-types d’étude : les études de cohorte et les études cas-témoin. Les réflexes • Etudes cas-témoin : - Sélection des cas - Choix des témoins - Recueil des facteurs de risque : biais de mémoire • Etudes de cohorte - Suivi dans les études de cohorte prospective - Données manquantes dans les cohortes rétrospectives • Prise en compte des facteurs de confusion Analyse multivariée • La causalité ne peut pas être affirmée par une seule étude observationnelle (une différence statistiquement significative n’est pas synonyme de lien causal) - Critères de Hill Faculté de médecine Paris Descartes Page 80 Enseignement de Lecture Critique d’Article 2.2.1 Formulation de l’objectif L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les différents éléments du PECO où le P représente la population concernée; le E, le ou les facteurs de risque étudiés; le C est souvent sous-entendu et représente l’absence de facteur de risque et le O, la maladie. Par exemple : évaluer si l’hypercholestolémie (E) est un facteur de risque de maladie d’Alzheimer (O) chez les personnes de plus de 50 ans (P) (sous entendu par rapport à une absence d’hypercholestérolémie (C). 2.2.2 Type d’étude 2.2.2.1 Choix entre étude cas-témoin et étude de cohorte Le choix entre cohorte et cas-témoin dépend de la question posée. Chaque type d’étude présente des avantages et des inconvénients. Tableau 14 : Avantages et inconvénients des études de cohorte et cas-témoin COHORTE Avantages CAS-TEMOIN - Adaptée aux expositions rares - Adaptée aux maladies rares - Etude possible de plusieurs - Etude possible de plusieurs maladies - Estimation possible de l’incidence de la maladie - Calcul du risque relatif - La temporalité entre exposition et maladie peut être étudiée expositions - Rapidité - Adaptée aux maladies avec un long délai d’apparition depuis l’exposition (délai de latence important) - Parfois les seules réalisables - Biais de classement (biais de précisément - Risque de biais de sélection moindre Inconvénients - Perdus de vue - Nécessite souvent un échantillon de grande taille Faculté de médecine Paris Descartes mémoire lié au recueil de données rétrospectif) Page 81 Enseignement de Lecture Critique d’Article - Durée de l’étude longue - Souvent impossibilité d’étudier plusieurs expositions - - Choix des témoins difficile (biais de sélection potentiel) - Peu adapté pour les expositions rares Peu adaptée aux maladies rares - On ne peut estimer la prévalence de la maladie* Mesure l’association de On ne peut pas estimer de RR RR OR OR (RR impossible) *car c’est le chercheur qui décide du nombre de cas et de témoins à inclure. 2.2.2.2 Principe des études de cohorte et cas-témoin Dans les études de cohorte, on recrute des sujets indemnes de la maladie qui sont exposés à un ou des facteurs de risque et on les suit dans le temps afin d’évaluer s’ils deviennent malades. Une étude de cohorte peut être prospective ou rétrospective (on parle également de cohorte historique). Cette notion fait habituellement référence à la temporalité du recueil de données. Dans une cohorte rétrospective, la cohorte est reconstituée rétrospectivement à partir de données déjà recueillies (par exemple dans les dossiers médicaux). Ce schéma est intéressant pour les maladies ayant un long délai de latence, comme les cancers ou la maladie d’Alzheimer. Cependant, il faut que la qualité des données recueillies soit bonne sinon il y a aura un nombre important de données manquantes. Dans les études cas-témoin, on recrute des malades et des témoins indemnes de la maladie et on recherche dans le passé des sujets s’ils ont été exposés à certains facteurs de risque. Une étude cas-témoin est rétrospective. Faculté de médecine Paris Descartes Page 82 Enseignement de Lecture Critique d’Article Figure 14 : Différences entre études de cohorte prospective et rétrospective et études castémoin Exemple de cohorte rétrospective: Dans une étude évaluant l’association entre le type de ventilation (ventilation non invasive ou ventilation mécanique) et la mortalité chez des patients hospitalisés en réanimation pour une décompensation de BPCO, les auteurs ont cherché rétrospectivement dans les dossiers tous les patients hospitalisés pour une décompensation de BPCO ayant nécessité une ventilation non invasive ou mécanique. Ils ont recueilli leurs données et ont évalué ensuite leur devenir (décès ou non). Il existe un cas particulier : l’étude cas-témoin niché dans une cohorte : les cas et les témoins sont issus d’une cohorte existante. Le principal avantage est que les données sont déjà disponibles et qu’elles ont été recueillies de façon prospective. Il est cependant fréquent Faculté de médecine Paris Descartes Page 83 Enseignement de Lecture Critique d’Article d’avoir besoin d’informations complémentaires, non renseignées dans la cohorte initiale. On procède alors à un recueil rétrospectif de ces données, en contactant les patients et/ou en retournant au dossier médical. 2.2.3 Particularités des études de cohorte 2.2.3.1 Choix de la population Il existe deux possibilités pour le choix de la population: • Les cohortes en population : L’échantillon peut être plus ou moins représentatif de la population cible. Pour avoir un échantillon représentatif, l’idéal est de procéder par sondage à partir d’une population source correspondant à la population cible. • Les cohortes exposés-non-exposés où l’on recrute en fait deux cohortes : une cohorte d’individus exposés à un facteur de risque et une cohorte d’individus nonexposés au facteur de risque. Ces deux cohortes vont être suivies dans le temps et doivent avoir un suivi similaire. Ce type d’étude ne permet pas d’évaluer simultanément plusieurs facteurs de risque. Ce type d’étude est à privilégier quand l’exposition est rare et l’évènement relativement fréquent. Les cohortes exposésnon-exposés sont adaptées à l’étude de facteurs de risque professionnels (par exemple, l’exposition à l’amiante). 2.2.3.2 Recueil des facteurs de risque Dans une étude de cohorte prospective, le recueil des facteurs de risque se fait au moment de l’entrée dans l’étude et éventuellement pendant le suivi. Si l’exposition au facteur de risque n’est recueillie qu’au début, cela peut poser problème car celle-ci peut varier au cours du temps (par exemple si le facteur de risque est la consommation de tabac). Dans une étude de cohorte rétrospective, les données concernant l’exposition à des facteurs de risque ont déjà été collectées (dans les dossiers médicaux ou dans des registres). Dans ce cas, il est très important de vérifier la qualité du recueil des données. S’il y a des données manquantes ou si un facteur de confusion important n’a pas été collecté, cela va poser problème. Faculté de médecine Paris Descartes Page 84 Enseignement de Lecture Critique d’Article 2.2.3.3 Recueil de la maladie (critère de jugement) Le plus souvent, il s’agira d’un critère dont la mesure peut être subjective (cancer, infarctus du myocarde,…). Il y a donc un risque : - De biais de classement (différentiel) si l’évaluation de la maladie n’est pas faite en aveugle de l’exposition au facteur de risque - De variabilité et d’erreur de mesure entre les évaluateurs (on parle d’erreur non différentielle). Pour limiter cela et améliorer la reproductibilité, il faut standardiser la définition de la maladie, former les évaluateurs, faire une évaluation en double voire centralisée avec un comité indépendant. 2.2.3.4 Suivi et problème des données manquantes dans les études de cohorte prospective Quel que soit le type d’étude de cohorte, le suivi des sujets exposés doit être identique au suivi des sujets non-exposés. Dans les études de cohorte prospective, il faut définir une durée de suivi suffisante pour pouvoir observer la maladie. Cette durée peut être longue et pose le problème des perdus de vue c'est-à-dire des patients pour lesquels il n’y a pas de données concernant leur suivi. Dans les analyses, il faudra vérifier les caractéristiques des patients perdus de vue et la durée médiane de suivi rapportée, et apprécier ainsi l’influence potentielle de la proportion de perdus de vue sur les critères de jugement. o Si les perdus de vue se répartissent également dans les groupes en nombre et caractéristiques et ne concernent pas une catégorie particulière de patients, la seule conséquence sera une perte de puissance. C’est rare car le plus souvent si on est perdu de vue ce n’est pas pour rien… (rupture de soins et/ou mauvaise observance, etc.) o S’il y a plus de perdus de vue dans un groupe que dans l’autre, ou si les sujets perdus de vue ont des caractéristiques spécifiques, on risque, outre la perte de puissance, un biais d’attrition. Faculté de médecine Paris Descartes Page 85 Enseignement de Lecture Critique d’Article o L’influence de la proportion de perdus de vue dépend de la fréquence de survenue de l’événement étudié. Si le nombre de perdus de vue dépasse le nombre d’évènements, cela pose problème. 2.2.4 Particularités des études cas-témoin 2.2.4.1 Population d’étude La sélection des cas et des témoins doit être indépendante des facteurs de risque étudiés. Le recrutement des cas et des témoins doit se faire sans connaître leurs éventuelles expositions à des facteurs de risque • Sélection des cas Les cas doivent être représentatifs de la population de malades. Il faut distinguer les cas incidents et les cas prévalents. Les cas incidents sont inclus dans l’étude quand ils deviennent malades. Dans ce cas de figure, on ne recrute que les nouveaux malades.. Les cas prévalents sont déjà malades avant d’être inclus dans l’étude. Dans ce cas de figure, on recrute tous les malades à un moment donné c'est-à-dire ceux qui ont survécu jusque là. Cela conduit à un biais de sélection particulier : le biais de survie sélective. Il faut donc privilégier le recrutement de cas incidents. • Choix des témoins Le choix des témoins doit être indépendant de l’exposition. Idéalement, le groupe de témoins doit être représentatif de l’ensemble des sujets nonmalades de la population source d’où est issu le groupe de malades étudiés. Il est difficile de choisir la population de témoins, il existe plusieurs possibilités : témoins issus de la population, témoins hospitalisés, témoins familiaux. Chaque choix présente des avantages et des inconvénients. Faculté de médecine Paris Descartes Page 86 Enseignement de Lecture Critique d’Article Tableau 15: Avantages et inconvénients des différents types de témoins Témoins Témoins Témoins famille hospitalisés population Accès Facile Difficile et coûteux Facile Motivation Forte ( malades ) Faible ( bonne santé) Forte Taux de Élevé Faible Elevé Important Limité Important réponse Biais de sélection Exemple : Le choix de témoins hospitalisés dans une étude cas-témoin peut être une source de biais de sélection : si on veut étudier le lien entre tabagisme et risque d’infarctus du myocarde et que pour cela on compare des patients hospitalisés en cardiologie avec des patients de cancérologie, on risque de ne pas voir d’association car de nombreux patients de cancérologie sont également fumeurs et à haut risque d’infarctus. 2.2.4.2 Recueil des facteurs de risque Le recueil des facteurs de risque est rétrospectif et soumis à un biais de classement particulier le biais de mémoire. Ce biais est différentiel c'est-à-dire que les cas vont avoir tendance à exagérer leur exposition à un facteur de risque et les témoins à la minimiser. Faculté de médecine Paris Descartes Page 87 Enseignement de Lecture Critique d’Article Exemple : Par exemple, si on étudie le lien entre l’exposition à un médicament A et le risque de fausse couche spontanée (FCS), les femmes ayant fait une FCS se souviendront mieux avoir pris le médicament A que les femmes n’ayant pas fait de FCS, car il s’agit d’un événement traumatisant. 2.2.5 Prise en compte des facteurs de confusion potentiels Afin d’isoler le rôle intrinsèque du facteur étudié sur la survenue de la maladie, il faut mesurer l’association qui existe entre ce facteur et le critère de jugement, indépendamment des autres facteurs potentiellement impliqués. Il faut donc prendre en compte les facteurs de confusion potentiels. • Prise en compte a priori : l’appariement Il s’agit de sélectionner des paires de sujets qui sont comparables sur une ou deux caractéristiques. Cela se fait fréquemment dans les études cas-témoin dans lesquelles les cas et les témoins sont appariés sur l’âge et le sexe. Cela signifie que chaque fois que l’on va inclure un cas on va inclure un témoin de même sexe et de même âge (appariement sur le sexe et l’âge). Le nombre de facteurs d’appariement est limité. • Prise en compte a posteriori : l’ajustement Il s’agit de réaliser un modèle de régression logistique multivarié prenant en compte les facteurs de confusion. On estimera alors un OR ajusté sur les facteurs de confusion et autres facteurs de risque. Faculté de médecine Paris Descartes Page 88 Enseignement de Lecture Critique d’Article 2.2.6 Interprétation des résultats Les résultats principaux sont les résultats de l’analyse multivariée car ils prennent en compte les facteurs de confusion. Exemple : Figure 15 : Interprétation du résultat d’une étude étiologique Dans cet exemple : • Il n’y a pas d’association statistiquement significative entre le facteur 1 et la maladie. L’OR est à 1.80 avec un IC à 95% de 0.90 à 3.60 qui contient la valeur 1 (p>0.05). • Il y a une association statistiquement significative entre le facteur 2 et la maladie car l’IC à 95% ne contient pas la valeur 1 (1.80-5.90) et il s’agit d’un facteur de risque car l’OR est plus grand que un (3.30). Si la prévalence de la maladie est faible, on peut dire que les individus exposés au facteur 2 ont 3.3 fois plus de risque de développer la maladie que les individus non exposés. • Il y a une association statistiquement significative entre le facteur 3 et la maladie car l’IC à 95% ne contient pas la valeur 1 (0.20-0.60) et il s’agit d’un facteur protecteur car l’OR est plus petit que 1 (0.30). Faculté de médecine Paris Descartes Page 89 Enseignement de Lecture Critique d’Article 2.2.7 Causalité Il faut bien différencier association statistiquement significative et lien causal. Ce n’est pas parce qu’on a montré une association statistiquement significative entre un facteur et un critère de jugement qu’il y a un lien causal ! La seule manière d’affirmer un lien de causalité, c’est de comparer des groupes qui ne diffèrent que par l’exposition ou non à l’élément soumis à évaluation, c’est-à-dire comparables sur toutes les autres caractéristiques. Ainsi, toute différence observée entre les groupes sera imputable à l’élément soumis à évaluation. Seul un essai contrôlé randomisé, s’il est bien conduit, permet d’affirmer un lien causal car la randomisation permet d’obtenir des groupes comparables pour tous les facteurs de confusion connus ou inconnus. Une seule étude observationnelle ne permet pas de conclure à un lien de causalité. Certains éléments s’ils sont présents sont cependant en faveur d’un lien causal. Ces éléments ont été décrits par Sir Bradford Hill Critères de Hill • Critères internes à l’étude o Existence d’une association statistique entre l’exposition et la maladie o Forte intensité de l’association o Existence d’une relation de type “dose-effet” entre l’exposition et la maladie o Spécificité de la relation entre l’exposition et la maladie o Minimisation des biais de sélection et de classement. Prise en compte correcte de l’ensemble des facteurs de confusion connus. o Absence d’ambiguïté temporelle (l’exposition doit précéder la maladie) • Critères externes à l’étude o Concordance entre les résultats d’études Faculté de médecine Paris Descartes Page 90 Enseignement de Lecture Critique d’Article o Plausibilité biologique (au mieux, explication physiopathologique) o Concordance avec les expérimentations menées in vitro ou chez l’animal o Gradients géographiques parallèles de l’exposition et de la maladie o Diminution de l’incidence de la maladie lorsque l’exposition est supprimée ou réduite Remarque : Le critère « spécificité de la relation» est de moins en moins pertinent car on sait aujourd’hui qu’un effet résulte souvent de plusieurs causes intriquées (composantes causales) : facteurs environnementaux, comportementaux, génétiques, etc. 2.2.8 Rappels des biais dans les études étiologiques Tableau 16: Principaux biais dans une étude étiologique Nom du biais A quoi ça correspond ? Comment limiter le risque de biais ? Biais de sélection Etudes de cohorte : Etudes de cohorte : Sélection d’une population non représentative de la population d’intérêt Sélection d’une population représentative de la population d’intérêt Etudes cas-témoin : Etudes cas-témoin : Mauvaise définition des cas Définition standardisée des cas Sélection des témoins non indépendante de l’exposition Sélection des témoins indépendante de l’exposition Il s’agit d’une forme de biais de sélection qu’on retrouve dans les études cas témoins Sélection de cas incidents Biais de survie sélective Sélection de cas prévalents Biais de classement Etudes de cohorte : Etudes de cohorte : L’évaluateur peut être influencé s’il connaît le statut exposé/non exposé du patient vis à vis du Evaluation du critère de jugement en aveugle du statut exposé ou non exposé Faculté de médecine Paris Descartes Page 91 Enseignement de Lecture Critique d’Article facteur de risque Biais de mémoire Il s’agit d’une forme de biais de classement qu’on retrouve dans les études cas témoins. Les cas ont tendance à majorer leur exposition à des facteurs de risque et les témoins à les minimiser Les sujets sont en aveugle des hypothèses Evaluation d’après des données recueillies de manière objective Biais de confusion Liés à des facteurs de confusion dans la relation facteur de risquemaladie Analyse multivariée avec ajustement et éventuellement appariement sur les facteurs de confusion Biais d’attrition Etudes de cohorte prospective : Limiter au maximum les perdus de vue liés aux perdus de vue et à leur exclusion de l’analyse Imputer les données manquantes Remarque : La définition des groupes de comparaison peut être source de biais différents selon les études. Dans une étude cas témoins, le mauvais choix des cas ou des témoins peut être source de biais de sélection. Dans une étude exposés/non-exposés (où l’on recrute séparément les sujets exposés et non-exposés), le mauvais choix des exposés ou des nonexposés peut de la même façon être source de biais de sélection. En revanche, dans le cas (fréquent) d’une étude de cohorte dans laquelle on va mesurer l’exposition et définir ainsi les groupes de comparaison, une erreur de mesure de l’exposition sera une source potentielle de biais de…classement ! Faculté de médecine Paris Descartes Page 92 Enseignement de Lecture Critique d’Article 2.2.9 Recommandations pour rapporter une étude étiologique Checklist STROBE des informations à inclure pour rendre compte des résultats d’études observationnelles (trad. A. Rachas, juin 2013) Section Titre et résumé Item N° 1 Description (a) Indiquer le type d’étude avec des termes courants, dans le titre ou le résumé (b) Fournir un résumé informatif et équilibré de ce qui a été fait et ce qui a été trouvé Introduction Contexte/rationnel 2 Expliquer le contexte scientifique et le rationnel de l’investigation rapportée Objectifs 3 Présenter les objectifs spécifiques et les hypothèses de travail Méthodes Type d’étude 4 Présenter précocement les éléments-clefs du type d’étude Contexte d’étude 5 Décrire le contexte, les lieux et dates d’intérêt, notamment les périodes de recrutement, d’exposition, de suivi et de recueil de données Participants 6 (a) Etude de cohorte — présenter les critères d’éligibilité et les sources et méthodes de sélection des sujets. Décrire la méthode de suivi des sujets. Etude cas-témoin — présenter les critères d’éligibilité et les sources et méthodes de diagnostic des cas et de sélection des témoins. Expliquer le rationnel du choix des cas et des témoins Etude transversale — présenter les critères d’éligibilité et les sources et méthodes de sélection des sujets (b) Etude de cohorte — en cas d’appariement, donner les critères d’appariement et le nombre d’exposés et de non-exposés Etude cas-témoin — en cas d’appariement, donner les critères d’appariement et le nombre de témoins par cas Variables 7 Définir clairement tous les critères de jugement, expositions, facteurs prédictifs, facteurs de confusion potentiels et facteurs d’interaction. Préciser les critères diagnostiques, le cas échéant. Source de données / mesure 8* Pour chaque variable d’intérêt, préciser les sources de données et les détails sur les méthodes d’évaluation (mesure). Décrire la comparabilité des méthodes d’évaluation s’il y a plus d’un groupe. Biais 9 Décrire toute mesure prise pour éviter les sources de biais Taille de l’échantillon 10 Préciser la taille de l’échantillon obtenu Faculté de médecine Paris Descartes Page 93 Enseignement de Lecture Critique d’Article Section Variables quantitatives Méthodes statistiques Item N° 11 12 Description Expliquer comment les variables quantitatives ont été traitées dans les analyses. Le cas échéant, décrire quelles catégorisations ont été choisies et pourquoi (a) Décrire toutes les méthodes statistiques, notamment celles utilisées pour prendre en compte la confusion (b) Décrire toute méthode utilisée pour étudier des sous-groupes et des interactions (c) Expliquer comment les données manquantes ont été prises en compte (d) Etude de cohorte — si approprié, expliquer comment les perdus de vue ont été pris en compte dans l’analyse Etude cas-témoin — si approprié, expliquer comment l’appariement des cas et des témoins a été pris en compte dans l’analyse Etude transversale — si approprié, décrire les méthodes d’analyse prenant en compte la stratégie d’échantillonnage (e) Décrire toute analyse de sensibilité Résultats Participants 13* (a) Préciser le nombre de sujets à chaque étape de l’étude — par exemple, le nombre de sujets potentiellement éligibles, dont l’éligibilité a été évaluée, dont l’éligibilité a été confirmée, inclus dans l’étude, ayant eu un suivi complet, et analysés (b) Préciser les raisons de non-participation à chaque étape (c) L’utilisation d’un flow chart devrait être considérée Données descriptives 14* (a) Donner les caractéristiques des sujets (démographiques, cliniques, sociales…) et des informations sur les expositions et les facteurs de confusion potentiels (b) Pour chaque variable d’intérêt, indiquer le nombre de sujets dont la donnée est manquante (c) Etude de cohorte — décrire la durée de suivi (par exemple durée moyenne et totale) Critères de jugement 15* Etude de cohorte—Préciser le nombre d’événements correspondant au critère de jugement, ou un autre indicateur équivalent Etude cas-témoin — Préciser les effectifs de sujets dans chaque catégorie d’exposition, ou un autre indicateur de mesure d’exposition Etude transversale — Préciser le nombre d’événements correspondant au critère de jugement, ou un autre indicateur équivalent Résultats principaux 16 (a) Donner les estimations non ajustées, et le cas échéant les estimations ajustées sur les facteurs de confusion, et leur précision (par exemple intervalle de confiance à 95%). Exposer clairement quels facteurs de Faculté de médecine Paris Descartes Page 94 Enseignement de Lecture Critique d’Article Section Item N° Description confusion ont été pris en compte et pourquoi (b) Préciser les limites des catégories lorsque les variables continues ont été catégorisées (c) Le cas échéant, on pourra traduire les estimations de risque relatif en risque absolu sur une période de temps pertinente Autres analyses 17 Décrire les résultats des autres analyses effectuées — par exemple analyses en sous-groupes, recherche d’interactions, analyses de sensibilité Discussion Résultats-clés 18 Résumer les résultats-clés en regard des objectifs de l’étude Limites 19 Discuter des limites de l’étude, en tenant compte des sources de biais potentiels et de l’imprécision des estimations. Discuter le sens et l’intensité de tout biais potentiel. Interprétation 20 Donner une interprétation globale des résultats, en restant prudent, en considérant les objectifs, les limites, la multiplicité des analyses, les résultats d’études similaires, et d’autres éléments pertinents Généralisabilité 21 Discuter la généralisabilité (validité externe) des résultats de l’étude Autres informations Financement 22 Préciser les sources de financement et le rôle des financeurs dans la présente étude et, le cas échéant, dans l’étude originale sur laquelle le présent article est basé *Donner les informations séparément pour les cas et les témoins dans les études cas-témoin et, le cas échéant, pour les exposés et non-exposés dans les études de cohorte et les études transversales. Note : Un article d’Explication et d’Elaboration discute chaque item de la checklist et fournit le contexte méthodologique et des exemples publiés de rapports transparents. La checklist du STROBE sera utilisée au mieux en conjonction avec cet article (disponible gratuitement sur les sites de PLoS Medicine : http://www.plosmedicine.org/, Annals of Internal Medicine : http://www.annals.org/, et Epidemiology : http://www.epidem.com/). Des informations sur l’initiative STROBE sont disponibles sur le site www.strobe-statement.org. Faculté de médecine Paris Descartes Page 95 Enseignement de Lecture Critique d’Article 2.3 Evaluation de facteurs pronostiques AVANT DE COMMENCER Dans ce type d’article, l’objectif est de montrer qu’un facteur donné prédit le devenir des patients, c’est-à-dire qu’il est associé à un risque plus élevé de présenter le critère de jugement (qui peut être « positif », comme la guérison, ou « négatif », comme le décès). Mais contrairement aux études étiologiques, on ne cherche pas à montrer un lien causal. Le but est d’identifier des facteurs associés à un bon ou à un mauvais pronostic afin de pouvoir informer le patient et d’orienter la prise en charge en fonction de ce facteur (par exemple, rapprocher la surveillance ou les consultations de suivi si le pronostic est mauvais). Les réflexes : • Suivi (durée et perdus de vue) • Evaluation du critère de jugement • Prise en compte des facteurs de confusion Faculté de médecine Paris Descartes Analyse multivariée Page 96 Enseignement de Lecture Critique d’Article 2.3.1 Formulation de l’objectif L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les différents éléments du PECO où le P représente la population concernée; le E, le facteur pronostique évalué; le C est sous-entendu, il s’agit de l’absence du facteur pronostique et le O, le critère de jugement. Par exemple, évaluer si un taux faible d’Albumine plasmatique (reflet d’un état de dénutrition) est un facteur pronostique, prédictif de décès chez des patients ayant un cancer à un stade avancé. 2.3.2 Distinction facteur de risque/ facteur pronostique Figure 16 : Différences entre facteur de risque et facteur pronostique Faculté de médecine Paris Descartes Page 97 Enseignement de Lecture Critique d’Article 2.3.3 Type d’étude utilisé Les études évaluant des facteurs pronostiques sont principalement des études de cohorte prospective ou rétrospective. Les notions précédemment vues dans les études de cohorte (dans la partie étiologie) s’appliquent ici également. Il faudra accorder une attention particulière aux points suivants : • Biais de sélection : il faut être sûr que les patients que l’on va inclure dans l’étude ont bien la pathologie d’intérêt et sont à un stade similaire de l’histoire de la maladie (par exemple, patients ayant survécu à un infarctus du myocarde, patientes ayant un cancer du sein nouvellement diagnostiqué). Il faut également discuter du stade de sévérité qui nous intéresse. • Evaluation du critère de jugement : Si le critère de jugement est le décès ou la survie, il s’agit d’un critère de jugement dont l’évaluation est objective. C'est-àdire que l’évaluation est incontestable et ne peut pas être sujet à des interprétations différentes selon la personne qui l’évalue. Dans ce cas, le risque de biais de classement est faible. Si le critère de jugement est un critère dont l’évaluation peut être subjective (par exemple la rechute tumorale ou la récidive d’événement cardiovasculaire), l’évaluation du critère de jugement doit se faire en aveugle de l’exposition au facteur pronostique afin de limiter le biais de classement. Afin de limiter la variabilité liée à l’évaluation subjective d’un critère de jugement, son mode d’évaluation doit être défini a priori et standardisé. Pour améliorer la reproductibilité, il est souhaitable de faire une évaluation en double (par 2 personnes de manière indépendante) voire centralisée avec un comité indépendant (appelé comité d’adjudication ou comité d’évènements cliniques). Pour plus d’informations sur les critères de jugement, reportez vous au point 2.4.6.3) • Durée du suivi. Un facteur prédictif de la survie à 1 an n’est pas forcément prédictif de la survie à 3 ans. • Perdus de vue (biais d’attrition) • Prise en compte des facteurs de confusion Faculté de médecine Paris Descartes Page 98 Enseignement de Lecture Critique d’Article • Interprétation des résultats : interprétation des résultats de l’analyse multivariée par un modèle de régression logistique si le critère de jugement est une variable binaire (par exemple décès à 3 mois) ou par un modèle de Cox si le critère de jugement est une variable censurée (délai avant décès). 2.3.4 Les biais dans les études pronostiques Tableau 17 : Principaux biais dans une étude pronostique Nom du biais A quoi ça correspond ? Comment limiter le risque de biais ? Biais de sélection Sélection d’une population non représentative de la population d’intérêt Sélection d’une population représentative de la population d’intérêt Biais de classement L’évaluateur peut être influencé s’il connaît le statut exposé non exposé du patient vis à vis du facteur pronostique Evaluation du critère de jugement en aveugle du statut exposé ou non exposé Biais de confusion Liés à des facteurs de confusion dans la relation facteur pronostique-maladie Analyse multivariée avec ajustement et éventuellement appariement sur les facteurs de confusion Biais d’attrition Liés aux perdus de vue et à leur exclusion de l’analyse Limiter au maximum les perdus de vue Imputer les données manquantes Faculté de médecine Paris Descartes Page 99 Enseignement de Lecture Critique d’Article 2.4 Evaluation d’une intervention thérapeutique AVANT DE COMMENCER Bien que la plupart des études interventionnelles soient des essais thérapeutiques, leur cadre est bien plus large. L’intervention peut être un nouveau traitement, l’utilisation d’un nouveau test diagnostique, une stratégie de prise en charge, une campagne de communication…Ce cours aurait pu s’intituler « essai randomisé », car toute étude interventionnelle devrait être randomisée. Les réflexes : • Comparabilité initiale = qualité de la randomisation • Maintien de la comparabilité des groupes randomisés = o double aveugle o analyse en intention de traiter • Critère de jugement principal (important pour le patient, objectif ?) • Différence cliniquement pertinente (taille d’effet) • Vérification de la cohérence : objectif principal-critère de jugement principalrésultats principaux-conclusion sur le critère de jugement principal Faculté de médecine Paris Descartes Page 100 Enseignement de Lecture Critique d’Article 2.4.1 Formulation de l’objectif L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les différents éléments du PECO où le P représente la population concernée; le E, l’intervention thérapeutique évaluée; le C est l’intervention dans le groupe contrôle (le comparateur) et le O, le critère de jugement. Par exemple, évaluer l’efficacité sur la mortalité à 30 jours (O) d’un traitement par hydrocortisone (I) par rapport à un placebo (C) chez des patients en choc septique (P). La question posée doit être originale au regard de la littérature existante sur le sujet. Un essai devrait être réalisé s’il s’agit d’un nouveau traitement dans la pathologie étudiée, d’un traitement qui n’a pas démontré son efficacité ou d’un traitement pour lequel les résultats des études antérieures sont discordants. 2.4.2 Type d’étude L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une intervention car il permet de limiter les biais et apporte (en théorie) le niveau de preuve scientifique le plus élevé. Il s’agit en général d’un essai de phase 3 dont les résultats peuvent conduire à l’autorisation de mise sur le marché. Figure 17 : Rappel des différentes phases d’un essai portant sur le médicament (tiré de l’abrégé Masson Santé Publique) Faculté de médecine Paris Descartes Page 101 Enseignement de Lecture Critique d’Article Le terme « contrôlé » signifie qu’il y a un groupe contrôle (recevant par exemple un placebo) et que l’on contrôle la comparabilité des groupes tout au long de l’étude. Le plus souvent, l’essai contrôlé randomisé est un essai à 2 bras parallèles ce qui signifie que les patients reçoivent un des deux traitements à l’essai selon le résultat de la randomisation) selon le schéma suivant : Figure 18 : Schéma de l’essai à 2 bras parallèles Le plus souvent, également, il s’agit d’un essai dit de supériorité dont l’objectif est de montrer que le nouveau traitement est supérieur à un placebo ou à un traitement de référence. Afin de limiter au maximum le risque de biais, l’essai devrait être également en double aveugle avec analyse en intention de traiter comme nous allons le voir un peu plus loin. Enfin l’essai peut être monocentrique s’il est réalisé dans un seul centre ou multicentrique s’il est réalisé dans plusieurs centres, cela a des conséquences sur la validité externe de l’étude (les résultats d’un essai monocentrique sont moins transposables à la pratique qu’un essai multicentrique, la validité externe sera donc moindre dans un essai monocentrique). 2.4.3 Choix du comparateur Le choix du comparateur est un élément important à évaluer. Ce choix dépend de la pathologie étudiée. S’il existe un traitement ayant fait la preuve de son efficacité dans cette pathologie, ce traitement devrait être le comparateur. Si aucun traitement n’a fait la preuve de son efficacité dans la pathologie étudiée, le groupe contrôle devrait recevoir un placebo. Malheureusement, même dans les pathologies pour lesquelles il existe des traitements Faculté de médecine Paris Descartes Page 102 Enseignement de Lecture Critique d’Article efficaces, les essais sont fréquemment réalisés contre placebo. Ces essais ont un intérêt limité car ils ne permettent pas de savoir si le nouveau traitement a un intérêt par rapport à celui qui existe déjà. Ils ne permettent pas de répondre aux questions pragmatiques que se posent les médecins c'est-à-dire dans cette pathologie, quel est le meilleur traitement à donner à mon patient ? Figure 19 : Choix du comparateur 2.4.4 Randomisation La randomisation est l’allocation aléatoire d’une intervention. La randomisation, si elle est bien faite, assure la comparabilité initiale des groupes pour tous les facteurs pronostiques connus et inconnus, afin que toute différence entre les 2 groupes ne puisse être attribuée qu’au traitement reçu. La qualité de la randomisation est un élément clef pour évaluer la validité interne d’un essai randomisé. Elle repose sur 3 points : 1) La génération de la séquence de randomisation 2) L’assignation secrète (la clause d’ignorance) 3) La vérification de la comparabilité initiale des groupes Si l’un de ces 3 éléments pose problème, il y a un risque de biais de sélection. Faculté de médecine Paris Descartes Page 103 Enseignement de Lecture Critique d’Article 2.4.4.1 Génération de la séquence de randomisation La méthode utilisée pour générer la liste de randomisation doit permettre une allocation « totalement aléatoire ». • Méthodes adéquates = « totalement aléatoires » o table de nombres aléatoires o séquence informatique • Méthodes inadéquates = non aléatoires o randomisation alternée (ABABAB…) o basées sur une caractéristique du malade (initiale du prénom, date de naissance, etc.) o basées sur le jour d’inclusion o toute autre méthode comportant une attitude décisionnelle systématique Le ratio d’allocation désigne le ratio groupe A/groupe B. Le plus souvent, le ratio est 1/1 c'est-à-dire qu’autant de patients sont randomisés dans le groupe expérimental et dans le groupe contrôle ce qui respecte le principe d’équipoise (on peut aussi parler de clause d’ambivalence). Ce principe est lié au fait qu’on réalise l’essai car on ne sait pas quel est le traitement le plus efficace, sinon, ce ne serait pas éthique. Dans certains essais, le ratio est 2/1 c'est-à-dire qu’on va randomiser 2 fois plus de sujets traités par le nouveau médicament que de sujets traités par placebo. On parle alors de randomisation déséquilibrée. L’argument pour ce type d’essai est d’augmenter le nombre de sujets traités par le traitement expérimental afin d’avoir davantage de données concernant la tolérance de ce traitement. Une autre raison moins fréquemment avouée dans les essais contre placebo est que cela va améliorer le recrutement dans l’essai car les patients ont plus de chances de recevoir le traitement expérimental que le placebo. Lorsque la randomisation est basée sur une simple séquence de nombres, on parle de randomisation simple. Des techniques plus complexes peuvent cependant être utilisées pour éviter des déséquilibres liés au hasard en cas de faible effectif (fluctuations d’échantillonnage): Faculté de médecine Paris Descartes Page 104 Enseignement de Lecture Critique d’Article • La randomisation par blocs consiste à s’assurer qu’à tout moment de l’essai, le même nombre de patients soit alloué dans chaque groupe. Par exemple, dans un essai comportant deux bras, une randomisation par blocs avec des blocs de taille 4 signifie que tous les 4 patients, 2 seront randomisés dans le groupe expérimental (A) et 2 dans le groupe contrôle (B). Exemple de randomisation par blocs de taille 4 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A A B B A B A B B B A A B A B A Remarque : La randomisation par blocs est une méthode de randomisation adéquate adaptée notamment en cas de faible effectif. Il faut cependant faire attention à ne pas communiquer la taille des blocs aux investigateurs qui recrutent les patients ou alors à faire des blocs de taille aléatoire (qui change pendant la durée de l’étude). Autrement, l’investigateur, s’il connait la taille des blocs, pourrait déduire quel va être le groupe dans lequel le patient suivant sera randomisé (par exemple, si l’investigateur a randomisé les 2 premiers patients dans le groupe A, il peut en déduire que les 2 prochains patients seront randomisés dans le groupe B s’il sait que la taille des blocs est de 4). Cela pourrait entraîner une violation de la clause d’ignorance (voir plus loin). Faculté de médecine Paris Descartes Page 105 Enseignement de Lecture Critique d’Article • La stratification de la randomisation est également utilisée pour limiter le risque de déséquilibre quand il y a des facteurs pronostiques importants. Le principe est de s’assurer qu’un nombre égal de patients ayant certaines caractéristiques (par exemple une tumeur de stade avancé) soit randomisé dans chaque groupe. La randomisation stratifiée consiste à faire une liste de randomisation par strate. Par exemple si la randomisation est stratifiée sur le sexe et le stade de la maladie (précoce et avancé), il y a aura 4 listes de randomisation : 1 pour les femmes en stade précoce, 1 pour les femmes en stade avancé, 1 pour les hommes en stade précoce, 1 pour les hommes en stade avancé. Remarque : Il est fréquent dans les essais multicentriques de stratifier sur le centre • La minimisation est parfois utilisée dans les essais incluant un nombre limité de patients lorsqu’il existe un nombre important de facteurs pronostiques importants. Cette technique est fréquemment utilisée dans les essais en cancérologie. Il s’agit d’une méthode impliquant un algorithme permettant de limiter les déséquilibres sur les facteurs pronostiques importants. Lors de l’inclusion d’un nouveau patient, l’investigateur enregistre les facteurs pronostiques du patient sur un site internet sécurisé, l’algorithme détermine alors le groupe du patient en fonction des caractéristiques renseignées afin de limiter les déséquilibres entre les groupes. 2.4.4.2 Clause d’ignorance Synonyme : non divulgation de l’allocation, masquage de l’allocation, allocation concealment, assignation secrète Le fait de pouvoir prévoir le groupe de randomisation du prochain patient risque d’influencer la décision d’inclure le patient dans l’essai (par exemple, l’investigateur peut décider de ne pas proposer au patient de participer à l’essai si le patient est sévère et qu’il sait que le prochain patient de l’étude sera randomisé dans le groupe expérimental. Faculté de médecine Paris Descartes Page 106 Enseignement de Lecture Critique d’Article La clause d’ignorance est respectée lorsque les personnes qui recrutent les patients dans un essai contrôlé randomisé ne peuvent pas savoir si le prochain patient sera inclus dans le groupe « intervention » ou le groupe « contrôle » au moment où celui-ci entre dans l’essai. Figure 20 : Chronologie de l’inclusion d’un patient dans l’essai pour respecter la clause d’ignorance Les méthodes suivantes permettent de s’assurer que la clause d’ignorance est respectée : • Randomisation centralisée (randomisation par téléphone, fax ou via un site internet) • Enveloppes contenant l’information sur le groupe de randomisation opaques et scellées • Médicaments préparés par la pharmacie dans des containers identiques (pour les essais médicamenteux) D’autres méthodes sont franchement inadéquates car prévisibles et ne permettent pas de respecter la clause d’ignorance : • Randomisation alternée (ABABABAB) Faculté de médecine Paris Descartes Page 107 Enseignement de Lecture Critique d’Article • Utilisation d’une caractéristique du patient (par exemple l’année de naissance : donner le traitement A aux sujets nés les années paires et le traitement B aux sujets nés les années impaires) • Enveloppes contenant l’information sur le groupe de randomisation non opaques ou non scellées 2.4.4.3 Vérification de la comparabilité initiale des groupes Le tableau 1 d’un essai contrôlé randomisé présente les caractéristiques initiales des patients par groupe de randomisation. Il doit présenter toutes les caractéristiques importantes des patients au regard de l’essai (l’âge, le sexe, la sévérité de la maladie, les antécédents, les comorbidités éventuelles, les autres traitements pris par les patients…). Il permet de vérifier que les caractéristiques initiales des patients sont relativement comparables entre les 2 groupes. Cette évaluation se fait « à l’œil » (Eye Ball test) ce qui signifie sans faire de tests statistiques. Pour évaluer si les groupes sont comparables, il faut prendre en compte l’effectif de l’essai. En cas de faible effectif, on peut s’attendre à quelques déséquilibres entre les groupes liés aux fluctuations d’échantillonnage. En revanche, si l’effectif est élevé, les déséquilibres entre les groupes doivent être minimes. De plus, les déséquilibres liés aux fluctuations d’échantillonnage doivent aller dans les 2 sens (favorisant tantôt le bras expérimental tantôt le bras contrôle). Des déséquilibres favorisant toujours le même groupe doivent alerter et faire évoquer un risque de biais de sélection. Faculté de médecine Paris Descartes Page 108 Enseignement de Lecture Critique d’Article Exemple : Tableau 18 : Exemple de Tableau 1 Dans cet exemple, les groupes sont relativement comparables en termes de caractéristiques initiales. Faculté de médecine Paris Descartes Page 109 Enseignement de Lecture Critique d’Article Remarques : • L’absence de différence majeure entre les groupes randomisés est un indice de qualité mais n’est pas synonyme de randomisation bien faite, car les groupes peuvent différer sur des caractéristiques non renseignées dans l’essai. • Une randomisation de bonne qualité peut ne pas aboutir à des groupes comparables, par le simple fait du hasard (fluctuations d’échantillonnage), surtout en cas de petit effectif. • Quelle qu’en soit la raison (randomisation mal faite ou fluctuations d’échantillonnage), si les groupes diffèrent, il faut déterminer si la différence est suffisamment importante pour altérer les résultats. Parfois on envisagera un ajustement statistique pour tenir compte des différences entre les groupes. Si les groupes sont trop différents, cela peut invalider les résultats de l’étude. 2.4.5 Le maintien de la comparabilité des groupes pendant l’essai Afin d’être sûr que la différence de résultats observée entre les 2 groupes n’est due qu’au traitement reçu, il est nécessaire de maintenir la comparabilité des groupes (qui a été obtenue avec la randomisation) pendant toute la durée de l’essai et ce jusqu’à l’analyse. Le double aveugle et l’analyse en intention de traiter permettent de maintenir la comparabilité des groupes pendant le suivi et l’analyse, respectivement et de limiter les biais. 2.4.5.1 Le double aveugle S’il connait le traitement qu’il a reçu, le patient risque de modifier son comportement. Par exemple s’il est randomisé dans le groupe absence de traitement, il pourra être déçu et quitter l’essai. A l’inverse s’il est randomisé dans le groupe expérimental, il pourra redouter de présenter des effets secondaires. De la même manière, le médecin qui suit le patient va modifier son comportement (même de manière inconsciente) s’il sait quel traitement le patient a reçu. Par exemple, il pourra prescrire d’autres traitements s’il sait que le patient n’a pas reçu le traitement expérimental afin que celui-ci ne soit pas lésé. Toutes ces différences de comportement peuvent avoir un impact sur le critère de jugement et ainsi biaiser l’estimation de l’effet de l’intervention. En l’absence d’aveugle, il y a un risque de biais de performance (ou de suivi) lié à des différences systématiques dans le suivi des Faculté de médecine Paris Descartes Page 110 Enseignement de Lecture Critique d’Article patients (par exemple, liées à une plus grande prescription de corticoïdes dans le groupe contrôle pour « compenser »). Le double aveugle permet d’éviter que des différences liées au groupe de randomisation et pouvant influencer le critère de jugement n’apparaissent au cours du suivi. L’essai est dit en double aveugle si ni le patient, ni le médecin ne connaissent le groupe de randomisation du patient tout au long du suivi. Il permet de maintenir la comparabilité des groupes randomisés au cours du suivi. Pour qu’un essai soit en double aveugle, il faut que les patients du groupe contrôle reçoivent soit un placebo ayant les mêmes caractéristiques (apparence, goût, forme) que le traitement expérimental soit que le traitement actif (si le comparateur est un traitement actif) ait la même apparence ce qui n’est pas toujours possible. Dans le cas d’un essai où le comparateur est un traitement actif d’apparence différente ou ayant un mode d’administration différent (par exemple quand on compare un nouveau traitement sous la forme de comprimés à un ancien traitement sous la forme d’injections), il faudra utiliser un double placebo pour que l’essai soit en double aveugle. Le principe du double placebo est que tous les patients vont recevoir deux traitements : soit le traitement expérimental et le placebo du traitement contrôle pour les patients randomisés dans le groupe expérimental soit le placebo du traitement expérimental et le traitement contrôle pour les patients randomisés dans le groupe contrôle. Remarques : • L’aveugle vis-à-vis du traitement reçu n’est pas toujours possible du fait même de la nature de l’intervention (par exemple en chirurgie). • Le terme double aveugle est un terme que les méthodologistes n’aiment pas car il est trop vague : cela implique que 2 protagonistes de l’essai sont en aveugle mais on ne sait pas forcément lesquels (habituellement, il s’agit du patient et du médecin, mais…on ne sait jamais). C’est pourquoi il est préférable de préciser qui est en aveugle du traitement reçu dans l’essai : - le patient ? - le médecin qui suit le patient ? -la personne qui évalue le critère de jugement qui peut être soit le patient (par exemple pour la douleur) soit le médecin (par exemple infarctus du myocarde) soit Faculté de médecine Paris Descartes Page 111 Enseignement de Lecture Critique d’Article une personne extérieure. - le statisticien ? 2.4.5.2 L’analyse en intention de traiter Dans l’analyse en intention de traiter, tous les patients randomisés sont analysés et ce, dans le groupe dans lequel ils ont été randomisés, quel que soit le traitement effectivement reçu, qu’ils aient ou non terminé ou même commencé le traitement et quel que soit leur suivi. On les analyse comme ils auraient dû être traités et non comme ils ont été traités réellement. Exemple : Dans cet exemple, on cherche à comparer l’accouchement par césarienne par rapport à l’accouchement par voie basse chez des femmes avec un bébé qui se présente par le siège. On randomise 90 femmes dans chaque groupe. Dans le groupe « voie basse », 10 femmes ont dû avoir une césarienne en urgence en raison d’une souffrance fœtale. Ces 10 femmes doivent être analysées et ce dans le groupe Faculté de médecine Paris Descartes Page 112 Enseignement de Lecture Critique d’Article « voie basse » selon le principe de l’analyse en intention de traiter. L’analyse doit donc comparer le devenir des 90 femmes du groupe « voie basse » (80 ayant vraiment accouché par voie basse plus 10 ayant eu une césarienne) par rapport aux 90 femmes du « groupe césarienne ». La souffrance fœtale peut être liée au fait que la voie basse n’était pas adaptée. Exclure ces 10 patientes risque de surestimer le bénéfice de la voie basse. L’analyse en intention de traiter permet de maintenir la comparabilité des groupes randomisés au moment de l’analyse. C’est la méthode d’analyse de référence des essais randomisés (de supériorité). De plus, en l’absence d’analyse en intention de traiter, il y a un risque un biais d’attrition car les patients perdus de vue ou qui ont arrêté le traitement l’ont peut être fait en raison d’un manque d’efficacité ou d’effets secondaires. Les auteurs rapportent souvent une analyse en intention de traiter dans les méthodes mais quand on évalue le diagramme de flux ou les résultats, il est fréquent que des patients aient été exclus de l’analyse. Il faudra donc vérifier que l’analyse est bien en intention de traiter: pour cela, il faudra évaluer : - le diagramme de flux : le nombre de patients analysés en bas du diagramme de flux doit correspondre au nombre de patients randomisés - les résultats : le dénominateur doit correspondre au nombre de patients randomisés Exemple : Dans cet essai contrôlé randomisé, les auteurs rapportent dans les méthodes que l’analyse est en intention de traiter. Cependant le diagramme de flux montre que des patients ont été exclus de l’analyse. Faculté de médecine Paris Descartes Page 113 Enseignement de Lecture Critique d’Article Figure 21 : Exemple de diagramme de flux L’analyse en intention de traiter doit être systématiquement associée à une stratégie de gestion des données manquantes. Prenons l’exemple d’un essai contrôlé randomisé comparant un nouveau médicament à un placebo et avec comme critère de jugement principal la survenue d’un infarctus du myocarde dans l’année et avec 200 patients randomisés dans le bras expérimental et 200 dans le bras placebo. Si 20 patients sont perdus de vue dans le bras expérimental et 30 dans le bras contrôle, l’analyse en intention de traiter devra porter sur les 400 patients. Le problème, c’est que si on analyse les données comme cela, sans rien faire de plus, cela revient à considérer qu’aucun des perdus de vue n’a eu d’infarctus du myocarde dans l’année ce qui est peut être faux. Il faut donc mettre en place une stratégie de gestion des données manquantes pour imputer les données de ces 20+ 30 perdus de vue. Faculté de médecine Paris Descartes Page 114 Enseignement de Lecture Critique d’Article Les stratégies de gestion des données manquantes recommandées sont : - l’imputation multiple. Il s’agit d’une analyse statistique permettant de remplacer les valeurs manquantes du critère de jugement en fonction des caractéristiques des patients perdus de vue. - la méthode du pire scénario. Cette méthode revient à considérer les données manquantes du bras expérimental comme des échecs (ou des non-réponses) et les données manquantes du bras contrôle comme des succès (ou des réponses). Dans notre exemple, cela reviendrait à considérer que les 20 perdus de vue du groupe expérimental ont tous eu un infarctus du myocarde dans l’année alors qu’aucun des 30 perdus de vue du groupe contrôle n’aurait eu d’infarctus du myocarde. Cela est également probablement faux mais si on arrive à montrer une différence avec cette méthode, c’est qu’elle existe vraiment. Cette méthode est toutefois peu utilisée car trop stricte. Une autre méthode est fréquemment utilisée mais elle n’est pas recommandée. Il s’agit de la méthode LOCF (Last Observation Carried Forward). Elle consiste à prendre la dernière valeur disponible pour le patient avant qu’il ne sorte de l’essai. Par exemple, si un patient est venu en consultation à 6 mois mais n’est pas revenu à 9 mois ni à un an, on prendra son résultat à 6 mois. L’autre méthode d’analyse est l’analyse per protocole, où seuls les patients compliants au protocole c'est-à-dire ayant reçu le traitement ou le placebo pendant toute la durée de leur suivi sont considérés. Dans les essais contrôlés randomisés de supériorité, seule l’analyse en intention de traiter est recommandée. L’analyse en ITT est plus conservatrice c'est-à-dire qu’elle a tendance à diminuer les différences entre les 2 groupes. L’analyse per protocole donne des résultats plus favorables car on exclut tous les patients qui n’ont pas respecté le protocole (on exclut ceux qui ont arrêté le traitement car il ne leur paraissait pas efficace, ceux qui ont arrêté le traitement en raison d’effets secondaires,…) Faculté de médecine Paris Descartes Page 115 Enseignement de Lecture Critique d’Article Exemples : • Monsieur D. est randomisé dans un groupe, il ne sait pas lequel car c’est une étude en double aveugle. Il ne se passe rien de particulier et il arrive au bout de l’étude. On révèle alors qu’il était randomisé dans le groupe traitement. o En analyse en intention de traiter, on le considère dans le groupe traitement o En analyse per protocole, on le considère également dans le groupe traitement • Monsieur M. est randomisé dans un groupe, il ne sait pas lequel car c’est une étude en double aveugle. Il prend le premier comprimé mais ensuite il arrête le traitement (ou le placebo). A la fin du suivi, on révèle qu’il était randomisé dans le groupe placebo et le patient avoue n’avoir pris qu’un comprimé. o En analyse en intention de traiter, on le considère dans le groupe placebo o En analyse per protocole, le patient sera exclu de l’analyse • Madame V. est randomisée dans un groupe, elle ne sait pas lequel car c’est une étude en double aveugle. A la moitié du suivi, elle présente un événement indésirable grave. Le protocole de l’étude prévoit qu’en cas d’effet indésirable grave potentiellement imputable au nouveau traitement, l’aveugle doit être levé. On révèle que Madame V. a été randomisée dans le groupe traitement. Elle arrête alors le traitement jusqu’à la fin de l’étude. o En analyse en intention de traiter, on la considère dans le groupe traitement o En analyse per protocole, la patiente sera exclue de l’analyse Faculté de médecine Paris Descartes Page 116 Enseignement de Lecture Critique d’Article Remarques : • Le terme « intention de traiter » est le plus répandu car la plupart des essais randomisés sont des essais thérapeutiques. On peut cependant le décliner en « intention de diagnostiquer » si l’on a randomisé l’utilisation ou non d’un test diagnostique, ou intention de dépister dans les essais où l’on évalue l’intérêt d’une intervention de dépistage. • Vous entendrez également parler de population d’analyse en intention de traiter ou per protocole. • Pour comprendre le concept d’intention de traiter, dites-vous qu’on ne compare pas des sujets traités et non traités, mais des sujets que l’on avait ou non l’intention de traiter. C’est une analyse plus proche de la « vraie vie » que l’analyse per protocole, car en pratique clinique on ne sait pas ce qui va arriver lorsque l’on prend une décision médicale (le patient peut ne pas prendre le traitement, prendre son traitement un jour sur deux, ne pas revenir en consultation,…). 2.4.6 Les critères de jugement 2.4.6.1 Définition d’un critère de jugement principal S’il y a plusieurs critères de jugement (quasi-totalité des cas dans les essais contrôlés randomisés), le critère de jugement principal doit être identifiable. il est préférable d’avoir un seul critère de jugement principal pour maintenir un risque alpha à 5%. Le critère de jugement principal doit être pré-spécifié dès le protocole (c’est sur ce critère qu’on va faire le calcul d’effectif) et ne doit pas changer au cours de l’étude notamment au vu des résultats. La conclusion doit porter sur ce critère de jugement principal. 2.4.6.2 Pertinence clinique du critère de jugement Les critères de jugement surtout le critère de jugement principal devraient être cliniquement pertinents. Faculté de médecine Paris Descartes Page 117 Enseignement de Lecture Critique d’Article • Les critères de jugement pertinents sont : la mortalité, tout évènement clinique (infarctus du myocarde, infection, accident vasculaire cérébral, …), la douleur, la qualité de vie, les incapacités ou les handicaps. A l’inverse, certains critères sont dits « intermédiaires » ou « critères de substitution » ou « surrogate » en anglais. Il peut s’agir de mesures cliniques (ex : mesure de la pression artérielle), biologiques (ex : mesure de la clairance de la créatinine) ou radiologiques (mesure de la densité minérale osseuse). Ces critères permettent une évaluation à court-terme avec une durée de l’étude moins longue et un nombre de patients recrutés moins importants (donc un coût moindre). Exemple : Pour évaluer l’efficacité d’une chimiothérapie contre le cancer de la prostate, on pourrait s’intéresser : • à la mortalité toutes causes confondues, la mortalité par cancer de la prostate (critères pertinents) • à la réduction de la taille de la tumeur, la baisse du taux sanguin de PSA (critères intermédiaires) Le problème est que les critères intermédiaires ne sont pas forcément corrélés avec la mortalité ou les évènements cliniques tels que la survenue d’un infarctus du myocarde (critères vraiment pertinents pour le patient nécessitant des études plus longues et plus coûteuses). Faculté de médecine Paris Descartes Page 118 Enseignement de Lecture Critique d’Article Exemple : Cet exemple porte sur l’ostéoporose et montre l’effet de différents types de traitement sur deux types de critères de jugement : la densité minérale osseuse qui est un critère intermédiaire et la survenue de fractures qui est le critère important pour le patient. On peut constater que l’effet de ces différents types de traitement sur le critère intermédiaire n’est pas forcément corrélé à l’effet sur le critère important pour le patient. Notamment, les fluorides augmentent la densité minérale osseuse mais augmentent le risque de fractures. 2.4.6.3 Notion de subjectivité/objectivité L’évaluation du critère de jugement est dite objective si son évaluation est incontestable et ne peut pas être sujette à des interprétations différentes selon la personne qui l’évalue. Il s’agit de la mortalité toutes causes confondues et des examens biologiques sans interprétation par le biologiste (par exemple la mesure de la glycémie). Certains critères de jugement sont, à l’inverse, très subjectifs comme les critères rapportés par le patient tels que la douleur, la qualité de vie, le niveau d’incapacité qui sont utilisés pour évaluer des traitements symptomatiques. Dans ce cas, il est très important que le patient soit en aveugle du traitement reçu afin de limiter le risque de biais de classement Faculté de médecine Paris Descartes Page 119 Enseignement de Lecture Critique d’Article et que le critère de jugement soit évalué à l’aide d’une échelle validée (par exemple, pour la qualité de vie, échelle SF36). Les autres critères : évènements cliniques (par exemple, infarctus du myocarde), critères radiologiques (par exemple, récidive tumorale évaluée par scanner), mortalité causespécifique (par exemple, mortalité cardiovasculaire) sont des critères dont l’évaluation peut être considérée comme subjective car soumise à l’interprétation d’un individu. Il faut également que leur évaluation soit faite en aveugle du traitement reçu afin d’éviter les biais de classement et essayer de limiter la variabilité entre les évaluateurs (améliorer la reproductibilité). Pour cela, la définition du critère de jugement doit être bien standardisée, on peut prévoir une évaluation en double (par 2 personnes de manière indépendante) voire centralisée avec un comité indépendant (appelé comité d’adjudication). 2.4.6.4 Disponibilité chez tous les patients (faisabilité du recueil du critère de jugement) Certains critères de jugement sont évalués lors d’examens radiologiques comme la présence d’un thrombus à la phlébographie de contrôle à 12 mois. Ces critères sont peu pertinents cliniquement, leur évaluation est subjective et en plus ils sont souvent associés à un grand nombre de données manquantes (regarder sur le flow chart le nombre de patients ayant reçu l’examen…). Exemple : Essai contrôlé randomisé pour évaluer l’efficacité de 2 dosages différents d’Enoxaparine (héparine de bas poids moléculaire)1 : “The primary outcome with respect to efficacy was venous thromboembolism (defined as deep-vein thrombosis, pulmonary embolism, or both) between days 1 and 14. The secondary outcome with respect to efficacy was venous thromboembolism between days 1 and 110. Patients were examined for deep-vein thrombosis by systematic ascending contrast venography of the legs between days 6 and 14, or earlier if thrombosis was clinically suspected. If venography was infeasible, venous ultrasonography was performed.” 1 M M Samama et al., “A Comparison of Enoxaparin with Placebo for the Prevention of Venous Thromboembolism in Acutely Ill Medical Patients. Prophylaxis in Medical Patients with Enoxaparin Study Group,” The New England Journal of Medicine 341, no. 11 (September 9, 1999): 793–800, doi:10.1056/NEJM199909093411103. Faculté de médecine Paris Descartes Page 120 Enseignement de Lecture Critique d’Article 2.4.6.5 Critères composites Il s’agit de critères composés de plusieurs évènements. Ces critères sont souvent utilisés dans les essais en cardiologie. Un critère composite peut être, par exemple, la survenue d’un infarctus du myocarde, d’un AVC ou d’un décès. On considère que le patient a présenté le critère de jugement s’il a eu au moins l’un de ces évènements. S’il a présenté plusieurs évènements du critère, on retient la date du premier évènement. • Avantages : les critères composites permettent un gain de puissance en augmentant la probabilité de survenue de l’évènement (ou de réduire l’effectif nécessaire pour une même puissance). Ils permettent également de prendre en compte l’ensemble des évènements importants notamment quand on veut évaluer la balance bénéfice-risque. Par exemple, si on veut évaluer l’intérêt d’un traitement anti-thrombotique, il peut être intéressant d’avoir un critère de jugement composite combinant des évènements ischémiques (évaluant l’efficacité du traitement) et des évènements hémorragiques (évaluant sa tolérance). • Inconvénients : les critères composites sont difficiles à interpréter. Ils doivent être interprétés tels quels. Si le résultat pour le critère de jugement composite (par exemple la survenue d’un infarctus du myocarde, d’un AVC ou d’un décès) est statistiquement significatif, il n’est pas possible de conclure que le traitement permet de diminuer les décès. La conclusion doit être : « le nouveau traitement permet de diminuer de manière significative la survenue d’in infarctus du myocarde, d’un AVC ou d’un décès ». Chaque évènement clinique composant le critère composite doit être défini comme critère secondaire. Il faut vérifier que l’effet traitement est le même pour tous les évènements cliniques du critère composite car l’effet traitement est souvent plus important pour les évènements les moins graves mais qui sont le plus souvent les plus fréquents. Il y a aura alors une différence statistiquement significative pour le critère composite et pas forcément pour les évènements les plus graves ce qui pose problème quant à l’interprétation d’un bénéfice pour le patient. C’était le cas dans l’exemple donné ci-dessous : Faculté de médecine Paris Descartes Page 121 Enseignement de Lecture Critique d’Article Exemple : Figure 22 : Interprétation des résultats d’un critère de jugement composite Dans cet exemple, le critère de jugement composite est défini comme la survenue d’un décès, d’une insuffisance rénale terminale ou d’un doublement de la créatinine. Il y a une différence statistiquement significative pour le critère de jugement composite. Quand on regarde les composantes du critère composite, il n’y a pas de différence statistiquement significative pour la mortalité globale ni pour l’insuffisance rénale terminale qui sont deux critères importants pour le patient. La seule différence statistiquement significative observée est pour le critère « doublement de la créatinine » qui du fait de sa plus grande fréquence entraine la significativité statistique du critère composite. Mais ce critère est un critère intermédiaire qui n’est pas important pour le patient. Cet essai pose donc un problème d’interprétation du bénéfice pour le patient. 2.4.7 Calcul d’effectif Afin d’assurer une puissance statistique suffisante (c’est-à-dire limiter suffisamment les fluctuations d’échantillonnage pour montrer une différence jugée cliniquement importante), il faut calculer le nombre de sujets nécessaires. L’estimation du nombre de sujets nécessaires pour l’étude doit être faite a priori et planifiée pour des raisons scientifiques et éthiques. Il faut théoriquement inclure suffisamment de sujets pour avoir une forte probabilité de détecter une différence statistiquement significative qui doit correspondre à une différence « cliniquement importante » sur le critère de jugement principal. Faculté de médecine Paris Descartes Page 122 Enseignement de Lecture Critique d’Article Les éléments utilisés pour estimer le nombre de sujets nécessaires sont : • la puissance statistique souhaitée (devrait être > 0,80) • le niveau de l’erreur alpha (0,05 en général) • la valeur attendue du paramètre dans le groupe contrôle (au mieux, documentée par la référence à des études antérieures) • la différence minimale entre les groupes jugée cliniquement pertinente: plus la différence à montrer est faible, plus il faudra de sujets. 2.4.8 Respect des règles éthiques et enregistrement des essais 2.4.8.1 Règles éthiques Les essais contrôlés randomisés sont soumis à des règles très strictes sur le plan éthique. Ils sont régis par la loi Huriet-Serusclat. Pour tout essai contrôlé randomisé, le protocole complet doit être soumis pour approbation à un comité d’éthique pour pouvoir débuter. En France, ce comité d’éthique est le comité de protection des personnes (le CPP). Pour pouvoir entrer dans l’étude, un patient doit avoir reçu par oral et par écrit (notice d’information) une information claire et loyale et il doit avoir signé un consentement libre et éclairé qui est révocable à tout moment. Pour pouvoir conduire un essai, il faut que la clause d’ambivalence soit respectée c'est-àdire que tous les patients doivent pouvoir recevoir l’un ou l’autre des traitements (ils ne doivent pas présenter de contre-indication à l’un ou l’autre des traitements). 2.4.8.2 Enregistrement des essais La planification de l’essai est un élément très important. Avant son début, un protocole doit être rédigé. Celui-ci doit comporter une synthèse de la littérature scientifique permettant de poser le problème, une formulation claire et complète de l’objectif, la description détaillée des méthodes qui vont être employées : - Plan expérimental avec sa justification - Population étudiée : Mode de recrutement (centres,…), critères d’éligibilité - Randomisation Faculté de médecine Paris Descartes Page 123 Enseignement de Lecture Critique d’Article - Description des interventions à l’étude - Description du critère de jugement principal et des critères secondaires - Calcul d’effectif - Plan d’analyse statistique - Aspects éthiques - Organisation pratique de l’essai Il est très important d’évaluer s’il y a eu des écarts au protocole c'est-à-dire des changements par rapport à ce qui avait été prévu (par exemple, un changement de critère de jugement principal) car cela peut affecter les résultats de l’essai et le biaiser. En effet, si les investigateurs font leur essai et se rendent compte au moment de l’analyse que le critère de jugement principal qui avait été défini dans le protocole n’est pas significatif et qu’il change pour mettre comme critère de jugement principal un critère de jugement secondaire dont le résultat est statistiquement significatif, cela va biaiser les résultats de l’essai (Biais de présentation sélective des critères de jugement ou « Selective outcome reporting ») pour la raison suivante : plus on fait de tests statistiques, plus on augmente le risque alpha de conclure à une différence statistiquement significative alors que la différence est en fait due au hasard. Si on choisit parmi tous les critères de jugement secondaires testés (souvent un certain nombre) celui qui est statistiquement significatif, cela va favoriser des résultats statistiquement significatifs qui sont potentiellement dus au hasard et surestimer l’effet du traitement. Cette pratique est malheureusement courante. Plusieurs travaux méthodologiques ont montré que le critère de jugement principal était modifié par rapport au protocole dans environ 1/3 des essais et évidemment cela favorise des résultats statistiquement significatifs. Vérifier que ce qui est rapporté dans l’article est conforme à ce qui a été planifié dans le protocole est un élément essentiel pour apprécier la validité des résultats d’un essai. Le problème est que les protocoles sont rarement publiés. Afin de pouvoir vérifier que ce qui est rapporté dans l’article est cohérent avec ce qui a été planifié au départ, un système d’enregistrement des essais a été mis en place à partir de 2005. Cet enregistrement doit être fait par l’investigateur principal ou le promoteur de l’essai avant le recrutement du premier patient dans un registre gratuit reconnu par l’OMS (le plus connu étant ClinicalTrials.gov (https://clinicaltrials.gov/)). Tous les éléments importants du protocole (type d’essai, critère de jugement principal, …) doivent être enregistrés ce qui Faculté de médecine Paris Descartes Page 124 Enseignement de Lecture Critique d’Article permet d’évaluer s’il y a eu des changements importants pouvant affecter les résultats au cours de l’essai (par exemple, des changements de critère de jugement principal). 2.4.9 Interprétation des résultats d’un essai 2.4.9.1 Interprétation des résultats pour le critère de jugement principal • Est-ce que le résultat pour le critère de jugement principal est statistiquement significatif ? Il faut évaluer le p, le degré de significativité du test. Si p<0.05, on peut conclure que la différence est statiquement significative Si p≥ 0.05, il n’y a pas de différence statistiquement significative et on ne peut rien conclure d’autre. Exemple : “Overall, 32 of the 229 (14%) had complete clearance of all plantar warts at 12 weeks, corresponding to 17/119 (14%) patients in the salicylic acid group and 15/110 (14%) patients in the cryotherapy group, p=0.89 Conclusions Salicylic acid and the cryotherapy were equally effective for clearance of plantar warts.” Dans cet exemple, p est >0.05, il n’y a pas de différence statistiquement significative entre les 2 traitements (acide salicylique et cryothérapie) en termes de disparition de la verrue plantaire (le critère de jugement principal). Et on ne peut rien conclure d’autre. La conclusion des auteurs dans le résumé (les 2 traitements ont une efficacité équivalente en termes de disparition de la verrue) est donc erronée. • Est-ce que la différence observée est cliniquement pertinente ? (quelle est la taille d’effet ?) Quand on interprète les résultats d’un essai, il faut garder à l’esprit qu’une différence statistiquement significative ne traduit pas forcément une différence cliniquement Faculté de médecine Paris Descartes Page 125 Enseignement de Lecture Critique d’Article pertinente. En effet, plus l’essai aura inclus de patients, plus il aura de puissance pour mettre en évidence de faibles différences qui ne sont pas forcément pertinentes. Il convient donc d’évaluer si la différence observée est cliniquement pertinente. Pour cela, il faut évaluer la taille d’effet (effect size) et en particulier la réduction absolue du risque (qui correspond à la différence de risque entre les 2 groupes) ou le nombre de patients à traiter pour éviter un évènement (qui correspond à l’inverse de la réduction absolue du risque). Une réduction relative du risque peut donner une estimation trompeuse de la taille d’effet. Par exemple, une réduction relative du risque de 50% peut correspondre à une réduction absolue de risque de 1% ce qui est très faible et peu pertinent. Exemple : Dans un essai contrôlé randomisé, la mortalité à 3 mois est de 20/200 (10%) dans le bras expérimental et de 30/200 (15%) dans le groupe contrôle. Nous avons : - Réduction absolue du risque : 15%-10%=5% - Réduction relative du risque : (15%-10%)/15%=33% - Nombre de patients à traiter pour éviter un évènement : 1/0.05=20 c'est-à-dire qu’il faudra traiter 20 patients pour éviter un seul décès à 3 mois. En pratique, il est souvent difficile d’apprécier si la différence est pertinente cliniquement. Cela dépend de la pathologie et du critère de jugement. Une réduction absolue du risque de 5% est très importante quand il s’agit de la mortalité globale mais moins importante quand il s’agit d’autres critères comme la proportion de patients douloureux. 2.4.9.2 Interprétation des résultats pour les critères secondaires Les résultats des critères de jugement secondaires doivent être interprétés précautionneusement surtout si le résultat pour le critère de jugement principal n’est pas statistiquement significatif. En effet, en général le nombre de critères de jugement Faculté de médecine Paris Descartes Page 126 Enseignement de Lecture Critique d’Article secondaires est assez important ce qui entraîne une inflation du risque alpha de conclure à une différence qui n’existe pas. Il n’est pas possible de conclure à l’efficacité d’un traitement sur la base du résultat d’un critère de jugement secondaire si le résultat pour le critère de jugement principal n’est pas statistiquement significatif. 2.4.9.3 Interprétation d’une analyse intermédiaire Une analyse intermédiaire est une analyse effectuée avant l'inclusion de tous les sujets prévus. Elle est réalisée le plus souvent lorsque l'étude est longue et qu’il y a un risque pour les patients. L’idée est que si le nouveau traitement, ou l’intervention, fonctionne vraiment bien (ou vraiment mal), ce n’est peut-être pas la peine (voire contraire à l’éthique) d’attendre la fin de l’étude pour présenter les résultats. Idéalement, ces analyses intermédiaires sont gérées par un comité indépendant : le Data Safety Monitoring Board Une analyse intermédiaire doit être prévue à l’avance, et décrite dans le protocole. Les règles d’arrêt de l’étude doivent être définies. En effet, si on répète l’analyse au fur et à mesure des inclusions, on risque de trouver à un moment donné une différence statistiquement significative par le simple fait du hasard. C’est le risque alpha. Si on fait un seul test statistique pour le critère de jugement principal en fin d’étude, le risque alpha est de 5% mais si on fait des tests statistiques de manière répétée, le risque alpha va augmenter et la probabilité de conclure à une différence qui n’existe pas également. Si l’on arrête alors l’étude, on va conclure à l’existence d’une différence alors qu’elle est possiblement due au hasard. Si l’on prévoit des analyses intermédiaires, il faudra donc corriger le risque alpha de chaque test pour que le risque alpha global, c’est-à-dire sur l’ensemble des analyses prévues (intermédiaires et finale), soit de 5%. Plus on prévoit d’analyses intermédiaires, plus le risque alpha « partiel » considéré dans chacune d’elles sera faible. Il est possible d’arrêter l’essai après une analyse intermédiaire si les règles d’arrêt prédéfinies ont été atteintes. Faculté de médecine Paris Descartes Page 127 Enseignement de Lecture Critique d’Article Exemple2 : “We planned two interim analyses at 2500 patient-years and 5000 patient-years. The study could be stopped according to Peto’s rule if a significant difference in all-cause mortality was seen between the two groups at p < 0.001 (two-tailed log- rank test).” Les auteurs définissent bien les règles d’arrêt des deux analyses intermédiaires : le moment (2500 et 5000 patients-années) et le seuil de signification (p < 0,001). “2647 patients were enrolled into the study and followed up for a mean of 1.3 years. (…) The trial was stopped early because all-cause mortality was significantly less in the bisoprolol group than in the placebo group (figure 1). In the bisoprolol group, 156 (11.8%) patients died, compared with 228 (17.3%) in the placebo group (p < 0.0001).” Les auteurs ont fait une analyse intermédiaire comme prévu à environ 2500 patientsannées (2647 patients dont on additionne les durées de suivi, ce qui fait probablement 2500), le test statistique (log-rank) abouti à un p < 0.0001. Il est inférieur au seuil fixé a priori (0.001). L’étude a donc été arrêtée et les auteurs ont conclu à un effet du traitement. 2.4.9.4 Interprétation des analyses en sous-groupe Il s’agit de l’analyse du critère de jugement principal dans des sous-groupes de patients définis selon leurs caractéristiques (par exemple, l’âge, le sexe, le stade de la maladie). Ces analyses permettent d’évaluer si l’effet traitement est le même quelles que soient les caractéristiques de la population. Les analyses en sous-groupes doivent être prédéfinies et doivent être considérées comme des analyses exploratoires. La conclusion de l’essai doit porter sur le résultat pour toute la population et non sur l’un des sous-groupes et ce d’autant plus qu’il n’y a pas de différence statistiquement significative dans la population globale. En effet, les analyses en sousgroupe ne devraient être interprétées que si le résultat pour le critère de jugement principal est statistiquement significatif. Le fait de faire des analyses en sous-groupe entraine une inflation du risque alpha (plus on fait de tests, plus le risque alpha augmente) et il sera donc 2 “The Cardiac Insufficiency Bisoprolol Study II (CIBIS-II): A Randomised Trial,” Lancet 353, no. 9146 (January 2, 1999): 9–13. Faculté de médecine Paris Descartes Page 128 Enseignement de Lecture Critique d’Article fréquent d’avoir un résultat statistiquement significatif pour l’un des sous-groupes par le simple fait du hasard. Les résultats des analyses en sous-groupe sont fréquemment présentés sous la forme de figures (appelées Forest plot). Exemple : Figure 23 : Interprétation des résultats d’une analyse en sous-groupe Dans cet exemple, 3 analyses en sous-groupe ont été réalisées : en fonction de l’âge (moins de 77 ans versus plus de 77 ans), en fonction du sexe (hommes et femmes) et en fonction de l’index d’Hardman (index=0, index=1, index≥2). Pour évaluer s’il existe une différence d’effet traitement selon le sous-groupe, il faut faire un test d’interaction entre l’effet du traitement et le sous-groupe. Le résultat de ce test est le p qui est représenté à droite. Dans cet exemple, seul le test d’interaction pour le sexe est statistiquement significatif (p=0.019) c’est à dire qu’il y a une différence d’effet traitement entre les hommes et les femmes. Toutefois, on ne peut rien en conclure. Il serait ainsi complètement erroné de conclure à un bénéfice de l’intervention dans le groupe contrôle chez les femmes car il n’y a pas de différence statistiquement significative globalement (OR=0.94, IC 95% 0.67-1.33). Faculté de médecine Paris Descartes Page 129 Enseignement de Lecture Critique d’Article 2.4.9.5 Interprétation des résultats de tolérance La tolérance d’un traitement est un élément essentiel à évaluer mais elle est fréquemment mal rapportée dans les essais. Tous les évènements indésirables doivent être décrits par groupe de traitement avec leur fréquence de survenue. Les évènements indésirables graves qui sont définis par le décès, tout évènement clinique ayant entraîné la prolongation d’une hospitalisation, une anomalie congénitale, ou une incapacité, doivent être rapportés par groupe de traitement avec leur fréquence de survenue. Les analyses de tolérance manquent fréquemment de puissance car les évènements indésirables sont rares (particulièrement les évènements indésirables graves) et le calcul d’effectif n’est fréquemment pas fait sur des critères de tolérance. Le fait qu’il n’y ait pas de différence statistiquement significative ne permet donc absolument pas de conclure à un bon profil de tolérance du traitement évalué. Il faudra évaluer la différence de pourcentages entre les 2 groupes. 2.4.10 Plans expérimentaux particuliers Nous nous sommes placés jusque ici dans la situation la plus fréquente c’est à dire un essai contrôlé randomisé à 2 bras parallèles et de supériorité. En fait il existe d’autres types d’essai. Nous aborderons ici 2 autres types d’essai contrôlé randomisé sur lesquels vous pouvez être interrogés: les essais en cross-over et les essais d’équivalence ou de non infériorité. 2.4.10.1 Les essais en cross-over Le principe des essais en cross-over est que tous les patients vont recevoir les 2 traitements à l’étude. Les patients seront ainsi leur propre contrôle. Faculté de médecine Paris Descartes Page 130 Enseignement de Lecture Critique d’Article Figure 24 : Schéma d’un essai en cross-over La randomisation détermine l’ordre d’attribution des traitements. Les patients sont donc randomisés en 2 groupes : soit traitement A puis traitement B soit traitement B puis traitement A. L’essai comporte 2 périodes séparées par une période de wash out (lavage) qui permet d’éliminer l’effet du traitement donné en 1ère période (effet rémanent ou carryover). Ce type d’essai présente certains avantages : une comparabilité des groupes parfaite puisque ce sont les mêmes patients et un effectif diminué par 2 par rapport aux essais à 2 bras parallèles avec un gain de puissance lié à l’analyse d’échantillons appariés. Cependant il faut respecter certaines conditions pour pouvoir réaliser ce type d’essai. • Conditions nécessaires o Maladie chronique stable dans le temps : Si la maladie n’est pas stable, on ne pourra pas être sûr que les résultats observés traduisent l’effet du traitement, ils pourraient également traduire l’évolution de la maladie. Ce type d’essai est donc réservé aux maladies telles que l’asthme, l’épilepsie ou encore la migraine. o Les traitements à évaluer doivent être des traitements symptomatiques : ils doivent agir de manière temporaire sur les symptômes et non de manière définitive. L’essai en cross-over n’est ainsi pas adapté pour évaluer des interventions chirurgicales. Faculté de médecine Paris Descartes Page 131 Enseignement de Lecture Critique d’Article o Le critère de jugement peut être répété : Cela peut être par exemple, la douleur. L’essai en cross-over n’est pas adapté pour mesurer des critères de jugement tels que la mortalité… o Période de wash-out : Cette période est nécessaire pour supprimer les effets du traitement donné en 1ère période. Elle permet de supprimer un effet rémanent ou carry-over qui peut se définir comme la poursuite de l’effet du traitement après son arrêt et qui dépend de la demi-vie de la molécule. Principe de l’analyse Il faut systématiquement tester la possibilité d’un effet carry-over en évaluant s’il y a une interaction entre la période et l’effet du traitement. Si on met en évidence une telle interaction, il y a un effet carry-over et on ne pourra pas analyser correctement les résultats de l’essai en cross-over. 2.4.10.2 Les essais d’équivalence ou de non-infériorité Il arrive fréquemment qu’on soit dans une situation où l’on développe des médicaments qui présentent moins d’effets secondaires que ceux qui existent déjà ou qui ont un coût moindre ou encore qui sont plus pratiques d’utilisation (par exemple prise de comprimés au lieu d’injections). Dans ce cas de figure, on cherche à évaluer si le nouveau traitement a une efficacité comparable à celui qui existait déjà (mais qui est moins bien toléré, plus cher ou moins pratique). Comme nous l’avons vu précédemment, avec l’essai « classique », l’absence de différence statistiquement significative ne permet pas de déterminer que les deux traitements sont comparables. Il existe donc un type d’essai particulier permettant de déterminer si deux traitements sont équivalents ou si le nouveau traitement est non-inférieur au traitement de référence. En pratique, il est impossible de déterminer que deux traitements sont strictement équivalents en termes d’efficacité. On montre donc qu’ils ne sont pas trop différents c'est-àdire qu’on doit définir une borne d’équivalence ou de non-infériorité. Si la différence entre les 2 traitements (et son intervalle de confiance à 95%) est comprise dans cette borne, on pourra conclure à l’équivalence ou à la non-infériorité. Faculté de médecine Paris Descartes Page 132 Enseignement de Lecture Critique d’Article Figure 25 : Interprétation des résultats d’un essai selon son plan expérimental Dans ce schéma, ∆ représente la borne d’équivalence ou de non infériorité. Dans le premier cas de figure, pour conclure à la supériorité du traitement A, il faut que l’IC à 95% de la différence soit strictement supérieur à 0. Dans le second cas de figure, pour conclure à l’équivalence entre A et B, il faut que l’IC à 95% de la différence soit strictement inclus entre – ∆ et + ∆ (le traitement A ne doit être ni trop inférieur à B ni trop supérieur). Dans le 3ème cas de figure, pour conclure à la non infériorité de A par rapport à B, il faut que l’IC à 95% de la différence soit strictement supérieur à – ∆ (le traitement A peut être supérieur). Le choix de la borne est très difficile. Il doit se faire en fonction de la spécialité et du type de critère de jugement. La borne va conditionner le nombre de patients à inclure. Plus la borne est petite, plus il faudra inclure de patients dans l’essai. D’un autre côté si la borne est trop large, ce serait erroné de considérer que les deux traitements ont une efficacité comparable. Faculté de médecine Paris Descartes Page 133 Enseignement de Lecture Critique d’Article Dans un essai d’équivalence ou de non-infériorité, il faut faire à la fois une analyse en intention de traiter et une analyse per protocole et vérifier que les résultats sont cohérents avec ces 2 analyses. En effet, comme nous l’avons vu précédemment, l’analyse en intention de traiter a tendance à diminuer les différences entre les 2 groupes ce qui risque de faire conclure plus facilement à l’équivalence ou à la non-infériorité alors que l’analyse per protocole a tendance à augmenter la différence entre les groupes. 2.4.11 Rappel des biais dans un essai contrôlé randomisé Tableau 19 : Rappel des principaux biais dans un essai contrôlé randomisé Nom du biais A quoi ça correspond ? Comment limiter le risque de biais ? Biais de sélection Sélection d’un échantillon non représentatif Sélection d’un échantillon représentatif Absence de comparabilité initiale des groupes favorisant une des interventions Séquence de randomisation aléatoire et respect de la clause d’ignorance (assignation secrète) Biais de performance Le patient et son médecin peuvent être influencés s’ils savent quelle intervention le patient a reçue Double aveugle si possible (dépend du type d’intervention) Biais de classement L’évaluateur peut être influencé s’il sait quelle intervention le patient a reçue Critère de jugement objectif (décès toutes causes confondues) OU Evaluation du critère de jugement en aveugle du traitement reçu si critère de jugement subjectif Biais d’attrition Exclusion de patients de l’analyse Analyse en intention de traiter ET Stratégie de gestion des données manquantes Faculté de médecine Paris Descartes Page 134 Enseignement de Lecture Critique d’Article 2.4.12 Recommandations de reporting pour les essais contrôlés randomisés Faculté de médecine Paris Descartes Page 135 Enseignement de Lecture Critique d’Article Checklist CONSORT 2010 des informations à inclure pour rendre compte d’un essai randomisé* Section/sujet Item N° DESCRIPTION TITRE & RESUME 1a Identification en tant qu’ “essai randomisé“ dans le titre 1b Résumé structuré du plan d’essai, méthodes, résultats et conclusions (pour une aide spécifique voir CONSORT pour Abstract) 2a Contexte scientifique et explication du bien-fondé 2b Objectifs spécifiques et hypotheses 3a Description du plan de l’essai (tel que : groupes parallèles, plan factoriel) en incluant le ratio d’allocation 3b Changements importants de méthode après le début de l’essai (tel que les critères d’éligibilité), en expliquer la raison 4a Critères d’éligibilité des participants 4b Structures et lieux de recueil des données Interventions 5 Interventions pour chaque groupe avec suffisamment de détails pour pouvoir reproduire l’étude, en incluant comment et quand elles ont été véritablement conduites Critères de jugement 6a Critères "à priori" de jugement principal et secondaires entièrement définis, en incluant comment et quand ils ont été évalués 6b Changement quelconque de critères de jugement après le début de l’essai, en expliquer la raison 7a Comment la taille de l’échantillon a-t-elle été déterminée ? 7b Quand cela est applicable, explication des analyses intermédiaires et des règles d’arrêt INTRODUCTION Contexte et objectifs MÉTHODES Plan de l’essai Participants Taille de l’échantillon RANDOMISATION Production de la 8a séquence 8b Méthode utilisée pour générer la séquence d’allocation par tirage au sort Type de randomisation, en incluant les détails relatifs à une méthode de restriction (comme par ex. : par blocs, avec la taille des blocs) Mécanisme d’assignation secrète 9 Mécanisme utilisé pour mettre en œuvre la séquence d’allocation randomisée (comme par exemple : l’utilisation d’enveloppes numérotées séquentiellement), en décrivant chaque mesure prise pour masquer l’allocation jusqu’à l’assignation des interventions. Mise en œuvre 10 Qui a généré la séquence d’allocation, qui a enrôlé les participants et qui a assigné les participants à leurs groupes Aveugle 11a Au cas où, décrire qui a été en aveugle après l’assignation des interventions (par exemple, les participants, les administrateurs de traitement, ceux qui évaluent les résultats) et comment ont-ils été empêchés de savoir 11b Si approprié, description de la similitude des interventions 12a Méthodes statistiques utilisées pour comparer les groupes au regard des Méthodes Faculté de médecine Paris Descartes Page 136 Enseignement de Lecture Critique d’Article Section/sujet Item N° statistiques DESCRIPTION critères de jugement principal et secondaires 12b Méthodes utilisées pour des analyses supplémentaires, telles que des analyses de sous-groupes ou des analyses ajustées Flux des participants (un diagramme est fortement conseillé) 13a Pour chaque groupe, le nombre de participants qui ont été assignés par tirage au sort, qui ont reçu le traitement qui leur était destiné, et qui ont été analysés pour le critère de jugement principal Recrutement 14a Dates définissant les périodes de recrutement et de suivi 14b Pourquoi l’essai a-t-il pris fin ou a été interrompu Données initiales 15 Une table décrivant les caractéristiques initiales démographiques et cliniques de chaque groupe Effectifs analysés 16 Nombre de participants (dénominateur) inclus dans chaque analyse en précisant si l’analyse a été faite avec les groupes d’origine Critères de jugement et estimations 17a Pour chaque critère de jugement principal et secondaire, donner les résultats pour chaque groupe, et la taille estimée de l’effet ainsi que sa précision (comme par ex. : intervalles de confiance à 95%) 17b Pour les variables binaires, une présentation de la taille de l’effet en valeurs absolues et relatives est recommandée Analyses accessoires 18 Résultats de toute analyse supplémentaire réalisée, en incluant les analyses en sous-groupes et les analyses ajustées, et en distinguant les analyses spécifiées à priori des analyses exploratoires Risques 19 Tous les risques importants ou effets secondaires inattendus dans chaque groupe (pour un conseil détaillé voir ‘CONSORT for harms’) Limitations 20 Limitations de l’essai, en tenant compte des sources de biais potentiels ou d’imprécision, et au cas où, en tenant compte de la multiplicité des analyses “Généralisabilité” 21 “Généralisabilité“ (validité externe, applicabilité) des résultats de l’essai Interprétation 22 Interprétations/conclusions cohérentes avec les résultats, en tenant compte du ratio bénéfices/risques et de possibles autres faits pertinents RESULTATS Pour chaque groupe, abandons et exclusions après la randomisation, en donner les raisons DISCUSSION INFORMATIONS SUPPLEMENTAIRES Enregistrement 23 Numéro d’enregistrement de l’essai en précisant le registre utilisé Protocole 24 Où le protocole complet de l’essai peut-il être consulté, si possible Financement 25 Sources de financement et autres ressources (par ex. : fourniture de médicaments), rôle des donateurs * Il est recommandé de lire cette liste CONSORT 2010 à l’aide du document ‘CONSORT 2010 Explanation and Elaboration’ pour mieux comprendre les clarifications apportées à cette nouvelle version. Si opportun, il est aussi recommandé de lire les extensions CONSORT pour les essais en grappes randomisées, les essais de non-infériorités et d’équivalence, les traitements non médicamenteux, les interventions à base d’herbes, les essais pragmatiques. D’autres futures extensions sont attendues. Pour ces extensions et pour des références récentes en rapport avec cette liste CONSORT 2010, aller à : http://www.consort-statement.org/consort-statement/overview0/ Faculté de médecine Paris Descartes Page 137 Enseignement de Lecture Critique d’Article Traduction originale de la liste CONSORT 2010 issue de l’article de: Schulz KF, Latman DG, Moher D. CONSORT 2010 Statement: Updated Guidelines for Reporting Parallel Group Randomised Trials. PLoS Med. 2010;7(3): e1000251. doi:10.1371/journal.pmed.1000251, et d'après la traduction originale de la liste CONSORT 2001 par Pauline Brindel, Caroline Tournoux, Jean-Philippe Jais et Paul Landais, 2006, consultable en version interactive sur http://eb.medecine.univparis5.fr/moodle/course/view.php?id=2 Revue d’Odonto-Stomatologie Février 2010 pp 32-36 extrait de : Cannac C, Viargues P, Dot D. L’écriture scientifique: approche et discussion. Rev Odont Stomat 2010;39:3-75 Figure 26 : CONSORT 2010 Flow Diagram3 3 Kenneth F Schulz, Douglas G Altman, and David Moher, “CONSORT 2010 Statement: Updated Guidelines for Reporting Parallel Group Randomised Trials,” BMJ (Clinical Research Ed.) 340 (2010): c332. Faculté de médecine Paris Descartes Page 138 Enseignement de Lecture Critique d’Article 2.5 Evaluation d’une intervention de prévention ou de dépistage 2.5.1 Prévention La prévention est l’ensemble des mesures permettant d’éviter l’apparition, l’aggravation et l’extension de certaines maladies. L’épidémiologie fournit les données essentielles à l’élaboration des mesures préventives car elle permet l’identification des déterminants des maladies et la démonstration de l’utilité de leur élimination. Elle permet donc aussi la validation des mesures de prévention. Trois types de prévention sont actuellement considérés : - La prévention primaire : vise à éviter la survenue de la maladie et des facteurs de risque (ex : mesures législatives, éducatives) - La prévention secondaire : vise à reconnaître une maladie plus tôt dans l’histoire naturelle, avant que cette maladie soit symptomatique ou rapidement après (ex : dépistage, mesures curatives) - La prévention tertiaire : vise à réduire les conséquences d’une maladie déjà déclarée (ex : rééducation, réadaptation, éducation thérapeutique) Les stratégies de prévention peuvent s’inscrire dans deux cadres : collectif ou individuel. Pour la majorité des maladies, une combinaison de ces deux types de stratégies est utilisée Prévention de masse Prévention individuelle (toute la population) (population à haut risque) Souvent passive Le plus souvent active (peu d’implication des individus) (implication active des individus) Bénéfice individuel petit Bénéfice individuel grand Bénéfice collectif grand Bénéfice collectif petit Fluoration de l’eau Régime alimentaire chez les obèses Vaccination antipoliomyélite Traitement de l’hypertension Port de la ceinture de sécurité Faculté de médecine Paris Descartes Page 139 Enseignement de Lecture Critique d’Article La prévention n’est pas toujours acceptée de la même manière par tout le monde car les messages préventifs peuvent véhiculer de l’inquiétude et l’interprétation du rapport bénéfice/risque n’est pas toujours identique : certains ne voient que le bénéfice (ex : le dépistage) alors que d’autres ne voient que le risque (ex : les effets secondaires attribués aux vaccins). 2.5.2 Dépistage 2.5.2.1 Définitions Une procédure de dépistage vise à identifier dans une population a priori en bonne santé des sujets ayant une maladie inapparente ou à risque élevé de présenter une maladie, en vue d’examens complémentaires, d’un suivi plus rapproché ou de mesures de prévention. La problématique est donc très différente de celle d’une procédure diagnostique qui est réalisée sur indication (symptômes de la maladie) en vue d’affirmer ou d’infirmer l’existence d’une pathologie. Le dépistage opportuniste ou individuel est un dépistage fait sur proposition du médecin traitant, d’un spécialiste ou d’un médecin du travail de faire un test susceptible de découvrir au stade asymptomatique une maladie curable qui n’est pas l’objet de la consultation. Le dépistage collectif organisé (« systématique » ou « de masse ») est mis en place sur décision de l’état et prend souvent la forme de grandes campagnes menées en population. Son organisation définit les responsabilités des multiples partenaires concernés. Il est pris en charge totalement. Enfin, le dépistage peut être sélectif (ou ciblé) et est appliqué sur une population recrutée sur des critères préalablement définis (facteurs de risque). Faculté de médecine Paris Descartes Page 140 Enseignement de Lecture Critique d’Article 2.5.2.2 Avantages et inconvénients d’une procédure de dépistage Avantages Inconvénients - Diminution de la mortalité ou de la - Risque de faux négatifs (faux réconfort) morbidité - Risque de faux positifs (inquiétude et examens de - Traitements moins lourds confirmation inutiles voire dangereux) - Réconfort des sujets négatifs - Risques iatrogéniques des tests diagnostiques et des traitements après dépistage - Allongement de la période de maladie (marquage) 2.5.2.3 Maladies candidates au dépistage Toutes les maladies ne sont pas de bonnes candidates au dépistage car les désagréments et les coûts liés au test peuvent en limiter l’utilité • Le traitement doit être plus efficace au stade où la maladie est dépistée Révéler la maladie aux sujets dépistés peut avoir des conséquences psychologiques et sociales importantes. S’il n’y a pas de traitement efficace disponible, le dépistage n’aura pour effet que d’étiqueter les sujets malades sans qu’il y ait plus de bénéfices que lorsque la maladie est découverte naturellement au cours de son évolution. • Le gain de temps sur l’évolution de la maladie doit se traduire en gain de survie ou de qualité de vie La figure 27 représente la situation où un bénéfice est retiré suite à un test de dépistage. Si aucun traitement efficace n’est prodigué, le dépistage allonge la durée de la maladie car sa découverte est plus précoce mais son évolution n’est pas modifiée. C’est la situation « dépistage inefficace », aucun bénéfice pour le sujet ni pour la société n’en est retiré, voire même, le phénomène d’ « étiquetage » évoqué ci-dessus peut avoir des conséquences délétères. Faculté de médecine Paris Descartes Page 141 Enseignement de Lecture Critique d’Article En revanche, un dépistage efficace se traduira par une avance au diagnostic permettant l’administration d’un traitement et l’augmentation de la survie du patient, la diminution de la durée de la maladie et/ou une augmentation de sa qualité de vie. Figure 27 : Evaluation d’un bénéfice lié au dépistage Un dépistage efficace permet une avance au diagnostic qui s’accompagne d’une guérison. 2.5.2.4 Test disponible pour le dépistage • Propriétés métrologiques satisfaisantes Le but du dépistage est d’identifier le maximum de malades afin de leur faire bénéficier au plus tôt du traitement. Un minimum de faux résultats négatifs par le test doit donc être exigé. Les qualités métrologiques habituellement exigées pour un test de dépistage sont donc une bonne valeur prédictive négative (si le test est négatif, la probabilité d’absence de maladie est élévée) et donc une bonne sensibilité. Faculté de médecine Paris Descartes Page 142 Enseignement de Lecture Critique d’Article La valeur de la spécificité du test est aussi à prendre en compte, en particulier lorsque la maladie est rare et que les tests diagnostiques qui suivront un résultat positif du test de dépistage sont invasifs ou dangereux (un minimum de faux positifs doivent être exposés à ces tests). • Acceptabilité, simplicité et coût L’acceptabilité du test par les différents acteurs d’une procédure de dépistage doit être évaluée. S’il est trop douloureux, le test peut être redouté par les sujets. S’il est trop compliqué à mettre en œuvre, c’est le personnel soignant qui peut hésiter à le systématiser. Si le coût est trop important, c’est au niveau des décideurs et de la société en général que la réflexion sur sa prise en charge peut ralentir son adoption. Toutes ces propriétés sont importantes à évaluer car elles doivent être réunies afin d’assurer la réussite d’un programme de dépistage. 2.5.3 Formulation de l’objectif L’objectif doit être formulé de manière claire et complète. Pour cela, il faut reprendre les différents éléments du PECO où le P représente la population concernée; le E, la procédure de dépistage évaluée; le C, est l’absence de dépistage et le O, le critère de jugement. Par exemple, évaluer l’efficacité d’un dépistage organisé par frottis cervico-vaginal (I) par rapport à une absence de dépistage organisé (C) en termes de mortalité (O) chez les femmes de 25 à 65 ans (P). 2.5.4 Type d’étude L’essai contrôlé randomisé est la référence pour évaluer l’efficacité d’une procédure de dépistage car il permet de limiter les biais et apporte (en théorie) le niveau de preuve scientifique le plus élevé. Faculté de médecine Paris Descartes Page 143 Enseignement de Lecture Critique d’Article Figure 28 : Schéma d’un essai contrôlé randomisé évaluant le bénéfice d’un dépistage organisé 2.5.5 Points à évaluer Les notions précédemment vues dans les essais contrôlés randomisés s’appliquent ici également. Il faudra accorder une attention particulière aux points suivants : - Qualité de la randomisation - Critère de jugement principal : pertinence clinique ? subjectivité ? mode d’évaluation ? - Analyse en intention de dépister : la même chose que l’analyse en intention de traiter mais pour une procédure de dépistage c'est-à-dire l’analyse de tous les patients randomisés dans le groupe dans lequel ils ont été randomisés quel que soit leur suivi, leur compliance et l’intervention qu’ils ont effectivement reçue. L’analyse en intention de dépister est le reflet de l’impact de la procédure de dépistage organisé dans la vraie vie Faculté de médecine Paris Descartes Page 144 Enseignement de Lecture Critique d’Article car on sait très bien que tous les individus qui reçoivent une invitation pour un dépistage organisé ne vont pas forcément le faire et que certains individus randomisés dans le groupe absence de dépistage auront la procédure de dépistage dans le cadre d’un dépistage dit opportuniste via leurs médecins. - Interprétation des résultats : Il faut évaluer si la différence est statistiquement significative et si celle-ci est cliniquement pertinente. Pour cela, il faut considérer la réduction absolue du risque et le nombre de sujets à dépister pour éviter un évènement. Attention, il est normal que ce nombre soit plus élevé que dans un essai thérapeutique classique car les sujets ne sont pas malades. 2.5.6 Biais spécifiques aux études d’évaluation d’une procédure de dépistage • Biais d’avance au diagnostic (lead time bias): la découverte précoce du cancer augmente la durée de vie apparente. C’est la situation « dépistage inefficace » de la figure 27 où les sujets n’ont pas une durée de survie globale augmentée mais se savent malades pendant plus longtemps. • Biais de sélection des formes lentes (length time bias) : le dépistage trouve plus souvent les tumeurs de croissance lente que les tumeurs les plus agressives. Les résultats d’une étude pourront être influencés par la périodicité des tests de dépistage lorsque les deux formes de tumeurs existent (figure 28) • Surdiagnostic : certaines tumeurs évoluent plus lentement que ne surviennent les autres maladies et ne se seraient jamais manifestées (découvertes lors d’autopsie) Faculté de médecine Paris Descartes Page 145 Enseignement de Lecture Critique d’Article Figure 29 : Influence de la durée d’évolution de la maladie et de la périodicité du dépistage 2.5.7 Critères justifiant la mise en place d’un dépistage organisé Pour faire l’objet d’un dépistage organisé, plusieurs critères doivent être réunis : - La maladie doit être un problème de santé publique par sa fréquence, sa sévérité ou son impact socio-économique. - L’histoire naturelle de la maladie doit être bien connue - La maladie doit pouvoir être détectée pendant sa phase de latence asymptomatique - Il n’existe pas de facteurs de risque accessibles à la prévention primaire - Il doit exister un test de dépistage (en phase précoce de la maladie) ayant une forte sensibilité et une forte spécificité Faculté de médecine Paris Descartes Page 146 Enseignement de Lecture Critique d’Article - Le test de dépistage doit être simple à utiliser et avoir une bonne acceptabilité par les patients et les professionnels - Les intervalles de répétition du test doivent être connus - La précocité du traitement doit être démontrée comme un facteur de bon pronostic - Les moyens appropriés de diagnostic et de traitement sont disponibles - Le coût du dépistage (y compris le diagnostic et le traitement) ne doit pas être disproportionné par rapport au coût global des soins médicaux - Le programme de dépistage doit avoir fait la preuve de son efficacité avec des essais contrôlés randomisés - Les moyens existent pour réaliser le programme de dépistage de façon continue et pour faire face aux charges supplémentaires induites par la pratique du test. Les risques physiques et psychologiques du dépistage doivent être démontrés inférieurs aux bénéfices obtenus Faculté de médecine Paris Descartes Page 147 Enseignement de Lecture Critique d’Article Glossaire Ce glossaire reprend les définitions du glossaire du CNCI, que nous avons complétées avec des termes qui nous semblaient importants. Les définitions sont issues chaque fois que possible d’un ouvrage de référence, indiqué entre parenthèses à la fin de chaque définition. Les sources utilisées sont les suivantes : 1. Glossaire du CNCI 2. Glossaire Cochrane (http://www.cochrane.org/glossary/) 3. Bouyer J, Hémon D, Cordier S, Derriennic F, Stücker I, Stengel B, Clavel J. Epidémiologie - Principes et méthodes quantitatives. Lavoisier; 1995. 4. Cucherat M, Lièvre M, Leizorovicz A, Boissel JP. Lecture critique et interprétation des résultats des essais cliniques pour la pratique médicale. Paris: Flammarion; 2004. 5. Guyatt G, Rennie D, Meade M, Cook D. User’s guides to the medical literature: a manual for evidence-based clinical practice, Second edition. JAMA & Archives Journals; 2008. 6. Salmi LR. Lecture critique et communication médicale scientifique. Elsevier; 2007. Faculté de médecine Paris Descartes Page 148 Enseignement de Lecture Critique d’Article Ajustement Définition : Moyen, dans une enquête épidémiologique, de prendre en compte un biais de confusion au moment de l'analyse.(1) En Anglais : adjustment for…, control for… Aléatoire Définition : Dont la survenue dépend du hasard. La répartition aléatoire d'un traitement ou d'une action fait confiance au hasard. On admet que les groupes de sujets tirés au sort sont comparables pour tous les facteurs connus ou inconnus, qui pourraient influencer sur le critère que l'on mesure. Souvent, cette hypothèse de comparabilité des groupes est vérifiée numériquement lors de l'analyse des résultats.(1) En Anglais : random, randomly (faux amis : ce n'est pas forcément de la randomisation !) Alpha Analyse Voir aussi : randomisation Voir risque Alpha Définition : Extraction et exploitation de résultats pertinents à partir d'une série de données. Le type d'analyse doit être prévu a priori dans le protocole de l'étude. Elle prendra en compte la question posée, les critères de jugement utilisés et d'autres variables, appelées covariables, qui peuvent interférer avec les critères de jugement. C'est en fonction du type de variables étudiées (qualitatives, nominales, ordinales ou quantitatives) que pourra se faire le choix des tests utilisés pour cette analyse.(1) Analyse de survie Voir survie En Anglais : survival analysis Analyse en intention de traiter Définition : Méthode qui consiste à analyser les données de tout patient inclus (voir inclusion), et ce dans le « bras » (groupe de tirage au sort) dans lequel il a été randomisé au début de l'étude.(1) En Anglais : intention to treat analysis Voir aussi : analyse per protocole, échantillon analysé Analyse intermédiaire Définition : Analyse effectuée avant l'inclusion de tous les sujets prévus. Elle est réalisée le plus souvent lorsque l'étude est longue ou s’il existe un risque pour le patient. Elle doit être prévue dans le protocole, et le nombre de sujets nécessaires prend en compte le nombre d'analyses intermédiaires qui sont prévues. Pour chaque analyse intermédiaire, un seuil de signification doit être choisi.(1) En Anglais : interim analysis Faculté de médecine Paris Descartes Page 149 Enseignement de Lecture Critique d’Article Analyse par sous-groupe Définition : Analyse qui, à partir des données initiales globales, permet de mettre en avant la différence de traitement entre divers sous-groupes au cours d'un essai thérapeutique. Attention! Si l'analyse par sous-groupe semble attrayante, elle peut être erronée si elle n'a pas été prévue explicitement au départ dans le protocole et si l’étude ne conclut pas positivement sur le critère principal. En effet, même s'il n'existe pas de différence entre deux traitements, on pourra très souvent trouver un sousgroupe particulier où une différence est significative.(1) Synonyme(s) : analyse stratifiée En Anglais : subgroup analysis, stratified analysis Voir aussi : stratification Analyse per protocole Définition : Analyse du sous-ensemble de sujets d'un essai contrôlé randomisé ayant suffisamment respecté le protocole pour que leurs données soient susceptibles de représenter l'effet du traitement. Ce sous-ensemble peut être défini après avoir considéré l'exposition au traitement, la disponibilité d'une mesure de l'événement d'intérêt et l'absence d'écart majeur au protocole. La stratégie d'analyse per protocole est susceptible d'entraîner des biais car les raisons pour lesquelles le protocole n'a pas été respecté peuvent être liées au traitement.(2) En Anglais : per protocol analysis Voir aussi : analyse en intention de traiter, échantillon analysé Analyse stratifiée Voir analyse par sous-groupe En Anglais : stratified analysis Appariement Définition : Technique permettant de rendre comparables deux ou plusieurs groupes, en particulier par rapport à certains facteurs de confusion déjà connus dont on veut neutraliser les effets, (voir apparier).(1) En Anglais : match, pair Voir aussi : apparier Apparier (former des paires) Définition : Rendre comparables deux groupes en termes de facteurs de confusion potentiels. Pour chaque cas (exemple : un malade), on associe un ou plusieurs témoins qui lui sont similaires pour un ou plusieurs facteurs (exemple : âge, sexe, niveau socio-économique).(1) En Anglais : to match, to pair Assignation secrète Bêta Biais Voir aussi : appariement Voir masquage de l'allocation des traitements Voir Risque bêta Définition : Erreur systématique qui fausse les résultats dans un sens donné. On distingue trois grandes familles de biais : les biais de sélection, de classement et de confusion.(1) En Anglais : bias Faculté de médecine Paris Descartes Page 150 Enseignement de Lecture Critique d’Article Biais d’attrition Définition : Différences systématiques entre les groupes de comparaison dans les sorties d'étude ou les exclusions de sujets de l'analyse. Par exemple, les sujets peuvent se retirer d'une étude en raison d'effets secondaires d'une intervention, et l'exclusion de ces sujets de l'analyse pourrait entraîner une surestimation de l'efficacité de l'intervention, en particulier lorsque la proportion de sujets sortant de l'étude varie selon les groupes de traitement.(2) Commentaire(s) : On ne parle de biais d'attrition que dans les études longitudinales (cohortes, essai thérapeutique) car la notion d'attrition sous-entend que les sujets sont exclus ou perdus de vue au cours de leur suivi au sein de l'étude. En Anglais : attrition bias Voir aussi : biais de sélection, perdu de vue Biais d’information Voir biais de classement En Anglais : information bias Biais de classement Définition : Biais dans la mesure du facteur de risque ou dans la certitude de la maladie. Cette erreur est quasi inévitable puisqu'aucun outil de mesure (interrogatoire, examen, test) n'est parfait. Exemple : un comportement à risque minimisé par le malade, ou simplement non recherché dans le questionnaire.(1) Synonyme(s) : biais d'information, biais de mesure En Anglais : information bias, measurement bias Biais de confusion Définition : Biais provoqué par un facteur de confusion interagissant avec le facteur de risque étudié dans l'étude du lien entre ce facteur et la maladie.(1) Biais de mémorisation Définition : Type de biais de classement lorsque l'information sur l'exposition a été obtenue a posteriori après que le diagnostic des cas a été établi (cas-témoin).(1) En Anglais : memory bias Voir aussi : biais de classement Biais de mesure Voir biais de classement En Anglais : measurement bias Biais de performance Définition : Dans une étude interventionnelle, différences systématiques entre les groupes comparés en matière de soins fournis en dehors de l'intervention évaluée. Par exemple, si les sujets savent qu'ils sont dans le groupe de contrôle, ils peuvent être plus susceptibles d'utiliser d'autres formes de soins. Si les soignants sont conscients du groupe auquel appartient un sujet en particulier, ils pourraient agir différemment. L'aveugle des participants à l'étude (les sujets et les soignants) permet de prévenir le biais de performance.(2) En Anglais : performance bias Voir aussi : biais de classement Faculté de médecine Paris Descartes Page 151 Enseignement de Lecture Critique d’Article Biais de sélection Définition : Biais dans la constitution de l'échantillon, qui va se retrouver non représentatif de la population générale pour des facteurs liés au problème étudié (d'où le biais).(1) En Anglais : selection bias Biais maximal Voir aussi : représentatif Voir hypothèse du biais maximal En Anglais : maximum bias Bilatéral Définition : Qui prend comme hypothèse alternative l'existence d'une différence. Un test statistique est bilatéral si on suppose qu'il existe une différence, dans un sens ou dans l'autre.(1) En Anglais : bilateral Cas-témoins Voir Enquête (ou étude) Cas-Témoin En Anglais : case-control Cas-témoins niché dans une cohorte Voir étude cas-témoins nichée dans une cohorte Causalité Définition : Rapport établi entre une cause et un effet, un facteur de risque et une maladie. Le facteur étudié est responsable (au moins en partie) de la maladie étudiée. (1) CCPPRB - CPP Censure En Anglais : case-control study nested in a cohort, nested case-control study En Anglais : causality Définition : Comité consultatif de Protection des personnes se prêtant à la recherche biomédicale. Tous les protocoles de recherche clinique doivent être soumis au CCPPRB pour avis. Ce comité informe de son avis l'investigateur qui lui a présenté la demande. Les études épidémiologiques sans investigations invasives sortent de ce champ. Les nouveaux textes l'ont renommé en CPP, Comité de protection des personnes. (1) Définition : [En analyse de survie :] Terme utilisé dans les études où le paramètre étudié est le temps avant la survenue d'un événement particulier, pour décrire les données de patients dont le résultat est inconnu. On peut savoir qu'un patient n'a pas présenté l'événement jusqu'à un point donné dans le temps, de sorte que "le temps de survie" (c'est-à-dire de non-survenue de l'événement) est censuré à ce point.(2) Commentaire(s) : On ne sait pas quand le patient a présenté l'événement mais on sait que sur la période T il ne l'a pas présenté. Le temps de survie est censuré à la fin de la période T. En Anglais : censoring Voir aussi : survie Clause d'ambivalence Définition : Tout patient inclus dans un essai thérapeutique doit pouvoir recevoir n’importe lequel des traitements étudiés, et donc il ne doit avoir aucune contreindication à l’un ou l’autre des traitements. (1) Faculté de médecine Paris Descartes Page 152 Enseignement de Lecture Critique d’Article Clause d'ignorance Coefficient de corrélation Définition : Fait de ne pas révéler à un patient l’intervention qu'il va recevoir dans un essai thérapeutique avant son entrée dans l’essai, et pour un médecin qui inclut un patient dans l’essai, de ne pas pouvoir prévoir quelle intervention ce patient va recevoir. Sinon, l'inclusion des patients dans l'essai risque d'être influencée par la conviction intime du médecin de l'efficacité de l'un ou l'autre traitement réellement efficace. Une randomisation centralisée, des enveloppes scellées et opaques ou une préparation du médicament dans des containers identiques par un pharmacien permet de respecter la clause d’ignorance(1) Définition : Paramètre mesurant l'association linéaire entre deux variables. Un coefficient de corrélation peut varier de -1 pour une corrélation négative parfaite, à +1 pour une corrélation positive parfaite ("parfaite" signifiant que tous les points sont situés sur une ligne droite). Un coefficient de corrélation de 0 signifie qu'il n'y a pas de relation linéaire entre les variables.(2) Commentaire(s) : Le coefficient de corrélation mesure l'association entre 2 variables quantitatives. Si l'on représente graphiquement Y en fonction de X (par exemple le taux d'hémoglobine en fonction du temps ou le taux de LDL cholestérol en fonction du poids), le coefficient de corrélation correspond à la pente de la droite passant au plus près de l'ensemble des points. Le coefficient de corrélation peut être estimé dans un modèle de régression linéaire. En Anglais : correlation coefficient Coefficient kappa Définition : Mesure de la concordance entre deux mesures, faites par exemple par deux observateurs. Le coefficient kappa prend en compte le fait que les deux mesures peuvent être concordante uniquement par chance, c'est un coefficient de concordance "corrigé de la chance". Il est compris entre -1 (désaccord absolu) et +1 (accord absolu), la valeur 0 correspondant au degré d’accord attendu du seul fait du hasard.(3) Commentaire(s) : Le coefficient kappa mesure la reproductibilité d'une mesure. Il est utilisé notamment pour juger de la fiabilité d'un test diagnostique, ou pour comparer la reproductibilité inter-opérateur (fiabilité de la lecture de radiographies du thorax ou de lames d'anatomo-pathologie par exemple). En Anglais : kappa coefficient Cohorte de sujets Définition : Groupe de personnes suivies dans le temps de manière prospective. (1) En Anglais : cohort Faculté de médecine Paris Descartes Page 153 Enseignement de Lecture Critique d’Article Cohorte historique Définition : Une étude de cohorte rétrospective (ou historique) identifie les sujets à partir de dossiers antérieurs et les suit jusqu'au moment auquel l'étude est réalisée. La cohorte d'individus et le suivi sont reconstitués à partir d'informations anciennes disponibles ou recherchées au moment où l'étude est envisagée.(2,6) Commentaire(s) : Du fait de la reconstitution rétrospective du suivi à partir des dossiers et/ou de l'interrogatoire du patient, des biais sont susceptibles de fausser les résultats (biais de sélection lié à des dossiers non retrouvés, biais de mesure liés à des informations manquantes dans les dossiers, etc.) Synonyme(s) : cohorte rétrospective En Anglais : historical cohort, retrospective cohort Cohorte rétrospective Voir cohorte historique En Anglais : retrospective cohort Comité d’adjudication Définition : Comité composé d’experts cliniques dans le domaine médical concerné dont le but est d’harmoniser et de standardiser l’évaluation des critères de jugement. Commentaire(s) : Recommandé par la FDA et l’EMA : – Critères de jugement subjectifs – Absence d’aveugle Utile en cas d’essais multicentriques internationaux pour harmoniser l’évaluation des critères de jugement. Synonyme(s) : comité des évènements cliniques, comité des évènements critiques En Anglais : adjudication comittee Voir aussi : observateur aveugle Comité d'éthique Comparabilité des groupes Définition : Groupe national d'experts composé de médecins, de juristes, de philosophes, etc. en France. Il donne son avis sur des questions d'éthique d'ordre général. (1) En Anglais : équivalent : IRB - institutional review board Définition : C'est l'un des critères de qualité dans les essais cliniques. C'est une condition nécessaire pour que seul le traitement influence le critère de jugement et que les changements observés soient imputables à la nouvelle thérapeutique testée. La randomisation permet, en théorie, de constituer des groupes comparables. (1) Voir aussi : randomisation Confusion Voir biais de confusion En Anglais : confusion Faculté de médecine Paris Descartes Page 154 Enseignement de Lecture Critique d’Article Consentement éclairé Définition : Document écrit spécifiant les risques encourus par un patient, signé par lui, et dans lequel il est impérativement spécifié que le malade a le droit d'arrêter à tout moment de participer à l'étude, sans conséquence pour la poursuite des soins, dans le cadre d'une étude de recherche clinique soumise à la loi Huriet-Serusclat. Le médecin doit donc expliquer clairement et simplement les avantages et inconvénients de la participation à l'essai, et garde le consentement signé dans le dossier du patient (celui-ci en garde un double). (1) En Anglais : informed consent Courbe de survie Voir Survie (courbe de) En Anglais : survival curve Courbe de survie actuarielle Voir Survie (courbe de) En Anglais : actuarial survival curve Courbe de survie de Kaplan-Meïer Voir Survie (courbe de) En Anglais : Kaplan Meier survival curve Cox Voir modèle de Cox Critère de jugement Définition : Critère qui permet de mesurer l'effet du traitement dans un essai thérapeutique ou la survenue d'un événement dans une étude épidémiologique. L'idéal est d'avoir un seul critère de jugement, dit «critère de jugement principal». (1) Synonyme(s) : critère d'évaluation En Anglais : outcome, endpoint Critères d’éligibilité Définition : Critères définissant quels sujets devront être inclus (critères d'inclusion) ou non (critères de non-inclusion) dans l'étude. Les sujets répondant à ces critères sont les sujets éligibles pour l'étude. Voir aussi : sujets éligibles, inclusion (critères d'), non-inclusion (critères de), exclusion (critères d') Critères d’exclusion Critères de Hill En Anglais : Eligibility criteria Voir exclusion (critères d') Définition : Eléments pouvant être étudiés pour éprouver le caractère causal d'une association entre facteur de risque et maladie ou pour quantifier les risques associés à différentes conditions d'exposition dans différentes populations.(3) En Anglais : Hill's criteria Voir aussi : causalité Faculté de médecine Paris Descartes Page 155 Enseignement de Lecture Critique d’Article Cross-Over Définition : Essai thérapeutique où le sujet est pris comme son propre témoin. Un groupe de patients reçoit le traitement A puis le traitement B, l'autre groupe de patients reçoit le traitement B puis le traitement A.(1) En Anglais : cross-over Degré de signification Définition : Risque (au sens de pari) de se tromper lorsque l'on conclut à une différence dans un test statistique, la plupart des tests étant construits pour mettre en évidence une différence. Lorsqu'on fait un test statistique, le logiciel donne le résultat du test mais surtout le « p » ou degré de signification. Le risque d'erreur considéré comme acceptable est le seuil de signification. Classiquement, le risque d'erreur acceptable est inférieur à 5 %. Donc, si p < 0,05, on a moins de 5 % de chances de se tromper en concluant à une différence, on dit que la différence est significative. Pour p = 0,05, si on répétait cent fois l'expérience, on pourrait trouver une différence significative cinq fois par hasard .(1) Synonyme(s) : p value, valeur de p En Anglais : significance level, p-value Voir aussi : valeur de p Densité d'Incidence Dépistage Définition : Nombre de nouveaux cas d'une maladie, survenus au cours d'une période donnée, rapporté au nombre d'unités personne-temps exposées au risque dans la population. (1) En Anglais : incidence density Définition : Identification de sujets malades à un stade asymptomatique ou peu évolué facilement curable, ou de sujets chez qui on suspecte fortement la maladie et chez qui il est licite de procéder à des explorations plus ou moins invasives et coûteuses qui confirmeront ou infirmeront le diagnostic. (1) En Anglais : screening, detection Design Diagramme de flux Voir type d'étude Voir flow chart En Anglais : flow chart Diagramme de ventilation Voir flow chart En Anglais : flow chart Données censurées Voir censure En Anglais : censored data Dose-effet (relation doseeffet) Double aveugle Définition : Il existe une relation dose-effet, en épidémiologie, lorsque le risque lié à un facteur varie en fonction de l'intensité de l'exposition (c'est-à-dire : plus l'exposition est grande, plus l'incidence est élevée). Pour ce qui concerne les médicaments, il existe une relation dose-effet lorsque l'effet du médicament varie en fonction de la dose reçue. Cette variation a, en général, une certaine forme: linéaire, exponentielle.(1) En Anglais : dose-effect Voir essai en double aveugle En Anglais : double-blind Faculté de médecine Paris Descartes Page 156 Enseignement de Lecture Critique d’Article Double placebo Écart au protocole Échantillon Définition : Dans un essai thérapeutique au cours duquel deux médicaments sont comparés, il est idéal qu’ils soient identiques sur le plan galénique et sur celui du mode d'administration (posologie). Quand ce n'est pas possible, il faut prévoir que les patients recevant A prennent aussi un placebo de B ; et que les patients recevant B prennent aussi un placebo de A.(1) En Anglais : double placebo, double dummy Définition : Ensemble de situations où le protocole n'a pas été suivi scrupuleusement. Il faut le mentionner lors de la restitution des résultats et dire comment cela a été pris en compte dans l'analyse, en expliquant quelle influence peuvent avoir eu ces écarts sur les résultats observés.(1) Définition : Partie de la population sur laquelle on va travailler. L'échantillon est représentatif pour un caractère, si ce caractère se distribue identiquement dans l'échantillon et dans la population globale. Un échantillon aléatoire de taille conséquente (loi des grands nombres) est supposé représentatif (on fait confiance au hasard).(1) En Anglais : sample Échantillon analysé Voir aussi : echantillon analysé Définition : Sujets effectivement pris en compte dans l'analyse statistique et qui contribuent à l'estimation de l'effet traitement ou de l'association étudiée. Ces sujets doivent être les mêmes que les patients randomisés pour éviter un biais d'attrition.(4) Synonyme(s) : patients évalués, patients analysables, patients analysés, population d'analyse En Anglais : analyzed sample, analyzable patients Voir aussi : echantillon, analyse en intention de traiter, analyse per protocole Effet carry over Effet nocebo Définition : Poursuite de l'effet d'un médicament après son arrêt, et dépendant de la demi-vie du médicament : lorsqu'un patient prend un médicament, et qu'il n'interrompt pas assez tôt la prise du médicament, l'effet de celui-ci peut se poursuivre et interférer avec le médicament testé, d’où l’utilité d’une période préalable plus ou moins longue sans traitement (wash out).(1) En Anglais : carry over effect Définition : Effet négatif de la prise d'un médicament qui n'est pas lié aux propriétés physico-chimiques de la molécule, mais au fait même que l'on prend un traitement (effet psychologique).(1) En Anglais : nocebo effect Effet placebo Définition : Effet positif de la prise d'un médicament qui n'est pas lié aux propriétés physico-chimiques de la molécule, mais au fait même que l'on prend un traitement (effet psychologique).(1) En Anglais : placebo effect Faculté de médecine Paris Descartes Page 157 Enseignement de Lecture Critique d’Article Éligibilité Voir Sujets éligibles, critères d'éligibilité En Anglais : eligibility Enquête (ou étude) CasTémoin Définition : Enquête rétrospective dans laquelle on interroge comparativement des malades (cas) et des non malades (témoins) sur leurs expositions dans le passé à des facteurs de risque. Les liens entre expositions et maladies (la mesure du risque de survenue de la maladie lié à l'exposition) sont résumés par des odds ratios et leurs intervalles de confiance.(1) En Anglais : case-control study Enquête casDéfinition : Enquête cas-témoins pour laquelle la population dont sont issus les cas et témoins nichée les témoins est constituée des sujets d'une cohorte suivie par ailleurs.(3) dans une cohorte Synonyme(s) : enquête cas-témoins dans une cohorte, "étude cas-témoins nichée" En Anglais : case-control study nested in a cohort, nested case-control study Voir aussi : Enquête (ou étude) Cas-Témoin, enquête de cohorte Enquête de cohorte Définition : Enquête prospective dans laquelle on suit l'évolution de sujets dont on a relevé initialement l'exposition à des facteurs pour lesquels on veut étudier l'effet sur la santé.(1) En Anglais : cohort study Voir aussi : étude épidémiologique prospective, prospectif Enquête exposés, Définition : Enquête prospective dans laquelle on suit un groupe de sujets exposés à non exposés un facteur de risque et un groupe de sujets non exposés.(1) En Anglais : exposed non-exposed study Enquête longitudinale Définition : Enquête au cours de laquelle des informations sont recueillies de façon longitudinale, c'est-à-dire de manière répétée dans le temps. La durée de l'étude est définie et peut être assez longue (plusieurs années). Elle peut être prospective ou rétrospective.(1) Commentaire(s) : Il s'agit par exemple d'une enquête de cohorte ou d’un essai contrôlé randomisé. Enquête transversale En Anglais : longitudinal study Définition : Enquête qui consiste à recueillir simultanément ou quasi simultanément les données relatives à la maladie et aux facteurs de risques étudiés. Les sujets ne sont pas suivis dans le temps(1) Epidémie En Anglais : cross-sectional study Définition : Augmentation de la fréquence d'une maladie dans une population donnée et à un moment donné, par rapport à ce qui serait attendu en situation normale.(1) En Anglais : outbreak Faculté de médecine Paris Descartes Page 158 Enseignement de Lecture Critique d’Article Epidémiologie Équilibre (tirage au sort) Définition : Étude de la distribution des problèmes de santé et des facteurs qui les influencent. On distingue classiquement épidémiologie descriptive, analytique et évaluative(1) En Anglais : epidemiology Définition : Tirage au sort défini dans le protocole par le fait que pour tous les « n » patients (par exemple, tous les six patients), le nombre de patients recevant le médicament A (trois patients) et le médicament B (trois patients) est le même.(1) Voir aussi : randomisation par blocs Equivalence Essai clinique Définition : Démonstration que deux traitements sont équivalents dans certains essais thérapeutiques spécifiques. La méthodologie est différente des essais classiques dits « essais d'efficacité » (dans les essais classiques, on cherche à mettre en évidence une différence). Les essais d'équivalence nécessitent des hypothèses et des tests statistiques particuliers.(1) En Anglais : equivalence Définition : Étude expérimentale mise en place pour comparer un nouveau traitement au traitement de référence quand il existe, ou à un placebo. Le traitement peut être curatif (le plus souvent) ou préventif. Dans cette définition, le mot : « traitement » peut également s'entendre au sens de stratégie thérapeutique.(1) En Anglais : clinical trial Essai contrôlé Définition : Essai dans lequel il y a un groupe considéré comme témoin et un groupe de sujets traités.(1) Commentaire(s) : Un essai contrôlé n'est pas toujours randomisé. On parle alors d'essai quasi-expérimental. En Anglais : controlled trial Voir aussi : essai contrôlé randomisé Essai contrôlé randomisé Définition : Expérience dans laquelle les individus vont, de manière aléatoire, recevoir ou non une intervention, qui peut être une procédure diagnostique, préventive, thérapeutique ou palliative, puis être suivis afin de déterminer l'effet de l'intervention.(5) Commentaire(s) : Le type de contrôle dépend du protocole de l'étude : pas d'intervention, administration d'un placebo, traitement de référence... Le contrôle initial est obtenu par la randomisation, le maintien du contrôle au cours de l’étude est obtenu par le double aveugle et l’analyse en intention de traiter. En Anglais : randomized controlled trial Essai de phase I Voir aussi : essai contrôlé, randomisation Définition : Ces essais portent sur des volontaires sains. L'étude sert à déterminer la dose maximale tolérée. Elle sert aussi à étudier la cinétique du produit et à calculer les doses qui seront administrées au malade en phase II.(1) Faculté de médecine Paris Descartes Page 159 Enseignement de Lecture Critique d’Article Essai de phase II Définition : Ces essais portent sur des malades volontaires. Cette phase a pour but d'étudier l'efficacité pharmacologique du produit et de déterminer la dose optimale pour la phase III.(1) Essai de phase III Définition : Cette phase correspond, aux essais thérapeutiques comparatifs. Au cours de cette phase d'étude de l'efficacité d'un traitement, on recherche la dose pour laquelle le rapport efficacité/ tolérance est le meilleur et on définit le schéma posologique.(1) Essai de phase IV Définition : Tout essai thérapeutique réalisé après la commercialisation d'un médicament. Il s'agit principalement d'essais de pharmacovigilance ou d'essais comparatifs pour glissement d'indication (indications non encore autorisées par l'AMM).(1) Essai de prévention Définition : Étude expérimentale, ou quasi expérimentale, mise en place pour évaluer l'efficacité d'une action de prévention. Ces essais se font chez des personnes saines (prévention primaire) ou malades (prévention secondaire).(1) Essai d'efficacité Définition : Mise en évidence d'une différence dans un essai thérapeutique où, le plus souvent, le but est de montrer l'efficacité d'un traitement par rapport à un placebo ou au traitement de référence.(1) Essai en double aveugle Définition : Essai au cours duquel, ni le patient, ni le médecin ne connaissent le traitement pris. Cela permet d'éliminer l'effet placebo chez le patient et les biais de performance et de mesure liés à la subjectivité du médecin. Dans l'essai en triple aveugle, le chercheur qui analyse les résultats ne sait pas quel groupe de patients a reçu quel type de traitement.(1) En Anglais : double-blind study Essai en simple aveugle Voir aussi : insu Définition : Essai au cours duquel le patient ne connaît pas le traitement qu'il reçoit. Le médecin connaît le traitement que chaque patient reçoit. Cela permet normalement de neutraliser les effets placebo et nocebo. Syn. : essai en simple insu.(1) En Anglais : simple blind study Essai ouvert Essai séquentiel Essai thérapeutique Définition : Essai thérapeutique souvent mené sur un petit groupe de sujets, parfois comparatif, permettant d'étudier la faisabilité d'un essai comparatif à plus grande échelle.(1) On peut aussi parler d’essai en ouvert quand il n’y a pas d’aveugle. En Anglais : open-label study Définition : Essai thérapeutique dont l'analyse est effectuée régulièrement, au fur et à mesure de l'inclusion et de l'évaluation du critère de jugement chez les sujets inclus (tous les « n » sujets). Ce type d'analyse, par sa méthodologie particulière, permet de maîtriser les risques d'erreurs statistiques de première et de seconde espèce.(1) Définition : Essai permettant l'évaluation d'un médicament chez l'Homme.(1) En Anglais : clinical trial Faculté de médecine Paris Descartes Page 160 Enseignement de Lecture Critique d’Article Estimation Définition : Méthode visant à obtenir une valeur approchée (estimée) pour un paramètre, quand la vraie valeur est inaccessible (ce qui est le cas le plus fréquent). Cette estimation doit être exacte (non biaisée) et précise (variance faible).(1) En Anglais : estimation Étude épidémiologique prospective Définition : Étude épidémiologique au cours de laquelle le recueil d'informations concernant les participants porte sur des événements postérieurs au début de l'enquête et sur l'inclusion des participants.(1) En Anglais : prospective epidemiological study Voir aussi : cohorte, prospectif Événement Définition : Situation qui survient au cours de l'étude : guérison, aggravation de la maladie (décompensation, hémorragie, etc.), rechute, décès.(1) En Anglais : event Exactitude Définition : Qualité d'une mesure sans erreur systématique ou sans biais.(1) En Anglais : accuracy Voir aussi : biais Exclusion (critère Définition : Ensemble d'éléments définis dans un protocole d'exclusion. Les patients d'exclusion) ayant tel ou tel critère ne peuvent pas participer à l’étude.(1) Commentaire(s) : Attention, confusion fréquente avec les critères de non-inclusion, y compris dans les articles. Cela n'invalide pas les résultats de l'étude (!) mais sachez faire la différence entre les deux. Les critères d'exclusion définissent, parmi les sujets inclus dans l'étude, lesquels devront être exclus de l'analyse (survenue d'un événement particulier en cours d'étude par exemple). Les critères de non-inclusion définissent les sujets qui ne doivent pas entrer dans l'étude. Dans la définition CNCI, lisez plutôt "Les patients ayant tel ou tel critère ne seront pas analysés". En Anglais : exclusion criteria Voir aussi : sujets éligibles, critères d'éligibilité Facteur d’interaction Voir interaction Synonyme(s) : facteur modificateur En Anglais : interaction factor Facteur de risque Définition : Facteur augmentant ou diminuant le risque de maladie. Si le risque diminue, on parle de facteur protecteur.(1) En Anglais : risk factor Facteur d'exposition Définition : Fait d'être exposé à un facteur (par exemple, exposé à l'amiante, exposé aux colorants etc.).(1) Synonyme(s) : exposition, intervention, facteur de risque… En Anglais : exposition Faculté de médecine Paris Descartes Page 161 Enseignement de Lecture Critique d’Article Facteur intermédiaire Définition : Facteur qui intervient comme une étape dans la chaîne qui relie un facteur de risque et une maladie. La distinction entre facteur de risque indépendant et facteur intermédiaire ne peut reposer que sur des arguments cliniques et biologiques. Sur le plan statistique, on ne peut pas les distinguer.(3) Commentaire(s) : Dans une recherche étiologique, il ne faut pas prendre en compte un facteur intermédiaire car cela masquerait de façon artificielle l'association entre le facteur de risque étudié et la maladie. Facteur pronostique Définition : Facteur qui influence l'évolution d'une maladie, et qui entraîne plus rapidement une complication ou un décès. Il peut être nécessaire, dans l'analyse d'un essai thérapeutique (en particulier), d'ajuster sur les facteurs pronostiques connus si le critère de jugement est l'évolution de la maladie (par exemple, décès).(1) En Anglais : prognostic factor Fiabilité Définition : Le degré de reproductibilité des résultats obtenus par une procédure de mesure. Le manque de fiabilité peut être lié à des divergences entre des observateurs ou entre des instruments de mesure, à des erreur de mesure, ou à l'instabilité dans l'attribut mesuré.(2) Synonyme(s) : reproductibilité En Anglais : reliability, reproductibility, consistency Flow chart Voir aussi : coefficient kappa Définition : Figure représentant les flux de sujets dans une étude : nombre de patients dont l'éligibilité a été évaluée, nombre de patients éligibles, nombre de patients inclus (randomisés le cas échéant), nombre de patients analysés dans chaque groupe de comparaison. A chaque étape, les raisons de non participation, d'exclusion ou de sortie d'étude sont précisées ainsi que les effectifs correspondants. Synonyme(s) : diagramme de flux, diagramme de ventilation En Anglais : flow chart Fluctuations Définition : Variation des estimations effectuées à partir d'un échantillon de la d’échantillonnage population d'un échantillon à l'autre. Les fluctuations d'échantillonnage diminuent à mesure que la taille de l'échantillon augmente.(2) Commentaire(s) : L'écart-type (ou son carré, la variance) d'un paramètre mesure la variation de l'estimation du paramètre sur tous les échantillons possibles de la même taille. On l'utilise pour calculer l'intervalle de confiance du paramètre estimé. Par exemple, l'intervalle de confiance à 95% d'une moyenne µ est calculé ainsi : (µ - 1,96 x σ(µ) ; µ + 1,96 x σ(µ)) où σ(µ) est l'écart-type de µ. Quand le nombre de sujets augmente, σ(µ) diminue et l'intervalle de confiance se rétrécit. En Anglais : sampling fluctuations Voir aussi : risque alpha, risque bêta, test statistique, intervalle de confiance Faculté de médecine Paris Descartes Page 162 Enseignement de Lecture Critique d’Article Généralisabilité Définition : Le degré de généralisabilité mesure à quel point les résultats peuvent constituer une base correcte pour des généralisations à d'autres circonstances.(2) Synonyme(s) : validité externe, applicabilité En Anglais : generalisability Gold Standard Définition : Test diagnostique qu'on utilise comme référence (même si aucun test n'est parfait). Dans une démarche diagnostique, c'est l'examen que l'on considère comme donnant la meilleure certitude diagnostique.(1) Synonyme(s) : test de reference En Anglais : gold standard Grade d’une recommandation Définition : Niveau de preuve sur lequel se base une recommandation pour la pratique. Le grade doit être différencié de la force d'une recommandation (qui représente à quel point la recommandation est recommandée, indépendamment de la littérature existante sur le sujet). Groupe contrôle (groupe témoin) Définition : Groupe qui reçoit le médicament de référence ou le placebo, par opposition au groupe qui reçoit le nouveau médicament dans un essai thérapeutique contrôlé.(1) Synonyme(s) : groupe témoin Groupe témoin En Anglais : control group Voir groupe contrôle En Anglais : control group Groupes parallèles Définition : Deux groupes de patients suivis en parallèle au cours d'un essai thérapeutique contrôlé, dit : « essai en deux groupes parallèles », où il existe toujours deux groupes au minimum : le groupe qui reçoit le nouveau médicament et le groupe qui reçoit le médicament de référence ou le placebo.(1) En Anglais : parallel groups Hazard ratio Définition : Mesure de la taille d'effet issue d'une analyse de survie. Le hazard ratio représente l'augmentation du risque de présenter l'événement d'intérêt d'un groupe par rapport à l'autre. Par exemple, si le hazard ratio du décès pour un traitement est de 0,5, alors nous pouvons dire que les patients traités sont deux fois moins susceptibles de mourir que les patients non traités.(2) Commentaire(s) : Le hazard ratio est le rapport des risques instantanés dans chaque groupe. Il est supposé constant au cours du temps dans le modèle de Cox. Synonyme(s) : rapport des risques instantanés En Anglais : hazard ratio Hypothèse Définition : Concept qui n'est pas encore démontré(1) En Anglais : hypothesis Faculté de médecine Paris Descartes Page 163 Enseignement de Lecture Critique d’Article Hypothèse du biais maximal Voir hypothèse du biais maximum En Anglais : maximum bias hypothesis, maximum bias analysis Analyse de sensibilité Définition : Analyse réalisée pour déterminer la sensibilité des résultats d'une étude à des changements dans la façon dont cela a été fait. Les analyses de sensibilité sont utilisées pour évaluer à quel point les résultats sont robustes par rapport à des décisions incertaines ou des hypothèses qui ont été faites sur les données et les méthodes utilisées.(2) Commentaire(s) : Les analyses de sensibilité sont faites après l'analyse principale. En pratique, on refait tout ou partie de l'analyse en modifiant certains points des méthodes (autre définition du critère de jugement, autre modèle statistique, etc.) et on regarde si les résultats sont modifiés ou non par cette manoeuvre. Sensibilité (analyse de) Hypothèse du biais maximum En Anglais : sensitivity analysis Voir analyse de sensibilité Définition : Hypothèse dans laquelle on choisit de se situer, au moment de l'analyse, dans la situation la plus défavorable, pour arriver à conclure à une différence.(1) Synonyme(s) : analyse du biais maximum, hypothèse du biais maxima En Anglais : maximum bias hypothesis, maximum bias analysis Hypothèses d'un test statistique Incidence (taux d') Définition : En pratique, pour les tests statistiques, on utilise une hypothèse nulle (pas de différence) et une hypothèse alternative (présence d'une différence). Le test statistique est construit dans le but de rejeter l'hypothèse nulle, avec une certaine probabilité d'erreur.(1) En Anglais : null hypothesis, alternative hypothesis Définition : Fréquence des cas nouveaux dans une période de temps donnée.(1) En Anglais : incidence rate Inclusion (critères d') Définition : Ensemble de critères qui définissent de façon précise les caractéristiques des patients qui peuvent entrer dans une étude.(1) En Anglais : inclusion criteria Voir aussi : sujets éligibles, critères d'éligibilité Indépendance Définition : Neutralité d'un événement A sur un événement B : deux événements sont indépendants si l'issue de l'un n'influe pas sur l'issue de l'autre.(1) En Anglais : independance Inférence Définition : Des conclusions concernant la population étudiée sont obtenues à partir de données issues d'un échantillon aléatoire(1) En Anglais : inference Faculté de médecine Paris Descartes Page 164 Enseignement de Lecture Critique d’Article Insu Définition : Dans un essai thérapeutique, fait de ne pas savoir lequel des traitements est donné. Syn. aveugle.(1) Synonyme(s) : aveugle En Anglais : blind Intensité de l’association Voir aussi : essai en double aveugle Définition : Force du lien d'association entre un facteur de risque ou un traitement et une maladie.(2) Synonyme(s) : force de l'association, taille d'effet Voir aussi : mesure d'association Intention de traiter Voir Analyse en intention de traiter En Anglais : intention to treat Interaction Définition : Mesure dans laquelle l'effet d'un facteur est modifié en fonction de l'action d'un ou de plusieurs facteurs.(1) Synonyme(s) : effet modificateur En Anglais : interaction Intervalle de confiance Définition : Fourchette de valeurs qui encadre une estimation. Quand on parle d'un intervalle de confiance à 95 %, c'est que la probabilité que la vraie valeur du paramètre estimé soit comprise dans cette fourchette est de 0,95.(1) En Anglais : confidence interval Kaplan-Meier Voir Survie (courbe de) Logrank (test du) Voir Survie (Comparaison de deux courbes de survie) En Anglais : Logrank test Loi HurietSerusclat Définition : Loi relative à la protection des personnes qui se prêtent à des recherches biomédicales. Cette loi définit les conditions qui permettent d'effectuer des recherches biomédicales, en particulier la nécessité que la recherche soit menée par un médecin ayant suffisamment d'expérience, la nécessité du consentement éclairé du patient, la désignation d'un promoteur, d’un investigateur coordonnateur, et les autorisations du CPP et de l’autorité compétente.(1) Faculté de médecine Paris Descartes Page 165 Enseignement de Lecture Critique d’Article Masquage de l’allocation des traitements Définition : Dans une étude randomisée, le masquage de l'allocation des traitements consiste à faire en sorte que les personnes qui recrutent les sujets ne sachent pas et ne puissent pas prédire dans quel groupe un individu donné sera randomisé.(2) Commentaire(s) : L'absence de masquage de l'allocation des traitements remet en cause la qualité de la randomisation, car il existe un risque de biais de sélection. Synonyme(s) : assignation secrète, imprévisibilité de la randomisation En Anglais : allocation concealment Médiane de survie Voir Survie (Médiane de) En Anglais : median survival, median survival time Mesure d’association Modalités de recrutement Définition : Mesure de l'intensité de l'association entre un facteur de risque ou une intervention et une maladie. On mesure l'intensité de l'association par la valeur de la différence relative (OR, RR, HR) ou absolue (différence de moyenne ou de pourcentage d'efficacité d'un traitement par exemple) entre les groupes exposés ou non à l'élément soumis à évaluation. Voir aussi : hazard ratio, odds ratio, risque relatif Définition : Méthode(s) de recrutement des sujets dans l'étude : modalités de contact (face-à-face, téléphone, courrier, mail...), lieu et moment du recrutement, sujets dont l'éligibilité est évaluée, information des sujets Commentaire(s) : Le recrutement doit viser à être le plus exhaustif possible. En Anglais : recruitment methods/procedures, mode of recruitment Modèle Définition : Représentation simplifiée d'un phénomène ou d'un processus dans un but explicatif ou prédictif.(1) Synonyme(s) : régression Voir aussi : modèle de régression, modèle de Cox, modèles multivariés, modèle de poisson, régression linéaire, régression logistique Modèle de Cox Définition : [En analyse de survie :] Modèle statistique qui suppose que l'effet des facteurs de l'étude (par exemple l'intervention d'intérêt) sur le risque instantané de survenue d'un événement dans la population de l'étude est multiplicatif et ne change pas avec le temps.(2) Commentaire(s) : Le modèle de Cox permet d'estimer un hazard ratio, brut ou ajusté sur certains facteurs Synonyme(s) : Régression de Cox En Anglais : Cox model, Cox regression Voir aussi : modèle de régression, modèle, modèles multivariés, risque instantané Faculté de médecine Paris Descartes Page 166 Enseignement de Lecture Critique d’Article Modèle de Poisson Définition : Modèle statistique permettant de modéliser le nombre d'occurrences d'événements relativement rares au cours du temps.(2) Commentaire(s) : En recherche clinique on utilise souvent le modèle de Poisson pour étudier le nombre d'hospitalisations, le nombre d'infections, le nombre de visites chez le médecin…des événements pour lesquels on imagine bien qu'un grand nombre de patients présentera entre 0 et 5 événements. Le modèle de Poisson suppose que le taux d'incidence de l'événement étudié est constant au cours du temps, ce qui est souvent vrai pour des durées d'observation assez courtes. Synonyme(s) : Régression de Poisson En Anglais : Poisson model, Poisson regression Modèle linéaire Voir régression linéaire En Anglais : Linear model Modèle logistique Voir régression logistique En Anglais : Logistic model Modèles de régression Définition : Modèle statistique qui permet d'estimer ou de prédire l'association entre une ou plusieurs variables (dites indépendantes ou explicatives) sur une variable dite dépendante ou à expliquer, par exemple, l'association entre l'âge, le sexe et le niveau d'éducation et la prévalence d'une maladie. La régression logistique et la régression linéaire sont des types d'analyse de régression.(2) Commentaire(s) : Un modèle de régression peut être univarié (ou simple) s'il n'inclut qu'une seule variable explicative, ou multivarié (ou multiple) s'il en inclut plusieurs. Un modèle univarié permet de mesurer l'association brute (OR, HR, coefficient, selon le type de régression) entre la variable explicative et la variable à expliquer. Un modèle multivarié permet d'ajuster cette mesure sur les autres variables incluses dans le modèle, c'est-à-dire de mesurer l'association de chaque variable du modèle avec la variable à expliquer en "tenant compte" des autres variables explicatives. En Anglais : regression models Voir aussi : modèle, modèle de Cox, modèles multivariés, modèle de poisson, régression linéaire, régression logistique Faculté de médecine Paris Descartes Page 167 Enseignement de Lecture Critique d’Article Modèles multivariés Définition : Modèles statistiques (regression) incluant plusieurs variables explicatives simultanément, permettant de mesurer l'association avec l'événement étudié de plus d'une variable à la fois lors de l'analyse d'un ensemble de données. Par exemple, l'association de l'âge, du sexe et de la profession avec la survenue d'un événement particulier.(2) Commentaire(s) : La mesure d'association de chaque variable explicative avec la variable à expliquer est ajustée sur l'ensemble des autres variables explicatives incluses dans le même modèle multivarié. Synonyme(s) : modèle ajusté sur les facteurs…, régression multivariée En Anglais : multivariate models, model adjusted for… Voir aussi : modèle, modèle de Cox, modèles de régression, modèle de poisson, régression linéaire, régression logistique Multicentrique (essai) Définition : Qualifie un essai ou une étude se déroulant dans plusieurs centres à la fois, pour, le plus souvent, augmenter le nombre de patients à inclure dans l'essai. Les essais multicentriques sont intéressants à réaliser lorsque la fréquence de la maladie est faible. Lors de l'analyse des résultats, il faut tenir compte de l'effet-centre (malgré un protocole commun, il est possible que les patients pris en charge diffèrent légèrement d'un centre à l'autre).(1) En Anglais : multicenter Niveau de preuve Définition : Hiérarchie de preuve scientifique pour informer les praticiens, allant en général des plus forts aux plus faibles niveaux.(5) Commentaire(s) : Le niveau de preuve d’une étude caractérise sa capacité à répondre à la question posée. Cette capacité est fonction du plan de l’étude, de son adéquation avec la question posée et de la qualité de l'étude En Anglais : level of evidence Nombre de sujets Définition : Nombre de sujets qui permettra de mettre en évidence une différence nécessaires minimale escomptée. Ce nombre est calculé a priori, il est lié au risque alpha, au risque bêta et à la différence A moyenne que l'on souhaite mettre en évidence. Le nombre de patients inclus tient compte, non seulement du nombre de sujets nécessaires, mais, en plus, des éventuels perdus de vue. Il est donc généralement supérieur au nombre de sujets nécessaires.(1) En Anglais : number of subjects needed Voir aussi : puissance Faculté de médecine Paris Descartes Page 168 Enseignement de Lecture Critique d’Article Non-inclusion (critères de) Définition : Liste de critères faisant que les patients ne peuvent pas être inclus dans une étude ou un essai.(1) Synonyme(s) : (à tort) critères d'exclusion En Anglais : non-inclusion criteria, exclusion criteria (à tord) Voir aussi : sujets éligibles, critères d'éligibilité Observance Observateur aveugle Odds (cote) Définition : Capacité des patients à prendre leur traitement conformément à ce qui est décrit dans le protocole. Il peut être nécessaire de s'en assurer en demandant au patient de ramener les boîtes vides, ou par des mesures de marqueurs biologiques dans le sang ou les urines.(1) En Anglais : adherence, compliance Définition : Dans un essai thérapeutique, investigateur tiers qui dans un but d’objectivité ne connaît pas le traitement reçu par le patient et qui mesure le critère de jugement.(1) Définition : Cote (de probabilité), utilisé dans les jeux et les paris. C'est un ratio dans lequel le numérateur contient le nombre de fois où un événement survient, et le dénominateur inclut le nombre de fois où l'événement ne survient pas.(1) Voir aussi : odds ratio Odds ratio rapport de cotes Définition : Rapport de deux odds : celui estimé chez les exposés sur celui estimé chez les non exposés. M+ ME+ aba+b E- c d c + d a+cb+dN Le rapport (a x d) / (b x c) odds ratio (OR). Si la prévalence est faible, OR est un bon estimateur du risque relatif RR. La valeur de l'OR doit s'interpréter avec son intervalle de confiance ou la valeur du test du Chi-2 calculée sur le tableau. E+ exposés,E- non exposés, M+ malades, M- non malades, N total(1) Synonyme(s) : OR En Anglais : odds ratio Voir aussi : odds, mesure d'association P Probabilité que le hasard puisse expliquer à lui tout seul, une différence au moins aussi grande que celle observée. Syn. « petit p », p value(1) Per protocole En Anglais : p-value Voir analyse per protocole En Anglais : per protocol Faculté de médecine Paris Descartes Page 169 Enseignement de Lecture Critique d’Article Perdu de vue Plan d’étude Définition : Patient qui n'est pas suivi sur la totalité de la période prévue par le protocole d'un essai ou d'une étude épidémiologique. On ne sait pas si le patient a guéri, s'il a eu une complication ou des effets secondaires, et pourquoi il n'est pas revenu.(1) Voir aussi : biais d'attrition Voir type d'étude En Anglais : study design Population Définition : Ensemble d'unités, le plus souvent des personnes définies sur des critères précis.(1) En Anglais : population Population cible Définition : Population à laquelle les résultats d'une étude pourront a priori être étendus.(1) En Anglais : target population Population d’analyse Population source Voir aussi : population source Voir échantillon analysé Définition : Population au sein de laquelle l'échantillon a été tiré.(1) Voir aussi : population cible Prévalence Définition : Nombre de personnes égal à la proportion de malades M à un instant t.(1) Synonyme(s) : fréquence de la maladie, proportion de malades En Anglais : prevalence Prévention Définition : « Ensemble des mesures visant à éviter ou à réduire le nombre ou la gravité des maladies ou accidents » (OMS).(1) En Anglais : prevention Prévention primaire Prévention secondaire Définition : Ensemble des mesures ayant pour but de lutter contre l'apparition de nouveaux cas. On diminue l'incidence.(1) Définition : Ensemble des mesures ayant pour but de diminuer le nombre de malades, donc, de diminuer la durée de l'état morbide. Elle vise à réduire la prévalence.(1) Prévention tertiaire Définition : Ensemble de mesures ayant pour but de diminuer le nombre d'incapacités et leurs conséquences sociales suite à une maladie dans une population.(1) Probabilité Définition : Vraisemblance de survenue d'un événement, généralement exprimée en tant que proportion entre ceux qui subissent l'événement et ceux qui courent le risque de le subir.(1) Faculté de médecine Paris Descartes Page 170 Enseignement de Lecture Critique d’Article Probabilité posttest Définition : Probabilité que la condition ciblée (maladie) soit présente une fois que le résultat d'un test est renseigné.(5) Commentaire(s) : Un test diagnostique positif devrait permettre idéalement de confirmer une hypothèse diagnostique, donc de maximiser le plus possible la probabilité post-test. Inversement, un test diagnostique négatif devrait permettre idéalement d'éliminer une hypothèse diagnostique, donc de minimiser le plus possible la probabilité post-test. En Anglais : posttest probability Voir aussi : rapport de vraissemblance positif, rapport de vraissemblance négatif, probabilité pré-test Probabilité prétest Définition : Probabilité que la condition ciblée (maladie) soit présente avant que le résultat d'un test soit renseigné.(5) Commentaire(s) : II s'agit d'une évaluation subjective du médecin. En Anglais : pretest probability Voir aussi : rapport de vraissemblance positif, rapport de vraissemblance négatif, probabilité post-test Prospectif Définition : Qualifie une enquête dont le suivi se fait postérieurement à l'enregistrement de l'exposition au facteur de risque.(1) En Anglais : prospective Voir aussi : étude épidémiologique prospective, cohorte, rétrospectif Protocole Définition : Document planifié qui définit précisément les objectifs, les moyens et les méthodes mis en oeuvre pour y parvenir.(1) En Anglais : protocol Faculté de médecine Paris Descartes Page 171 Enseignement de Lecture Critique d’Article Puissance Définition : Dans un test statistique, probabilité de conclure à l'existence d'une différence qui existe dans la réalité. C'est le complément à un du risque bêta (1-bêta). Elle augmente avec le nombre de sujets inclus dans l'étude. Elle est fixée a priori. (1) Synonyme(s) : puissance statistique En Anglais : power, statistical power Voir aussi : nombre de sujets nécessaire Randomisation Définition : Tirage au sort des patients permettant une répartition au hasard, aléatoire, des patients dans deux ou plusieurs groupes(1) Synonyme(s) : allocation aléatoire En Anglais : randomization Voir aussi : aléatoire, essai clinique, essai contrôlé, essai thérapeutique, randomisation par blocs, randomisation simple Randomisation par blocs Définition : Méthode de randomisation qui permet de limiter les déséquilibres dans le nombre de patients randomisés entre les groupes en cas de faible effectif (lorsqu’il y a un risque de fluctuations d’échantillonnage). Pour un bloc de taille N, tous les N patients, N/2 seront randomisés dans le groupe A, N/2 dans le groupe B. En Anglais : Block randomization (random permuted blocks) Randomisation simple Voir aussi : randomisation, randomisation simple, équilibre (tirage au sort) Définition : Randomisation n'utilisant pas de méthode particulière pour équilibrer les effectifs ou les caractéristiques de sujets entre les groupes (pas de randomisation par blocs et randomisation non stratifiée) En Anglais : simple randomization Voir aussi : randomisation, randomisation par blocs Randomisation stratifiée Voir stratification de la randomisation En Anglais : stratified randomization Rapport de vraisemblance négatif Définition : Un rapport de vraisemblance négatif permet d’estimer dans quelle mesure une maladie chez un patient est moins plausible après un résultat de test négatif. C’est la relation entre la probabilité d’un test négatif chez les malades et chez les nonmalades. RV- = (1 - sensibilité)/spécificité. Ce nombre est normalement plus petit que 1. Un test diagnostique informe d’autant plus que le RV- se rapproche de 0. (Source : http://www.minervaebm.be/articles/fr/woordenlijst_fr/rapport_de_vraisemblance.htm) En Anglais : negative likelihood ratio Voir aussi : rapport de vraissemblance positif, probabilité pré-test, probabilité posttest Faculté de médecine Paris Descartes Page 172 Enseignement de Lecture Critique d’Article Rapport de vraisemblance positif Définition : Un rapport de vraisemblance positif permet d’estimer dans quelle mesure la présence d’une maladie chez un patient est plus plausible après un résultat de test positif. C’est la relation entre la probabilité d’un test positif chez les malades et celle chez les non-malades. RV+= sensibilité/(1 - spécificité). Ce nombre est normalement plus grand que 1. Un test diagnostique informe d’autant plus que le RV+ tend vers l’infini. (Source : http://www.minervaebm.be/articles/fr/woordenlijst_fr/rapport_de_vraisemblance.htm) En Anglais : positive likelihood ratio Voir aussi : rapport de vraissemblance négatif, probabilité pré-test, probabilité posttest Ratio de mortalité Définition : Rapport entre un nombre de décès observé dans une population et le standardisé nombre de décès attendu (en se basant sur le taux de la population générale).(1) Régression Voir modèle de régression En Anglais : regression Régression de Cox Voir modèle de Cox En Anglais : Cox regression Régression de Poisson Voir modèle de Poisson En Anglais : Poisson regression Régression linéaire Définition : Établissement d'une relation linéaire dans laquelle une variable de la forme Y = aX + bZ + ... + constante quantitative dépend linéairement d'une (X) ou plusieurs autres variables (X et Z) (dites explicatives). On parlera respectivement de régressions linéaires simple (une variable explicative) ou multiple (plusieurs variables).(1) Synonyme(s) : modèle linéaire En Anglais : linear regression, linear model Régression logistique Voir aussi : modèle de régression, modèle, modèles multivariés Définition : Forme d'analyse de régression qui modélise la probabilité d'une maladie ou d'un autre événement en fonction d'un facteur de risque ou une intervention. Il est largement utilisé pour les variables dichotomiques (en oui/non), en particulier pour faire une analyse ajustée sur certains facteurs de confusion potentiels.(2) Synonyme(s) : modèle logistique En Anglais : logistic model, logistic regression Voir aussi : modèle de régression, modèle, modèles multivariés Régression multivariée Voir modèles multivariés En Anglais : multivariate regression Faculté de médecine Paris Descartes Page 173 Enseignement de Lecture Critique d’Article Répartition aléatoire Voir aléatoire Synonyme(s) : allocation aléatoire, randomisation En Anglais : random allocation, randomisation Voir aussi : randomisation Représentatif Définition : Qualifie un échantillon par rapport à un caractère, si ce caractère se distribue identiquement dans l'échantillon et dans la population dont il est issu. Un échantillon tiré au sort est représentatif, pourvu que son effectif soit suffisant (loi des grands nombres).(1) En Anglais : representative Reproductibilité (d'un test diagnostique) Rétrospectif Voir aussi : biais de sélection Voir fiabilité Définition : Qualifie un intérêt pour le passé des sujets participant l'enquête. On part à la recherche du temps passé.(1) Synonyme(s) : historique En Anglais : retrospective Voir aussi : Enquête (ou étude) Cas-Témoin, cohorte historique, prospectif Risque Définition : Probabilité de survenue d'un événement.(1) En Anglais : risk Risque absolu Risque alpha Définition : Risque de survenue d'un événement (en général fâcheux : décès, maladie, complication, etc.) chez une personne donnée, pendant un intervalle de temps déterminé, en fonction de la connaissance des facteurs de risque auxquels elle est exposée.(1) En Anglais : absolute risk Définition : Probabilité de conclure à une différence alors qu'elle n'existe pas.(1) Voir aussi : fluctuations d'échantillonnage Risque bêta Définition : Probabilité de ne pas conclure à une différence alors que cette différence existe.(1) Voir aussi : puissance, fluctuations d'échantillonnage Risque de deuxième espèce Risque de première espèce Risque instantané Voir Risque bêta Voir risque alpha Définition : [En analyse de survie :] Risque de survenue de l'événement d'intérêt à un instant donné. En Anglais : instantaneous hazard rate Voir aussi : hazard ratio, modèle de Cox Faculté de médecine Paris Descartes Page 174 Enseignement de Lecture Critique d’Article Risque relatif Définition : C'est un indicateur qui mesure l'association entre un facteur d'exposition et un événement (survenu d'une maladie, décès, etc.) Sur un tableau de contingence, on peut définir : M+ ME+ aba+b E- c d c + d a+cb+dN Incidence chez les exposés : I E = a / (a + b) Incidence chez les non exposés : I NE = c / (c + d) La quantité (formule) est appelée : « risque relatif RR ». Les exposés ont RR fois plus de risques de développer la maladie que les non exposés. Un risque relatif supérieur à un signifie que l'exposition augmente le risque (facteur de risque), un risque inférieur à un signifie que l'exposition diminue le risque (facteur protecteur).(1) En Anglais : relative risk Voir aussi : mesure d'association, risque Schéma expérimental Sensibilité Voir type d'étude Définition : Probabilité que le test soit positif (T+) si on est malade. M+ MTest + VP FP Nb T+ Test- FN VN Nb TNb M+ Nb M- N Sensibilité : (formule) Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs.(1) En Anglais : sensitivity Voir aussi : valeur prédictive positive, valeur prédictive négative, spécificité, Validité (diagnostique) Signification statistique Définition : Conviction selon laquelle le résultat observé n'est pas lié au seul hasard ; elle est généralement basée sur une valeur de p inférieure à 0,05.(1) En Anglais : statistical significance Voir aussi : degré de signification, risque alpha Spécificité Définition : Probabilité que le test soit négatif (T-) si on n'est pas malade. M+ MTest + VP FP NbT+ Test- FN VN NbTNb M+ Nb M- N Spécificité : (formule) Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs.(1) En Anglais : specificity Voir aussi : valeur prédictive positive, valeur prédictive négative, sensibilité, Validité (diagnostique) Faculté de médecine Paris Descartes Page 175 Enseignement de Lecture Critique d’Article Strate Voir stratification Synonyme(s) : sous-groupe En Anglais : strate, subgroup Stratification Définition : Répartition d'un échantillon en sous-groupes appelés strates, en fonction d'une ou plusieurs caractéristiques. Ainsi, au sein de chaque strate, les individus sont homogènes pour cette ou ces caractéristiques.(1) En Anglais : stratification Voir aussi : stratification de la randomisation, analyse par sous-groupe Stratification de la randomisation Définition : Méthode utilisée pour s'assurer qu'un nombre égal de sujets ayant une caractéristique supposée affecter le pronostic ou la réponse à l'intervention sera alloué à chaque groupe de comparaison. La randomisation stratifiée est réalisée en effectuant une randomisation séparément pour chaque strate. Par exemple, dans un essai chez des femmes ayant un cancer du sein, il peut être important de disposer d'un nombre similaire de femmes en pré-ménopause et en post-ménopause dans chaque groupe de comparaison. La randomisation stratifiée peut être utilisée pour équilibrer le nombre de femmes pré-et post-ménopausées dans les groupes de traitement.(2) Synonyme(s) : randomisation stratifiée En Anglais : stratified randomization Voir aussi : stratification, randomisation Sujets éligibles Définition : Un sujet est dit éligible dans le cadre d'une étude de recherche clinique, à partir du moment où l'ensemble de ses caractéristiques répond d'une part à l'ensemble des critères d'inclusion, et d'autre part à l'ensemble des critères de noninclusion définis dans le protocole de l'étude.(1) En Anglais : eligible subjects Voir aussi : critères d'éligibilité, inclusion (critères d'), exclusion (critères d'), noninclusion (critères de) Survie (Courbe de) Définition : Représentation graphique d'un taux de survie en fonction du temps. On rencontre principalement : - les courbes de survie de Kaplan-Meïer, avec un aspect en marches d'escalier de hauteurs inégales, où chaque événement, ou plusieurs événements simultanés, représentent la verticale d'une marche (la hauteur de la marche étant proportionnelle au nombre d’événements survenus) ; - les courbes de survie actuarielle, avec un aspect de courbe formée de segments de droite reliant des points situés à intervalles réguliers au cours du temps (semaines, mois, etc.). L'utilisation de ces méthodes suppose que le risque de décès soit constant pendant toute la durée de l'étude. La notion de survie est extensible à tout événement qualitatif binaire non récurent autre que le décès : on peut citer, en cancérologie, l'apparition d'une récidive ou l'apparition d'une métastase.(1) En Anglais : survival curve Voir aussi : censure, modèle de Cox Faculté de médecine Paris Descartes Page 176 Enseignement de Lecture Critique d’Article Survie (date des dernières nouvelles) Définition : La date des dernières nouvelles, dans une étude de survie, représente pour chaque patient, soit la date de survenue de l'événement (décès par exemple), soit la dernière date pour laquelle on dispose de renseignements concernant un patient en vie (si l'événement étudié est le décès)(1) Survie (date d'origine) Définition : La date d'origine, dans une étude de survie, représente pour chaque patient sa date d'entrée dans l'étude, par exemple la date de diagnostic anatomopathologique de son cancer.(1) Survie (délai ou temps de participation) Définition : Le délai de participation, dans une étude de survie, représente le délai entre la date des dernières nouvelles et la date d'origine.(1) Survie (Médiane de) Définition : Délai de survie pour lequel on observe une mortalité de 50 % de la population de sujets inclus dans l'étude.(1) En Anglais : median survival, median survival time Survie (recul) Définition : Le recul d'un patient, dans une étude de survie, représente le délai écoulé entre la date d'origine et la date de point. Les reculs minimum et maximum d'une série de sujets participant à une étude définissent donc «l'ancienneté » de la série.(1) Survie (sujet censuré) Définition : Un sujet est dit censuré à droite, dans deux situations de mécanismes différents : - lorsqu'il est considéré comme perdu de vue, si on ne connaît pas son état à la date de point, mais si on sait qu'il était encore vivant à une date antérieure, définie comme date des dernières nouvelles, - lorsqu'il est considéré comme exclu-vivant, c'est-à-dire lorsqu'on dispose de son état (vivant ou mort) à une date des dernières nouvelles, postérieure à la date choisie comme date de point. Dans ce cas, sa participation à l'étude ne sera étudiée qu'entre sa date d'origine et la date de point.(1) En Anglais : (right-)censored follow-up Survie (Taux de Définition : Indicateur largement utilisé en cancérologie, indiquant le taux de survie survie à cinq ans) cinq ans après le diagnostic initial.(1) En Anglais : 5-year survival rate Survie [Comparaison de deux courbes de survie (Test du logrank)] Taux Taux de survie à cinq ans Définition : C'est le test le plus courant permettant la comparaison de deux courbes de survie.(1) Définition : Rapport constitué d'un numérateur représenté par le nombre d'individus porteurs d'un attribut ou vivant un événement dans une population susceptible de présenter l'attribut ou de vivre l'événement en question (en général à un moment ou durant une période donnée). Cette population constitue le dénominateur du taux. Proportion dans laquelle le numérateur est une partie du dénominateur. Un taux est donc un nombre sans unité.(1) En Anglais : rate Voir Survie (taux de survie à cinq ans) En Anglais : 5-year survival rate Taux de survie à un temps donné Voir Survie (taux de survie à un temps donné) Faculté de médecine Paris Descartes Page 177 Enseignement de Lecture Critique d’Article Technique Définition : Mode d'obtention de l'échantillon. Pour avoir un échantillon représentatif, d'échantillonnage la méthode la plus simple est le tirage au sort. La taille de l'échantillon est primordiale car elle conditionne la précision des estimations sur cet échantillon.(1) En Anglais : sampling method Temps de participation ou délai de survie Voir Survie (délai ou temps de participation) Test bilatéral Définition : Test statistique pour lequel on prend, comme hypothèse alternative, l'existence d'une différence, dans un sens ou l'autre.(1) En Anglais : bilateral test Voir aussi : test statistique Test de référence Voir gold standard En Anglais : gold standard Test statistique Définition : Méthode statistique permettant de rejeter ou non une hypothèse dite nulle (H0) en calculant la probabilité qu'un résultat observé (souvent une différence entre deux groupes) soit lié au hasard. Si cette probabilité est inférieure au seuil fixé à priori (en général 5%), on rejette l'hypothèse nulle. Si l'on rejette l'hypothèse nulle, on conclut à la véracité de l'hypothèse alternative (H1). En revanche si l'on ne rejette pas l'hypothèse nulle, on ne peut pas conclure à la véracité de l'hypothèse nulle. Pour savoir si le résultat observé avait moins de 5% de probabilité d'être lié au hasard, on calcule un paramètre de test. Celui-ci permet de ramener le résultat observé à une distribution pour laquelle on connaît la probabilité d'occurrence de chaque valeur. Selon la distribution du résultat observé (loi normale, loi de Student, loi du Chi-2...), le paramètre de test sera différent. En Anglais : statistical test Voir aussi : fluctuations d'échantillonnage, degré de signification Test unilatéral Définition : Test statistique pour lequel on prend comme hypothèse alternative l'existence d'une différence dont le sens est connu.(1) En Anglais : unilateral test Voir aussi : test statistique, unilatéral Type d’étude Définition : Terme désignant généralement (y compris dans ce cours) l'ensemble des caractéristiques d'une étude. Synonyme(s) : design, plan d'étude, schéma expérimental En Anglais : design Unilatéral Définition : Test statistique pour lequel on prend comme hypothèse alternative une différence, uniquement dans un sens.(1) En Anglais : unilateral Voir aussi : test statistique, test unilatéral Faculté de médecine Paris Descartes Page 178 Enseignement de Lecture Critique d’Article Univariée (analyse) Définition : Analyse dans laquelle on étudie l'action d'un seul facteur à la fois sur un phénomène observé.(1) En Anglais : univariate analysis Voir aussi : modèles multivariés Valeur de p Définition : Probabilité que le hasard puisse expliquer à lui tout seul une différence au moins aussi grande que celle observée. En Anglais : p-value, significance level Valeur prédictive négative Voir aussi : degré de signification, test statistique, fluctuations d'échantillonnage Définition : Probabilité de n'être pas malade (M-) si le test est négatif (T-). M+ MTest + VP FP NbT+ Test- FN VN NbTNbM+ NbM- N Valeur prédictive négative : VPN=VN/(VN+FN) Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs(1) En Anglais : positive predictive value Voir aussi : valeur prédictive positive, sensibilité, spécificité, Validité (diagnostique) Valeur prédictive positive Définition : Probabilité d'être malade (M+) si le test est positif (T+). M+ MTest + VP FP NbT+ Test- FN VN NbTNb M+ Nb M- N Valeur prédictive positive : VPP=VP/(VP+FP) Voir VP vrais positifs, VN vrais négatifs, FP faux positifs, FN faux négatifs.(1) En Anglais : negative predictive value Voir aussi : valeur prédictive négative, sensibilité, spécificité, Validité (diagnostique) Validité (diagnostique) Définition : Capacité d'un test à donner la réponse appropriée à la question posée. Cela suppose qu'elle doit être précise et exacte.(1) En Anglais : validity Variable Voir aussi : sensibilité, spécificité, valeur prédictive positive, valeur prédictive négative Définition : Attribut ou phénomène qui présente différentes valeurs, tel l'âge, le sexe, le nombre de cigarettes fumées...(1) En Anglais : variable Faculté de médecine Paris Descartes Page 179 Enseignement de Lecture Critique d’Article Variance Définition : Indicateur de la variation d'un caractère quantitatif dans un ensemble d'observations. C'est le carré de l'écart-type. Plusieurs formules équivalentes existent, la plus intuitive étant de dire que la variance est la "moyenne des carrés des écarts à la moyenne" : Var(X) = E[(X - E(X))²] Synonyme(s) : écart-type (racine de la variance) En Anglais : variance, standard error (écart-type) Faculté de médecine Paris Descartes Page 180